在當今的數(shù)字創(chuàng)作領(lǐng)域,StableDiffusion(以下簡稱 SD)無疑是一顆璀璨的明星,吸引著眾多創(chuàng)作者的目光。如果你是剛接觸這方面的小白,或者是剛剛進入相關(guān)主頁對話的新人,那么接下來的這篇文章,將帶你在 10 分鐘內(nèi)全面了解與 SD 相關(guān)的各類技術(shù)知識。
一、StableDiffusion 是什么?
SD 最早是由 Stability AI 于 2022 年 8 月發(fā)布的一款通過深度學習來實現(xiàn)文本到圖像生成的模型。這里要特別注意的是,SD 并非一個軟件,它本質(zhì)上是一個強大的生成模型,更確切地說,它是一大堆代碼構(gòu)成的一種生態(tài)。
在最初發(fā)布時,SD 需要在命令行界面進行操作,用戶得通過輸入命令來加載模型,再輸入文本描述才能生成圖像。這對于沒有編程基礎(chǔ)的用戶而言,幾乎是無法使用的狀態(tài)。
不過,隨著時間的推移,SD 的使用變得越來越便捷。2022 年 9 月,開發(fā)者 AUTOMATIC1111 發(fā)布了一個即使普通用戶也能方便使用的用戶界面 ——Web UI。它一經(jīng)推出,便集成了諸多功能,比如參數(shù)調(diào)整、模型和插件管理等,并逐漸發(fā)展形成了一個穩(wěn)定且功能豐富的生態(tài)系統(tǒng)。
2023 年 4 月,開發(fā)者 Comfyanonymous 發(fā)布了 Comfy UI,這是一個適用于批量生成圖像且可以自定義制作流程、自由度更高更靈活的節(jié)點式用戶界面。其模塊化設(shè)計,讓用戶能夠根據(jù)自身需求自由組合和擴展功能。
2023 年 9 月,張呂敏博士發(fā)布了 Web UI Forge,它和 Web UI 長得很像,但在低顯存設(shè)備上占用顯存更低,運行速度更快,優(yōu)化效果更佳。
以上就是目前大家能夠用到的三種與 SD 相關(guān)的用戶界面,大家可不要將 SD 這個模型概念和這些衍生的 UI 弄混淆了,UI 只是為了方便用戶使用 SD 模型的界面而已。
二、StableDiffusion 出圖的基本原理
了解 SD 出圖的基本原理,對后續(xù)的學習和使用會有很大幫助。SD 的具體原理以及神經(jīng)網(wǎng)絡(luò)的運作方式涉及大量的專業(yè)知識和理論,并非三言兩語能講清楚,這里我們用一個形象的比喻來幫助理解。
“StableDiffusion” 翻譯成中文是 “穩(wěn)定擴散”,重點在于 “擴散” 二字。就好比生活中,一滴墨汁滴入一杯水中,經(jīng)過一段時間的擴散,墨汁會完全隨機地分布在水中,讓人難以區(qū)分哪部分是水,哪部分是墨汁。在 SD 中,是給每一張原圖逐步添加噪點,一直到再也無法分辨原圖內(nèi)容為止。但與墨汁擴散不同的是,SD 的擴散并非隨機,而是通過算法和方程有計劃地生成噪點,并且會監(jiān)控并記錄每一步生成噪點和添加噪點的過程,將這些過程數(shù)據(jù)打包并分類,從而形成我們所說的大模型。
當我們要生成一張圖片時,就相當于要逆向操作,把一杯只有噪點的 “墨水” 還原成一杯水和一滴墨汁,也就是要依據(jù)生成噪點時監(jiān)控和記錄的過程數(shù)據(jù)(即大模型),再結(jié)合提示詞、隨機種子的引導和約束,一步一步地去除噪點,最終生成我們想要的圖片。
三、StableDiffusion 對電腦配置的要求
SD 是開源本地大模型,所以對硬件有一定的要求,下面我們根據(jù)不同陣營來分別說明。
(一)Windows 陣營
-
系統(tǒng):需使用 Windows 10 或 Windows 11 系統(tǒng),更低也要是 Windows 10 系統(tǒng)。
-
處理器:雖無硬性要求,但處理器性能越高越好,更高的處理器性能可加快對提示詞的解析速度,對出圖效率有一定提升。
-
內(nèi)存:更低要求 8G 內(nèi)存,但建議在 16G 以上。因為在使用過程中,可能會遇到同時加載多個模型或多個任務(wù)同時運行的情況,較大的內(nèi)存能減少電腦卡頓的可能性。
-
硬盤:更低要求 20G 的硬盤存儲空間,不過這只是滿足最基本的安裝和運行需求。實際上,隨著對軟件的深入使用,會下載大量的模型、軟件和插件,硬盤空間需求會越來越高。
-
顯卡:一定要獨立顯卡,很多集成顯卡的筆記本電腦就不適用了。顯卡又分為英偉達的 n 卡和 AMD 的 a 卡,目前 SD 都可以在這兩種卡上運行,關(guān)鍵在于顯存。能夠運行 SD 的更低顯存要 4GB,但為了獲得更好的使用體驗,建議 8G 或更大的顯存。因為顯存是使用 SD 繪圖時整套電腦配置的核心,低版本的顯卡會影響出圖和訓練模型的速度,而低顯存的顯卡在處理訓練參數(shù)很大的模型、復雜任務(wù)或大尺寸圖片時,可能會出現(xiàn)暴顯存的情況,導致無法使用。
(二)Mac 陣營
要求系統(tǒng)在 Mac OS 12 以上,運行內(nèi)存 8G 以上,處理器 M1 以上。但目前在 Mac 系統(tǒng)上,安裝和使用 SD 都比較復雜,速度也相對較慢。所以,如果不是只想簡單體驗一下,官方和筆者都建議選擇 Windows 主機更好。
(三)線上運行陣營
如果既沒有獨立顯卡,也沒有符合要求的蘋果電腦,又不想花費大量資金配置新電腦,那么可以選擇線上運行。比如在一些類似 “離不離譜” 這樣的網(wǎng)站上體驗線上運行,還可以選擇在這些平臺租用顯卡云端部署。其好處是可以享受更高端的顯卡性能,且更加靈活;缺點是要按照使用次數(shù)或運行時長收費,并且在使用過程中不能生成違規(guī)內(nèi)容(如色色圖等)。
四、不同用戶界面的學習選擇
對于 Web UI、Comfy UI 和 Web UI Forge 這三個用戶界面,筆者的建議是都要學。
首先,這三個用戶界面的出圖原理是一樣的,都是加載模型、寫提示詞、使用插件然后出圖,闡述邏輯也是互通的,使用的模型也互通,只是各自有不同的強項。Web UI 的用戶界面更直觀,Comfy UI 效率更高,F(xiàn)orge 對電腦配置要求更低。
對于剛?cè)腴T SD 的新手,建議先從 Web UI 學起,因為其直觀清晰的用戶界面便于入門,即使不跟著教程學習,也能摸索出個大概,比如選擇模型、寫提示詞、修改尺寸、出圖等操作都相對簡單。當完全掌握了 Web UI 之后,再去接觸 Comfy UI,就會發(fā)現(xiàn)所謂的工作流,其實就是把 Web UI 的圖形界面拆分成零散的模塊,原本自動執(zhí)行的內(nèi)容現(xiàn)在可以根據(jù)自己的安排定制化執(zhí)行,并沒有想象中那么復雜。至于 Web UI Forge,它的頁面和 Web UI 長得很像,只是在插件和功能上有所差異。最終長期使用哪個版本,可根據(jù)自己的使用目的來決定。
五、常見名詞解釋及案例
在 SD 繪圖過程中,有一些常見的名詞,下面我們通過一個案例來捋順它們的含義和作用。
以 “a girl” 這個提示詞為例:
-
大模型:如 SD1.5、SDXL、SD3、FLUX 等都是大模型,不同風格、不同版本的大模型能夠決定繪圖的基礎(chǔ)類型和出圖質(zhì)量,比如是真實系還是二次元風格等,選擇不同的大模型會直接影響出圖效果或畫風。
-
Lora:也是一種模型,但品類繁多、風格各異??梢杂涀蓚€關(guān)鍵詞 “風格特征”,它能輔助大模型,使繪圖結(jié)果更符合想象中的效果,比如改變?nèi)讼衩婵?、攝影風格、光影效果,或者呈現(xiàn)二次元系列的簡筆畫、插畫、漫畫等風格。
-
提示詞:這是 AI 繪圖的關(guān)鍵環(huán)節(jié)。一張完整的 AI 繪圖,至少要描述 5 件事情:主體、背景、畫風、細節(jié)、氛圍。就拿 “a girl” 來說,它可以是一位穿著白色連衣裙的 girl 站在盛開的櫻花樹下,背景是藍天和白云,畫風為夢幻主角風,整體色調(diào)為柔和的藍色和粉色,女孩的頭發(fā)絲絲飄揚,櫻花花瓣在空中飛舞,傳達出寧靜和美好的感覺;也可以是一位穿著黑色緊身衣的 girl,站在滾燙的銀箭之上,背景是火焰和黑巖,畫風為黑暗風,色調(diào)為昏暗的黑色和紅色,拿著惡魔的叉子,傳達出恐怖和邪惡的感覺。所以,提示詞就是 AI 繪圖中能夠天馬行空發(fā)揮創(chuàng)意的地方。
-
插件:SD 的插件生態(tài)非常豐富,大致可分為 3 種屬性:控制、優(yōu)化和附加功能??刂祁惒寮梢钥刂迫宋镩L相、人物姿態(tài)、畫面結(jié)構(gòu)、畫面內(nèi)容等;優(yōu)化類插件可以優(yōu)化提示詞、出圖效率、畫面細節(jié)等;附加功能類插件可以根據(jù)提示詞制作動畫,實現(xiàn)圖片轉(zhuǎn)視頻動畫,或者視頻轉(zhuǎn)視頻動畫等功能。
-
高清放大:這是 AI 繪畫的又一個關(guān)鍵點。在日常做圖時,不要一開始就按照理想的尺寸出圖,比如想生成一張 1920×1080 的圖片,往往先會生成一張 960×540 的小圖,因為小圖占用設(shè)備資源更低,出圖速度更快,這樣可以更高效地反復抽卡,直到抽到滿意的圖片后,再將這張圖片做高清放大。通過 AI 高清放大后,除了圖片的尺寸被放大了,還會在放大過程中填充細節(jié),使畫面表現(xiàn)更加。所以,我們看到的那些精美的 AI 圖,大多都不是一次性生成出來的,而是經(jīng)過上述步驟逐層遞進才得到較好的結(jié)果。
六、學習 SD 繪圖后的應(yīng)用及局限
學習了 SD 繪圖之后,能做很多事情,比如制作電商圖、海報、短視頻、開直播、做虛擬人、產(chǎn)品設(shè)計、建筑設(shè)計等等。但要注意的是,AI 繪圖目前只是一個工具,如果本身不是相關(guān)專業(yè)的人,或者未來不打算從事相關(guān)專業(yè),僅僅會 SD 繪圖是遠遠不夠的。例如要制作一個飲料的封面,雖然圖是用 AI 制作的,但如果不懂 PS,不懂排版,沒做過海報設(shè)計,那么從一張 AI 圖到一個可用的封面之間還有很大的距離。
希望通過以上對 SD 繪圖的基礎(chǔ)介紹,能夠幫助大家建立一個更清晰的知識框架,讓大家在 SD 繪圖的學習和應(yīng)用之路上更加順暢!