手冊(cè)簡(jiǎn)介

Stable Diffusion 中文教程, AI繪畫(huà) Stable Diffusion是2022年發(fā)布的深度學(xué)習(xí)文本到圖像生成模型。它主要用于根據(jù)文本的描述產(chǎn)生詳細(xì)圖像

手冊(cè)說(shuō)明

X-Y_plot_of_algorithmically-generated_AI_art_by_different_science-fiction_subgenres

Stable Diffusion 主要用于根據(jù)文本的描述產(chǎn)生詳細(xì)圖像。

它是一種潛在?擴(kuò)散模型,由慕尼黑大學(xué)的CompVis研究團(tuán)體開(kāi)發(fā)的各種生成性人工神經(jīng)網(wǎng)絡(luò)。它是由初創(chuàng)公司StabilityAI,CompVis與Runway合作開(kāi)發(fā)的,并得到EleutherAI和LAION?的支持。 截至2022年10月,StabilityAI籌集了1.01億美元的資金。

Stable Diffusion的代碼和模型權(quán)重已公開(kāi)發(fā)布,可以在大多數(shù)配備有適度GPU的電腦硬件上運(yùn)行。而以前的專有文生圖模型(如DALL-E和Midjourney)只能通過(guò)云計(jì)算服務(wù)訪問(wèn)。

技術(shù)架構(gòu)

Stable_Diffusion_architecture

Stable Diffusion是一種擴(kuò)散模型(diffusion model)的變體,叫做“潛在擴(kuò)散模型”(latent diffusion model; LDM)。擴(kuò)散模型是在2015年推出的,其目的是消除對(duì)訓(xùn)練圖像的連續(xù)應(yīng)用高斯噪聲,可以將其視為一系列去噪自編碼器。

Stable Diffusion由3個(gè)部分組成:變分自編碼器(VAE)、U-Net和一個(gè)文本編碼器。

用法

X-Y_plot_of_algorithmically-generated_AI_art_of_European-style_castle_in_Japan_demonstrating_DDIM_diffusion_steps

Stable Diffusion模型支持通過(guò)使用提示詞來(lái)產(chǎn)生新的圖像,描述要包含或省略的元素,以及重新繪制現(xiàn)有的圖像,其中包含提示詞中描述的新元素(該過(guò)程通常被稱為“指導(dǎo)性圖像合成”(guided image synthesis))通過(guò)使用模型的擴(kuò)散去噪機(jī)制(diffusion-denoising mechanism)。 此外,該模型還允許通過(guò)提示詞在現(xiàn)有的圖中進(jìn)內(nèi)聯(lián)補(bǔ)繪制和外補(bǔ)繪制來(lái)部分更改,當(dāng)與支持這種功能的用戶界面使用時(shí),其中存在許多不同的開(kāi)源軟件。

Stable Diffusion建議在10GB以上的VRAM下運(yùn)行, 但是VRAM較少的用戶可以選擇以float16的精度加載權(quán)重,而不是默認(rèn)的float32,以降低VRAM使用率。

文生圖

QQ截圖20230308115757

Stable Diffusion中的文生圖采樣腳本,稱為"txt2img",接受一個(gè)提示詞,以及包括采樣器(sampling type),圖像尺寸,和隨機(jī)種子?的各種選項(xiàng)參數(shù),并根據(jù)模型對(duì)提示的解釋生成一個(gè)圖像文件。 生成的圖像帶有不可見(jiàn)的數(shù)字水印標(biāo)簽,以允許用戶識(shí)別由Stable Diffusion生成的圖像,盡管如果圖像被調(diào)整大小或旋轉(zhuǎn),該水印將失去其有效性。 Stable Diffusion模型是在由512×512分辨率圖像組成的數(shù)據(jù)集上訓(xùn)練出來(lái)的,這意味著txt2img生成圖像的最佳配置也是以512×512的分辨率生成的,偏離這個(gè)大小會(huì)導(dǎo)致生成輸出質(zhì)量差。 Stable Diffusion 2.0版本后來(lái)引入了以768×768分辨率圖像生成的能力。

每一個(gè)txt2img的生成過(guò)程都會(huì)涉及到一個(gè)影響到生成圖像的隨機(jī)種子;用戶可以選擇隨機(jī)化種子以探索不同生成結(jié)果,或者使用相同的種子來(lái)獲得與之前生成的圖像相同的結(jié)果。 用戶還可以調(diào)整采樣迭代步數(shù)(inference steps);較高的值需要較長(zhǎng)的運(yùn)行時(shí)間,但較小的值可能會(huì)導(dǎo)致視覺(jué)缺陷。

反向提示詞(negative prompt)是包含在Stable Diffusion的一些用戶界面軟件中的一個(gè)功能,它允許用戶指定模型在圖像生成過(guò)程中應(yīng)該避免的提示,適用于由于用戶提供的普通提示詞,或者由于模型最初的訓(xùn)練,造成圖像輸出中出現(xiàn)不良的圖像特征,例如畸形手腳。 與使用強(qiáng)調(diào)符相比,使用反向提示詞在降低生成不良的圖像的頻率方面具有高度統(tǒng)計(jì)顯著的效果;強(qiáng)調(diào)符是另一種為提示的部分增加權(quán)重的方法,被一些Stable Diffusion的開(kāi)源實(shí)現(xiàn)所利用,在關(guān)鍵詞中加入括號(hào)以增加或減少?gòu)?qiáng)調(diào)。

圖生圖


Stable Diffusion包括另一個(gè)取樣腳本,稱為"img2img",它接受一個(gè)提示詞、現(xiàn)有圖像的文件路徑和0.0到1.0之間的去噪強(qiáng)度,并在原始圖像的基礎(chǔ)上產(chǎn)生一個(gè)新的圖像,該圖像也具有提示詞中提供的元素;去噪強(qiáng)度表示添加到輸出圖像的噪聲量,值越大,圖像變化越多,但在語(yǔ)義上可能與提供的提示不一致。 圖像升頻是img2img的一個(gè)潛在用例,除此之外。

2022年11月24日發(fā)布的Stable Diffusion 2.0版本包含一個(gè)深度引導(dǎo)模型,稱為"depth2img",該模型推斷所提供的輸入圖像的深度?,并根據(jù)提示詞?和深度信息生成新圖像,在新圖像中保持原始圖像的連貫性和深度。

內(nèi)補(bǔ)繪制與外補(bǔ)繪制


Stable Diffusion模型的許多不同用戶界面軟件提供了通過(guò)img2img進(jìn)行圖生圖的其他用例。內(nèi)補(bǔ)繪制(inpainting)由用戶提供的蒙版描繪的現(xiàn)有圖像的一部分,根據(jù)所提供的提示詞,用新生成的內(nèi)容填充蒙版的空間。 隨著Stable Diffusion 2.0版本的發(fā)布,StabilityAI同時(shí)創(chuàng)建了一個(gè)專門(mén)針對(duì)內(nèi)補(bǔ)繪制用例的專用模型。 相反,外補(bǔ)繪制(outpainting)將圖像擴(kuò)展到其原始尺寸之外,用根據(jù)所提供的提示詞生成的內(nèi)容來(lái)填補(bǔ)以前的空白空間。


在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)