只需一句話，AI就能定制照片級(jí)圖像，谷歌在玩一種很新的擴(kuò)散模型

投稿用戶 ? 2023年3月21日 am10:37 ? 聯(lián)系我們 ? 閱讀 255

機(jī)器之心報(bào)道

編輯：陳萍、小舟

來自谷歌和波士頓大學(xué)的研究者提出了一種「?jìng)€(gè)性化」的文本到圖像擴(kuò)散模型 DreamBooth，能夠適應(yīng)用戶特定的圖像生成需求。

近來，文本到圖像模型成為一個(gè)熱門的研究方向，無論是自然景觀大片，還是新奇的場(chǎng)景圖像，都可能使用簡(jiǎn)單的文本描述自動(dòng)生成的。

其中，渲染天馬行空的的想象場(chǎng)景是一項(xiàng)具有挑戰(zhàn)性的任務(wù)，需要在新的場(chǎng)景中合成特定主題（物體、動(dòng)物等）的實(shí)例，以便它們自然無縫地融入場(chǎng)景。

一些大型文本到圖像模型基于用自然語言編寫的文本提示（prompt）實(shí)現(xiàn)了高質(zhì)量和多樣化的圖像合成。這些模型的主要優(yōu)點(diǎn)是從大量的圖像 – 文本描述對(duì)中學(xué)到強(qiáng)大的語義先驗(yàn)，例如將「dog」這個(gè)詞與可以在圖像中以不同姿勢(shì)出現(xiàn)的各種狗的實(shí)例關(guān)聯(lián)在一起。

雖然這些模型的合成能力是前所未有的，但它們?nèi)狈δ７陆o定參考主題的能力，以及在不同場(chǎng)景中合成主題相同、實(shí)例不同的新圖像的能力。可見，已有模型的輸出域的表達(dá)能力有限。

只需一句話，AI就能定制照片級(jí)圖像，谷歌在玩一種很新的擴(kuò)散模型

為了解決這個(gè)問題，來自谷歌和波士頓大學(xué)的研究者提出了一種「?jìng)€(gè)性化」的文本到圖像擴(kuò)散模型 DreamBooth，能夠適應(yīng)用戶特定的圖像生成需求。

只需一句話，AI就能定制照片級(jí)圖像，谷歌在玩一種很新的擴(kuò)散模型

論文地址：https://arxiv.org/pdf/2208.12242.pdf

項(xiàng)目地址：https://github.com/XavierXiao/Dreambooth-Stable-Diffusion

該研究的目標(biāo)是擴(kuò)展模型的語言 – 視覺字典，使其將新詞匯與用戶想要生成的特定主題綁定。一旦新字典嵌入到模型中，它就可以使用這些詞來合成特定主題的新穎逼真的圖像，同時(shí)在不同的場(chǎng)景中進(jìn)行情境化，保留關(guān)鍵識(shí)別特征，效果如下圖 1 所示。

只需一句話，AI就能定制照片級(jí)圖像，谷歌在玩一種很新的擴(kuò)散模型

具體來說，該研究將給定主題的圖像植入模型的輸出域，以便可以使用唯一標(biāo)識(shí)符對(duì)其進(jìn)行合成。為此，該研究提出了一種用稀有 token 標(biāo)識(shí)符表示給定主題的方法，并微調(diào)了一個(gè)預(yù)訓(xùn)練的、基于擴(kuò)散的文本到圖像框架，該框架分兩步運(yùn)行；從文本生成低分辨率圖像，然后應(yīng)用超分辨率（SR）擴(kuò)散模型。

首先該研究使用包含唯一標(biāo)識(shí)符（帶有主題類名，例如「A [V] dog」）的輸入圖像和文本提示微調(diào)低分辨率文本到圖像模型。為了防止模型將類名與特定實(shí)例過擬合和語義漂移，該研究提出了一種自生的、特定于類的先驗(yàn)保存（preservation）損失，它利用嵌入模型中類的先驗(yàn)語義，鼓勵(lì)模型生成給定主題下同一類中的不同實(shí)例。

第二步，該研究使用輸入圖像的低分辨率和高分辨率版本對(duì)超分辨率組件進(jìn)行微調(diào)。這允許模型對(duì)場(chǎng)景主題中小而重要細(xì)節(jié)保持高保真度。

我們來看一下該研究提出的具體方法。

方法介紹

給定 3-5 張捕獲的圖像，這些圖像沒有文字描述，本文旨在生成具有高細(xì)節(jié)保真度和由文本提示引導(dǎo)變化的新圖像。該研究不對(duì)輸入圖像施加任何限制，并且主題圖像可以具有不同的上下文。方法如圖 3 所示。輸出圖像可對(duì)原始圖像進(jìn)行修改，如主題的位置，更改主題的屬性如顏色、形狀，并可以修改主體的姿勢(shì)、表情、材質(zhì)以及其他語義修改。

更具體的說，本文方法將一個(gè)主題（例如，一只特定的狗）和相應(yīng)類名（例如，狗類別）的一些圖像（通常 3 – 5 張圖）作為輸入，并返回一個(gè)經(jīng)過微調(diào) / 個(gè)性化的文本到圖像模型，該模型編碼了一個(gè)引用主題的唯一標(biāo)識(shí)符。然后，在推理時(shí)，可以在不同的句子中植入唯一標(biāo)識(shí)符來合成不同語境中的主題。

只需一句話，AI就能定制照片級(jí)圖像，谷歌在玩一種很新的擴(kuò)散模型

該研究的第一個(gè)任務(wù)是將主題實(shí)例植入到模型的輸出域，并將主題與唯一標(biāo)識(shí)符綁定。該研究提出了設(shè)計(jì)標(biāo)識(shí)符的方法，此外還設(shè)計(jì)了一種監(jiān)督模型微調(diào)過程的新方法。

為了解決圖像過擬合以及語言漂移問題，該研究還提出了一種損失（ Prior-Preservation Loss ），通過鼓勵(lì)擴(kuò)散模型不斷生成與主題相同的類的不同實(shí)例，從而減輕模型過擬合、語言漂移等問題。

為了保留圖像細(xì)節(jié)，該研究發(fā)現(xiàn)應(yīng)該對(duì)模型的超分辨率（SR）組件進(jìn)行微調(diào)，本文在經(jīng)過預(yù)訓(xùn)練的 Imagen 模型的基礎(chǔ)上來完成。具體過程如圖 4 所示，給定同一主題的 3-5 張圖像，之后通過兩個(gè)步驟微調(diào)文本到圖像的擴(kuò)散模型：

只需一句話，AI就能定制照片級(jí)圖像，谷歌在玩一種很新的擴(kuò)散模型

稀有 token 標(biāo)識(shí)符表示主題

該研究將主題的所有輸入圖像標(biāo)記為「a [identifier] [class noun]」，其中 [identifier] 是鏈接到主題的唯一標(biāo)識(shí)符，而 [class noun] 是主題的粗略類別描述符（例如貓、狗、手表等）。該研究在句子中特別使用了類描述符，以便將類的先驗(yàn)與主題聯(lián)系起來。

效果展示

下面是 Dreambooth 一個(gè)穩(wěn)定擴(kuò)散的實(shí)現(xiàn)（參考項(xiàng)目鏈接）。定性結(jié)果：訓(xùn)練圖像來自「Textual Inversion」庫：

只需一句話，AI就能定制照片級(jí)圖像，谷歌在玩一種很新的擴(kuò)散模型

訓(xùn)練完成后，在「photo of a sks container」提示下，模型生成的集裝箱照片如下：

只需一句話，AI就能定制照片級(jí)圖像，谷歌在玩一種很新的擴(kuò)散模型

在提示中加個(gè)位置「photo of a sks container on the beach」，集裝箱出現(xiàn)在沙灘上；

只需一句話，AI就能定制照片級(jí)圖像，谷歌在玩一種很新的擴(kuò)散模型

綠色的集裝箱顏色太單一了，想加點(diǎn)紅色，輸入提示「photo of a red sks container」就能搞定：

只需一句話，AI就能定制照片級(jí)圖像，谷歌在玩一種很新的擴(kuò)散模型

輸入提示「a dog on top of sks container」就能讓小狗坐在箱子里：

只需一句話，AI就能定制照片級(jí)圖像，谷歌在玩一種很新的擴(kuò)散模型

下面是論文中展示的一些結(jié)果。生成不同畫家風(fēng)格的關(guān)于狗狗的藝術(shù)圖：

只需一句話，AI就能定制照片級(jí)圖像，谷歌在玩一種很新的擴(kuò)散模型

該研究還可以合成輸入圖像中沒有出現(xiàn)的各種表情，展示了模型的外推能力：

只需一句話，AI就能定制照片級(jí)圖像，谷歌在玩一種很新的擴(kuò)散模型

想要了解更多細(xì)節(jié)，請(qǐng)參考原論文。

版權(quán)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)，該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容，請(qǐng)發(fā)送郵件至舉報(bào)，一經(jīng)查實(shí)，本站將立刻刪除。

贊 (0)

投稿用戶

十大歐美網(wǎng)站定制設(shè)計(jì)精品案例推薦（歐美網(wǎng)站設(shè)計(jì)風(fēng)格）

上一篇 2023年3月21日 am10:29

商城系統(tǒng)定制開發(fā)有哪些方式？

下一篇 2023年3月21日 am10:45

好消息！全國企業(yè)民主管理微視頻大賽獲獎(jiǎng)結(jié)果揭曉（首屆微視頻大賽評(píng)選結(jié)果出爐）

全國廠務(wù)公開協(xié)調(diào)小組辦公室主辦的全國企業(yè)民主管理微視頻大賽落下帷幕，日前通報(bào)了大賽獲獎(jiǎng)情況。經(jīng)單位選送、初步篩選、線上展播、網(wǎng)絡(luò)投票、專家評(píng)審等多個(gè)環(huán)節(jié)，最終評(píng)選出獲獎(jiǎng)作品一等獎(jiǎng)5…

聯(lián)系我們 2022年5月24日
374 0
如何編制施工進(jìn)度計(jì)劃（如何編制施工進(jìn)度計(jì)劃橫道圖）

如何編制施工進(jìn)度計(jì)劃工程建設(shè)是一個(gè)復(fù)雜的系統(tǒng)工程，必須協(xié)調(diào)好人、機(jī)、料、法、環(huán)等各個(gè)環(huán)節(jié)，才能保證工程按預(yù)定的目標(biāo)完成。當(dāng)人、財(cái)、物一定的條件下，合理制定施工方案，科學(xué)制定施工進(jìn)…

聯(lián)系我們 2022年11月26日
277 0
合陽路井鎮(zhèn)遠(yuǎn)程教育“固定學(xué)習(xí)日”制度常態(tài)化運(yùn)行

渭南青年網(wǎng)（編輯/陽光通訊員/朱芬）為推動(dòng)遠(yuǎn)程教育工作規(guī)范化、實(shí)效化，今年以來，路井鎮(zhèn)按照上級(jí)要求將每月5日、20日定為遠(yuǎn)程教育“固定學(xué)習(xí)日”，不斷加強(qiáng)黨員教育管理，促進(jìn)遠(yuǎn)程教育轉(zhuǎn)…

聯(lián)系我們 2023年2月23日
251 0
短視頻運(yùn)營工作管理內(nèi)容策劃流程表格方案（短視頻運(yùn)營策劃書范文）

原文檔公眾告下載，文檔干貨庫第一，贊美的目的。表達(dá)者的目的是希望通過贊美發(fā)現(xiàn)對(duì)方的優(yōu)點(diǎn)，獲得良好的人際關(guān)系，讓自己的事業(yè)和生活上如魚得水。同時(shí)每天處在贊美和欣賞對(duì)方的心態(tài)中，會(huì)越…

聯(lián)系我們 2022年11月19日
247 0
cro項(xiàng)目管理

cro項(xiàng)目管理：現(xiàn)代軟件開發(fā)生命周期中的關(guān)鍵角色隨著軟件產(chǎn)業(yè)的發(fā)展，軟件開發(fā)生命周期變得越來越復(fù)雜。cro(軟件工程)項(xiàng)目管理作為其中的一個(gè)重要環(huán)節(jié)，變得越來越重要。本文將介紹c…

聯(lián)系我們 2024年7月16日
56 0
干造價(jià)不會(huì)拒絕的4款軟件，自動(dòng)計(jì)算鋼筋翻樣和工程量，超好用（鋼筋翻樣軟件和鋼筋算量軟件有什么區(qū)別）

身為造價(jià)員，擁有幾款適合自己的造價(jià)小軟件真的太有用了，不僅可以解放我們的雙手，面對(duì)造價(jià)算量難題也能輕松應(yīng)對(duì)。目前出現(xiàn)的造價(jià)算量軟件非常多，眼花繚亂，很多剛?cè)胄械脑靸r(jià)小白無法分辨出…

聯(lián)系我們 2022年11月16日
339 0
軟件定制開發(fā)的應(yīng)用價(jià)值-浩太軟件（軟件定制開發(fā)優(yōu)勢(shì)）

軟件定制開發(fā)是一種以軟件設(shè)計(jì)為基礎(chǔ)，以滿足客戶特定需求為目標(biāo)，通過定制和開發(fā)軟件產(chǎn)品，實(shí)現(xiàn)企業(yè)經(jīng)濟(jì)增長和功能升級(jí)的一種開發(fā)模式。軟件定制開發(fā)有著諸多優(yōu)勢(shì)，能夠有效滿足企業(yè)定制軟件需…

聯(lián)系我們 2023年3月23日
252 0
國內(nèi)外最好的12款項(xiàng)目管理系統(tǒng)優(yōu)劣勢(shì)分析

就像人們吐槽冰箱不制冷、洗衣機(jī)洗不干凈衣服，項(xiàng)目團(tuán)隊(duì)也經(jīng)常吐槽項(xiàng)目管理軟件無法很好的管理項(xiàng)目。盡管如此，我們從沒看到一個(gè)人丟掉了冰箱或者洗衣機(jī)，項(xiàng)目管理軟件也一樣。你可能不知道它…

聯(lián)系我們 2022年11月26日
323 0
全面介紹IBMS智能化集成綜合管理平臺(tái)，有什么功能？要什么接口？

現(xiàn)在的智能化弱電工程都在推廣IBMS集成管理平臺(tái)，那么集成平臺(tái)需要集成哪些系統(tǒng)？每個(gè)系統(tǒng)需要開發(fā)什么端口？功能如何？今天詳細(xì)的介紹一下IBMS集成管理平臺(tái)。一、平臺(tái)概述智能化集…

聯(lián)系我們 2022年10月31日
299 0
Java畢設(shè)項(xiàng)目-OA辦公系統(tǒng)（畢業(yè)設(shè)計(jì)oa系統(tǒng)）

辦公自動(dòng)化（Office Automation，簡(jiǎn)稱OA），是將計(jì)算機(jī)、通訊等現(xiàn)代化技術(shù)運(yùn)用到傳統(tǒng)辦公方式，進(jìn)而形成的一種新型辦公方式。辦公自動(dòng)化利用現(xiàn)代化設(shè)備和信息化技術(shù)，代替辦…

聯(lián)系我們 2022年10月29日
265 0

只需一句話，AI就能定制照片級(jí)圖像，谷歌在玩一種很新的擴(kuò)散模型

相關(guān)推薦

只需一句話，AI就能定制照片級(jí)圖像，谷歌在玩一種很新的擴(kuò)散模型