為了減輕標(biāo)注成本并在少樣本學(xué)習(xí)中增強魯棒性,基于自監(jiān)督任務(wù)的預(yù)訓(xùn)練成為了一種有前景的方法,同時提示學(xué)習(xí)(prompting)被提出用于縮小預(yù)訓(xùn)練任務(wù)和下游任務(wù)之間的目標(biāo)差距。
盡管現(xiàn)有工作已經(jīng)對基于提示的圖學(xué)習(xí)進行了一些初步探索,但它們主要利用單一預(yù)訓(xùn)練任務(wù),導(dǎo)致從預(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的通用知識有限。因此,本文研究者提出了 MultiGPrompt,一種新型的多任務(wù)預(yù)訓(xùn)練和提示學(xué)習(xí)框架,用于利用多個預(yù)訓(xùn)練任務(wù)以獲得更全面的預(yù)訓(xùn)練知識。
論文題目:
MultiGPrompt for Multi-Task Pre-Training and Prompting on Graphs
論文鏈接:
https://arxiv.org/pdf/2312.03731.pdf
代碼鏈接:
https://github.com/Nashchou/MultiGPrompt
一、摘要
圖可模擬網(wǎng)絡(luò)中對象間的關(guān)系,從而促進一系列網(wǎng)絡(luò)應(yīng)用的發(fā)展,如網(wǎng)絡(luò)分析和內(nèi)容推薦。最近,圖神經(jīng)網(wǎng)絡(luò)(GNNs)已成為圖表示學(xué)習(xí)的主流技術(shù)。然而,它們在端到端監(jiān)督框架內(nèi)的有效性顯著地與特定任務(wù)的有標(biāo)簽數(shù)據(jù)量相關(guān)。
為了減輕標(biāo)注成本并在少樣本學(xué)習(xí)中增強魯棒性,基于自監(jiān)督任務(wù)的預(yù)訓(xùn)練成為了一種有前景的方法,同時提示學(xué)習(xí)(prompting)被提出用于縮小預(yù)訓(xùn)練任務(wù)和下游任務(wù)之間的目標(biāo)差距。
盡管現(xiàn)有工作已經(jīng)對基于提示的圖學(xué)習(xí)進行了一些初步探索,但它們主要利用單一預(yù)訓(xùn)練任務(wù),導(dǎo)致從預(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的通用知識有限。因此,在本文中,我們提出了 MultiGPrompt,一種新型的多任務(wù)預(yù)訓(xùn)練和提示學(xué)習(xí)框架,用于利用多個預(yù)訓(xùn)練任務(wù)以獲得更全面的預(yù)訓(xùn)練知識。
首先,在預(yù)訓(xùn)練中,我們設(shè)計了一系列預(yù)訓(xùn)練標(biāo)記(pretext token)以使多個預(yù)訓(xùn)練任務(wù)協(xié)同合作。其次,我們提出了一個由組合提示(composed prompt)和開放提示(open prompt)組成的雙重提示機制,以利用特定預(yù)訓(xùn)練任務(wù)和全局預(yù)訓(xùn)練知識,從而指導(dǎo)少樣本場景中的下游任務(wù)。最后,我們在六個公共數(shù)據(jù)集上進行了廣泛的實驗以評估和分析 MultiGPrompt。
二、方法
2.1 多任務(wù)預(yù)訓(xùn)練
本章中,我們討論了多任務(wù)預(yù)訓(xùn)練的第一階段。 任何基于圖的預(yù)訓(xùn)練任務(wù)都可以在我們的框架中使用。為了不失一般性,在我們的實驗中,我們利用了三個著名的預(yù)訓(xùn)練任務(wù),即 DGI 、GraphCL 和鏈接預(yù)測 。我們的目標(biāo)是在預(yù)訓(xùn)練標(biāo)記(pretext token)的指導(dǎo)下,以協(xié)同的方式聚合多個預(yù)訓(xùn)練任務(wù)的損失。
2.2 預(yù)訓(xùn)練標(biāo)記 Pretext Token
不同的預(yù)訓(xùn)練任務(wù)往往關(guān)注圖上的不同特性,其損失函數(shù)也側(cè)重于反應(yīng)不同的方面。因此直接將多個預(yù)訓(xùn)練任務(wù)的損失函數(shù)直接聚合會由于不同任務(wù)間的互相干擾,導(dǎo)致結(jié)果不佳。
為了避免任務(wù)間干擾,我們利用了預(yù)訓(xùn)練標(biāo)記(pretext token)。在圖的上下文中,圖編碼器的不同層會反應(yīng)圖的不同特征,因此對不同的預(yù)訓(xùn)練任務(wù)具有不同的重要性。 我們?yōu)槊總€預(yù)訓(xùn)練任務(wù)引入了一系列預(yù)訓(xùn)練標(biāo)記,以修改圖編碼器的輸入層、隱藏層和輸出層。
具體來說,考慮一個圖 ,一個總共有 層的編碼器,和 個前置任務(wù)。如圖2(a) 所示,我們提出了 組預(yù)訓(xùn)練標(biāo)記,表示為 。每個 表示第 個前置任務(wù)的 個預(yù)訓(xùn)練標(biāo)記,每層(包括輸入層)一個預(yù)訓(xùn)練標(biāo)記:
其中, 是一個可學(xué)習(xí)的向量,代表修改圖編碼器第 層的第 個預(yù)訓(xùn)練任務(wù)的預(yù)訓(xùn)練標(biāo)記,對于 和 。這總共給出了 個前置標(biāo)記,我們在圖 3 中展示了它們?nèi)绾螒?yīng)用于修改一個預(yù)訓(xùn)練任務(wù)的不同層。
接下來,給定任意預(yù)訓(xùn)練標(biāo)記 ,讓 表示在將前置標(biāo)記 應(yīng)用到圖編碼器的其中一層后得到的輸出,如下所示。
其中 表示其其中一層已被 修改。更具體地說,一個預(yù)訓(xùn)練標(biāo)記 將通過元素對位相乘修改圖編碼器的第 層為 ,其中我們將前置標(biāo)記 與 的每一行逐元素相乘。隨后,當(dāng) l<L 時,下一層將被生成為
最后,對于第 個預(yù)訓(xùn)練任務(wù),我們生成一個特征矩陣 來計算任務(wù)損失。 我們進一步聚合 L 1 個嵌入矩陣,以獲得第 k 個任務(wù)的整體嵌入矩陣:
2.2.1 預(yù)訓(xùn)練損失函數(shù)
為每個預(yù)訓(xùn)練任務(wù)設(shè)計了特定預(yù)訓(xùn)練標(biāo)記后,我們的多任務(wù)預(yù)訓(xùn)練可以協(xié)同獲取與每個預(yù)訓(xùn)練任務(wù)相關(guān)的特定信息。在獲得第 個預(yù)訓(xùn)練任務(wù)的特征矩陣后,我們可以計算相應(yīng)的任務(wù)損失 ,其中 表示圖編碼器的模型權(quán)重。然后,我們將所有 個預(yù)訓(xùn)練任務(wù)的損失聚合在一起,形成多任務(wù)預(yù)訓(xùn)練階段的總體損失函數(shù):
2.3 下游提示學(xué)習(xí)
為了不僅利用特定任務(wù)的預(yù)訓(xùn)練知識,而且還利用整個預(yù)訓(xùn)練模型中的全局跨任務(wù)知識,我們提出了一個雙重提示機制,包括一組組合提示 和一組開放提示 。組合提示旨在通過可學(xué)習(xí)混合的預(yù)訓(xùn)練標(biāo)記將與訓(xùn)練任務(wù)任務(wù)特定知識轉(zhuǎn)移到下游任務(wù)。同時,開放提示促進全局跨任務(wù)知識的轉(zhuǎn)移。組合提示和開放提示以與預(yù)訓(xùn)練標(biāo)記相同的方式應(yīng)用于預(yù)訓(xùn)練圖編碼器的不同層,如圖3所示。
2.3.1 組合提示
組合提示 修改了預(yù)訓(xùn)練圖編碼器的第 層。然而, 并非直接可學(xué)習(xí),而是由同一層中的 K 個預(yù)訓(xùn)練前置標(biāo)記的可學(xué)習(xí)組合構(gòu)成,如下所示。
其中 是一個將 個預(yù)訓(xùn)練標(biāo)記“組合”在一起的函數(shù),例如線性組合或神經(jīng)網(wǎng)絡(luò),而 表示該函數(shù)的可學(xué)習(xí)參數(shù)。因此,組合提示旨在學(xué)習(xí)特定任務(wù)的預(yù)訓(xùn)練知識的精確混合。
2.3.2 開放提示
類似于組合提示,一個開放提示 修改了預(yù)訓(xùn)練圖編碼器的第 層。然而,與組合提示不同, 是直接學(xué)習(xí)的,而不是由預(yù)訓(xùn)練標(biāo)記組成。通過這種方式,開放提示不會提取任何特定預(yù)訓(xùn)練任務(wù)的預(yù)訓(xùn)練知識,而是全面地關(guān)注全局預(yù)訓(xùn)練模型。
三、實驗
我們在六個基準(zhǔn)數(shù)據(jù)集上進行了全面的實驗,以評估所提出的在少樣本節(jié)點分類和圖分類任務(wù)上的有效性。
3.1 少樣本學(xué)習(xí)表現(xiàn)
我們展示了1-shot節(jié)點分類和5-shot圖分類的結(jié)果。
3.1.1 1-shot節(jié)點分類
結(jié)果呈現(xiàn)在表2中。我們觀察到以下結(jié)果:
首先, 在所有四個數(shù)據(jù)集上都超越了所有基準(zhǔn),表明其在多任務(wù)預(yù)訓(xùn)練整體策略中的優(yōu)勢。我們后續(xù)進行了一系列消融實驗,以評估特定設(shè)計的重要性。
其次,預(yù)訓(xùn)練方法(DGI/InfoGraph, GraphCL)通常優(yōu)于監(jiān)督學(xué)習(xí)方法(GCN, GAT),因為前者組利用了預(yù)訓(xùn)練模型。這些結(jié)果突顯了從無標(biāo)簽圖中獲得通用知識的重要性。
最后,“預(yù)訓(xùn)練,提示”方法,如 GraphPrompt 和我們的 ,可以進一步勝過沒有提示的預(yù)訓(xùn)練方法,證明了基于提示的學(xué)習(xí)尤其在少樣本設(shè)置中的優(yōu)勢。
3.1.2 5-shot節(jié)點分類
我們進一步進行圖分類實驗,并在表2中展示結(jié)果。圖分類的趨勢與節(jié)點分類結(jié)果中觀察到的趨勢大致一致,這支持了 (以及更廣泛的基于提示的學(xué)習(xí)范式)在節(jié)點和圖層級任務(wù)上的通用性。
3.2 消融實驗
為了全面了解 中每個部分的影響,我們進行了兩項消融實驗分析。第一項分析研究了多個預(yù)訓(xùn)練任務(wù)的效果,第二項分析則將 與使用不同提示的變體進行對比。
我們首先從三個只使用單個預(yù)訓(xùn)練任務(wù)的基本變體開始:只使用 DGI/InfoGraph(DGI)、GraphCL 和鏈接預(yù)測(LP)。這三個基本變體在下游微調(diào)期間只簡單地使用分類器,不使用任何提示。
我們進一步比較了三個更高級的變體,即 DGI 、GraphCL 和 LP ,它們具有與 完全相同的框架和雙重提示設(shè)計,但只使用一個預(yù)訓(xùn)練任務(wù)。
參考圖5,我們觀察到 始終優(yōu)于使用單個預(yù)訓(xùn)練任務(wù)的所有變體,無論是否使用提示。這一發(fā)現(xiàn)強調(diào)了利用多個預(yù)訓(xùn)練任務(wù)的價值。
接下來,對于多任務(wù)預(yù)訓(xùn)練,我們通過移除我們雙重提示中的關(guān)鍵設(shè)計來分析 的幾個變體,包括使用預(yù)訓(xùn)練標(biāo)記、組合提示和開放提示。這些變體及其相應(yīng)結(jié)果在表3中列出。結(jié)果證實了每個獨立設(shè)計的作用,如下分析結(jié)果。
首先,采用預(yù)訓(xùn)練標(biāo)記和組合提示是有益的。值得注意的是,變體 5 通常優(yōu)于不使用復(fù)合提示的變體 1 和 3。然而,僅使用預(yù)訓(xùn)練標(biāo)記,如變體 3與變體 1 相比并沒有穩(wěn)定的改善,這意味著前置標(biāo)記與復(fù)合提示結(jié)合使用效果最佳。(注意復(fù)合提示是建立在前置標(biāo)記之上的,沒有后者就無法單獨工作。)
其次,省略開放提示會導(dǎo)致性能下降,這在變體 2 和 4 相對于變體 1 和 3 的更高準(zhǔn)確率中顯而易見。這表明通過開放提示利用全局跨任務(wù)知識的重要性。
最后,包括組合提示和開放提示的雙重提示設(shè)計證明是有益的,幫助 達到最優(yōu)性能。
四、總結(jié)與展望
在這篇論文中,我們探索了圖上的多任務(wù)預(yù)訓(xùn)練和提示,旨在涵蓋來自多種前置任務(wù)的全面知識范圍。我們提出的方法 設(shè)計了一系列預(yù)訓(xùn)練標(biāo)記,以協(xié)同方式利用多個預(yù)訓(xùn)練任務(wù)。
此外,我們引入了一個包括組合提示和開放提示的雙重提示機制,以利用特定預(yù)訓(xùn)練任務(wù)的知識和全局跨任務(wù)知識。最后,我們在六個公共數(shù)據(jù)集上進行了廣泛的實驗,并證明 顯著優(yōu)于各種最先進的基準(zhǔn)。
而本文提出的多任務(wù)預(yù)訓(xùn)練與提示學(xué)習(xí)框架也或許為圖上大模型的實現(xiàn)提供了一條實現(xiàn)路徑。在大語言模型中,往往使用單詞掩碼這一通用的預(yù)訓(xùn)練任務(wù),并通過提示將預(yù)訓(xùn)練知識遷移到下游任務(wù)。
但由于圖數(shù)據(jù)的復(fù)雜拓?fù)浣Y(jié)構(gòu),使得單一的預(yù)訓(xùn)練任務(wù)往往不能充分反映圖中的信息,而本文的多任務(wù)預(yù)訓(xùn)練通過結(jié)合多種預(yù)訓(xùn)練任務(wù)學(xué)習(xí)圖的各方面知識,從而可被視為一個通用的圖預(yù)訓(xùn)練范式,而下游的雙重提示也為知識遷移帶來了優(yōu)秀的表現(xiàn),從而與大語言模型的形式更加接近,或許會成為通往圖大模型的路徑。
Illustration From IconScout By Delesign Graphics
-The End-
掃碼觀看!
本周上新!
“AI技術(shù)流”原創(chuàng)投稿計劃
TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。
社區(qū)上線500 期talk視頻,3000 篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。
投稿內(nèi)容
// 最新技術(shù)解讀/系統(tǒng)性知識分享 //
// 前沿資訊解說/心得經(jīng)歷講述 //
投稿須知
稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。
我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵
投稿方式
發(fā)送郵件到
chenhongyuan@thejiangmen.com
或添加工作人員微信(chemn493)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號,后臺回復(fù)“投稿”二字,獲得投稿說明。
>>> 添加小編微信!
關(guān)于我“門”
▼
將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機構(gòu),也是北京市標(biāo)桿型孵化器。
公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。
將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。
如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),
歡迎發(fā)送或者推薦項目給我“門”:
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報,一經(jīng)查實,本站將立刻刪除。