NLP領(lǐng)域再創(chuàng)佳績(jī)!阿里云機(jī)器學(xué)習(xí)平臺(tái) PAI 多篇論文入選 ACL 2023
近期,阿里云機(jī)器學(xué)習(xí)平臺(tái)PAI主導(dǎo)的多篇論文在ACL 2023 Industry Track上入選。ACL是人工智能自然語(yǔ)言處理領(lǐng)域的頂級(jí)國(guó)際會(huì)議,聚焦于自然語(yǔ)言處理技術(shù)在各個(gè)應(yīng)用場(chǎng)景的學(xué)術(shù)研究。該會(huì)議曾推動(dòng)了預(yù)訓(xùn)練語(yǔ)言模型、文本挖掘、對(duì)話系統(tǒng)、機(jī)器翻譯等自然語(yǔ)言處理領(lǐng)域的核心創(chuàng)新,在學(xué)術(shù)和工業(yè)界都有巨大的影響力。
論文成果是機(jī)器學(xué)習(xí)平臺(tái)PAI聯(lián)合阿里巴巴國(guó)際貿(mào)易事業(yè)部、阿里云與華南理工大學(xué)聯(lián)合培養(yǎng)項(xiàng)目、復(fù)旦大學(xué)肖仰華教授團(tuán)隊(duì)等共同研發(fā),此次入選意味著阿里云機(jī)器學(xué)習(xí)平臺(tái)PAI自研的自然語(yǔ)言處理和多模態(tài)算法,以及算法框架能力達(dá)到了全球業(yè)界先進(jìn)水平,獲得了國(guó)際學(xué)者的認(rèn)可,展現(xiàn)了中國(guó)人工智能技術(shù)創(chuàng)新在國(guó)際上的競(jìng)爭(zhēng)力。
論文簡(jiǎn)述
基于電商多模態(tài)概念知識(shí)圖譜增強(qiáng)的電商場(chǎng)景圖文模型FashionKLIP
圖文檢索作為一項(xiàng)流行的跨模態(tài)任務(wù),在廣泛的工業(yè)應(yīng)用中具有很強(qiáng)的實(shí)用價(jià)值。視覺-語(yǔ)言預(yù)訓(xùn)練(VLP)模型的蓬勃發(fā)展大大提高了跨不同模態(tài)數(shù)據(jù)的表示學(xué)習(xí),從而帶來(lái)了顯著的性能提升。然而,電商領(lǐng)域的數(shù)據(jù)具有其自身的特性:1)通用場(chǎng)景的文本大多包含完整的句子結(jié)構(gòu)描述,而電商場(chǎng)景中的描述或查詢通常由多個(gè)形容性短語(yǔ)組成,描述了產(chǎn)品的材質(zhì)或風(fēng)格等細(xì)節(jié)信息。2)通用領(lǐng)域的圖像通常具有復(fù)雜的背景;相比之下,商品圖像主要包含一個(gè)大的商品圖,沒有很多背景物體。基于此論文提出了一種電商知識(shí)增強(qiáng)的VLP模型FashionKLIP。一共包含兩部分內(nèi)容:數(shù)據(jù)驅(qū)動(dòng)的構(gòu)建策略,從大規(guī)模電商圖文語(yǔ)料庫(kù)中構(gòu)建多模態(tài)電商概念知識(shí)圖譜(FashionMMKG);和訓(xùn)練融入知識(shí)的訓(xùn)練策略,學(xué)習(xí)兩種模態(tài)的圖像-文本對(duì)的表示對(duì)齊,并通過將文本表示與FashionMMKG中時(shí)尚概念的視覺原型表示進(jìn)行匹配,進(jìn)一步得到概念對(duì)齊。

為了驗(yàn)證FashionKLIP方法的實(shí)用性,我們將其應(yīng)用于阿里巴巴國(guó)際部的商品搜索平臺(tái),在圖像-商品和文本-商品兩個(gè)檢索子任務(wù)上進(jìn)行了零樣本場(chǎng)景下的驗(yàn)證,并將其與基線方法CLIP比較,實(shí)驗(yàn)結(jié)果進(jìn)一步證明了FashionKLIP的實(shí)用價(jià)值及高效性。
面向輕量化文圖檢索的Dual-Encoder模型蒸餾算法ConaCLIP
文本-圖像檢索(Text-Image Retrieval)的目的是在給出一個(gè)特定的文本查詢時(shí),從一個(gè)大型的圖像集合中檢索出一個(gè)最相關(guān)的圖像列表。隨著信息交互和社交場(chǎng)景的快速發(fā)展,該任務(wù)一直被認(rèn)為是跨模態(tài)應(yīng)用的一個(gè)關(guān)鍵組成部分,并被各種現(xiàn)實(shí)世界的場(chǎng)景所需求,如電子商業(yè)平臺(tái),網(wǎng)站等。現(xiàn)有的相關(guān)模型如CLIP在計(jì)算資源有限的邊緣設(shè)備或動(dòng)態(tài)索引場(chǎng)景如私人照片/消息集合上仍然不太實(shí)用。為了解決這個(gè)問題,我們的目標(biāo)是從大規(guī)模的預(yù)訓(xùn)練雙流編碼器模型出發(fā),專注于小模型預(yù)訓(xùn)練階段的蒸餾過程,以獲得一系列更小、更快、更有效的相應(yīng)的輕量化模型。與現(xiàn)有的工作不同,我們的方法引入了全連接知識(shí)交互圖(fully-Connected knowledge interaction graph)用于預(yù)訓(xùn)練階段的蒸餾。除了模態(tài)內(nèi)教師-學(xué)生交互學(xué)習(xí)之外,我們的方法還包括模態(tài)內(nèi)學(xué)生-學(xué)生交互學(xué)習(xí)、模態(tài)間教師-學(xué)生交互學(xué)習(xí)和模態(tài)間學(xué)生-學(xué)生交互學(xué)習(xí),如下圖所示。

這種為學(xué)生網(wǎng)絡(luò)建立的全連接圖可以看做是多視角和多任務(wù)的學(xué)習(xí)方案的集成,以此可以加強(qiáng)預(yù)訓(xùn)練模型所需要的穩(wěn)健性和有效性。同時(shí)我們建議,每種類型的學(xué)習(xí)過程都應(yīng)該詳細(xì)地測(cè)試各種不同監(jiān)督策略的效果。我們將所提出的技術(shù)應(yīng)用于電子商務(wù)平臺(tái)的端到端跨模態(tài)檢索場(chǎng)景,結(jié)果展示我們?cè)诨颈WC模型性能的同時(shí)顯著的降低了模型的存儲(chǔ)空間并增加了模型的計(jì)算效率。
具有高效推理速度的中文領(lǐng)域文圖生成擴(kuò)散模型和工具鏈
Text-to-Image Synthesis(TIS)是指根據(jù)文本輸入生成圖像的技術(shù),給定一段文本指令,使用計(jì)算機(jī)程序生成符合文本內(nèi)容描述的圖像。然而,由于預(yù)訓(xùn)練語(yǔ)言模型缺乏特定領(lǐng)域的實(shí)體知識(shí)且受限于擴(kuò)散模型的推理速度,目前開源社區(qū)的流行文圖生成模型難以支持特定工業(yè)領(lǐng)域的應(yīng)用。主要問題在于,基于擴(kuò)散的方法需要使用預(yù)訓(xùn)練文本編碼器對(duì)輸入文本進(jìn)行編碼,然后作為擴(kuò)散模型的UNet模型的條件輸入。但是目前使用網(wǎng)上收集的文本圖像對(duì)預(yù)訓(xùn)練的文本編碼器模型缺乏特定實(shí)體概念的理解能力,難以捕獲特定實(shí)體知識(shí),這對(duì)于生成逼真的實(shí)體對(duì)象圖片至關(guān)重要。同時(shí),擴(kuò)散模型的推理速度和計(jì)算成本也是需要考慮的重要因素,而迭代逆擴(kuò)散去噪過程的繁瑣計(jì)算一直是擴(kuò)散模型推理速度的瓶頸。我們提出的新框架用于訓(xùn)練和部署文圖生成擴(kuò)散模型,模型架構(gòu)如下圖所示。為了提升對(duì)特定實(shí)體的理解能力,我們?cè)贑LIP的文本編碼器中注入了豐富的實(shí)體知識(shí),使用知識(shí)圖譜進(jìn)行知識(shí)增強(qiáng)。與開源Stable Diffusion直接利用大規(guī)模分層擴(kuò)散模型不同,我們?cè)趫D像擴(kuò)散模塊之后集成了一個(gè)基于ESRGAN的網(wǎng)絡(luò),以提高生成圖像的分辨率的同時(shí)有效解決了參數(shù)量爆炸和耗時(shí)長(zhǎng)的問題。對(duì)于在線部署,我們基于FlashAttention優(yōu)化的神經(jīng)架構(gòu)設(shè)計(jì)了一個(gè)高效的推理流程。生成模型計(jì)算圖的Intermediate Representation(IR)經(jīng)過端到端人工智能編譯器BladeDISC進(jìn)一步處理,以提高生成模型的推理速度。

我們的實(shí)驗(yàn)證明,我們針對(duì)特定領(lǐng)域場(chǎng)景的知識(shí)增強(qiáng)模型可以更好地理解領(lǐng)域知識(shí),并且可以生成更逼真和多樣化的圖像。在推理速度上,我們使用了端到端人工智能編譯器BladeDISC以及FlashAttention 技術(shù)來(lái)提高模型的推理速度。我們還將這一技術(shù)與阿里云機(jī)器學(xué)習(xí)平臺(tái)PAI進(jìn)行集成,以展示其在實(shí)際應(yīng)用中的實(shí)用價(jià)值,用戶可以在自己的任務(wù)(數(shù)據(jù))上一鍵式的進(jìn)行訓(xùn)練,微調(diào)以及推理自己的模型。
算法開源
為了更好地服務(wù)開源社區(qū),上述三個(gè)算法的源代碼即將貢獻(xiàn)在自然語(yǔ)言處理算法框架EasyNLP中,歡迎NLP從業(yè)人員和研究者使用。EasyNLP是阿里云機(jī)器學(xué)習(xí)平臺(tái)PAI 團(tuán)隊(duì)基于 PyTorch 開發(fā)的易用且豐富的中文NLP算法框架,支持常用的中文預(yù)訓(xùn)練模型和大模型落地技術(shù),并且提供了從訓(xùn)練到部署的一站式 NLP 開發(fā)體驗(yàn)。由于跨模態(tài)理解需求的不斷增加,EasyNLP也將支持各種跨模態(tài)模型,特別是中文領(lǐng)域的跨模態(tài)模型,推向開源社區(qū),希望能夠服務(wù)更多的 NLP 和多模態(tài)算法開發(fā)者和研究者,也希望和社區(qū)一起推動(dòng) NLP/多模態(tài)技術(shù)的發(fā)展和模型落地。
Github地址:https://github.com/alibaba/EasyNLP
論文匯總
論文名字:FashionKLIP: Enhancing E-Commerce Image-Text Retrieval with Fashion Multi-Modal Conceptual Knowledge Graph
論文作者:王小丹、汪誠(chéng)愚、李磊、李直旭、陳犇、金林波、黃俊、肖仰華、高明
論文PDF鏈接:https://aclanthology.org/2023.acl-industry.16.pdf
論文名字:ConaCLIP: Exploring Distillation of Fully-Connected Knowledge Interaction Graph for Lightweight Text-Image Retrieval論文作者:汪嘉鵬、汪誠(chéng)愚、王小丹、黃俊、金連文
論文PDF鏈接:https://aclanthology.org/2023.acl-industry.8.pdf
論文名字:Rapid Diffusion: Building Domain-Specific Text-to-Image Synthesizers with Fast Inference Speed論文作者:劉冰雁、林煒豐、段忠杰、汪誠(chéng)愚、吳梓恒、張子鵬、賈奎、金連文、陳岑、黃俊
論文PDF鏈接:https://aclanthology.org/2023.acl-industry.28.pdf
本站所有文章、數(shù)據(jù)、圖片均來(lái)自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。
如果侵犯了你的權(quán)益請(qǐng)來(lái)信告知我們刪除。郵箱:business@qudong.com

