亚洲图片你懂的_亚洲精品一卡二卡_av伦理在线_日韩一二三区_不卡av在线免费观看_久久久精品日韩欧美_欧美色偷偷大香_免费av片风间由美在线

您當(dāng)前的位置: 首頁 > 新聞 > 其他

谷歌更新Transformer架構(gòu) 更節(jié)省計(jì)算資源!50%性能提升

來源:量子位   編輯:非小米 時(shí)間:2024-04-05 21:00人閱讀

谷歌終于更新了Transformer架構(gòu)。

最新發(fā)布的Mixture-of-Depths(MoD),改變了以往Transformer計(jì)算模式。

它通過動態(tài)分配大模型中的計(jì)算資源,跳過一些不必要計(jì)算,顯著提高訓(xùn)練效率和推理速度。

結(jié)果顯示,在等效計(jì)算量和訓(xùn)練時(shí)間上,MoD每次向前傳播所需的計(jì)算量更小,而且后訓(xùn)練采樣過程中步進(jìn)速度提高50%。

這一方法剛剛發(fā)布,就馬上引發(fā)關(guān)注。

MoE風(fēng)頭正盛,MoD已經(jīng)來后浪拍前浪了?

谷歌更新Transformer架構(gòu) 更節(jié)省計(jì)算資源!50%性能提升

所以MoD如何實(shí)現(xiàn)?

迫使大模型關(guān)注真正重要信息

這項(xiàng)研究提出,現(xiàn)在的大模型訓(xùn)練和推理中,有很多計(jì)算是沒必要的。

谷歌更新Transformer架構(gòu) 更節(jié)省計(jì)算資源!50%性能提升

比如預(yù)測下一個(gè)句子很難,但是預(yù)測句子結(jié)束的標(biāo)點(diǎn)符號很簡單。如果給它們分配同樣的計(jì)算資源,那么后者明顯浪費(fèi)了。

谷歌更新Transformer架構(gòu) 更節(jié)省計(jì)算資源!50%性能提升

在理想情況下, 模型應(yīng)該只給需要準(zhǔn)確預(yù)測的token分配更多計(jì)算資源。

谷歌更新Transformer架構(gòu) 更節(jié)省計(jì)算資源!50%性能提升

所以研究人員提出了MoD。

它在輸入序列中的特定位置動態(tài)分配FLOPs(運(yùn)算次數(shù)或計(jì)算資源),優(yōu)化不同層次的模型深度中的分配。

通過限制給定層的自注意力和MLP計(jì)算的token數(shù)量,迫使神經(jīng)網(wǎng)絡(luò)學(xué)會主要關(guān)注真正重要的信息。

因?yàn)閠oken數(shù)量是事先定義好的,所以這個(gè)過程使用一個(gè)已知張量大小的靜態(tài)計(jì)算圖,可以在時(shí)間和模型深度上動態(tài)擴(kuò)展計(jì)算量。

下圖右上圖中的橙色部分,表示沒有使用全部計(jì)算資源。

谷歌更新Transformer架構(gòu) 更節(jié)省計(jì)算資源!50%性能提升

這種方法在節(jié)省計(jì)算資源的同時(shí),還能提高效率。

這些模型在等效的FLOPS和訓(xùn)練時(shí)間上與基線性能相匹配,但每次前向傳播所需的FLOP更少,并且在訓(xùn)練后采樣時(shí)提速50%。

對比來看,如果為每一個(gè)token生成一個(gè)概率分布,每個(gè)token根據(jù)最高概率被送去對應(yīng)的“專家”,可能會導(dǎo)致負(fù)載不平衡。

如果反過來,這能保障負(fù)載平衡,但是可能導(dǎo)致某些token被過度處理或處理不足。

最后來看論文中使用的Expert-choice MoD,router輸出的權(quán)重被用于確定哪些token將使用transformer虧啊計(jì)算。權(quán)重較大的token將參與計(jì)算,權(quán)重較小的token將通過殘差連接繞過計(jì)算,從而解決每次向前傳播的FLOPs。

谷歌更新Transformer架構(gòu) 更節(jié)省計(jì)算資源!50%性能提升

最后,研究團(tuán)隊(duì)展示了MoD在不同實(shí)驗(yàn)中的性能表現(xiàn)。

首先,他們使用相對較小的FLOP預(yù)算(6e18),以確定最佳超參數(shù)配置。

通過這些實(shí)驗(yàn),作者發(fā)現(xiàn)MoD方法能夠“拉低并向右推移”isoFLOP基線曲線,這意味著最優(yōu)的MoD方法在更低的損失水平上擁有更多的參數(shù)。

谷歌更新Transformer架構(gòu) 更節(jié)省計(jì)算資源!50%性能提升

通過isoFLOP分析,比較6e18、2e19和1e20 FLOPs的總計(jì)算預(yù)算下的模型性能。

結(jié)果顯示,在更多FLOP預(yù)算下,F(xiàn)LOP最優(yōu)的MoD仍然比基線模型有更多的參數(shù)。

存在一些MoD變體,在步驟速度上比isoFLOP最優(yōu)基線模型更快,同時(shí)實(shí)現(xiàn)更低的損失。這表明在訓(xùn)練之外,MoD的計(jì)算節(jié)省仍然有效。

谷歌更新Transformer架構(gòu) 更節(jié)省計(jì)算資源!50%性能提升

同時(shí),研究團(tuán)隊(duì)還探討了MoD和MoE結(jié)合的可能性——MoDE。

結(jié)果表明而這結(jié)合能提供更好的性能和更快的推理速度。

網(wǎng)友:聯(lián)想到了ResNet

MoD推出后馬上引發(fā)了不小關(guān)注。

有人感慨,MoE還沒有弄清楚呢,MoD都已經(jīng)來了!

谷歌更新Transformer架構(gòu) 更節(jié)省計(jì)算資源!50%性能提升

這么高效的方法,讓人馬上聯(lián)想到了ResNet。

谷歌更新Transformer架構(gòu) 更節(jié)省計(jì)算資源!50%性能提升

不過和ResNet不同,MoD跳過連接是完全繞過層的。

谷歌更新Transformer架構(gòu) 更節(jié)省計(jì)算資源!50%性能提升

還有人表示,希望這種方法是完全動態(tài)的,而不是每個(gè)層固定百分比。

谷歌更新Transformer架構(gòu) 更節(jié)省計(jì)算資源!50%性能提升

這項(xiàng)研究由DeepMind和麥吉爾大學(xué)共同帶來。

主要貢獻(xiàn)者是David Raposo和Adam Santoro。

谷歌更新Transformer架構(gòu) 更節(jié)省計(jì)算資源!50%性能提升

他們二人都是DeepMind的研究科學(xué)家。此前共同帶來了神作《Relational inductive biases, deep learning, and graph networks》。

這篇論文目前被引次數(shù)超過3500次,論文核心定義了Inductive bias(歸納偏置)概念。

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com

標(biāo)簽: 谷歌 AI

相關(guān)文章

成人a'v在线播放| 一级毛片久久久| av天天av| 在线观看国产麻豆| 亚洲一区二区三区精品中文字幕| 亚洲精品一区二区在线| 欧美日韩视频在线观看一区二区三区| 成人aa视频在线观看| 狠狠色综合网| 91九色在线看| 女女色综合影院| 亚洲国产中文字幕久久网| 亚洲高清免费在线| 91精品久久久久久久蜜月| 好了av在线| 亚洲人精品午夜在线观看| 国产在线导航| 亚洲精品资源美女情侣酒店| 日韩av在线发布| 国产精品亚洲片在线播放| 久久精品国产福利| 搞黄网站在线观看| 国产精品福利一区二区三区| 国产一区二区女| 激情亚洲网站| 丝袜美腿亚洲一区二区图片| 久久久一区二区三区捆绑**| 精品福利免费观看| 初尝黑人巨炮波多野结衣电影| a视频在线看| 1区2区3区在线视频| 国产最新在线| 1024国产在线| 日本天堂影院在线视频| 欧美日本在线一区| 欧美性xxxxxxxxx| 国产精品久久久久久久浪潮网站| 久久中文字幕电影| 99久久久久久中文字幕一区| 色8久久久久| 国内精彩免费自拍视频在线观看网址| 日本天堂在线观看| 欧美黑人疯狂性受xxxxx野外| 免费av在线网站| 欧美天天综合色影久久精品| 国产精品久久久爽爽爽麻豆色哟哟| 国产日韩欧美麻豆| 亚洲三级小视频| 久久久久国产精品| 色综合久久一区二区三区| 超碰cao国产精品一区二区| 国产主播性色av福利精品一区| 午夜在线一区二区| 国产亚洲精品超碰| 日韩西西人体444www| www亚洲人| а√天堂资源国产精品| 一区二区三区午夜视频| 免费在线亚洲欧美| 日韩和的一区二区| 91在线视频观看| 日一区二区三区| 欧美激情视频一区二区三区免费| 日韩欧美一区二区三区免费看| 91亚洲国产| 日韩成人av在线资源| 亚洲日日夜夜| 国产高清不卡| 一本精品一区二区三区| 国产成人av一区二区三区在线观看| 精品一区二区三区日韩| 欧亚精品一区| 日韩理论片av| 激情婷婷欧美| 青青草一区二区三区| 四虎国产精品免费久久| 日韩美女在线| 成人影院在线| 亚洲国产婷婷| 99精品视频在线观看免费| 中文字幕一区二区三区在线不卡| 色综合久久综合网97色综合| 午夜av一区二区三区| 国产精品成人午夜| 欧美视频在线一区| 91传媒在线观看| 国产精品免费观看| 超碰国产在线| 免费av片在线观看一道本| 日本成人一区| 欧美18—19sex性hd| 久久精品官网| 中文字幕中文字幕一区| 精品国产福利视频| 亚洲精品自拍动漫在线| 欧美日韩一区二区三区不卡| 黄页网站在线观看| 成人国产网站| 日韩在线观看一区二区三区| 日韩精品三区| 国产亚洲一区在线| 亚洲视频免费观看| 欧美videos大乳护士334| 国产成人精选| 久久久91精品国产一区二区精品 | 欧美另类久久久品| 在线国产情侣| 日日狠狠久久| 91超碰国产精品| 国产毛片久久| 婷婷中文字幕综合| 精品亚洲aⅴ在线观看| 在线观看黄av| 日韩精品亚洲aⅴ在线影院| 999久久久亚洲| 日本午夜一本久久久综合| 国产激情一区二区三区| 91精品国产91热久久久做人人| 国产精成人品2018| 成人av在线电影| 亚洲一区二区三区在线看 | 中文字幕一区二区在线播放| 精品少妇一区二区三区免费观看| 在线亚洲免费视频| 亚洲美女性生活视频| 337p日本欧洲亚洲大胆鲁鲁| 九一亚洲精品| 精品一区二区久久| 欧美日韩成人一区| 国产精品极品| 欧美在线一二三| 超碰cao国产精品一区二区| 欧美日韩精品二区| 国产成人77亚洲精品www| 久久久久久9999| 国产免费视频在线| 国产精品大片| 亚洲精品免费在线| 18免费在线视频| 日韩中文字幕在线一区| 国产精品888| 日韩精品一区二区三区三区免费| 国产精品vvv| 人人超碰91尤物精品国产| 亚洲成人高清在线| 在线国产视频观看| 国产精品一区二区av交换| 国产成人啪免费观看软件| 你懂的在线观看视频网站| 在线成人国产| 亚洲丁香久久久| 神马精品久久| 天堂中文在线播放| 久久看片网站| 日韩av影片在线观看| 九九亚洲视频| 亚洲欧洲日韩av| 欧美日本在线观看| 日本黄色一区| 中文字幕中文乱码欧美一区二区| av最新网址| 牛牛影视久久网| 欧美中文字幕不卡| 黄av在线播放| 久草精品在线观看| 伊人网站在线| 国产日本精品| jizz国产| 欧美日韩一区自拍| 一本一道综合狠狠老| 成人免费网站观看| 午夜精品一区二区三区电影天堂| 欧美变态tickling挠脚心| 久久爱www成人| 一区二区三区在线观看欧美| 精品孕妇一区二区三区| 久久亚洲美女| 精品色蜜蜜精品视频在线观看| 99免在线观看免费视频高清| 亚洲视频在线免费| 欧美性一二三区| a成人v在线| 久久久久高清精品| 麻豆导航在线观看| av成人毛片| 动漫成人在线观看| 另类专区欧美蜜桃臀第一页| 粉嫩欧美一区二区三区| 五月婷婷六月综合| 亚洲成人1234| 99在线观看免费视频精品观看| 日韩丝袜美女视频| 日日摸夜夜添夜夜添国产精品| 一级片免费在线观看| 亚洲一区二区三区四区不卡| 亚洲日本黄色| 电影一区二区三| 亚洲精品一区二区在线观看| 久久国产精品久久久久久电车| 性欧美hd调教|