亚洲图片你懂的_亚洲精品一卡二卡_av伦理在线_日韩一二三区_不卡av在线免费观看_久久久精品日韩欧美_欧美色偷偷大香_免费av片风间由美在线

您當(dāng)前的位置: 首頁 > 新聞 > 其他

論文投Nature先問問GPT-4!斯坦福實測5000篇 一半意見跟人類評審沒差別

來源:量子位   編輯:非小米 時間:2023-10-06 23:21人閱讀

GPT-4有能力做論文評審嗎?

來自斯坦福等大學(xué)的研究人員還真測試了一把。

他們丟給GPT-4數(shù)千篇來自Nature、ICLR等頂會的文章,讓它生成評審意見(包括修改建議啥的),然后與人類給的意見進(jìn)行比較。

結(jié)果發(fā)現(xiàn):

GPT-4提出的超50%觀點與至少一名人類評審員一致;

以及超過82.4%的作者都發(fā)現(xiàn)GPT-4給的意見很有幫助。

那么,這項研究究竟能給我們帶來何種啟示?

結(jié)論是:

高質(zhì)量的人類反饋仍然不可替代;但GPT-4可以幫助作者在正式同行評審前改進(jìn)初稿。

論文投Nature先問問GPT-4!斯坦福實測5000篇 一半意見跟人類評審沒差別

具體來看。

實測GPT-4論文評審水平

為了證明GPT-4的潛力,研究人員首先用GPT-4創(chuàng)建了一個自動pipeline。

它可以解析一整篇PDF格式的論文,提取標(biāo)題、摘要、圖表、表格標(biāo)題等內(nèi)容來構(gòu)建提示語。

然后讓GPT-4提供評審意見。

其中,意見和各頂會的標(biāo)準(zhǔn)一樣,共包含四個部分:

研究的重要性和新穎性、可以被接受的潛在原因或被拒絕的理由以及改進(jìn)建議。

論文投Nature先問問GPT-4!斯坦福實測5000篇 一半意見跟人類評審沒差別

具體實驗從兩方面展開。

首先是定量實驗:

讀已有論文,生成反饋,然后與真實人類觀點系統(tǒng)地比較出重疊部分。

在此,團隊從Nature正刊和各大子刊挑選了3096篇文章,從ICLR機器學(xué)習(xí)會議(包含去年和今年)挑選了1709篇,共計4805篇。

其中,Nature論文共涉及8745條人類評審意見;ICLR會議涉及6506條。

論文投Nature先問問GPT-4!斯坦福實測5000篇 一半意見跟人類評審沒差別

GPT-4給出意見之后,pipeline就在match環(huán)節(jié)分別提取人類和GPT-4的論點,然后進(jìn)行語義文本匹配,找到重疊的論點,以此來衡量GPT-4意見的有效性和可靠度。

結(jié)果是:

1、GPT-4意見與人類評審員真實意見顯著重疊

整體來看,在Nature論文中,GPT-4有57.55%的意見與至少一位人類評審員一致;在ICLR中,這個數(shù)字則高達(dá)77.18%。

論文投Nature先問問GPT-4!斯坦福實測5000篇 一半意見跟人類評審沒差別

再進(jìn)一步仔細(xì)比較GPT-4與每一位評審員的意見之后,團隊又發(fā)現(xiàn):

GPT-4在Nature論文上和人類評審員的重疊率下降為30.85%,在ICLR上降為39.23%。

但這與兩位人類審稿人之間的重疊率相當(dāng):

人類在Nature論文上的平均重疊率為28.58%;在ICLR上為35.25%。

論文投Nature先問問GPT-4!斯坦福實測5000篇 一半意見跟人類評審沒差別

此外,他們還通過分析論文的等級水平(oral、spotlight、或是直接被拒絕的)發(fā)現(xiàn):

對于水平較弱的論文來說,GPT-4和人類審稿人之間的重疊率更高,可以從上面的30%多升到近50%。

這說明,GPT-4對水平較差的論文的鑒別能力很高。

作者也因此表示,那些需要更實質(zhì)性修改才能被接收的論文有福了,大伙兒可以在正式提交前多試試GPT-4給出的修改意見。

2、GPT-4可以給出非通用反饋

所謂非通用反饋,即GPT-4不會給出一個適用于多篇論文的通用評審意見。

在此,作者們衡量了一個“成對重疊率”的指標(biāo),結(jié)果發(fā)現(xiàn)它在Nature和ICLR上都顯著降低到了0.43%和3.91%。

這說明GPT-4是有針對性的。

3、能夠在重大、普遍問題上和人類觀點一致

一般來說,人類反饋中較先出現(xiàn)的意見以及多個評審員都提及的意見,最可能代表重要、普遍的問題。

在此,團隊也發(fā)現(xiàn),LLM更有可能識別出多個評審員一致認(rèn)可的常見問題或缺陷。

也就是說,GPT-4在大面上是過得去的。

4、GPT-4給的意見更強調(diào)一些與人類不同的方面

研究發(fā)現(xiàn),GPT-4評論研究本身含義的頻率是人類的7.27倍,評論研究新穎性的可能性是人類的10.69倍。

以及GPT-4和人類都經(jīng)常建議進(jìn)行額外的實驗,但人類更關(guān)注于消融實驗,GPT-4更建議在更多數(shù)據(jù)集上試試。

作者表示,這些發(fā)現(xiàn)表明,GPT-4和人類評審員在各方面的的重視程度各不相同,兩者合作可能帶來潛在優(yōu)勢。

定量實驗之外是用戶研究。

在此共包括308名來自不同機構(gòu)的AI和計算生物學(xué)領(lǐng)域的研究員,他們都在本次研究中上傳了各自的論文給GPT-4進(jìn)行評審。

研究團隊收集了他們對GPT-4評審意見的真實反饋。

論文投Nature先問問GPT-4!斯坦福實測5000篇 一半意見跟人類評審沒差別

總體而言,超過一半(57.4%)的參與者認(rèn)為GPT-4生成的反饋很有幫助,包括給到一些人類想不到的點。

以及82.4%的調(diào)查者認(rèn)為它比至少一些人類評審員的反饋更有益。

此外,還有超過一半的人(50.5%)表示,愿意進(jìn)一步使用GPT-4等大模型來改進(jìn)論文。

其中一人表示,只需要5分鐘GPT-4就給出了結(jié)果,這個反饋速度真的非常快,對研究人員改善論文很有幫助。

當(dāng)然,作者指出:

GPT-4也有它的局限性。

最明顯的是它更關(guān)注于“整體布局”,缺少特定技術(shù)領(lǐng)域(例如模型架構(gòu))的深度建議。

所以,如作者最后總結(jié):

人類評審員的高質(zhì)量反饋還是不可或缺,但大家可以在正式評審前拿它試試水,彌補遺漏實驗和構(gòu)建等方面的細(xì)節(jié)。

當(dāng)然,他們也提醒:

正式評審中,審稿人應(yīng)該還是獨立參與,不依賴任何LLM。

一作都是華人

本研究一作共三位,都是華人,都來自斯坦福大學(xué)計算機科學(xué)學(xué)院。

論文投Nature先問問GPT-4!斯坦福實測5000篇 一半意見跟人類評審沒差別

他們分別是:

梁偉欣,該校博士生,也是斯坦福AI實驗室(SAIL)成員。他碩士畢業(yè)于斯坦福電氣工程專業(yè),本科畢業(yè)于浙江大學(xué)計算機科學(xué)。Yuhui Zhang,同博士生在讀,研究方向為多模態(tài)AI系統(tǒng)。清華本科畢業(yè),斯坦福碩士畢業(yè)。曹瀚成,該校五年級博士在讀,輔修管理科學(xué)與工程,同時加入了斯坦福大學(xué)NLP和HCI小組。此前畢業(yè)于清華大學(xué)電子工程系本科。

論文投Nature先問問GPT-4!斯坦福實測5000篇 一半意見跟人類評審沒差別

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com

標(biāo)簽: 大模型 ChatGPT

相關(guān)文章

蜜臀国产一区二区三区在线播放| 中文字幕一区二区av | 一二三区高清| 午夜视黄欧洲亚洲| 国产成人精品网址| 中文精品久久| 日韩中文一区二区| mm1313亚洲国产精品美女| 精品视频在线观看日韩| 午夜免费久久看| 99精品久久久久久| av不卡在线看| 秋霞影院一区二区三区| 手机在线理论片| 性色视频在线观看| 日韩欧美第一区| 亚洲永久精品大片| 成人国产精品免费网站| 亚洲精品色图| 九九精品久久| 全球最大av网站久久| h视频在线观看免费| 亚洲美女激情视频| 欧美色视频一区| 中文字幕欧美一| 国产成人精品综合在线观看| 激情欧美国产欧美| 国产日韩视频在线| www.久久99| 国产精品探花在线| 欧美91精品久久久久国产性生爱| 91精品欧美久久久久久动漫| 一区二区欧美在线观看| 91亚洲国产成人精品一区二区三| 久久久精品午夜少妇| 欧美疯狂party性派对| 日韩免费成人| 亚洲精品日产| 免费观看在线午夜影视| 色视频www在线播放国产| 精品黑人一区二区三区久久| 欧美特黄级在线| 亚洲女同ⅹxx女同tv| 99r精品视频| 狠狠网亚洲精品| 9久re热视频在线精品| 日韩欧美综合| 欧美一级全黄| 蜜桃精品视频| 国产精品亚洲d| 成人观看网址| 18视频在线观看网站| 粉嫩av一区| 亚洲1024| 黄色免费影视| 亚洲精品国产综合久久| 欧美日韩国产精品自在自线| 偷偷要91色婷婷| 亚洲国产精品黑人久久久| 成人午夜视频在线观看| 久久国产精品毛片| 亚洲国产免费| 中文字幕一区二区三区久久网站| 国产一区二区三区四区| 成人性生交大片免费看中文视频| 成人午夜sm精品久久久久久久| 国产第一页在线| 国产色在线观看| 成人在线观看一区| 亚洲精品视频在线免费| 手机福利视频欧美| 日韩欧美一级精品久久| 欧美日韩你懂得| 欧美亚洲一区三区| 欧美日韩在线观看视频| 亚洲aaa精品| 一区二区三区日韩欧美| 亚洲人成在线播放网站岛国| 国产清纯白嫩初高生在线观看91 | 欧美激情一级片一区二区| 少妇精品久久久一区二区三区 | 红杏aⅴ成人免费视频| **国产精品| 国产麻豆一区| 国产麻豆一区| 成人全视频免费观看在线看| 成人福利一区二区| 免费看av不卡| 色猫猫成人app| 深夜成人影院| www.久久| 欧美成人家庭影院| 国产 日韩 欧美| 国产一区二区三区精品在线观看 | 欧美日韩理论| 国内在线观看一区二区三区| 欧美一区成人| 亚洲激情精品| 在线视频亚洲| 天堂蜜桃91精品| 日韩激情一二三区| 久久99蜜桃精品| 久久97超碰色| 国产综合色在线视频区| 免费视频亚洲| 97超碰欧美中文字幕| 日本韩国精品在线| 欧美一区二区播放| 超碰caoporn久久| 国产视频丨精品|在线观看| 精品少妇一区二区| 精品国产髙清在线看国产毛片| 精品国产123| 日韩电影中文字幕在线| 91p在线观看| 91精品久久久久久9s密挑| 午夜成人影视| av福利在线播放| 欧美人体视频xxxxx| 麻豆视频在线看| 开心久久婷婷综合中文字幕| 国产精品99久久免费| 国产欧美啪啪| 欧美色女视频| 黑丝一区二区三区| 水蜜桃久久夜色精品一区的特点| 久久99精品久久久久久国产越南 | 91麻豆国产福利精品| 国产偷v国产偷v亚洲高清| 亚洲精品国产一区二区精华液| 一区二区视频在线看| 91久久香蕉国产日韩欧美9色| 欧美在线播放高清精品| 精品国产污污免费网站入口 | 亚洲欧美日韩精品久久亚洲区 | 免费黄色网页在线观看| heyzo一区| 精品国产三区在线| 欧美人与牛zoz0性行为| 一区二区日韩欧美| 老鸭窝91久久精品色噜噜导演| 国产福利精品一区| 欧美韩国日本一区| 欧美日韩亚洲视频| 69堂精品视频| 亚洲欧美中文日韩在线| 蜜桃视频在线入口www| 丝袜中文在线| 精品视频一二| 日韩精品2区| 国产偷自视频区视频一区二区| 韩国精品免费视频| 国产精品丝袜久久久久久app| 亚洲成av人片一区二区三区| 日韩一区二区高清| igao视频网在线视频| 最新国产露脸在线观看| 色综合天天色| 欧美久久精品一级c片| 国产亚洲激情| 不卡的av在线| 亚洲成av人片一区二区| 欧美成人性福生活免费看| 天堂在线视频| 少女频道在线观看免费播放电视剧| 日韩一区中文| 日韩欧美视频在线播放| 麻豆91在线播放免费| 99综合电影在线视频| 亚洲国产va精品久久久不卡综合| 欧美日韩视频在线第一区 | 九色综合国产一区二区三区| 国产欧美一区二区精品忘忧草 | 97caopor国产在线视频| 欧美精品影院| 欧美激情日韩| 成人av在线播放网址| 欧美日韩国产精品专区 | 天堂中文а√在线| 亚洲男男av| 91tv官网精品成人亚洲| 粉嫩av一区二区三区在线播放| 亚洲精品成人精品456| 欧美mv日韩mv国产网站app| 亚洲成人套图| 韩国成人在线| 欧美精品第一区| 久久成人麻豆午夜电影| 亚洲欧美自拍偷拍| 日韩欧美成人一区二区| 在线免费黄色| 国产日韩在线观看视频| 一本久久综合| 国产人妖乱国产精品人妖| 6080午夜不卡| 在线视频色在线| 素人啪啪色综合| 亚洲三级毛片| 国产精品入口麻豆原神| 亚洲高清一区二|