亚洲图片你懂的_亚洲精品一卡二卡_av伦理在线_日韩一二三区_不卡av在线免费观看_久久久精品日韩欧美_欧美色偷偷大香_免费av片风间由美在线

您當(dāng)前的位置: 首頁 > 新聞 > 其他

豆包文科成績超了一本線:為什么理科不行

來源:量子位   編輯:非小米 時(shí)間:2024-07-01 15:25人閱讀

什么?好多大模型的文科成績超一本線,還是最卷的河南省???

豆包文科成績超了一本線:為什么理科不行
△圖源:極客公園

沒錯(cuò),最近就有這么一項(xiàng)大模型“高考大摸底”評測走紅了。

河南高考文科今年的一本線是521分,根據(jù)這項(xiàng)評測,共計(jì)四個(gè)大模型大于或等于這個(gè)分?jǐn)?shù),其中頭兩名最值得關(guān)注:

GPT-4o:562分

字節(jié)豆包:542.5分

……

從結(jié)果中來看,GPT-4o的表現(xiàn)依舊是處于領(lǐng)先狀態(tài),而在國產(chǎn)大模型這邊,比較亮眼的成績便屬于豆包了。

并且在語文和歷史等科目的成績甚至還超越了GPT-4o。

這也讓不少網(wǎng)友紛紛感慨:

AI文科成績這么好,看來在處理語言和邏輯上還是很有優(yōu)勢的。

豆包文科成績超了一本線:為什么理科不行

不過有一說一,畢竟國產(chǎn)大模型的競爭是如此之激烈,這份評測的排名真的靠譜嗎?發(fā)布僅數(shù)月的豆包,真具備此等實(shí)力嗎?以及這數(shù)學(xué)……又是怎么一回事兒?

先看評測榜單

要回答上述的問題,我們不妨先來查一查豆包在最新的權(quán)威評測榜單中的表現(xiàn)是否一致。

首先有請由智源研究院發(fā)布的FlagEval(天秤)。

它的評測方式是這樣的:

對于開源模型, FlagEval會(huì)綜合概率選擇和自由生成兩種方式來評測,對于閉源模型, FlagEval只采用自由生成的方式來評測,兩種評測方式區(qū)別參照。

主觀評測時(shí)部分閉源模型對極小部分題目有拒絕回答的情形,這部分題目并沒有計(jì)入能力分?jǐn)?shù)的計(jì)算。

在“客觀評測”這個(gè)維度上,榜單成績?nèi)缦拢?/p>

豆包文科成績超了一本線:為什么理科不行

不難看出,這一維度下的FlagEval中,前四名的成績是與“高考大摸底”的名次一致。

大模型依舊分別來自O(shè)penAI、字節(jié)跳動(dòng)、百度和百川智能。

并且豆包在“知識運(yùn)用”和“數(shù)學(xué)能力”兩個(gè)維度上成績還高于第一名的GPT-4。

若是將評測方式調(diào)節(jié)至“主觀評測”,那么結(jié)果是這樣的:

豆包文科成績超了一本線:為什么理科不行

此時(shí),百度的大模型躍居到了第一名,而字節(jié)的豆包依舊是穩(wěn)居第二的成績。

由此可見,不論是主觀還是客觀維度上,前幾位的名次都是與“高考大摸底”的成績是比較接近的。

接下來,我們再來有請另一個(gè)權(quán)威測評——OpenCompass(司南)。

豆包文科成績超了一本線:為什么理科不行

在最新的5月榜單中,豆包的成績也是僅次于OpenA家的大模型。

同樣的,在細(xì)分的“語言”和“推理”兩個(gè)維度中,豆包還是超越了GPT-4o和GPT-4 Turbo。

豆包文科成績超了一本線:為什么理科不行

但與專業(yè)評測冷冰冰的分?jǐn)?shù)相比,人們都對高考有著更深刻的體驗(yàn)和記憶。

那么接下來我們就通過豆包回答高考題,來看看大模型在應(yīng)對人類考試時(shí)的具體表現(xiàn)。

再看實(shí)際效果

既然目前許多試卷的題目都已經(jīng)流出,我們不妨親測一下豆包的實(shí)力。

例如讓它先寫一篇新課標(biāo)I卷語文的作文題目:

隨著互聯(lián)網(wǎng)的普及、人工智能的應(yīng)用,越來越多的問題能很快得到答案。那么,我們的問題是否會(huì)越來越少?

以上材料引發(fā)了你怎樣的聯(lián)想和思考?請寫一篇文章。

要求:選準(zhǔn)角度,確定立意,明確文體,自擬標(biāo)題;不要套作,不得抄襲;不得泄露個(gè)人信息;不少于800字。

豆包文科成績超了一本線:為什么理科不行
△結(jié)果由豆包PC端對話生成

從豆包的作答上來看,是已經(jīng)擺脫了AI寫作文經(jīng)常犯的“首先-其次-以及-最后”這種模板式的寫法,也擅長引經(jīng)據(jù)典來做論證。

但畢竟每個(gè)人對于文筆的審美標(biāo)準(zhǔn)不同,因此豆包高考作文寫得如何,評價(jià)就交給你們了(歡迎在留言區(qū)討論)。

值得一提的是,在量子位向豆包團(tuán)隊(duì)詢問后得知,原來豆包PC端對話和手機(jī)端“拍題答疑”是兩種截然不同的招式——

前者走的是LLM鏈路,后者走的則是RAG鏈路(若是用豆包手機(jī)端“拍題答疑”功能,高考數(shù)理化成績也能接近滿分)。

加上在這次“高考大摸底”評測出爐之后,很多網(wǎng)友們都將關(guān)注的重點(diǎn)聚焦到了數(shù)學(xué)成績上:

AI也怕數(shù)學(xué)。

豆包文科成績超了一本線:為什么理科不行

因此,接下來的實(shí)際效果測試,我們就將以“LLM鏈路+數(shù)學(xué)”的方式來展開。

先拿這次的選擇題來小試牛刀一下:

豆包文科成績超了一本線:為什么理科不行

當(dāng)我們把題目在PC端“喂”豆包之后,它的作答如下:

豆包文科成績超了一本線:為什么理科不行

因此,豆包給出的答案是:

A、C、D、D、B、B、A、A

這里我們再來引入排名第一選手GPT-4o的作答:

A、D、B、D、C、A、C、B

豆包文科成績超了一本線:為什么理科不行

而根據(jù)網(wǎng)上目前多個(gè)信源得到的標(biāo)準(zhǔn)答案是:A、C、D、A、B、B、C、B。

對比來看,豆包對5道,GPT-4o答對4道。

而對于更多的數(shù)學(xué)題的作答,其實(shí)復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室在高考試卷曝光后第一時(shí)間做了更加全面的測試(所有大模型只能依靠LLM推理答題,不能通過RAG檢索答案):

豆包文科成績超了一本線:為什么理科不行

豆包文科成績超了一本線:為什么理科不行
△圖源:復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室

由此可見,大模型并不能完全hold住高考數(shù)學(xué)題目,并且不同人生成答案的結(jié)果也會(huì)出現(xiàn)偏差。

并且量子位在反復(fù)測試后發(fā)現(xiàn),豆包對話答題時(shí)有一定隨機(jī)性,多輪測試時(shí)的結(jié)果并不完全一樣。上文只取樣其中一輪的結(jié)果。

這也正如廣大網(wǎng)友所反饋的那般——大模型文科強(qiáng)、理科弱。

對此,技術(shù)圈也已經(jīng)有一些討論和解釋:

大語言模型的基本原理是“文字接龍”,通過預(yù)測下一個(gè)token來生成內(nèi)容,每次預(yù)測都有隨機(jī)性和概率分布。

當(dāng)大語言模型學(xué)習(xí)了海量知識數(shù)據(jù),天然就適應(yīng)考驗(yàn)記憶能力和語言運(yùn)用的文科考試。

但理科考試主要考驗(yàn)推理和計(jì)算,比如一道數(shù)學(xué)題包含5步推理和5步計(jì)算,假設(shè)大語言模型每一步預(yù)測準(zhǔn)確的概率都有90%,綜合下來的準(zhǔn)確率就只有35%。

另一方面,理科語料比較稀缺。大模型的訓(xùn)練數(shù)據(jù)中,文科語料要遠(yuǎn)遠(yuǎn)大于理科語料。這也是大模型更擅長文科的一個(gè)原因。

大模型都在努力提升智能水平,主要目標(biāo)就是提高推理和計(jì)算能力。目前學(xué)界對此存在爭議,有觀點(diǎn)認(rèn)為,“預(yù)測下一個(gè)token”本身就包含了推理,計(jì)算也是一種推理。

只要Scaling Law生效,大模型性能持續(xù)提升,推理和計(jì)算能力就能夠提升;但也有反對者(如Yann LeCun)認(rèn)為,大語言模型缺乏真正的規(guī)劃推理能力,其涌現(xiàn)能力實(shí)際上是上下文學(xué)習(xí)的結(jié)果,主要體現(xiàn)在簡單任務(wù)和事先知道答案的情境中。大語言模型未來是否能夠真正實(shí)現(xiàn)AGI,目前還沒有定論。

那是不是大模型就不適合用戶來解數(shù)學(xué)題了呢?

也并不全是。

正如剛才所說,如果用豆包手機(jī)端的“拍題答疑”,也就是RAG鏈路的方式,那么結(jié)果的“打開方式”就截然不同了。

我們可以先用豆包APP對著題目拍照,讓它先進(jìn)行識別:

豆包文科成績超了一本線:為什么理科不行

結(jié)果就是——全對!

豆包文科成績超了一本線:為什么理科不行

至于更多類型題目大模型們的表現(xiàn)會(huì)如何,友友們可以拿著感興趣的題目自行測試一番了。

如何評價(jià)?

從“高考大摸底”和智源FlagEval、上海AI Lab OpenCompass等評測上可以看到,豆包大模型已經(jīng)穩(wěn)穩(wěn)進(jìn)入國產(chǎn)第一梯隊(duì)。

但隨即而來的一個(gè)問題便是,過去一年多異常低調(diào)的豆包,是如何在短短一個(gè)月內(nèi)就開始爆發(fā)的?

其實(shí)早在發(fā)布之際,豆包與其它大模型廠商截然不同的路徑就已經(jīng)有所體現(xiàn),歸結(jié)其背后的邏輯就是:

只有最大的使用量,才能打磨出最好的大模型。

據(jù)了解,豆包大模型在5月15日正式發(fā)布時(shí),其每天平均處理的token數(shù)量高達(dá)1200億,相當(dāng)于1800億的漢字;每天生成圖片的數(shù)量為3000萬張。

不僅如此,豆包大模型家族還會(huì)在包括抖音、今日頭條等在內(nèi)的50多個(gè)場景中進(jìn)行實(shí)踐和驗(yàn)證。

因此,我們可以把豆包在大模型性能上的路數(shù),視為用“左手使用量,右手多場景”的方式反復(fù)打磨而來。

一言蔽之,大模型好不好,用一下就知道了。

并且基于豆包大模型打造的同名產(chǎn)品豆包APP,已成為國內(nèi)最受歡迎的AIGC類應(yīng)用。

這一點(diǎn)上,從量子位智庫所匯總的智能助手“APP下載總量”和“APP月新增下載總量”便可一目了然——

豆包,均拿下第一。

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com

標(biāo)簽: 大模型 豆包

相關(guān)文章

三级欧美韩日大片在线看| 欧洲在线/亚洲| 精品人人视频| 亚洲成人中文在线| 色综合天天综合网中文字幕| 亚洲成年人在线| 国内精品视频666| 亚洲黄色网址| 色欧美片视频在线观看 | 91日韩免费| 视频在线这里都是精品| 一本大道久久a久久精二百| 日本成人中文| 黄色免费看网站| 暴力调教一区二区三区| 国产中文字幕一区二区三区| 男人资源在线播放| 色综合久久久久久久久| 久草中文综合在线| 成人中文视频| 欧美一区二区三区在线观看免费| 欧美高清一级片在线| 91日韩精品一区| 欧美专区18| 欧美第一在线视频| v片在线观看| 亚洲精品电影久久久| 男女小视频在线观看| 1区2区3区欧美| 国产精品主播直播| 无吗不卡中文字幕| 日韩欧美一区中文| 成人一区二区视频| 在线综合欧美| 欧美日韩第一| а√天堂官网中文在线| 亚洲精品不卡在线| 亚洲r级在线视频| 国产欧美日韩久久| 久久国内精品自在自线400部| 图片区亚洲欧美小说区| 亚洲精品国产动漫| 超碰精品在线观看| 日本在线一区二区三区| 免费污视频在线一区| 伊人精品影院| 在线观看视频你懂的| 啊啊啊好爽视频| 成人午夜影院| 日韩丝袜美女视频| 香蕉成人伊视频在线观看| 国产在线视频不卡二| 欧美亚洲一区| 欧美日韩国产高清电影| 97人澡人人添人人爽欧美| 四虎影视精品成人| 一二三中文字幕在线| 日韩精品丝袜在线| 日韩欧美中文字幕精品| 日韩美女啊v在线免费观看| 久久影音资源网| 人人精品人人爱| 午夜精品一区二区三区国产| 成人在线电影在线观看视频| 在线免费看h| 国产亚洲高清一区| 精品三区视频| 沈樵精品国产成av片| 亚洲理论电影片| 亚洲精品影视| 在线一区电影| 国产精品亚洲成人| 亚洲麻豆国产自偷在线| 在线一区二区三区四区五区| 亚洲日本在线视频观看| 亚洲国产视频直播| 日韩一区二区在线免费观看| 欧美一卡二卡在线观看| 传媒视频在线| 日韩免费va| 99国产**精品****| 国产成人av在线影院| 日韩美女精品在线| 亚洲国语精品自产拍在线观看| 91精品国产综合久久香蕉麻豆 | 制服丝袜中文字幕在线| hd国产人妖ts另类视频| 天天躁日日躁狠狠躁欧美| 国产精品入口| 国内成人精品2018免费看| 欧美激情在线免费观看| 欧美日韩国产首页在线观看| 在线看三级网站视频| 91福利精品在线观看| 亚洲午夜极品| 亚洲成人综合网站| 亚洲欧洲成人| 妖精一区二区三区精品视频 | 中文字幕在线第一页| 日韩制服诱惑| 男女性色大片免费观看一区二区| 精品久久香蕉国产线看观看亚洲| 一区二区三区性视频| 蜜桃av.网站在线观看| 国产亚洲激情| 欧美日韩成人综合| 97超碰在线免费| 蜜臀久久久久久久| 色婷婷狠狠综合| 丝袜在线观看| 日韩经典中文字幕一区| 欧美日韩中文字幕一区| 亚洲激情文学| 亚洲九九视频| 欧美日韩成人在线| 国产污视频在线播放| 久久亚洲影视| 色久综合一二码| 伊人久久高清| 久久久国产精华| 国产日本在线观看| 亚洲国产mv| 亚洲第一色中文字幕| 成人在线视频观看| 国产清纯白嫩初高生在线观看91 | 国产丝袜在线| 久久久久久色| 99精产国品一二三产品香蕉| 黄色成人美女网站| 99国产精品久久久久久久久久久 | 伊人精品综合| 国产视频一区二区在线观看| av在线资源站| 99re6这里只有精品视频在线观看 99re8在线精品视频免费播放 | 亚洲精品承认| 国产精品一区二区久久精品爱涩| 小明精品国产一区二区三区| 日韩高清不卡一区二区三区| 亚洲色图日韩av| 免费在线成人| 快色在线观看| 欧美精品一区二区三区蜜桃视频| 欧美成人一区二区三区片免费 | 国产综合色区在线观看| www.色精品| 在线播放一区二区精品视频| 国产一区二区三区在线观看精品 | 久久婷婷麻豆| 911国产精品| 色777狠狠狠综合伊人| 精品美女在线观看| 久久久久综合| 91丨porny丨蝌蚪视频| 亚洲影视资源| 欧美午夜一区二区| 艳女tv在线观看国产一区| 亚洲高清久久网| 久久欧美肥婆一二区| 成人在线观看免费网站| 国产三级欧美三级日产三级99| 日韩福利在线观看| 一区二区三区波多野结衣在线观看| 亚洲三级av| 精品亚洲精品福利线在观看| 久久99久久99精品免视看婷婷| 欧美寡妇性猛交xxx免费| 亚洲丝袜美腿综合| 国产欧美高清视频在线| 国产aa视频| 中文字幕在线观看一区二区| 精品国产第一福利网站| 欧美日本一区二区在线观看| 高跟丝袜一区二区三区| 中文字幕人成乱码在线观看 | 色88888久久久久久影院| 日韩电影第一页| 国产又粗又猛又爽又黄91精品| 亚洲盗摄视频| 综合久久久久久| 精品福利一区二区| 日韩欧美二区三区| 国产视频精品免费播放| 日韩一区二区三区电影在线观看| 精品国产123| 蜜桃专区在线| 日韩电影免费| 免费在线观看污视频| 7777精品伊人久久久大香线蕉的| 91久久线看在观草草青青| 波多野结衣精品在线| 99精品国产热久久91蜜凸| 国产91丝袜在线播放九色| 国产亚洲成人一区| av一区二区高清| 精品99re| 欧美极品在线观看| 免费精品一区二区三区在线观看| 中文在线√天堂| 亚洲精品中文字幕女同| 91精品福利视频|