亚洲图片你懂的_亚洲精品一卡二卡_av伦理在线_日韩一二三区_不卡av在线免费观看_久久久精品日韩欧美_欧美色偷偷大香_免费av片风间由美在线

您當前的位置: 首頁 > 新聞 > 其他

效果達OpenAI模型96%!國內團隊新發大模型:CEO上陣寫代碼

來源:快科技 編輯:非小米 時間:2023-06-08 11:27人閱讀

國內自研大模型迎來新面孔,而且發布即開源!

最新消息,多模態大語言模型TigerBot正式亮相,包含70億參數和1800億參數兩個版本,均對外開源

由該模型支持的對話AI同步上線。

寫廣告語、做表格、糾正語法錯誤,效果都不錯;也支持多模態,能生成圖片。

效果達OpenAI模型96%!國內團隊新發大模型:CEO上陣寫代碼

評測結果顯示,TigerBot-7B已達到OpenAI同樣大小模型綜合表現的 96%

效果達OpenAI模型96%!國內團隊新發大模型:CEO上陣寫代碼

△公開 NLP 數據集上的自動評測,以OpenAI-instruct GPT-6B-SFT為基準,歸一化并平均各模型的得分情況

而更大規模的TigerBot-180B或是目前業內開源的最大規模大語言模型。

此外,團隊還一并開源100G預訓練數據、監督微調1G或100萬條數據

基于TigerBot,開發者在半天內就能打造出自己的專屬大模型。

目前TigerBot對話AI已邀請內測,開源代碼數據等已上傳至GitHub(詳細鏈接見文末)。

效果達OpenAI模型96%!國內團隊新發大模型:CEO上陣寫代碼

如上這些重磅工作,來自一支最初只有5人的小團隊,首席程序員&科學家就是CEO本人

但這個團隊,絕非師出無名。

從2017年起,他們就在NLP領域開始創業,專長垂直領域搜索。最擅長對數據重度以來的金融領域,和方正證券、國信證券等有過深入合作。

創始人兼CEO,有著20多年從業經驗,曾任UC伯克利客座教授,手握3篇最佳頂會論文和10項技術專利。

如今,他們決心從專長領域走向通用大模型。

而且一開始便從最底層的基礎模型做起,3個月內完成3000次實驗迭代,還有底氣將階段性成果對外開源。

不禁讓人好奇,他們是誰?想要做哪些事?如今已經帶來了哪些階段性成果?

TigerBot是什么?

具體來看,TigerBot是一款國產自研的多語言任務大模型。

覆蓋生成、開放問答、編程、畫圖、翻譯、頭腦風暴等15大類能力,支持子任務超過60種。

效果達OpenAI模型96%!國內團隊新發大模型:CEO上陣寫代碼

而且支持插件功能,能讓模型聯網,獲取到更加新鮮的數據和信息。

效果達OpenAI模型96%!國內團隊新發大模型:CEO上陣寫代碼

它的定位更偏向辦公場景,提出改善人們工作流、提高效率的目標。

比如讓它來幫我寫一條Apple Vision Pro的新聞快訊,效果有模有樣:

效果達OpenAI模型96%!國內團隊新發大模型:CEO上陣寫代碼

或者寫一個論文大綱,條理清晰、結構合理:

效果達OpenAI模型96%!國內團隊新發大模型:CEO上陣寫代碼

編程也沒問題,并且支持英文對話。

效果達OpenAI模型96%!國內團隊新發大模型:CEO上陣寫代碼

效果達OpenAI模型96%!國內團隊新發大模型:CEO上陣寫代碼

如果讓它畫圖的話,每次都會生成3張不一樣的,可以自己挑選。

效果達OpenAI模型96%!國內團隊新發大模型:CEO上陣寫代碼

這次發布,TigerBot一共推出了兩種size:70億參數(TigerBot-7B)和1800億參數(TigerBot-180B)。

團隊將目前取得的階段性成果——模型、代碼、數據,通通開源。

開源模型包括三個版本:

TigerBot-7B-sft

TigerBot-7B-base

TigerBot-180B-research

其中TigerBot-7B-base的表現優于OpenAI同等可比模型、BLOOM。TigerBot-180B-research或是目前業內開源的最大規模模型(Meta開源OPT的參數量為1750億、BLOOM則為1760億規模)。

開源代碼包括基本訓練和推理代碼,雙卡推理180B模型的量化和推理代碼。

數據包括100G預訓練數據,監督微調1G或100萬條數據。

根據OpenAI InstructGPT論文在公開NLP數據集上的自動評測,TigerBot-7B已達到 OpenAI 同樣大小模型的綜合表現的96%。

而這一版本還只是MVP(最小可行性模型)。

這些成果主要得益于團隊在GPT和BLOOM基礎上,在模型架構和算法上都做了更進一步的優化,也是TigerBot團隊過去幾個月來的主要創新工作,讓模型的學習能力、創造力和生成可控上都有明顯提升。

具體如何實現?往下看。

性能提升同時降低成本

TigerBot帶來的創新主要有以下幾個方面:

提出指令完成監督微調的創新算法提升模型可學習性

運用ensemble和probabilistic modeling的方法實現可控事實性和創造性

在并行訓練上突破deep-speed等主流框架中的內存和通信問題,實現千卡環境下數月無間斷

針對中文語言更不規則的分布,從tokenizer到訓練算法上做了更適合的優化

首先來看指令完成監督微調方法。

它能讓模型在只使用少量參數的情況下,就能快速理解人類提出了哪類問題,提升回答的準確性。

原理上使用了更強的監督學習進行控制。

通過Mark-up Language(標記語言)的方式,用概率的方法讓大模型能夠更準確區分指令的類別。比如指令的問題是偏事實類還是發散類?是代碼嗎?是表格嗎?

因此TigerBot涵蓋了10大類、120類小任務。然后讓模型基于判斷,朝著對應方向優化。

帶來的直接好處是調用參數量更少,同時模型對新數據或任務的適應能力更好,即學習性(learnability)提高。

在同樣50萬條數據訓練的情況下,TigerBot的收斂速度比斯坦福推出的Alpaca快5倍,在公開數據集上評測顯示性能提升17%。

其次,模型如何更好平衡生成內容的創造性事實可控性,也非常關鍵。

TigerBot一方面采用ensemble的方法,將多個模型組合起來兼顧創造性和事實可控性。

甚至可以根據用戶的需求,調整模型在二者之間的權衡。

另一方面還采用了AI領域經典的概率建模(Probabilistic Modeling)方法。

它能讓模型在生成內容的過程中,根據最新生成的token,給出兩個概率。一個概率判斷內容是否應該繼續發散下去,一個概率表示生成內容離事實內容的偏離程度。

綜合兩個概率的數值,模型會在創造性和可控性上做一個權衡。TigerBot中這兩個概率的得出由專門數據進行訓練。

考慮到模型生成下一個token時,往往無法看到全文的情況,TigerBot還會在回答寫完后再進行一次判斷,如果最終發現回答不準確,便會要求模型重寫。

我們在體驗過程中也發現,TigerBot生成回答并不是ChatGPT那樣逐字輸出的模式,而是在“思考”后給出完整答案。

效果達OpenAI模型96%!國內團隊新發大模型:CEO上陣寫代碼

效果達OpenAI模型96%!國內團隊新發大模型:CEO上陣寫代碼

△ChatGPT和TigerBot回答方式對比

而且由于TigerBot的推理速度很快,能夠支撐模型快速重寫。

這里就要說到TigerBot在訓練和推理上的創新了。

除了思考到模型底層架構的優化,TigerBot團隊認為工程化水平在當下大模型時代也很重要。

一方面是因為要考慮運營效率——隨著大模型趨勢持續,誰能更快迭代模型非常關鍵;另一方面當然還要考慮算力的經濟性。

因此,他們在并行訓練方面,突破了deep-speed等主流框架中的若干內存和通信問題,實現了千卡環境下訓練數月無間斷。

這使得他們每月在訓練上的開銷,能夠節省數十萬。

最后,針對中文連續性強、多義歧義情況多等問題,TigerBot從tokenizer到訓練算法上,都做了相應優化。

總結來看,TigerBot實現的技術創新,全都發生在當下大模型領域中最受關注的領域內。

不僅是底層架構的優化,還考慮到了落地層面的用戶需求、開銷成本等問題。并且整個創新過程的速度非常快,是10人左右小團隊在幾個月時間內實現。

這對團隊本身的開發能力、技術見解、落地經驗都有非常高的要求。

所以,到底是誰帶著TigerBot突然殺入大眾視野?

虎博科技是誰?

TigerBot的幕后開發團隊,其實就藏在它本身的名字里——虎博科技

它成立于2017年,也就是人們常說的AI上一輪爆發期內。

虎博科技給自己的定位是“一家人工智能技術驅動的公司”,專注于NLP技術的應用落地,愿景是打造下一代智能且簡單的搜索體驗。

具體實現路徑上,他們選擇了對數據信息最為敏感的領域之一——金融。自研了垂直領域內智能搜索、智能推薦、機器閱讀理解、總結、翻譯等技術,推出了智能金融搜索和問答系統“虎博搜索”等。

公司創始人兼CEO為陳燁,是一位世界級AI科學家。

效果達OpenAI模型96%!國內團隊新發大模型:CEO上陣寫代碼

他博士畢業于威斯康辛大學麥迪遜分校,曾任加州大學伯克利分校客座教授,到現在為止從業已有20余年。

他先后在微軟、eBay、雅虎擔任主任科學家和研發總監等要職,主導研發了雅虎的行為定向系統、eBay的推薦系統以及微軟搜索廣告競拍市場機制等。

2014年,陳燁加入大眾點評。之后美團點評合并,他任美團點評高級副總裁,分管集團廣告平臺,助力集團年廣告收入從1000萬提升至40多億。

學術方面,陳燁曾三次獲得頂會最佳論文獎(KDD和SIGIR),在SIGKKD、SIGIR、IEEE等人工智能學術會議上發表20篇論文,擁有10項專利。

2017年7月,陳燁正式創立虎博科技。成立1年后,虎博便快速拿下超億元融資,目前公司披露融資總額達4億元

效果達OpenAI模型96%!國內團隊新發大模型:CEO上陣寫代碼

7個月以前,ChatGPT橫空出世,AI在時隔6年以后,再次顛覆大眾認知。

即便是陳燁這樣在AI領域內創業多年的技術專家,也用“從業以來前所未有的震撼”來形容。

而在震撼之外,更多還是激動。

陳燁說,看到ChatGPT后,幾乎不用思考或決定,內心的呼喚讓他一定會跟進趨勢。

所以,從1月份開始,虎博正式成立了TigerBot的初始開發團隊。

不過和想象中不太一樣,這是一支極客風格非常鮮明的團隊。

用他們自己的話來說,致敬硅谷90年代經典的“車庫創業”模式。

團隊最初只有5個人,陳燁是首席程序員&科學家,負責最核心的代碼工作。后面成員規模雖有擴充,但也只控制在了10人,基本上一人一崗。

為什么這樣做?

陳燁的回答是:

我認為從0到1的創造,是一件很極客的事,而沒有一個極客團隊是超過10個人的。

以及純技術科學的事,小團隊更犀利。

的確,TigerBot的開發過程里,方方面面都透露著果斷、敏銳。

陳燁將這個周期分為三個階段。

第一階段,也就是ChatGPT爆火不久后,團隊迅速掃遍了OpenAI等機構過去5年內所有相關文獻,大致了解ChatGPT的方法機制。

由于ChatGPT代碼本身不開源,當時相關的開源工作也比較少,陳燁自己上陣寫出TigerBot的代碼,然后馬上開始跑實驗。

他們的邏輯很簡單,讓模型先在小規模數據上驗證成功,然后經過系統科學評審,也就是形成一套穩定的代碼。

在一個月時間內,團隊就驗證了模型在70億規模下能達到OpenAI同規模模型80%的效果。

第二階段,通過不斷吸取開源模型和代碼中的優點,加上對中文數據的專門優化處理,團隊快速拿出了一版真實可用的模型,最早的內測版在2月便已上線。

同時,他們還發現在參數量達到百億級別后,模型表現出了涌現的現象。

第三階段,也就是到了最近的一兩個月內,團隊在基礎研究上實現了一些成果和突破。

如上介紹的諸多創新點,就是在這一時期內完成的。

同時在這一階段內整合更大規模算力,達到更快的迭代速度,1-2個星期內,TigerBot-7B的能力便快速從InstructGPT的80%提升到了96%。

陳燁表示,在這個開發周期內,團隊始終保持著超高效運轉。TigerBot-7B在幾個月內經歷了3000次迭代。

小團隊的優勢是反應速度快,早上確定工作,下午就能寫完代碼。數據團隊幾個小時就能完成高質量清洗工作。

但高速開發迭代,還只是TigerBot極客風格的體現點之一。

因為他們僅憑10個人在幾個月內肝出來的成果,將以全套API的形式向行業開源

如此程度的擁抱開源,在當下趨勢尤其是商業化領域內,比較少見。

畢竟在激烈競爭中,構建技術壁壘是商業公司不得不面對的問題。

那么,虎博科技為什么敢于開源?

陳燁給出了兩點理由:

第一,作為一名AI領域內的技術人員,出于對技術最本能的信仰,他有一點熱血、有一點煽情。

我們想要以世界級的大模型,貢獻于中國創新。給行業一個可用的、底層基礎扎實的通用模型,能讓更多人快速訓練出專業大模型,實現產業集群的生態打造。

第二,TigerBot接下來還會繼續保持高速迭代,陳燁認為在這種賽跑的局面下,他們能保持身位優勢。即便是看到有人以TigerBot為底層開發出了性能更好的產品,這對于行業內來說又何嘗不是一件好事?

陳燁透露,接下來虎博科技還會持續快速推進TigerBot的工作,進一步擴充數據來提升模型性能。

“大模型趨勢就像淘金熱”

在ChatGPT發布6個月以后,隨著一個個大模型橫空出世、一家家巨頭火速跟進,AI行業格局正在被快速重塑。

盡管當下還相對混沌,但大致來看,基本上會分為模型層、中間層、應用層三層。

其中模型層決定底層能力,至關重要。

它的創新程度、穩定程度、開放程度,直接決定了應用層的豐富程度。

而應用層的發展是大模型趨勢演進的外化體現;更是AIGC愿景里,人類社會生活走向下一階段的重要影響因素。

那么,在大模型趨勢的起點,如何夯實底層模型基礎,是行業內必須思考的事。

在陳燁看來,目前人類才只開發了大模型10-20%的潛力,在fundamental層面還有非常大的創新和提升空間。

就好像曾經的西部淘金熱,最初要找到金礦在哪里一樣。

所以在這樣的趨勢和行業發展要求下,虎博科技作為國產領域創新代表,高舉開源大旗,迅速起跑、追趕世界最前沿技術,確實也為行業內帶來了一股與眾不同的氣息。

國產AI創新正在高速狂奔,未來一段時間內,相信我們還會看到更多有想法、有能力的團隊亮相,為大模型領域注入新的見解、帶來新的改變。

而這,或許就是趨勢轟轟烈烈演進過程中,最迷人之處了。

效果達OpenAI模型96%!國內團隊新發大模型:CEO上陣寫代碼

官網地址:https://www.tigerbot.com/chat

 

 

GitHub開源地址:https://github.com/TigerResearch/TigerBot

本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。

如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com

相關文章

黄页视频在线观看| 久久精品影视| 欧美高清视频| 超碰高清在线| fc2人成共享视频在线观看| 久久久精品欧美丰满| 久久字幕精品一区| 免费人成黄页网站在线一区二区| 一本色道久久综合一区| 理论片午夜视频在线观看| 亚洲一区在线日韩在线深爱| 97国产视频| 中文幕av一区二区三区佐山爱| 日本aa大片在线播放免费看| 青檬在线电视剧在线观看| 欧美69xxxxx| 成人区精品一区二区不卡| 亚洲午夜日本在线观看| 欧美日韩精品在线观看| 欧美激情一区二区三区四区| 天天综合天天做天天综合| 亚洲欧美自拍一区| 不卡亚洲精品| 最新亚洲视频| 全国精品久久少妇| 国产电影一区二区在线观看| 欧美在线看片| 人禽交欧美网站| 亚洲国产高清不卡| 欧美a级一区二区| 国产一区二区精品| 影音先锋久久久| 欧美视频日韩视频| 欧美一区二区在线视频| 亚洲成人999| 9999精品成人免费毛片在线看| 欧美特黄不卡| 你懂的在线播放| 日韩电影不卡一区| 日韩国产欧美一区二区| 久久亚洲私人国产精品va媚药| 污污的网站在线观看| 激情综合自拍| 色8久久人人97超碰香蕉987| 亚洲第一影院| 在线精品国产| 国产在线观看免费一区| 久久99这里只有精品| 不卡电影一区二区三区| 色香色香欲天天天影视综合网| 极品白浆推特女神在线观看 | 欧美成人一级视频| 91精品国产综合久久蜜臀| 日韩欧美一二区| av电影在线网| 日韩中文字幕一区二区三区| 亚洲精品一二三四区| 黑人欧美xxxx| 四虎影院观看视频在线观看| 国产成+人+综合+亚洲欧美| 亚洲一级特黄| 国产精品一区二区在线看| 国产亚洲欧美中文| 97在线资源| 亚洲欧洲成人| 你懂的在线观看一区二区| 国产乱码精品一区二区三区av | 7m精品国产导航在线| 日本不卡高清视频| 欧美日韩国产高清一区二区| av网站网址在线观看| 狠狠综合久久| 欧美怡红院视频| 九九色在线视频| 日韩专区欧美专区| 欧美刺激午夜性久久久久久久| 免费日韩电影| 国产电影一区二区三区| 亚洲成人xxx| 91精品短视频| 国产三级精品三级| 亚州av中文字幕在线免费观看| 国产亚洲精品美女久久久久久久久久| 成人深夜视频在线观看| 国产中文字幕第一页| 欧美色资源站| 亚洲午夜三级在线| 不卡的av影片| 久久爱www久久做| 亚洲精品久久久久| 欧美电影免费网站| 亚洲欧洲精品一区二区精品久久久 | 成人精品鲁一区一区二区| 国产乱真实合集| 狠狠综合久久av一区二区蜜桃| 中文字幕在线不卡一区| 秋霞午夜理伦电影在线观看| 国产婷婷精品| 欧美精品一区二区三区一线天视频 | a中文在线播放| av不卡在线| 亚洲精品大尺度| 国产精品午夜一区二区三区| 一区二区三区色| 2021中文字幕在线| 国产成人精品三级麻豆| 一级片在线免费看| 在线成人h网| 日韩成人av网| 午夜精品视频一区二区三区在线看| 色狠狠色噜噜噜综合网| 亚洲成a人片777777久久| 国产精品色噜噜| 免费黄色网页在线观看| 狠狠v欧美v日韩v亚洲ⅴ| 国产午夜电影| 伊人精品成人久久综合软件| 日韩视频一区二区在线观看| 日本中文字幕在线一区| 精品久久久久久中文字幕一区奶水| 午夜影院在线观看国产主播| 91在线精品秘密一区二区| 最新97超碰在线| 国产精品系列在线播放| 成人精品福利| 高清久久久久久| 麻豆av在线导航| 99re视频这里只有精品| 在线观看中文| 久久久91精品国产一区二区三区| 日本高清成人vr专区| 91影院在线免费观看| 都市激情久久综合| 国产精品乱码人人做人人爱 | 欧美男人的天堂一二区| 欧美国产极品| 日韩欧美亚洲国产另类| 一区二区国产在线| 国产黄色影视| 免费观看久久久4p| 蜜桃视频在线观看免费视频网站www| 国产高清在线观看免费不卡| 色开心亚洲综合| 91麻豆视频网站| 欧美中文字幕精在线不卡| 亚洲男帅同性gay1069| 日韩精品一级| 91精品欧美久久久久久动漫| 一区二区三区四区日韩| 日本搞黄视频| 国产成人精品亚洲日本在线桃色| 国产精品186在线观看在线播放| 中文字幕一区二区三区不卡| 中文字幕日本一区| 欧美日韩不卡在线| 最新亚洲激情| 在线观看的av| 亚洲欧美视频在线观看视频| 久久精品九色| 亚洲成色777777女色窝| 视频一区在线播放| 污影院在线观看| 亚洲第一久久影院| 日韩中字在线| 亚洲尤物在线视频| 久久久久久99精品| 欧美黄色一级| 日韩成人免费视频| 国产综合久久久久影院| 国产蜜臀一区二区打屁股调教| 亚洲综合成人网| 91视频综合| 麻豆app在线观看| 国产精品夫妻自拍| 真实原创一区二区影院| 九色porn| 91网站视频在线观看| 粉嫩av国产一区二区三区| 精品国产一区久久| 国产原创一区二区| 国外成人福利视频| 亚洲国产欧美一区| 成人国产亚洲欧美成人综合网| 亚洲图片小说区| 亚洲精品国产精品乱码不99按摩| 国产一区二区三区观看| 亚洲91在线| 东北一级毛片| 欧美国产禁国产网站cc| 欧美精品一区二区久久| 韩国中文字幕2020精品| 亚洲综合久久久| 欧美午夜电影在线观看| 欧美人与禽猛交乱配| 精品视频一区三区九区| 久久99精品久久久| 国产乱论精品| 国产精品久久久久久久龚玥菲 | 五月天网站亚洲| 日本欧洲一区二区|