連續(xù)無故障訓(xùn)練15天!摩爾線程發(fā)布夸娥智算集群KUAE 1.2
快科技8月19日消息,摩爾線程正式發(fā)布了夸娥智算集群KUAE 1.2版本,通過軟硬件層面的綜合性優(yōu)化,在功能、性能上多維升級,更高效、穩(wěn)定,對生態(tài)系統(tǒng)更友好,可為大模型訓(xùn)練提供更堅實可靠的算力支撐。
夸娥1.2主要升級點:
▼MFU提升10% 最高可達55%
在新版本中,使用千卡集群訓(xùn)練千億模型,MFU(模型算力利用率)提升10%。
稠密模型集群訓(xùn)練中,MFU最高達到55%。
▼Flash Attention2優(yōu)化
通過集成最新的MUSA SDK平臺與優(yōu)化后的Flash Attention2技術(shù),結(jié)合新版Torch MUSA和算子融合,顯著提升了大模型訓(xùn)練的效率與資源利用率,大幅縮短訓(xùn)練周期,并降低了整體成本。
▼64K長文本支持
增強了對長文本大模型訓(xùn)練的支持,優(yōu)化了處理長文本理解和生成任務(wù)的能力,能夠更好地應(yīng)對文檔摘要、文章寫作等復(fù)雜語言處理任務(wù)。
▼支持混合專家模型MoE
MCCL通信庫完成了All2All優(yōu)化,并針對muDNN算子在不同形狀下的矩陣運算進行了優(yōu)化,以更好地支持MoE(Mixture of Experts)大模型的訓(xùn)練。
這不僅提升了智算效率,還為更大規(guī)模參數(shù)的大模型訓(xùn)練提供了高度可擴展的基礎(chǔ)。
▼斷點續(xù)訓(xùn)
進一步提升了大模型訓(xùn)練的Checkpoint(檢查點)讀寫性能,寫入時間小于2秒,顯著提高訓(xùn)練效率。
▼優(yōu)化DeepSpeed
支持DeepSpeed、Ulysses的適配和性能優(yōu)化,強化了長文本訓(xùn)練支持。
適配國內(nèi)外多款大模型,在Hugging Face上支持訓(xùn)練和微調(diào)主要的開源大模型,創(chuàng)新型企業(yè)可以靈活選擇不同的大模型開發(fā)智能應(yīng)用。
▼穩(wěn)定性提升
千卡集群軟硬件進一步成熟,實現(xiàn)了連續(xù)無故障訓(xùn)練長達15天。
新版本引入了KUAE Aegis可靠性功能,加強了對GPU、顯存、集合通信等方面的監(jiān)控、自動診斷與故障恢復(fù)能力。
▼可視化/可觀測
引入了PerfSight性能監(jiān)控系統(tǒng),可實時顯示模型訓(xùn)練過程中的資源消耗與性能分析數(shù)據(jù),有助于快速發(fā)現(xiàn)并恢復(fù)訓(xùn)練期間的故障,滿足大模型上的性能調(diào)優(yōu)需求。
▼內(nèi)置模型庫中新增大模型
KUAE內(nèi)置模型庫Model Zoo新增LLaMA2全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型。
本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。
如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com


