打造“AI工廠”,摩爾線程為什么強(qiáng)調(diào)系統(tǒng)級(jí)創(chuàng)新?
7月25日,摩爾線程在世界人工智能大會(huì)(WAIC 2025)開幕前夕舉行技術(shù)分享會(huì)。
2025-07-31 09:13:40
來源:中國(guó)電子報(bào)、電子信息產(chǎn)業(yè)網(wǎng) 姬曉婷??

7月25日,摩爾線程在世界人工智能大會(huì)(WAIC 2025)開幕前夕舉行技術(shù)分享會(huì)。會(huì)上,摩爾線程創(chuàng)始人兼CEO張建中表示,將以系統(tǒng)級(jí)技術(shù)創(chuàng)新與工程化能力打造用于生產(chǎn)智能的“AI工廠”。在他看來,“AI工廠”,如同芯片晶圓廠的制程升級(jí),是一個(gè)系統(tǒng)性、全方位的變革,需要實(shí)現(xiàn)從底層芯片架構(gòu)創(chuàng)新、到集群整體架構(gòu)的優(yōu)化,再到軟件算法調(diào)優(yōu)和資源調(diào)度系統(tǒng)的全面升級(jí)。

AI工廠的生產(chǎn)效率取決于加速計(jì)算通用性、單芯片有效算力、單節(jié)點(diǎn)效率、集群效率、集群穩(wěn)定性,這五大元素相互配合,缺一不可。與之相對(duì)應(yīng),摩爾線程以全功能GPU、MUSA架構(gòu)、MUSA軟件棧、KUAE集群、零中斷五大技術(shù),滿足AI工廠對(duì)生產(chǎn)效率的要求。

張建中在技術(shù)分享會(huì)上介紹摩爾線程高效AI工廠打造方案

為何要打造“AI工廠”?

全球前沿模型“智力”正迅猛增長(zhǎng)。模型產(chǎn)業(yè)競(jìng)爭(zhēng)激烈,迭代速度愈來愈快。全球代表性模型的迭代周期,從5—6個(gè)月逐漸縮減到1個(gè)月,甚至近期每周都有新的模型智能水平超越行業(yè)既有模型。以人類智力水平100分為標(biāo)準(zhǔn),DeepSeek V3在2024年12月推出時(shí),評(píng)分為46分;今年5月推出的DeepSeek R1,智力水平已經(jīng)能夠達(dá)到68分。在不到半年的時(shí)間內(nèi),DeepSeek智能水平提升了50%以上。

這種高頻迭代不僅體現(xiàn)在大型語(yǔ)言模型(LLM)上,還同步擴(kuò)展至多模態(tài)模型、語(yǔ)音模型、世界模型等前沿模型領(lǐng)域。這些模型在性能、效率和應(yīng)用場(chǎng)景上實(shí)現(xiàn)的指數(shù)級(jí)突破,不僅推動(dòng)了AI從專用領(lǐng)域向通用智能的跨越,其快速迭代的特性更對(duì)新一代高性能人工智能計(jì)算基礎(chǔ)設(shè)施提出了迫切需求。

而訓(xùn)練具有高智能水平的模型,首先要算力足夠高、效率足夠高,才可以成為有效的算力。

張建中在主題演講中表示,為應(yīng)對(duì)生成式AI爆發(fā)式增長(zhǎng)下的大模型訓(xùn)練效率瓶頸,摩爾線程旨在通過系統(tǒng)級(jí)創(chuàng)新,將全功能GPU加速平臺(tái)的強(qiáng)大潛能,轉(zhuǎn)化為工程級(jí)的訓(xùn)練效率與可靠性,為AGI時(shí)代打造生產(chǎn)先進(jìn)模型的“超級(jí)工廠”。

相較于海外行業(yè)頭部企業(yè)代表,我國(guó)萬卡以上算力集群搭建仍處于追趕狀態(tài)。對(duì)于我國(guó)AI算力行業(yè)而言,部署規(guī)模更大、高效高可靠的大規(guī)模算力集群,仍是贏得國(guó)際競(jìng)爭(zhēng)的重要技術(shù)路線。

何以提升單芯片有效算力?

算力芯片是AI工廠的技術(shù)基座。如果算力芯片不夠通用、性能不夠強(qiáng),效率不夠高,AI工廠的地基就不夠牢。芯片運(yùn)算效率高低取決于芯片架構(gòu)、驅(qū)動(dòng)性能、算子優(yōu)化程度等多維因素。

在實(shí)際應(yīng)用中,芯片算力很少能夠達(dá)到理論峰值算力,實(shí)際運(yùn)行算力與產(chǎn)品設(shè)計(jì)理論算力之間存在差值。而好的芯片架構(gòu),應(yīng)該像一個(gè)優(yōu)秀的管理者一樣,通過調(diào)度使所有的資源“忙”起來。

記者注意到,摩爾線程正在以多種方式提升芯片實(shí)際應(yīng)用算力。

摩爾線程在WAIC 2025展示全功能GPU在不同場(chǎng)景中的應(yīng)用實(shí)例

MUSA(Meta-computing Unified System Architecture,即元計(jì)算統(tǒng)一架構(gòu))是摩爾線程自研架構(gòu),其核心理念是——要做多引擎可配置的統(tǒng)一系統(tǒng)架構(gòu)。

首先是多引擎,體現(xiàn)在單顆GPU芯片上同時(shí)支持AI計(jì)算、圖形渲染、物理仿真和科學(xué)計(jì)算、超高清編解碼技術(shù),目前國(guó)內(nèi)只有以摩爾線程為代表的少數(shù)GPU廠商具備全功能能力。

其次,該架構(gòu)采用統(tǒng)一的MUSA編程接口,提供統(tǒng)一的API。這樣一來,開發(fā)者采用一套編程指令集就能驅(qū)動(dòng)在MUSA架構(gòu)之下的多種算力引擎。

為了更好地調(diào)動(dòng)存算資源,摩爾線程自主研發(fā)的加速引擎——張量計(jì)算引擎(TCE)和張量訪存引擎(TME)。前者將大大小小各種不同的復(fù)雜結(jié)構(gòu)高效組合起來,同時(shí)具備高精度累加器,能夠降低小數(shù)累入損失。后者用以充分發(fā)揮存儲(chǔ)的效率,支持Img2Col、矩陣轉(zhuǎn)置,能夠加速前、后處理。

即便是國(guó)際GPU頭部企業(yè),也仍然存在通信任務(wù)占用計(jì)算資源的問題。而將原本可用于計(jì)算的處理器用于通信,會(huì)損失運(yùn)算效率。為解決這一問題,摩爾線程開發(fā)了ACE(異步通信引擎),能夠?qū)崿F(xiàn)異步DMA搬移,同時(shí)不占用計(jì)算核的資源和訪存帶寬,減少了15%的計(jì)算資源損耗;內(nèi)嵌同步機(jī)制,能夠提高跨引擎協(xié)同性能;采用多種訪存地址計(jì)算模式,提高搬移效率。

不僅如此,在計(jì)算層面,摩爾線程的AI加速系統(tǒng)全面支持INT8/FP8/FP16/BF16/TF32等多種混合精度計(jì)算。作為國(guó)內(nèi)首批實(shí)現(xiàn)FP8算力量產(chǎn)的GPU廠商,其FP8技術(shù)通過快速格式轉(zhuǎn)換、動(dòng)態(tài)范圍智能適配和高精度累加器等創(chuàng)新設(shè)計(jì),在保證計(jì)算精度的同時(shí),將Transformer計(jì)算性能提升約30%。

何以實(shí)現(xiàn)高效節(jié)點(diǎn)、集群算力?

軟件生態(tài)被視為芯片企業(yè)的“護(hù)城河”。摩爾線程著力建設(shè)的MUSA軟件棧正成為其全功能GPU性能發(fā)揮的有力支撐。

基于推理場(chǎng)景對(duì)Kernel延時(shí)敏感的現(xiàn)狀,MUSA的驅(qū)動(dòng)和運(yùn)行時(shí)庫(kù),能夠幫助用戶實(shí)現(xiàn)Kernel launch開銷縮減:通過軟硬協(xié)同,核函數(shù)啟動(dòng)延遲降低至業(yè)界平均水平的50%;近千次的計(jì)算和通信任務(wù)下發(fā)開銷,由近千次優(yōu)化為單次,GPU等待時(shí)間大大縮減;借助引擎間依賴解析技術(shù),任務(wù)流之間的依賴解析延時(shí)可大幅降低至1.5μs,優(yōu)于業(yè)界頭部算力卡。

MUSA算子庫(kù)提升了芯片計(jì)算效率

算子庫(kù)的效率直接關(guān)乎分布式集群的訓(xùn)練效率。

當(dāng)前,MUSA能夠提供三大算子庫(kù):極致性能muDNN、易用的MUTLASS、MUSA AI Tensor Engine開源推理算子庫(kù)。

其中,muDNN是一款極致性能的開箱即用標(biāo)準(zhǔn)算子庫(kù),完整覆蓋常見的前向和反向算子。能夠支持完整的XMMA,支持Tensor Core全精度及所有量化模式,以及常用的神經(jīng)網(wǎng)絡(luò)算子操作。當(dāng)前,業(yè)內(nèi)算子矩陣乘法的效率大部分可以做到90%以上,摩爾線程muDNN矩陣乘法算子效率可達(dá)到98%。國(guó)際一流廠商Flash Attention算子效率約為75%,而muDNN的Flash Attention能夠達(dá)到95%。

MUTLASS高性能的線性代數(shù)模板庫(kù),可極大降低在MUSA環(huán)境中自定義算子的開發(fā)工作量,相當(dāng)于提供了一個(gè)可供二次開發(fā)的模板。當(dāng)前MUTLASS已在Github上開源,支持平湖架構(gòu)所有特性,同時(shí)提供高性能矩陣乘法、卷積算子實(shí)現(xiàn),在Kernel中調(diào)用模板庫(kù)就可以進(jìn)行二次開發(fā)。

此外,摩爾線程即將發(fā)布的面向大語(yǔ)言模型的開源推理算子庫(kù)MUSA AI Tensor Engine,能夠幫助開發(fā)者快速搭建自定義推理引擎。該算子庫(kù)提供用戶友好的Python API,進(jìn)一步降低開發(fā)者使用門檻,只要會(huì)Python就可以調(diào)用。

大模型訓(xùn)練動(dòng)輒需要調(diào)動(dòng)幾千張甚至幾萬張算力卡資源。要實(shí)現(xiàn)模型的高效訓(xùn)練,不僅單卡性能要高,還需要有強(qiáng)大的集群管理和調(diào)度能力。

摩爾線程在WAIC 2025現(xiàn)場(chǎng)展示KUAE夸娥智算集群

摩爾線程自研的夸娥(KUAE)計(jì)算集群,集成了計(jì)算集群、軟件平臺(tái)、管理系統(tǒng)、優(yōu)化系統(tǒng)以及維護(hù)和服務(wù)等一系列流程。整合數(shù)據(jù)、模型、張量、流水線和專家并行技術(shù),全面支持Transformer等主流架構(gòu);支持端到端的模型訓(xùn)練,能夠?qū)崿F(xiàn)對(duì)混合專家模型、自動(dòng)駕駛模型、視頻生成模型、具身智能模型等多種類模型的全面支持。

在構(gòu)建高效集群的基礎(chǔ)上,穩(wěn)定可靠的運(yùn)行環(huán)境是“AI工廠”持續(xù)產(chǎn)出的保障。在萬卡級(jí)AI集群中,硬件故障導(dǎo)致的訓(xùn)練中斷會(huì)嚴(yán)重浪費(fèi)算力,甚至?xí)?dǎo)致訓(xùn)練團(tuán)隊(duì)幾個(gè)月的努力付諸東流。

為此,摩爾線程推出零中斷容錯(cuò)技術(shù),故障發(fā)生時(shí)僅隔離受影響節(jié)點(diǎn)組,其余節(jié)點(diǎn)繼續(xù)訓(xùn)練,備機(jī)無縫接入,全程無中斷。這一方案使KUAE集群有效訓(xùn)練時(shí)間占比超99%,大幅降低恢復(fù)開銷。同時(shí),KUAE集群通過多維度訓(xùn)練洞察體系實(shí)現(xiàn)動(dòng)態(tài)監(jiān)測(cè)與智能診斷,將異常處理效率提升50%;結(jié)合集群巡檢與起飛檢查,訓(xùn)練成功率提高10%,為大規(guī)模AI訓(xùn)練提供穩(wěn)定了保障。

原創(chuàng)文章
最新文章
1
不止于涼爽,美的空調(diào)用科技定義“理想夏天”
2
6月洗衣機(jī)內(nèi)外銷增幅收窄 下半年增長(zhǎng)或遇壓力
3
6月家用空調(diào)內(nèi)銷增長(zhǎng),出口退溫
4
6月冰箱行業(yè)產(chǎn)銷保持向好態(tài)勢(shì)
5
彩電H1:內(nèi)銷扛壓持平 出口下滑幅度擴(kuò)大
6
僅剩華為堅(jiān)守!一英寸主攝或被拋棄,長(zhǎng)焦成為新戰(zhàn)場(chǎng)
7
輕薄有力,智慧AI:OPPO Find N5 帶來大折疊手機(jī)的全新可能
8
半年報(bào) | 2025廚房小家電市場(chǎng):國(guó)補(bǔ)搭配“療愈經(jīng)濟(jì)”,預(yù)未來市場(chǎng)風(fēng)向
9
第二季度全球智能手機(jī)市場(chǎng)遇冷,廠商如何破局?
10
AI時(shí)代,運(yùn)營(yíng)商的云有哪些新變化?
11
2025年上半年家電零售額4537億元,同比增長(zhǎng)9.2%
12
LED面板企業(yè)業(yè)績(jī)預(yù)告分化明顯,有人“歡喜”有人“承壓”
13
曝iQOO 15要搶高通驍龍8 Elite 2首發(fā)權(quán):最貴2K屏+最強(qiáng)驍龍芯
14
2025年Q2全球手機(jī)出貨量出爐:三星奪冠 小米穩(wěn)居第三
15
機(jī)構(gòu)預(yù)警:下半年家電業(yè)增長(zhǎng)壓力驟增,大品牌時(shí)代“分化”難免
16
智能電視操作難倒父母?康佳電視G10系列用起來更簡(jiǎn)單
17
酷開超級(jí)智能體獲中國(guó)泰爾實(shí)驗(yàn)室國(guó)內(nèi)首張AI硬件智能體應(yīng)用成熟度證書
18
打造“AI工廠”,摩爾線程為什么強(qiáng)調(diào)系統(tǒng)級(jí)創(chuàng)新?
19
前五個(gè)月中國(guó)生活家電16%增速領(lǐng)跑,小家電市場(chǎng)依舊火熱
20
預(yù)計(jì)2025年全球Mini LED電視出貨量將達(dá)1156萬臺(tái),同比增長(zhǎng)50%
關(guān)于我們

微信掃一掃,加關(guān)注

商務(wù)合作
  • QQ:61149512