2025年中國高校國際青年學(xué)者論壇
首頁 > 科研動態(tài)
關(guān)注我們
學(xué)術(shù)橋-訂閱號
學(xué)術(shù)橋-小程序
類腦脈沖大模型“瞬悉1.0”成功研發(fā)

  近日,中國科學(xué)院自動化研究所李國齊和徐波團(tuán)隊與相關(guān)單位合作,推出類腦脈沖大模型“瞬悉1.0”(SpikingBrain-1.0)。該模型基于團(tuán)隊原創(chuàng)“內(nèi)生復(fù)雜性”理論,在國產(chǎn)千卡GPU算力平臺上完成全流程訓(xùn)練和推理,實現(xiàn)大模型在超長序列推理上數(shù)量級的效率和速度提升,展現(xiàn)出構(gòu)建國產(chǎn)自主可控的新型(非Transformer)大模型架構(gòu)生態(tài)的可行性。研究團(tuán)隊開源了SpikingBrain-1.0-7B模型,開放SpikingBrain-1.0-76B測試網(wǎng)址,同步公開經(jīng)工業(yè)界大規(guī)模驗證的類腦脈沖大模型SpikingBrain-1.0中英文技術(shù)報告。

  當(dāng)前主流的Transformer模型存在固有缺點,即訓(xùn)練時開銷隨序列長度呈平方級增長,推理時顯存占用隨序列長度線性增加,造成資源消耗,導(dǎo)致其處理超長序列能力受限。

  研發(fā)團(tuán)隊借鑒大腦神經(jīng)元內(nèi)部復(fù)雜工作機制,提出“基于內(nèi)生復(fù)雜性”大模型構(gòu)架方式,打造類腦脈沖大模型“瞬悉1.0”,在理論上建立脈沖神經(jīng)元內(nèi)生動力學(xué)與線性注意力模型之間的聯(lián)系,揭示現(xiàn)有線性注意力機制是樹突計算的特殊簡化形式,展示出一條不斷提升模型復(fù)雜度和性能的新型可行路徑。進(jìn)一步,研發(fā)團(tuán)隊構(gòu)建并開源了基于脈沖神經(jīng)元、具有線性及混合線性復(fù)雜度的新型類腦基礎(chǔ)模型,開發(fā)出面向國產(chǎn)GPU集群高效訓(xùn)練和推理框架、Triton算子庫、模型并行策略、集群通信原語。

  SpikingBrain-1.0在多個性能方面實現(xiàn)突破:實現(xiàn)極低數(shù)據(jù)量高效訓(xùn)練、實現(xiàn)推理效率數(shù)量級提升、構(gòu)建國產(chǎn)自主可控類腦大模型生態(tài)、提出基于動態(tài)閾值脈沖化的多尺度稀疏機制。

  這是我國首次提出大規(guī)模類腦線性基礎(chǔ)模型架構(gòu),并首次在國產(chǎn)GPU算力集群上構(gòu)建類腦脈沖大模型的訓(xùn)練和推理框架。其超長序列處理能力在法律與醫(yī)學(xué)文檔分析、復(fù)雜多智能體模擬、高能粒子物理實驗、DNA序列分析、分子動力學(xué)軌跡等超長序列任務(wù)建模場景中具有顯著的潛在效率優(yōu)勢。

延伸閱讀
特別聲明:本文轉(zhuǎn)載僅僅是出于傳播信息的需要,并不意味著代表本網(wǎng)站觀點或證實其內(nèi)容的真實性。
如果作者不希望被轉(zhuǎn)載,請與我們聯(lián)系。
掃碼關(guān)注學(xué)術(shù)橋
關(guān)注人才和科研