五月天激情视频在线,欧美激情视频一区二区三区,国产午夜免费秋霞影院,一本久道久久综合婷婷,色视频在线观看无码,人妻无码高清视频

行業(yè)資訊行業(yè)財報市場標準研發(fā)新品會議盤點政策本站速遞

南科大余浩團隊在具身智能硬件領域取得突破性成果

研發(fā)快訊 2025年05月28日 10:42:45來源:南方科技大學 17575
摘要隨著大模型時代的到來,深度神經網(wǎng)絡模型的算力需求呈指數(shù)級增長,但傳統(tǒng)芯片架構面臨能效與性能的雙重瓶頸。

  【儀表網(wǎng) 研發(fā)快訊】近日,南方科技大學深港微電子學院余浩教授研發(fā)團隊在具身智能硬件領域取得多項突破性成果。團隊共發(fā)表3篇期刊論文,分別發(fā)表在集成電路設計領域期刊《固態(tài)電路雜志》(IEEE Journal of Solid-State Circuits, JSSC)、電路與系統(tǒng)領域期刊 IEEE Transactions on Circuits and Systems I: Regular Papers 、電路與系統(tǒng)領域期刊《集成電路與系統(tǒng)》(IEEE Integrated Circuits & Systems, ISC)上。
 
  基于矢量脈動的高能效深度神經網(wǎng)絡加速器,突破傳統(tǒng)AI芯片設計中“能效-面積-靈活性”三角矛盾
 
  團隊提出了基于矢量脈動的高能效深度神經網(wǎng)絡加速器。相關成果以“A 29.12 TOPS/W Vector Systolic Accelerator with NAS-optimized DNNs in 28-nm CMOS”為題被集成電路設計領域期刊《固態(tài)電路雜志》(IEEE Journal of Solid-State Circuits, JSSC)接收。
 
  隨著大模型時代的到來,深度神經網(wǎng)絡模型的算力需求呈指數(shù)級增長,但傳統(tǒng)芯片架構面臨能效與性能的雙重瓶頸。研究團隊針對這一挑戰(zhàn)突破傳統(tǒng)AI芯片設計中“能效-面積-靈活性”三角矛盾,實現(xiàn)了三大技術創(chuàng)新:動態(tài)精度調控:打破固定精度限制,在能效與準確率間實現(xiàn)動態(tài)平衡;結構化稀疏編碼:通過對數(shù)尺度稀疏策略,在壓縮率提升30%的同時保持模型精度;矢量脈動陣列:創(chuàng)新的脈動架構將內存帶寬利用率提升至92%,顯著降低數(shù)據(jù)搬運能耗。
 
  圖1.1 基于4-bit的矢量處理單元(SCV PE)中實現(xiàn)8-bit的組合和2-bit/1-bit的拆分運算
 
  圖1.1展示了基于拆分和組和矢量(SCV)的動態(tài)精度調控的混合精度加速器,該加速器利用在每一層復用可變精度單元矢實現(xiàn)1-bit、2-bit、4-bit和8-bit精度的計算,并進一步采用實現(xiàn)脈動陣列(VSA)實現(xiàn)更大規(guī)模的集成,以提升芯片的吞吐量。芯片在對 NSA 優(yōu)化的混合精度 VGG-16 模型測試中,實現(xiàn)了平均能量效率達到29.12 TOPS/W(等效于2-bit精度的高能效),模型的推理準確率達到70.146%(等效于4-bit精度模型的高準確率)。該研究實現(xiàn)了很好的能效和面積效率,且實現(xiàn)了模型的低成本和高能效部署。
 
圖1.2 動態(tài)精度調控加速器芯片測試
 
  圖1.2展示了動態(tài)精度調控芯片的測試環(huán)境及結果,實驗結果標明該論文設計的芯片與目前國際最先進的研究工作相比,基于矢量的可拆分與組合實現(xiàn)的混合精度實現(xiàn)了最高的峰值能效(63.54 TOPS/W)和最高的峰值面積效率(7.94 TOPS/mm2)。
 
  圖1.3  對數(shù)尺度的結構化稀疏編碼策略以及混合稀疏的 Booth MAC 設計
 
  圖1.3展示了提出的對數(shù)尺度的結構化稀疏編碼策略,本工作同時結合混合稀疏的 Booth 算法的 MAC 單元以及組矢量脈動陣列(G-VSA)來優(yōu)化提高系統(tǒng)性能和能效。該混合加速器芯片采用28-nm CMOS 工藝,在工作電壓為0.7V和工作頻率為400MHz時,實現(xiàn)了平均能量效率高達 21.7 TOPS/W 的模型部署能效。測量結果顯示,該混合稀疏芯片在能量效率和準確性方面均優(yōu)于當前先進的稀疏芯片。
 
圖1.4 混合稀疏加速器的芯片測試
 
  圖1.4展示了混合稀疏芯片的測試環(huán)境及結果。在0.6V到1V的運行電壓下,芯片頻率從199 MHz變化到986 MHz,大約比先前的先進工作高出約2.5倍,這得益于 G-VSA 和優(yōu)化的混合稀疏 MAC 設計。加速卷積層的峰值吞吐量在1V時達到4.04 TOPs。在不同的供電電壓下,能耗范圍從26mW到314mW,對應的能效為1.67到31.26 TOPS/W。
 
圖1.5 具有混合精度及稀疏的立方脈動架構芯片的性能比較
 
  論文對基于立方脈動架構的混合精度和混合稀疏芯片,在相同測試用例的條件下進行了公平的比較,如圖1.5所示,混合精度 VSA 在相似的準確度水平上展示了更優(yōu)越的能量效率,而混合稀疏模型則實現(xiàn)了更優(yōu)的模型壓縮效果。因此,對于內存限制嚴重的場景推薦使用混合稀疏模型,而當能量效率和準確度是主要考慮因素時,則混合精度加速器更為合適。
 
  2021級博士生李凱為論文第一作者,余浩為論文的唯一通訊作者,南方科技大學為論文的第一單位。該論文得到了國家科技重點研發(fā)計劃項目和孔雀團隊項目經費的支持。
 
  成功部署端側 FPGA 大模型推理系統(tǒng),攻克大語言模型(LLM)在資源受限邊緣設備上的部署難題
 
  研發(fā)團隊與深圳市邁特芯科技有限公司合作,進一步攻克大語言模型(LLM)在資源受限邊緣設備上的部署,利用已驗證的混合精度計算單元以及立方脈動陣列架構,成功部署了多個 7B LLM 語言模型及多模態(tài)模型。與GPU相比,該系統(tǒng)的吞吐量提高了1.91倍,能效提高了7.55倍;與最先進的 FPGA 加速器 FlightLLM 相比,整體性能提升了10%到24%。相關研究成果以“EdgeLLM: A Highly Efficient CPU-FPGA Heterogeneous Edge Accelerator for Large Language Models”為題發(fā)表在 IEEE Transactions on Circuits and Systems I: Regular Papers 上。
 
圖2.1  端側大模型推理卡
 
  為了將大語言模型在資源受限的端側系統(tǒng)部署,團隊解決了幾大困難挑戰(zhàn)。首先,大語言模型計算量龐大以及內存訪問需求極高,現(xiàn)有解決方案通常將這些權重參數(shù)量化為 INT4 格式。為了確保計算精度,模型中的激活函數(shù)仍然保持 FP16 格式。因此,在前饋神經網(wǎng)絡(FFN)層中,系統(tǒng)需要支持 FP16INT4 格式的矩陣乘法。另一方面,在多頭注意力(MHA)模塊中,KV緩存作為激活數(shù)據(jù)動態(tài)生成,涉及KV緩存的矩陣乘法需要 FP16FP16 格式。因此,團隊沿用混合精度的思路,定制化實現(xiàn)了FP16INT4以及 FP16FP16 的混合精度計算單元以加速 LLM。團隊分析了前饋網(wǎng)絡(FFN)和多頭注意力(MHA)的計算需求,在高效率的混合精度計算單元的基礎上,構建了立方脈動陣列架構以進一步提升計算密度。團隊還提出了對數(shù)尺度結構化稀疏性和塊級量化方法,以在硬件效率和算法精度之間取得平衡。
 
  此外,在大語言模型中,定義計算流程的算子圖極其復雜,包含數(shù)百甚至數(shù)千個以復雜方式相互連接的算子,確保從一個算子到另一個算子的過渡無縫且高效成為了一項重大挑戰(zhàn)。團隊分析了大語言模型中的編譯需求,設計了一種統(tǒng)一且通用的數(shù)據(jù)格式,適用于所有算子和AI算法中的高維張量結構,使系統(tǒng)能夠快速執(zhí)行算子操作而無需任何數(shù)據(jù)重排。隨后,開發(fā)了端到端的編譯方案,其中動態(tài)編譯用于處理不同輸入 token 長度,指令流水線策略用于減少延遲。該方案能夠動態(tài)編譯所有算子,并將整個模型映射到 CPU-FPGA 異構系統(tǒng)上。
 
圖2.2 不同端側大模型推理卡對比
 
  南方科技大學深港微電子學院2023級碩士生申奧同與中國科學院深圳先進技術研究院黃明強研究員同為第一作者,余浩為論文的唯一通訊作者,南方科技大學為論文的通訊單位。該研究得到了醫(yī)學成像科學與技術系統(tǒng)全國重點實驗室、科技創(chuàng)新2030重大科技項目的資助。
 
  進行LLM 具身智能 NGS 研究,促成具身智能系統(tǒng)應用落地
 
  研發(fā)團隊還為解決大語言模型的具身智能系統(tǒng)應用落地提供了解決方案,相關成果以“emGene: An Embodied LLM NGS Sequencer for Real-time Precision Diagnostics”為題發(fā)表在電路與系統(tǒng)領域期刊《集成電路與系統(tǒng)》(IEEE Integrated Circuits & Systems, ISC)上。
 
  余浩團隊聯(lián)合上海芯像生物科技有限公司合作研發(fā)了 LLM 具身化的 NGS 測序儀-emGene,優(yōu)化后的大語言模型得以在端側大模型推理卡上高效部署,使診斷流程大幅提速,從而實現(xiàn)實時、現(xiàn)場 DNA 分析,在醫(yī)療領域實現(xiàn)實時、現(xiàn)場基因智能診斷的實際應用。
 
圖3.1 emGene大語言模型(LLM)邊緣 NGS 測序儀
 
  精準醫(yī)療正在革新全球醫(yī)療保健,通過實現(xiàn)個性化診斷、疾病預測以及定制化治療策略,極大地提升了醫(yī)療水平。雖然基因組學與數(shù)據(jù)科學的整合蘊藏著優(yōu)化精準治療效果的巨大潛力,如何將基因測序數(shù)據(jù)轉化為可應用于體外診斷的洞察力仍是一個關鍵挑戰(zhàn),這一瓶頸主要源自邊緣側智能處理和自動化能力的局限。盡管基因測序技術和生物信息學工具不斷進步,從樣本采集到診斷報告生成的工作流程依然零散、低效且缺乏智能化支持。
 
  為了解決這些問題,團隊提出了一款 emGene 大語言模型(LLM)的邊緣NGS測序儀(圖3.1),實現(xiàn)實時、現(xiàn)場智能基因診斷。該儀器整合了一個高效且全面的 emGene 處理流水線。采用深度學習網(wǎng)絡進行初步數(shù)據(jù)分析,利用機器學習實現(xiàn)二次數(shù)據(jù)處理,并通過經過量化與壓縮優(yōu)化的大語言模型完成三階數(shù)據(jù)解讀。借助于 FPGA 部署,該方案加速了診斷流程。實驗結果顯示,其通量提高了13.72%,Q30達到了99.50%,并且在邊緣側實現(xiàn)了高達75 token/s 的智能診斷性能。
 
圖3.2 emGene 一二三階段處理流水線
 
  研發(fā)團隊開發(fā)了一整套先進的 emGene 數(shù)據(jù)分析系統(tǒng),以提升 NGS 設備上 DNA 測序的表現(xiàn):在一階分析中,團隊利用深度學習構建了高通量簇檢測模型,通過優(yōu)化 CNN 和 Transformer 模型實現(xiàn)卓越的堿基識別,實現(xiàn)了較低的錯誤率、提高了數(shù)據(jù)質量、增加了吞吐量并加快處理速度;在二階數(shù)據(jù)分析中,團隊整合了機器學習模型,來提高變異檢測的精度;同時,在三階數(shù)據(jù)分析中并利用向量數(shù)據(jù)庫和提示學習技術將領域特定的DNA知識嵌入大語言模型中,為各種應用提供智能報告解讀。最后,團隊采用了 CPU-FPGA 異構加速框架優(yōu)化邊緣設備上部署量化大語言模型(LLMs)的性能。該 FPGA 實現(xiàn)整合了多項定制優(yōu)化措施,包括 FP16*INT4 和 FP16I*FP16 計算引擎、脈動計算陣列、結構化稀疏等技術。這些優(yōu)化均針對 LLMs 特有的數(shù)據(jù)格式量身定制,顯著提高了 FPGA 在邊緣部署時的效率。
 
圖3.3  emGene一二三階段處理流水線結果
 
  圖3.3展示了深度學習在一階數(shù)據(jù)分析模塊超越了傳統(tǒng)方法性能:其平均處理速度快19%,檢測到的簇數(shù)量多13.72%,且平均Q30 >99.50%。在二階數(shù)據(jù)分析中,F(xiàn)-1 Score 超越了其他設備處理結果。在三階數(shù)據(jù)分析方面,通過引入 ChatGLM2-6B 模型和提示學習技術,在邊緣設備上經過 INT8 量化后,準確性和速度均獲得了顯著提升,達到71.64%的精度,且性能最高可達75 tokens/s。
 
  本研究工作使得實時邊緣基因數(shù)據(jù)分析成為可能,從而大幅提升了精準醫(yī)療的可及性和效率,同時顯著提高了診斷準確性和自動化水平,為人工智能驅動的個性化醫(yī)療構建了一個穩(wěn)健平臺,并為未來的醫(yī)療服務設定了全新的標桿。
 
  余浩為論文的通訊作者,南方科技大學為論文的第一單位,該論文得到了國家科技重點研發(fā)計劃項目和孔雀團隊項目經費的支持。

我要評論
文明上網(wǎng),理性發(fā)言。(您還可以輸入200個字符)

所有評論僅代表網(wǎng)友意見,與本站立場無關。

版權與免責聲明
  • 凡本網(wǎng)注明"來源:儀表網(wǎng)"的所有作品,版權均屬于儀表網(wǎng),未經本網(wǎng)授權不得轉載、摘編或利用其它方式使用上述作品。已經本網(wǎng)授權使用作品的,應在授權范圍內使用,并注明"來源:儀表網(wǎng)"。違反上述聲明者,本網(wǎng)將追究其相關法律責任。
  • 本網(wǎng)轉載并注明自其它來源的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點或證實其內容的真實性,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉載時,必須保留本網(wǎng)注明的作品來源,并自負版權等法律責任。
  • 如涉及作品內容、版權等問題,請在作品發(fā)表之日起一周內與本網(wǎng)聯(lián)系,否則視為放棄相關權利。
  • 合作、投稿、轉載授權等相關事宜,請聯(lián)系本網(wǎng)。聯(lián)系電話:0571-87759945,QQ:1103027433。
廣告招商
今日換一換
新發(fā)產品更多+

客服熱線:0571-87759942

采購熱線:0571-87759942

媒體合作:0571-87759945

  • 儀表站APP
  • 微信公眾號
  • 儀表網(wǎng)小程序
  • 儀表網(wǎng)抖音號
Copyright ybzhan.cn    All Rights Reserved   法律顧問:浙江天冊律師事務所 賈熙明律師   儀表網(wǎng)-儀器儀表行業(yè)“互聯(lián)網(wǎng)+”服務平臺
意見反饋
我知道了
襄汾县| 博爱县| 浏阳市| 项城市| 浏阳市| 义马市| 长汀县| 嘉善县| 德化县| 泰州市| 古浪县| 从化市| 临夏市| 乐都县| 洪江市| 中山市| 封丘县| 栖霞市|