破除“存儲墻”,存內(nèi)計(jì)算來助力
發(fā)布時間:2022-08-24 10:46:29 | 來源:中國電子報(bào) | 作者: | 責(zé)任編輯:林木近日,存算一體(存內(nèi)計(jì)算)芯片設(shè)計(jì)公司蘋芯科技宣布于數(shù)月前完成千萬級美元A輪融資。中國工程院院士鄔賀銓在2022中國算力大會上表示,對自動駕駛等場景產(chǎn)生的熱數(shù)據(jù)(實(shí)時性數(shù)據(jù)),存算分離會使數(shù)據(jù)在存儲和計(jì)算之間來回輸入,此時存內(nèi)計(jì)算更適合熱數(shù)據(jù)的處理。
在馮·諾依曼架構(gòu)中,計(jì)算和存儲功能分別由中央處理器和存儲器完成。而處理器在跟隨摩爾定律逐年提升性能的過程中,將對制程工藝不敏感的存儲器甩在了后面,兩者的性能差距形成了“存儲墻”。相比之下,存算一體能夠避免數(shù)據(jù)來回搬運(yùn)所造成的功耗損失和時間延遲。在AI技術(shù)不斷釋放數(shù)據(jù)洪流和算力場景需求的大趨勢下,存算一體芯片越來越受到產(chǎn)業(yè)界和資本市場的關(guān)注。
繞過“存儲墻”是AI時代剛需
早在1969年,斯坦福研究所的William Kautz就提出了存算一體的概念。Kautz提出在芯片的存儲單元中加入邏輯電路,并將多個單元連接起來組成陣列,這樣能夠打造更加靈活、速度更快、耗能更低的數(shù)字電路,以更好地適應(yīng)當(dāng)時大規(guī)模集成電路的需求。然而,早期的存算一體研究并沒有取得明顯的突破,以馮·諾依曼架構(gòu)為藍(lán)本、按照摩爾定律的步伐提升芯片性能,逐漸成為產(chǎn)業(yè)界的共識。
但近幾年來,存算一體又回到了業(yè)界的視野,并被視為重要的技術(shù)方向。
知存科技創(chuàng)始人兼CEO王紹迪向《中國電子報(bào)》指出,過去幾十年是摩爾定律快速發(fā)展的時期,加上開發(fā)新的架構(gòu)需要高昂的投入,因此在摩爾定律還能往下走的時候,產(chǎn)業(yè)界對存算一體這類架構(gòu)創(chuàng)新的需求還不高。但近十年以來,算力需求的增長使存儲墻的問題越來越凸顯。
“到2010年以后進(jìn)入后摩爾時代,行業(yè)內(nèi)日益增長的算力需求和幾乎走到極限的摩爾定律之間越來越突出的矛盾已經(jīng)成為人工智能發(fā)展的巨大瓶頸。因此,能解決存儲墻問題的存算一體技術(shù)受到了越來越多的關(guān)注,近幾年在產(chǎn)業(yè)界得到了非常快速的發(fā)展?!蓖踅B迪說。
尤其在2016年,人工智能Alpha Go在圍棋對弈中戰(zhàn)勝世界冠軍李世石之后,以深度學(xué)習(xí)為代表的統(tǒng)計(jì)學(xué)習(xí)理論與方法促動了整個人工智能行業(yè)的發(fā)展。OpenAI的分析顯示,自2012年以來,人工智能訓(xùn)練任務(wù)中使用的算力每3.5個月翻一倍。計(jì)算需求的突飛猛進(jìn),對算力芯片的效能提出了更高的要求和新的挑戰(zhàn)。
九天睿芯董事長兼CEO劉洪杰向《中國電子報(bào)》表示,在馮·諾依曼架構(gòu)中,處理器從處理單元外的存儲器提取數(shù)據(jù),搬運(yùn)時間往往是運(yùn)算時間的成百上千倍。
“深度學(xué)習(xí)加速的最大挑戰(zhàn)就是數(shù)據(jù)在計(jì)算單元和存儲單元之間頻繁的移動,市場急需可實(shí)現(xiàn)超高能效并且可以快速迭代的智能計(jì)算芯片來滿足日新月異的市場變化。我們推出的新型類腦計(jì)算的存內(nèi)計(jì)算體系架構(gòu)就是面向AI發(fā)展的算力瓶頸,核心技術(shù)是解決AI算力能效比偏低的核心剛性需求。算力堆疊帶來能耗問題,存算一體就是很好的解決方案?!眲⒑榻苷f。
衍生出不同架構(gòu)和技術(shù)路線
面向智能化時代的算力需求和計(jì)算服務(wù)業(yè)態(tài)變革,讓英特爾、三星等IDM廠商和新銳的算力芯片廠商都在探索存算一體芯片,并衍生出不同的架構(gòu)和技術(shù)路線。
劉洪杰表示,目前全球存算一體仍處于蓬勃發(fā)展階段,沒有一種技術(shù)架構(gòu)占據(jù)絕對主導(dǎo)地位。2017年,第一批存內(nèi)計(jì)算公司興起,目前存內(nèi)計(jì)算中有一些技術(shù)已經(jīng)可以落地,需要產(chǎn)業(yè)界加大投入,研發(fā)質(zhì)量過關(guān)的產(chǎn)品。
“存內(nèi)計(jì)算本身也有一個類似摩爾定律的發(fā)展過程,包括代工廠針對存內(nèi)計(jì)算專用工藝的提升。其次是先進(jìn)的材料,目前能夠量產(chǎn)的存內(nèi)計(jì)算存儲器中,F(xiàn)lash和SRAM新型存儲器更適合做存內(nèi)計(jì)算,需要在新型存儲器件上進(jìn)行更多研究。另外,存內(nèi)計(jì)算從算法到供應(yīng)鏈生態(tài)上也需要產(chǎn)學(xué)研結(jié)合,相互融合促進(jìn)發(fā)展?!眲⒑榻苷f。
作為多年來DRAM市場份額的冠軍,三星于2021年推出了結(jié)合DRAM的高帶寬內(nèi)存-存內(nèi)處理方案 (HBM-PIM),將AI計(jì)算能力引入內(nèi)存。通過將經(jīng)過DRAM優(yōu)化的AI引擎置于每個存儲子單元內(nèi),將處理能力直接引入到數(shù)據(jù)的存儲位置,從而實(shí)現(xiàn)并行處理,并盡可能減少數(shù)據(jù)移動。相較三星此前的高帶寬內(nèi)存方案,新架構(gòu)能夠提供超過兩倍的系統(tǒng)性能,并降低70%以上的能耗。
英特爾的神經(jīng)擬態(tài)計(jì)算芯片Loihi也采用了存算一體的架構(gòu),使之更加容易擴(kuò)展。Loihi芯片的裸片包含128個小核,每個核里面模擬1024個神經(jīng)元的計(jì)算結(jié)構(gòu),每個神經(jīng)元又有1000個突觸連接,這意味著768個芯片連接起來可以構(gòu)建接近1億神經(jīng)元的系統(tǒng)。
國內(nèi)聚焦存算一體芯片的企業(yè)則大多采用SRAM(靜態(tài)隨機(jī)存取存儲器)和Flash路線。
九天睿芯基于“模擬特征提取+模數(shù)混合電荷域SRAM”架構(gòu)實(shí)現(xiàn)存內(nèi)計(jì)算,第一顆感存算一體芯片ADA100于2021年回片。后摩智能第一代芯片基于SRAM、第二代芯片基于PRAM。蘋芯科技的兩款產(chǎn)品也基于28nm SRAM。
知存科技主要采用嵌入式Flash工藝,于2020年發(fā)布第一代存算一體芯片產(chǎn)品WTM1001,2022年實(shí)現(xiàn)存算一體SoC芯片WTM2101量產(chǎn)并落地應(yīng)用。
“近年來,隨著新興非易失存儲器的發(fā)展,國內(nèi)開始出現(xiàn)做存算一體大算力的公司,同時不斷有新玩家涌入。但距離大規(guī)模應(yīng)用,還有約10年的時間,從工藝、材料、算法、工具鏈到生態(tài),都需要產(chǎn)業(yè)界和學(xué)術(shù)界的不斷投入與共同推進(jìn)?!蓖踅B迪說。
存算一體芯片尚未規(guī)?;慨a(chǎn)
雖然存算一體芯片的技術(shù)前景和應(yīng)用場景逐漸明晰,但現(xiàn)階段存算一體芯片還沒有實(shí)現(xiàn)規(guī)?;牧慨a(chǎn)和部署,產(chǎn)品性能和產(chǎn)業(yè)生態(tài)有待進(jìn)一步提升和完善。
在性能方面,存算一體芯片還有較大的提升空間。劉洪杰表示,存算一體芯片還需要從三個方向提升性能。一是工藝迭代。隨著自動駕駛等應(yīng)用場景算力需求的提高,后摩爾時代存算一體芯片需要緊跟工藝迭代的紅利,進(jìn)一步提高能效比、面效比。二是提升精度,更多諸如飛行器航姿估計(jì)等對運(yùn)算精度有較高要求的應(yīng)用對存算一體架構(gòu)的精度提出了一定的挑戰(zhàn)。三是算法適配,在更廣闊的消費(fèi)領(lǐng)域,AI應(yīng)用呈現(xiàn)碎片化的趨勢,帶來了算法模型的多樣化,為適應(yīng)應(yīng)用落地需求,存算一體仍需進(jìn)一步擴(kuò)充計(jì)算架構(gòu)的適配能力。
以九天睿芯為例,接下來將從工藝、架構(gòu)等維度繼續(xù)深化模數(shù)混合存算一體芯片的開發(fā)部署。據(jù)悉,九天睿芯規(guī)劃了從55nm到6nm的產(chǎn)品路線,55nm產(chǎn)品主要面向TinyML(采用資源受限低功耗微控制器實(shí)施機(jī)器學(xué)習(xí))等低功耗喚醒場景,22nm產(chǎn)品面向AR/VR SLAM(即時定位與地圖創(chuàng)建)協(xié)處理、移動機(jī)器人、ADAS等場景,6nm主打面向聯(lián)邦學(xué)習(xí)(帶有安全加密技術(shù)的機(jī)器學(xué)習(xí)框架)、元宇宙、空間AI等應(yīng)用。
此外,存算一體芯片需要強(qiáng)化上下游協(xié)同以加速產(chǎn)業(yè)化進(jìn)程。王紹迪指出,存算一體芯片要實(shí)現(xiàn)大規(guī)模的量產(chǎn)、應(yīng)用,涉及上下游產(chǎn)業(yè)鏈的共同配合。包括行業(yè)標(biāo)準(zhǔn)化,以更好地實(shí)現(xiàn)產(chǎn)品落地;生態(tài)的建立,以拓展更多的應(yīng)用場景。
據(jù)王紹迪介紹,下一步知存科技會從產(chǎn)品和生態(tài)層面進(jìn)行升級,在初步構(gòu)建存算一體開發(fā)小生態(tài)的基礎(chǔ)上,隨著芯片算力、計(jì)算容量、計(jì)算速度的不斷增加,打造更豐富更便捷的開發(fā)工具鏈,穩(wěn)定架構(gòu)、打磨標(biāo)準(zhǔn)化產(chǎn)品、拓寬應(yīng)用場景,逐漸從端側(cè)發(fā)展到邊緣測或云端。