榴莲视频APP下载安装_秋霞免费观看_激情欧美日韩成人_又爽又大的少妇视频_成年美女黄网站色大片免费看_欧美日韩在线视频高清_国产极品粉嫩呻吟对白刺激91_亚洲综合国产婷婷精品无码aⅴ_亚洲午夜亚洲天堂_久久国产影片在观看_丁香四房播播_换爱交换乱理伦片中文字幕

新聞中心

憶芯受邀硅谷FMS2024發(fā)布計算存儲前沿研究,顯著提升大模型推理效率

發(fā)布時間:2024-08-07 文章來源:憶芯科技


1.png


2024年8月6-8日,作為全球存儲技術(shù)領(lǐng)域最具影響力的盛會之一,F(xiàn)MS 2024(the Future of Memory and Storage)于美國加州圣克拉拉會議中心盛大舉行。


2.jpg

憶芯科技首席科學家薛立成在FMS2024演講


憶芯科技首席科學家薛立成受邀出席,并發(fā)表主題演講《Dynamic data loading from Flash to DRAM for LLM inference》(從 Flash 動態(tài)加載數(shù)據(jù)到 DRAM:實現(xiàn)大模型高效推理),與業(yè)內(nèi)人士共同探索閃存技術(shù)在AI時代的激動人心的可能性。


大模型時代,存儲的瓶頸與挑戰(zhàn)


谷歌的Transformer架構(gòu)對人工智能行業(yè)產(chǎn)生了深遠的影響,通過引入創(chuàng)新機制來增強語言模型的表現(xiàn)力并提高訓練效率,這推動了大模型的廣泛應用。與此同時,ASIC芯片設(shè)計也經(jīng)歷了革新,這些芯片專注于性能優(yōu)化、能效提升,并且具備專門針對特定模型需求的功能,從而提供了更加強大且高效的硬件解決方案,促進了各種領(lǐng)域中大模型的應用。


然而,在支撐大模型的硬件平臺上,盡管GPU、高帶寬內(nèi)存(HBM)以及高速互聯(lián)芯片都取得了快速發(fā)展,但存儲解決方案如固態(tài)硬盤(SSD)卻沒有跟上這些進步的步伐。


3.jpg


隨著數(shù)據(jù)集規(guī)模的不斷增長,數(shù)據(jù)加載時間對應用的整體性能產(chǎn)生了顯著影響。在評估端到端的應用性能時,高性能GPU往往受限于緩慢的I/O速度或有限的內(nèi)存容量。在傳統(tǒng)的架構(gòu)中,數(shù)據(jù)從存儲設(shè)備加載到GPU進行處理的過程通常由CPU控制。隨著越來越多的計算任務從相對較慢的CPU轉(zhuǎn)移到更快的GPU上,I/O成為了制約整體應用性能的一個瓶頸。


4.jpg


目前,大模型的推理主要在云端服務器上執(zhí)行。然而,出于對更低延遲的需求、減少數(shù)據(jù)傳輸成本以及提高隱私和安全性的考量,未來的趨勢是將大模型的推理推向邊緣設(shè)備甚至終端用戶設(shè)備。然而,邊緣和終端用戶設(shè)備通常配備的內(nèi)存容量遠不能滿足當前流行的大模型推理所需。


大模型推理過程中所消耗的主要內(nèi)存來自于模型權(quán)重的存儲和KV緩存。為了解決推理期間內(nèi)存不足的問題,研究人員已經(jīng)探索了一系列優(yōu)化技術(shù),包括模型剪枝、量化以及知識蒸餾等方法,這些方法旨在減少模型的內(nèi)存占用同時盡量保持其性能。


為了應對這一挑戰(zhàn),我們從不同角度進行了探索,不僅僅限于模型本身的優(yōu)化技術(shù),還著眼于SSD存儲設(shè)備的潛力作為解決方案。通過利用計算存儲設(shè)備(CSD)的能力,我們旨在克服邊緣和終端用戶設(shè)備上內(nèi)存容量有限的問題。


憶芯計算存儲設(shè)備,有效優(yōu)化大模型推理


6.jpg


在推理階段,我們將根據(jù)數(shù)據(jù)訪問頻率對其進行分類:頻繁訪問的數(shù)據(jù)和較少訪問的數(shù)據(jù)。存儲中的權(quán)重由憶芯科技的計算存儲設(shè)備(CSD)動態(tài)預測,并將即將使用的權(quán)重預先加載到SSD的DRAM中。


憶芯科技CSD集成了靈活的CPU、高性能的神經(jīng)處理單元(NPU)以及其他動態(tài)預測硬件加速器,并配備了一定容量的DRAM。這個獨特的組合使得高效的數(shù)據(jù)管理和處理成為可能,完美支持數(shù)據(jù)頻率預測。通過預測數(shù)據(jù)的訪問模式,CSD可以優(yōu)化頻繁訪問數(shù)據(jù)在更快內(nèi)存中的放置,從而提高邊緣端和終端用戶設(shè)備上大模型推理的整體性能。


7.jpg


通過實驗,我們發(fā)現(xiàn)大約三分之一的數(shù)據(jù)屬于高頻訪問類別,這些數(shù)據(jù)需要被加載到GPU的DRAM中以確??焖僭L問。其余的數(shù)據(jù)訪問頻率較低,可以存儲在CSD中。通過利用CSD的推理能力,我們可以根據(jù)需要動態(tài)地從NAND閃存中讀取并加載這些數(shù)據(jù)到CSD的DRAM中。這種方法優(yōu)化了內(nèi)存資源的使用,并確保最關(guān)鍵的數(shù)據(jù)在推理過程中始終可用。


通過我們的方法,即使用戶的智能手機或筆記本電腦只有5GB的內(nèi)存,也可以支持大多數(shù)大模型的高精度量化推理。通過利用CSD及其優(yōu)化的數(shù)據(jù)管理策略,我們可以有效地利用可用的內(nèi)存和存儲資源,實現(xiàn)高效且精確的推理,從而使先進的語言模型能夠在更多設(shè)備上得以應用。


8.jpg


憶芯科技CSD搭載憶芯自主研發(fā)的PCIe 4.0主控芯片STAR2000,集成了4核arm A55處理器、4MB SRAM、最高8GB DRAM、8 TOPS NPU和其他硬件加速模塊。這些豐富的計算和存儲能力確保了數(shù)據(jù)頻率推斷的準確性和及時性,使得大模型推理在邊緣和終端用戶設(shè)備上的數(shù)據(jù)管理更加高效和有效。


企業(yè)微信截圖_17017561128121.png


大模型邊緣應用與計算存儲生態(tài)發(fā)展


9.jpg


隨著推理技術(shù)的不斷成熟,各種基于邊緣和終端用戶設(shè)備的大模型應用正在不斷涌現(xiàn)。這些應用包括本地個性化助手、用于增強可訪問性的實時字幕翻譯,以及用于安全通信的敏感數(shù)據(jù)翻譯。這些應用直接在邊緣和終端用戶設(shè)備為用戶提供更快的響應時間和更高的隱私保護。


同時,圍繞CSD的生態(tài)系統(tǒng)也在不斷發(fā)展和完善。隨著大模型應用的不斷演變,將會有更多專門針對這些模型的推理和訓練而定制的集成存儲和計算解決方案出現(xiàn)。這些解決方案將使資源的使用更加高效和有效,進一步推動該領(lǐng)域的進步,并擴展邊緣和終端用戶設(shè)備的能力。


以憶芯科技CSD為代表的定制存儲設(shè)備的集成,標志著解決大模型在推理過程中所面臨的內(nèi)存和計算挑戰(zhàn)的重要一步。


面對人工智能快速發(fā)展浪潮,憶芯科技將繼續(xù)推出更多創(chuàng)新的存儲解決方案,進一步推動計算存儲技術(shù)的發(fā)展,使AI惠及更廣泛的用戶群體。