AI存儲“黑科技”登場,助力企業(yè)實(shí)現(xiàn)90%成本銳減

作者 | 發(fā)布日期 2025 年 09 月 15 日 14:14 | 分類 企業(yè)

“跑一個(gè)70B大模型,先得準(zhǔn)備800萬元買顯卡?”——這不是段子,是多數(shù)企業(yè)AI本地化立項(xiàng)書的第一行數(shù)字。

人工智能正以前所未有的深度與廣度重塑千行百業(yè),然而當(dāng)企業(yè)投身于AI本地化部署時(shí),兩大根本性瓶頸橫亙眼前:一是數(shù)據(jù)“供不上、存不下”的困局;二是在動輒數(shù)百GB的AI模型面前,GPU“寸土寸金”的顯存墻。當(dāng)“顯存墻”越砌越高,產(chǎn)業(yè)界的梯子卻分出兩條截然不同的搭法。一條是“算力派”的直梯——把高端GPU像積木一樣繼續(xù)往上碼,用更多的H100、A800去換“寸土寸金”的顯存空間;另一條是“系統(tǒng)派”的折疊梯——在存算之間插入一層“彈性夾層”,把冷數(shù)據(jù)、溫?cái)?shù)據(jù)、熱數(shù)據(jù)按溫度梯度逐層騰挪,用軟件定義和異構(gòu)硬件去擠出額外的容量與帶寬。

國外已有微軟DeepSpeed、AMD Infinity Cache探路,國產(chǎn)陣營里,銓興科技把這套“夾層”思路拆成兩半:先用122 TB QLC eSSD等產(chǎn)品搭起“高性能eSSD矩陣”,把PB級模型權(quán)重穩(wěn)穩(wěn)落在閃存里;再用“添翼本地AI超顯存融合方案”把FPGA控制器引入PCIe通道,在微秒級完成數(shù)據(jù)搬運(yùn),僅把當(dāng)前最活躍的激活張量留在GPU顯存——單機(jī)即可釋放20倍等效顯存空間,成本銳減90%,無需額外購置旗艦卡。

銓興科技全場景eSSD矩陣,鑄造AI的堅(jiān)實(shí)數(shù)據(jù)底座

AI工作流的效率,本質(zhì)上是數(shù)據(jù)流動的效率。從數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練到推理應(yīng)用,每個(gè)環(huán)節(jié)對存儲的要求都截然不同。單一的存儲方案無法實(shí)現(xiàn)最優(yōu)的成本效益。銓興科技的策略是提供一套層次清晰、精準(zhǔn)匹配應(yīng)用場景的eSSD產(chǎn)品矩陣,確保每一分投入都用在刀刃上。

01、QLC 122TB單盤,拓寬推理倉庫的容量邊界

當(dāng)AI模型進(jìn)入推理(Inference)與檢索增強(qiáng)生成(RAG)的應(yīng)用階段時(shí),存儲的核心矛盾便從“混合讀寫”轉(zhuǎn)向了“讀取密集型”負(fù)載。

銓興科技的高密度QLC eSSD系列,正是應(yīng)對這一場景的“容量巨獸”和成本效益優(yōu)化器。它基于PCIe5.0接口,具備14,000MB/s的頂級順序讀取速度和超過300萬的隨機(jī)讀取IOPS,確保了AI應(yīng)用在面對海量并發(fā)請求時(shí),依然能提供低延遲的瞬時(shí)響應(yīng)。

其最為顯著的優(yōu)勢,在于將單盤容量史無前例地推升至122.88TB。這意味著,客戶可以用遠(yuǎn)少于傳統(tǒng)方案的硬盤數(shù)量、服務(wù)器乃至機(jī)柜空間,去構(gòu)建PB級別的AI數(shù)據(jù)湖和模型知識庫。這不僅大幅簡化了數(shù)據(jù)中心的物理部署,更在電力消耗、冷卻和運(yùn)維上帶來了顯著的成本節(jié)約,從根本上優(yōu)化了AI應(yīng)用長期運(yùn)行的總體擁有成本(TCO)。

02、從PCIe 5.0到SATA,給訓(xùn)練盤留一條帶寬階梯

相較于AI推理階段的讀取密集型負(fù)載,更前端的模型訓(xùn)練、大規(guī)模數(shù)據(jù)處理以及高性能計(jì)算(HPC)等企業(yè)級業(yè)務(wù),則對存儲系統(tǒng)提出了更為復(fù)雜和嚴(yán)苛的“混合讀寫”考驗(yàn)。這類場景不僅需要極致的讀取速度來避免GPU等核心算力單元的空轉(zhuǎn),更需要強(qiáng)悍且穩(wěn)定的寫入能力來應(yīng)對頻繁的數(shù)據(jù)更新與檢查點(diǎn)操作。

為應(yīng)對這一挑戰(zhàn),銓興科技的TLC產(chǎn)品矩陣提供了層次清晰的解決方案。其旗艦級的PCIe 5.0 TLC eSSD系列,正是為上述對速度要求最為苛刻的場景而設(shè)計(jì)。它依托PCIe 5.0的超高帶寬,提供了高達(dá)14,000 MB/s的順序讀取速度與3300K的隨機(jī)IOPS,確保在數(shù)據(jù)抽取與加載環(huán)節(jié),能以最快速度“喂飽”算力核心。

同時(shí),其強(qiáng)勁的寫入性能,能將AI訓(xùn)練中保存檢查點(diǎn)所需的時(shí)間視窗壓縮到最短,從而顯著提升有效訓(xùn)練時(shí)長。更重要的是,該系列產(chǎn)品具備高達(dá)3 DWPD的企業(yè)級寫入耐久度和創(chuàng)新的Dual Port(雙端口)設(shè)計(jì),為動輒耗時(shí)數(shù)月、7×24小時(shí)不間斷運(yùn)行的AI訓(xùn)練任務(wù),提供了企業(yè)級的可靠性與高可用性保障。

并非所有企業(yè)級應(yīng)用都需要PCIe 5.0的極致吞吐能力,廣泛的平臺兼容性和部署靈活性同樣至關(guān)重要。為此,銓興科技TLC產(chǎn)品矩陣中還包含了高耐用性的2.5英寸SATA TLC eSSD系列。

該系列產(chǎn)品專注于在各類主流服務(wù)器平臺中提供穩(wěn)定可靠的存儲支持,其容量可擴(kuò)展至15.36TB,并可根據(jù)客戶具體的應(yīng)用負(fù)載,提供從0.5到3不等的DWPD耐久度等級。這種高度客制化的能力,使其能靈活適配從溫、冷數(shù)據(jù)存儲到要求更嚴(yán)苛的企業(yè)應(yīng)用等多樣化的部署場景。

憑借這一兼顧性能與兼容性的產(chǎn)品布局,銓興科技的企業(yè)級存儲解決方案,已在AI服務(wù)器、數(shù)據(jù)中心、高性能計(jì)算、云存儲、數(shù)據(jù)庫等多個(gè)核心場景得到應(yīng)用。其產(chǎn)品已通過了包括飛騰、龍芯、海光、兆芯以及中泰證券、北京郵電大學(xué)在內(nèi)的多家國產(chǎn)化平臺和行業(yè)客戶的嚴(yán)格驗(yàn)證,證明了其在多場景下的可靠性與兼容性。

從168張到16張卡,超顯存方案如何攤平賬單?

AI大模型的本地化部署,正面臨一個(gè)核心悖論:模型參數(shù)的指數(shù)級增長與GPU顯存的線性增長之間,形成了巨大的鴻溝。以一個(gè)671B參數(shù)的大模型為例,傳統(tǒng)硬件配置需要一個(gè)由168張頂級顯卡構(gòu)成的龐大集群,成本高達(dá)4200萬元。這一由巨額成本砌成的“顯存墻”,正將無數(shù)渴望擁抱AI變革的高校、科研機(jī)構(gòu)與中小企業(yè)拒之門外。

從產(chǎn)業(yè)趨勢來看,“顯存擴(kuò)展技術(shù)”已成為降低AI硬件成本的重要方向,行業(yè)內(nèi)已有通過軟件虛擬化、內(nèi)存擴(kuò)展等方式提升顯存利用率的嘗試,但普遍存在性能損耗或兼容性問題。銓興科技推出的全離線、軟硬一體“添翼AI”超顯存融合解決方案,以“超維顯存融合技術(shù)”為核心,試圖通過軟硬協(xié)同的分層存儲架構(gòu),在不改變現(xiàn)有GPU配置的前提下,實(shí)現(xiàn)等效顯存容量的倍數(shù)級擴(kuò)展,讓大模型普惠化成為可能。

該方案的核心在于其自研硬件與核心算法的深度融合。其硬件基礎(chǔ)是一塊專為AI負(fù)載設(shè)計(jì)的“添翼AI擴(kuò)容卡”,它在系統(tǒng)中扮演著GPU高速緩存擴(kuò)展的角色;而賦予這塊硬件“智慧”的,則是作為智能調(diào)度中樞的“AI Link算法平臺”,它負(fù)責(zé)在GPU原生顯存與擴(kuò)容卡之間進(jìn)行微秒級的無感數(shù)據(jù)交換。

這種軟硬一體的架構(gòu)重構(gòu),為AI項(xiàng)目的硬件成本帶來了數(shù)量級的優(yōu)化。其關(guān)鍵在于,“添翼AI擴(kuò)容卡”將單卡的等效顯存容量有效擴(kuò)展了20倍。這一突破使得算力部署不再依賴于天價(jià)的顯卡堆疊,原先需要168張頂級顯卡的龐大訓(xùn)練任務(wù),如今僅需一個(gè)由16張中階顯卡構(gòu)成的緊湊型工作站即可勝任。

不僅如此,巨大的成本節(jié)約并未以犧牲性能為代價(jià)。得益于“AI Link算法平臺”的智能調(diào)度,模型推理的并發(fā)性能還能獲得高達(dá)50%的提升,實(shí)現(xiàn)了成本與效率的雙重突破。

為了讓這一強(qiáng)大的技術(shù)組合能被輕松駕馭,并轉(zhuǎn)化為真實(shí)的生產(chǎn)力,銓興科技進(jìn)一步提供了“AI Studio”軟件平臺,作為連接強(qiáng)大底層能力與用戶的橋梁。該平臺提供了一個(gè)低代碼的圖形化界面,將復(fù)雜的模型訓(xùn)練、部署、量化等流程大幅簡化,旨在極大降低用戶的操作門檻,讓更多領(lǐng)域的專家能夠便捷地利用AI技術(shù)。為了讓這一創(chuàng)新技術(shù)能快速轉(zhuǎn)化為生產(chǎn)力,銓興科技進(jìn)一步推出了覆蓋全場景的“Super AI”訓(xùn)推一體機(jī)系列,為不同用戶提供開箱即用的解決方案:

Super AI PC (訓(xùn)推一體機(jī)):?針對初創(chuàng)團(tuán)隊(duì)和小型開發(fā)組,提供從“訓(xùn)練到推理”的完整閉環(huán),其內(nèi)置的AI Cache能有效加速訓(xùn)練效率,是小團(tuán)隊(duì)AI開發(fā)的“全能工具箱”。

Super AI工作站 (訓(xùn)推一體機(jī)):?專為專業(yè)級模型開發(fā)設(shè)計(jì),通過多GPU與加速模塊的組合,有效解決“模型迭代慢、數(shù)據(jù)不安全”的核心痛點(diǎn),是保障長周期開發(fā)效率的“生產(chǎn)力站”。

Super AI服務(wù)器 (訓(xùn)推一體體):?面向企業(yè)級大模型落地,以多卡集群與AI加速能力,將“千億模型訓(xùn)推”從耗時(shí)數(shù)月壓縮至可控周期,是保障超大型模型成功落地的“攻堅(jiān)平臺”。

憑借領(lǐng)先的技術(shù)方案與顯著的成本優(yōu)勢,銓興科技的“添翼AI”解決方案已經(jīng)率先在政務(wù)、法律、高校等垂直行業(yè)實(shí)現(xiàn)了成功落地。同時(shí),公司正與聯(lián)想等系統(tǒng)集成商(SI)伙伴深度合作,以更成熟易用的產(chǎn)品形態(tài),滿足不同行業(yè)的多樣化需求,共同加速AI普惠化的進(jìn)程。

結(jié)語

人工智能走向產(chǎn)業(yè)縱深,終究要回到基礎(chǔ)設(shè)施的厚度。銓興科技在“存力”與“智算”兩條技術(shù)棧并行布局,先用百TB級QLC把每GB存儲價(jià)格壓到新低,再用緩存加速卡把顯存壓力部分卸載到閃存,二者疊加,為單機(jī)運(yùn)行百億級大模型提供了新的性價(jià)比路徑。隨著政務(wù)、高校等場景陸續(xù)落地,這一方案為行業(yè)提供了可觀測的參考路徑:在GPU價(jià)格仍處高位的當(dāng)下,通過QLC與分層緩存換取等效顯存,有望讓AI普惠化再下沉一個(gè)臺階。

(集邦化合物半導(dǎo)體整理)

更多SiC和GaN的市場資訊,請關(guān)注微信公眾賬號:集邦化合物半導(dǎo)體。