AI丨智譜推新大模型推理網絡架構ZCube
智譜(02513)表示,針對預填充(Prefill)及解碼(Decode)分離(簡稱PD分離)部署中日益嚴峻結構性網絡擁塞難題,與馭馴網絡及清華大學在開源模型GLM-5.1線上生產推出新一代網絡架構ZCube。
GPU平均推理吞吐提升15%
智譜稱,通過將ZCube投入在千卡級GLM-5.1的一個線上推理集群中,在GPU型號、軟件棧、業務代碼全部不變前提下,實現成本優化, GPU、軟件棧及應用保持不變,交換機與光模組資本支出減少33%;吞吐提升,GPU平均推理吞吐提升15%;以及時延改善,TTFT P99降低40.6%。
在相同規模下,ZCube可以比傳統Clos/ROFT架構減少約三分一的交換機和光模組成本,比如對於萬卡智算集群,ZCube架構可節省網絡硬件投資約2.1億至6.4億元人民幣,意味付出更低網絡成本可獲更好負載均衡與性能表現。




,泓滙財經資訊有限公司及財經智珠網有限公司提供。外滙及黃金報價由路透社提供。