百度智能云混合云聯(lián)合昆侖芯、HAMi(密瓜智能發(fā)起并主導(dǎo)的 CNCF 開源項(xiàng)目),正式推出基于昆侖芯 P800 的 XPU/vXPU 雙模式算力調(diào)度方案 —— 該方案已率先在某金融客戶的昆侖芯集群中落地,為智能客服、營銷輔助等十余類 AI 業(yè)務(wù)提供兼具穩(wěn)定性與靈活性的算力支撐。客戶可在同一集群內(nèi)靈活調(diào)用昆侖芯 P800 的整卡 XPU 與虛擬化 vXPU 資源,讓國產(chǎn)算力既高效匹配業(yè)務(wù)需求,又實(shí)現(xiàn)資源的最大化利用。

1. XPU/vXPU 雙模式調(diào)度方案,把集群中的昆侖芯 P800 算力用透
百度智能云聯(lián)合 HAMi,基于昆侖芯 P800 構(gòu)建「XPU 整卡 + vXPU 虛擬化」雙模式資源調(diào)度體系:XPU 整卡模式通過拓?fù)鋵?yōu)調(diào)度與健康度評估,實(shí)現(xiàn)「多卡單任務(wù)」的最優(yōu)資源調(diào)度,保障大規(guī)模訓(xùn)練性能和穩(wěn)定性,并避免資源碎片化;vXPU 虛擬化模式以多規(guī)格切分支持「單卡多任務(wù)」,最大化資源利用率,靈活適配推理、開發(fā)等輕量化場景。雙模式協(xié)同發(fā)力,讓昆侖芯 P800 的每一份算力「算盡其用」,為各類 AI 業(yè)務(wù)提供高效算力支撐。
XPU 整卡模式:拓?fù)鋵?yōu)調(diào)度 + 集群健康度評估,保障大規(guī)模訓(xùn)練性能與集群穩(wěn)定
在多卡訓(xùn)練等通信性能敏感場景中,調(diào)度策略直接決定集群長期可用性與性能穩(wěn)定性。基于昆侖芯 P800 的物理拓?fù)涮匦裕桨竿ㄟ^兩層邏輯保障整卡模式的「高性能和高穩(wěn)定性」。
其一,系統(tǒng)自動識別昆侖芯服務(wù)器「左右側(cè)翼」物理分區(qū),優(yōu)先在單側(cè)翼內(nèi)調(diào)度資源,減少跨側(cè)翼通信開銷的同時,避免資源零散占用。
其二,當(dāng)多個節(jié)點(diǎn)都能滿足需求時,系統(tǒng)會評估調(diào)度前后對節(jié)點(diǎn)整體結(jié)構(gòu)的影響,優(yōu)先選擇能保持或改善拓?fù)湟?guī)整度的節(jié)點(diǎn),留存更多完整拓?fù)鋯卧档秃罄m(xù)調(diào)度失敗或回填導(dǎo)致的性能波動。
憑借「節(jié)點(diǎn)內(nèi)拓?fù)鋵?yōu)調(diào)度+集群內(nèi)健康度評估」,運(yùn)維團(tuán)隊(duì)不再需要頻繁人工干預(yù)去「手動拼卡」,大模型訓(xùn)練可獲得穩(wěn)定通信性能,集群資源利用更緊湊。
vXPU 虛擬化模式:多粒度切分 + 顯存自動對齊,用透每一分算力,簡化管理難度
針對推理、開發(fā)測試、模型驗(yàn)證等輕量化任務(wù)的細(xì)粒度算力需求,vXPU 虛擬化模式為昆侖芯 P800 打造了「算力精準(zhǔn)切分 + 便捷管理」的解決方案。
該模式支持多任務(wù)共享單張昆侖芯 P800 顯卡,提供 1/4 卡(24GB 顯存)、1/2 卡(48GB 顯存)兩種切分規(guī)格。實(shí)際使用中,用戶僅需聲明所需顯存,系統(tǒng)便會自動向上匹配最優(yōu)切分規(guī)格 —— 如申請 20GB 顯存時,系統(tǒng)自動分配 24GB 規(guī)格,無需用戶手動換算,大幅降低操作成本。
同時,為避免實(shí)例間干擾,方案引入「同規(guī)格共享」機(jī)制 —— 同一物理卡僅允許相同規(guī)格的虛擬實(shí)例共享,進(jìn)一步簡化了資源隔離與管理復(fù)雜度。
UUID 精準(zhǔn)控卡:自動化打底,人工補(bǔ)位,特殊場景不「卡殼」
依托整卡模式的拓?fù)鋵?yōu)調(diào)度、vXPU 虛擬化模式的顯存自動對齊等自動化能力,日常算力調(diào)度已實(shí)現(xiàn)少干預(yù)甚至無干預(yù)。針對灰度測試、硬件問題復(fù)現(xiàn)等特殊場景,方案預(yù)留「人工調(diào)節(jié)通道」 —— 運(yùn)維人員只需指定物理卡 UUID,即可直接選定或排除特定卡片。比如灰度發(fā)布新模型時,無需調(diào)動全量資源,指定部分卡片即可完成測試驗(yàn)證;硬件故障復(fù)現(xiàn)時,也能精準(zhǔn)定位問題卡片進(jìn)行調(diào)試,無需整機(jī)下線。
通過系統(tǒng)自動化調(diào)度與人工手動調(diào)節(jié)的結(jié)合,面對大模型訓(xùn)練、推理與開發(fā)等復(fù)雜場景,既能保障日常調(diào)度效率,又具備「因地制宜」的算力管理靈活性,輕松化解運(yùn)維難題。
2. 結(jié)語
XPU/vXPU 雙模式協(xié)同調(diào)度方案在金融行業(yè)的落地,是百度智能云混合云聯(lián)合 HAMi 在國產(chǎn) AI 硬件調(diào)度領(lǐng)域的重要實(shí)踐 —— 既驗(yàn)證了「場景驅(qū)動調(diào)度策略」的技術(shù)創(chuàng)新價值,也展現(xiàn)了開源生態(tài)與企業(yè)服務(wù)結(jié)合的落地能力。
