百度智能云混合云聯(lián)合昆侖芯、HAMi(密瓜智能發(fā)起并主導(dǎo)的 CNCF 開源項(xiàng)目),正式推出基于昆侖芯 P800 的 XPU/vXPU 雙模式算力調(diào)度方案 —— 該方案已率先在某金融客戶的昆侖芯集群中落地,為智能客服、營(yíng)銷輔助等十余類 AI 業(yè)務(wù)提供兼具穩(wěn)定性與靈活性的算力支撐。客戶可在同一集群內(nèi)靈活調(diào)用昆侖芯 P800 的整卡 XPU 與虛擬化 vXPU 資源,讓國(guó)產(chǎn)算力既高效匹配業(yè)務(wù)需求,又實(shí)現(xiàn)資源的最大化利用。

1. XPU/vXPU 雙模式調(diào)度方案,把集群中的昆侖芯 P800 算力用透
百度智能云聯(lián)合 HAMi,基于昆侖芯 P800 構(gòu)建「XPU 整卡 + vXPU 虛擬化」雙模式資源調(diào)度體系:XPU 整卡模式通過拓?fù)鋵?yōu)調(diào)度與健康度評(píng)估,實(shí)現(xiàn)「多卡單任務(wù)」的最優(yōu)資源調(diào)度,保障大規(guī)模訓(xùn)練性能和穩(wěn)定性,并避免資源碎片化;vXPU 虛擬化模式以多規(guī)格切分支持「單卡多任務(wù)」,最大化資源利用率,靈活適配推理、開發(fā)等輕量化場(chǎng)景。雙模式協(xié)同發(fā)力,讓昆侖芯 P800 的每一份算力「算盡其用」,為各類 AI 業(yè)務(wù)提供高效算力支撐。
XPU 整卡模式:拓?fù)鋵?yōu)調(diào)度 + 集群健康度評(píng)估,保障大規(guī)模訓(xùn)練性能與集群穩(wěn)定
在多卡訓(xùn)練等通信性能敏感場(chǎng)景中,調(diào)度策略直接決定集群長(zhǎng)期可用性與性能穩(wěn)定性。基于昆侖芯 P800 的物理拓?fù)涮匦裕桨竿ㄟ^兩層邏輯保障整卡模式的「高性能和高穩(wěn)定性」。
其一,系統(tǒng)自動(dòng)識(shí)別昆侖芯服務(wù)器「左右側(cè)翼」物理分區(qū),優(yōu)先在單側(cè)翼內(nèi)調(diào)度資源,減少跨側(cè)翼通信開銷的同時(shí),避免資源零散占用。
其二,當(dāng)多個(gè)節(jié)點(diǎn)都能滿足需求時(shí),系統(tǒng)會(huì)評(píng)估調(diào)度前后對(duì)節(jié)點(diǎn)整體結(jié)構(gòu)的影響,優(yōu)先選擇能保持或改善拓?fù)湟?guī)整度的節(jié)點(diǎn),留存更多完整拓?fù)鋯卧档秃罄m(xù)調(diào)度失敗或回填導(dǎo)致的性能波動(dòng)。
憑借「節(jié)點(diǎn)內(nèi)拓?fù)鋵?yōu)調(diào)度+集群內(nèi)健康度評(píng)估」,運(yùn)維團(tuán)隊(duì)不再需要頻繁人工干預(yù)去「手動(dòng)拼卡」,大模型訓(xùn)練可獲得穩(wěn)定通信性能,集群資源利用更緊湊。
vXPU 虛擬化模式:多粒度切分 + 顯存自動(dòng)對(duì)齊,用透每一分算力,簡(jiǎn)化管理難度
針對(duì)推理、開發(fā)測(cè)試、模型驗(yàn)證等輕量化任務(wù)的細(xì)粒度算力需求,vXPU 虛擬化模式為昆侖芯 P800 打造了「算力精準(zhǔn)切分 + 便捷管理」的解決方案。
該模式支持多任務(wù)共享單張昆侖芯 P800 顯卡,提供 1/4 卡(24GB 顯存)、1/2 卡(48GB 顯存)兩種切分規(guī)格。實(shí)際使用中,用戶僅需聲明所需顯存,系統(tǒng)便會(huì)自動(dòng)向上匹配最優(yōu)切分規(guī)格 —— 如申請(qǐng) 20GB 顯存時(shí),系統(tǒng)自動(dòng)分配 24GB 規(guī)格,無需用戶手動(dòng)換算,大幅降低操作成本。
同時(shí),為避免實(shí)例間干擾,方案引入「同規(guī)格共享」機(jī)制 —— 同一物理卡僅允許相同規(guī)格的虛擬實(shí)例共享,進(jìn)一步簡(jiǎn)化了資源隔離與管理復(fù)雜度。
UUID 精準(zhǔn)控卡:自動(dòng)化打底,人工補(bǔ)位,特殊場(chǎng)景不「卡殼」
依托整卡模式的拓?fù)鋵?yōu)調(diào)度、vXPU 虛擬化模式的顯存自動(dòng)對(duì)齊等自動(dòng)化能力,日常算力調(diào)度已實(shí)現(xiàn)少干預(yù)甚至無干預(yù)。針對(duì)灰度測(cè)試、硬件問題復(fù)現(xiàn)等特殊場(chǎng)景,方案預(yù)留「人工調(diào)節(jié)通道」 —— 運(yùn)維人員只需指定物理卡 UUID,即可直接選定或排除特定卡片。比如灰度發(fā)布新模型時(shí),無需調(diào)動(dòng)全量資源,指定部分卡片即可完成測(cè)試驗(yàn)證;硬件故障復(fù)現(xiàn)時(shí),也能精準(zhǔn)定位問題卡片進(jìn)行調(diào)試,無需整機(jī)下線。
通過系統(tǒng)自動(dòng)化調(diào)度與人工手動(dòng)調(diào)節(jié)的結(jié)合,面對(duì)大模型訓(xùn)練、推理與開發(fā)等復(fù)雜場(chǎng)景,既能保障日常調(diào)度效率,又具備「因地制宜」的算力管理靈活性,輕松化解運(yùn)維難題。
2. 結(jié)語
XPU/vXPU 雙模式協(xié)同調(diào)度方案在金融行業(yè)的落地,是百度智能云混合云聯(lián)合 HAMi 在國(guó)產(chǎn) AI 硬件調(diào)度領(lǐng)域的重要實(shí)踐 —— 既驗(yàn)證了「場(chǎng)景驅(qū)動(dòng)調(diào)度策略」的技術(shù)創(chuàng)新價(jià)值,也展現(xiàn)了開源生態(tài)與企業(yè)服務(wù)結(jié)合的落地能力。
