隨著DeepSeek等大模型與生成式AI的快速演進,智能機器人、智能化科研、數(shù)字孿生、智慧城市、虛擬現(xiàn)實等應用場景日益豐富,智算需求呈“井噴式”增長,傳統(tǒng)數(shù)據(jù)中心建設模式已難以滿足新的發(fā)展要求,智算中心建設正成為數(shù)字經(jīng)濟蓬勃發(fā)展的新引擎。本文聚焦智算中心發(fā)展新形勢,從彈性靈活、集約部署、綠色低碳、高效智能等維度深入分析基礎設施建設模式的新變化,探究未來技術演進方向,以期為智算中心的建設與發(fā)展提供參考。
01
新形勢催生智算中心新變革
在政策層面,國家對算力中心PUE(電能利用效率)的管控持續(xù)加碼,綠色低碳成為智算中心建設的剛性約束。2024年,國家發(fā)展改革委、工業(yè)和信息化部等部門發(fā)布《數(shù)據(jù)中心綠色低碳發(fā)展專項行動計劃》,明確提出到2025年底,新建及改擴建大型和超大型數(shù)據(jù)中心PUE降至1.25以內,國家樞紐節(jié)點數(shù)據(jù)中心項目PUE不高于1.2,可再生能源利用率年均增長10%,平均單位算力的能效和碳效顯著提高。智算中心因高密度算力設備運行與高散熱需求,能耗顯著高于傳統(tǒng)數(shù)據(jù)中心,需要通過液冷散熱、余熱回收、AI能效優(yōu)化等技術革新,以及綠電交易、分布式儲能等能源管理模式創(chuàng)新,降低PUE、CUE(碳排放效率),構建符合國家政策要求的綠色低碳基礎設施。
在技術層面,上層業(yè)務需求倒逼智算中心“風、火、水、電”等底層基礎設施加速變革。一方面,AI計算任務的復雜性和數(shù)據(jù)量的爆炸性增長,要求AI芯片具備更強處理能力和更高運算效率,其設計不斷向更高集成度、更多核芯數(shù)、更高頻率的方向發(fā)展,計算能力提升的同時功耗顯著增加。另一方面,智算中心業(yè)務不確定性強、迭代變化快、流量峰谷波動顯著,對供電制冷、監(jiān)控運維等配套系統(tǒng)帶來多重挑戰(zhàn)。因此,實現(xiàn)基礎設施、服務器、芯片、網(wǎng)絡、應用間的高效協(xié)同與耦合成為重要方向。
彈性靈活
高密度集群化部署使得供電制冷系統(tǒng)的復雜程度顯著增加。一方面,GPU芯片的熱設計功耗從過去的百瓦級向千瓦級躍遷,單個機柜功率密度攀升至30~200千瓦,單體樓宇負載或達兆瓦級,亟需新型高效的供電架構。另一方面,智算中心的運算任務會使設備負載動態(tài)變化,如大規(guī)模AI模型訓練時服務器集群的耗電量急劇上升,處理日常數(shù)據(jù)任務時負載相對較低。業(yè)務量波動和高功耗特性,驅動智算中心供電制冷系統(tǒng)須具備彈性靈活、快速響應業(yè)務變化的能力。
機房基礎設施應綜合考慮算力演進,適配多樣化算力需求,按需支持多功率密度、多種制冷方案的彈性匹配。在規(guī)劃設計方面,冷源、電源、機房應適當預留容量或空間,如增加地板出線孔數(shù)量、設計容量冗余、確保制冷方式兼容性、實施智能電力管理等。在末端部署上,機柜可采用智能小母線和智能PDU(電源分配單元)實現(xiàn)精細化電力分配、實時監(jiān)測及智能化能源管理,提高配電系統(tǒng)的靈活性和運行效率。電力模塊可采用“旁路滿載供電+電池放電逆變補電”的混合模式,確保供電穩(wěn)定。制冷方式可根據(jù)訓練和推理業(yè)務的占比情況,選擇適當比例的風液融合方案,構建機柜微模塊、供電模塊、制冷模塊共用冷源,風冷、水冷、液冷同源且按需分配的架構,以支持算力的彈性部署與迭代演進。中國聯(lián)通粵港澳大灣區(qū)樞紐(韶關)智算中心大規(guī)模集成AI調優(yōu)、智能小母線、光伏、儲能等技術,實現(xiàn)機房靈活部署、多場景設計及高擴展性,可適配4~20kW功率并為液冷高功率需求預留空間。
集約部署
AI服務場景業(yè)務要求響應速度快,建設模式呈現(xiàn)集約部署趨勢。首先是建設部署預制化。傳統(tǒng)數(shù)據(jù)中心建設周期長,通常需要三年以上,難以適應當前算力技術快速迭代和業(yè)務智能化升級需求。預制化模式通過標準化設計、工廠預制和現(xiàn)場組裝,實現(xiàn)隨需部署與彈性擴展,在有效縮短建設周期的同時減少建設過程碳排放,更能適應技術發(fā)展和市場需要。中聯(lián)數(shù)據(jù)烏蘭察布亞信數(shù)據(jù)港園區(qū)1號智算中心在建設過程中采用模塊化設計,部署預制式氟泵空調機組、集裝箱式柴油發(fā)電機組。
其次是產品設備集成化。以基礎設施層供電系統(tǒng)為例,電力模塊將電源轉換單元、控制電路、保護裝置、監(jiān)測傳感器等供電相關組件整合成功能完備的模塊化單元,打破傳統(tǒng)供電系統(tǒng)中各組件獨立設置、相互連接的模式,實現(xiàn)供電功能的高度集成與優(yōu)化。華為融合極簡電力模塊解決方案采用高密UPS和開創(chuàng)式融合架構設計,通過銅排預制縮短供電鏈路。維諦技術的Liebert@APM2系列大功率模塊化UPS憑借超高雙變換系統(tǒng)效率、較小占地面積和豐富靈活的配置,顯著節(jié)約了運營成本。在IT層,應統(tǒng)籌規(guī)劃軟硬件集成,使基礎設施與IT設備適配,避免重復建設和資源浪費,確保高效算力輸出。目前,規(guī)劃建設和設備部署的協(xié)同設計,以及供電制冷等機房基礎設施如何更好匹配業(yè)務發(fā)展,進而支撐算存網(wǎng)發(fā)揮最大性能,也是重要的研究方向。
綠色低碳
中國信通院數(shù)據(jù)顯示,截至2024年底,我國算力中心用電量超過1660億kWh,未來幾年仍將高速增長,2030年或超過4000億kWh。智算中心的綠色低碳發(fā)展趨勢正驅動商業(yè)模式創(chuàng)新:綠色低碳不僅是用戶選購智算中心及算力服務的重要考量,也是企業(yè)服務方案的核心競爭力,應從基礎設施、IT設備到算力平臺、應用,進行全方位、全流程、全技術棧的能效優(yōu)化與碳排放管理。在基礎設施層,可通過布局綠色能源、開展綠電交易、應用“源網(wǎng)荷儲”等技術,實現(xiàn)算力與綠色能源的協(xié)同發(fā)展。合盈數(shù)據(jù)在張家口地區(qū)開拓“綠電供綠產”模式,依托區(qū)域內的可再生能源、新型電力系統(tǒng)及儲能配套設施,結合創(chuàng)新節(jié)能減排技術,使合盈數(shù)據(jù)(懷來)科技產業(yè)園實現(xiàn)充足穩(wěn)定的綠電供應,CUE值處于較低水平。
在IT設備層,多項政策強調提升算力能效和碳效水平,應關注AI芯片、CPU、顯存、帶寬等設備的利用率,持續(xù)優(yōu)化單位能耗的算力輸出,充分發(fā)揮算力性能,減少算力設備的無效、低效運行時間。在平臺側,應通過靈活的算力資源選擇與遷移能力、算力編排管理系統(tǒng)、碳排放監(jiān)測與統(tǒng)計平臺等,適應不斷變化的應用需求和能效要求。螞蟻集團GreenOps綠色減碳平臺有效解決了大規(guī)模集群資源合理分配、分鐘級有效調度、智能流量預測等行業(yè)難題,顯著提升了資源利用率。從2017年到2023年,螞蟻集團服務器CPU利用率增長了5倍。
高效智能
隨著技術的飛速發(fā)展,運維架構也歷經(jīng)了顯著變革。早期傳統(tǒng)運維架構主要依靠人工運維,運維人員需要手動執(zhí)行服務器配置、軟件部署、故障排查等各類任務,效率低下且易出錯。面對算力中心現(xiàn)場生產和遠程集中化管理的運維需求,可借助動環(huán)監(jiān)控、高效智能的DCIM等平臺或工具,通過運維大模型等算法整合的方式實現(xiàn)自動化、智能化運維,并對執(zhí)行過程進行監(jiān)管。
在全面擁抱AI的今天,為確保智算中心滿足AI業(yè)務高并發(fā)、海量數(shù)據(jù)處理、實時性要求高、模型迭代頻繁的需求,行業(yè)應監(jiān)控更多維度指標:不僅要關注服務器CPU、內存等常規(guī)指標,更要重點監(jiān)控GPU利用率、顯存占用、網(wǎng)絡帶寬時延等關鍵指標,同時跟蹤模型訓練進度、推理準確率等業(yè)務指標。因此,亟須構建更完善的聯(lián)動運維機制,整合供電制冷、“算存運”等多源數(shù)據(jù),實現(xiàn)智能分析與快速響應,以滿足AI業(yè)務對智算中心的復雜運維需求。例如,普洛斯懷來大數(shù)據(jù)科技產業(yè)園采用自研GLP DCBASE智慧化運營系統(tǒng),通過AI智能算法高效耦合運維管理系統(tǒng),切實滿足用戶快速部署大規(guī)模算力集群的應用場景需求。
總體來看,智算中心歷經(jīng)早期探索、技術生態(tài)大爆發(fā)階段,隨著新變革的推進,今后將提供更成熟的社會級服務(如圖1所示)。
智算中心演進的三個階段
02
圍繞六大特征持續(xù)演進
隨著上層業(yè)務愈加復雜多元,智算中心算力性能和服務等軟能力輸出備受關注。智算中心將呈現(xiàn)高算力、高安全、高可用、高能效、智運營、優(yōu)服務六大特征。在高算力方面,綜合考量現(xiàn)存容量與帶寬、互聯(lián)技術及系統(tǒng)架構設計等因素下的真實有效算力表現(xiàn)。在高安全方面,從網(wǎng)絡、數(shù)據(jù)、應用等層面構建完善的安全保障體系。在高可用方面,構建資源管控、故障分級、故障檢測修復等全套能力,延長無故障運行時間。在高能效方面,從硬件、軟件、平臺、應用等維度構建全方位能效管理體系,優(yōu)化單位算力的能效與碳效。在智運營方面,通過智能化管理平臺、運維大模型等工具,實現(xiàn)從數(shù)據(jù)采集到預測性維護全流程的數(shù)智化。在優(yōu)服務方面,適配業(yè)務場景提供靈活彈性的算存運服務,開展數(shù)據(jù)處理、模型遷移開發(fā)等,提高算力普適普惠服務水平。
未來,智算中心將圍繞上述六大特征持續(xù)演進,成熟度內涵從基礎設施、IT設備、軟件平臺向應用領域拓展,各系統(tǒng)高效協(xié)同與耦合的趨勢不斷深化,從而推動智算產業(yè)高質量發(fā)展。
*本文刊載于《通信世界》總第970期 2025年6月25日 第12期原文標題:《智算中心建設模式的顛覆與重構》