智算中心與算力底座如何高效融合?
智算中心發(fā)展趨勢(shì)
自第三次工業(yè)革命以來(lái),算力與人們生活越來(lái)越密不可分。如今,算力正在成為像水、電一樣人類賴以生存的基礎(chǔ)設(shè)施,尤其是近三年疫情倒逼產(chǎn)業(yè)數(shù)字化的發(fā)展,進(jìn)一步提升了算力對(duì)于社會(huì)運(yùn)轉(zhuǎn)的重要程度。南寧機(jī)房
IDC發(fā)布的《數(shù)據(jù)時(shí)代2025》預(yù)測(cè),到2025年全球數(shù)據(jù)量將達(dá)到175ZB,而中國(guó)數(shù)據(jù)量的平均增速快于全球3%,預(yù)計(jì)到2025年將增至48.6ZB,占全球數(shù)據(jù)圈的27.8%。
智算中心與傳統(tǒng)數(shù)據(jù)中心的區(qū)別
與傳統(tǒng)數(shù)據(jù)中心主要關(guān)注于存儲(chǔ)、管理和處理大量數(shù)據(jù)的不同,智算中心從以下幾個(gè)方面區(qū)別于傳統(tǒng)數(shù)據(jù)中心。
三大區(qū)別
1.智算中心更注重提供高性能計(jì)算、人工智能、機(jī)器學(xué)習(xí)等計(jì)算密集型任務(wù)的支持。因此,需要更高速的網(wǎng)絡(luò)帶寬支持高性能計(jì)算任務(wù),需要更低的網(wǎng)絡(luò)延時(shí)去滿足高性能計(jì)算任務(wù)。
2.智算中心的網(wǎng)絡(luò)架構(gòu)通常采用分布式架構(gòu),以支持大規(guī)模計(jì)算任務(wù)的處理。同時(shí),智能計(jì)算中心還采用了更先進(jìn)的網(wǎng)絡(luò)技術(shù),如 InfiniBand、RoCE 等,以提高網(wǎng)絡(luò)性能和可靠性。
3.智能計(jì)算中心通常采用專業(yè)的網(wǎng)絡(luò)管理工具和監(jiān)控系統(tǒng),要求更加精細(xì)化和實(shí)時(shí)化,以保障網(wǎng)絡(luò)的穩(wěn)定性和可靠性。
智算中心對(duì)網(wǎng)絡(luò)基礎(chǔ)設(shè)施的挑戰(zhàn)
關(guān)于智算中心三連問(wèn):
Q1
智算中心對(duì)網(wǎng)絡(luò)基礎(chǔ)的速率
及時(shí)延長(zhǎng)的需求會(huì)是怎樣?
Q2
哪類光模塊會(huì)更受青睞?
Q3
如何應(yīng)對(duì)作為網(wǎng)絡(luò)基礎(chǔ)設(shè)施的布線系統(tǒng)?
以業(yè)界領(lǐng)先的英偉達(dá)最新推出的DGX SuperPOD為例:NVIDIA的最新GPU服務(wù)器是DGX H100,它有4個(gè)800G端口連接到交換機(jī)(以8x400GE的方式運(yùn)行),4個(gè)400GE 端口連接到存儲(chǔ),1GE和 10GE端口用于管理。
(圖片來(lái)源網(wǎng)絡(luò),侵刪△)
一個(gè)DGX SuperPOD(如下圖所示)可以包含32個(gè)連接到18個(gè)交換機(jī)的GPU服務(wù)器在同列機(jī)柜中。每列機(jī)柜將有384x400GE光纖鏈路用于交換結(jié)構(gòu)和存儲(chǔ),以及64個(gè)銅鏈路用于管理,數(shù)據(jù)機(jī)房中光纖鏈路的數(shù)量顯著增加。
智算中心的建設(shè)者應(yīng)仔細(xì)考慮在AI集群中會(huì)使用哪些光收發(fā)器和光纖電纜,以最大限度地減少成本和功耗。如上所述,AI集群中最長(zhǎng)的鏈路主要集中在100米以內(nèi)。對(duì)于短距離傳輸,光學(xué)器件的成本將由收發(fā)器決定。
(圖片來(lái)源網(wǎng)絡(luò),侵刪△)
并行光纖收發(fā)器的優(yōu)點(diǎn):
它們不需要用于波分復(fù)用的光多路復(fù)用器和多路分用器。這使得并行光纖收發(fā)器的成本和功耗都更低,即使考慮到MPO系統(tǒng)較傳統(tǒng)熔纖系統(tǒng)提高了布線系統(tǒng)的成本部分。例如,400G-DR4 收發(fā)器與使用雙工光纜的400G-FR4收發(fā)器相比,使用8芯MPO系統(tǒng)的性價(jià)比更高。在非高速網(wǎng)絡(luò)應(yīng)用領(lǐng)域,單模光纖和多模光纖均可以很好的支持100米的連接。
由于硅光子學(xué)技術(shù)的進(jìn)步已降低了單模收發(fā)器的成本,使其更接近等效多模收發(fā)器的成本。但市場(chǎng)研究表明,對(duì)于高速收發(fā)器(400G+),單模收發(fā)器的成本仍然是多模收發(fā)器的兩倍。雖然多模光纖的成本略高于單模光纖,多模和單模之間的光纜成本差異較小,因?yàn)槎嘈綧PO光纜的成本主要取決于MPO連接器。此外,高速多模收發(fā)器比單模收發(fā)器消耗的功率要低一到兩瓦。在智算中心中高速網(wǎng)絡(luò)光模塊爆發(fā)式增長(zhǎng)的預(yù)期下,電力能耗的節(jié)省也是值得重點(diǎn)考量的一環(huán)。
智算中心是否需要采用結(jié)構(gòu)化布線
Part.1 智算中心是否需要采用結(jié)構(gòu)化布線
目前在智算中心布線的水平配線區(qū)(HDA)和設(shè)備配線區(qū)(EDA)普遍采用直連方式,直連方式在布線時(shí)可能更為簡(jiǎn)便,但一旦系統(tǒng)需要擴(kuò)展或改變,可能會(huì)導(dǎo)致布線的混亂,尤其在系統(tǒng)規(guī)模較大場(chǎng)景。另外直連方式下,故障排除可能更為困難。所以智算中心是否需要采用結(jié)構(gòu)化布線取決于具體的網(wǎng)絡(luò)需求和規(guī)模。結(jié)構(gòu)化布線是一種在建筑物或數(shù)據(jù)中心中安裝數(shù)據(jù)通信的通用基礎(chǔ)設(shè)施,它提供了一種靈活、可維護(hù)和可管理的網(wǎng)絡(luò)基礎(chǔ)架構(gòu)。是否采用結(jié)構(gòu)化布線一般要考慮以下幾個(gè)因素。
規(guī)模情況:
如果智算中心的規(guī)模較大,涉及到大量的網(wǎng)絡(luò)設(shè)備、服務(wù)器和用戶,結(jié)構(gòu)化布線可以幫助組織和管理這些設(shè)備,提供高效的網(wǎng)絡(luò)連接。
未來(lái)擴(kuò)展:
結(jié)構(gòu)化布線設(shè)計(jì)的一個(gè)優(yōu)勢(shì)是它能夠提供未來(lái)擴(kuò)展的能力。如果智算中心預(yù)計(jì)會(huì)進(jìn)行擴(kuò)展,結(jié)構(gòu)化布線可以更容易地適應(yīng)新設(shè)備的添加和網(wǎng)絡(luò)拓?fù)涞淖兓?/span>
維護(hù)管理:
結(jié)構(gòu)化布線簡(jiǎn)化了網(wǎng)絡(luò)的維護(hù)和管理。通過(guò)標(biāo)準(zhǔn)化的布線系統(tǒng),診斷和修復(fù)問(wèn)題變得更加容易。
靈活應(yīng)用:
結(jié)構(gòu)化布線提供了更大的靈活性,允許不同類型的設(shè)備連接到網(wǎng)絡(luò)。這對(duì)于智算中心中可能涉及各種設(shè)備和技術(shù)的環(huán)境而言是重要的。
成本效益:
雖然結(jié)構(gòu)化布線的初始成本可能較高,但從長(zhǎng)遠(yuǎn)來(lái)看,它可能會(huì)降低維護(hù)成本并提供更好的性能,從而實(shí)現(xiàn)成本效益。廣西布線
綜合考慮當(dāng)前需求、未來(lái)發(fā)展計(jì)劃、管理效率、性能要求以及長(zhǎng)期擁有成本等因素,如果直連方式滿足您當(dāng)前的需求并且在未來(lái)幾年內(nèi)不會(huì)面臨大規(guī)模的變化,那么可能可以繼續(xù)使用。然而,如果未來(lái)會(huì)有擴(kuò)展或技術(shù)更新的需求,考慮采用結(jié)構(gòu)化布線則是一個(gè)更長(zhǎng)遠(yuǎn)的選擇。
Part.2 SHIP一舟產(chǎn)品解決方案優(yōu)點(diǎn)
1、密度高,運(yùn)營(yíng)成本低
一舟提供行業(yè)領(lǐng)先的高密度光纖管理,使所占空間更少,從而客戶可以在數(shù)據(jù)中心周圍部署更多能產(chǎn)生收益的服務(wù)器等設(shè)備。
2、更快速、更簡(jiǎn)便的移動(dòng)、添加和更換
專為更優(yōu)化、更快速安裝而設(shè)計(jì)。通過(guò)減少移動(dòng)、添加和更換所需的時(shí)間,大幅降低總成本并優(yōu)化產(chǎn)品生命周期成本。清晰、精準(zhǔn)的端口標(biāo)識(shí)是加快安裝和維護(hù)速度的重要因素。我們使用有條理的光纖路由組件和使用不同類別顏色且非常明顯的端口標(biāo)識(shí)來(lái)確保每次安裝維修時(shí)既快又準(zhǔn)。
3、提供未來(lái)更高的數(shù)據(jù)傳輸速率的空間
一舟光纖管理系統(tǒng)的設(shè)計(jì)為從10G 串行調(diào)整到40G 和100G 并行光纖提供了一條快速、簡(jiǎn)單的升級(jí)途徑。例如:高密度系統(tǒng)允許不同的數(shù)據(jù)傳輸速率和應(yīng)用在同一高密度機(jī)箱中混合使用,而且不會(huì)破壞相鄰模塊和連接。這種高度的靈活性不僅提高了客戶的投資回報(bào)率而且提高了客戶對(duì)其現(xiàn)有資產(chǎn)的利用率。
4、提高電纜整潔度和設(shè)備通風(fēng)率
4、提高電纜整潔度和設(shè)備通風(fēng)率
電纜管理的設(shè)計(jì)簡(jiǎn)潔可靠不僅能改善設(shè)備機(jī)架內(nèi)電纜雜亂的現(xiàn)象,而且隨著數(shù)據(jù)中心的發(fā)展,還能夠防止堵塞或侵占電纜的路徑空間。為了保持正常運(yùn)行,需要對(duì)關(guān)鍵業(yè)務(wù)交換機(jī)、存儲(chǔ)系統(tǒng)和服務(wù)器進(jìn)行穩(wěn)定和有效的冷卻,我們的目標(biāo)是設(shè)計(jì)出不會(huì)對(duì)功率和冷卻限制造成影響的光纖管理系統(tǒng)。
5、實(shí)現(xiàn)零宕機(jī)和經(jīng)濟(jì)的運(yùn)行
我們?cè)诋a(chǎn)品開(kāi)發(fā)階段的主要目標(biāo)就是讓設(shè)備在使用期內(nèi)可重復(fù)使用并具有較強(qiáng)的可靠性。為實(shí)現(xiàn)這一目標(biāo),我們將精密的光纖技術(shù)與創(chuàng)新的光纖管理方案結(jié)合起來(lái)。使產(chǎn)品應(yīng)用得更簡(jiǎn)潔清晰和更有條理,從而提高產(chǎn)品的可重復(fù)性并降低系統(tǒng)出現(xiàn)停機(jī)的風(fēng)險(xiǎn)。
大模型時(shí)代
新型智算中心的相關(guān)技術(shù)受到國(guó)內(nèi)外高度關(guān)注
但是目前產(chǎn)業(yè)存在多種解決方案
技術(shù)路線也尚未統(tǒng)一
一舟亦希望產(chǎn)業(yè)凝聚力量
形成共識(shí)共同推動(dòng)智算關(guān)鍵技術(shù)成熟
一舟小編思考總結(jié):
參考之前數(shù)據(jù)中心或云數(shù)據(jù)中心的建設(shè)中,三大運(yùn)營(yíng)商及以BAT等為代表的專業(yè)云數(shù)據(jù)中心服務(wù)商建設(shè)的均為超大規(guī)模數(shù)據(jù)中心,企業(yè)自建的數(shù)據(jù)中心在規(guī)模上就小了很多。
二者不僅在規(guī)模上存在較大差異,其網(wǎng)絡(luò)架構(gòu)及設(shè)備互聯(lián)的方式上亦存在不同。運(yùn)營(yíng)商數(shù)據(jù)中心內(nèi)的設(shè)備間互聯(lián)多采用長(zhǎng)跳線直連方式,而企業(yè)級(jí)數(shù)據(jù)中心則采用結(jié)構(gòu)化布線方式,更多的考慮因素是后期維護(hù)的便利性,未來(lái)網(wǎng)絡(luò)升級(jí)的平滑性。
因此,其主干部分在設(shè)計(jì)時(shí)就會(huì)考慮滿足未來(lái)網(wǎng)絡(luò)升級(jí)的需求,進(jìn)而保護(hù)其昂貴的投資。再進(jìn)入智算中心階段后,二者大概率仍會(huì)沿用之前的互聯(lián)方式。南寧布線?