英偉達都有哪些對手?
*當然是AMD和英特爾,前者本身就有AI加速卡的業務,集CPU和GPU設計能力與一身,而后者呢,作為x86架構的奠基人,如今也涉足AI加速卡領域,可以見到它們所推出的產品不僅在參數上對標英偉達,還在定位與售價等方面發動了一輪又一輪的攻勢。
而英偉達的客戶與博通和Marvell組成統一戰線后,也成了它的對手,不斷推陳出新的自研定制芯片,開始取代傳統的通用AI加速卡,讓英偉達感受到了另一種壓力。
而在網絡領域,英偉達也迎來了自己的對手。
英偉達獨占AI網絡
進入21世紀以來,隨著云計算、大數據的日益普及,數據中心得到了快速發展。而InfiniBand在其中發揮了很大的作用,尤其是從2023年開始,以ChatGPT為代表的大型AI模型依賴于InfiniBand,讓這一網絡技術的關注度進一步提升。
眾所周知,現代數字計算機自誕生以來就一直采用馮·諾依曼體系結構,該體系結構中有CPU、內存(RAM、硬盤)和I/O(輸入/輸出)設備。20世紀90年代初,為了支持越來越多的外部設備,Intel率先在標準PC架構中引入了外圍組件互連(PCI)總線設計。
隨后,互聯網進入快速發展階段,在線業務和用戶規模的不斷增長對IT系統容量提出了巨大挑戰。在摩爾定律的支持下,CPU、內存、硬盤等部件都在飛速進步,而PCI總線的更新換代速度卻比較慢,大大限制了I/O性能,成為了整個系統的瓶頸。
為了解決這個問題,Intel、微軟和SUN牽頭制定了“下一代I/O”技術標準,而IBM、康柏和惠普則牽頭制定了“未來I/O(FIO)”,并于1998年聯合制定了PCI-X標準。
1999 年,FIO 開發者論壇和 NGIO 論壇合并成立了InfiniBand 貿易協會 。很快,在2000年,InfiniBand架構規范1.0版本正式發布。InfiniBand誕生的目的就是為了取代PCI總線,它引入了RDMA協議,提供更低的延遲、更高的帶寬、更高的可靠性,從而實現更強大的I/O性能。
同樣在1999年5月,幾位從英特爾和伽利略科技公司出走的員工在以色列成立了一家叫Mellanox的芯片公司, Mellanox 成立后加入了 NGIO,后來 NGIO 與 FIO 合并,Mellanox 也加入了 InfiniBand陣營,并于 2001 年推出了*款 InfiniBand 產品。
而隨著英特爾轉向PCI Express,以及微軟退出InfiniBand,該網絡技術開始轉向計算機集群互聯的應用領域,而新成立的Mellanox開始走上舞臺,逐漸成為InfiniBand發展過程中的中堅力量。
InfiniBand雖然同時被英特爾和微軟放棄,但它在新的領域中找到了增長點。2012年以后,隨著高性能計算需求的不斷增長,InfiniBand技術不斷取得長足進步,市場份額不斷提升。2015年,InfiniBand技術在TOP500榜單中的份額首次突破50%,達到51.4%(257個系統)。這標志著InfiniBand技術首次成功挑戰以太網技術,成為超級計算機*的內部互連技術。
而Mellanox也在不斷成長:2010年,Mellanox與Voltaire合并,Mellanox和QLogic成為InfiniBand的主要供應商;2013年,Mellanox 進一步進軍網絡領域,收購硅光技術公司 Kotura 和并行光互連芯片制造商 IPtronics,進一步鞏固其行業地位;到 2015 年,Mellanox 已占據全球 InfiniBand 市場80% 的份額。業務范圍從芯片擴展到網卡、交換機/網關、遠程通信系統、線纜和模塊,成為世界級網絡供應商。
隨著AI的持續發展,InfiniBand的價值也日益顯現,Mellanox也因其在該技術上近乎壟斷的地位而成為廠商眼里的香餑餑。
為什么InfiniBand對于AI如此重要?對于AI超級計算機來說,我們可以把它看作一個由許多圖形處理單元組成的集群,這些單元進行大量復雜的計算。此外,還有一些中央處理單元(CPUs)負責指揮計算機的操作,再加上一些DRAM芯片和NAND芯片,成本大約分配為:50-60%用于GPUs,10-15%用于CPUs和DRAM芯片,5-10%用于NAND芯片。
纜來實現,也就是所謂的“網絡”,它們占硬件成本的10-15%,而目的就是提供盡可能高的帶寬,讓數據能快速傳輸,倘若不能實現更高的帶寬,那么無論在GPUs上花費多少成本,最后都會變得毫無意義。
英偉達作為AI領域最早的探索者之一,很敏銳地察覺到了這一點,同時決定將其關注點從游戲轉向AI。2019 年,英偉達以69 億美元收購 Mellanox,超過了競爭對手英特爾和微軟的出價,后兩者的出價分別為 60 億美元和 55 億美元,這筆數額龐大的收購,為英偉達進入網絡技術市場鋪平了道路。
當時英偉達的CEO黃仁勛解釋稱,收購Mellanox的原因是:“這是兩家全球*的高性能計算公司的合并,我們專注于加速計算,而Mellanox則專注于互連和存儲。”
英偉達將自身的 GPU 算力與 Mellanox 的網絡技術相結合,打造出了一個強大的“計算引擎”,在計算基礎設施方面,英偉達無疑占據著*優勢,
英偉達的大威脅
過去,業界一直在使用英偉達配套的 InfiniBand 網絡解決方案來部署人工智能和機器學習技術,原因很簡單,它是目前最成熟的支持大規模部署的網絡技術,但InfiniBand并非*,一方面由于收購,它變成了英偉達的*產品,另一方面,它的成本昂貴,絕非普通企業可以輕松承擔得起的。
英偉達的CEO黃仁勛曾調侃道,InfiniBand只占集群成本的20%,而它能將人工智能訓練的性能提高20%,某種程度上已經收回了成本,因而InfiniBand實際上是免費的。但這樣的論斷顯然是有失偏頗的,客戶必須首先拿出集群成本的20%,才能真正榨取出集群的性能,這就意味著用120%的成本創造120%的性能。
相對比之下,基于以太網的集群通常只需要額外的10% 甚至更低的成本,盡管后者在性能上往往難以與InfiniBand匹敵,但它憑著自己的低廉價格也爭取到了一部分用戶。事實上,如今高性能網絡的競爭,是InfiniBand與高速以太網的較量,資源充足的廠商會更傾向于選擇InfiniBand,而注重性價比的廠商則可能傾向于高速以太網。
但這樣的情況并非一成不變,即便是那些具備雄厚財力的大企業,也在尋找更廉價更合適的網絡方案,英偉達與InfiniBand正在不斷受到挑戰。
2023年7月,Linux基金會宣布,將監督成立一個超級以太網聯盟,該聯盟的創始成員包括AMD、Arista、Broadcom、思科、Eviden、HPE、英特爾、Meta 和微軟的支持下,超以太網聯盟表示將致力于改進以太網,以滿足高性能計算和人工智能系統所需的低延遲和可擴展性要求。
該聯盟創立的首要任務是定義和開發他們所稱的超以太網傳輸協議,這是一種新的以太網傳輸層協議,能更好地滿足人工智能和 HPC 工作負載的需求。
在高層次上,超以太網聯盟希望以外科手術的方式完善以太網,只對實現目標所必需的部分進行改進和改動。從一開始,該聯盟就著眼于改進以太網技術的軟件層和物理層,但不改變其基本結構,以確保成本效益和互操作性。
聯盟的技術目標包括開發規范、應用程序接口和源代碼,以定義超以太網通信的協議、接口和數據結構。此外,聯盟還致力于更新現有的鏈路和傳輸協議,創建新的遙測、信令、安全和擁塞機制,以更好地滿足大型人工智能和高性能計算集群的需求。同時,由于人工智能和高性能計算工作負載有許多不同之處,UET 將為適當的部署提供單獨的配置文件。
得益于這個超級以太網聯盟,過去以太網運行 AI 工作負載的幾個問題正在解決,也推動了以太網在傳統 HPC 工作負載中的更廣泛采用,這也讓以太網網絡公司找到了反攻InfiniBand的機會。
“Arista聲稱其以太網在任務完成速度上比InfiniBand快約10%,這一點令我們感到意外,特別是考慮到InfiniBand在當前GPU集群中的深度滲透。”Jefferies分析師George Notter在會議后表示。
他指出,英偉達將GPUs與InfiniBand簡單捆綁銷售是該技術成功的關鍵原因,換句話說,InfiniBand受歡迎的部分原因是因為它與英偉達的GPU一起銷售,但這現在GPU的積壓訂單減少了,使用InfiniBand的動機可能也會減少,這對Arista以及另一家以太網網絡公司博通來說是個好消息。
“我們在四個主要的AI以太網集群中取得了進展,這些集群都是我們戰勝InfiniBand的案例。在所有四個案例中,我們現在正從試驗轉向試點,每年連接數千個GPU,”Arista首席執行官Jayshree Ullal解釋道。
Arista在上季度業績表現也非常不錯,截至3月的三個月中,Arista的收入同比增長了16%,每股收益增長了44%,分析師預計隨著AI基礎設施支出的增加,這一增長將會加速。Arista約40%的業務來自微軟和Meta,這兩家公司都宣布明年將再次增加資本支出。Jefferies分析師George Notter最近還將Arista的評級從持有上調至買入,他表示:“現在,部署基于GPU的基礎設施的熱潮將會持久。”
對網絡硬件的需求比博通預期的還要快,“超大規模客戶以及部署AI數據中心的大型企業的強勁需求”推動了這一增長。因此,博通將其網絡業務的全年增長預期從30%上調至35%。整體而言,博通今年的收入預計為500億美元,比去年增長40%。
國外媒體nextplatform提出了一個有趣的數學問題:Arista Networks 在 AI 集群互連銷售中每賺取 7.5 億美元,英偉達可能會損失 15 億至 22.5 億美元。在過去的 12 個月中,粗略估計英偉達在 InfiniBand 網絡方面的銷售額為 64.7 億美元,而數據中心的 GPU 計算銷售額為 397.8 億美元,在四比一的分紅率和穩定的市場條件下,英偉達可以保留約 13 億美元,而超級以太網聯盟可以保留 17 億至 26 億美元,如果一切保持不變,InfiniBand 的銷售目標將達到 120 億美元。
該媒體指出,超級以太網聯盟的成員可以搶占的市場份額很大,但他們將通過從系統中移除收入來搶占,就像 Linux 對 Unix 所做的那樣,而不是將收入從一種技術轉換為另一種技術,其中節省下來的資金將重新投入到 GPU 中。
挑戰英偉達
英偉達不止是在網絡領域受到挑戰,正如我們前文中提到的,它的*依仗——GPU正在受到AMD、英特爾、博通等公司的圍剿,盡管它坐擁3萬億美元市值,但依然會倍感壓力。
在網絡市場,Arista現在無疑還是非常弱小的一家公司,相較于英偉達InfiniBand動輒數十億美元的營收,短期內它還難以挑戰,但巨頭們對于AI集群網絡壟斷的不滿,讓Arista獲得快速發展的寶貴機會,假以時日,它很有可能成為英偉達新的心腹大患。
免責聲明:該文章系本站轉載,旨在為讀者提供更多信息資訊。所涉內容不構成投資、消費建議,僅供讀者參考。
2023-06-24
2023-06-24
2023-06-20
2023-06-20
2023-06-20