-
中年裁員,才發現通訊已是天坑專業
文章來源於艾蔚Arwin2025:中年裁員,才發現通訊已是天坑專業?今年,我被裁員了。前一秒還在工位奮筆疾書,後一秒接獲原地裁員通知。於是,開始海投履歷。由於一直在通訊產業(H\Z\Uni)做市場工作,本能地繼續投通訊公司(自己的客戶、合作夥伴、友商),從營運商(很天真的一試)到網關路由公司,以及產業終端公司,再到無線通訊模組,再到做蜂巢晶片。結果,要嘛根本沒坑位、要嘛外派海外、要嘛崗位一掛就是一年半載。刷小紅書上的考研帖,發現通訊工程已是天坑專業。這簡直和固有認知簡直背道而馳:5G口號聲還未遙遠,華為中興也依然屹立不倒,並且時不時還上熱搜,怎麼就成了冷門天坑了呢?但從眾多網路新詞中,也能感受到傳統通訊巨頭的轉型承壓:例如「OD」– 我理解就是外包;例如財報中傳統電信市場的增速乏力;一方面確實和行動通訊本身的周期性有關(5G已經建好,6G還沒來);另一方面,AI這顆技術革命,也徹底改寫了所有技術從業者的方向:從連接到算力。 2005:歪打正著上西電 以為自己會去營業廳坐班辦卡時間撥回二十年前,高考報志願。當時,一個北郵招生女老師來我們學校宣講,她說:「報我們這兒吧,你看你們這兒的移動聯通電信,是不是都是有錢的單位?」。我聽後內心其實還有些不屑,一方面以為她指的工作是營業廳辦卡收銀,另一方面我跟她說我的興趣是化學和生物,想搞基因工程(課本上說21世紀是生命科學的世紀)。可惜當年沒有張雪峰(張雪峰是真的牛,別說是當年的我,就是今天的我看了他的視頻,也才發現自己對於自身行業以外的社會也完全不了解,對於體制內,醫生、公務員的認知還停留在喝茶看報的大清認知中),作為三線小鎮做題者的外面,還對於通信行業以及那個世界上的那個毫無認知。最終,因為是在本省的學校,招生多,風險小,所以報考了西電,從此成為通信預備隊成員(雖然專業不是根紅苗正的通信工程,但actually整個西電就是通信大學lol)。 2008-2010:第一次聽到華為,感覺有點土大四秋招找工作的時候,正好是2008金融危機,就業情勢嚴峻,我因為選擇考研,所以暫時逃過一劫。身邊室友每天焦慮的去各種宣講會,現在想想當時的焦慮,也只是經濟上行交響樂中的一個小小休止符而已。輔導員鼓舞士氣說「放心吧,我們上一屆近一半都去了華為」。這是我第一次聽到這家巨人的名字,當時覺得who is that, 研究生畢業後,自己最好能去諾基亞(當年的諾基亞,幾乎還是時代的代言人)。但很快到了2010年,研二的我有了去學校合作企業實習的機會,去深圳。實習企業組織全公司人員參加一個前華為的講師培訓管理變革,講IPD。當時就已get到了:華為很牛,已成了所有深圳科技企業的標竿。內心OS也從“”最好能去諾基亞”,變成了“最好能去華為”。 2014-2019:見證4G以及真正全球化中國企業的輝煌在藍廠做了2年硬體測試經理後,為了更高工資和更大牌子,終於去了紅廠。也從做技術職到市場崗位。在坂田總部,我很驚訝這家公司的龐大和氣派。在培訓中心偌大的電子螢幕上和身邊西裝革履的同事們一起研討公司在全球市場的運籌帷幄,2014年開始,4G不僅在國內還是海外都大規模上量。隨著行動應用的爆發,對網路通訊的需求也是實打實的井噴。印象最深刻的一個場景是:2016\17年的巴塞隆納MWC展會,為VIP客戶專門在山上的一個場館裡舉行了VIP客戶晚宴。優雅的現場樂團、金碧輝煌的燈光,在覬籌交錯中,好多歐洲客戶對我說:「如今的華為是當之無愧的leader,彷彿看到了當年的愛立信」。這樣的時刻和場景,很難不為親身見證中國公司實現真正的全球化而感到與有榮焉。 2019-2023:5G故事:疫情黑天鵝與分裂的世界由於自己想去更上游的晶片領域,於是離開紅廠,去到「面向公開市場的唯一國產5G晶片」公司,繼續譜寫5G的故事。沒多久,紅廠就上了美國實體清單,沒多久疫情又來了。體感彷彿冰與火的世界:一面是貿易戰脫鉤斷裂、疫情全球管控;另一面又是遠程辦公催生的電子設備熱銷、晶片緊缺以及國內5G上馬建設。5G被譽為“下一代基礎設施革命”,象徵著超高速通訊、萬物互聯與智慧社會的到來。然而,在2020年疫情的衝擊下,這場科技革命被捲入一場突如其來的「黑天鵝事件」。並且,5G的推廣從科技競賽,變成了世界局勢博弈與全球化信任危機的縮影。科技規律上,業界或許早有隱隱的共識感知-行動通訊是「隔代爆發」:2G殺手級應用程式是簡訊和圖文;3G相對冷談;4G殺手級應用是行動互聯和視訊;5G將會相對冷談(至少在C端);於是,5GtoB,成為當時發力的方向。當時在Uni廠,拉著營運商和模組廠商一起,搞了很多5GtoB案例——透過賦能工業互聯網、車聯網、智慧城市等場景,推動5G在垂直產業的價值落地。這是很有意義的經驗。但整體上,行動通訊作為基礎設施投資,僅靠B端創新,很難有漂亮的ROI(投資報酬率)。所以,業界還是一直期待5G時代的殺手級應用,“元宇宙?直播?”,觀望等待沒用多久,所有人的注意力就被那篇《Attention Is All You Need》,以及在它基礎上橫空出世的工程化產品ChatGPT搶走了。 5G未能重構的世界,要被AI重構了。 2023—至今:從連結到算力,通信人被迫轉行?這幾年,產業的風向變了。曾經「連結一切」的通信,如今似乎成了「算力時代」的配角。資本的關注、技術的熱點、人才的流動,都從「連結」轉向了「算力」「AI」「大模型」。一位大學老同學,之前一直都在H做技術,最近說他跳槽去了一家AI新創公司,在自學python。我說我也在學PCIe。當然,從我和H老東家的老同事那裡感受到,H還是屹立不倒,分紅獎金還是很不錯。不過從網路上年輕求職者們的評論裡,也能感受到老東家的承壓和寒氣。但仔細想想,這真的是「轉行」嗎?通訊人擅長的,是系統架構、是高可靠低延遲、是硬體與演算法的平衡──這不正是算力網路、智算中心背後的基石嗎?算力的傳輸仍然要靠光纖、靠網路、靠協定棧。只是,我們要學會讓數據“更懂路”,讓網路“更懂算”。 親愛的通信人, 不知你是否跟我一樣,也正在從以前啃3GPP到現在啃PCIe,別慌,這場科技遷徙不是逃離,而是進化。讓我們放下焦慮,輕盈向前。
-
VMware認證專家-VMware Cloud Foundation管理員考試 (2V0-17.25)
VMware Certified Professional – VMware Cloud Foundation Administrator (2V0-17.25) VMware認證專家-VMware Cloud Foundation管理員考試 (2V0-17.25) 必考科目:VMware Cloud Foundation 9.0 管理員 (2V0-17.25) 概述 VMware 認證專家 – VMware Cloud Foundation 管理員 (VCP-VCF Admin) 認證旨在驗證部署、管理和支援基於 VMware Cloud Foundation (VCF) 建置的私有雲環境所需的技能。此認證是針對從傳統基礎架構角色拓展到雲端管理的 IT 專業人員。此認證的候選人包括負責實施和維護 VCF 基礎架構的專業人員,確保其符合組織在可用性、效能和安全性方面的服務等級目標。獲得此認證表示專業人員具備有效運作 VCF 環境的能力。 考試詳情 語言:英語 時長:135分鐘 題目數:60題(英文) 格式:單項選擇題,多項選擇題 及格分數:300 定價:250美元 考試詳情(上次更新:2025年8月15日) VMware Cloud Foundation 管理員 (2V0-17.25) 考試是取得…
-
什麼是業務架構?什麼是業務流程?業務架構和業務流程的關係是什麼?
EA韩老师 北京男 架构技术布道者 一、什麼是業務架構業務架構可以理解為一種從整體出發,對組織「做什麼」「為什麼做」「誰來做」「在哪裡做」「以什麼方式做」的結構化描述。幾個權威定義可供參考:Business Architecture Guild 的定義指出:「業務架構代表了對能力、端到端價值交付、資訊和組織結構等多維業務視角的整體表達;以及這些業務視角與策略、產品、政策、計劃和利益相關者之間的關係。簡明地說,業務架構是將企業策略意圖與營運現實之間的「橋樑」。例如 LeanIX 的詞條中說:業務架構是一個藍圖,描繪組織如何將策略目標與營運現實對齊。 基於上述定義,以及實務上的總結,業務架構通常包含以下幾個關鍵維度:價值流(Value Stream):從利害關係人視角來看,組織如何交付價值。業務能力(Business Capability):組織為了實現策略、交付價值所必須具備的「做事情的能力」。組織架構(Organization):誰/哪些組織單位來負責這些能力、價值流或流程。資訊/數據(Information/Business Information):支撐能力與流程的資訊資源。流程與機制(Process / Operationalization):雖然流程偏操作層面,但在業務架構中也會被繪製/關聯。 二、什麼是業務流程業務流程(Business Process)指的是組織內部或組織間,一系列有序的、定義良好的活動或任務的集合,這些活動共同將輸入轉化為輸出,從而為客戶或利益相關者創造價值。例如,維基百科中定義:「一組結構化的、相關的活動或任務,由人或設備執行,其特定順序產生一種服務或產品(以滿足客戶或某一組織目標)。」 有開始、有結束:流程有明確的輸入、輸出、邊界。跨組織/跨職能:流程往往跨部門、跨角色,需要協同合作。價值創造導向:流程的最終目的是交付價值(對顧客、組織或利害關係人)。可建模、可測量、可最佳化:流程可以使用流程圖、泳道圖、BPMN等工具來描述,隨後持續改善。在實務中,為了系統化管理流程,組織通常建立「流程架構」(詳解APQC流程分級分類架構PCF13個高階分類和5級業務流程)或「流程分類架構」。簡要地說,這是一種流程結構或流程體系的圖像。例如,流程架構是「組織流程依某一層次分層、分類、明確邊界與關係」的結構化模型。幫助回答「流程是否全覆蓋」「由誰負責」「流程之間的關係如何」這些組織治理問題。三、業務架構和業務流程的關係了解兩者之間的關係,可以從「層級」和「目的」兩個維度來分析。 (1)層次與定位對比業務架構處於 概念層/策略層:描述的是組織「要成為什麼」「要做什麼」「為什麼這麼做」的結構。業務流程處於 邏輯層/操作層:是業務架構中「怎麼做」「誰做」「以什麼順序做」的體現。換句話說:流程是企業架構中能力、價值流等要素落地、運作的形式。例如,某一業務能力「客戶開戶」在業務架構中表明「我們具備為客戶開戶的能力」;但具體「客戶開戶流程」則規定從客戶資料收集、核准、帳戶開通、通知客戶的活動步驟。(2)映射與支援關係在業務架構中,價值流、業務能力、組織、資訊等要素 需要透過流程去實現(operationalize)。例如,價值流和業務能力在運作層面「被流程實現」。流程也 依賴業務架構提供的方向、邊界和語意:例如流程應該屬於哪個價值流階段、支撐哪項能力、由哪個組織單元負責。可視為:業務架構 → 流程(以及流程架構)→ 具體流程模型/任務。(3)治理與用途區別若組織引進業務架構,其目的可能是「從策略層看清業務結構、能力、價值流」;此時流程不是首要目標,而是能力/價值流的映射。若組織引進流程管理,其目的可能是「端到端優化流程、消除瓶頸、提升效率」;此時流程作為主戰場,而業務架構可能作為背後支援。在現實中,兩者常常協同搭建:業務架構提供「為什麼、做什麼」的視角,流程提供「怎麼做」與「誰做」的視角。
-
VMware認證專家-VMware vSphere基礎管理員認證考試: 2V0-16.25
VMware Certified Professional – VMware vSphere Foundation Administrator (2V0-16.25)VMware認證專家-VMware vSphere基礎管理員認證考試: 2V0-16.25概述VMware 認證專家 – VMware vSphere Foundation 管理員 (VCP-VVF Admin) 認證旨在驗證部署、管理和支援基於 VMware vSphere Foundation (VVF) 建置的私有雲環境所需的技能。此認證是針對希望從傳統基礎架構角色拓展到雲端管理領域的 IT 專業人員。此認證的候選人包括負責實施和維護 VVF 基礎架構的專業人員,確保其符合組織在可用性、效能和安全性方面的服務等級目標。獲得此認證表示專業人員具備有效運作 VVF 環境的能力。 考試詳情(上次更新:2025年8月15日)語言:英語時長:135分鐘題目數:60題(英文)格式:單項選擇題,多項選擇題及格分數:300定價:250美元 考試大綱VMware 考試大綱現已標準化為以下五個部分,其中一些部分可能不會包含在最終的考試大綱中,具體取決於考試目標。第一部分 – IT 架構、技術、標準第二部分 – VMware 產品與解決方案第三部分 – 規劃與設計第四部分 – 安裝、設定與管理 VMware 解決方案第五部分 – 故障排除與最佳化 VMware 解決方案 推薦培訓課程vSphere 基礎:建置、管理與安全 VMware vSphere Foundation…
-
UiPath-ABAAv1 – UiPath 自動化業務分析師助理考試
UiPath Automation Business Analyst Associate Exam考試詳情認證路徑:UiPath 認證專業人員 – 業務分析師路徑憑證: UiPath 認證專業人員自動化業務分析師助理有效期限: 3 年考試編號及考試名稱:UiPath-ABAAv1 – UiPath 自動化業務分析師助理考試認證前提:無考試時間: 90 分鐘及格分數:70%考試費用:150 美元概述此認證旨在驗證學員對 UiPath 自動化實施方法和流程自動化的基礎知識,這些方法和流程自動化使用 UiPath 核心產品,包括 Studio、Robots 和Assistant。關鍵技能:UiPath 實施方法、業務案例和技術驗證、流程分析主要產品:UiPath Studio、UiPath Robots 和 UiPath Assistant目標受眾:初入職場或職涯中期的業務分析師 簡介UiPath 認證專業自動化業務分析師助理級認證基於 UiPath 自動化業務分析師指南設計,旨在評估學員在需求收集、流程發現、流程分析以及使用 UiPath 產品設計和實施自動化方面的知識和技能。自動化業務分析師助理級認證面向在業務流程自動化領域擁有豐富知識和產業經驗的新手至中級業務分析師。有意成為自動化業務分析師助理級認證的學員最好已完成 UiPath 學院推薦培訓課程. 自動化業務分析師助理級認證適用於以下職位:自動化業務分析師、專案經理、自動化卓越中心 (CoE) 負責人、解決方案架構師以及變革/轉型經理。目標受眾UiPath 認證自動化業務分析師助理考試的目標受眾包括:
-
思科發佈業界最具擴充性與效能的 51.2T 路由系統,為分散式 AI 工作負載樹立新標桿
◎ 思科全新 AI 網路系統以前所未有的可擴展性、能源效率和可程式性,重新定義了 AI 網路的可能性,專為解決連接多個資料中心以安全運行 AI 工作負載所面臨的關鍵挑戰而打造。 ◎ 8223 路由系統在單顆 ASIC 路由器中實現了業界領先的容量和效率,現已開始向首批超大規模客戶交付,用於建立安全、可擴展的 AI 基礎設施。 ◎ 全新的 P200 晶片為思科 Silicon One 提供動力,驅動下一代 AI 網絡,實現深層緩存路由能力,並支援超過每秒 3 艾比特的互聯頻寬擴展。 思科(NASDAQ: CSCO)正式發表目前業界最優化的路由系統-思科 8223,其專為安全且有效率地連接資料中心、支援新一代 AI 工作負載而打造。隨著 AI 應用快速發展,資料中心正面臨激增的算力需求、嚴峻的能源挑戰以及日益複雜的安全威脅。思科 8223 應運而生,成為唯一專為資料中心之間高強度 AI 工作負載流量打造的 51.2 Tbps 乙太網路固定式路由器。此外,思科也發布了其最新的 Silicon One 創新成果—— P200 晶片,該晶片為 8223 的核心組件。這兩項創新技術將協助企業突破傳輸瓶頸,建構面向未來 AI 時代的基礎設施。 △ 思科發布全新路由系統思科 8223 及最新 Silicon One 創新成果- P200 晶片思科通用硬體事業部執行副總裁 MartinLund 表示:即使是規模最大的資料中心,也難以應對不斷攀升的…
-
英伟达的护城河——NVLink
英偉達有三條較重要的護城河,CUDA軟體霸權 + NVLink硬體壟斷 + 供應鏈控制地位。今天我們來介紹一下其中的NVLink技術。NVLink技術是一種卡間通訊技術,可解決大模式推理延遲。大模型推理跟訓練不是一回事,訓練能慢慢磨,推理得即時回應,用戶發個請求總不能等半天吧?所以推理場景的要求其實是“低延遲下的高吞吐量”,還得扛住動態batch(就是有時候請求多有時候少)、模型並行拆分這些實際問題。從硬體角度看更直觀,像DeepSeek-R1-671b這種等級的大模型,推理延遲裡顯存頻寬佔45%、GPU運算效能佔25%,而GPU間通訊直接佔了20%,比PCIE頻寬的5%影響大多了,所以要最佳推理延遲,GPU間優化傳資料絕對不能忽略。但要解決GPU間通訊的問題,得先看這些GPU是在什麼範圍裡協作——如果是在單個超節點內部,比如一個裝了72個GPU的液冷機櫃裡,這些GPU要頻繁交換模型層數據、激活值這些密集信息,普通連接根本扛不住,這時候就需要一種專門針對“單個集群內部資料交換,壓下這部分的延遲;但Scale-Up網路也不是隨便搭的,得有能讓GPU之間高速直連的技術撐著,比如NVLink,再配合NVSwitch,就不是隨便搭的,得有能讓GPU之間高速直連的技術撐著,比如NVLink,再配合NVSwitch,就沒有把單一超節點裡的GPU連起來,形成低延遲、高頻寬的通訊鏈路,畢竟要是沒有把單一超節點裡的GPU連起來,形成低延遲、高頻寬的通訊鏈路,畢竟要是沒有將這種快速傳輸線提供每GPU*等單一超節點裡的通訊靠Scale-Up和NVLink理順了,要是還想把多個這樣的超節點連成更大的集群,那就是Scale-Out網路該管的事了,不過當下先解決GPU間通訊延遲,先得把Scale-Up這種單超節點內的網路架構,以及支撐它的NVLink技術搞清楚。 因此,本文分成兩部分,先介紹Scale-Up概念,再介紹Scale-Up中最主流的NVLink技術。一、Scale-Up概念(一)快取一致性首先,模型並行這塊-大模型參數動不動幾十上百億,單GPU根本裝不下,比如把一個Transformer模型拆成好幾層,每層放不同GPU上跑,這時候最關鍵的就是GPU之間還要啟動資料,例如前一層的傳值要傳到矩陣要傳到矩陣。 Scale Up講的是一個“緩存一致性”,如果沒有緩存一致,每個GPU都得自己存一份中間數據,不僅佔內存,傳的時候還得整份整份發;但有了緩存一致,比如NVLink那種,幾個GPU能共享同一塊“虛擬緩存”,前一層GPU算完的激活值不用特意傳,後一層GPU直接從共享快取裡讀,省了來回拷貝的時間,尤其推理時很多中間資料是可以復用的(比如同一batch裡多個樣本的特徵圖),緩存一致能把這種復用效率拉滿,這才是它在推理裡真正的價值,不是光說帶寬高就行的。 (二)推理過程的延遲再說說延遲的影響,Scale Up(單機櫃裡的通訊)延遲250ns,而Scale Out(不同機櫃之間的通信)六七百ns,看著只差幾百納秒,可推理裡這差距會被放大。推理時的每個請求的處理鏈路裡,通信佔比其實很高,比如一個動態batch裡有100個請求,每個請求要經過5次GPU間通信,每次差400ns,總共就差2微秒,2微秒延遲已經很高了,高並發的時候(電商大促客服、短卡視頻推薦),2微秒延遲已經很高了,高並發的時候(電商大促客服、短卡視頻推薦),累積成千上萬個請求而且推理不像訓練能做很多數據預取,很多時候得“即時通信”,比如處理完一層馬上要下一層的數據,這時候Scale Up的低延遲就是剛需,要是用Scale Out,光等數據傳輸就把GPU空著了,利用率上不去,吞吐量自然就掉下來。 (三)成本比較還有成本這塊,Scale Up硬體比Scale Out貴兩、三倍,可推理是長期跑的,不能只看初期買設備的錢。 Scale Up因為快取一致和高頻寬,GPU利用率能提不少——比如用Scale Out的時候,GPU可能有30%時間在等數據,Scale Up能把這段時間壓到10%以內,相當於同樣10個GPU,Scale Up能多處理快一倍的請求,長期算下來電費、機房空間都省了。而且超大規模廠商搞推理集群,Scale Out要維護多跳路由、複雜的網路配置,維運人員得天天盯著。再看廠商那些技術路徑,他們在推理場景都是用的什麼Scale Up技術。(四)不同的Scale Up技術NVIDIA的NVLink Fusion,說是能讓CPU和GPU協同,這在推理裡其實很關鍵——因為推理時CPU要做預處理(比如把文字轉token)、GPU做計算、CPUPU後處理,要是CPU和GPU通信慢卡,整個鏈路就這樣。 NVLink Fusion讓它們快取一致,CPU預處理好的資料直接進GPU緩存,不用等PCIe慢慢傳,低延遲就有保障了,但問題是它得搭NVIDIA自己的Grace ARM處理器,其實很多廠商之前的推理集群都是x86架構,要是換ARM,驅動、軟體服務都得重來,就算不開的AMD的UA Link,說是能快速落地,可推理集群有時候也需要多機架擴展(比如一個城市的推理請求集中到幾個機架),UA Link在多機架上不如以太網,要是後期想擴規模,就得換設備,反而麻煩。大的CSP廠商例如Google、Meta為啥傾向乙太網路?因為他們的推理模型經常換,還得相容於不同晶片(如TPU、MTIA),乙太網路生態成熟,不管換什麼硬件,軟體不用大改,推理服務能快速上線,不像NVLink、UA Link那樣綁死在某類硬體上。 (五)連接技術和白盒設備還有連接技術和白盒設備。單機架用銅纜,因為推理集群大多是集中部署的,比如一個資料中心裡的推理節點就擠在幾個機架裡,銅纜成本低還夠快,4機架以內用AEC銅纜也能,超過4機架才用光纖——畢竟推理不像訓練可能跨地域,沒必要一開始就上光纖。 CPO技術說潛力大,也是因為推理集群密度高,一堆GPU擠在一起,CPO能省空間還降散熱,而且推理是持續高負載,CPO的能效比優勢明顯,但超大規模廠商為啥不敢先上?因為推理服務不能停,CPO是新技術,萬一出點兼容性問題,整個集群就得 downtime,損失太大,所以他們寧願先從銅纜跑順了,等CPO穩定了再慢慢換,這是從“推理不能斷”的角度考慮的,不是光看技術先進。 白盒設備也是,推理時要相容於不同廠商的GPU(例如有的節點用NVIDIA A100,有的用AMD MI300),白盒得調驅動、固件,調試起來麻煩,推理集群最怕出問題,所以寧願多花點錢買Arista這種品牌設備,穩定,運維省心,就算貴點也值。二、NVLink技術 (一)物理層面NVLink不只是個快一點的連接線,從實體層到協定層、再到拓樸擴展,每一步都在解決傳統互連(PCIe)在AI場景裡的短板。 首先說物理層,第五代NVLink能做到1.8TB/s雙向頻寬,不是靠堆線那麼簡單,它用的是「點對點全雙工通道」設計:每個GPU上都整合了專門的NVLink控制器,控制器會分出多個高速差分訊號通道(例如單一通道速率能到100GB/s以上),這些通道不經過任何中間「中繼站」(PCIe的話得走主機板的根複合體),直接連接到另一個GPU的控制器上。 而且同一時間既能發數據又能收數據,不像有些互連是半雙工得切換,這就從硬體上把頻寬拉滿了——比如每GPU 900GB/s,其實就是控制器裡的發送通道總頻寬加接收通道總頻寬,雙向堆疊加到1.8TB/s,比PCIe 5.08GB/128GB/128GB(128GB)。因為「直連+全雙工」的實體設計,沒浪費任何傳輸環節。 (二)低延遲和高能效這就得繼續挖協定層的「快取一致性」了。 AI訓練或推理時,多個GPU要處理同一個模型的不同部分,比如一個GPU算完Layer1的激活值,得傳給算Layer2的GPU,要是沒有緩存一致,Layer2的GPU得等Layer1把數據先存到自己的顯存,再整份讀過來,中間多了“存取-NVL”兩步;但NVL ink搞了個“GPU間共享虛擬記憶體空間”,所有連在NVLink上的GPU,能看到同一塊“邏輯緩存區”——Layer1算完的激活值,不用特意存顯存,直接丟進這個共享緩存,Layer2的GPU要的時候直接從緩存裡讀,省了來回拷貝的時間,這就是延遲低的原因。而這事是靠硬體實現的,每個NVLink控制器裡都有專門的“一致性協議模組”,不用CPU插手調度(PCIe就得CPU管地址映射,慢得很),硬體直接處理地址同步和數據請求,自然能效也高——你想,少了CPU幹預和數據拷貝,就不用耗電純能,這就是浪費成本,這就是浪費成本(三)機架級擴充機架級擴充涉及到NVLink Switch晶片-之前單節點裡的GPU是直接兩兩直連(網狀拓樸),但要擴到72個GPU的機架級,總不能讓每個GPU都跟其他71個連一遍吧? Switch晶片就相當於樞紐,它上面有很多NVLink端口,每個端口能連一個GPU節點(比如一個節點8個GPU,透過內部NVLink連好),然後Switch會把這些節點組成一個「NVLink域」。 這裡Switch有個「無阻塞轉送」設計:例如節點A的GPU要給節點B的GPU傳數據,不用繞其他節點,Switch直接在內部建立專用通道,而且支援多組數據同時傳輸(例如A→B、C→D能並行),不會互相堵住。 130TB/s的域頻寬怎麼來?就是Switch所有連接埠的總頻寬疊加,再加上內部交換結構的處理能力,確保整個機架裡的GPU不管隔多遠,都能享受接近直連的速度。比較PCIe或華為的Cloud Matrix 384,PCIe是樹狀結構,越往上層頻寬越擠,多GPU通訊得繞根複合體,根本撐不起72個GPU的規模;華為那個雖然能連更多,但得靠複雜的多層交換架構,多了好幾層轉發,不僅調試的時候要排查每一層的問題(比如某一層交換機丟包,你得一層一層找),而且轉發環節多了,穩定性自然下降,還沒量產出貨也說明這種複雜架構落地難,而NVLink Switch是單級或簡單級聯,結構簡單,穩定性和延遲才能控制住。 (四)生態整合這個為啥能提升性能?兩方面,SHARP協定和Mission Control。 AI任務裡有個很常見的操作叫做「歸約」-例如多個GPU算完各自的梯度,要匯總成一個全域梯度再更新參數,傳統做法是每個GPU把梯度傳給CPU,CPU匯總完再發回去,這來回傳資料的時間特別長。但NVLink支援SHARP協議,這個協議是直接在NVLink的硬體層面實現歸約運算的-例如多個GPU的梯度資料在傳往Switch的時候,Switch直接在內部完成求和、取最大值這些操作,再傳到CPU,直接把結果發給需要的GPU,等於把「資料節運成這個中間一步,不用再傳到CPU,就省了CPU。而且每增加2倍NVLink頻寬,能帶來1.3-1.4倍的機架級性能提升,就是因為頻寬越高,同時能傳輸的梯度、激活值這些數據越多,SHARP的硬體歸約能處理的並行數據量也越大,不會讓運算等數據(這叫做「計算-通信重疊」)。至於Mission…
