←回上一頁

韋安觀點》晶片戰爭——《AI晶片自立路:從華為昇騰到鯤鵬,中國能走出另一條路?》

(圖/AI生成) (圖/AI生成)

「我們可以透過數學補物理、非摩爾補摩爾、群計算補單晶片來達到實用效果。」——任正非

這句話,道出中國AI晶片自主化的核心難題與破局思路。中國的AI晶片,不是做不出來,而是在「做得出來」之後,如何控制成本、形成規模、接上全球市場——才是真正的難題。

2024年4月下旬,我私下請教一位中國某中央官方媒體的高級主管:「現在中國到底做不做得出可以替代NVIDIA的AI晶片?」他的回答直接而坦誠:「別人花五塊錢成本,我們可能要花十到十五塊;而技術水準,頂多做到台積電的七成。」這與任正非的技術哲學一道,勾勒出中國自立道路的兩重關鍵:一是物理與製程受限時,以算法與體系補位;二是做得出來之後,必須讓它「用得起、用得上」。

從華為昇騰910到寒武紀思元系列,從盤古大模型到城市級AI平台,中國試圖開出一條「算力備援」的獨立路徑。但這條路能走多遠?是過渡期的權宜之計,還是真能撐起AI主權的制度根基?

一|從挖礦到AI:中國晶片設計的意外轉折

2017年,當華為海思還在專注手機晶片麒麟970的最後調試時,一場意外的技術轉折正在悄然發生。「比特大陸」(Bitmain,中國北京公司,全球最大比特幣礦機製造商之一),憑藉螞蟻礦機在全球加密貨幣挖礦市場佔據70%份額,但其創始人詹克團已經開始思考一個問題:挖礦專用晶片ASIC的並行計算架構,能否轉向AI訓練?

這不是天馬行空的想法。ASIC晶片為了實現高效挖礦,採用了大量並行運算單元,這與AI神經網路訓練所需的矩陣運算高度相似。2017年底,比特大陸推出首款AI訓練晶片BM1680,雖然性能距離NVIDIA Tesla V100還有差距,但證明了從挖礦到AI的技術路徑可行性。

幾乎同時,中科院計算所博士陳天石創立的寒武紀,選擇了完全不同的技術路線。他們並非從現有晶片架構改進,而是從神經網路算法的數學本質出發,設計專門的神經處理器架構。2016年發佈的寒武紀1A處理器,雖然只有8位元精度,但在神經網路推理任務上的能效比傳統GPU高出100倍以上。

真正的轉折點來自華為。2018年,任正非在內部講話中明確提出:「雲端AI晶片將是未來十年的制高點,華為必須在這個領域佔據一席之地。」海思半導體迅速啟動達芬奇架構的研發,這是一個專門為AI計算設計的全新晶片架構。

與手機晶片追求低功耗不同,AI晶片的設計邏輯完全顛倒——追求極致的計算密度和並行處理能力。達芬奇架構採用了創新的「3D Cube」計算單元,能夠同時處理多維張量運算,這在傳統CPU或GPU上需要多個時鐘週期才能完成的運算,達芬奇可以在單週期內完成。

2018年10月,華為正式發佈昇騰910AI訓練晶片和昇騰310AI推理晶片。昇騰910在FP16精度下算力達到256 TOPS,超越了當時NVIDIA最強的V100。這標誌著中國在AI晶片設計領域首次實現技術領先。

但設計領先並不等於產業成功。AI晶片的複雜度遠超手機晶片,對製程工藝和封裝技術要求極高。昇騰910採用台積電7奈米製程,單顆晶片集成320億個電晶體,功耗高達310瓦。如何解決散熱、如何保證良率、如何控制成本,這些都是全新的挑戰。

二|AI晶片製造的技術深水區

如果說手機晶片是精密的瑞士錶,那麼AI晶片就是複雜的核電站。兩者的製造難度完全不在一個量級。

AI訓練晶片的核心挑戰是功耗密度。昇騰910在310瓦功耗下,需要在不到一平方公分的矽片上處理相當於數千個CPU核心的計算量。這對散熱設計提出了極端要求。華為為此開發了專門的液冷散熱系統,但即使如此,晶片在高負載運行時表面溫度仍可能達到85度。

更大的挑戰來自良率控制。AI晶片的面積通常是手機晶片的3-5倍,這意味著單個晶圓上能切出的完好晶片數量大幅減少。據業內人士透露,昇騰910在台積電7奈米製程上的良率初期只有30-40%,遠低於同製程手機晶片70%以上的良率。

封裝技術是另一個技術深水區。AI晶片通常採用先進的2.5D或3D封裝,將多個晶片和高頻寬記憶體HBM封裝在同一基板上。這種封裝不僅成本高昂,而且對精度要求極高。任何微小的偏差都可能導致整個模組失效。

中國在封裝領域相對較強,但在高階HBM記憶體方面仍依賴韓國三星和SK海力士。這成為AI晶片產業鏈的關鍵瓶頸。一位參與昇騰910設計的華為工程師透露:「我們可以設計出世界一流的AI晶片,但記憶體頻寬始終受制於人。」

成本控制更是現實難題。據產業鏈估算,昇騰910的製造成本約為2000-3000美元,而NVIDIA V100的成本約為1000-1500美元。這種成本劣勢不僅來自製程良率,更重要的是缺乏規模效應。NVIDIA每年出貨數百萬顆AI晶片,而中國廠商的出貨量往往只有數萬顆。

三|軟硬一體:AI生態的制高點爭奪

AI晶片競爭的真正戰場不在硬體性能,而在軟體生態。NVIDIA之所以能夠壟斷AI計算市場,關鍵在於CUDA平台構建的龐大開發者生態。

CUDA不只是一個編程工具,更是一個完整的AI開發體系。從底層驅動到上層框架,從編譯器到調試工具,CUDA提供了AI開發的全套解決方案。全球95%以上的AI研究都基於CUDA進行,這種生態壟斷比硬體壟斷更難打破。

華為深諳生態建設的重要性。在推出昇騰晶片的同時,華為發佈了MindSpore深度學習框架和CANN異構計算架構。MindSpore的設計理念是「AI for All」,支援端、邊、雲全場景部署,這在當時的AI框架中是獨一無二的。

但生態建設需要時間積累。TensorFlow用了5年時間才建立起龐大的開發者社群,PyTorch也用了3年時間才被廣泛接受。華為的MindSpore面臨的挑戰是,如何在相對封閉的環境中快速建立開發者生態。

2019年美國制裁後,華為加速了軟體生態的本土化建設。通過與清華、北大、中科院等頂尖院校合作,華為建立了MindSpore學術生態聯盟。到2023年,MindSpore開發者數量已突破100萬,成為中國最大的AI開發平台。

但挑戰依然巨大。許多國際主流AI模型如GPT、BERT等都基於CUDA優化,要在昇騰平台上運行需要大量適配工作。一位使用昇騰平台的AI研究員表示:「技術上昇騰完全可以跑這些模型,但調優過程很痛苦,效率遠不如CUDA平台。」

四|從跟跑到領跑:中國AI晶片的未來路徑

站在2024年的時間節點回望,中國AI晶片產業已經走過了從無到有的艱難歷程。但更關鍵的問題是:未來能否從跟跑轉向領跑?

技術路線的選擇至關重要。當NVIDIA押注GPU通用計算時,中國企業選擇了專用AI晶片的路線。這種選擇有其合理性:專用晶片在特定任務上效率更高,更適合中國的應用場景。但也帶來了通用性不足的問題。

任正非對此有清醒認識:「我們不需要在每個技術點上都超越對手,關鍵是要找到自己的差異化路徑。」華為提出的「昇騰+鯤鵛」雙晶片戰略,就是這種差異化思路的體現。昇騰專注AI計算,鯤鵬負責通用計算,兩者結合形成完整的計算解決方案。

中國AI晶片的另一個優勢是龐大的應用市場。據工信部統計,2023年中國AI市場規模已突破4000億元,年增長率超過30%。從智慧城市到工業互聯網,各行各業的旺盛需求為國產AI晶片提供了廣闊的試驗場。

特別是在一些特定領域,中國AI晶片已經展現出領先優勢。在安防監控領域,海康威視和大華股份都推出了基於自研AI晶片的產品。在自動駕駛領域,地平線徵程系列晶片已經在多款量產車型中應用。

但制約因素仍然存在。製程工藝的差距短期內難以彌補,記憶體等關鍵器件仍需進口,國際市場的開拓更是充滿挑戰。一位業內專家直言:「我們可以在國內市場做到自給自足,但要真正與NVIDIA競爭全球市場,還需要5-10年的積累。」

更深層的挑戰來自人才競爭。AI晶片設計需要跨學科的頂尖人才,而這些人才往往集中在矽谷等國際頂尖機構。中國雖然在AI應用人才方面有優勢,但在基礎理論和晶片設計方面仍有差距。

機會在於新的技術範式轉換。當AI從雲端訓練走向邊緣推理,當量子計算和光子計算等新技術興起,全球AI晶片格局可能重新洗牌。中國企業如果能夠把握這些機會,完全有可能實現彎道超車。

五|昇騰迭代:從910到910D的技術進化與市場突圍

華為昇騰系列AI晶片的發展歷程,可以說是中國AI晶片產業從學習模仿到自主創新的縮影。從2018年的首款產品到2025年的最新迭代,昇騰不僅在技術性能上實現了跨越,更重要的是在市場化道路上探索出了一條可行的路徑。

2019年,華為正式推出昇騰910 AI訓練晶片,這是中國第一款真正意義上的高端AI訓練晶片。基於達芬奇架構設計,昇騰910在FP16精度下峰值算力達到256 TOPS,功耗310W,直接對標當時NVIDIA的旗艦產品V100。但初期的昇騰910面臨著巨大的挑戰:良率偏低、成本高昂、軟體生態薄弱。

真正的轉捩點出現在2020年。美國制裁切斷了華為獲取台積電先進製程的路徑,倒逼華為加速昇騰晶片的產業化。2023-2024年,華為開發了昇騰910B,累計出貨45萬片,並於2025年4月計劃910C批量出貨 。

昇騰910B的推出標誌著華為AI晶片從技術驗證轉向商業化部署的關鍵轉折。據業內對比,昇騰910B的算力約是NVIDIA H20的兩倍,功耗卻更低 。這種性價比優勢很快在市場上體現出來。阿里巴巴、百度、騰訊等中國科技巨頭開始大規模採購昇騰910B,用於替代受限的NVIDIA產品。

2024年底,華為推出了昇騰910C,這是一款採用雙晶片封裝的創新產品。昇騰910C採用中芯國際7奈米製程,集成530億個電晶體,國產化率達到55%。據DeepSeek團隊測試,910C在AI推理性能上達到NVIDIA H100的60% 。

910C的技術突破不僅體現在算力提升上,更重要的是在軟硬協同優化方面的創新。華為為910C專門開發了CANN 8.0計算架構,大幅提升了與主流AI框架的相容性。DeepSeek團隊表示,通過手動優化CANN核心,910C的性能還可進一步提升,其對昇騰處理器的原生支援以及PyTorch儲存庫讓CUDA到CANN的轉換變得更加無縫 。

2025年4月,華為推出了昇騰910D,使用較舊的HBM記憶體,主要針對高端市場 。910D的推出顯示了華為在產品策略上的成熟:面對不同的市場需求和成本考量,提供差異化的解決方案。

在產能方面,華為昇騰的發展也印證了中國AI晶片產業的快速成長。2025年5月開始,華為昇騰910B/C大規模發貨,已累計出貨超過80萬片 。這一出貨量雖然與NVIDIA相比仍有差距,但已經足以支撐中國主要AI企業的基本需求。

昇騰系列的技術規格對比清晰地展現了中國AI晶片的進化軌跡:昇騰310專注於推理應用,功耗僅為8W,適合邊緣部署;昇騰910系列定位訓練和推理一體化,910B、910C、910D針對不同應用場景進行了差異化優化。所有昇騰晶片都支援MindSpore框架,形成了完整的軟硬體生態 。

然而,昇騰系列也面臨著現實挑戰。由於美國制裁限制,華為昇騰晶片的年產能上限約為20萬片 。這一產能瓶頸制約了昇騰在市場上的更大突破。同時,業內專家指出,「長週期訓練的穩定性是中國晶片最大難關」,這涉及NVIDIA軟硬體生態系統的深度整合,CUDA護城河已經發展二十多年 。

儘管面臨挑戰,昇騰系列的技術進步和市場表現證明了中國AI晶片產業的巨大潛力。從910到910D的迭代過程中,我們看到了技術創新的加速、產品矩陣的完善、以及市場接受度的提升。這不僅是華為一家企業的成功,更是中國AI晶片產業集體突圍的標誌性成果。

六|政策博弈:從H20風波看中美AI晶片競爭新格局

2025年7月至8月,圍繞NVIDIA H20晶片發生的一系列事件,為中美AI晶片競爭增添了新的戲劇性轉折。這場看似技術性的爭議,實際上反映了更深層次的地緣政治博弈和產業戰略考量。

事件的起因可以追溯到2025年4月。美國政府通知NVIDIA,未來出口H20晶片至中國需取得特別許可,並於4月14日正式告知該政策將無限期實施,導致NVIDIA第一季認列高達55億美元的相關費用 。這一禁令的背景是美國對中國可能將H20晶片用於軍事或尖端科技應用的擔憂。

7月,情況出現了戲劇性轉折。NVIDIA與超微同意將對中國晶片銷售收益的15%上交美國政府,換取出口許可。川普總統最終同意讓NVIDIA的H20晶片重返中國市場 。7月15日,NVIDIA官網發布消息稱正在向美國政府提交重新對中國銷售H20芯片的申請,美國政府已向NVIDIA保證將發放許可證 。

然而,就在NVIDIA慶祝重返中國市場之際,中國政府的態度發生了微妙變化。過去幾週中國當局已向多家國有及私有企業發去通知,針對H20的採購、使用提出了非常具體的建議,特別強調國有企業或民營企業在涉及政府或國家安全的業務中,不應採用H20晶片 。

中國政府的擔憂主要集中在安全層面。中共央視旗下新媒體「玉淵譚天」刊文稱,NVIDIA H20晶片完全可以實現「遠程關閉」功能,包括設定電壓、定時等條件讓晶片自動關閉 。文章並稱H20晶片「既不環保,也不先進更不安全」 。

對此,NVIDIA回應表示,網絡安全對NVIDIA至關重要,NVIDIA晶片不存在後門,不會讓任何人透過遠程方式訪問或控制晶片 。但這種技術性辯護似乎並未消解中方的疑慮。

更深層的問題可能在於美國官員的言論引發了中方的不滿。據《金融時報》報導,中國當局針對NVIDIA晶片發出的警告,不僅僅是出於安全問題。美國商務部長Howard Lutnick在一次採訪中表示:「我們不會把最好的東西賣給他們,也不是第二好的,甚至不是第三好的。我們要讓中國繼續使用第四等產品……你希望銷售足夠的產品給中國,讓他們的開發者對美國的技術堆疊成癮」 。

這種「技術成癮」的表態顯然觸動了中方的敏感神經。中國政府的態度似乎是要減少進口量,從而創造足夠的市場需求,讓華為等本土廠商有機會獲得足夠收益推動陸產AI晶片的研發 。

技術對比也支撐了中方的信心。以華為目前主推的昇騰910C為例,它雖然在記憶體效能上遜於NVIDIA H20,但算力其實已旗鼓相當 。據業內對比,H20的算力大約只有華為昇騰910B的一半左右,功耗卻還大一點點 。

市場反應迅速而明確。8月22日,NVIDIA據報導已指示其供應商停止生產供應中國市場的H20 AI晶片,要求Amkor Technology和Samsung Electronics暫停H20相關工作 。這一決定反映了面對中國市場需求下降的現實考量。

這場H20風波的深層意義遠超技術爭議本身。它標誌著中美AI晶片競爭進入了一個新階段:不再是簡單的技術封鎖與突圍,而是更加複雜的政策博弈與市場選擇。中國雄厚的能源基建實力能讓本土AI公司享受到遠低於美國的用電成本,論訓練模型的難度和代價,中美之間的差別可能並不像許多人想像的那麼大 。

對中國AI晶片產業而言,H20風波提供了一個戰略機遇期。政府政策的傾斜為國產AI晶片創造了更廣闊的市場空間,而技術能力的提升則為這種政策傾斜提供了現實基礎。華為昇騰、寒武紀思元等國產AI晶片正是在這樣的背景下,迎來了前所未有的發展機遇。

七|多元化佈局的戰略意義

中國AI晶片產業正在形成多元化的發展格局。華為主導的昇騰系列憑藉軟硬一體化優勢占據高端市場;寒武紀專注於AI訓練推理的全棧解決方案;海光信息在CPU+DCU異構計算領域持續深耕;燧原科技則採用全自研路線構建完整的AI計算平台。

這種技術路線的多樣性反映了中國企業對AI計算未來趨勢的不同判斷。有的企業押注類似NVIDIA的GPU通用計算架構,有的選擇專用ASIC構建的Neuware。這種策略雖然在短期內面臨生態建設的巨大挑戰,但長期來看更有可能形成真正的技術自主權。

在智算中心建設方面,華為昇騰在20多個城市智能計算中心占據79%市場份額;寒武紀參與建設的中國移動智算中心已投產,部署1.8萬張AI加速卡;燧原科技與之江實驗室成立研究中心,助力多個智算中心建設。

產業鏈的垂直整合也在加速進行。封裝測試、軟體工具、系統集成等各個環節的企業都在受益於AI晶片產業的快速發展。長電科技在高端封測領域的進展,中芯國際在先進製程方面的推進,共同構建起中國晶片產業全面發展的格局。

TrendForce集邦咨询研究经理龚明德表示,2025年中國AI服務器市場的AI芯片供應中,國内AI芯片的比例將增至40%,英偉達等企業的供應占比估計會降到41.5%。這一預測顯示,中國AI晶片產業正在從邊緣走向主流,從補充走向替代。

多元化的發展格局為中國AI晶片產業提供了更強的韌性。不同技術路線的並行探索,降低了單一技術路徑失敗的風險;不同市場定位的差異化競爭,提高了整個產業的創新效率;不同規模企業的梯次發展,構建了更加完善的產業生態。

八|技術自主的戰略選擇

從麒麟970的「無心之槍」到昇騰910的主動出擊,中國晶片產業在五年間經歷了從依賴到自立的艱難轉型。這場轉型的意義超越了技術本身,標誌著中國在面對外部壓力時選擇了自主創新的道路。

2025年的H20風波成為這種戰略選擇的集中體現。當美國商務部長公然表示要讓中國「對美國的技術堆疊成癮」時,中國政府建議企業避免使用NVIDIA H20,NVIDIA被迫暫停H20晶片生產。這一系列事件標誌著中美AI晶片競爭進入了新的階段。

技術進步為這種戰略選擇提供了現實基礎。華為昇騰系列從910到910D的完整產品線技術性能不斷提升;寒武紀、海光信息等企業業績大幅增長,顯示出強勁的發展動能;十大國產AI晶片廠商集體擁抱新技術趨勢,產業生態日趨完善。

但技術自主的道路仍充滿挑戰。「長週期訓練的穩定性是中國晶片最大難關」,CUDA護城河已經發展二十多年。要打破這種壟斷,僅僅依靠硬體性能的提升是不夠的,還需要在軟體生態、開發者體驗、應用場景等方面實現全方位的創新。

產業生態的完善為中國AI晶片提供了更廣闊的發展空間。從華為的MindSpore到海光的光源社區,從智算中心建設到軟硬協同優化,一個相對完整的國產AI計算生態正在形成。雖然這個生態在規模和成熟度上還無法與NVIDIA的CUDA生態相媲美,但已經能夠支撐起中國AI產業的基本需求。

九|競爭與創新的未來之路

中國AI晶片產業正在書寫屬於自己的創新故事。這個故事不是簡單的技術追趕,而是在全球競爭格局中尋找差異化的發展路徑。

市場化的選擇證明了中國AI晶片的實用價值。當用戶願意主動選擇國產AI晶片時,這種選擇背後反映的是對技術能力、服務水平、發展前景的綜合認可。國產替代不再僅僅是政策導向,更成為市場驅動的自然選擇。

國際競爭的新格局要求中國AI晶片企業必須在技術創新和商業模式上實現更大突破。這不是製造出完全一樣的晶片,而是走出一條適合自己的創新道路。這條路可能更長,但可能也更寬廣。

人才培養和技術積累是長期競爭力的根本。AI晶片設計需要跨學科的頂尖人才,需要從基礎理論到工程實踐的全面積累。這需要產業界、學術界、政府部門的長期協同努力。

在這場持續的技術博弈中,中國已經證明了自己的韌性和創新能力。無論外部環境如何變化,堅持自主創新、建設完整產業鏈、培養頂尖人才的戰略方向不會改變。

從昇騰910到910D的技術迭代,從H20風波到國產替代的市場選擇,從單一企業的突破到產業生態的完善,中國AI晶片產業的故事結局還未確定,但方向已經清晰——通過自主創新、開放合作、持續積累,在全球AI晶片競爭中佔據重要地位。


現正直播
加入好友