97超碰免费在线,国内激情视频在线观看,一区二区三区日韩欧美精品

2021年8月20日18:05:06科技評論158閱讀模式

我們知道，Intel Xe GPU架構分為四個層級，或者說四種微架構，其中以上是的Xe LP低功耗版僅供核顯、入門獨顯，即將到來的Xe HPG高性能圖形版面向中高端游戲顯卡，Xe HP高性能版適合加速計算、AI、ML等但所知最少，Xe HPC高性能計算版則是最頂級的存在，主攻大型數(shù)據(jù)中心、超算。

5種工藝、1000+億晶體管！Intel Xe HPC頂級計算卡秀肌肉-圖片1

Xe HPG微架構的Alchmest(DG2)之前已經(jīng)聊過了，這里來看看Xe HPC和首款產(chǎn)品Ponte Vecchio，競爭對手是NVIDIA A系列、AMD Instinct系列。

當然，它們距離普通人非常非常遙遠，但卻是技術實力的最高體現(xiàn)。

5種工藝、1000+億晶體管！Intel Xe HPC頂級計算卡秀肌肉-圖片2

Xe HPC架構的基礎也是Xe核心(Xe Core)，但因為面向的是計算而非圖形，內(nèi)部結(jié)構有所不同，包括8個512-bit矢量引擎、8個4096-bit矩陣引擎，數(shù)量對比Xe HPG都減半，但位寬分別翻了一倍、兩倍，算力更兇猛。

矢量引擎每時鐘周期可執(zhí)行256個FP32、256個FP64、512個FP16等數(shù)據(jù)操作，矩陣引擎則每時鐘周期支持2048個FP32、4096個FP64、4096個BF16、8192個INT8。

與矢量引擎、矩陣引擎搭檔的，是一個更寬的寬加載/存儲單元，每個時鐘周期取回512字節(jié)數(shù)據(jù)。

每個Xe核心集成512KB一級數(shù)據(jù)緩存，這是目前業(yè)內(nèi)最大的，而且可以通過軟件配置作為暫存區(qū)使用，又稱共享內(nèi)部顯存。

5種工藝、1000+億晶體管！Intel Xe HPC頂級計算卡秀肌肉-圖片3

Xe核心的上一層級叫做“切片”(Slice)，不同于Xe HPG上的渲染器切片(Slice)，畢竟一個是做計算，一個是做圖形渲染。

Xe HPC每個切片集成多達16個Xe核心，四倍于Xe HPG渲染切片的規(guī)模，同時還有8MB一級緩存、16個光追單元、一個硬件上下文(Hardware Context)單元，其中光追支持光線遍歷、邊界框相交、三角形相交，提供固定函數(shù)計算。

硬件上下文單元大家可能比較陌生，它能讓GPU同時執(zhí)行多個應用，而無需昂貴的基于軟件的文本切換。

5種工藝、1000+億晶體管！Intel Xe HPC頂級計算卡秀肌肉-圖片4

切片的上一級則是“堆棧”(Stack)，至此才算一個完整的GPU。

一個堆棧包含4個切片，因此總計64個Xe核心、64個光追單元、4個硬件上下文。

5種工藝、1000+億晶體管！Intel Xe HPC頂級計算卡秀肌肉-圖片5

同時，堆棧內(nèi)還有大規(guī)模二級緩存、4個HBM2e內(nèi)存控制器、1個媒體引擎、8個Xe鏈路，以及拷貝引擎、PCle控制器。

5種工藝、1000+億晶體管！Intel Xe HPC頂級計算卡秀肌肉-圖片6

Xe HPC架構是可以輕松擴展的，支持多堆棧設計，屬于業(yè)內(nèi)首創(chuàng)，依靠的是EMIB封裝和堆棧間互連通道，可保持堆棧之間的內(nèi)存一致性。

比如這是雙堆棧，整體規(guī)模直接翻番，它就是后邊要說的首款Ponte Vecchio，但看架構圖，似乎不支持四堆棧。

5種工藝、1000+億晶體管！Intel Xe HPC頂級計算卡秀肌肉-圖片7

不同的Xe HPC GPU之間通過Xe鏈路互連，支持最多8顆并行，算力直接暴力乘以8。

5種工藝、1000+億晶體管！Intel Xe HPC頂級計算卡秀肌肉-圖片8

5種工藝、1000+億晶體管！Intel Xe HPC頂級計算卡秀肌肉

Ponte Vecchio作為基于Xe HPC架構的首款產(chǎn)品，一切的一切都是全新的，包括驗證方法、軟件、可靠性方法、信號完整性機制、互連、供電、封裝、I/O架構、內(nèi)存架構、IP架構、SoC架構。

Ponte Vecchio是個龐然大物，集成晶體管數(shù)量突破1000億個，使用5種不同的制造工藝，在內(nèi)部封裝了多達47個不同的單元(Tile)，包括計算單元、Rambo緩存單元、Foveros封裝單元、基礎單元、HBM單元、Xe鏈路單元、EMIB單元，等等。

5種工藝、1000+億晶體管！Intel Xe HPC頂級計算卡秀肌肉-圖片9

如此復雜的芯片設計，面臨的挑戰(zhàn)自然是空前的，首席架構師Masooma Bhaiwala直言這是她30年來設計的最復雜的芯片，堪稱制造奇跡。

其中，F(xiàn)overos 3D封裝是一個關鍵，最終的數(shù)據(jù)傳輸速度不得不提高到最初規(guī)劃的1.5倍，以便以把Foveros連接數(shù)量降至最低，但依然比之前任何設計都高了兩個數(shù)量級。

開發(fā)團隊還必須在設計初期就鎖定Foveros在所有單元上的位置，這意味著必須一開始就搞定整個平面圖布局，中途也不允許有明顯變更。

芯片設計和驗證也是全新流程，為此開發(fā)了大量新的工具、方法、腳本，并獨立安排4個主要單元，開發(fā)各自的調(diào)試軟件包，分而治之，加速開發(fā)，最終在SoC整體封裝完成幾天內(nèi)就成功啟動，運行了Hello World。

5種工藝、1000+億晶體管！Intel Xe HPC頂級計算卡秀肌肉-圖片10

再來看幾個關鍵的部分，計算單元采用臺積電N5 5nm工藝，每個集成8個Xe核心、4MB一級緩存，F(xiàn)overos封裝凸點間距36微米。

5種工藝、1000+億晶體管！Intel Xe HPC頂級計算卡秀肌肉-圖片11

基礎單元是一個連接器，所有復雜的I/O和高帶寬組件都在這里匯聚，包括PCIe 5.0總線、HBM2e內(nèi)存、MDFI鏈路、EMIB橋接，幾乎是在挑戰(zhàn)物理極限。

它采用Intel 7工藝、Foveros封裝，面積達640平方毫米，集成了多達144MB二級緩存。

5種工藝、1000+億晶體管！Intel Xe HPC頂級計算卡秀肌肉-圖片12

Xe鏈路單元是臺積電N7 7nm工藝制造，負責不同GPU之間的連接，是面向HPC、AI的縱向擴展的關鍵，每個單元有8條，實現(xiàn)了最高90G Serdes，可以滿足“極光”（Aurora）這樣百億億次級級超級計算機的需求。

5種工藝、1000+億晶體管！Intel Xe HPC頂級計算卡秀肌肉-圖片13

Ponte Vecchio目前處于A0版本階段(一般到A1就投入量產(chǎn))，成功運行了數(shù)百個工作負載，實測FP32吞吐性能超過45TFlops，Memory Fabric緩存帶寬超過5TB/s，互連帶寬超過2TB/s。

5種工藝、1000+億晶體管！Intel Xe HPC頂級計算卡秀肌肉-圖片14

Ponte Vecchio將有多種產(chǎn)品形態(tài)，最基本的單芯片做成OAM模塊，集成到一個載體基板上，AMD Instinct也有這種。

四芯并聯(lián)組成一個子系統(tǒng)，再搭配雙路的下一代Sapphire Rapids至強處理器，就是一個超算節(jié)點，將用于“極光”超算。

歷史上的今天

8 月

久久久久国产精品麻豆,国内黄色精品,精品国产一区二区三区久久狼黑人 ,欧美精品一区二区三区蜜桃

5種工藝、1000+億晶體管！Intel Xe HPC頂級計算卡秀肌肉

歷史上的今天

AMD前顯卡掌門人跳槽Intel后一路飛升又被提拔：CEO親自祝賀

毒性堪比眼鏡蛇亂摸水母會出人命！

百度地圖APP升級：“紅綠燈倒計時”太人性了

免費解壓縮神軟7-zip驚現(xiàn)重大漏洞：Windows版至今未修復

為什么漢字打亂順序也能看懂？只因大腦會自動修正錯誤

手機2億像素時代來了！小米要用史無前例

蘋果iOS 16前瞻：通知功能脫胎換骨

C-NCAP發(fā)10款新勢力安全表：小鵬乘員保護強到驚人最差的慘不忍睹

《魔獸世界》懷舊服資料片“巫妖王之怒”公布

NVIDIA芯片設計神器：兩顆AI GPU工作幾天頂10人團隊干一年

加載中...

發(fā)表評論

熱門搜索

歷史上的今天

發(fā)表評論