国产三级精品久久久久久_国产在线视频_97无码在线视频_夜夜福利_成人小说18+在线观看_www.色色五月天_AV.com黄_超碰一本道_免費色色_日日干夜夜肏屄

登錄  注冊 退出
桂林珩源科技有限公司
153-0773-3338
  1. 首頁 > 新聞動態(tài) > 行業(yè)資訊

一顆2nm芯片發(fā)布,吊打英偉達(dá)

作者:羅靈姣 日期:2025-11-13 14:06:51 點(diǎn)擊數(shù):

今天,又一家公司要吊打英偉達(dá)。

據(jù)一家名為 Tachyum 公司透露,公司新發(fā)布的 2nm Prodigy 芯片能提供 1024 個(gè)核心、6GHz 時(shí)鐘頻率、1GB 組合緩存,并支持超高速 DDR5 內(nèi)存,理論上可以輕松應(yīng)對 NVIDIA 的 Rubin Ultra,

Tachyum 表示, 公司的 Prodigy 2nm 處理器將在單個(gè)插槽上實(shí)現(xiàn)多達(dá) 1024 個(gè) 64 位核心,從而將性能提升到一個(gè)新的水平。這些核心的運(yùn)行頻率最高可達(dá) 6.0 GHz,并且可以擴(kuò)展到 16 插槽系統(tǒng),最多可容納 8192 個(gè) CPU 核心(1024 核心 SKU 支持 8 插槽配置)。

一顆2nm芯片發(fā)布,吊打英偉達(dá)(圖1)

Tachyum 聲稱, Prodigy 2 將是首款推理性能超過 1000 PFLOPs 的芯片,而 NVIDIA Rubin 的推理性能為 50 PFLOPs。換而言之,該公司的芯片速度比 NVIDIA Rubin Ultra 快 21 倍。

他們還指出,Prodigy Ultimate 的 AI 機(jī)架性能比 NVIDIA Rubin Ultra ( NVL756 ) 高 21.3 倍,而 Prodigy Premium 的 AI 機(jī)架性能比 NVIDIA Rubin ( NVL144 ) 高 25.9 倍。但他們并未詳細(xì)說明 Prodigy Premium 和 Prodigy Ultimate 的具體區(qū)別。

下面我們了解一下這顆預(yù)告了多次,并延期了多次的芯片。

解碼 Tachyum 的芯片

雖然他們并沒有詳細(xì)講述這顆芯片,但我們可以從相關(guān)報(bào)道中,獲得更多蛛絲馬跡。

Tachyum 也強(qiáng)調(diào),過去幾年,公司不斷升級其 Prodigy 設(shè)計(jì),以滿足服務(wù)器、人工智能和高性能計(jì)算市場不斷變化的需求,其整數(shù)性能提升高達(dá) 5 倍,人工智能性能提升高達(dá) 16 倍,DRAM 帶寬提升 8 倍,芯片間和 I/O 帶寬提升 4 倍,通過支持 16 個(gè)插槽實(shí)現(xiàn) 4 倍的可擴(kuò)展性,以及 2 倍的能效,同時(shí)降低了每個(gè)核心的成本。

現(xiàn)在,隨著 Prodigy 芯片升級至 2nm 工藝,顯著降低了功耗。盡管 2nm 晶圓成本高昂,但縮小芯片尺寸仍能降低成本。Prodigy 封裝中的每個(gè)芯片都集成了 256 個(gè)高性能定制 64 位內(nèi)核。由于多個(gè)芯片共用一個(gè)封裝,因此降低功耗至關(guān)重要。在近期 2.2 億美元投資的支持下,2nm Prodigy 芯片正準(zhǔn)備進(jìn)行流片。

接下來,我們看一下這顆芯片的規(guī)格:規(guī)格概覽:2nm 架構(gòu)(尚未制造)、最多可達(dá) 1024 個(gè) 64 位核心、最高可達(dá) 6 GHz 時(shí)鐘頻率、最多 1 GB 的 LLC、最高可達(dá) 1600W TDP、支持高達(dá) DDR5-17,600 MT/s 的速度、每個(gè)插槽最高支持 48 TB DDR5 內(nèi)存容量、最多支持 128 條 PCIe 7.0 通道。

Tachyum 介紹說,其用于 Prodigy 2nm 芯片的 64 位微架構(gòu)將支持最新的矩陣和向量擴(kuò)展,專為高性能人工智能和高性能計(jì)算應(yīng)用而設(shè)計(jì)。它采用亂序執(zhí)行架構(gòu),每個(gè)時(shí)鐘周期可執(zhí)行 8 條指令。

一顆2nm芯片發(fā)布,吊打英偉達(dá)(圖2)

他們指出,該芯片本身集成了 128 KB 指令緩存 ( I-Cache ) 、64 KB 數(shù)據(jù)緩存 ( D-Cache ) (均支持 ECC)以及 1 GB 的 L2+L3 緩存。SKU 提供 32、64、96、128、256、320、384、448、512、768 和 1024 個(gè)核心配置,TDP 則從 30W、70W、140W、150W、300W、420W、550W、645W、800W、1000W 到最高 1600W 不等。

Prodigy 2nm 芯片將支持多達(dá) 24 個(gè) DDR5 通道,速度最高可達(dá) 17,600 MT/s,每個(gè)插槽最大容量可達(dá) 48 TB。I/O 方面,將提供 128 條 PCIe 7.0 通道和總共 64 個(gè) PCIe 控制器。DDR5-17600 規(guī)格和 PCIe 7.0 在現(xiàn)有服務(wù)器市場并不常見,因此 Tachyum 今天提到的這個(gè)平臺不太可能在 2027 年之前上市,即使到 2030 年,如果他們能夠推出類似的產(chǎn)品,那也堪稱奇跡。

在此前的報(bào)道中,Tachyum 曾透露,公司的 Prodigy 處理器將采用多芯片設(shè)計(jì),系統(tǒng)級封裝 ( SiP ) 內(nèi)的每個(gè)計(jì)算芯片都將擁有 256 個(gè)通用核心。這意味著整個(gè) SiP 將提供更多核心,從而兌現(xiàn)該公司 " 性能是目前最高性能 x86 處理器的 3 倍,是目前最高性能 HPC 通用圖形處理器 ( GPGPU ) 的 6 倍 " 的承諾。然而,這一性能承諾存在一個(gè)問題:該公司尚未最終確定 CPU 的規(guī)格,因此也尚未完成芯片流片,其實(shí)際性能仍有待觀察。

規(guī)格參數(shù)介紹完畢,我們來看看 Tachyum 公布的一些性能數(shù)據(jù)。首先,Tachyum 將其 Prodigy 2nm 芯片與 NVIDIA 的 Rubin Ultra GPU 平臺進(jìn)行了比較,后者預(yù)計(jì)將于 2027 年發(fā)布。

Tachyum 強(qiáng)調(diào),Prodigy 通用處理器可提供數(shù)量級更高的 AI 性能,是最佳 x86 處理器的 3 倍,是速度最快的 GPGPU 的 6 倍 HPC 性能。Prodigy 無需昂貴的專用 AI 硬件,并可顯著提高服務(wù)器利用率,從而大幅降低數(shù)據(jù)中心的資本支出和運(yùn)營支出,同時(shí)提供前所未有的性能、功耗和經(jīng)濟(jì)效益。

一顆2nm芯片發(fā)布,吊打英偉達(dá)(圖3)

Tachyum 表示,除了開源所有軟件外,Tachyum 還開放其內(nèi)存技術(shù),采用標(biāo)準(zhǔn)組件,使基于 DIMM 的內(nèi)存帶寬提升 10 倍,并可供內(nèi)存或處理器公司授權(quán)使用,包括采用 JEDEC 標(biāo)準(zhǔn),以實(shí)現(xiàn)高普及率和低成本。2023 年,Tachyum 發(fā)布了可授權(quán)的 Tachyum AI ( TAI ) 數(shù)據(jù)類型,其 Tachyum 處理單元 ( TPU ) 內(nèi)核也已開放授權(quán)。Tachyum 目前正在推進(jìn)指令集架構(gòu) ( ISA ) 的開源。

基于這些領(lǐng)先芯片,Tachyum 打造了兩個(gè)解決方案,其中 Prodigy Ultimate 集成了 1024 個(gè)高性能內(nèi)核、24 個(gè) DDR5 17.6GT/s 內(nèi)存控制器和 128 條 PCIe 7.0 通道;Prodigy Premium 配備 16 個(gè) DRAM 通道,內(nèi)核數(shù)量從 512 個(gè)到 128 個(gè)不等,可擴(kuò)展至 16 路系統(tǒng)。入門級 Prodigy 配備 8 個(gè)或 4 個(gè) DRAM 控制器,內(nèi)核數(shù)量從 128 個(gè)到 32 個(gè)不等。

如 Tachyum 所說,傳統(tǒng)的大規(guī)模人工智能解決方案可能耗資超過 8 萬億美元,需要超過 276 GW 的電力。相比之下,Tachyum 的解決方案預(yù)計(jì)僅需 780 億美元的成本和 1 GW 的電力即可實(shí)現(xiàn)類似的功能,使其能夠被多家公司和國家所采用。Tachyum 認(rèn)為,公司的 Prodigy 系列產(chǎn)品能股改多種性能和應(yīng)用領(lǐng)域,包括大型人工智能、百億億次級超級計(jì)算、高性能計(jì)算 ( HPC ) 、數(shù)字貨幣、云計(jì)算 / 超大規(guī)模計(jì)算、大數(shù)據(jù)分析和數(shù)據(jù)庫。

Tachyum 強(qiáng)調(diào),Prodigy 的卓越功能、可擴(kuò)展性和價(jià)格定位確保了其快速的市場滲透。Tachyum 提供開箱即用的原生系統(tǒng)軟件、操作系統(tǒng)、編譯器、庫、眾多應(yīng)用程序和 AI 基礎(chǔ)設(shè)施框架。它還允許運(yùn)行未經(jīng)修改的 Intel/AMD x86 二進(jìn)制文件,并將其與原生應(yīng)用程序混合使用。這確保了客戶從第一天起就能使用 Tachyum 系統(tǒng)。

一家旨在打造通用芯片的公司

Tachyum 公司總部位于加利福尼亞州圣克拉拉,并在斯洛伐克首都布拉迪斯拉發(fā)設(shè)有研發(fā)實(shí)驗(yàn)室,其團(tuán)隊(duì)擁有眾多經(jīng)驗(yàn)豐富的工程師和高管。

其中,聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Radoslav Danilak 早在互聯(lián)網(wǎng)泡沫初期就設(shè)計(jì)了自己的超長指令字(VLIW)處理器,幾年后,他為一家名為 Gizmo Technology 的公司開發(fā)了一款 64 位處理和內(nèi)存的亂序執(zhí)行 x86 處理器,之后他曾在東芝公司擔(dān)任首席架構(gòu)師,負(fù)責(zé)東芝 7901 芯片的開發(fā)。該芯片是 MIPS R5900 Emotion Engine 處理器的變體,曾用于 PlayStation 2 游戲機(jī),據(jù)推測也用于東芝的各種微控制器和電子產(chǎn)品中。

Danilak 還曾在 Nishan Systems 公司參與一個(gè)為期一年的項(xiàng)目,開發(fā)出一款單芯片網(wǎng)絡(luò)處理單元(NPU),將 20 個(gè)不同芯片的功能整合到一起。之后,他擔(dān)任英偉達(dá)的高級架構(gòu)師,負(fù)責(zé)設(shè)計(jì) nForce 4 GPU 和第一代 Tesla GPU 加速器 "Fermi" 的特性。

2007 年,正值 GPU 加速浪潮即將興起之際,Danilak 離開了英偉達(dá)。他創(chuàng)立了閃存存儲制造商 SandForce,并為其開發(fā)了自主研發(fā)的閃存控制器。2010 年,SandForce 以 3.77 億美元的價(jià)格出售給了 LSI Logic。此后,Danilak 聯(lián)合創(chuàng)立了全閃存陣列制造商 Skyera,該公司于 2015 年夏季被西部數(shù)據(jù)以未公開的價(jià)格收購。

之后,他四處尋找新的創(chuàng)業(yè)靈感,并在 2016 年 9 月與 Mullendore 和 Igor Shevlyakov 共同創(chuàng)立了 Tachyum 公司。

Mullendore 在互聯(lián)網(wǎng)泡沫時(shí)期及之后曾擔(dān)任 Nishan Systems 的高級架構(gòu)工程師,之后在存儲區(qū)域網(wǎng)絡(luò)交換機(jī)制造商 McData 工作,該公司最初隸屬于 EMC,后被 Brocade Communications 收購,Mullendore 在收購后繼續(xù)留任了一段時(shí)間。隨后,Mullendore 加入 SandForce 擔(dān)任首席架構(gòu)工程師,之后又跟隨 Danilak 先后加入 Skyera,現(xiàn)在則在 Tachyum 工作。

Tachyum 的另一位聯(lián)合創(chuàng)始人 Shevlyakov 于 20 世紀(jì) 90 年代初以軟件工程師的身份入行,隨后在互聯(lián)網(wǎng)泡沫初期,他曾在俄羅斯多家初創(chuàng)公司專注于編譯器開發(fā)。在 1999 年至 2001 年的巔峰時(shí)期,他擔(dān)任實(shí)時(shí)操作系統(tǒng)制造商 Wind River 的高級編譯器工程師。之后,Shevlyakov 在 MicroUnity 工作了十余年,該公司開發(fā)了一款名為 BroadMX 的 RISC/SIMD 處理器,旨在用于網(wǎng)絡(luò)處理任務(wù)。在 MicroUnity,他將 GNU 開源工具鏈移植到了該處理器上。隨后,他與 Danilak 和 Mullendore 一起加入了 Skyera 公司,在那里,他將 GNU 工具鏈移植到了該公司自主研發(fā)的用于控制閃存的芯片上,并參與了全閃存陣列中閃存轉(zhuǎn)換層的開發(fā)工作。西部數(shù)據(jù)收購 Skyera 后,Shevlyakov 繼續(xù)留在 Tachyum,與他的聯(lián)合創(chuàng)始人一起工作,并負(fù)責(zé) Tachyum 的軟件棧開發(fā)。

負(fù)責(zé)業(yè)務(wù)拓展的副總裁肯 · 瓦格納 ( Ken Wagner ) 也是聯(lián)合創(chuàng)始人之一,曾就職于多家硅芯片初創(chuàng)公司。系統(tǒng)工程副總裁基蘭 · 馬爾萬卡 ( Kiran Malwankar ) 是橫向擴(kuò)展存儲設(shè)備制造商 Pavilion Data Systems 的創(chuàng)始人。弗雷德 · 韋伯 ( Fred Weber ) 是超級計(jì)算機(jī)制造商 Encore Computer 和 Kendall Square 的聯(lián)合創(chuàng)始人,曾任 AMD 首席技術(shù)官,并參與創(chuàng)建了 64 位 Athlon 和 Opteron 架構(gòu),他是公司的顧問。曼徹斯特大學(xué)計(jì)算機(jī)科學(xué)教授史蒂夫 · 弗伯 ( Steve Furber ) 也是顧問,他在 20 世紀(jì) 80 年代設(shè)計(jì)了首款 32 位 Acorn RISC Machines 處理器,也就是我們熟知的 Arm。分布式系統(tǒng)專家克里斯托斯 · 科茲拉基斯 ( Christos Kozyrakis ) 是斯坦福大學(xué)的教授,他經(jīng)常與谷歌合作,也是公司的顧問。

在過去近十年里,Prodigy 芯片的設(shè)計(jì)已延期多年。

一開始,該公司擁有一個(gè)內(nèi)部 System C 模擬器,可用于內(nèi)部開發(fā)和基準(zhǔn)測試。早在 2020 年的時(shí)候,該公司就說芯片將流片,將采用臺積電的 7 納米工藝制造。這種先進(jìn)的制造工藝使其能夠在 290 平方毫米的器件中集成大量組件。

如圖所示,該設(shè)計(jì)源于對連接電路模塊的導(dǎo)線的深入研究,以及 Tachyum 認(rèn)為能夠吸引超大規(guī)模數(shù)據(jù)中心、高性能計(jì)算中心以及機(jī)器學(xué)習(xí)和推理集群的組件比例的合理配置。Danilak 指出,問題在于導(dǎo)線的傳輸速度正在變慢。以下是一些常見的圖表:

一顆2nm芯片發(fā)布,吊打英偉達(dá)(圖4)

" 我們在時(shí)鐘頻率附近遇到了性能瓶頸,每個(gè)核心的性能增長并不顯著,"Danilak 表示。" 核心數(shù)量在增加,但由于散熱問題,我們也在降低時(shí)鐘頻率。所有晶體管的速度都在提高,但問題在于導(dǎo)線變得越來越細(xì),電阻越來越大,因此導(dǎo)線延遲也在增加。過去芯片的延遲是每毫米 100 皮秒,而現(xiàn)在每毫米的延遲已經(jīng)接近 1000 皮秒。"

當(dāng)然,導(dǎo)線電阻會產(chǎn)生熱量,還會導(dǎo)致延遲,因此,Danilak 認(rèn)為,訣竅在于盡可能縮短導(dǎo)線長度。這樣一來,芯片的時(shí)鐘頻率可以比以往更高,同時(shí)還能減少總計(jì)算時(shí)間(獲取數(shù)據(jù)的時(shí)間加上處理數(shù)據(jù)的時(shí)間),從而完成更多工作。關(guān)鍵在于提取芯片上運(yùn)行的工作負(fù)載中的并行性,從而消除導(dǎo)線造成的計(jì)算延遲(就像緩存層次結(jié)構(gòu)掩蓋了標(biāo)準(zhǔn)處理器中的計(jì)算延遲一樣),而這需要一些巧妙的編譯器工作——這時(shí),Shevlyakov 擁有如此豐富的編譯器經(jīng)驗(yàn)就能發(fā)揮重要的作用。

一顆2nm芯片發(fā)布,吊打英偉達(dá)(圖5)

于是,如上圖所示,他們開發(fā)了第一代芯片。關(guān)于這這個(gè)設(shè)計(jì),Danilak 大膽宣稱:" 每個(gè)核心都比 Xeon 核心或 Epyc 核心更快,比 Arm 核心更小,總體而言,我們的芯片在高性能計(jì)算和人工智能方面比 GPU 更快。"

在當(dāng)時(shí),該芯片的核心如下圖所示:

一顆2nm芯片發(fā)布,吊打英偉達(dá)(圖6)

與其他核心設(shè)計(jì)相比,L1 緩存略小,數(shù)據(jù)緩存和指令緩存均為 16KB,但核心上的 256KB L2 緩存和同樣位于核心上的 512KB L3 緩存(兩者共同構(gòu)成一個(gè)覆蓋整個(gè)芯片的 32MB 共享 L3 緩存)則完全正常。如您所見,整數(shù)流水線有九級,向量流水線則增加了五級。

以下是 Prodigy 核心如何處理指令獲?。?/p>

一顆2nm芯片發(fā)布,吊打英偉達(dá)(圖7)

以下是指令執(zhí)行流程:

一顆2nm芯片發(fā)布,吊打英偉達(dá)(圖8)

這就是 Prodigy 芯片緩存層級結(jié)構(gòu)的實(shí)際運(yùn)作方式:

一顆2nm芯片發(fā)布,吊打英偉達(dá)(圖9)

這就是向量和矩陣數(shù)學(xué)單元的布局和工作原理:

一顆2nm芯片發(fā)布,吊打英偉達(dá)(圖10)

Tachyum 原本希望在 2019 年底推出 Prodigy 芯片的樣品,但由于種種原因推遲了多次。并最終在今天,帶來了 2nm 的版本。

這次真的要發(fā)布了嗎?

根據(jù)最初計(jì)劃以來,Prodigy 通用處理器于 2019 年完成芯片流片,2020 年上市,但此后計(jì)劃多次調(diào)整:從 2021 年推遲到 2022 年,再到 2023 年,最后又推遲到 2024 年。今年早些時(shí)候,Tachyum 再次更新了計(jì)劃,表示將于 2025 年完成芯片流片,從而推遲了原定于明年第一季度提供的參考服務(wù)器樣品。

雖然該公司官方仍計(jì)劃 于 2025 年開始量產(chǎn) Prodigy 處理器,但能否在一年內(nèi)完成所有必要的里程碑(流片、調(diào)試、樣品制作、量產(chǎn)啟動)仍有待觀察。

在去年年底,Tachyum 發(fā)布了一份長達(dá) 1600 頁的指南,旨在優(yōu)化其 Prodigy 通用處理器 FPGA 硬件的性能。我們認(rèn)為為了幫助大家更好了解這顆芯片的邏輯,可以精簡一下這些內(nèi)容給大家看一下。

據(jù)介紹,Prodigy 指令集架構(gòu)(ISA)融合了 RISC 和 CISC 兩種架構(gòu)的元素;據(jù) Tachyum 公司稱,該 ISA 避免了傳統(tǒng) CISC 處理器中常見的復(fù)雜、冗長且效率低下的變長指令。所有指令均標(biāo)準(zhǔn)化為 32 位或 64 位,部分指令還集成了內(nèi)存訪問功能以進(jìn)一步提升性能。

Tachuym 的 Prodigy FPGA 內(nèi)置性能計(jì)數(shù)器,可對運(yùn)行時(shí)事件進(jìn)行實(shí)時(shí)監(jiān)控和分析。該公司表示,這些工具能夠幫助程序員和工程師識別性能瓶頸并優(yōu)化代碼,從而提高效率,使該處理器成為高要求計(jì)算任務(wù)的理想之選。

本手冊提供了具體的優(yōu)化技巧,包括管理調(diào)度限制、改進(jìn)內(nèi)存例程、對齊分支和指令以及緩解寄存器轉(zhuǎn)發(fā)難題。此外,它還提供了處理緩存操作、加載 / 存儲對齊和訪問特殊寄存器的指導(dǎo),確保開發(fā)人員能夠?qū)浖M(jìn)行微調(diào),從而達(dá)到最佳性能。

Tachyum 創(chuàng)始人兼首席執(zhí)行官 Radoslav Danilak 博士表示:" 軟件程序員、測試工程師、編譯器開發(fā)人員以及系統(tǒng)和解決方案工程師將會非常珍惜這次深入了解 Prodigy 如何為高效處理 AI、云計(jì)算和高性能計(jì)算工作負(fù)載提供固有性能優(yōu)勢的機(jī)會。Prodigy 的集成功能將幫助用戶實(shí)現(xiàn)業(yè)界領(lǐng)先的計(jì)算效率,從而更快地獲得洞察、更快地開展研究、更快地生成結(jié)果。"

對啦,今年十月,Tachyum 透露,一家歐洲投資者將在一個(gè)月內(nèi)向 Tachyum 的賬戶匯出 2.2 億美元的投資款項(xiàng)。此舉將助力 Tachyum 成為人工智能數(shù)據(jù)中心市場領(lǐng)先的賦能者之一。此外,該 C 輪投資者還簽署了一份價(jià)值 5 億美元的 Prodigy 芯片采購訂單。Prodigy 芯片將使人工智能性能提升一個(gè)數(shù)量級,并將超大型 LLM/AI 模型的成本降低約兩個(gè)數(shù)量級。




隨便看看