一顆2nm芯片發(fā)布，吊打英偉達(dá)

作者：羅靈姣　日期：2025-11-13 14:06:51　點(diǎn)擊數(shù)：

今天，又一家公司要吊打英偉達(dá)。

據(jù)一家名為 Tachyum 公司透露，公司新發(fā)布的 2nm Prodigy 芯片能提供 1024 個(gè)核心、6GHz 時(shí)鐘頻率、1GB 組合緩存，并支持超高速 DDR5 內(nèi)存，理論上可以輕松應(yīng)對 NVIDIA 的 Rubin Ultra，

Tachyum 表示，公司的 Prodigy 2nm 處理器將在單個(gè)插槽上實(shí)現(xiàn)多達(dá) 1024 個(gè) 64 位核心，從而將性能提升到一個(gè)新的水平。這些核心的運(yùn)行頻率最高可達(dá) 6.0 GHz，并且可以擴(kuò)展到 16 插槽系統(tǒng)，最多可容納 8192 個(gè) CPU 核心（1024 核心 SKU 支持 8 插槽配置）。

Tachyum 聲稱， Prodigy 2 將是首款推理性能超過 1000 PFLOPs 的芯片，而 NVIDIA Rubin 的推理性能為 50 PFLOPs。換而言之，該公司的芯片速度比 NVIDIA Rubin Ultra 快 21 倍。

他們還指出，Prodigy Ultimate 的 AI 機(jī)架性能比 NVIDIA Rubin Ultra ( NVL756 ) 高 21.3 倍，而 Prodigy Premium 的 AI 機(jī)架性能比 NVIDIA Rubin ( NVL144 ) 高 25.9 倍。但他們并未詳細(xì)說明 Prodigy Premium 和 Prodigy Ultimate 的具體區(qū)別。

下面我們了解一下這顆預(yù)告了多次，并延期了多次的芯片。

解碼 Tachyum 的芯片

雖然他們并沒有詳細(xì)講述這顆芯片，但我們可以從相關(guān)報(bào)道中，獲得更多蛛絲馬跡。

Tachyum 也強(qiáng)調(diào)，過去幾年，公司不斷升級其 Prodigy 設(shè)計(jì)，以滿足服務(wù)器、人工智能和高性能計(jì)算市場不斷變化的需求，其整數(shù)性能提升高達(dá) 5 倍，人工智能性能提升高達(dá) 16 倍，DRAM 帶寬提升 8 倍，芯片間和 I/O 帶寬提升 4 倍，通過支持 16 個(gè)插槽實(shí)現(xiàn) 4 倍的可擴(kuò)展性，以及 2 倍的能效，同時(shí)降低了每個(gè)核心的成本。

現(xiàn)在，隨著 Prodigy 芯片升級至 2nm 工藝，顯著降低了功耗。盡管 2nm 晶圓成本高昂，但縮小芯片尺寸仍能降低成本。Prodigy 封裝中的每個(gè)芯片都集成了 256 個(gè)高性能定制 64 位內(nèi)核。由于多個(gè)芯片共用一個(gè)封裝，因此降低功耗至關(guān)重要。在近期 2.2 億美元投資的支持下，2nm Prodigy 芯片正準(zhǔn)備進(jìn)行流片。

接下來，我們看一下這顆芯片的規(guī)格：規(guī)格概覽：2nm 架構(gòu)（尚未制造）、最多可達(dá) 1024 個(gè) 64 位核心、最高可達(dá) 6 GHz 時(shí)鐘頻率、最多 1 GB 的 LLC、最高可達(dá) 1600W TDP、支持高達(dá) DDR5-17,600 MT/s 的速度、每個(gè)插槽最高支持 48 TB DDR5 內(nèi)存容量、最多支持 128 條 PCIe 7.0 通道。

Tachyum 介紹說，其用于 Prodigy 2nm 芯片的 64 位微架構(gòu)將支持最新的矩陣和向量擴(kuò)展，專為高性能人工智能和高性能計(jì)算應(yīng)用而設(shè)計(jì)。它采用亂序執(zhí)行架構(gòu)，每個(gè)時(shí)鐘周期可執(zhí)行 8 條指令。

他們指出，該芯片本身集成了 128 KB 指令緩存 ( I-Cache ) 、64 KB 數(shù)據(jù)緩存 ( D-Cache ) （均支持 ECC）以及 1 GB 的 L2+L3 緩存。SKU 提供 32、64、96、128、256、320、384、448、512、768 和 1024 個(gè)核心配置，TDP 則從 30W、70W、140W、150W、300W、420W、550W、645W、800W、1000W 到最高 1600W 不等。

Prodigy 2nm 芯片將支持多達(dá) 24 個(gè) DDR5 通道，速度最高可達(dá) 17,600 MT/s，每個(gè)插槽最大容量可達(dá) 48 TB。I/O 方面，將提供 128 條 PCIe 7.0 通道和總共 64 個(gè) PCIe 控制器。DDR5-17600 規(guī)格和 PCIe 7.0 在現(xiàn)有服務(wù)器市場并不常見，因此 Tachyum 今天提到的這個(gè)平臺不太可能在 2027 年之前上市，即使到 2030 年，如果他們能夠推出類似的產(chǎn)品，那也堪稱奇跡。

在此前的報(bào)道中，Tachyum 曾透露，公司的 Prodigy 處理器將采用多芯片設(shè)計(jì)，系統(tǒng)級封裝 ( SiP ) 內(nèi)的每個(gè)計(jì)算芯片都將擁有 256 個(gè)通用核心。這意味著整個(gè) SiP 將提供更多核心，從而兌現(xiàn)該公司 " 性能是目前最高性能 x86 處理器的 3 倍，是目前最高性能 HPC 通用圖形處理器 ( GPGPU ) 的 6 倍 " 的承諾。然而，這一性能承諾存在一個(gè)問題：該公司尚未最終確定 CPU 的規(guī)格，因此也尚未完成芯片流片，其實(shí)際性能仍有待觀察。

規(guī)格參數(shù)介紹完畢，我們來看看 Tachyum 公布的一些性能數(shù)據(jù)。首先，Tachyum 將其 Prodigy 2nm 芯片與 NVIDIA 的 Rubin Ultra GPU 平臺進(jìn)行了比較，后者預(yù)計(jì)將于 2027 年發(fā)布。

Tachyum 強(qiáng)調(diào)，Prodigy 通用處理器可提供數(shù)量級更高的 AI 性能，是最佳 x86 處理器的 3 倍，是速度最快的 GPGPU 的 6 倍 HPC 性能。Prodigy 無需昂貴的專用 AI 硬件，并可顯著提高服務(wù)器利用率，從而大幅降低數(shù)據(jù)中心的資本支出和運(yùn)營支出，同時(shí)提供前所未有的性能、功耗和經(jīng)濟(jì)效益。

Tachyum 表示，除了開源所有軟件外，Tachyum 還開放其內(nèi)存技術(shù)，采用標(biāo)準(zhǔn)組件，使基于 DIMM 的內(nèi)存帶寬提升 10 倍，并可供內(nèi)存或處理器公司授權(quán)使用，包括采用 JEDEC 標(biāo)準(zhǔn)，以實(shí)現(xiàn)高普及率和低成本。2023 年，Tachyum 發(fā)布了可授權(quán)的 Tachyum AI ( TAI ) 數(shù)據(jù)類型，其 Tachyum 處理單元 ( TPU ) 內(nèi)核也已開放授權(quán)。Tachyum 目前正在推進(jìn)指令集架構(gòu) ( ISA ) 的開源。

基于這些領(lǐng)先芯片，Tachyum 打造了兩個(gè)解決方案，其中 Prodigy Ultimate 集成了 1024 個(gè)高性能內(nèi)核、24 個(gè) DDR5 17.6GT/s 內(nèi)存控制器和 128 條 PCIe 7.0 通道；Prodigy Premium 配備 16 個(gè) DRAM 通道，內(nèi)核數(shù)量從 512 個(gè)到 128 個(gè)不等，可擴(kuò)展至 16 路系統(tǒng)。入門級 Prodigy 配備 8 個(gè)或 4 個(gè) DRAM 控制器，內(nèi)核數(shù)量從 128 個(gè)到 32 個(gè)不等。

如 Tachyum 所說，傳統(tǒng)的大規(guī)模人工智能解決方案可能耗資超過 8 萬億美元，需要超過 276 GW 的電力。相比之下，Tachyum 的解決方案預(yù)計(jì)僅需 780 億美元的成本和 1 GW 的電力即可實(shí)現(xiàn)類似的功能，使其能夠被多家公司和國家所采用。Tachyum 認(rèn)為，公司的 Prodigy 系列產(chǎn)品能股改多種性能和應(yīng)用領(lǐng)域，包括大型人工智能、百億億次級超級計(jì)算、高性能計(jì)算 ( HPC ) 、數(shù)字貨幣、云計(jì)算 / 超大規(guī)模計(jì)算、大數(shù)據(jù)分析和數(shù)據(jù)庫。

Tachyum 強(qiáng)調(diào)，Prodigy 的卓越功能、可擴(kuò)展性和價(jià)格定位確保了其快速的市場滲透。Tachyum 提供開箱即用的原生系統(tǒng)軟件、操作系統(tǒng)、編譯器、庫、眾多應(yīng)用程序和 AI 基礎(chǔ)設(shè)施框架。它還允許運(yùn)行未經(jīng)修改的 Intel/AMD x86 二進(jìn)制文件，并將其與原生應(yīng)用程序混合使用。這確保了客戶從第一天起就能使用 Tachyum 系統(tǒng)。

一家旨在打造通用芯片的公司

Tachyum 公司總部位于加利福尼亞州圣克拉拉，并在斯洛伐克首都布拉迪斯拉發(fā)設(shè)有研發(fā)實(shí)驗(yàn)室，其團(tuán)隊(duì)擁有眾多經(jīng)驗(yàn)豐富的工程師和高管。

其中，聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Radoslav Danilak 早在互聯(lián)網(wǎng)泡沫初期就設(shè)計(jì)了自己的超長指令字（VLIW）處理器，幾年后，他為一家名為 Gizmo Technology 的公司開發(fā)了一款 64 位處理和內(nèi)存的亂序執(zhí)行 x86 處理器，之后他曾在東芝公司擔(dān)任首席架構(gòu)師，負(fù)責(zé)東芝 7901 芯片的開發(fā)。該芯片是 MIPS R5900 Emotion Engine 處理器的變體，曾用于 PlayStation 2 游戲機(jī)，據(jù)推測也用于東芝的各種微控制器和電子產(chǎn)品中。

Danilak 還曾在 Nishan Systems 公司參與一個(gè)為期一年的項(xiàng)目，開發(fā)出一款單芯片網(wǎng)絡(luò)處理單元（NPU），將 20 個(gè)不同芯片的功能整合到一起。之后，他擔(dān)任英偉達(dá)的高級架構(gòu)師，負(fù)責(zé)設(shè)計(jì) nForce 4 GPU 和第一代 Tesla GPU 加速器 "Fermi" 的特性。

2007 年，正值 GPU 加速浪潮即將興起之際，Danilak 離開了英偉達(dá)。他創(chuàng)立了閃存存儲制造商 SandForce，并為其開發(fā)了自主研發(fā)的閃存控制器。2010 年，SandForce 以 3.77 億美元的價(jià)格出售給了 LSI Logic。此后，Danilak 聯(lián)合創(chuàng)立了全閃存陣列制造商 Skyera，該公司于 2015 年夏季被西部數(shù)據(jù)以未公開的價(jià)格收購。

之后，他四處尋找新的創(chuàng)業(yè)靈感，并在 2016 年 9 月與 Mullendore 和 Igor Shevlyakov 共同創(chuàng)立了 Tachyum 公司。

Mullendore 在互聯(lián)網(wǎng)泡沫時(shí)期及之后曾擔(dān)任 Nishan Systems 的高級架構(gòu)工程師，之后在存儲區(qū)域網(wǎng)絡(luò)交換機(jī)制造商 McData 工作，該公司最初隸屬于 EMC，后被 Brocade Communications 收購，Mullendore 在收購后繼續(xù)留任了一段時(shí)間。隨后，Mullendore 加入 SandForce 擔(dān)任首席架構(gòu)工程師，之后又跟隨 Danilak 先后加入 Skyera，現(xiàn)在則在 Tachyum 工作。

Tachyum 的另一位聯(lián)合創(chuàng)始人 Shevlyakov 于 20 世紀(jì) 90 年代初以軟件工程師的身份入行，隨后在互聯(lián)網(wǎng)泡沫初期，他曾在俄羅斯多家初創(chuàng)公司專注于編譯器開發(fā)。在 1999 年至 2001 年的巔峰時(shí)期，他擔(dān)任實(shí)時(shí)操作系統(tǒng)制造商 Wind River 的高級編譯器工程師。之后，Shevlyakov 在 MicroUnity 工作了十余年，該公司開發(fā)了一款名為 BroadMX 的 RISC/SIMD 處理器，旨在用于網(wǎng)絡(luò)處理任務(wù)。在 MicroUnity，他將 GNU 開源工具鏈移植到了該處理器上。隨后，他與 Danilak 和 Mullendore 一起加入了 Skyera 公司，在那里，他將 GNU 工具鏈移植到了該公司自主研發(fā)的用于控制閃存的芯片上，并參與了全閃存陣列中閃存轉(zhuǎn)換層的開發(fā)工作。西部數(shù)據(jù)收購 Skyera 后，Shevlyakov 繼續(xù)留在 Tachyum，與他的聯(lián)合創(chuàng)始人一起工作，并負(fù)責(zé) Tachyum 的軟件棧開發(fā)。

負(fù)責(zé)業(yè)務(wù)拓展的副總裁肯 · 瓦格納 ( Ken Wagner ) 也是聯(lián)合創(chuàng)始人之一，曾就職于多家硅芯片初創(chuàng)公司。系統(tǒng)工程副總裁基蘭 · 馬爾萬卡 ( Kiran Malwankar ) 是橫向擴(kuò)展存儲設(shè)備制造商 Pavilion Data Systems 的創(chuàng)始人。弗雷德 · 韋伯 ( Fred Weber ) 是超級計(jì)算機(jī)制造商 Encore Computer 和 Kendall Square 的聯(lián)合創(chuàng)始人，曾任 AMD 首席技術(shù)官，并參與創(chuàng)建了 64 位 Athlon 和 Opteron 架構(gòu)，他是公司的顧問。曼徹斯特大學(xué)計(jì)算機(jī)科學(xué)教授史蒂夫 · 弗伯 ( Steve Furber ) 也是顧問，他在 20 世紀(jì) 80 年代設(shè)計(jì)了首款 32 位 Acorn RISC Machines 處理器，也就是我們熟知的 Arm。分布式系統(tǒng)專家克里斯托斯 · 科茲拉基斯 ( Christos Kozyrakis ) 是斯坦福大學(xué)的教授，他經(jīng)常與谷歌合作，也是公司的顧問。

在過去近十年里，Prodigy 芯片的設(shè)計(jì)已延期多年。

一開始，該公司擁有一個(gè)內(nèi)部 System C 模擬器，可用于內(nèi)部開發(fā)和基準(zhǔn)測試。早在 2020 年的時(shí)候，該公司就說芯片將流片，將采用臺積電的 7 納米工藝制造。這種先進(jìn)的制造工藝使其能夠在 290 平方毫米的器件中集成大量組件。

如圖所示，該設(shè)計(jì)源于對連接電路模塊的導(dǎo)線的深入研究，以及 Tachyum 認(rèn)為能夠吸引超大規(guī)模數(shù)據(jù)中心、高性能計(jì)算中心以及機(jī)器學(xué)習(xí)和推理集群的組件比例的合理配置。Danilak 指出，問題在于導(dǎo)線的傳輸速度正在變慢。以下是一些常見的圖表：

" 我們在時(shí)鐘頻率附近遇到了性能瓶頸，每個(gè)核心的性能增長并不顯著，"Danilak 表示。" 核心數(shù)量在增加，但由于散熱問題，我們也在降低時(shí)鐘頻率。所有晶體管的速度都在提高，但問題在于導(dǎo)線變得越來越細(xì)，電阻越來越大，因此導(dǎo)線延遲也在增加。過去芯片的延遲是每毫米 100 皮秒，而現(xiàn)在每毫米的延遲已經(jīng)接近 1000 皮秒。"

當(dāng)然，導(dǎo)線電阻會產(chǎn)生熱量，還會導(dǎo)致延遲，因此，Danilak 認(rèn)為，訣竅在于盡可能縮短導(dǎo)線長度。這樣一來，芯片的時(shí)鐘頻率可以比以往更高，同時(shí)還能減少總計(jì)算時(shí)間（獲取數(shù)據(jù)的時(shí)間加上處理數(shù)據(jù)的時(shí)間），從而完成更多工作。關(guān)鍵在于提取芯片上運(yùn)行的工作負(fù)載中的并行性，從而消除導(dǎo)線造成的計(jì)算延遲（就像緩存層次結(jié)構(gòu)掩蓋了標(biāo)準(zhǔn)處理器中的計(jì)算延遲一樣），而這需要一些巧妙的編譯器工作——這時(shí)，Shevlyakov 擁有如此豐富的編譯器經(jīng)驗(yàn)就能發(fā)揮重要的作用。

于是，如上圖所示，他們開發(fā)了第一代芯片。關(guān)于這這個(gè)設(shè)計(jì)，Danilak 大膽宣稱：" 每個(gè)核心都比 Xeon 核心或 Epyc 核心更快，比 Arm 核心更小，總體而言，我們的芯片在高性能計(jì)算和人工智能方面比 GPU 更快。"

在當(dāng)時(shí)，該芯片的核心如下圖所示：

與其他核心設(shè)計(jì)相比，L1 緩存略小，數(shù)據(jù)緩存和指令緩存均為 16KB，但核心上的 256KB L2 緩存和同樣位于核心上的 512KB L3 緩存（兩者共同構(gòu)成一個(gè)覆蓋整個(gè)芯片的 32MB 共享 L3 緩存）則完全正常。如您所見，整數(shù)流水線有九級，向量流水線則增加了五級。

以下是 Prodigy 核心如何處理指令獲?。?/p>

以下是指令執(zhí)行流程：

這就是 Prodigy 芯片緩存層級結(jié)構(gòu)的實(shí)際運(yùn)作方式：

這就是向量和矩陣數(shù)學(xué)單元的布局和工作原理：

Tachyum 原本希望在 2019 年底推出 Prodigy 芯片的樣品，但由于種種原因推遲了多次。并最終在今天，帶來了 2nm 的版本。

這次真的要發(fā)布了嗎？

根據(jù)最初計(jì)劃以來，Prodigy 通用處理器于 2019 年完成芯片流片，2020 年上市，但此后計(jì)劃多次調(diào)整：從 2021 年推遲到 2022 年，再到 2023 年，最后又推遲到 2024 年。今年早些時(shí)候，Tachyum 再次更新了計(jì)劃，表示將于 2025 年完成芯片流片，從而推遲了原定于明年第一季度提供的參考服務(wù)器樣品。

雖然該公司官方仍計(jì)劃于 2025 年開始量產(chǎn) Prodigy 處理器，但能否在一年內(nèi)完成所有必要的里程碑（流片、調(diào)試、樣品制作、量產(chǎn)啟動）仍有待觀察。

在去年年底，Tachyum 發(fā)布了一份長達(dá) 1600 頁的指南，旨在優(yōu)化其 Prodigy 通用處理器 FPGA 硬件的性能。我們認(rèn)為為了幫助大家更好了解這顆芯片的邏輯，可以精簡一下這些內(nèi)容給大家看一下。

據(jù)介紹，Prodigy 指令集架構(gòu)（ISA）融合了 RISC 和 CISC 兩種架構(gòu)的元素；據(jù) Tachyum 公司稱，該 ISA 避免了傳統(tǒng) CISC 處理器中常見的復(fù)雜、冗長且效率低下的變長指令。所有指令均標(biāo)準(zhǔn)化為 32 位或 64 位，部分指令還集成了內(nèi)存訪問功能以進(jìn)一步提升性能。

Tachuym 的 Prodigy FPGA 內(nèi)置性能計(jì)數(shù)器，可對運(yùn)行時(shí)事件進(jìn)行實(shí)時(shí)監(jiān)控和分析。該公司表示，這些工具能夠幫助程序員和工程師識別性能瓶頸并優(yōu)化代碼，從而提高效率，使該處理器成為高要求計(jì)算任務(wù)的理想之選。

本手冊提供了具體的優(yōu)化技巧，包括管理調(diào)度限制、改進(jìn)內(nèi)存例程、對齊分支和指令以及緩解寄存器轉(zhuǎn)發(fā)難題。此外，它還提供了處理緩存操作、加載 / 存儲對齊和訪問特殊寄存器的指導(dǎo)，確保開發(fā)人員能夠?qū)浖M(jìn)行微調(diào)，從而達(dá)到最佳性能。

Tachyum 創(chuàng)始人兼首席執(zhí)行官 Radoslav Danilak 博士表示：" 軟件程序員、測試工程師、編譯器開發(fā)人員以及系統(tǒng)和解決方案工程師將會非常珍惜這次深入了解 Prodigy 如何為高效處理 AI、云計(jì)算和高性能計(jì)算工作負(fù)載提供固有性能優(yōu)勢的機(jī)會。Prodigy 的集成功能將幫助用戶實(shí)現(xiàn)業(yè)界領(lǐng)先的計(jì)算效率，從而更快地獲得洞察、更快地開展研究、更快地生成結(jié)果。"

對啦，今年十月，Tachyum 透露，一家歐洲投資者將在一個(gè)月內(nèi)向 Tachyum 的賬戶匯出 2.2 億美元的投資款項(xiàng)。此舉將助力 Tachyum 成為人工智能數(shù)據(jù)中心市場領(lǐng)先的賦能者之一。此外，該 C 輪投資者還簽署了一份價(jià)值 5 億美元的 Prodigy 芯片采購訂單。Prodigy 芯片將使人工智能性能提升一個(gè)數(shù)量級，并將超大型 LLM/AI 模型的成本降低約兩個(gè)數(shù)量級。

上一篇 : 中國市場一夜“歸零”？英偉達(dá)黃仁勛發(fā)出警告，國產(chǎn)芯片廠商迎來下一篇 : 教你怎么造芯片?

隨便看看

02 2022-08

繼西部數(shù)據(jù)調(diào)漲后，美光現(xiàn)貨價(jià)暴漲25%以上近日，儲存型快閃存儲器（NAND Flash）大廠西部數(shù)據(jù)、鎧俠位于日本的兩座工廠因原料污染導(dǎo)致工廠停工，西部數(shù)據(jù)宣布立...
23 2025-05

面對“打壓”和“封鎖” 中國芯片如何破局美國商務(wù)部發(fā)布公告，企圖在全球禁用中國先進(jìn)計(jì)算芯片。5月21日，中國商務(wù)部發(fā)聲表態(tài)。美方濫用出口管制措施的背后，為的是什...
15 2022-07

驅(qū)動IC跌幅預(yù)計(jì)擴(kuò)大至8%-10%，汽車芯片供過于求據(jù)集邦科技針對驅(qū)動IC市場的最新報(bào)告指出，自2022年起終端需求疲弱，導(dǎo)致終端庫存壓力持續(xù)提升，使面板廠在第三季對驅(qū)動I...
04 2023-11

我國科學(xué)家研制出首個(gè)全模擬光電智能計(jì)算芯片經(jīng)長期聯(lián)合攻關(guān)，清華大學(xué)研究團(tuán)隊(duì)突破傳統(tǒng)芯片的物理瓶頸，創(chuàng)造性提出光電融合的全新計(jì)算框架，并研制出國際首個(gè)全模擬光電智能...

国产三级精品久久久久久_国产在线视频_97无码在线视频_夜夜福利_成人小说18+在线观看_www.色色五月天_AV.com黄_超碰一本道_免費色色_日日干夜夜肏屄

一顆2nm芯片發(fā)布，吊打英偉達(dá)

桂林珩源科技有限公司

關(guān)于我們

新聞動態(tài)

產(chǎn)品選型

產(chǎn)品展示

国产三级精品久久久久久_国产在线视频_97无码在线视频_夜夜福利_成人小说18+在线观看_www.色色五月天_AV.com黄_超碰一本道_免費色色_日日干夜夜肏屄

一顆2nm芯片發(fā)布，吊打英偉達(dá)

桂林珩源科技有限公司

關(guān)于我們

新聞動態(tài)

產(chǎn)品選型

產(chǎn)品展示

一顆2nm芯片發(fā)布，吊打英偉達(dá)