DeepSeek总结的面向多层电子系统的时间缩放理论

l1t

825人浏览 · 2026-05-25 15:18:48

l1t · 2026-05-25 15:18:48 发布

来源：https://chinaxiv.org/abs/202605.00224

**面向多层电子系统的时间缩放理论**

何庭波
华为

**摘要**
六十年来，摩尔几何缩放推动了半导体领域的进步。但这一行业契约已不再成立：纯粹尺寸缩小带来的回报已经趋于平缓，前沿芯片的设计预算超过每片十亿美元，且在最先进节点上，每晶体管成本不再下降。本文提出一种替代性的缩放原理——τ缩放——它将时间本身，而非晶体管面积，作为进步的主要度量标准，并应用一个单一的特征时间常数τ作为跨十二个数量级（从开关晶体管到数据中心工作负载）的统一优化目标。本文展示了两个生产规模的验证案例。在一款移动系统级芯片（SoC）上，LogicFolding——一种将数字、模拟和存储电路划分到垂直堆叠有源层的方法——在固定器件节点上实现了晶体管密度55%的阶跃式提升和能效41%的提升。在AI系统上，一套协同设计的堆栈，包含存算语义的统一总线架构、近封装光I/O Hi-ONE以及边缘到表面的3D Folding技术，预计到2035年将实现超过100倍的硬件集成度增长。更深层次的论点是方法论的：τ缩放是继Dennard缩放之后，首个为整个计算堆栈建立共享优化目标的缩放原理。

**核心观点**

自20世纪60年代中期以来，半导体行业一直以纳米为单位衡量进步。每十八个月，晶体管缩小，频率上升，每逻辑门成本下降。摩尔定律既作为经验观察，也帮助建立了整个计算堆栈所依赖的行业契约。这一行业契约已不再成立。在7纳米节点之后，几何缩放不再带来其历史性的收益。光刻工具正接近图案化的物理极限，极紫外（EUV）光刻的折旧主导了晶圆成本，每晶体管价格曲线已经趋平——在某些情况下甚至出现逆转。对于那些获取最先进光刻技术受到限制的组织来说，这一约束来得更早且更为严峻。

因此，行业的核心问题已经改变。它不再是“晶体管还能缩小多少？”，而是“应该缩放什么，针对什么目标？”

在过去的六年里，作者在华为半导体的团队已在硅片上，跨移动SoC、AI加速器、系统互联架构和封装等领域研究了这个问题。结论是，答案不在于另一个节点，也不在于另一种晶体管架构，而在于改变主要的优化目标本身。本文认为，下一个十年电子系统演进应当由时间缩放来引导，而非几何缩放——即在从皮秒级开关的晶体管到秒级响应的数据中心工作负载的堆栈每一层，系统性地减少单一特征时间常数τ。

下文将从科学方法论和产业路线图两个角度阐述τ缩放的依据，并借鉴2020年5月至2026年5月期间381款投入量产的芯片的经验教训。

**1. 几何时代的终结**

在其历史的大部分时间里，半导体行业只有一个任务：让晶体管变得更小。戈登·摩尔1965年的观察——晶体管密度大约每两年翻一番——在十年后由罗伯特·登纳德（Robert Dennard）的缩放理论加以补充，该理论确立了按比例缩小电压和尺寸可以维持恒定电场。几何缩放和Dennard缩放共同在近五十年里带来了每瓦性能与每美元性能的指数级提升。

这种安排在两个阶段瓦解。大约在2005年，Dennard缩放首先失效：电压不再随特征尺寸按比例缩小，暗硅时代开始了。几何缩放持续更久，由FinFET及随后的全环绕栅极（GAA）器件架构支撑。然而，在7纳米之后，纯尺寸缩放的回报已经趋于平缓。原因现已充分证明：速度饱和将本征延迟对沟道长度的依赖从二次关系降为线性关系；局部互连的寄生电阻和电容日益主导标准单元延迟预算；光罩成本、EUV折旧以及设计规则复杂性已将前沿芯片设计预算推至2纳米节点每片芯片超过十亿美元。

经济后果同样不可避免。在先进节点上，每晶体管成本已趋于平缓，而在最前沿，目前正在上升。支撑了过去五十年的行业契约——每一代以更低成本获得更多晶体管——已不再成立。

对于华为半导体而言，这一转变伴随着一个额外的约束：获取最先进光刻工具受到限制。假设另一个节点能解决问题已不再可行。六年前，几何路线图趋于平缓，迫使我们面对一个更为根本性的问题——回顾来看，整个行业最终都将不得不面对这个问题。

**2. 时间，而非空间：摩尔时代的真正货币**

归结到对最终用户的基本影响，摩尔定律从来就与几何无关。更小的晶体管提升了系统性能，因为开关速度更快。更密集的互连提升了性能，因为信号传输距离更短。更高的集成度提升了性能，因为数据跨越的边界更少。每一代交付的本质上是时间的减少——在器件层面从皮秒到纳秒，在芯片层面从纳秒到微秒，在系统层面从微秒到秒。空间缩放仅仅是为压缩时间服务的手段。

一旦认识到这一点，一个显而易见的重新架构便呈现出来。时间本身应被采纳为主要度量标准。可以在堆栈的每一层——晶体管、电路、芯片和系统——定义一个特征时间常数τ，并将其减少视为统一的优化目标。几何缩放随后成为减少τ的众多技术之一，而非唯一技术。

这一原理被称为τ缩放，本文提议将其作为几何摩尔缩放的继承者，作为半导体演进的指导原则。形式上，τ被视为一个分层构造，分解为：
τ = f(τ_transistor, τ_circuit, τ_chip, τ_system)
其中τ_transistor、τ_circuit、τ_chip和τ_system分别代表晶体管、电路、芯片和系统层的时间常数。每一层的τ由下层τ以及该层引入的组织和通信开销共同构成。τ的工作空间跨越大约十二个数量级的时间（皮秒到秒）和相当范围的空间（纳米到公里）。在每一层，都有不同的机制可用于减少τ：

* **晶体管：** 本征开关延迟，通过迁移率增强、应变工程、高k金属栅极和GAA架构解决，并日益通过减少局部互连的寄生R和C来解决，后者目前已超过本征传输时间数倍。
* **电路：** 沿信号路径的RC传播延迟，通过更低电阻率的导体、低k电介质，以及——最重要的——通过垂直集成减少线长来解决。
* **芯片：** 计算和存储访问延迟，通过架构选择、流水线深度、存储层次和片上互联架构解决。
* **系统：** 端到端消息和同步时间，通过互连拓扑、协议栈和互联架构设计解决。

从这种分层表述中，出现了一个有用的代际规则：
τ_{n+1} = τ_n / α
其中缩放因子α是特定于应用的，而非通用的。迄今为止的生产经验表明，对于功耗受限的移动设备，α ≈ 每年1.3倍；对于安全关键型自动驾驶系统，约为每年1.5倍；对于AI工作负载，可达每年10倍，其中吞吐量直接转化为经济价值。

使τ成为有用的主要度量标准（而非对现有标准的重新标记）的原因是，它是整个堆栈中相同的度量标准。频率、延迟、带宽和吞吐量都在其各自层面受τ支配。一个工艺技术专家、一个电路设计人员和一个系统架构师可以用相同的单位来讨论同一个量。τ是实现端到端堆栈协同优化的语言——而每个层面独立优化、时序成为残留物的时代已经结束。

**3. LogicFolding：一个移动SoC的验证点**

τ缩放的首次生产规模测试是在移动领域进行的。智能手机SoC是一种特殊情况，其中单个芯片构成了整个系统。多插槽并行不可用；没有千节点互联可以掩盖慢速链路。传递给用户的所有性能都源自单个芯片，在几瓦的功耗预算内，受到手持设备外形尺寸设定的热限制。

2020年以后，当获取前沿节点的途径受到限制时，关键问题变成了：在节点固定的情况下，如何继续在单个芯片上实现代际性能提升？

出现的答案叫做LogicFolding。

**定义。** LogicFolding是一种设计方法，它将数字、模拟和存储电路划分到垂直堆叠的有源层上，遵循时间缩放原理，共同优化性能、功耗和面积。

数字电路分为组合逻辑（寄存器之间的布尔网络）和时序逻辑（保存状态的触发器）。数字系统的性能上限由相邻触发器级之间的关键路径延迟决定，而该延迟又主要由沿该路径的互连RC和门数决定。传统优化将门放置在一个平面内，并通过其上方的金属堆栈布线；导线越长，寄生RC越大，关键路径就越慢。

LogicFolding抛弃了平面假设。关键路径门分布在两个（并最终更多）垂直堆叠的有源层上，通过超细间距混合键合连接。从电路设计人员的角度来看，这两层表现为一个单一的连续结构，单元跨越晶圆边界分布，就好像它是一个额外的金属层一样。信号线显著缩短，寄生RC急剧下降，时钟偏移收紧，芯片在相同器件节点上以更高的时钟频率运行。

为了帮助LogicFolding实现这些增益，保持混合键合间距与顶层金属间距之间的传动比相对较低是有利的——在实践中通常低于3，较低的传动比通常更好。以当今约720纳米的顶层金属间距计算，这意味着混合键合间距需低于2微米——理想情况下传动比约为1，此时键合界面处的鸟笼布线开销实际上消失。实现这一间距，以及所需的对准精度（<0.5微米）、硅通孔（TSV）缩放（临界尺寸和保持环区<1.5微米，间距<6微米）和良率（通过智能冗余接近100%），需要在供应商和合作伙伴生态系统内进行多年的工艺开发努力。

在麒麟2026上测得的结果是具体的：

* 晶体管密度在一代之内从155 MTr/mm²阶跃式提升至238 MTr/mm²（晶体管密度计算公式为(栅极数量*芯片高度)/面积；麒麟SoC设计的面积利用率为68%）——这种幅度此前需要三年的几何缩放。
* SoC性能核能效提升了41%，最高时钟频率提高了近13%。
* 一条跨上下两层构建的高速全局片上网络数据路径将数据路径面积减少了55%，同时改善了电源传输稳定性。
* 一个硅后时钟偏移调整方案独立贡献了超过5%的SoC性能提升。
* 在SRAM上——其访问速度、每比特能耗和面积高度依赖于位线和字线长度——LogicFolding缩短了关键路径，降低了每比特能量，并将工作频率提高了40%以上。
* 在一个代表性处理核心上，双层折叠架构将时钟缓冲器数量减少了50%以上，时钟偏移减少了25%，线长减少了约30%。

这些增益是在固定器件节点上实现的，并非通过新的光刻步骤获得，而是通过逻辑空间分布在三维空间中的拓扑重组实现的。

麒麟2026中量产的LogicFolding实现是相对保守的。混合键合间距达到1.5微米；TSV仅比顶层金属先进一步；折叠仅在关键路径上选择性应用，而非在整个设计中应用。即便如此，今年CPU性能核的频率仍恢复到3.1 GHz。

未来十年，预计LogicFolding将从局部关键路径折叠演进到全面、多层折叠——每个封装内三个、四个甚至更多的有源层——由低温混合键合（放宽跨层热预算）以及TSV从顶层金属下移至M6层（这将释放超过30%的高层布线资源）所推动。从2026年到2035年，预计晶体管密度将升至400 MTr/mm²及以上。同时，LogicFolding使麒麟能够大幅提升CPU核心频率，并为达到4 GHz及以上铺平道路（见表1）。该路线图是可行的，并且在成本方面经济可行。

**表1. 麒麟CPU性能核工作频率趋势**

| | 2023 | 2024 | 2025 | 2026 | 2027 | 2028 | 2029 |
|--------|------------|-------------|----------------|-------------|-------------|-------------|-------------|
| SoC | 麒麟9000s | 麒麟9020 | 麒麟9030 Pro | 麒麟 2026 | 麒麟 2027 | 麒麟 2028 | 麒麟 2029 |
| 架构 | 平面 | 平面 | 平面 | LogicFolding | LogicFolding | LogicFolding | LogicFolding |
| 频率(GHz) | 2.6 | 2.65 | 2.75 | 3.1 | 3.39 | 3.71 | 4 |
| 状态 | 量产 | 量产 | 量产 | 硅验证 | 硅验证 | 预研 | 预研 |

**侧边栏 A — LogicFolding 概览**

* **混合键合间距：** 低于2微米（麒麟2026为1.5微米；目标传动比 ≈ 1）
* **对准精度：** 低于0.5微米
* **TSV 临界尺寸/保持环区：** 低于1.5微米；间距低于6微米；失效率 <100 ppm；修复率 99.9%
* **良率：** 通过智能冗余接近100%
* **晶体管密度：** 155 → 238 MTr/mm²（单步）
* **能效/频率增益（SoC性能核）：** +41% / +13%
* **SRAM工作频率：** +40%+
* **代表性核心上的时钟缓冲器数量/时钟偏移/线长：** -50% / -25% / -30%

**4. 从皮秒到微秒：AI数据中心的τ缩放**

一个自然的问题是，在毫瓦级智能手机领域发展的原理是否能在AI训练和推理的吉瓦级领域生存。AI工作负载占据τ谱的另一端：不是单芯片，而是成百上千个芯片表现得像一台机器，过去十年聚合计算能力增加了大约六个数量级。

答案是肯定的——前提是τ被视为一个系统级目标，并应用于整个链条，而不仅仅是单个加速器内。

塑造τ论证中AI方面的有两个事实。首先，AI系统持续增长——从一个芯片到几十个，再到几百个，并日益增加到数万个。其次，现代AI系统的能耗预算和物料预算由数据主导，而非计算。在大型AI集群中，超过80%的能量消耗于数据移动；超过70%的系统成本分配给数据存储。这意味着直接的结果是：减少数据在传输中花费的时间——在芯片之间、机架之间以及封装内部——至少与减少计算花费的时间同等重要。

τ缩放在AI规模上通过三个协同层实现：系统互联架构（统一总线）、近封装光引擎（Hi-ONE）以及封装本身的拓扑重组（3D Folding）。

**4.1 统一总线 — 一种τ优先的系统互联架构**

传统的多节点、多加速器架构通过多个堆叠的协议移动数据：连接到主机使用PCIe，机箱内部使用NVLink或专有互联，机箱之间使用以太网或InfiniBand，并在其上运行软件栈的远程内存访问。每一层都会带来协议转换、额外的串行化、一个额外的DMA缓冲区以及一次进一步的握手。每次转换都会增加延迟、降低可靠性并增加额外成本。

统一总线（UB）用一个单一的协议取代了这个堆栈，该协议在机箱内部和跨机箱运行——一个完全点对点的互联架构，在整个系统上原生暴露内存语义。数据移动被减少为在内存语义层上进行无转换的点对点传输，并由硬件管理的一致性取代软件栈的消息传递。

实测收益约为两个数量级：端到端远程访问延迟从典型TCP/IP类堆栈的数十微秒下降到约100纳秒——在主要通信轴上实现了约500倍的系统τ缩减。在机架规模上，这使得系统渐近地接近一个单一的、互联架构一致的机器——内部称之为"系统即单芯片"。

**4.2 Hi-ONE — 封装上的光I/O**

一旦通信延迟降低，下一个瓶颈就会出现。增加单个机架内芯片的密度会将功耗密度和可靠性推过其极限——同时也会将电气SerDes推过其极限。在每AI芯片400 Gb/s速率下，铜缆仍然易于理解且可靠。在每芯片多Tb/s速率下，铜缆在物理上变得不切实际：SerDes传输距离缩短，线缆变得过于笨重，面板安装变得不可行，热和电源传输余量耗尽。

华为半导体开发的方法是高密度光互连节点引擎Hi-ONE——一个近封装光引擎，每个模块提供8 Tb/s的带宽，与AI芯片在单条光链路上的UB带宽相匹配。它将所需的SerDes传输距离从约100厘米减少到约5厘米，消除了笨重的线缆，并将传输距离从不足1米扩展到100米——使得分布式、吉瓦级数据中心的高密度互连在物理上成为可能。

Hi-ONE的设计理念本身就是一个τ缩放论证。Hi-ONE没有采用重型DSP来追求高信号保真度，而是采用线性方法——一个模拟均衡增强型驱动器和跨阻放大器——并允许UB协议容忍故意放宽的误码率。这种协议层和物理层之间的跨层权衡降低了功耗、成本和集成复杂性，并体现了τ优先方法论所奖励的跨层权衡。

**4.3 N²与N的困境，以及为何3D Folding不可避免**

AI加速器不会止步于2.5D扇出的最深层原因是几何学上的，并且值得明确阐述，因为它决定了2030年后的路线图。

在传统的2.5D AI芯片中，逻辑芯片位于封装中心，HBM堆栈和SerDes排列在其边缘，电压调节器环绕封装。每个内存信号、每个互连信号以及每安培的供电电流都必须穿越芯片边缘才能到达内部的计算资源。如果芯片边长为N，则：

* 计算能力与N²（面积）成正比，
* 但内存带宽、互连和电源传输——所有这些都由2.5D扇出沿着边缘承载——仅与N（周长）成正比。

这些二次曲线和线性曲线之间日益扩大的差距构成了扇出困境，并且它解释了2.5D缩放的停滞，无论底层逻辑节点变得多么激进。没有晶体管级的改进能够弥补拓扑上的缺陷。

3D Folding通过将边缘绑定的资源重新定位到表面上来解决这一困境。电源传输（通过背面供电和集成电压调节器）、高速内存（通过与逻辑的混合键合）和光I/O（通过近封装Hi-ONE）都从周边迁移到垂直表面——并且一旦位于表面上，它们按N²缩放，与计算的二次速率相匹配。封装不再是一个被内存和SerDes周边带包围的逻辑芯片；它成为一个垂直集成的堆栈，其中内存、互联架构、电源和逻辑都一起缩放。

路线图将此演进置于明确的时间线上。大约到2030年，AI加速器（昇腾SuperPoD系列——2025年的昇腾910C，2026年的昇腾950，以及后续的990）依赖于成熟技术的组合：芯粒、2.5D扇出以及通过微凸点和标准间距混合键合实现的3D堆叠。大约在2030年，昇腾990将把LogicFolding引入AI加速器类别，从那时起，3D Folding将成为α到2035年的主要载体。沿着这条路径，预计到2035年，硬件集成度将增加超过100倍，τ的减少分布在堆栈的每一层，而非集中在器件层面。

**侧边栏 B — AI系统规模的τ**

* **UB远程访问延迟：** 数十微秒 → 约100纳秒（约500倍τ减少）
* **HiONE 每模块带宽：** 8 Tb/s（匹配每芯片UB带宽）
* **HiONE SerDes 传输距离：** 约100厘米 → 约5厘米；面板到面板传输距离：<1米 → 100米
* **扇出困境：** 计算能力 ∝ N²，受限于周长的带宽/I/O/电源 ∝ N
* **3D Folding：** 将带宽、光I/O和电源传输从边缘转移到表面，恢复N²的匹配
* **2026 → 2035 预计硬件集成度增长：** >100倍

**5. 逻辑与内存：从解耦到再融合**

τ缩放的一个含义值得单独讨论，因为其后果既是工业性的也是技术性的。

在8086时代，行业有意通过标准化的内存总线将处理器和内存解耦。这种解耦允许两个行业独立发展：处理器性能沿着摩尔曲线快速进步，而内存供应商则在其旁边发展出一个庞大的独立市场。

AI时代正在逆转这种解耦。计算密度的持续增长正在将内存带宽、延迟、功耗和封装推向其极限。HBM、混合键合和3D堆叠SRAM都指向一个单一的基本事实：对于现代AI工作负载，数据移动与计算本身同样关键，逻辑和内存再次被推向紧密的物理集成。随着它们融合，供应链中的影响力平衡正转向内存和封装供应商。

技术方向是明确的，但经济上的解决方案尚未确定。AI硬件时代的持久成功将属于那些能够在技术上融合逻辑和内存，并建立一种经济伙伴关系，使两个行业都能长期共享这种融合带来的利益的公司。这不仅仅是一个研究问题；这是行业在未来十年需要解决的一个结构性问题。通过揭示每次分离的跨层成本，τ缩放确保这个问题无法被推迟。

**6. 开放挑战**

将τ缩放描述为一个已完成的系统会具有误导性。几个实质性问题仍然存在，在此指出既是为了突出正在进行的工作，也是为了邀请合作。

**工具链和方法论。** 今天的EDA是为一个时代开发的，在那个时代，面积、时序和功耗沿着三个独立的轴线进行优化，系统τ作为残留物出现。全面规模的LogicFolding要求工具链将多个堆叠芯片视为一个单一连续的设计实体——以单元粒度而非模块粒度进行分区，在整个三维空间内根据统一的成本函数进行布局，并在垂直互连寄生参数、保持环区排除以及跨晶圆工艺变异相互作用（传统2D训练工具无法充分处理）的情况下，实现跨芯片路径的时序收敛。我们已经开发出能产生有用结果的初步内部工具，方法论细节将在未来几个月内公布。一个τ原生的工具链——开放的、多物理场的、3D原生的——是未来十年最重要的赋能投资。

**晶圆间工艺变异。** LogicFolding键合可能来自不同批次——在某些情况下是不同节点——的晶圆。跨晶圆在阈值电压、驱动电流和互连RC方面的变异显著大于晶圆内变异，并且对时钟分布和保持时间余量的影响最为严重。智能冗余、自适应补偿和τ感知的签核流程是响应的必要组成部分。

**垂直互连开销。** 每个混合键合和每个TSV都会带来有限的电阻和电容惩罚，并且TSV的保持环区会挤占标准单元。因此，LogicFolding必须逐层通过简单的不等式来证明其合理性：
τ_收益（因线长缩短而节省的延迟） > τ_惩罚（因垂直互连RC导致的延迟）
对于移动关键路径和存储器，这个阈值已被跨越；该阈值是特定于工作负载的，并且边界将随着键合间距的缩小而移动。

**能量。** τ是时间定律，而非焦耳定律。一个运行速度快10倍但功耗也大10倍的超级节点不违反任何缩放原理，但会超出电网容量。因此，τ缩放需要一个能量伴侣：消除堆栈开销的内存语义互联架构、将每比特皮焦耳能量降低数个数量级的近封装/共封装光学、背面供电、存内/近存计算，以及将τ余量换回功耗的严谨实践（数据中心规模的DVFS——与实现智能手机电池寿命的机制相同）。重要的是，τ余量本身在按该方向分配时提供了能量余量。

**基准测试。** 行业当前的性能基准测试——Linpack、MLPerf、SPEC——是为每个工作负载只需单个标量值的时代设计的。一个τ缩放的行业需要τ剖面基准测试——向量，它们能揭示系统每一层的主导τ以及该层剩余的余量。主导τ的层，根据定义，就是下一个投资所在。

**7. 六年实践，十年展望**

在2020年5月至2026年5月期间，华为半导体设计并将381款芯片投入量产，服务于移动、AI、汽车、工业和基础设施市场。在该产品组合中，τ缩放的论点经受了考验：

* 在器件和电路层面，到2031年，晶体管密度已从155 MTr/mm²向超过400 MTr/mm²提升。
* 在芯片层面，LogicFolding已在一款前沿移动SoC上证明，关键路径频率、能效和密度可以在固定器件节点上持续进步。
* 在系统层面，统一总线（UB）和Hi-ONE已证明，数百微秒的通信τ可以被压缩到数百纳秒，并且一个多机架AI集群可以表现为一台单一的一致性机器。
* 展望未来，预计到2029年CPU性能核频率将达到4 GHz及以上，在典型使用下，麒麟SoC能效有望在三到五年内提高一倍以上，并且预计到2035年AI硬件集成度将增长超过100倍。

更深层次的论点，超越任何单个产品，是方法论的。τ缩放是继Dennard缩放之后，首个为整个堆栈提供共享优化目标的缩放原理。它向工艺技术专家、电路设计人员、架构师、系统工程师和软件团队表明，这些社区现在正在以相同的单位优化同一个量，并且任何单层的改进都必须传递到系统τ才算有效。它同时也向行业战略家和资本配置者表明，下一个美元应该跟随τ，而非节点——竞争性能不再需要永远停留在光刻技术的最前沿，并且封装、内存带宽和互联架构设计现在占据了过去仅由前沿逻辑节点持有的战略权重。

对于一代接受过"摩尔定律"与"进步"同义教育的工程师来说，这是一个艰难的转变。几何时代确实已经结束；否认这一事实并非可行策略。通过微型化加速的时代正让位于通过跨多层电子系统进行τ优化来实现加速的时代——而那些在未来六到十年内将τ作为首要目标的企业、研究机构和生态系统，将决定此后十年计算的模样。

未来十年的工作范围已定。许多开放性问题仍然存在，没有任何单一组织可以独自解决它们——工具链、标准、基准测试、器件物理学和经济模型都需要来自任何单一公司之外的贡献。因此，本文既是一份来自实践领域的报告，也是一份邀请。

前方的路线图要求很高，但方向是明确的。

**作者**

何庭波领导华为的半导体业务。她所领导的团队在2020年至2026年间设计并量产了381款芯片，涵盖移动、AI、汽车和基础设施市场，并且是本文所述τ缩放方法论、LogicFolding、统一总线（UnifiedBus）和Hi-ONE技术的源头。

**致谢**

本文借鉴了华为半导体及其代工厂、设备、EDA和系统合作伙伴生态系统中成千上万名工程师六年的工作成果。作者感谢使这项工作成为可能的客户们的耐心。

**进一步阅读**

1. G. E. Moore, "Cramming more components onto integrated circuits," Electronics, vol. 38, no. 8, pp. 114–117, Apr. 1965 (reprinted in Proc. IEEE, vol. 86, no. 1, Jan. 1998).
2. R. H. Dennard et al., "Design of ion-implanted MOSFETs with very small physical dimensions," IEEE J. Solid-State Circuits, vol. 9, no. 5, pp. 256–268, 1974.
3. J. L. Hennessy and D. A. Patterson, "A new golden age for computer architecture," Commun. ACM, vol. 62, no. 2, pp. 48–60, Feb. 2019.
4. M. Horowitz, "Computing's energy problem (and what we can do about it)," ISSCC Dig. Tech. Papers, pp. 10–14, Feb. 2014.
5. International Roadmap for Devices and Systems (IRDS) — Interconnect and More-than-Moore chapters, 2023/2024 update.
6. P. Batude et al., "3D sequential integration: a key enabling technology for heterogeneous co-integration of new functions with CMOS," IEEE J. Electron Devices Soc., vol. 3, no. 3, pp. 205–216, 2015.

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

爆改增强 Codex App，API 用户不再尴尬

用 API 跑 Codex 的人，最烦的往往不是模型不够强，而是桌面体验少一块。官方账号的插件、Goal、Computer Use 是完整的，你走 API 或第三方模型，胜在自由，但很多体验不一定都有。Codex++ 火起来，就是因为它盯上了这个缝。先别误会，因为 Codex App 本来就有官方插件、集成和 MCP。Codex++ 这个项目不是 OpenAI 官方功能，也不是官方插件商店。它是玩

AI编程社区

2026 年 GPT Plus 充值怎么选？几种订阅方式和避坑建议

2026年ChatGPT Plus充值建议：优先考虑稳定与安全。官方订阅20美元/月（不含API费用），适合有海外支付能力的用户；手机端用户可通过应用商店订阅；支付困难者可选择靠谱第三方渠道，需关注开通方式、续费及售后保障。警惕低价陷阱、共享账号和"永久会员"噱头，区分Plus订阅与API计费。团队用户建议评估高阶方案。核心原则是长期使用的稳定性优于短期低价，根据自身需求选择合