
芝能智芯出品
微软发布面向 Azure 的 Arm 架构处理器 Cobalt 200,从架构设计、能耗控制到安全体系都进行了系统化优化。
相较上一代 Cobalt 100,其性能提升达到 50%,核心数量扩展至 132 个,并首次在服务器级 Arm 处理器中以 per-core DVFS、定制硬件加速器、机密计算架构与 3nm 工艺实现同时突破。
对数据中心工程师而言,云中心在高性能与低功耗之间重新寻找平衡点的趋势。
Cobalt 200 的架构是完全基于 Azure 内部的大规模真实工作负载数据进行建模,包括 Web 服务、数据分析、网络密集型应用以及大量依赖压缩与加密的系统组件,整体上呈现“单线程性能要求适中、并发度极高、存储访问频繁”的特点。
为了适配这种特性,微软以 Arm Neoverse V3 CSS 为基础构建新一代计算单元,并通过双芯片封装实现 132 物理核心的整体布局。

从核心级设计看,每个核心配置 3MB L2 缓存,而整个处理器提供 192MB L3 缓存,高并发场景下的跨核访问和频繁上下文切换过程得到了有效缓冲。
两颗芯片之间通过高带宽互连连接,确保核心之间的远程访问延迟维持在可控范围内。
与传统双路服务器依赖主板互连不同,Cobalt 200 在封装内提供 SoC 层级的点对点带宽,能在高线程密度下保持吞吐稳定性。
为了进一步提升能耗表现,微软在 Cobalt 200 中引入 per-core DVFS 技术,核心可独立调整电压和频率,使得在多租户环境下,CPU 能根据容器或虚拟机的实际利用率进行细粒度调节。
对于低优先级、处理压力较弱或处于间歇性任务状态的核心,频率降低后带来的能耗下降非常直接;而对于大规模分析或压缩任务,系统可以按需在特定核心上提升频率。
在 132 核的密集架构下,单核 1~2W 的节能倍增效果,对整机能耗优化尤为显著。
这颗芯片的 3nm 工艺同样是降低功耗,制程缩小不仅带来漏电下降,有可能在更小的能耗预算内布置更多核心与加速模块。结合双芯片封装结构,热设计功耗会以提升并行性能而非提升单核峰值为目标。
硬件加速器是 Cobalt 200 一个特点,其中包含专门的压缩、解压缩及加密模块。
这些加速器经过针对 Azure 内部负载的定制优化,在多达三成的工作场景中可直接替代 CPU 的热点计算路径,能在特定任务上提供高达数倍的加速,也能减少核心在高吞吐密集型任务上产生的功耗和热负载,让 CPU 的调度表面更加干净。
其效果类似于英特尔 Xeon 中的 QAT 或 DSA,但针对云端任务进行了更深度的指令与数据路径定制。

Cobalt 200 对安全系统,定制内存控制器默认启用内存加密功能,但不同于传统软件方案,微软采用基于 Arm 架构的机密计算框架,使得虚拟机内部的内存可以实现对宿主操作系统与 hypervisor 的完全屏蔽。
对 Azure 多租户模式极为关键,减少了平台侧操作系统乃至管理员层级访问客户数据的可能性,降低数据泄露的结构性风险。
内存加密功能在通常情况下会带来带宽下降或额外访问延迟,而微软宣称其设计在性能影响上进行了优化。结合 V3 架构的特点,可以推测微软在内存控制器内部增加了延迟补偿、写入优化或对齐指令路径,确保加密不会成为整体系统瓶颈。
在安全体系的第二层,Cobalt 200 深度整合 Azure HSM,用硬件模块确保密钥在生成、存储、派发、轮换过程中始终处于受保护状态。密钥保管库(Key Vault)在系统中作为横向服务存在,其职责是处理加密密钥的可用性和弹性扩展。
在此结构下,密钥不必在操作系统级进行管理,极大提升合规性,也让数据中心在满足各类行业安全规范时更加简化。
硬件卸载仍然是系统级性能优化的重点。Azure Boost 技术将网络栈处理、远程存储访问等需要高带宽低延迟的任务,从 CPU 主路径迁移到专用的网络和存储加速硬件中。
这样一来,Cobalt 200 的核心资源可以更多投入到用户容器和虚拟机中,而非承担系统性背景任务。
加上上文无人机电子系统架构与芯片设计要点提到的加密与压缩单元,整个系统在卸载方面形成完整的多层结构,确保 CPU 资源更纯粹地聚焦于“可计费计算”。
小结
微软 Cobalt 200 的发布,也是微软自研服务器 CPU 路线上的努力, 3nm 工艺与 132 核架构,到 per-core DVFS 与专用加速模块,再到内存加密、HSM、Boost 的系统集成,追求规模化性能密度,强调能耗可控性和整体吞吐。