苹果M1芯片深度测试_机能_内核

文章目录 [+]

上周，苹果公司发布了基于他们新Apple Silicon M1 SoC芯片打造新Mac产品，这个新闻在行业内引起了轰动，由于这标志着苹果正式开启了从Intel的x86 CPU过渡到该公司自己基于Arm架构设计的内部产品的两年操持第一步。

在发布会期间，我们根据该公司已经发布的Apple A14芯片（在新一代iPhone 12手机中利用）撰写了一篇详尽的文章，当中包括对Apple的新Firestorm内核的微体系构造的深入研究，这些内核同时为A14和新的Apple Silicon M1供应动力，如果您还没有机会看的话，我建议您阅读《深度解读苹果M1芯片》。

苹果M1芯片深度测试_机能_内核苹果M1芯片深度测试_机能_内核通讯

几天以来，我们已经能够打仗到首批Apple Silicon M1设备之一：全新的Mac mini 2020版本。
在上周的剖析文章中，我们基于A14得出了数字，而这次，我们根据实际的新高功率设计丈量了实际性能。
我们没有很多韶光，但是我们将为您带来与新的Apple Silicon M1干系的关键数据点。

（图片来自网络侵删）

Apple Silicon M1：Firestorm内核的3.2GHz和约20-24W TDP？

在Apple的演示文稿中，短缺芯片时钟频率的实际细节以及可以保持最高性能的TDP是他们的一向风格。

但我们可以确认，在单线程事情负载中，Apple的Firestorm内核现在的时钟频率为3.2GHz，比Apple A14的3GHz频率提高了6.66％。
只要有散热空间，此时钟也适用于所有内核负载，除了4个3.2GHz性能内核以外，我们在2064MHz处还可以看到4个Thunde效率内核，这也比A14上的1823MHz赶过很多。

除了四个高性能的Firestorm核心之外，M1还包括四个Icestorm核心，旨在降落闲置功率并提高电池供电情境下的电源效率。
4个性能内核和4个效率内核都可以同时激活，这意味着这是8内核SoC，只管所有内核的性能吞吐量并不相同。

发布会期间最大的问题是这些设计的功耗。
苹果已经供应了包括性能和功率轴在内的几张图表，但是我们缺少比较数据来得出精确的结论。

由于我们可以利用Mac mini而不是Macbook，因此这意味着设备上的功率丈量非常大略，由于我们只需将仪表连接到设备的AC输入即可。
值得一提的是，由于我们在这里丈量的是互换电源，因此功率数字不能直接与电池供电的设备相提并论，由于Mac mini的电源会带来比其他设备更大的效率丢失。

尤其主要的是要记住，我们常日谈到的处理器中的TDP数实际上只是此处供应的数字的一个子集，由于除了SoC，我们还在丈量DRAM和电压调节开销，而这并不是包含在TDP数据中，也不包括条记本电脑上的范例封装电源读数。

从空闲的Mac mini处于默认状态开始，我们把打开电源后的设备看作空闲状态，在通过HDMI连接到2560p144显示器，Wi-Fi 6和鼠标和键盘，我们看到的设备总功率为4.2W。
鉴于我们正在丈量设备的互换电源，这在低负载下可能效率很低，这在很大程度上是故意义的，并且代表了一个很好的数字。

该闲置数据还用作后续丈量的基准，在这些丈量中我们打算“有功功率”（active power），这意味着我们常日采取的方法是丈量总功率并减去闲置功率。

在3.2GHz Firestorm内核上的均匀单线程事情负载（例如GCC代码编译）期间，我们看到设备功率高达10.5W，有功功率约为6.3W。
有功功率与我们对更高频率的Firestorm内核的期望非常同等，并且对付Apple和M1来说是极有希望的。

在事情量更大的DRAM上，从而在Mac mini上的LPDDR4X级128位16GB DRAM上造成更大的功率丢失，我们看到有功功率高达10.5W。
有了这些数据，新的M1可能会给人留下深刻的印象，并且其展示能力还不到高端英特尔移动CPU的三分之一。

在多线程方案中，电源高度依赖于事情负载。
在CPU利用率不高的内存密集型事情负载中，我们看到有功功率为18W，均匀事情负载约为22W，在打算繁重的事情负载中峰值约为27W。
这些数字常日是您希望与其他平台的“ TDP”进行比较的数字，只管要再次进行比较，您须要进一步减去一些在Mac mini上测算的开销。
最好的预测是20至24W的范围。

末了，在GPU方面，我们看到GFXBench Aztec High的功耗降落了17.3W。
这将包含大量的DRAM功耗，因此Apple GPU的功耗绝对是极低的功耗，并且远远小于CPU可以花费的峰值功率。

存储差异

除了CPU和GPU上的其他内核外，M1与A14的紧张差异还在于它运行在128位内存总线上，而不是在移动64位总线上。
在8个16位内存通道和LPDDR4X-4266级内存中，这意味着M1达到了68.25GB / s的内存带宽峰值。

在内存延迟方面，我们创造M1较之A14（预期的）减少了，在128MB完备随机测试深度（full random test depth）下丈量为96ns，而在A14上为102ns。

还须要把稳的是性能核心的12MB L2缓存，只管在这里苹果彷佛仍在对单个核心可利用的数量进行分区，由于我们仍旧看到8MB之后的延迟有所增加。

M1还包含一个较大的SLC缓存，芯片上的所有IP块都应可以访问该缓存，但我们不愿定。
不给过测试结果的确与A14相似，因此我们假设这是SoC上类似的16MB缓存块，由于某些访问模式超出了A14的访问范围，这在一定程度上是合理的较大的L2。

我们从未真正有机会进行测试的一个方面便是，苹果的核心在内存带宽方面到底有多出色。
在M1内部，结果是打破性的：一次Firestorm可以实现高达58GB / s的内存读取速率，而内存写入速率则为33-36GB / s。
最主要的是，根据您利用的是标量指令还是矢量指令，内存副本（memory copies）的传输速率可以高达60至62GB / s。
单个Firestorm内核险些可以使内存掌握器饱和的事实令人震荡，由于这是我们以前在设计中从未见过的。

由于一个内核险些可以利用全体内存带宽，以是让多个内核同时访问事物实际上并不会增加系统带宽，但是实际上由于拥塞会降落有效实现的总带宽。
当在内存副本（memory copies）中同时利用性能核心和效率核心时，我特殊指出了这一点——4个大核心以59GB / s的内存副本（memory copies）达到峰值，但是一旦添加了效率核心，它就会降至49GB / s，当所有内核都处于活动状态时，速率可降至46GB / s，这表明系统中某处中存在瓶颈。

除了增加时钟速率，增加L2之外，这种内存提升还很有可能是M1差异于A14之外的另一个关键点，并让其有能力与现有的x86厂商的竞争。

基准测试

由于我们利用Mac mini的韶光很少，而且这不仅是一个macOS系统，而且是一个新的基于Arm64的macOS系统，因此我们无法利用我们常日利用的基准测试。
在发布时，我们已经进行了各种可用的测试，以使我们对性能有一个大致的理解：

Cinebench是在macOS和Apple Silicon上初露头角的一个特定基准。
在基于Cinema4D的首次基准测试中，我们看到苹果M1与市场上大部分的x86 CPU比较，拥有相称大的上风，但输给了Zen3和Tiger Lake CPU，后者彷佛仍旧具有上风。

值得把稳的是，在x86模式下，Rosetta2基准测试的性能不仅能够跟上过去的Mac，而且还能赛过它们。

在多线程R23运行中，M1版本Mac具有绝对的领先上风。
值得一提的是，我们正在考试测验访问其他系统以网络更多数据，并希望进一步更新图表。

在浏览器基准测试中，Apple的CPU霸占了主导地位，但是人们疑惑这是由于iPhone的CPU本身，还是仅归因于浏览器和浏览器引擎。
现在可以在macOS和桌面Safari上运行，并且能够将数据与其他Intel Mac系统进行比较，我们可以得出这样的结论：性能上风归功于Apple的CPU设计。

Web浏览性能彷佛是Apple CPU的头等大事，这是有道理的，由于它是移动SoC的杀手级事情量，也这天常生活中利用最多的事情量。

在Geekbench 5中，M1再次表现出色，由于它实际上领先于我们的性能数据。
纵然在以x86兼容模式运行时，M1与上一代高端CPU的顶级单线程性能比较不相伯仲，并且大大超过了Mac mini和Macbook的先前版本。

多线程性能取决于设计的内核数和功耗效率。
M1在这里输给了2017年的15英寸Macbook Pro，它利用的Intel i7-7820HQ具有4核和8线程，得分翻倍。
在网络数据点时，我们将添加更多的数据点。

M1 GPU性能：集成王者，独立CPU的竞争对手

从Intel切换到Apple芯片上，重点紧张该当放在CPU内核上，对此，我们有充分的情由，但M1在GPU方面的表示不容忽略。
像他们的CPU内核一样，苹果已经开拓了自己的GPU技能已有多年了，随着向Apple Silicon的转变，这些GPU设计也首次涌如今Mac上。
从性能的角度来看，这带来的盖板边比苹果的CPU还要大。

苹果公司长期以来一贯以哀求GPU性能优于一样平常PC OEM厂商而有名。
只管许多英特尔互助伙伴都很乐意乃至在部分15英寸条记本电脑中都配备了具有Intel UHD图形和其他基准办理方案的系统，但苹果公司选择在其15英寸MacBook Pro中交付独立的GPU。
而且，当他们无法在13英寸型号中安装独立GPU时，他们将Intel的高等Iris GPU配置与更大的GPU和片上eDRAM缓存结合利用，从而成为这些功能更强大的芯片的唯一常规客户。

因此，一段韶光以来，苹果一贯希望得到比英特尔默认供应的更好的GPU性能。
通过切换到自己的芯片，Apple终极可以通过建立具有他们想要的所有GPU性能的条记本电脑SoC来赢利。

同时，与向Apple Silicon过渡的CPU方面不同，图形编程的高等性子意味着Apple险些不依赖于开拓职员，就可以立即准备通用运用程序以利用Apple的GPU。
可以肯定的是，原生的CPU代码仍将产生更好的结果，由于险些没有人听说过纯粹受GPU限定的事情负载，但是现有的Metal（乃至OpenGL）代码现在可以在Apple的GPU上运行，这意味着它立即使所有游戏和其他受GPU约束的事情负载受益。

至于M1 SoC的GPU，绝不奇怪，它看起来很像A14的GPU。
但苹果对设计进行了一些调度，以适应Mac的敏感性（例如，各种GPU纹理和表面格式），但总的来说，差异是在API级别上抽象出来的。

总体而言，随着M1达到A14但更大，Apple已将其4核GPU设计从该SoC扩展到了M1的8核。
但与CPU时钟速率比较，我们对GPU时钟速率的理解乃至更少。

因此，目前尚不清楚苹果是否真的提高了这些速率；但是如果GPU时钟没有提高，我会感到有些惊异。
总体而言，按照智好手机标准，A14的4核GPU设计已经非常强大，因此8核设计就更是如此。
M1的集成GPU不仅旨在超越AMD和Intel的集成GPU，他们乃至还瞄准了独立GPU。

末了，该当指出的是，Apple为M1供应了两种不同的GPU配置。
Mac Mini和MacBook Pro的芯片均启用了所有8个GPU内核。
同时，对付Macbook Air，它取决于SKU：入门级型号具有7核配置，而更高等别的型号具有8核。
这意味着入门级Air可得到最弱的GPU（比完全的M1掉队约12％）。

让我们开始理解GPU性能，让我们从GFXBench 5.0开始。
这也是我们条记本电脑评测的常规基准之一，因此它为我们供应了一个很好的机会，将基于M1的Mac Mini与Mac生态系统内外的各种其他CPU / GPU组合进行比较。

总体而言，这并不是一个完备公正的测试，由于Mac Mini是小型台式机，而不是条记本电脑，但是由于M1是条记本电脑专用芯片，因此至少可以使我们理解M1在达到最佳状态时的性能。

总体而言，M1的GPU在这里非常强大。
在正常和高设置下，它都远远领先于其他集成GPU，乃至是独立的Radeon RX 560X。
只有到了NVIDIA的GTX 1650更强的GPU时，M1才渐落下风。

顺便说一句，我还通过Rosetta自由运行了基准测试的x86版本，以理解性能丢失。
至少在GFXBenchAztec Ruins中没有。
GPU的性能与本机二进制文件和二进制转换险些完备相同。

末了，我们以完备屈曲的合成基准快速浏览了更广阔的领域，我们有了3DMark Ice Storm Unlimited。
由于Apple Silicon Macs能够运行iPhone / iPad运用程序，因此我们能够通过运行iOS版本首次在Mac上运行此基准测试。
这是为OpenGL ES 2.0时期建立的非常古老的基准，但有趣的是它的性能乃至比GFXBench好。
Mac Mini的性能恰好足以滑过配备GTX 1650的条记本电脑，只管这不会常常发生，但它显示了M1的强大功能。

为苹果新Mac的发布而更新的另一个GPU基准是BaseMark GPU。
这不是我们的常规基准测试，因此我们手头上没有其他非Mac条记本电脑的分数，但是它使我们可以更进一步地理解M1与其他Mac GPU产品的比较。

2020年的Mac Mini仍旧领先宇2018年基于Intel的Mac Mini，就此而言，它也比配备Radeon Pro 560的2017年MacBook Pro至少快50％。
当然，较新的MacBook Pro会做得更好，但是请记住，这是一个集成的GPU，全体芯片比MacBook Pro的CPU花费的功率更少，因此不必担心独立的GPU。

末了，将理论付诸实践，我们有了《Rise of the Tomb Raider》。
该游戏于2016年发布，具有适当的Mac端口和内置基准，使我们能够在游戏场景中查看M1并将其与其他Windows条记本电脑进行比较。
诚然，这款游戏的年事稍大一些，但其性能哀求与M1旨在供应的性能非常匹配。
末了，该当指出的是，这是x86游戏，尚未移植到Arm上，因此游戏的CPU端通过Rosetta运行。

在我们的768p Value设置下，Mac Mini在这里供应了超过60fps的速率。
它再次大大领先于2018年基于Intel的Mac Mini以及该堆栈中的所有其他集成GPU。
纵然是15英寸的MBP及其Radeon Pro 560仍旧掉队于Mac Mini 25％以上，Ryzen条记本电脑和Radeon 560X终极要与Mac Mini保持同等。

同时，通过“发热友”设置将事情提高到1080p时，创造基于M1的Mac Mini仍供应不到40fps的速率，并且比上述Ryzen + 560X系统赶过20％以上。
这确实使Mini远远掉队于GTX 1650-Rosetta和常规API效率低下可能起了一定浸染-但它表明了击败Apple集成GPU所须要的能力。
Mac Mini以39.6fps的速率可以在1080p上以良好的图像质量设置进行播放，并且相称随意马虎地降落分辨率或图像质量以使其规复到60fps以上。
全部在集成GPU上。

终极，这些基准测试非常有力地证明了M1的集成GPU将不辜负苹果公司在高性能GPU方面的荣誉。
苹果公司为Mac推出的首个Apple内置GPU的速率明显快于我们能够利用的任何集成GPU，并且无疑将为条记本电脑的GPU性能树立新的高标准。

根据苹果自己的die照片，很明显，他们将M1模具的相称一部分用于GPU和干系的硬件上，其收益是可以与低端独立GPU媲美的GPU。
鉴于M1只是未来的基线，苹果将须要更强大的GPU用于高端条记本电脑和别的台式机，看到基线的GPU时苹果及其开拓者生态系统可以做什么将非常有趣纵然是最便宜的Mac，其性能也很高。

更多详细测试，请点击阅读原文查看。

免责声明：本文由作者原创。
文章内容系作者个人不雅观点，半导体行业不雅观察转载仅为了传达一种不同的不雅观点，不代表半导体行业不雅观察对该不雅观点赞许或支持，如果有任何异议，欢迎联系半导体行业不雅观察。

本日是《半导体行业不雅观察》为您分享的第2497期内容，欢迎关注。

存储｜晶圆｜光刻｜FPGA｜并购｜IC设计｜华为｜国产芯片

标签：我们 GPU