苹果宣告29分钟视频：详解A17 Pro和M3芯片的GPU技能细节_内存_操作

文章目录 [+]

视频中表示开拓者利用 Metal API 构建运用程序过程中，不须要变动现有运用程序代码，就能看到 M3 和 A17 Pro 的性能提升。
这些芯片组利用动态缓存（Dynamic Caching）、硬件加速光芒追踪和硬件加速网格映射等，大幅提高了 GPU 表现。
IT之家在此附上视频如下：

苹果宣告29分钟视频：详解A17 Pro和M3芯片的GPU技能细节_内存_操作苹果宣告29分钟视频：详解A17 Pro和M3芯片的GPU技能细节_内存_操作科学

动态缓存

苹果在 M3 和 A17 Pro 中引入了下一代着色器核心，运用调用 GPU 核心时，这些着色器可以更加高效运行，大大提高输出性能。

（图片来自网络侵删）

常日，GPU 只能根据实行操作期间实行操作中的最高带宽进程分配寄存器内存。
因此，如果操作的某一部分须要比其他部分多得多的寄存器内存，则该操作将为给定进程利用更多的寄存器内存。

动态缓存许可 GPU 为其实行的每个操作分配恰到好处的寄存器内存量，开释以前不可用的寄存器内存，许可并行实行更多着色器任务。

灵巧的片上存储器

以前，片上存储器（on-chip memory）会为寄存器、线程组和带有缓冲区缓存的切片存储器分配固定的内存。
这意味着，如果一个操作利用一种类型的内存比另一种类型的内存更多，那么大部分内存就会被闲置。

苹果调度让所有片上存储器都可以用于存储器类型的缓存。
严重依赖线程组内存的操作可以利用片上内存的全体跨度，乃至可以将操作溢出到主内存中。

着色器内核可动态调度片上内存占用率，以最大限度地提高性能，这意味着减少开拓者的运用优化韶光。

着色器核心的高性能 ALU 管线

苹果建议开拓职员在其程序中实行 FP16 数学运算，但高性能 ALU 并行实行整数、FP32 和 FP16 的不同组合。

指令在并行实行的不同操作中实行，这意味着 ALU 利用率会随着占用率的提高而提高。

如果不同的操作包含相同的 FP32 或 FP16 指令，这些指令将在不同的韶光点实行，则可以重叠实行以增加并行性。

硬件加速图形管道

硬件加速大幅加快光芒追踪过程，主要的交叉打算从 GPU 功能中移除。
由于硬件卖力部分打算，因此许可并行展开更多操作，从而加快硬件组件的光芒追踪速率。

硬件加速网格着色利用类似的方法。
它采取几何打算管道的中间，并将其通报给专用单元，从而许可更多并行操作。

标签：内存操作

探索未知世界的语言迷宫,解码跨文化交流的神秘之门