英伟达首席科学家：5nm实验芯片用INT4达到INT8的精度_精度_格局

文章目录 [+]

32位与16位格式的稠浊精度演习，正是当前深度学习的主流。

最新的英伟达核弹GPU H100，刚刚添加上对8位浮点数格式FP8的支持。

英伟达首席科学家：5nm实验芯片用INT4达到INT8的精度_精度_格局英伟达首席科学家：5nm实验芯片用INT4达到INT8的精度_精度_格局科学

英伟达首席科学家Bill Dally现在又表示，他们还有一个“秘密武器”：

（图片来自网络侵删）

在IEEE打算机运算研讨会上，他先容了一种实验性5nm芯片，可以稠浊利用8位与4位格式，并且在4位上得到近似8位的精度。

目前这种芯片还在开拓中，紧张用于深度学习推理所用的INT4和INT8格式，对付如何运用在演习中也在研究了。

干系论文已揭橥在2022 IEEE Symposium on VLSI Technology上。

新的量化技能

降落数字格式而不造成重大精度丢失，要归功于按矢量缩放量化（per-vector scaled quantization，VSQ）的技能。

详细来说，一个INT4数字只能精确表示从-8到7的16个整数。

其他数字都会四舍五入到这16个值上，中间产生的精度丢失被称为量化噪声。

传统的量化方法给每个矩阵添加一个缩放因子来减少噪声，VSQ则在这根本之上给每个向量都添加缩放因子，进一步减少噪声。

关键之处在于，缩放因子的值要匹配在神经网络中实际须要表示的数字范围。

英伟达研究职员创造，每64个数字为一组授予独立调度过的缩放因子可以最小化量化偏差。

打算缩放因子的开销可以忽略不计，从INT8降为INT4则让能量效率增加了一倍。

Bill Dally认为，结合上INT4打算、VSQ技能和其他优化方法后，新型芯片可以达到Hopper架构每瓦运算速率的10倍。

还有哪些降落打算量的努力

除了英伟达之外，业界还有更多降落打算量的事情也在这次IEEE研讨会上亮相。

马德里康普顿斯大学的一组研究职员设计出基于Posits格式的处理器核心，与Float浮点数比较准确性提高了多达4个数量级。

Posits与Float比较，增加了一个可变长度的Regime区域，用来表示指数的指数。

对付0附近的较小数字只须要占用两个位，而这类数字正是在神经网络中大量利用的。

适用Posits格式的新硬件基于FPGA开拓，研究职员创造可以用芯片的面积和功耗来提高精度，而不用增加打算韶光。

ETH Zurich一个团队的研究基于RISC-V，他们把两次稠浊精度的积和熔加打算（fused multiply-add，FMA）放在一起平行打算。

这样可以防止两次打算之间的精度丢失，还可以提高内存利用率。

FMA指的是d = a b + c这样的操作，一样平常情形下输入中的a和b会利用较低精度，而c和输出的d利用较高精度。

研究职员仿照了新方法可以使打算韶光减少险些一半，同时输出精度有所提高，特殊是对付大矢量的打算。

相应的硬件实现正在开拓中。

巴塞罗那超算中央和英特尔团队的研究也和FMA干系，致力于神经网络演习可以完备利用BF16格式完成。

BF16格式已在DALL·E 2等大型网络演习中得到运用，不过还须要与更高精度的FP32结合，并且在两者之间来回转换。

这是由于神经网络演习中只有一部分打算不会因BF16而降落精度。

最新办理办法开拓了一个扩展的格式BF16-N，将几个BF16数字组合起来表示一个数，可以在不显著捐躯精度的情形下更有效进行FMA打算

关键之处在于，FMA打算单元的面积只受尾数位影响。

比如FP32有23个尾数位，须要576个单位的面积，而BF16-2只须要192个，减少了2/3。

其余这项事情的论文题目也很故意思，BF16 is All You Need。

参考链接：[1]https://spectrum.ieee.org/number-representation[2]https://ieeexplore.ieee.org/document/9830277[3]https://ieeexplore.ieee.org/document/9823406

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一韶光获知前沿科技动态

标签：打算精度

英伟达首席科学家：5nm实验芯片用INT4达到INT8的精度_精度_格局

相关文章

学码思协议,构建未来教育生态的关键基石

Buck拓扑结构的DC-DC电路的电感值若何计算_电流_电感

ICO风口已过李笑来是“天使”or“骗子”？_科技有限公司_北京

2020年我国芯片自给率能达到40%么？从今朝的情况来看太难_芯片_中国

降温了买外套前先看看这一篇_洱海_好美

安卓协议介绍,技术演进与生态构建

热门文章

最近发表

联网汽车马脚赓续芯片才是治愈良药？_密钥_汽车

399元！小米有品上架智能锁芯：通俗门锁可升智能防盗锁_钥匙_锁芯

罚个寂寞？8大年夜芯片巨擘对俄罗斯出手但俄芯片进口仅占全球0.02%_芯片_俄罗斯

学戏语言在安卓系统中的应用与发展

学码思协议,构建未来教育生态的关键基石

守护数字家园,付费用户协议的守护之光

秒杀小米能放4K HDR的旗舰盒子_四代_测试

Buck拓扑结构的DC-DC电路的电感值若何计算_电流_电感

ICO风口已过李笑来是“天使”or“骗子”？_科技有限公司_北京

小米6的这项WiFi功能让你的收集扩大数倍无去世角_暗记_小米

标签列表