32位与16位格式的稠浊精度演习,正是当前深度学习的主流。
最新的英伟达核弹GPU H100,刚刚添加上对8位浮点数格式FP8的支持。

英伟达首席科学家Bill Dally现在又表示,他们还有一个“秘密武器”:

在IEEE打算机运算研讨会上,他先容了一种实验性5nm芯片,可以稠浊利用8位与4位格式,并且在4位上得到近似8位的精度。
目前这种芯片还在开拓中,紧张用于深度学习推理所用的INT4和INT8格式,对付如何运用在演习中也在研究了。
干系论文已揭橥在2022 IEEE Symposium on VLSI Technology上。
新的量化技能
降落数字格式而不造成重大精度丢失,要归功于按矢量缩放量化(per-vector scaled quantization,VSQ)的技能。
详细来说,一个INT4数字只能精确表示从-8到7的16个整数。
其他数字都会四舍五入到这16个值上,中间产生的精度丢失被称为量化噪声。
传统的量化方法给每个矩阵添加一个缩放因子来减少噪声,VSQ则在这根本之上给每个向量都添加缩放因子,进一步减少噪声。
关键之处在于,缩放因子的值要匹配在神经网络中实际须要表示的数字范围。
英伟达研究职员创造,每64个数字为一组授予独立调度过的缩放因子可以最小化量化偏差。
打算缩放因子的开销可以忽略不计,从INT8降为INT4则让能量效率增加了一倍。
Bill Dally认为,结合上INT4打算、VSQ技能和其他优化方法后,新型芯片可以达到Hopper架构每瓦运算速率的10倍。
还有哪些降落打算量的努力除了英伟达之外,业界还有更多降落打算量的事情也在这次IEEE研讨会上亮相。
马德里康普顿斯大学的一组研究职员设计出基于Posits格式的处理器核心,与Float浮点数比较准确性提高了多达4个数量级。
Posits与Float比较,增加了一个可变长度的Regime区域,用来表示指数的指数。
对付0附近的较小数字只须要占用两个位,而这类数字正是在神经网络中大量利用的。
适用Posits格式的新硬件基于FPGA开拓,研究职员创造可以用芯片的面积和功耗来提高精度,而不用增加打算韶光。
ETH Zurich一个团队的研究基于RISC-V,他们把两次稠浊精度的积和熔加打算(fused multiply-add,FMA)放在一起平行打算。
这样可以防止两次打算之间的精度丢失,还可以提高内存利用率。
FMA指的是d = a b + c这样的操作,一样平常情形下输入中的a和b会利用较低精度,而c和输出的d利用较高精度。
研究职员仿照了新方法可以使打算韶光减少险些一半,同时输出精度有所提高,特殊是对付大矢量的打算。
相应的硬件实现正在开拓中。
巴塞罗那超算中央和英特尔团队的研究也和FMA干系,致力于神经网络演习可以完备利用BF16格式完成。
BF16格式已在DALL·E 2等大型网络演习中得到运用,不过还须要与更高精度的FP32结合,并且在两者之间来回转换。
这是由于神经网络演习中只有一部分打算不会因BF16而降落精度。
最新办理办法开拓了一个扩展的格式BF16-N,将几个BF16数字组合起来表示一个数,可以在不显著捐躯精度的情形下更有效进行FMA打算
关键之处在于,FMA打算单元的面积只受尾数位影响。
比如FP32有23个尾数位,须要576个单位的面积,而BF16-2只须要192个,减少了2/3。
其余这项事情的论文题目也很故意思,BF16 is All You Need。
参考链接:[1]https://spectrum.ieee.org/number-representation[2]https://ieeexplore.ieee.org/document/9830277[3]https://ieeexplore.ieee.org/document/9823406
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一韶光获知前沿科技动态










