中国芯片网

您现在的位置是:网站首页>芯片技术

芯片技术

英伟达首席科学家:5nm 实验芯片用 INT4 达到 INT8 的精度每瓦运算速度可达 H100 的十倍

芯片行业门户网站2023-03-29芯片技术成熟技术芯片
三纳米芯片技术,成熟技术芯片,芯片技术路径,英伟达首席科学家:5nm实验芯片用INT4达到INT8的精度每瓦运算速度可达H100的十倍三纳米芯片技术,成熟技术芯片,芯片技术路径最新的英伟达核弹 G

英伟达首席科学家:5nm 实验芯片用 INT4 达到 INT8 的精度每瓦运算速度可达 H100 的十倍

  英伟达首席科学家:5nm 实验芯片用 INT4 达到 INT8 的精度每瓦运算速度可达 H100 的十倍

三纳米芯片技术,成熟技术芯片,芯片技术路径  最新的英伟达核弹 GPU H100,刚刚添加上对 8 位浮点数格式 FP8 的支持。

  三纳米芯片技术,成熟技术芯片,芯片技术路径英伟达首席科学家 Bill Dally 现在又表示,他们还有一个“秘密武器”:

  在 IEEE 计算机运算研讨会上,他介绍了一种实验性 5nm 芯片,可以混合使用 8 位与 4 位格式,并且在 4 位上得到近似 8 位的精度。

  目前这种芯片还在开发中,主要用于深度学习推理所用的 INT4 和 INT8 格式,对于如何应用在训练中也在研究了。

  降低数字格式而不造成重大精度损失,要归功于按矢量缩放量化(per-vector scaled quantization,VSQ)的技术。

  具体来说,一个 INT4 数字只能精确表示从-8 到 7 的 16 个整数。

  其他数字都会四舍五入到这 16 个值上,中间产生的精度损失被称为量化噪声。

  传统的量化方法给每个矩阵添加一个缩放因子来减少噪声,VSQ 则在这基础之上给每个向量都添加缩放因子,进一步减少噪声。

  英伟达研究人员发现,每 64 个数字为一组赋予独立调整过的缩放因子可以最小化量化误差。

  计算缩放因子的开销可以忽略不计,从 INT8 降为 INT4 则让能量效率增加了一倍。

  Bill Dally 认为,结合上 INT4 计算、VSQ 技术和其他优化方法后,新型芯片可以达到Hopper 架构每瓦运算速度的 10 倍。

  除了英伟达之外,业界还有更多降低计算量的工作也在这次 IEEE 研讨会上亮相。

  马德里康普顿斯大学的一组研究人员设计出基于 Posits 格式的处理器核心,与 Float 浮点数相比准确性提高了多达 4 个数量级。

  Posits 与 Float 相比,增加了一个可变长度的 Regime 区域,用来表示指数的指数。

  对于0 附近的较小数字只需要占用两个位,而这类数字正是在神经网络中大量使用的。

  适用 Posits 格式的新硬件基于 FPGA 开发,研究人员发现可以用芯片的面积和功耗来提高精度,而不用增加计算时间。

  FMA 指的是d = a * b + c这样的操作,一般情况下输入中的 a 和 b 会使用较低精度,而 c 和输出的 d 使用较高精度。

  研究人员模拟了新方法可以使计算时间减少几乎一半,同时输出精度有所提高,特别是对于大矢量的计算。

  巴塞罗那超算中心和英特尔团队的研究也和 FMA 相关,致力于神经网络训练可以完全使用 BF16 格式完成。

  BF16 格式已在 DALL?E 2 等大型网络训练中得到应用,不过还需要与更高精度的 FP32 结合,并且在两者之间来回转换。

  最新解决办法开发了一个扩展的格式 BF16-N,将几个 BF16 数字组合起来表示一个数,可以在不显著牺牲精度的情况下更有效进行 FMA 计算