英伟达首席科学家:5nm 实验芯片用 INT4 达到 INT8 的精度每瓦运算速度可达 H100 的十倍
英伟达首席科学家:5nm 实验芯片用 INT4 达到 INT8 的精度每瓦运算速度可达 H100 的十倍
英伟达首席科学家:5nm 实验芯片用 INT4 达到 INT8 的精度每瓦运算速度可达 H100 的十倍
三纳米芯片技术,成熟技术芯片,芯片技术路径 最新的英伟达核弹 GPU H100,刚刚添加上对 8 位浮点数格式 FP8 的支持。
三纳米芯片技术,成熟技术芯片,芯片技术路径英伟达首席科学家 Bill Dally 现在又表示,他们还有一个“秘密武器”:
在 IEEE 计算机运算研讨会上,他介绍了一种实验性 5nm 芯片,可以混合使用 8 位与 4 位格式,并且在 4 位上得到近似 8 位的精度。
目前这种芯片还在开发中,主要用于深度学习推理所用的 INT4 和 INT8 格式,对于如何应用在训练中也在研究了。
降低数字格式而不造成重大精度损失,要归功于按矢量缩放量化(per-vector scaled quantization,VSQ)的技术。
具体来说,一个 INT4 数字只能精确表示从-8 到 7 的 16 个整数。
其他数字都会四舍五入到这 16 个值上,中间产生的精度损失被称为量化噪声。
传统的量化方法给每个矩阵添加一个缩放因子来减少噪声,VSQ 则在这基础之上给每个向量都添加缩放因子,进一步减少噪声。
英伟达研究人员发现,每 64 个数字为一组赋予独立调整过的缩放因子可以最小化量化误差。
计算缩放因子的开销可以忽略不计,从 INT8 降为 INT4 则让能量效率增加了一倍。
Bill Dally 认为,结合上 INT4 计算、VSQ 技术和其他优化方法后,新型芯片可以达到Hopper 架构每瓦运算速度的 10 倍。
除了英伟达之外,业界还有更多降低计算量的工作也在这次 IEEE 研讨会上亮相。
马德里康普顿斯大学的一组研究人员设计出基于 Posits 格式的处理器核心,与 Float 浮点数相比准确性提高了多达 4 个数量级。
Posits 与 Float 相比,增加了一个可变长度的 Regime 区域,用来表示指数的指数。
对于0 附近的较小数字只需要占用两个位,而这类数字正是在神经网络中大量使用的。
适用 Posits 格式的新硬件基于 FPGA 开发,研究人员发现可以用芯片的面积和功耗来提高精度,而不用增加计算时间。
FMA 指的是d = a * b + c这样的操作,一般情况下输入中的 a 和 b 会使用较低精度,而 c 和输出的 d 使用较高精度。
研究人员模拟了新方法可以使计算时间减少几乎一半,同时输出精度有所提高,特别是对于大矢量的计算。
巴塞罗那超算中心和英特尔团队的研究也和 FMA 相关,致力于神经网络训练可以完全使用 BF16 格式完成。
BF16 格式已在 DALL?E 2 等大型网络训练中得到应用,不过还需要与更高精度的 FP32 结合,并且在两者之间来回转换。
最新解决办法开发了一个扩展的格式 BF16-N,将几个 BF16 数字组合起来表示一个数,可以在不显著牺牲精度的情况下更有效进行 FMA 计算
相关文章
- 中国减少采购又一家美国芯片企业遭受重创美国后悔莫及
- 中科大首次实现芯片集成冷原子磁光阱系统推动量子技术应用
- TCL芯片即将崛起全面布局半导体产业链让电视从“芯”出发
- 科技股反弹窗口乍现 投行吁关注下行空间风险
- 嬴彻科技与地平线助推高阶自动驾驶卡车迭代量产
- 一分钟了解基因芯片 健康
- 聚焦消化道无创癌症早筛赛道「壹基因」获数千万元B轮融资
- 1TB固态硬盘跌破300元!存储芯片大厂集体“越冬”
- 中国最大的光刻机企业被美国封杀 这可不是什么好事
- HypeSquad 狂野极战延迟高闪退丢包掉线的解决办法
- 杭州国芯已回复第二轮审核问询函:国家级专精特新小巨人2021年数字电视机顶盒芯片产品全球市占率第一
- 芯片解密需要多少钱芯片解密怎么收费?为什么不同芯片解密价格差别那么大?
- 实事求是:2022年芯片进口、国产芯片产量没有好消息
- 悄悄崛起的中东制造业:面纱下的创新与挑战
- 苹果芯片性能不如预期?报道称苹果芯片部门出现严重人才流失
- 国星半导体推出车用LED芯片新品银镜倒装芯片产能已超100万片年
- 应用材料12月21日成交额为516亿美元 在当日美股中排第89名
- 中国这款芯片在国内没太大关注却“引燃”了整个美国科技界 科技
- 生物芯片发展现状与前景分析
- 国产手机芯片交付:6nm工艺支持5G 纯国产手机来了