清华大学智能产业研究院(AIR)刘云新教授与上海交通大学、上海期智研究院、微软研究院以及美国罗彻斯特大学合作发表在第55届ACM/IEEE International Symposium on Microarchitecture (MICRO 2022)大会上的论文“ANT: 利用自适应数值类型进行低比特深度神经网络量化”(英文名称ANT: Exploiting Adaptive Numerical Data Type for Low-bit Deep Neural Network Quantization)获得了2022年体系结构领域IEEE Micro年度最佳论文(Top Picks)提名奖。该奖项每年从计算机体系结构领域四大顶会(ISCA,MICRO,HPCA,ASPLOS)几百篇文章中基于创新性和长期影响潜力选择前24篇文章,本论文是24篇文章之一,受到了国际学术界的高度认可。
量化是一种降低日益增长的DNN模型计算和存储成本的技术,一般采用定点整数或浮点类型,但能带来的优化效果都非常有限:一方面它们都需要更多的比特来保持原始模型的精度;另一方面,可变长度的量化方法虽然能带来算法层面的好处,但因为编码和解码复杂而产生了显著的硬件开销。
论文提出了一种称为ANT的固定长度自适应数据类型,可以通过很小的硬件开销实现超低精度量化,也是首个混合多数值类型的量化方法。ANT有两项关键创新点,首先,ANT提出了一种特殊的数据类型 Flint,它结合了float和int的优点,以适应张量内部的自适应性,即不同大小值的重要性。其次,ANT提出了张量之间的自适应框架,根据每个张量的分布特征为其选择最佳类型。
ANT最大的优点是与现有AI加速器兼容,可以直接嵌入到商用GPU中,展示了其硬件友好性和兼容性。正因为这个特点,ANT受到包括包括华为昇腾在内的多个硬件厂商的关注,并获得了2022年华为火花奖。论文中为ANT设计了一个统一的处理体系结构,并展示了它与现有DNN加速器的易集成性,与最先进的量化加速器相比,ANT能实现2.8×的加速和2.5×的能效改进。Github链接:clevercool/ANT_Micro22 (github.com)
智慧物联是AIR的三大重点研究方向之一。利用5G、物联网、大数据、人工智能、云计算、边缘计算等前沿技术,围绕智慧城市、智慧园区、智慧楼宇、智慧交通、智能制造、工业互联网等应用场景,在智慧物联(AIoT)领域开展创新性理论探索研究和基础系统研究,攻克关键技术瓶颈,引领AIoT领域的研究工作和技术创新,开发具有自主知识产权的系统软件基础设施,打造新一代AIoT智能产业生态系统和决策大脑,赋能产业数字化转型升级,孵化新兴智能产业,利用数据驱动的智能决策赋能产业的绿色化和助力我国 “碳中和” 目标的实现,服务于国家和产业需求,推动我国在AIoT领域的战略布局和科研成果的产业落地。“利用自适应数值类型进行低比特深度神经网络量化”是该方向在提升智能计算系统能效方面的一个阶段性成果,AIR未来也将继续在智慧物联方向开展深入探索。
撰文:孙一