主要介绍模型压缩、模型剪枝、高效元模块设计、高效神经网络架构等前沿技术及案例。AI时代,无论是模型参数的数量,还是模型的种类,增长速度都是惊人的。因此,将庞大的模型进行压缩后部署在App等终端,早就在学术界和工业界得到了广泛应用,也沉淀了一些经典方法,但市面上还没有针对这个领域的技术书。在“千村万户练模型”的时代,一本介绍高效模型压缩经典知识与前沿技术的技术书,可能是非常有价值的尝试。
1.可能是刚需主题,受众广。2.几位作者都是本领域领军人物。
汪玉,清华大学电子工程系长聘教授、系主任,IEEE Fellow,国家自然科学基金杰出青年基金获得者,清华大学信息科学技术学院副院长,清华大学天津电子信息研究院院长。长期从事智能芯片、高能效电路与系统的研究,曾获得4次国际学术会议最佳论文奖及12次最佳论文提名。曾获CCF科学技术奖技术发明一等奖、国际设计自动化会议40岁以下创新者奖、CCF青竹奖等荣誉。2016年,知识成果转化入股深鉴科技,打造了世界一流的深度学习计算平台;2018年,被业内龙头企业赛灵思(现AMD)收购。2023年,推动成立无问芯穹,形成面向大模型的软硬件联合优化平台,在国内外10余种芯片上实现了业界领先的大模型推理性能。
宁雪妃,清华大学电子工程系助理研究员。主要研究方向为高效深度学习。支撑深鉴科技、无问芯穹的早期模型压缩和部署工具链工作;参与10余项高效深度学习相关项目;在机器学习、计算机视觉、设计自动化领域发表学术论文40余篇,其中包含在NeurIPS、ICLR、ICML、CVPR、ICCV、ECCV、AAAI、TPAMI上发表的学术论文共20篇;带领团队在NeurIPS18和CVPR20会议上获得国际比赛奖项。
2022 年年底到2023 年年初,由AI 驱动的ChatGPT 对话机器人、Midjourney 文图生成等应用产品爆红。这些热门产品的广阔应用前景令人振奋,吸引了大量资源投入AI 的算法研究、数据清洗、算力等方面的基础建设中。这些爆款应用是由大数据训练的大模型1 支撑的。举例来说,近年来,大语言模型的训练数据和模型的体量迅速增长,从2017 年发布的有1.65 亿参数量的Transformer,到2020 年发布的有1 750 亿参数量的GPT-3,再到2022 年发布的ChatGPT应用背后的模型也有数百亿参数量。这样的训练数据和模型体量的增长带来了模型能力的提升,让大模型“涌现”出指令跟随、上下文学习等能力,展示出“通用”的生成能力。有目共睹的是,强大的算法能力伴随着巨大的算力需求和资源消耗,大模型的推理和训练算力需求随着模型体量的增长而增长。
在这个背景下,高效深度学习领域显得尤为关键,得到了广泛关注。高效深度学习方法通过对算法和系统的精心设计,使有限的算力发挥出更大的效用。高效深度学习里很重要的一个思路是模型压缩,即从模型结构、数据表示等多种维度将大的模型压小。深度压缩(Deep Compression)方法作为这一波AI 浪潮中模型压缩的先驱工作,启发了非常多的后续研究。模型压缩技术发展到今天,已经形成较为成熟的方法论和工具链。
高效深度学习的另一个重要思路是,针对算法做软硬件的定制化设计。清华大学汪玉团队2015 年就投入高效深度学习领域开展研究。由于FPGA 的灵活性,汪玉团队选择了基于FPGA的加速器路径。2016 年,汪玉团队在FPGA 会议上发表题目为“Going Deeper with Embedded FPGA Platform for Convolutional Neural Network”的论文;2017 年,汪玉团队在FPGA 会议上发表题目为“ESE:Efficient Speech Recognition Engine with Sparse LSTM on FPGA”
的论文,论文主要探讨了针对CNN 和LSTM 的FPGA 加速器设计工作。除了基于FPGA的加速器设计路径,2016 年,汪玉和谢源团队在ISCA 会议上发表题目为“PRIME:A Novel Processing-in-memory Architecture for Neural Network Computation in ReRAM-based Main Memory”的论文,该论文总结了基于新兴的存内计算范式的加速器设计工作。在过去十年的发展中,定制化架构设计将AI 负载的处理能效提升了5 个数量级。
结合上述模型压缩和软硬件定制化设计(编译优化、硬件设计)的思路,汪玉团队于2018年在TCAD 杂志上发表题目为“Angel-Eye:A Complete Design Flow for Mapping CNN ontoEmbedded FPGA”的论文,该论文总结了“软硬件协同设计”的范式。
幸运的是,这些工作在学术界和工业界都产生了一定的影响力。基于这些技术,笔者团队孵化了深鉴科技有限公司。2018 年年末,深鉴科技被可重构计算领域的龙头企业赛灵思收购,推动了FPGA 深度学习加速器的产业化。2023 年,随着“大模型”的风靡,高效深度学习领域再次受到极大的关注。汪玉创立了无问芯穹智能科技有限公司,致力于提供通用人工智能(Artificial General Intelligence,AGI)算力解决方案。近期,汪玉团队在“高效大模型”推理方向做了一系列新工作,包括“Skeleton-of-Thought:Large Language Models Can Do Parallel Decoding”的高效算法设计工作、“FlashDecoding++:Faster Large Language Model Inference on GPUs”的GPU 软件算子设计工作,以及“FlightLLM:Efficient Large Language Model Inference with a Complete Mapping Flow on FPGAs”的FPGA 硬件加速器设计工作等。同时,笔者团队将在高效深度学习方法论上的认知总结为本书,希望通过本书的出版帮助对这个领域感兴趣的读者,推动领域的发展。
本书主要内容
本书名为《高效深度学习:模型压缩与设计》,其主体部分详细介绍了模型压缩的方法论,包括高效模块设计、模型剪枝、模型量化、模型二值化、神经网络架构搜索、知识蒸馏几大部分。另外,本书简要介绍了定制化硬件加速器的设计及大语言模型的加速和压缩。希望本书能够为读者提供有价值的知识和启发。
本书读者画像
对于希望进入模型压缩领域的初学者,本书归纳了高效深度学习领域的整体框架,并注重阐述和辨析重要的基本概念,希望可以帮助读者快速获得对该领域的整体认知和掌握重要概念。对于有一定科研经验、希望在相关科研方向进行探索的读者,本书在多个层次提供了框架性总结,定位多个子领域之间、同一子领域内多个方法之间的关系,希望可以帮助读者加强对知识的整合,利用框架更好地进行创新探索。
对于需要工具书辅助解决实际问题的读者,本书不仅包含对实践经验的总结,也包含对每个细分技术及其应用的逻辑的详细说明,希望可以帮助读者厘清分析和解决问题的思路,并快速定位到相关文献。
致谢
衷心感谢电子工业出版社的编辑在本书编写过程中对作者团队的悉心帮助,尤其是郑柳洁编辑非常专业和热情,在本书成书过程中给予了巨大的帮助。还要感谢所有参与本书校对工作的同学们(史祥生、李师尧、周紫轩、赵俊博、郭立栋、曾书霖、杨昕昊、钟凯、傅天予、赵天辰、唐长成、梁海玉、王鸿懿、张浩瑜、蔡熠、陆璞,等等),因为你们的付出,才有了本书。衷心感谢为本书提出宝贵建议的朋友们:汪彧之、朱振华、傅泳淦、张林峰、秦浩桐、章雅婷、林梓楠、袁之航、陆欣然、罗雁天等。
由于作者团队的知识和能力有限,本书内容不可避免地存在疏漏,欢迎大家批评指正。
汪玉 宁雪妃
2024 年4 月