2022年年底到2023年年初,由AI驱动的ChatGPT对话机器人、Midjourney文图生成等应用产品爆红。这些热门产品的广阔应用前景令人振奋,吸引了大量资源投入AI的算法研究、数据清洗、算力等方面的基础建设中。这些爆款应用是由大数据训练的大模型支撑的。举例来说,近年来,大语言模型的训练数据和模型的体量迅速增长,从2017年发布的有1.65亿参数量的Transformer,到2020年发布的有1 750亿参数量的GPT-3,再到2022年发布的ChatGPT应用背后的模型也有数百亿参数量。这样的训练数据和模型体量的增长带来了模型能力的提升,让大模型“涌现”出指令跟随、上下文学习等能力,展示出“通用”的生成能力。有目共睹的是,强大的算法能力伴随着巨大的算力需求和资源消耗,大模型的推理和训练算力需求随着模型体量的增长而增长。
在这个背景下,高效深度学习领域显得尤为关键,得到了广泛关注。高效深度学习方法通过对算法和系统的精心设计,使有限的算力发挥出更大的效用。高效深度学习里很重要的一个思路是模型压缩,即从模型结构、数据表示等多种维度将大的模型压小。深度压缩(Deep Compression)方法作为这一波AI浪潮中模型压缩的先驱工作,启发了非常多的后续研究。模型压缩技术发展到今天,已经形成较为成熟的方法论和工具链。
高效深度学习的另一个重要思路是,针对算法做软硬件的定制化设计。清华大学汪玉团队2015年就投入高效深度学习领域开展研究。由于FPGA的灵活性,汪玉团队选择了基于FPGA的加速器路径。2016年,汪玉团队在FPGA会议上发表题目为“Going Deeper with Embedded FPGA Platform for Convolutional Neural Network”的论文;2017年,汪玉团队在FPGA会议上发表题目为“ESE:Efficient Speech Recognition Engine with Sparse LSTM on FPGA”的论文,论文主要探讨了针对CNN和LSTM的FPGA加速器设计工作。除了基于FPGA的加速器设计路径,2016年,汪玉和谢源团队在ISCA会议上发表题目为“PRIME:A Novel Processing-in-memory Architecture for Neural Network Computation in ReRAM-based Main Memory”的论文,该论文总结了基于新兴的存内计算范式的加速器设计工作。在过去十年的发展中,定制化架构设计将AI负载的处理能效提升了5个数量级。
结合上述模型压缩和软硬件定制化设计(编译优化、硬件设计)的思路,汪玉团队于2018年在TCAD杂志上发表题目为“Angel-Eye:A Complete Design Flow for Mapping CNN ontoEmbedded FPGA”的论文,该论文总结了“软硬件协同设计”的范式。幸运的是,这些工作在学术界和工业界都产生了一定的影响力。基于这些技术,笔者团队孵化了深鉴科技有限公司。2018年年末,深鉴科技被可重构计算领域的龙头企业赛灵思收购,推动了FPGA深度学习加速器的产业化。2023年,随着“大模型”的风靡,高效深度学习领域再次受到极大的关注。汪玉创立了无问芯穹智能科技有限公司,致力于提供通用人工智能(Artificial General Intelligence,AGI)算力解决方案。近期,汪玉团队在“高效大模型”推理方向做了一系列新工作,包括“Skeleton-of-Thought:Large Language Models Can Do Parallel Decoding”的高效算法设计工作、“FlashDecoding :Faster Large Language Model Inference on GPUs”的GPU软件算子设计工作,以及“FlightLLM:Efficient Large Language Model Inference with a Complete Mapping Flow on FPGAs”的FPGA 硬件加速器设计工作等。同时,笔者团队将在高效深度学习方法论上的认知总结为本书,希望通过本书的出版帮助对这个领域感兴趣的读者,推动领域的发展。