首页 » 科学 » 高效支配大年夜模型CMU 最新万字综述纵览 LLM 推理 MLSys 优化技能_模子_办法

高效支配大年夜模型CMU 最新万字综述纵览 LLM 推理 MLSys 优化技能_模子_办法

雨夜梧桐 2024-12-20 18:16:56 0

扫一扫用手机浏览

文章目录 [+]

论文链接:https://arxiv.org/abs/2312.15234

该论文的第一作者是卡内基梅隆大学的 Xupeng Miao(苗旭鹏)博士后研究员,互助者还包括 Tianqi Chen 和 Zhihao Jia 助理教授。
此外,其他学生作者也均来自于 CMU Catalyst Group 实验室,该实验室由 Zhihao Jia 与 Tianqi Chen(陈天奇)在 CMU 共同主持,致力于集成来自于机器学习算法、系统、硬件等多方面的优化技能,布局自动化的机器学习系统。
此前,该实验室还推出了 SpecInfer, MLC-LLM, SpotServe [ASPLOS‘24] 等开源项目,推进 LLM 大模型干系系统的研究和运用。
实验室主页:https://catalyst.cs.cmu.edu

1
综述概览
该综述系统地核阅了现有 LLM 推理技能,覆盖了 300 余篇干系论文,从算法创新和系统优化两个方面展开先容。
论文以此为根本,对现有事情设计了一套清晰且详尽的分类法,突出了各种方法的上风和局限性,逐种别搜集整理并先容了每种方法的干系论文。
除此之外,论文还对当前的主流 LLM 推理框架在系统设计与实现方面进行了深入的比拟和剖析。
末了,作者对未来如何连续提高 LLM 推理效率进行了展望,在技能层面提出了六大潜在发展方向。

高效支配大年夜模型CMU 最新万字综述纵览 LLM 推理 MLSys 优化技能_模子_办法 高效支配大年夜模型CMU 最新万字综述纵览 LLM 推理 MLSys 优化技能_模子_办法 科学

2
分类法
算法创新
这一节对提出的各种算法和技能进行了全面剖析,旨在改进大规模 Transformer 模型推理的原生性能毛病,包括解码算法、架构设计、和模型压缩等等。
解码算法:在这一部分中,我们回顾了在图 2 中展示的几种 LLMs 推理优化过程的新颖解码算法。
这些算法旨在减少打算繁芜度,并提高措辞模型推理在天生任务中的总体效率,包括:
非自回归解码:现有 LLMs 的一个紧张限定是默认的自回归解码机制,它逐个顺序天生输出 token。
为办理这一问题,一种代表性的事情方向是非自回归解码 [97, 104, 108,271],即放弃自回归天生范式,冲破单词依赖并假设一定程度的条件独立性,并行解码输出 token。
然而,只管这类方法解码速率有所提高,但大多数非自回归方法的输出质量仍不如自回归方法可靠。
投契式推理:另一类事情是通过投契实行思想 [47] 实现并行解码。
自回归 LLM 推理过程中的每个解码步骤都可以被视为带有条件分支的程序实行语句,即决定接下来天生哪个 token。
投契式推理 [51, 155] 先利用较小的草稿模型进行多步解码预测,然后让 LLM 同时验证这些预测以实现加速。
然而,将投契解码运用于 LLMs 时仍旧存在一些实际寻衅,例如,如何使解码预测足够轻量且准确,以及如何借助 LLMs 实现高效的并行验证。
SpecInfer [177] 首次引入基于 tree-based speculative decoding 和 tree attention,并提出了一个低延迟 LLM 做事系统实现,该机制也被后续多个事情 [48, 118, 168, 185, 229, 236, 274, 310] 直接采取。
提前退出:这类方法紧张利用 LLMs 的深层多层构造,在中间层提前推出推理,中间层输出可以通过分类器转化成输出的 token,从而降落推理开销 [117, 147, 163, 167, 234, 272, 282, 291, 308],它们也被称为自适应打算 [68, 219]。
级联推理:这类方法级联了多个不同规模的 LLM 模型,用于分别处理不同繁芜度的推理要求,代表性事情包括 CascadeBERT [157] 和 FrugalGPT [53]。
架构设计:
配置缩小:直接缩小模型配置。
把稳力简化:最近涌现了很多研究事情,它们紧张是将之前的长序列高效把稳力机制 [240] 运用在 LLM 上,以缩短高下文,减少 KV 缓存,以及把稳力繁芜度,同时略微降落解码质量(如滑动窗口 [129, 299]、哈希 [198]、dilated [74]、动态选择等等)。
表 1 中总结了一些近期的热门方法和之前的事情之间的对应关系。
激活共享:这类方法紧张是通过共享 attention 打算的中间激活来降落推理内存开销,代表性事情包括 MQA [220] 和 GQA [32]。
条件打算:这类方法紧张是指稀疏专家稠浊模型(Sparse MoE),比如最近大火的 Mistrial 7Bx8 模型就属于此类。
循环单元:只管 Transformer 已经替代了 RNN 模型,但考虑到把稳力机制的二次繁芜性,人们始终未曾放弃将 recurrent unit 机制重新引入 LLM 的考试测验,比如 RWKV [200]、RetNet [235],以及状态空间模型 [91, 102, 103, 176] 等等。
模型压缩:
知识蒸馏:这类方法以大型的西席模型为监督,演习一个小型的学生模型。
大多数之前的方法都在探索白盒蒸馏 [106, 133, 214, 233, 255],须要访问全体西席模型的参数。
由于基于 API 的 LLM 做事(如 ChatGPT)的涌现,一些黑盒蒸馏模型吸引了很多关注 [238,59, 273, 201, 313],这些模型常日具有更少的模型参数,与原始 LLMs(如 GPT-4 [195])比较,在各种下贱任务上表现出了相称的性能。
网络剪枝:过去几年中,网络剪枝方法 [180, 215, 215] 已被广泛研究,但并非所有方法都可以直接应用于 LLMs,须要考虑重新演习可能带来的过高打算本钱,以及评估剪枝是否可以在底层系统实现上取得效率提升。
大致上可以分为构造化剪枝 [80, 149, 174, 216, 172] 和半构造化稀疏化 [40, 87, 232, 251, 276] 等。
系统优化
本节研究 LLM 推理系统优化技能,以加速 LLM 推理,而不改变 LLM 打算语义。
这一事情的目标是通过改进用于大型措辞模型推理的底层系统和框架来提高系统效率,包括低比特量化、并行打算、内存管理、要求调度、和内核优化等等,详细内容可以拜会论文原文。

高效支配大年夜模型CMU 最新万字综述纵览 LLM 推理 MLSys 优化技能_模子_办法 高效支配大年夜模型CMU 最新万字综述纵览 LLM 推理 MLSys 优化技能_模子_办法 科学
(图片来自网络侵删)

3
软件框架
论文还对一些目前最前辈的基于 GPU 的开源 LLM 推理系统进行了深入的剖析,并从多个方面总结了它们在设计与实现伤的差异。

4
未来方向
专用硬件加速器的发展:天生型 LLM 做事效率的显著提升可能在很大程度上依赖于专用硬件加速器的发展和提升,尤其是软硬协同设计方法。
例如,让内存单元更加靠近处理单元,或是针对 LLM 算法数据流优化芯片架构,这些硬件优化可以在很大程度上为 LLM 推理在软件层面带来便利和机会。
高效有效的解码算法:开拓更高效的解码算法可以显著提高做事效率。
受对实时运用更快天生速率的需求驱动,一个有出息的方向是广义的投契式推理(generalized speculative inference),不仅会带来显著加速,同时保持相同的天生质量。
正如 SpecInfer 中所指出的,广义的投契式推理中,用于天生草稿 token 的小模型可以被更换为任何快速的 token 天生方法,比如自定义函数、召回方法、乃至早停机制和非自回归解码等等。
长高下文 / 序列场景优化:随着运用处景变得更加繁芜,处理更长的高下文或序列的需求不断增长。
做事长序列负载的 LLM 须要办理算法和系统两方面的寻衅。
在算法方面,它们依然面临长度泛化失落效问题,乃至可能涌现 “loss in the middle” 的情形。
目前的解法紧张是通过召回增强、序列压缩和缓存来尽可能缩小引列长度并保存干系信息。
探索替代根本架构:只管 Transformer 模型和自把稳力机制目前主导着 LLM 领域,但探索替代架构是未来研究的一个有前景的方向。
例如,一些最新研究探索了无把稳力方法,利用纯 MLP(多层感知机)架构来替代把稳力机制,可能会改变目前 LLM 推理优化的格局。
在繁芜环境中的支配探索:随着 LLM 运用的扩展,探索并优化它们在各种繁芜环境中的支配成为一个关键的未来方向。
这一探索不仅限于传统的基于云的支配,还包括边缘打算、稠浊打算(cloud+edge)、去中央化打算以及廉价的可抢占资源等。
特定需求的自动适应:运用特定需求的多样性创造了一系列创新的 LLM 做事优化机会,例如模型微调(parameter-efficient fine-tuning)、向量数据库检索、多模态负载等等。
这些独特的寻衅也哀求将 LLM 做事技能自动且顺利地集成到现有 IT 根本举动步伐中,将优化空间扩展到全体 LLM 生命周期。

5
总结
总的来说,该综述不仅是对当前 LLM 做事优化研究的全面概述,也为未来在这一领域的探索和发展指明了方向。
通过深入理解这些前辈的办理方案,研究者和实践者可以更好地理解和应对在实际运用中支配大型措辞模型时面临的寻衅。
聚焦AI前沿研究,关注AI工程落地。
\"大众 data-from=\公众2\"大众 data-origin_num=\"大众2244\"大众 data-isban=\公众0\"大众 data-biz_account_status=\公众0\"大众 data-index=\公众0\公众 data-weuitheme=\公众light\公众 data-is_biz_ban=\"大众0\"大众>
标签:

相关文章