在具体业务场景中落地大模型不仅需要算法和代码,还需要考虑预训练、微调、部署和服务质量。本文讲解如何在真实业务场景中高效地使用大模型。
大模型从开始构建到服务于某个产品通常需要经历预训练、微调、服务部署3个阶段,如图所示,与各种大模型推荐范式对应。
除了算法和软件,预训练模型还需要特定的硬件支持,目前主流的预训练大模型的硬件是英伟达的GPU系列。下面聚焦大模型推荐系统应用,从模型的训练(包括预训练和微调)、推理、服务部署和硬件选择4个维度展开说明。
模型高效训练
从零开始预训练大模型,是非常具有挑战性的事情。由于预训练样本较多(很多模型需要上万亿个token),参数较多,通常需要非常多的计算资源和合适的框架来协助。一般来说,做基础大模型的公司才需要从零开始预训练大模型,而做中间层或者应用的公司可以对开源的大模型进行微调或者直接部署。
模型高效推理
模型推理是一个需求更大的使用场景,目前有很多创业公司聚焦于高效的大模型推理领域,例如Lepton AI、硅基流动等。
高效推理有非常多的技术方案,可以从算法层面、模型层面、系统层面等多种维度进行。以下是最常用的方法。
解码策略优化
GPT系列模型基于前面的token预测下一个token,这是一个自回归的过程,这个过程是顺序的,所以影响最终的解码速度。可行的解决方案有非自回归的方式或者推测解码(Speculative Decoding)策略。
非自回归是放宽预测下一个token的条件,假设预测下一个token与前面的token条件无关,这样就可以通过一定程度的并行化进行解码。推测解码是利用一个草稿(Draft)模型(更小的模型)来生成下一个token,再快速评估这个token是否正确。
架构优化
架构优化是对GPT的架构动手术,通过调整架构部分“组件”达到加速推理的效果。例如,MoE架构就是通过多个专家构建的统一的大模型,在预测时,只有部分专家被激活,从而提升推理的速度。
模型压缩
模型压缩最常用的手段是知识蒸馏,通过老师(Teacher)模型监督学生(Student)模型进行训练,将知识从较大的老师模型“传授”给学生模型。还有一个比较常用的方法是剪枝,例如剔除模型的部分层来减少参数,进而提升预测速度。
系统优化
前面提到的量化方法、并行化方法、内存优化方法都是这类方法。还有一些偏底层的方法超出了简单应用的范畴,这里不展开说明。
模型高效部署
对于大模型推荐系统的应用,在预训练或微调好模型后,就需要进行高效的服务部署,以便为用户提供更好的服务。
上面提到的很多框架可以直接将大模型服务部署成Web服务,如果你想自己调整业务逻辑,则可以选择一些合适的Python Web框架,例如FastAPI、Tornado、Flask等。
如果利用大模型的上下文学习能力进行推荐,那么可以选择第三方的API服务或者将大模型部署成类似于ChatGPT的API服务,可以使用的框架有Ollama、FastChat、SGlang、Lepton AI等。
传统推荐系统的一些优化服务体验的技术方案也可以应用到大模型推荐系统中,例如预计算、缓存、部署多个等效的Web服务,再通过Nginx代理进行服务的水平扩容等。
硬件选择建议
对于大模型,训练和推理的硬件也是非常重要的。当预训练的大模型参数较多(例如超过30B)时,需要性能比较好的英伟达的GPU,例如A800、A100、H100等。对于参数更小的模型,可以采用英伟达的消费级显卡,例如RTX 4090、RTX4080等。国产的替代方案还不够成熟,华为昇腾910B是可行的选择。
对于大模型的微调和推理,相比于A800、A100、H100这些比较贵并且难买到的硬件,性价比更高的方式是使用英伟达的RTX 4090、RTX4080等消费级硬件。
MacBook用户可以选用M系列的芯片对大模型进行预训练和微调。如果处理比较大的模型(例如30B、70B等),M2 Ultra 192G、M3 Max 128G等是可行的选择。
由于推荐系统的数据量相对较小,即使是预训练和微调,目前也不需要特别大的模型,通常使用2B、7B、14B的模型就可以达到较好的效果,因此对硬件的要求没有常规的大模型高。
这是国内首本系统介绍大模型在推荐系统中应用的书籍,希望这本书能够为国内的技术普及和推广贡献一份力量,引发更多关于大模型技术在推荐系统领域的探索和应用。
尊敬的博文视点用户您好: 欢迎您访问本站,您在本站点访问过程中遇到任何问题,均可以在本页留言,我们会根据您的意见和建议,对网站进行不断的优化和改进,给您带来更好的访问体验! 同时,您被采纳的意见和建议,管理员也会赠送您相应的积分...
时隔一周,让大家时刻挂念的《Unity3D实战核心技术详解》终于开放预售啦! 这本书不仅满足了很多年轻人的学习欲望,并且与实际开发相结合,能够解决工作中真实遇到的问题。预售期间优惠多多,实在不容错过! Unity 3D实战核心技术详解 ...
如题 ...
读者评论