大数据赋能大模型:创新、突破与实践

博文小编

2025-03-17


博文视点
大模型,尤其是大语言模型,以其庞大的参数量与海量的训练数据,正在革新人工智能的疆界。这些模型犹如知识的“炼金炉”,将数据压缩、记忆,并构建起对世界的深刻理解。然而,“大”不仅体现在模型参数的规模上,更在于其背后所依托的海量、多样且高质量的训练数据。
本文将深入探讨大数据如何赋能大模型的创新与突破,从数据规模、检索增强技术到数据资产建设,揭示大模型背后的关键要素及其在实际应用中的价值。通过对这些核心内容的剖析,我们将更好地理解大模型的发展路径以及其在未来技术生态中的重要地位。

数据规模,大模型演化的关键

大语言模型的大,除了参数大之外,另一层含义是预训练数据的大(如表7.5-1所示)。大语言模型像是一个非常高效的“压缩器”,将预训练数据压缩、记住,并形成“世界模型”。以GPT 系列模型为例,其参数量与预训练数据量呈现出同步增长的趋势。从最初的GPT 到GPT-3,参数量从1.17 亿个跃升至1 750 亿个,对应的预训练数据量则从约5 GB 激增至惊人的45 TB。这种规模的扩张反映了大模型对庞大且多样化数据的内在需求,它们能够从中汲取广泛的知识与语境,从而具备更强的语言泛化能力。

除了数据量大,大语言模型还需要更加丰富、多样且高质量的数据。大型语言模型的训练和优化通常包括预训练数据、微调(Fine-tuning)数据、对齐数据(Alignment Data)或校准数据等步骤,各阶段对数据的需求各有侧重(如表7.5-2所示)。

1.预训练数据
多样性与广度:大量多样化的文本数据,涵盖多个领域,如网页、书籍、新闻文章、科学论文、对话记录等。
高质量:尽管数据量大非常重要,但数据的质量同样至关重要。数据需确保准确、无偏见、无冒犯性内容且无版权问题,以培养模型良好的语言习惯和价值观。
多语言:对于多语言模型,训练数据应包含不同语言的文本,以便模型可以学习多种语言的特征。
2.微调数据
特定任务数据:当模型需要在特定任务上表现良好时,模型需使用与任务密切相关的数据进行微调,如医学文本、法律文书或特定领域的问答对话。
小规模高相关性数据:相较于预训练数据集,微调数据虽小但与目标任务高度相关,有助于模型快速适应特定应用场景。
标签数据:对于监督学习任务,需要用人工标注的数据来提供正确的输出示例,模型借此学习期望的输出行为。
3.对齐数据或校准数据
校准数据:在模型部署前,可能需要使用特定的数据集对模型进行校准,以减少偏差和提高输出准确性。包括有毒、偏见的打标数据,以及判断回复风格、价值判断的打标数据等。这些数据一般也是需要人工标注的,但也有一些模型通过GPT-4 等更大的高质量LLM 来代替人工标注。
在大模型的训练过程中,整体的计算量由模型的参数量和训练数据的Token数决定。如何在有限的计算资源内,更好地发挥计算资源的效率?这需要通过优化模型参数量和训练数据的配比,是大模型训练过程中一个重要的决策。
OpenAI 与DeepMind 在这方面进行了探索。DeepMind 在其论文中提出了“Chinchilla”缩放定律,指出随着模型规模增大,为最大化性能,所需数据量应按比例增加。定律建议,在固定计算预算下,相对于模型参数数量的4 次方根,数据集大小应更快增加,即数据量应为模型大小的1.5 次方。早期大模型如Gopher(280 亿个参数,训练Token 数3000 亿)与MT-NLG(530 亿个参数,训练Token数2700 亿),效果不及Chinchilla(70 亿个参数,训练Token 数1.4 万亿)。此经验被后续模型如通义千问(72 亿个参数,训练Token 数3 万亿左右)继承,取得更好结果。这表明大模型训练既要关注模型架构扩展,也要重视数据集的构建与增长。

检索增强,大模型可信化的基石

虽然大语言模型本身具备很强的知识记忆能力,但在很多专业场景中,还是很难完全克服“幻觉问题”的。为了更好地解决大模型返回结果不可信的问题,一种比较被广泛关注的技术是检索增强生成(Retrieval Augmented Generation,RAG),即大语言模型(LLM)+知识召回(Knowledge Retrieval)的方式。在私域知识问答方面可以很好地弥补通用大语言模型的一些短板,解决通用大语言模型在专业领域回答缺乏依据、存在“幻觉”等问题。其基本思路是把私域知识文档进行切片然后向量化,后续通过向量检索进行召回,再作为上下文输入到大语言模型进行归纳总结。
RAG 的核心思想是为LLM 配备一个外部知识数据库。在回应用户查询时,它首先利用信息检索技术从数据库中挑选出与问题相关的资料,然后结合这些信息来生成答案。图7.5-1 所示为RAG 工作流程的简化示意。

RAG 能够解决多个与知识存储和检索相关的问题,特别是关于长尾知识的挑战。长尾知识指的是那些非常具体、罕见或深度专业的信息,虽在数据分布中出现频率较低,但对于特定查询或任务至关重要。以下是RAG 能够帮助解决的部分问题。
信息理解和知识整合:RAG 能够融合不同来源和格式的信息,并提供综合性、高信息密度的答案或解决方案。
知识精确性和可靠性:通过验证信息源,提高知识的准确性和可靠性,确保答案基于最权威和最新的知识。
个性化和定制化:可根据用户历史交互、背景知识和特定需求调整响应,实现个性化的信息检索与解答。
信息的实时性:在线接入知识库外脑,确保大模型能够基于最新信息生成答复。

数据资产,大模型效能的催化剂

数据标准的建设可以帮助企业解决很多问题,主要如下。
1.二义性
统一指标口径,避免口径的二义性。
阿里巴巴集团中各个板块的业务较为复杂,早期数据建设也存在过一段时间的野蛮生长期。不同团队、部门有自己的数据团队,负责建设自己的底层分析数据。业务层面很快引起的一个问题就是口径不一。比如商家报名参加某个平台活动,A 产品上的数据显示已经满足要求,但B 产品显示数据不符合报名条件。各业务子部门的KPI 口径不一,导致无法对比,或者汇总后和上级部门KPI 口径有差异,导致重要业务判断有误差。
2.数据重复建设
如果不做数据中间层的建设,在可见的几年内,成本就将要放大到不可承受的地步。这也驱动了当时数据中间层的建设。
3.数据质量
数据质量问题,往往背后跟随着两类数据建设的思路:一种是纯业务需求驱动的数据建设;另一种是从长期、数据资产的角度驱动的数据建设。前者的好处是短平快,但长期往往会带来数据架构体系混乱的问题。数据质量的持续维护,需要事前有规划、事中有标准、事后有治理。
4.加速决策
良好、标准的数据资产建设,给业务带来的好处是,长期加速业务分析、决策支持的整体质量和效率。
在企业内应用各类数据指标,往往是带有一系列复杂上下文语义的。比如,单独的“金额”,往往无法构成有效的分析指标,只有带上一系列的限定,比如“最近30 天淘宝渠道的支付金额”,才是一个有效的数据分析指标。
本文节选自《大数据之路2:数据更普惠,商业更智能》

读者评论

相关博文

  • 社区使用反馈专区

    陈晓猛 2016-10-04

    尊敬的博文视点用户您好: 欢迎您访问本站,您在本站点访问过程中遇到任何问题,均可以在本页留言,我们会根据您的意见和建议,对网站进行不断的优化和改进,给您带来更好的访问体验! 同时,您被采纳的意见和建议,管理员也会赠送您相应的积分...

    陈晓猛 2016-10-04
    5700 747 3 7
  • 迎战“双12”!《Unity3D实战核心技术详解》独家预售开启!

    陈晓猛 2016-12-05

    时隔一周,让大家时刻挂念的《Unity3D实战核心技术详解》终于开放预售啦! 这本书不仅满足了很多年轻人的学习欲望,并且与实际开发相结合,能够解决工作中真实遇到的问题。预售期间优惠多多,实在不容错过! Unity 3D实战核心技术详解 ...

    陈晓猛 2016-12-05
    3427 36 0 1
  • czk 2017-07-29
    6277 28 0 1