2023年3月15日,OpenAI发布的GPT-4掀起了多模态大模型的研究浪潮,国内诸多研究机构纷纷加入多模态大模型的研发,如智谱清言、华为盘古大模型、腾讯混元大模型、百度文心一言、讯飞星火大模型、百川大模型等。
2024年2月16日,OpenAI再次发布了“从文本到视频”生成式AI模型Sora,其强大的长视频生成能力和物理世界模拟能力,再次激发了研究者对世界模型和通用人工智能的美好憧憬。
多模态大模型作为新一代人工智能的核心技术,将我们带入了人工智能新时代,AIGC、世界模型、具身智能、超级智能体等关键词频繁地出现在各大新闻头条中,人工智能正经历着范式转变。
在全球竞相发展新一代人工智能技术的时代背景下,2024年的《政府工作报告》明确指出要加快发展新质生产力,并首次提出“人工智能+”行动,这标志着人工智能已成为引领新质生产力发展的关键引擎,我国正将“人工智能+”提升至国家层面的战略行动。
1956年起,人工智能的发展跌宕起伏,经历了三次大的浪潮。
第一次浪潮是1956—1976年,这期间符号主义(逻辑主义)发展很快;
第二个浪潮是1976—2006年,这期间联结主义得到发展;
第三次浪潮是2006年至今,深度神经网络再次受到人们的重视和关注。
此后,有两个汹涌澎湃的大浪:
第一个大浪是从2012年开始的以人脸识别为代表的计算机视觉的发展,图像分类与视频理解等技术的进步速度令人刮目相看;
第二个大浪是2022年年底开始的以ChatGPT为代表的大语言模型技术的发展,创造了自iPhone推出以来计算机技术对社会发展的最大冲击。
有人说,人工智能的第三次浪潮,可能会像蒸汽机、发电机、计算机对于前三次工业革命的贡献一样,成为催生第四次工业革命的核心要素。
什么是新一代人工智能?
新一代人工智能将如何改变我们的生活?
如何在这场技术革命中抢占先机?
这些问题影响着人工智能的发展,更深刻地影响着国家的前途命运。
目前,我国正在全力构筑人工智能发展的先发优势,推动战略性新兴产业融合集群发展,构建新一代信息技术、人工智能、生物技术、新能源、新材料、高端装备、绿色环保等一批新的增长引擎。
随着ChatGPT等多模态大模型面世并迅速风靡全球,我们正面临新一代人工智能技术范式的变革。
其中,多模态大模型,是这场技术范式变革的核心,是迈向通用人工智能(AGI)的关键。
多模态大模型包含的技术分支众多,如自然语言处理、计算机视觉、机器人和具身智能等,加之近年来积累的大量研究成果分散在多个领域、多篇文章之中,表述的习惯、用词、数学变量符号、专业术语等不尽相同,难成体系,给初学者的学习和理解带来一定程度的困难。
因此,像《多模态大模型:新一代人工智能技术范式》这样一本全面且系统地介绍多模态大模型的书是非常必要的。
当然,完成这样一本书是一项艰巨的任务,需要从大量已有成果中筛选出既有代表性,又能反映新一代人工智能技术范式发展全貌的材料,并将它们提炼组织起来。
全书内容共5章:
第1章引领读者深入探索最具代表性的大模型结构,包括BERT、ChatGPT 和ChatGLM等,为建立对多模态大模型的全面认知打下基础。
第2章深度剖析多模态大模型的核心技术,如提示学习、上下文学习、思维链和人类反馈强化学习等,揭示多模态大模型的独特之处和引人入胜的技术内涵。
第3章介绍多个具有代表性的多模态基础模型,如CLIP、LLaMA、SAM和PaLM-E等,为读者呈现多样和广泛的技术解决方案。
第4章深入分析视觉问答、AIGC和具身智能这三个典型应用,展示多模态大模型在实际场景中的强大能力。
第5章探讨实现AGI 的可行思路,包括因果推理、世界模型、超级智能体与具身智能等前沿技术方向。
本书以深入浅出的方式系统地介绍多模态大模型技术方法、开源平台和应用场景的书,并对如何实现AGI提供深入透彻的探讨。
本书的出版,有助于人工智能科研工作者全面了解多模态大模型的特点及潜在发展方向,将对新一代人工智能技术范式和AGI的发展起到重要推动作用。
当然,由于大模型技术的演进变化还在进行,难免有些最新成果未被包含,可以留给未来再版时更新,是遗憾,更是期待。
林倞教授领导的中山大学人机物智能融合实验室长期致力于多模态认知推理、可控内容生成、具身智能与机器人等领域的研究,并深入应用场景打造产品原型,输出大量原创技术及孵化创业团队,许多重要学术和产业成果享誉全球,他的团队创作的这本书也一定干货满满,值得广大读者期待!
本书也得到高文院士作序力荐!
书籍链接(含目录、参考文献等资源):https://hcplab-sysu.github.io/Book-of-MLM/
↑限时五折优惠↑
小编说:将深度学习应用到实际问题中,一个非常大的问题在于训练深度学习模型需要的计算量太大。为了加速训练过程,本文将介绍如何如何在TensorFlow中使用单个GPU进行计算加速,也将介绍生成TensorFlow会话(tf.Sessio...
2023 年高考作文题目火热出炉,其中全国甲卷作文题引人深思: 人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人。 身处技术圈的我们,对于这句话可能有很多话想说。而对于这个话题,CSDN 也想问问近来大火的 AI 技术本...
机器有机器的作用,人有人的独特个性和价值。 正因为如此, 一方面,ChatGPT 等人工智能语言模型需要通过不断与人类的公共知识信息数据交互、汇聚,不断与人类进行对话,才能拥有越来越好的智能表现; 另一方面,作为人工智能机器...
读者评论