随着大语言模型(LLM)技术的突破,人工智能正从“语言专家”演变为具备行动能力的 智能体。大语言模型驱动的图形用户界面(GUI)智能体革新了传统 GUI 的自动化方式,不 再依赖脚本或规则,而是通过自然语言理解、屏幕解析和自主决策,高效、灵活地执行任务。 《大语言模型GUI智能体 : 人机交互新时代》系统介绍这一新兴领域的发展背景、核心技术与应用场景,涵盖 GUI 智能体的架构设计、 数据采集,以及大行动模型(LAM)的构建、关键评估指标和应用,帮助读者掌握 GUI 智能体 的完整方法论,并深入探讨 GUI 智能体当前面临的挑战与未来的发展趋势。
《大语言模型GUI智能体 : 人机交互新时代》配有丰富的图示与实践案例,涵盖多种真实场景下的GUI 智能体自动化方案,帮助读者轻松上手。针对研究人员与开发者,书中提供了示例代码与实践指南,从系统搭建到核心算 法调参,都配有注释。对于希望提高企业自动化能力的工程师,也可借鉴书中切实可行的落地 经验。针对复杂的跨平台操作或大规模界面测试,本书给出了行之有效的思路与实现路径,使 GUI 智能体自动化不再是遥不可及的概念。
提出“语言-视觉-动作”一体化的GUI智能体交互新范式,引领人机交互从功能驱动迈向自然语言驱动的智能革命
张朝运,微软首席研究员,专注于大语言模型驱动的GUI智能体与人机交互前沿技术。作为Windows系统首个GUI智能体——UFO的核心开发者,带领团队实现了多模态交互与高效自动化,相关项目在GitHub获得超过7000星,受到国内外主流科技媒体广泛报道。博士毕业于英国爱丁堡大学信息学院,获深度学习与智能移动网络方向博士学位,其间荣获爱丁堡全球研究奖学金等多项荣誉。在国际顶级会议与期刊发表高水平论文40余篇,谷歌学术引用超5000次。作为主要发明人,拥有多项中、美发明专利。长期致力于大语言模型智能体、智能运维等领域的创新研究,推动GUI智能体技术在桌面操作系统、行业生产力工具等场景的应用落地。
秦思,微软首席研究经理,IEEE高级会员。博士毕业于美国维拉诺瓦大学,在国际会议与期刊上发表论文50余篇,并拥有10多项授权专利。曾多次获得国际学术奖,包括IEEE国际微波与毫米波技术会议“最佳学生论文奖”、IEEE信号处理学会“青年作者最佳论文奖”,以及欧洲信号处理协会“最佳论文奖”等。
现专注于智能运维和大语言模型技术研究,相关技术已成功应用于多个微软产品,曾获“微软亚洲研究院年度最佳技术转化奖”及“微软亚太研发团队奖”,微软机器学习、人工智能与数据科学大会“杰出贡献奖”。
李立群,微软首席研究员,专注于研发基于大语言模型的智能体应用,同时是TaskWeaver智能体开源框架的主要贡献者之一。于2012年获得中国科学院软件研究所博士学位,2006年获得清华大学计算机科学与技术学士学位,曾于2009年访问密歇根州立大学。研究兴趣包括物联网、移动、大数据、机器学习和云计算等领域,在Mobisys、Mobicom、NSDI、ATC、ICSE、ESEC/FSE、ICDCS、RTSS、TPDS和TOSN等顶级会议和期刊上发表40余篇论文。2022年在ESEC/FSE会议上获得SIGSOFT Distinguished Paper奖项。
何世林,现就职于字节跳动,曾任微软亚洲研究院高级研究员,博士毕业于香港中文大学计算机科学与工程系。主要研究方向包括大模型、智能体及软件智能化等。已发表40余篇国际顶级会议和期刊文章,学术引用4000余次,曾获得FSE杰出论文奖和ISSRE最有影响力论文奖。任FSE、ISSTA等国际顶级会议的程序委员会委员。TaskWeaver、UFO、LogPAI等开源项目的核心开发人员。GitHub总星数过万。
人类与计算机之间的交互方式自计算机诞生以来便在不断演进。从早期以命令行界面(Command Line Interface,CLI)为主的晦涩交互,到图形用户界面(Graphical User Interface,GUI)的广泛普及,计算机逐步迈入了一个更加直观与用户友好的时代。GUI的出现彻底改变了普通用户对计算机的使用方式——从记忆复杂的指令和参数,到简单的单击、拖曳、键盘操作、手势操控,极大地降低了使用门槛,使计算机从专业领域逐渐走入大众的日常生活。
与此同时,随着计算机广泛融入人类工作与生活的方方面面,许多重复性、烦琐或复杂的任务逐渐浮现出来。虽然通过GUI执行这些任务相对简单,但频繁的手动操作不仅耗费了大量人力和时间,还容易因人为错误降低工作效率。为了解决这一问题,人们不断寻求如何通过自动化手段完成计算机上的操作,以提高效率和准确性。
传统 GUI 大幅提高了计算机的易用性,却在自动化和高效性方面暴露出明显的局限性。GUI 复杂多变的布局、跨平台的差异性和用户界面的动态更新特性,使传统自动化工具难以实现广泛和灵活的自动操作。早期自动化方案通常基于固定脚本或规则,往往只能针对特定任务或界面,难以应对变化的应用环境,应用范围和扩展能力有限。
近年来,大语言模型(Large Language Model,LLM)技术的飞速发展,特别是多模态大模型的兴起,为 GUI 智能体(GUI Agent)的开发带来了革命性的转机。ChatGPT 等模型所展现的强大的自然语言理解与生成能力,以及视觉语言模型(Vision Language Model,VLM)在视觉理解领域的突破,使智能体能够像人类一样同时具有语言和视觉能力,从而实现更为灵活、动态的 GUI 交互与自动化操作。
在这样的背景下,以大模型为“核心大脑”的 GUI 智能体应运而生。这类智能体能够基于用户的自然语言指令,自动识别屏幕上的界面元素,并实时决策执行相应的操作,无须预定义脚本。这种智能体不仅突破了传统自动化方案的局限性,更开创了一种全新的、通过自然语言实现的交互范式。这种范式超越了原有的GUI 交互方式,有望彻底改变人机协作的模式和效率。
为什么撰写本书
尽管大语言模型驱动的 GUI 智能体的研究与实践仍处于早期阶段,但相关领域的研究工作近年来呈现爆发式增长。大量的学术研究、技术论文、开源项目和工业应用案例不断涌现,技术路径与发展方向也愈发多样和复杂。工业界的产品部署也开始萌芽,已有不少企业开始尝试将 GUI 智能体技术应用于实际的业务场景中。然而,面对海量的研究成果和零散的技术资料,领域内目前尚缺乏系统性的梳理与总结。在这一关键的时间节点,我们希望通过本书对现有的研究成果进行系统和全面的归纳总结,同时明确 GUI 智能体未来可能的发展方向,推动学术界和工业界的深入合作与发展。作者团队在 GUI 智能体领域积累了丰富的研究与实践经验,开发并落地了广受关注的 GUI 智能体项目 UFO,并在相关领域发表了多篇具有影响力的学术论文。这些实际的经验和研究成果构成了本书的核心基础。此外,作者团队于 2024 年 11 月发布了英文综述文章“Large Language Model-Brained GUI Agents: A Survey”,并持续更新多个版本。目前,该综述文章已有 98 页正文内容,参考文献超过 600 篇。2025 年3 月,为了更好地满足国内读者学习大语言模型驱动的 GUI 智能体技术的需求,作者团队启动了本书中文版的撰写工作。与英文综述文章强调前沿学术探索和技术发展的特点不同,本书更加注重面向初学者和应用实践者,着重讲解基础理论、项目实践方法、
实际案例分析及配套示例代码。为此,作者团队在图书结构和内容设计方面进行了大量的调整与优化,力求以清晰的技术路线图和丰富的实践案例为读者提供深入浅出、系统全面的学习资料。
本书适合计算机科学和人工智能领域的科研人员、工程师,人机交互技术开发人员,以及热衷于技术创新的资深技术爱好者阅读。同时,本书特别适合希望了解或研究 GUI 自动化和智能交互技术的高校师生参考。我们希望通过本书的系统讲解,使读者能够迅速掌握大语言模型驱动 GUI 智能体的核心概念与关键技术,促进这一新兴技术的广泛应用与深入研究。
本书主要内容
本书的结构安排如下。
第 1 部分:基础理论与背景(第 1∼3 章)。本部分回顾了从传统脚本式GUI自动化向大语言模型智能自动化发展的历史背景与技术动机,并详细介绍智能体的基础理论与发展脉络。
第 2 部分:核心技术与方法(第 4∼5 章)。本部分深入讲解构建大语言模型驱动的 GUI 智能体所必需的关键技术与核心组件,包括基础的技术要素及先进的增强技术方法。
第 3 部分:实践案例与应用(第 6∼11 章)。本部分全面分析当前主流的 GUI智能体技术框架、数据采集方法、大行动模型训练,以及大模型性能评估的指标与基准测试,并展示实际应用的具体案例。
第 4 部分:未来展望与挑战(第 12∼13 章)。本部分探讨 GUI 智能体技术发展过程中面临的主要挑战和局限性,并展望未来的研究趋势与突破点,启发读者进一步探索和创新。
在本书的撰写过程中,我们广泛查阅了相关领域的经典论文、前沿成果与开源代码,并进行了系统性的整理与深入的分析讲解。我们真诚希望本书能够成为一本理论扎实、实践性强的技术手册,帮助读者更好地理解、掌握并有效应用这一前沿技术。我们期待本书能够助力大语言模型驱动的 GUI 智能体技术的持续创新与广泛普及,并成为读者探索和实践“大语言模型 × GUI 智能体”这一全新人机交互范式的重要参考与指南。为确保内容的准确性与清晰性,我们进行了反复推敲和多次修改。然而,鉴于 GUI 智能体技术的快速发展及作者自身知识和经验的局限性,书中难免存在疏漏或不足之处,敬请广大读者不吝指正,提出宝贵的意见与建议。
致谢
本书的完成离不开众多专家、同事及相关机构的支持与帮助。在此,谨向所有在撰写过程中给予指导、协助和鼓励的个人和组织致以诚挚的谢意。首先,衷心感谢张冬梅博士为本书撰写序言,并在选题、研究方法和规范等方面提出了宝贵意见。其次,感谢曹婷教授、董力博士、高翠芸教授、林庆维研究员、王向荣教授和谢涛教授对本书的鼎力推荐。再次,感谢微软数据、知识与智能团队的同事们在数据分析与实验验证等环节所付出的辛勤努力,尤其是黄河、乔波、王露、杨方凯、赵普等,他们在关键阶段提供了重要支持,使本书得以顺利完成。
同时,感谢电子工业出版社博文视点、宋亚东编辑及其团队在出版过程中给予的耐心指导与专业支持。
最后,感谢在研究与写作过程中给予帮助的所有朋友和家人。由于篇幅所限,未能一一列举,但我们将永远铭记在心。
本书作者
2025 年 7 月 31 日