多模态大模型是如何进行视频定位的?

博文小编

2025-01-13


01
视频定位
视频定位(Video Grounding)是多模态人工智能中的一个子任务,目标是将视频中的物体、场景、动作等元素与对应的文本描述进行对齐。
如图1所示,给定一段视频和文本描述“一个男人伸手抚摸鱼”,视频定位的任务是将文本描述中的“男人”和“鱼”与视频中的相应区域对齐。
首先,使用计算机视觉技术来检测视频中的物体和场景。然后,使用自然语言处理技术来理解文本描述中的实体。最后,将检测到的物体和场景与文本描述中的实体对齐,以便可以在视频中找到与文本描述相对应的区域。密集回归网络(Dense Regression Network,DRN)[78]使用目标视频段内每一帧与查询描述的起始(或结束)帧之间的距离作为密集监督,以提高视频定位的准确性。具体而言,该方法设计了一种新颖的密集回归网络,用于回归每一帧到视频段的起始(或结束)帧的距离。

图1 视频定位
02
视频描述
视频描述旨在输出未裁剪的长视频中包含的所有事件的时间框及其自然语言描述,包含“定位”和“描述”两个子任务。
以往工作的研究重点大致分为三类:设计更强大的编码器提取视频音频表征、通过上下文关联或增加约束以增强预测句间的连贯性、挖掘定位任务与描述任务的交互。
前两类在传统的图像和视频描述的工作中都有所涉及,而第三类中的视频描述任务是更专有也更有趣的探索方向。
根据两个子任务的交互情况,相关工作可以分为以下四类:
(1)先定位后描述。类似于目标检测,早期视频描述方法通常采用两阶段“先定位后描述”的方案。如果定位网络较准确,那么可以大致确定事件的位置,再综合事件内部帧的信息(也可考虑事件的上下文)生成一句话。但是这种方案预测的事件框缺乏来自高层语言的指导,可能定位到不准确或者不适合描述的背景帧。
(2)定位与描述循环交替进行。弱监督密集视频描述(Weakly Supervised Dense Event Captioning,WSDEC)[79]针对弱监督的密集视频描述问题(只给定视频与多个描述语句,不提供位置信息),提出初始化一组粗糙的候选时间框,经过“描述模块→句子定位模块”的不断循环来预测优化后的时间框的句子,并以计算循环损失作为约束。
(3)先描述后定位再精修。论文“Sketch,Ground, and Refine”提出三阶段的思路。首先,从全局视角生成一个粗粒度的多句段落,用于描述整个视频。接下来,将每个事件描述与视频段落进行关联,以进行详细的细化。最后,通过改进增强训练及对粗粒度事件描述和对齐的事件段的双路径交叉注意力,提高字幕质量。
(4)并行进行定位与描述。端到端密集视频描述生成与并行解码(End-to-End Dense Video Captioning with Parallel Decoding,PDVC)提出直接把两个子任务并行化,使得定位的监督和语言的监督同时作用于底层特征,学习到既有准确位置又能生成良好描述的事件候选框。该方法是端到端模型,相比之前的多阶段思路,很大程度简化了模型设计和训练流程,如图2所示。

图2 密集视频描述任务

03
视频摘要生成
视频摘要生成可以从视频中提取最重要的信息,以便用户快速了解视频内容。视频摘要生成的应用非常广泛,在视频搜索、视频推荐、视频广告等领域都发挥着重要作用。
视频摘要生成的技术可以分为两类:基于文本的视频摘要生成和基于视觉的视频摘要生成。
基于文本的视频摘要生成是通过分析视频的字幕,提取关键词和句子,然后根据这些信息生成视频摘要。
基于视觉的视频摘要生成则是通过分析视频的图像,提取关键帧和镜头,然后根据这些信息生成视频摘要,如图3所示。

图3 视频摘要生成示例图
DSNet是一个灵活的视频摘要生成框架(见图4),它能够从视频中提取主要部分并生成一段新的摘要视频,用以概括原视频的内容。
该框架包括基于锚点和无锚点两种方法。
基于锚点的方法生成时间兴趣提议(Interest Proposal),用于确定和定位视频序列的代表性内容;
无锚点的方法则消除了预定义的时间兴趣提议,直接预测重要性分数和片段位置。
现有的监督视频摘要方法将视频摘要视为回归问题,缺乏时间一致性和完整性约束,相反,DSNet的兴趣检测框架(Interest Detection Framework)首次尝试通过时间兴趣检测来实现时间一致性。

图4 DSNet网络结构图

04
评价指标
视频描述模型评估指标可以帮助我们评估并改进生成的文本。以下是一些常见的视频描述模型评估指标。
BLEU@1-4:一种用于评估机器翻译质量的指标,首先,将候选描述(机器翻译结果)和参考描述(人工翻译结果)都分成n元词组(n=1,2,3,4)。然后,计算候选描述中有多少n元词组出现在参考描述中。最后对不同的n取加权平均,得到最终的BLEU分数。
ROUGE-L:一种用于评估自动摘要和机器翻译质量的指标。首先,计算候选描述和参考描述之间的最长公共子序列(LCS)的长度。然后,使用F值综合考虑精确度和召回率。F值是精确度和召回率的平衡度量,它同时考虑了两者之间的权衡关系。
METEOR:一种用于自动评估机器翻译质量的指标。它计算机器翻译输出与参考翻译之间的相似性,不仅考虑词汇匹配,还包括同义词、词干、词缀等语义相似度,以及词序的一致性。METEOR的计算基于精确度和召回率的调和平均值,其中召回率的权重高于精确度。因此,METEOR的值越高,说明候选描述和参考描述的语义相关性越高,翻译的质量也越高。
CIDEr:一种用于评估图像标注质量的指标。通过对每个 n 元词组进行 TF-IDF权重计算,计算参考描述与模型生成的候选描述之间的余弦相似度,以衡量图像标注的一致性。CIDEr不仅考虑了词汇匹配,还关注了描述的内容和意义。

多模态人工智能正在成为推动技术进步的重要动力。通过学习来源广泛的知识,多模态人工智能正逐步展现出超越人类在速度和效率上的理解和生成能力。
目前多模态人工智能技术已经初步在智能驾驶、医疗健康、娱乐等领域取得了广泛应用。我们相信,随着模型和算力的发展,多模态人工智能模型会像智能手机一样成为扩展、改造人类生产和生活的必备工具之一。
在《多模态人工智能:大模型核心原理与关键技术》书中,我们将深入探讨多模态人工智能的理论基础、关键技术和应用前景,旨在为读者提供全面且深入的理解。
通过对多模态人工智能的系统性介绍,我们将为读者搭建起这一领域的基础知识框架,帮助读者更好地理解和应用多模态人工智能技术。

读者评论

相关博文

  • 社区使用反馈专区

    陈晓猛 2016-10-04

    尊敬的博文视点用户您好: 欢迎您访问本站,您在本站点访问过程中遇到任何问题,均可以在本页留言,我们会根据您的意见和建议,对网站进行不断的优化和改进,给您带来更好的访问体验! 同时,您被采纳的意见和建议,管理员也会赠送您相应的积分...

    陈晓猛 2016-10-04
    5700 747 3 7
  • 迎战“双12”!《Unity3D实战核心技术详解》独家预售开启!

    陈晓猛 2016-12-05

    时隔一周,让大家时刻挂念的《Unity3D实战核心技术详解》终于开放预售啦! 这本书不仅满足了很多年轻人的学习欲望,并且与实际开发相结合,能够解决工作中真实遇到的问题。预售期间优惠多多,实在不容错过! Unity 3D实战核心技术详解 ...

    陈晓猛 2016-12-05
    3427 36 0 1
  • czk 2017-07-29
    6277 28 0 1