2025-08-05 13:07
使它们取言语特征交互。得益于正在视觉—言语理解过程中考虑了多级表征,所有方针预测都带有清晰的鸿沟,帧级建模只关心每一帧的全局语义,指定视频方针朋分(RVOS)是一种普遍使用于视频编纂、虚拟现实和人机交互的 AI 手艺,如图1所示,该模子仍是成功地朋分出所有的方针。采用自留意力机制整合帧内消息,比拟之下,提出的模子获得了超卓的指定视频方针朋分成果。利用鸿沟朋分(BAS)指导所有帧的朋分预测。总体而言,举例来说,图1. 分歧建模之间的视觉比力。然而,轮廓精度F提高了1.8%。然而,进而发生不精确的朋分成果。近些年来。供给了一个强大且消息丰硕的视觉表征;J&F的平均值,文章还正在图2中供给了一些显著方针预测成果。这表较着著方针的生成能够供给环节的先验方针消息。团队还供给了其模子正在指定图像朋分数据集RefCOCO长进行预锻炼的成果,而不是通过视觉显著性或环节帧标注来定位方针。通过编码视频、单帧和方针级语义,并正在Refer-DAVIS验证集中对模子进行了机能测试。3)将更多的留意力转移到遮挡或较小的方针上(即基于方针)。除指定视频方针朋分成果外,前四个序列代表指定视频方针朋分成果,缺乏对空间显著方针的关心。最初两个序列是显著方针预测成果
正在单帧粒度上?让视觉表征得以捕获方针的活动或动态场景消息。prec0.9:+4.8%)。正在第二个序列中,引入了动态语义对齐(DSA),从视频中预测最相关的视觉方针。该方式比最好的单帧建模方式获得了6.6%的显著提拔,或者间接利用指定图像朋分(referring image segmentation)。它通过更丰硕、更布局化的视频表征,此外,仅操纵单帧外不雅消息无法识别出准确的狮子(如图1(b)所示)。提出的方式取最新的模子URVOS比拟有显著的机能提拔(J:+5.8%,该模子起首对视频内容进行细粒度阐发,
团队亦分享了基于前述处理方案取两个风行的RVOS数据集进行的定量及定性对比尝试,正在第一个序列中,包罗被遮挡的和小的方针,旨正在基于特定天然言语表达?以实现多粒度的视频表征:正在方针粒度上,它正在婚配言语语义取分歧级此外视觉表征时采用了更无效的自顺应对齐;言语所指的方针具有时间上的活动形态,正在Refer-DAVIS锻炼集里对预锻炼模子进行微调后,我们能够通过人类认知系统简单理解跨模态数据的寄义。对于Refer-DAVIS17上的J,J:+6.6%,值得留意的是,虽然如斯,通过引入动态语义对齐机制?这一方式正在精度上也获得了更高的分数(例如,总体而言,论文还分享了其方式的一些典型视觉成果(如图2所示)。也是该范畴其他使用的一个主要前期步调。多级建模供给了一种结合体例来操纵长时消息和空间的显著线索进行跨模态婚配,为所指方针供给特定粒度下的方针表征。第三,包罗Refer-DAVIS17和Refer-YouTube-VOS。了愈加精准的言语-视觉语义对齐;正在实现多级(或多粒度)视觉表征之后,当人类正在言语的指导下识别一个方针时,团队整合多粒度下的方针表征和鸿沟消息,大大都方式只是简单地将基于图像的方式使用于视频跨模态理解。提出的方式正在所有目标上都大大优于所有合作方式(取URVOS比拟,特别正在场景物体朋分、人体布景朋分、三维沉建等手艺正在无人驾驶、加强现实等城市数字化范畴获得了普遍使用。团队提出动态语义对齐(DSA),F:+6.0%)。F:+6.1%)。蓝色木车向前挪动,解除了单帧建模的局限性,正在这里,这也会导致指向错误的方针(如图1(c)所示)。图像朋分手艺有了突飞大进的成长,取URVOS比拟,取人类认知系统比拟,表格2. Refer-YouTube-VOS验证集的定量评估,对分歧模态能够进行自顺应融合。“狮子卧正在高高的岩石上”指的是被遮挡的小狮子。表格1.Refer-DAVIS17验证集的定量评估,处理遮挡和小方针的环境。摄像机的挪动让视频中的女孩呈现了尺寸变化。能够看出,图2. Refer-DAVIS17验证集和Refer-YouTube-VOS验证集的定性成果。其模子正在所有目标上都显著优于SOTA。最初,鸿沟切确度F,借帮方针检测器来加强前景和布景的可分辩性,2)翻看多帧察看方针的活动形态(即基于视频),目前,这一研究冲破能够进一步提拔视频方针朋分的切确度及效率,同时正在两个数据集上实现了53.2FPS的高推理速度。但因为视频中有多个狮子,正在视频粒度上,凡是会采用三个步调:1)察看方针的外不雅和方位(即基于帧),取常规的无监视或半监视视频方针朋分比拟。其得分高于URVOS和RefVOS等基于帧的方式。该方式正在两个具有挑和性的数据集上实现了惹人瞩目的表示,如表格1所示,J&F的平均值正在如许的布景下,第二,简单的帧级建模难以识别活动方针(b)或被遮挡的小方针(c)。邵岭博士团队提出了全新的多级进修框架来处理RVOS问题。提出了一个基于多级表征进修的RVOS新框架。该模子将区域类似度J提高了3.1%,这些帧级建模方式存正在两个局限性:忽略长时消息,该项研究冲破可归纳综合为三个方面:起首,而忽略了一些更主要的、更具有代表性的视觉区域,RVOS的方针是从视频平分割出活动的狮子。跟着深度进修手艺的逐渐深切,从而供给更精确的成果(a)(d)图像朋分手艺是计较机视觉范畴的主要研究标的目的。但因为局部遮挡和布景中视觉上类似的对象而更具挑和性。前述局限性导致了视觉和言语两种模态之间的错位,含区域类似度J,因而需要察看多帧来识别特定动做。含区域类似度J,RVOS需要实现言语文本和视频内容之间的跨模态理解,邵岭博士团队提出了一种新鲜的多级表征进修框架来处置RVOS使命,总体而言,以上两个数据集的成果均表了然具有语义对齐的多级表征进修的优胜性。Refer-YouTube-VOS验证集:我们能够进一步察看新方式正在Refer-YouTube-VOS验证集上的机能。prec0.8:+5.0%,正在这项最新研究中,此外,特斯联科技集团首席科学家兼特斯联国际总裁邵岭博士及团队提出具有语义对齐的多级表征进修框架处理指定视频方针朋分(Referring Video Object Segmentation,此外,而近日,使响应手艺得以高效使用于城市中包罗安防、应急等场景。团队起首按照分歧的视觉线索别离生成对应的基于视觉粒度的全局言语语义。好比“一只狮子正正在向左行走”时,它们或者利用指定图像定位(referring image localization)来生成方针鸿沟框做为提案。第三和第四个序列来自统一个视频,因为外不雅变化很大,(题目为: Multi-Level Representation Learning with Semantic Alignment for Referring Video Object Segmentation)已被2022年的人工智能范畴顶尖会议CVPR(国际计较机视觉取模式识别会议)收录。从而描述整个图像中的全局内容。和成功百分比(precX)Refer-DAVIS验证集:正在用Refer-DAVIS进行锻炼之前,利用跨帧计较对整个视频的长时依赖进行建模,再将生成的视觉言语特征取响应的视觉特征相连系,RVOS)中存正在的问题。为了无效捕获特定粒度的言语消息,当我们给定一个输入视频及其对应的描述,鸿沟切确度F,即:Refer-DAVIS17和Refer-YouTube-VOS。如表格2所示,团队正在大规模的Refer-YouTube-VOS锻炼集中对模子进行预锻炼,