
多模态大模子掉进果然全国,会"失聪"。
你把它放在厨房:背后有东谈主话语、金属碰撞、蒸汽嘶嘶——画面里啥也莫得,但声息一经把关键信息全显现了。此时最强模子也开动"失灵":看得懂动作,听不懂发生了什么;能描写惬心,推不出原因。
问题不是模子不会"看",而是还不会信得过"听"。
声息,从来不是破碎
而在东谈主类的平方分解里,声息从来不是破碎:
它提供空间陈迹(声源左 / 右、远 / 近、是否转移)
它揭示画面外事件(镜头外的对话、叩门、摔落、报警)
它承载因果与意图(某个动作触发了某个声息;某个声息领导下一步碾儿为)
但长久以来,第一东谈主称视频贯穿基准高度"视觉中心化":音频存在,但贫困系统评测;听觉紧迫,却很少被隆重教训。第一视角全国,一直处在"半静音"情景。现存第一东谈主称视频问答 / 贯穿基准,长久偏"视觉中心",即使出现音频也常被作为赞助信息,枯竭对"声息贯穿与推理"的系统评测空缺。
面前,这个空缺终于被补上了。
{jz:field.toptypename/}EgoSound:让模子信得过学会"听"
来自复旦大学,上海创智学院,INSAIT,华东师范大学,南开大学的连接团队,建议了首个系统评测第一东谈主称声息贯穿能力的基准:
EgoSound: Benchmarking Sound Understanding in Egocentric Videos

这是首个特大地向 MLLMs 的第一视角"声息贯穿"评测体系。主义很明确:
让模子在果然全国中,斗鱼app官网版能听见、贯穿、推理,并解释发生的一切。
不仅"看见全国",更要"听懂全国"。
客服QQ:88888888
从"看见发生了什么"到"听懂粉饰陈迹"

以往的 egocentric VideoQA,更像一个"静音不雅察者"。它擅长回话:画面里有什么?东谈主在作念什么?却很难束缚:谁在话语?为什么说?这个声息意味着什么?声息与动作若何酿成因果链?
EgoSound 温文的不是"视频里有什么",而是:当声息成为关键笔据时,模子还能弗成答对?
一个基准,四大中枢孝敬 1. 首个第一东谈主称声息贯穿 Benchmark
EgoSound 和会了两类互补数据:
Ego4D:覆盖无数平方第一东谈主称行动
EgoBlind:聚焦更依赖听觉贯穿 / 交互 / 导航的场景
这使得评测既包含"视觉主导"的常见第一视角,也包含"声息主导"的现实难例。
2. 七大任务体系:从感知到推理
EgoSound 系统拆解了第一东谈主称声息能力畛域,覆盖 7 类任务:
Sound Characteristics(声息特征)
Counting(计数)
Temporal Attribute(时序属性)
Spatial Location(空间定位)
Sound Source Identification(声源识别)
Inferential Causality(因果推理)
Cross-Modal Reasoning(跨模态推理)
覆盖"听到→贯穿→预计"完满链路。
3. 高质料大限度 OpenQA 数据集
最终数据限度为:900 段严格筛选视频 +7315 条考据后的敞开式问答(OpenQA)。
强调"敞开式"意味着它更接近果然问答,不是靠选项"蒙对",更靠拢果然场景。
4. 全面模子评测与基线建造
连接团队评测了多款 SOTA MLLMs,并进行系统分析,给将来行径连接提供了了靶点。

为"听觉推理"量身打造的数据构建经过
为了确保问题真的依赖声息,连接团队接管多阶段筛选机制:
定位关键的东谈主 - 物交互片断
再生成交互片断的"音频中心"描写
构建并筛选高质料 OpenQA
并借助多个强模子赞助标注。最终保证:每条问题都绕不开"听觉陈迹"。

实验服从:模子仍然"听不懂全国"
评测服从卓绝直不雅,最强模子与东谈主类差距提高27 个点讲明:面前模子还无法安逸把声息飘摇为可靠分解。
东谈主类平均准确率:83.9%
面前最好模子:56.7%(Qwen3-Omni-Thinking-30B)

三个关键发现(1)空间 / 时序 / 因果最难:
模子常常能描写看得见的试验,却难以安逸回话"声息来自那处""什么时辰发生""为什么会这么"。
(2)跨模态对皆仍是瓶颈:
声息陈迹不时在画面以外,模子需要建造"听到—看到—预计"的链条。
(3)第一东谈主称的果然复杂度被低估:
东谈主与物的交互、守密、镜头抖动、声源离镜头遐迩变化,让声息推理更靠拢果然但也更难。
结语:果然全国从不静音
要是说当年的多模态模子更像一个擅长"看图话语"的解释员,那么 EgoSound 但愿鼓励它成为信得过的第一东谈主称智能体:
既能看,也能听;不仅能描写,更能定位、解释与预计。
毕竟,果然全国从不静音
论文标题:
EgoSound: Benchmarking Sound Understanding in Egocentric Videos
Paper:
https://www.arxiv.org/abs/2602.14122
Github:
https://github.com/groolegend/EgoSound/
Huggingface:
https://huggingface.co/datasets/grooLegend/EgoSound
Project page:
https://groolegend.github.io/EgoSound/
一键三连「点赞」「转发」「严防心」
迎接在褒贬区留住你的思法!
— 完 —
咱们正在招聘又名眼疾手快、温文 AI 的学术裁剪实习生 � �
感兴味的小伙伴迎接温文 � � 了解细则

� � 点亮星标 � �
科技前沿阐扬逐日见