参与和互动:视频理解的高阶对象交互
资料介绍:
参与和互动:视频理解的高阶对象交互(中文6100字,英文PDF)
摘要
人类行为通常涉及场景中几个相互关联的对象之间的复杂交互。然而,现有的细粒度视频理解或视觉关系检测方法通常依赖于单个对象表示或成对对象关系。此外,在数百帧的视频中跨多个对象进行学习交互在计算上是不可行的,并且由于必须对大的组合空间进行建模,因此性能可能会受到影响。在本文中,我们建议有效地学习任意子组之间的高阶交互,以便细粒度的视频理解。我们证明建模对象交互显着提高了动作识别和视频字幕的准确性,同时比传统的成对关系节省了3倍以上的计算量。所提出的方法在两个大规模数据集上得到验证:Kinetics和ActivityNet Captions。即使视频以最大1 FPS采样,我们的SINet和SINet-Caption也能在两个数据集上实现最先进的性能。据我们所知,这是在开放域大规模视频数据集上建模对象交互的第一个工作,我们还模拟了高阶对象交互,以低计算成本提高性能。
[资料来源:http://www.doc163.com]
[版权所有:http://DOC163.com]