文摘
人造物交互(海)检测是至关重要的以人为中心的图像理解旨在推断⟨人类,行动,对象⟩三胞胎在一个图像。最近的研究常常利用视觉特性和空间配置的一对人造物为了学习行动连接人类和对象。我们认为这样一个成对的范式特征提取和行动推理不仅可以应用在整个人类和对象实例级别,但也在部分层面的身体部位与一个对象,并在语义层面上通过考虑对象的语义标签以及人类的外表和人造物空间配置,来推断。我们因此提出一个多层次成对的功能网络(PFNet)检测人造物的交互。网络包括三个平行流描述海利用两两特征在上述三个层次;这三个流终于融合给行动的预测。广泛的实验表明,我们建议的PFNet优于V-COCO数据集上的其他先进的方法和达到类似的结果在HICO-DET最先进的数据集。
引用
- [1]
他,k . m .;张x y;任,s .问:;太阳,j .;深层残留图像识别的学习。:《IEEE计算机视觉与模式识别会议,770 - 778年,2016年。
- [2]
任,s .问:;他,k . m .;Girshick r;太阳,j .更快R-CNN:对实时检测与地区建议网络。IEEE模式分析与机器智能39卷,6号,1137 - 1149,2017。
- [3]
Redmon, j .;哈蒂,答:(YOLO9000更好,更快,更强。:《IEEE计算机视觉与模式识别会议,6517 - 6525年,2017年。
- [4]
Borji, a;程,m . m .;侯,问:b;江,h . z;李,j .显著目标检测:一项调查。计算视觉媒体5卷,2号,117 - 150,2019。
- [5]
徐,d . f .;朱,y . k .;白菜,c, b;菲菲,l .场景图生成迭代消息传递。:《IEEE计算机视觉与模式识别会议,3097 - 3106年,2017年。
- [6]
Peyre, j .;拉普帖夫海,即;施密德,c;使用类比Sivic, j .检测看不见的视觉关系。:《IEEE / CVF计算机视觉国际会议上,1981 - 1990年,2019年。
- [7]
曹国伟,y . w .;刘,y . f .;刘,x y;曾,h . y .;邓,j .学习检测人造物的交互。arXiv预印本arXiv: 1702.05448, 2017。
- [8]
Gkioxari g;Girshick r;美元,p;他,k . m .检测和识别人造物的交互。arXiv预印本arXiv: 1704.07333, 2017。
- [9]
妈,c . y .;Kadav, a;梅尔文,即;基拉,z;AlRegib g;伯爵,惠普出席和互动:高阶对象交互视频理解。:《IEEE / CVF计算机视觉与模式识别会议,6790 - 6800年,2018年。
- [10]
Mallya, a;Lazebnik,美国学习模型操作和person对象与转移的互动问答。:电脑Vision-ECCV 2016。课堂讲稿在计算机科学中,第9905卷。Leibe b;Matas, j .;n·瑟;威灵电机,m . Eds。beplay登入施普林格可汗,414 - 428,2016。
- [11]
高,c;邹,y l .;黄,j . b .我:Instance-centric关注网络人造物交互检测。arXiv预印本arXiv: 1808.10437, 2018。
- [12]
李,y l .;郑胜耀周;黄,x j .;徐,l;马,z;方,h . s .;王,y . f .;陆,c . w .可转让的交互性知识人造物交互检测。arXiv预印本arXiv: 1881.08264, 2019。
- [13]
王,t . c;出全新,r . m .;汗,m . h .;汗,f·s·;庞,y . w .;邵,l . et al。深语境关注人造物交互检测。:《IEEE / CVF计算机视觉国际会议上,5693 - 5701年,2019年。
- [14]
古普塔,t;a·g·等;Hoiem, d .经济型人造物交互检测:分解、布局编码,和培训技巧。:《IEEE / CVF计算机视觉国际会议上,9676 - 9684年,2019年。
- [15]
湾,b;周,d s;刘,y . f .;李,r . j .;他,x m . Pose-aware多层次网络为人类对象交互检测的特性。:《IEEE / CVF计算机视觉国际会议上,9468 - 9477年,2019年。
- [16]
周,p;气,m .关系解析人造物交互神经网络检测。:《IEEE / CVF计算机视觉国际会议上,843 - 851年,2019年。
- [17]
古普塔,美国;马利克,j .视觉语义角色标注。arXiv预印本arXiv: 1505.04474, 2015。
- [18]
赵,z . c;妈,h . m .;你,s . d .单一图像动作识别使用语义部位动作。:《IEEE计算机视觉与模式识别会议,3411 - 3419年,2017年。
- [19]
Luvizon特区;皮卡德,d;,材料(三合土)h . 2 d / 3 d姿势估计使用多任务深度学习和行为识别。:《IEEE计算机视觉与模式识别会议,5137 - 5146年,2018年。
- [20]
Abdulmunem, a;赖,y . k .;太阳,x f显著指导局部和全局描述符识别为有效行动。计算视觉媒体2卷,1号,97 - 106年,2016年。
- [21]
Girdhar r;Ramanan, d .注意力集中行动的认可。arXiv预印本arXiv: 1711.01467, 2017。
- [22]
Ulutan o .;Iftekhar, a . s . m .;希,b . s . VSGNet:空间关注网络检测人类对象交互使用图形曲线玲珑。:《IEEE计算机视觉与模式识别会议,13617 - 13626年,2020年。
- [23]
郑胜耀气;王,w . g .;贾,b . x;沈,j·b·;朱,s . c .学习人造物通过图表解析神经网络的交互。:电脑Vision-ECCV 2018。课堂讲稿在计算机科学中,卷》11213。法拉利,诉;赫伯特,m;Sminchisescu c;维斯,y。beplay登入施普林格可汗,407 - 423,2018。
- [24]
徐,b;黄,y;李,j .;赵,问:;Kankanhalli, m . s .学习检测人造物与知识的互动。:《IEEE / CVF计算机视觉与模式识别会议,2019 - 2028年,2019年。
- [25]
加藤,k;李,y;古普塔,a .组成学习人类对象交互。:电脑Vision-ECCV 2018。课堂讲稿在计算机科学中,卷》11218。法拉利,诉;赫伯特,m;Sminchisescu c;维斯,y。beplay登入施普林格可汗,247 - 264,2018。
- [26]
邦萨尔,a;Rambhatla s s;Shrivastava a;通过功能泛化Chellappa, r .检测人造物的交互。:《AAAI会议上人工智能,34卷,7号,10460 - 10469,2020。
- [27]
王,t . c;杨、t;Danelljan m;汗,f·s·;张x y;太阳,j .学习人造物交互检测使用交互点。:《IEEE / CVF计算机视觉与模式识别会议,4115 - 4124年,2020年。
- [28]
廖,y;刘,美国;王,f;陈,y . j .;钱,c;冯,j·s·PPDM:平行点检测和匹配的实时检测人造物交互。arXiv预印本arXiv: 1912.12898, 2020。
- [29]
他,k . m .;Gkioxari g;美元,p;Girshick r . b .“面具R-CNN”。IEEE模式分析与机器智能42卷,2号,386 - 397,2020。
- [30]
方,h . s .;谢,s .问:;大,y . w .;陆,c . w . RMPE:区域多人姿势估计。arXiv预印本arXiv: 1612.00137, 2016。
- [31]
方,h . s .;曹,j·k·;大,y . w .;陆,c . w .成对识别人造物的注意身体部分的交互。:电脑Vision-ECCV 2018。课堂讲稿在计算机科学中,卷》11214。法拉利,诉;赫伯特,m;Sminchisescu c;维斯,y。beplay登入施普林格可汗,52 - 68,2018。
- [32]
Mikolov t;Sutskever i;陈,k;柯拉g;院长,j . 2013。的分布式表示单词和短语和它们的组合性。:学报》第26届国际会议在神经信息处理系统中,2卷,3111 - 3119年,2013年。
- [33]
林,t . y .;Goyal p;Girshick r;他,k . m .;美元,p .焦损失茂密的目标检测。:《IEEE计算机视觉国际会议上,2999 - 3007年,2017年。
- [34]
林,t . y .;莫雅,m;Belongie,美国;海斯,j .;Perona一起,p;Ramanan d;Dollaar p;Zitnick c . l .微软可可:常见的对象上下文。:电脑Vision-ECCV 2014。课堂讲稿在计算机科学中,卷》8693。舰队,d;Pajdla t;Schiele b;Tuytelaars, t。beplay登入施普林格可汗,740 - 755,2014。
- [35]
Girshick r;Radosavovic i;Gkioxari g;美元,p;他,k . m . Detectron》2018。可以在https://github.com/facebookresearch/detectron。
- [36]
Kingma d p;英航,j·亚当:一个随机优化方法。arXiv预印本arXiv: 1412.6980, 2014。
- [37]
周,t·f·;王,w . g .;郑胜耀气;凌,h . b .;沈,j·b级联人造物交互识别。:《IEEE / CVF计算机视觉与模式识别会议,4262 - 4271年,2020年。
- [38]
沈,l;杨,美国;霍夫曼,j .;森g;菲菲,l .缩放人造物交互识别通过zero-shot学习。:《IEEE冬季会议在计算机视觉的应用,1568 - 1576年,2018年。
- [39]
李,y l .;刘,x p;陆,h;郑胜耀王;刘,j .问:;李,j·f·;2,c . w .详细d-3d联合表示人造物的互动。arXiv预印本arXiv: 2004.08154, 2020。
- [40]
李,y l .;徐,l;刘,x p;黄,x j .;徐,y;郑胜耀王;方,h . s .;马,z;陈,m . y;陆,c . w . PaStaNet:人类活动对知识引擎。arXiv预印本arXiv: 2004.00945, 2020。
确认
我们感谢那些评论家的建设性意见。这项工作得到了国家自然科学基金(项目号61902210),研究北京格兰特高等机构工程研究中心和Tsinghua-Tencent联合实验室为互联网创新技术。
作者信息
从属关系
相应的作者
额外的信息
Hanchao刘是一个掌握学生在计算机科学与技术,清华大学。他的研究兴趣包括图像和视频处理和计算机视觉。
Tai-Jiangμ是助理研究员的计算机科学与技术,清华大学,在那里他获得了他的学士和博士学位在计算机科学和技术在2011年和2016年,分别。他的研究兴趣包括视觉媒体学习,大满贯,人类与机器人之间的互动。
一位黄副教授在宾夕法尼亚州立大学信息科学与技术学院。她的研究兴趣在于生物医学图像分析、机器学习、计算机视觉。她有超过140的出版物,在这些领域拥有7项专利。她是一个副主编的计算机视觉和图像理解日报》。她收到了她的清华大学计算机科学学士学位,和她的主人,在罗格斯大学计算机科学博士学位。
权利和权限
开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。
本文中的图片或其他第三方材料都包含在本文的创作共用许可证,除非另有说明在一个信用额度的材料。如果材料不包括在本文的创作共用许可证和用途是不允许按法定规定或超过允许的使用,您将需要获得直接从版权所有者的许可。
查看本许可证的副本,访问http://creativecommons.org/licenses/by/4.0/。
其他从这个开放获取期刊论文是免费的http://www.beplay登入springer.com/journal/41095。提交一份手稿,请去https://www.editorialmanager.com/cvmj。
关于这篇文章
引用这篇文章
刘,H。,Mu, TJ. & Huang, X. Detecting human—object interaction with multi-level pairwise feature network.Comp。视觉媒体7,229 - 239 (2021)。https://doi.org/10.1007/s41095 - 020 - 0188 - 2
收到了:
接受:
发表:
发行日期:
关键字
- 人造物交互检测
- 成对的功能网络
- 深度学习
- 多层次的
- 对象实例