这两天已经开始了自己新的研究工作,自己新的一个研究点是关于 Image Action Classification的,具体就是静态图像中动作信息的识别与分类,这个归根到底应该是Stanford视觉实验室的FeiFeiLi开始“推广”的,今年她挖了一个空,我也跟着跳下去了,当然是不奔着这个空,是因为很久之前就有做这个的想法,以为还没有正儿八经的作品出来,自己做做比较有挑战性,没想到菲菲老师已经推广开来,说明今年会有很多人涌入进来,但是自己已经开始思考了,也就尝试下自己的方法吧。
今天刚读了一篇文章《Modeling Mutual Context of Object and Human Pose in Human-Object Interaction Activities》(link),是菲菲老师的学生姚邦鹏写的,文章语言简单易懂,用了很多比较成熟的方法来解决新问题,获得了CVPR2010的优秀奖,不是优秀论文奖,应该是优秀贡献或者是鼓励奖之类的。下面记录下大体的方法:
论文要解决的问题是六类运动图像的分类问题,例如打网球、打排球、打棒球、接棒球等,这类问题需要很细致的描述和分析工作,因为打棒球和接球对于图像的内容来说都很接近,但是描述的动作确实不同。文章最核心的内容就是Mutual Context,可以理解为互信息或者关联信息,在文本检索、自然语言处理中相当于上下文信息。
首先,最重要的是对图像的描述,存在这么几类对象:球、人的姿态、人的肢体等。要详细描述这些的关联信息。文章中大体有这么几类函数来描述,假设类别用A表示,对象(例如 球)用O表示,人得姿态用H表示,那么首先描述的是(A,O)、(A, H)、(O, H)的关联度或者一致性,可以简单的用在训练集中的共现频率(co-occurrence frequencies)来描述。
再一个,很重要的,就是描述对象O和身体各部分P的关系,可以根据位置、方向、尺度三个层面进行加权综合描述。
不同的肢体部分之间(P,P),当然也要描述,可以用位置关系。
还要描述姿态H和肢体P的关系,这是理所当然的。
用Hill-climbing structure learning方法进行O、H、P的结构的学习,就是逐渐加边的过程。
对于参数,文章用了一种新的最大边界方法,类似SVM的方法,只不过因为一种活动可以有很多身体姿态,所以有点类似于多实例学习(Multi Instance Learning),应该能够很好的解决问题。
从实验结果来看,应该不错,能够达到83%,已经够用的了,用BOW解决此类问题,我也做过实验,几乎是随机的结果。
还有一个菲菲老师关于这个报告的视频:
![]()
Modeling Mutual Context of Object and Human Pose in Human-Object Interaction Activities
Fei-Fei Li
============
大致的文章情况就是这样,但是这种局限性也是存在的,一些基本的方法是必须使用的,像是特征描述子,必须用到梯度、位置关系等信息,关键是怎么更有效更准确的描述呢,下一步我要解决这类问题,思考一个更好的特征描述子,通过其他机器学习方法学习做一些特征选择和参数估计。
CVPR2011交稿日期为2010.11.11,忽然发现时间很紧张。加油,正好可以顺利过渡到SIGIR2011,交稿日期为2011.1.17,这段时间开始准备托福和GRE的计划,一切都很有挑战性。
加油!!






沙发... 大的方向进展越来越慢,于是大家纷纷开始转向越来越细的子领域了。
晕 你够快的阿 嗯 感觉难度大点
看来是从事高深领域研究的。。膜拜。。
呵呵 没那么夸张 只是做该做的事情
这玩意也太高级了,不适合我这种只会重装电脑的人。。。。
不同方向感觉不同而已 呵呵 你的方向我也不懂
犀利~请问博主的论文发表情况如何哩?想去什么档次的学校? 共勉~!
论文一般了 正在努力,学校越好越好啊 大部分前一百之内吧 还是没太有信息
还是不懂这些··
又是一个很深度的问题
加油啊 博主
呵呵 当初也联系了一下Li fei-fei,现在想想,我真是不知道 天高地厚~
博主有个事情问问你
会议里面有
Tutorials, Special Session, Workshop,Lecture Session,Poster Session,Oral
这个Tutorials和Workshop是个什么形式呢?
我个人理解 Tutorials 是一些教程,往往都是survey性质的东西。
Workshop其实是伴随着回忆举办的不同的方向组,方向更垂直一些。有些regular没有中的可以投到这里,像是有专门的social network的Workshop等等。
看Guobo同学在北海道,那边机器学习 视觉 信息检索等如何? 世界排名啊影响力啥的如何?
文章中有个小文字错误:”在这么几类对象:球、人的姿态、人”得“肢体等“