A1:笑得海潮 B3:冒泡的崔 D2:Cornell University,Computer Vision Group H2:冰河的博客 G3:丕子博客 K1:MLA CHINA K4:斯坦福视觉实验室 L4:MIT 机器学习实验室
现在的位置: 首页技术, 科研>正文
cat_ico23 category cat_ico37 category
CVPR2010一篇论文的读书笔记:关于Action Classification
发表于528 天前 技术, 科研 评论数 14 ⁄ 被围观 3,382 次+

这两天已经开始了自己新的研究工作,自己新的一个研究点是关于 Image Action Classification的,具体就是静态图像中动作信息的识别与分类,这个归根到底应该是Stanford视觉实验室的FeiFeiLi开始“推广”的,今年她挖了一个空,我也跟着跳下去了,当然是不奔着这个空,是因为很久之前就有做这个的想法,以为还没有正儿八经的作品出来,自己做做比较有挑战性,没想到菲菲老师已经推广开来,说明今年会有很多人涌入进来,但是自己已经开始思考了,也就尝试下自己的方法吧。

今天刚读了一篇文章《Modeling Mutual Context of Object and Human Pose in Human-Object Interaction Activities》(link),是菲菲老师的学生姚邦鹏写的,文章语言简单易懂,用了很多比较成熟的方法来解决新问题,获得了CVPR2010的优秀奖,不是优秀论文奖,应该是优秀贡献或者是鼓励奖之类的。下面记录下大体的方法:

论文要解决的问题是六类运动图像的分类问题,例如打网球、打排球、打棒球、接棒球等,这类问题需要很细致的描述和分析工作,因为打棒球和接球对于图像的内容来说都很接近,但是描述的动作确实不同。文章最核心的内容就是Mutual Context,可以理解为互信息或者关联信息,在文本检索、自然语言处理中相当于上下文信息。

首先,最重要的是对图像的描述,存在这么几类对象:球、人的姿态、人的肢体等。要详细描述这些的关联信息。文章中大体有这么几类函数来描述,假设类别用A表示,对象(例如 球)用O表示,人得姿态用H表示,那么首先描述的是(A,O)、(A, H)、(O, H)的关联度或者一致性,可以简单的用在训练集中的共现频率(co-occurrence frequencies)来描述。

再一个,很重要的,就是描述对象O和身体各部分P的关系,可以根据位置、方向、尺度三个层面进行加权综合描述。

不同的肢体部分之间(P,P),当然也要描述,可以用位置关系。

还要描述姿态H和肢体P的关系,这是理所当然的。

用Hill-climbing structure learning方法进行O、H、P的结构的学习,就是逐渐加边的过程。

对于参数,文章用了一种新的最大边界方法,类似SVM的方法,只不过因为一种活动可以有很多身体姿态,所以有点类似于多实例学习(Multi Instance Learning),应该能够很好的解决问题。

从实验结果来看,应该不错,能够达到83%,已经够用的了,用BOW解决此类问题,我也做过实验,几乎是随机的结果。

还有一个菲菲老师关于这个报告的视频:


Modeling Mutual Context of Object and Human Pose in Human-Object Interaction Activities

Fei-Fei Li

============

大致的文章情况就是这样,但是这种局限性也是存在的,一些基本的方法是必须使用的,像是特征描述子,必须用到梯度、位置关系等信息,关键是怎么更有效更准确的描述呢,下一步我要解决这类问题,思考一个更好的特征描述子,通过其他机器学习方法学习做一些特征选择和参数估计。

CVPR2011交稿日期为2010.11.11,忽然发现时间很紧张。加油,正好可以顺利过渡到SIGIR2011,交稿日期为2011.1.17,这段时间开始准备托福和GRE的计划,一切都很有挑战性。

加油!!

CVPR2010一篇论文的读书笔记:关于Action Classification:目前有14 条留言

  1. mflex : 2010年08月28日8:22 下午 回复

    沙发... 大的方向进展越来越慢,于是大家纷纷开始转向越来越细的子领域了。

    • 丕子 : 2010年08月28日8:26 下午 回复

      晕 你够快的阿 嗯 感觉难度大点

  2. QiQiBoY : 2010年08月28日10:54 下午 回复

    看来是从事高深领域研究的。。膜拜。。 :mrgreen:

    • 丕子 : 2010年08月29日12:08 上午 回复

      呵呵 没那么夸张 只是做该做的事情 :)

  3. FORECE : 2010年08月29日12:18 上午 回复

    这玩意也太高级了,不适合我这种只会重装电脑的人。。。。

    • 丕子 : 2010年08月29日6:52 上午 回复

      不同方向感觉不同而已 呵呵 你的方向我也不懂

  4. Holmes : 2010年08月29日11:49 上午 回复

    犀利~请问博主的论文发表情况如何哩?想去什么档次的学校? 共勉~!

    • 丕子 : 2010年08月29日11:51 上午 回复

      论文一般了 正在努力,学校越好越好啊 大部分前一百之内吧 还是没太有信息

  5. 哲哲 : 2010年08月30日8:36 上午 回复

    还是不懂这些··

  6. 我心飞翔 : 2010年08月30日9:24 上午 回复

    又是一个很深度的问题

  7. guobo : 2011年08月01日3:07 下午 回复

    加油啊 博主

    呵呵 当初也联系了一下Li fei-fei,现在想想,我真是不知道 天高地厚~

  8. guobo : 2011年08月01日3:20 下午 回复

    博主有个事情问问你
    会议里面有
    Tutorials, Special Session, Workshop,Lecture Session,Poster Session,Oral
    这个Tutorials和Workshop是个什么形式呢?

    • 丕子 : 2011年08月01日3:37 下午 回复

      我个人理解 Tutorials 是一些教程,往往都是survey性质的东西。
      Workshop其实是伴随着回忆举办的不同的方向组,方向更垂直一些。有些regular没有中的可以投到这里,像是有专门的social network的Workshop等等。
      看Guobo同学在北海道,那边机器学习 视觉 信息检索等如何? 世界排名啊影响力啥的如何?

  9. 北美小子 : 2011年10月20日3:46 下午 回复

    文章中有个小文字错误:”在这么几类对象:球、人的姿态、人”得“肢体等“

给我留言


/ 快捷键:Ctrl+Enter

无觅相关文章插件,快速提升流量

不想听你唠叨×