A1:笑得海潮 B3:冒泡的崔 D2:Cornell University,Computer Vision Group H2:冰河的博客 G3:丕子博客 K1:MLA CHINA K4:斯坦福视觉实验室 L4:MIT 机器学习实验室
现在位置 >首页 > 所有关于数据挖掘的文章
cat_ico37 category
发表于104 天前 科研 评论数 3 ⁄ 被围观 1,037 次+
CIKM 2011 Best Paper-优秀论文
CIKM也是DM领域好的会议了。今年在Scotland,明年再Hawaii。还没在CIKM上发过文章呢,失败。 UIUC ChengXiang Zhai老师的, Yuanhua Lv, ChengXiang Zhai, Lower Bounding Term Frequency Normalization, Proceedings of the 20th ACM International Conference on Information and Knowledge Management (CIKM'11), to appear. pdf 上海交大Ou Jin的: Ou Jin, Nathan Nan Liu, Yong Yu and Qiang Yang.  Transferring Topical Knowledge from Auxiliary Long Text for Short Text Understanding.  Proceedings...
阅读全文
cat_ico37 category
发表于148 天前 科研 评论数 3 ⁄ 被围观 371 次+
关于MINDS研讨会的讨论及报告下载
来自中文信息学会官方网站: 在董振东教授的发起和组织下,2011年8月20日晚上19:45~22:15在洛阳召开的第十一届全国计算语言学会议上,我们邀请几位国内学者,介绍了美国MINDS研究会的基本情况,并进行了讨论。 MINDS研讨会由美国国家情报总监科学技术办公室下属的突破性技术办公室(ODNI/ADDNI/S&T/DTO)发起。该研讨会全名“MINDS会议:人类语言技术的展望”,研讨会关注了设计处理和理解人类语言的所有研究领域,包括机器翻译(MT)、信息检索(IR)、自然语言处理(NLP)、数据资源(Data)、和语音识别(AS...
阅读全文
cat_ico37 category
发表于155 天前 科研 评论数 7 ⁄ 被围观 922 次+
数据挖掘的学生们可以竞赛赚一点费-kaggle.com
也做了几个比赛,在http://www.kaggle.com/上面,感觉还不错,都是和netflix比赛形式差不多的东西。当然里面牛人很多,想拿奖不太容易呢还。 现在正在进行的最大的一个比赛是Heritage Health Prize,题目的答题思想就是根据病人看病以及吃药住院等得数据预测明年病人住院的天数,从而可以更好的进行治疗和最省钱最省时间的方法。 还有几个比赛 Claim Prediction Challenge是预测什么车的保险还是什么的,也是很实际的问题。 Wikipedia's Participation Challenge是预测wiki未来某个用户的编辑次数的,挖掘编辑次...
阅读全文
关于“SVD奇异值分解(Singular value decomposition)”的几篇博文
下周要做讨论班的报告了,由于近期一直在弄英语,也没有看什么东西,但是发现svd在推荐系统中应用还是很重要的,算是从基础学起,先做个svd的报告,然后讲讲自己的一些关于cv的实验设计思路。我先从网上找了几篇svd的博文,分享给大家。 ======= 奇异值分解是将一矩阵分解为一个对角矩阵和两个正交矩阵,奇异值分解有着非常好的性质。 奇 异值分解(Singular value decomposition) 奇异值分解是线性代数中一种重要的矩阵分解, 在信号处理、统计学等领域有重要应用。奇异值分解在某些方面与对称矩阵或Hermite矩阵...
阅读全文
cat_ico37 category
发表于313 天前 科研 暂无评论 ⁄ 被围观 247 次+
One Class Collaborative Filtering 单类协同过滤
YangQiang教授指导的这篇ICDM2008的文章我2年前就拜读过,但当初对上面的方法不是特别感冒,所以也就没有记得特别清楚。最 近,KDD Cup的第二个track的问题和这篇Paper的研究问题很像,同时我在做KDD Cup时也设计了一个算法,感觉效果非常好,我准备把他称作基于采样的binarySVD算法。然后我准备研究一下这个算法是不是已经有人提出来了,因为 我隐约记得是看过类似的方法。结果我一查,发现果然是,标题里的那篇论文就是用的类似的方法,既然这个方法已经有人提出来了,我也就写篇博客再公开一下, 让更多人知道...
阅读全文
cat_ico23 category
发表于322 天前 技术 评论数 10 ⁄ 被围观 4,950 次+
首届全国大学生数据挖掘邀请赛
◎ 重要日期 2011年3月19日—2011年4月15日 在线注册(注册截止后关闭数据下载) 2011年3月22日 比赛开始 2011年4月27日 比赛结束 ◎ 竞赛背景 Amazon的数百万图书,Netflix的 10万部电影,淘宝的8亿件在线商品,以及数以亿万计用户的资料和行为记录……互联网公司最近十年的迅猛发展伴随着海量数据的积累。然而,在线用户常常面 对过多的选择而显得无所适从。心理学研究证实这类情境下的用户有时做出放弃交易的决定,从而造成大量潜在的用户流失。统计技术的发展能够为在线服务商提供 更有效的推荐算法,在帮助用户走...
阅读全文
cat_ico23 category
发表于332 天前 技术 评论数 4 ⁄ 被围观 2,996 次+
R语言的图形用户界面
R是一种面向统计学的开源编程语言和软件环境,它由语言,以及带调试器、绘图、系统函数访问和脚本的运行时环境组成。R语言在统计软件开发领域十分 受欢迎,也是数据挖据的重要分析工具。R语言是贝尔实验室开发的S语言的一个实现。统计学家使用R多是通过命令行,但对于刚刚起步的新手来说命令行太复杂 了,幸运的是,有许多图形用户界面可以让学习曲线变得更平些。 Linuxlinks的这篇文章收集了七款优秀的R语言图形用户界面,帮助初学者快速进入R语言环境。包括:集成开发环境RStudio,Gnome环境下的R语言数据挖据...
阅读全文
cat_ico37 category
发表于337 天前 科研 评论数 5 ⁄ 被围观 4,156 次+
从婴儿开始的语言记录
MIT认知科学家Deb Roy开展了一项持续了五年的研究,从儿子出生抱回家起,利用安装在每个房间内的鱼眼透镜,记录婴孩在房间内的每一步和每一句话。Roy用多种不同技术从200TB的原始数据中分析和提炼出有价值的信息。这项研究的目的是理解人类是如何学习语言的,他在上周的TED大会上分享了研究成果。 例如,利用Blitzscrib软件工具,可以从原始数据中捕捉到婴儿词汇的出现并如何逐步完善。在一个40秒的片段中,你可以听到他如何在半年时间内从无意义的gaga到能说出有意义“water”。在研究中,Roy注意到了一种下意识的...
阅读全文

无觅相关文章插件,快速提升流量

不想听你唠叨×