A1:笑得海潮 B3:冒泡的崔 D2:Cornell University,Computer Vision Group H2:冰河的博客 G3:丕子博客 K1:MLA CHINA K4:斯坦福视觉实验室 L4:MIT 机器学习实验室
现在位置 >首页 > 所有关于信息检索的文章
cat_ico37 category
发表于148 天前 科研 评论数 3 ⁄ 被围观 371 次+
关于MINDS研讨会的讨论及报告下载
来自中文信息学会官方网站: 在董振东教授的发起和组织下,2011年8月20日晚上19:45~22:15在洛阳召开的第十一届全国计算语言学会议上,我们邀请几位国内学者,介绍了美国MINDS研究会的基本情况,并进行了讨论。 MINDS研讨会由美国国家情报总监科学技术办公室下属的突破性技术办公室(ODNI/ADDNI/S&T/DTO)发起。该研讨会全名“MINDS会议:人类语言技术的展望”,研讨会关注了设计处理和理解人类语言的所有研究领域,包括机器翻译(MT)、信息检索(IR)、自然语言处理(NLP)、数据资源(Data)、和语音识别(AS...
阅读全文
cat_ico37 category
发表于291 天前 科研 评论数 4 ⁄ 被围观 571 次+
搜索与NLP
看了科学网李维老师的一篇文章《立委科普:从产业角度说说NLP这个行当》,主要是是通过IR反射了NLP的应用以及光辉前景,转载至此,分享给大家。 前面一篇博文的 本意,是想借题发挥,从工业运用的角度说说 NLP(Natural Language Processing:自然语言处理)这个行当。不好意思,我算是这个行当在工业界的老古董了(学界不算,学界有的是NLP师爷和大牛)。跟我同期学习这 行的同门学长们有小20位,由于这个行当不能在工业界形成规模,他们无一例外都在不同时期改行了,我几乎是幸存在工业界的仅有的化石级元老,...
阅读全文
cat_ico23 category
发表于335 天前 技术 评论数 6 ⁄ 被围观 5,629 次+
Matrix67:漫话中文分词算法
我说点:常去Matrix67看一些有趣的数学问题,殊不知人家是北大中文系的,今天看到了一篇地道的关于中文分词的文章《漫话中文分词算法》,转载至此,作为收藏与分享。 记得第一次了解中文分词算法是在 Google 黑板报 上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上 再次学到中文分词算法,才知道这并不是中文分词算法研究的全部,前前后后还有很多故事可讲。在没有建立统计语言模型时,人们还在语言学的角度...
阅读全文
cat_ico10 category cat_ico23 category
发表于351 天前 创业, 技术 评论数 11 ⁄ 被围观 1,812 次+
晕,又出来个“盘古搜索”
已经体验过了,先说一下感受,总体来说很新颖,网页搜索很多东西当然是搜不出来的,结果列表的视觉设计很差,应该找一个比较好的设计师。图像搜索模仿的Bing(第一感觉是这样),时评微博搜索很不错,但是索引的微博貌似有点过时? 新华网北京2月22日电 “盘古开天 搜索世界”——2月22日,盘古搜索正式上线开通! 由新华通讯社和中国移动通信集团公司联手打造的搜索引擎——盘古搜索,经过紧张筹备,今日15时将正式面向广大互联网用户提供服务,届时新 华网将进行现场直播。盘古搜索整合了新华社的信息资源优势和中...
阅读全文
cat_ico23 category cat_ico37 category
发表于408 天前 技术, 科研 评论数 9 ⁄ 被围观 1,691 次+
通过WSDM2011论文录用情况分析目前信息检索趋势
WSDM (pronounced “wisdom”) is the premier international ACM conference covering research in the areas of search and data mining on the Web. 第四届将与2011年2月份在香港开会。虽然这个会议比较年轻,但是质量很高,在信息检索领域逐渐也流出一些优秀的作品,会议严格控制每次录用文章的数量和质量,oral的录用率应该在16%以下,下面是今年的论文录用情况,通过分析这个文章和结果,你可以把我现在信息检索领域需要解决的问题以及进展。 我个人分析了一下,一个最重要的进展就是对于Twitter和Social Net...
阅读全文
情境搜索与个性化推荐:旨在“索”,“搜”辅之
最近看新闻,“情境搜索”这个词的曝光率很高,最初为Google明年的奋斗目标,貌似是这样。情境搜索的大体意思是这样的:通过用户的浏览记录和用户的位置记录,将用户需要的信息自动推送给用户──即便用户根本没在搜索框里输入内容。就是说我打开谷歌,不用搜索,谷歌就知道 我的意图并给我推送一些有价值的信息。“情境发现”对于愈演愈烈的移动互联网来说,将会结合用户的地理位置等信息,推送出更加贴近用户需求的信息。 知道了大体的意思,首先想到的是又搜索变成了个性化推荐了,有不同之处是个性化推荐目前应用大...
阅读全文
多分类问题中查全率和查准率的理解(Precision-Recall)
这两天我真是犯糊涂了,加上我自己比较笨吧,一直对于这个多分类问题的最终每一类的查准率查全率理解的不好,今天终于理解透彻了,查全率查准率是从信息检索来的,那么我们就得先看看原来的是怎么定义的: 查全率——它是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。 查准率——它是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。 使用泛指性较强的检索语言(如上位类、上位主题词)能提高查全率,但查准率下降。 使用专指性较...
阅读全文
cat_ico23 category
发表于560 天前 技术 评论数 15 ⁄ 被围观 2,477 次+
TF-IDF 以及 文本相似性度量
因为最近在开发一个个性化文献推荐系统,所以考虑了怎么进行基于内容的用户推荐,简单的说就是怎么样描述文献和用户之间的相似度。 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量...
阅读全文

无觅相关文章插件,快速提升流量

不想听你唠叨×