A1:笑得海潮 B3:冒泡的崔 D2:Cornell University,Computer Vision Group H2:冰河的博客 G3:丕子博客 K1:MLA CHINA K4:斯坦福视觉实验室 L4:MIT 机器学习实验室
现在位置 >首页 > 所有关于爬虫的文章
cat_ico23 category
发表于241 天前 技术 评论数 5 ⁄ 被围观 319 次+
抓取网页碰到500错误时:User Agent
当你写蜘蛛程序的时候,会发现很多网页会碰到500错误,这个问题我初次碰到,把我好折磨,好不容易解决了,原来如此简单。 当使用 URL url = new URL("http://www.google.cn/search?hl=zh-CN&newwindow=1&q=北京&start=0&sa=N"); url.openStream() 时候发现报403访问拒绝错误,是由于谷歌对java 程序进行限制,缺少Agent。 解决办法: URL url = new URL("http://www.google.cn/search?hl=zh-CN&newwindow=1&q=北京&start=0&sa=N"); URLConnection con = url.openConnection(); co...
阅读全文
cat_ico23 category
发表于804 天前 技术 评论数 2 ⁄ 被围观 494 次+
Lucene2.9.1使用小结
开源全文搜索工具包Lucene2.9.1的使用。 1. 搭建Lucene的开发环境:在classpath中添加lucene-core-2.9.1.jar包    2. 全文搜索的两个工作: 建立索引文件,搜索索引.    3. Lucene的索引文件逻辑结构   1) 索引(Index)由若干块(片段)(Segment)组成   ★2) 块由若干文档(Document)组成: 一个文件映射成一个文档。数据库表中的一条记录映射成一个文档。   ★3) 文档由若干域(Field)组成:文件的属性(文件路径,文件的内容)映射成一个域。记录的某个字段映射成一个域。   ☆4) 域由若干词(关键字)(Term)组成:文件的属性的...
阅读全文

无觅相关文章插件,快速提升流量

不想听你唠叨×