当前位置:Coin163 >> nutch

nutch专题文章列表

Nutch Crawler工作流程及数据结构

总体介绍: 1、先注入种子urls到crawldb 2、然后做如下循环: •generate 从crawldb中生成一个url的子集用于抓取 •fetch 抓取上一次的url并生成一个个segment •parse 分析已抓取segment的内容 •update 把已抓取的数据更新到原先的crawldb 3、从已抓取的segments中分析出link地图 4、索引segment文本及inlink锚文本

Nutch插件

Nutch的插件机制,具有很好的扩展性,这里讨论一下其实现机制。 首先读取nutch-default.xml文件中的plugin.folders,知道插件文件夹的存放位置。然后遍历这个文件夹下面的每个插件(一个插件对应一个文件夹,每个文件件下还有一个plugin.xml。于是N个插件对应N个plugin.xml。每个plugin.xml用一个PluginDescriptor的类来保留其信息。 必须要注意的是:nutch-default.xml中plugin.includes和plugin.excludes在这个过程当中使用到了,对于每个插件、根据其文件夹名来确定是否过滤该插件。
2013-11-24

Fetcher: No agents listed in 'http.agent.name' property.

ERROR fetcher.Fetcher (Fetcher.java:checkConfiguration(1396)) - Fetcher: No agents listed in 'http.agent.name' property. Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1398) at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1283) at org.apache.nutch.crawl.Crawl.run(Crawl.java:141)

编译hadoop源代码的错误:未结束的字符串字面值

compile-hdfs-classes: [javac] D:\open\hadoop\hadoop-1.2.1\build.xml:592: warning: 'includeantrunti me' was not set, defaulting to build.sysclasspath=last; set to false for repeata ble builds [javac] Compiling 217 source files to D:\open\hadoop\hadoop-1.2.1\build\clas ses [javac] D:\open\hadoop\hadoop-1.2.1\build\src\org\apache\hadoop\package-info .java:5: 未结束的字符串字面值
2013-11-24

nutch 1.7 eclipse二次开发

第三步:组合将apache-nutch-1.7-bin/lib中的所有jar包拷贝到apache-nutch-1.7-src/lib中将apache-nutch-1.7-bin/conf中的配置文件覆盖apache-nutch-1.7-src/conf中 第四步:导入eclipseeclipse : File -- New -- Java Project
2013-11-18
共5条记录 第1/1 页 每页20条记录 上一页 下一页 到第 GO

关于Coin163网站地图

Copyright 2012-2013 Coin163.com ( Coin163 ) All Rights Reserved