Coin163

Nutch调试常用命令

2016-03-09by coin, 次阅读

1、查看crawldb命令:
 $bin/nutch readdb <crawldb> (-stats | -dump <out_dir> | -topN <nnnn> <out_dir> [<min>] | -url <url>)

  查看CrawlDb统计信息
  $bin/nutch readdb  myCrawl/crawldb -stats


    导出CrawlDb信息
    $bin/nutch readdb  myCrawl/crawldb -dump  myDump/crawldb
 
2、查看linkdb命令
    $bin/nutch readlinkdb <linkdb> (-dump <out_dir> | -url <url>)
    如:
    $bin/nutch readlinkdb myCrawl/linkdb -dump myDump/linkdb
    $cat myDump/linkdb/part-00000

3、查看segment内容
    bin/nutch readseg -dump myCrawl/segments/20160308205628/ myDump/segments
    vi myDump/segments/*

4、读取爬取的数据到solr索引
    $bin/nutch solrindex http://192.168.0.123:9090/solr/test/ myCrawl/crawldb/
   -linkdb myCrawl/linkdb/  -dir myCrawl/segments/ -filter -normalize

5、测试parse解析 parsechecker
    bin/nutch parsechecker http://haohaoxuexi.iteye.com/blog/2270446

6、测试index索引 indexchecker
  包含了步骤parse
    bin/nutch indexchecker http://haohaoxuexi.iteye.com/blog/2270446

7、执行crawl所有相关命令 (包含抓取和加入solr索引中)
    crawl <seedDir> <crawlDir> <solrURL> <numberOfRounds>
    bin/crawl  urls/ myCrawl/ http://192.168.0.123:9090/solr/test/  1

nutch工作原理、工作流程图
nutch



------分隔线----------------------------
栏目列表