Coin163

  • [Nutch]Solr配置自定义的中文分词器mmseg4j

    start.jar & 6. 建立Solr索引 切换到Nutch的local目录,使用如下命令: bin/nutch solrindex http://192.168.238.128:8983/solr data/crawldb -linkdb data/linkdb

    日期:2017年03月16日
  • [Nutch]编译hadoop出现object[]无法转换为K[]问题解决

    1. 问题描述 在使用JDK8编译hadoop 1.2.1的时候会出现object[]无法转换为K[]的问题,如下: 2. 问题解决 (1)打开hadoop目录下的InputSampler.java文件,路径如下: hadoop-1.2.1\src\mapred\org\apache\hadoop\mapreduce\lib\partition\InputSampler.java (2)大概319行找到如下内容: final InputFormat inf = ReflectionUtils.newInstance(job.getInputFormatClass(),

    日期:2017年03月16日
  • [Nutch]Nutch2.3+Hadoop+HBase+Solr在Ubuntu环境搭建

    上一篇博文介绍了在Windows 10系统下用Cygwin搭建Nutch开发环境,本文将介绍在Ubuntu下Nutch2.3的开发环境的搭建。 1. 需要的软件及其版本 Ubuntu 15.04 hadoop 1.2.1 hbase 0.94.27

    日期:2017年03月10日
  • [Nutch]Hadoop单机伪分布式模式的使用(deploy)

    在上一篇博文我们对Nutch进行了hadoop的配置,那么本文就对nutch的deploy模式的使用进行说明。 1. 配置抓取链接 先进入nutch的deply目录: cd nutch/runtime/deploy 和在local模式一样 ,我们先建立一个

    日期:2017年03月10日
  • [Nutch]Hadoop单机伪分布模式的配置 - 博客频道 - CSDN.NET

    在之前的博文中,我们一直在使用Nutch的local模式,那么Nutch的Deploy模式该怎么使用呢?首先我们来配置hadoop,为使用Nutch的deploy模式做准备。 1. 下载hadoop 在workspace目录使用如下命令下载hadoop

    日期:2017年03月20日
  • [Nutch]Hadoop单机伪分布模式的配置 - 博客频道 - CSDN.NET

    在之前的博文中,我们一直在使用Nutch的local模式,那么Nutch的Deploy模式该怎么使用呢?首先我们来配置hadoop,为使用Nutch的deploy模式做准备。 1. 下载hadoop 在workspace目录使用如下命令下载hadoop

    日期:2017年03月25日
  • [Nutch]限制Hadoop结点连接 - 博客频道 - CSDN.NET

    在上一篇博文我们有说明如何动态增加一个DataNode结点和TaskTracker结点,本次就来说明一下如何限制hadoop结点的连接。 1. 配置hdfs-site.xml文件 新增如下内容: <property> <name>dfs.hosts</name> <value>/home/hadoop/workspace/hadoop-1.2.1/conf/include</value> </property> <property> <name>dfs.hosts.exclude</name> <value>/home/hadoop/workspace/hadoop-1.2.1

    日期:2017年03月20日
  • [Nutch]Hadoop多机完全分布式模式hadoop配置 - 博客频道 - CSDN.NET

    1. 下载hadoop 使用如下命令: wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz 使用如下命令解压: tar -zxvf hadoop-1.2.1.tar.gz 2. 配置hadoop 将hadoop的bin目录加入到配置文件中,使用如下命令: vim .bashrc 添加如下行: export PATH=/home/hadoop/workspace/hadoop-1.2.1/bin:$PATH 如下: 使用如下命令使其生效: source .bashrc 验证had

    日期:2017年03月20日
  • [Nutch]Hadoop动态删除DataNode节点和TaskTracker节点 - 博客频道 - CSDN.NET

    在之前的博文有说明动态添加一个结点,本次就说明如何动态删除一个结点。 在上一篇博文有讲解如何限制一个结点的连接,要动态删除一个结点,可以在这个基础之上进行配置。 1. 在host1上配置dfs.hosts.exclude 在dfs.hosts.exclude指定的文件中添加host4: 再执行如下命令: hadoop dfsadmin -refreshNodes 然后用如下命令进行查看: hadoop dfsadmin -report 如下: 2. web界面 从web管理界面可以看到,目前只有3个结点了,host4已经没有了: 3. 从slaves文件中移除host4 4. 从dfs

    日期:2017年03月20日
  • [Nutch]Hadoop多机完全分布式模式主机配置 - 博客频道 - CSDN.NET

    在上一篇博文中我们有介绍hadoop的单机伪分布式模式的使用,那么现在我们就来看下多机完全分布式模式。 1. 多主机配置 1.1 对多台机器进行主机名设置 用root账户使用如下命令: vim /etc/hostname 分别对三台机器设置为:host1、host2、host3 1.2 配置主机映射 用root账户使用如下命令: vim /etc/hosts 分别配置三台机器: host1: host2: host3: 2. 配置ssh 2.1 产生密钥 使用如下命令: ssh-keygen -t rsa 其他设置都使用默认值,不设置密码,如下: 2.2 复制密钥 使用如下命令: cp .s

    日期:2017年03月20日
  • [Nutch]Apache Solr的安装和配置 - 博客频道 - CSDN.NET

    apache-solr-3.6.2.tgz 3. Solr的内容 查看目录下面的内容: 很重要的就是example目录,我们来看下有哪些文件: 从里面就可以看到solr目录了。 4. Solr的配置 (1)复制nutch的conf目录下面的schema.xml文件到solr/conf目录

    日期:2017年03月17日