Coin163

  • hadoop节点中不关闭防火墙体验

    最近新增节点后,导致相关运行程序出现异常。 检查下来发现,一个很简单的问题导致,有一个节点运维人员忘记关闭防火墙了。 如果不关闭防火墙,有以下几种情况出现: 第一:hdfs的web管理页面,打不开该节点的文件浏览页面 第二:后台运行脚本(HIVE的),会出现莫名其妙的假死状态 第三:在删除和增加节点的时候,会让数据迁移处理时间更长,甚至不能正常完成相关操作 第四:不管你做任何操作,都是会运行不正常,而且很不顺手

    日期:2017年03月16日
  • Hadoop 序列化

    的作用是把结构化的对象转化成字节流 反序列化(Deserialization)序列化的逆进程将字节流转化成结构化对象(还原数据)。 hadoop序列化的特点: 紧凑:高效使用存储空间 快速:读写数据的额外开销小 可扩展:可透明的读取老格式的数据 互操作:支持

    日期:2016年06月25日
  • hadoop集群数据迁移

    hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar  如果想在两个运行着不同版本HDFS的集群上利用distcp,使用hdfs协议是会失败的,因为RPC系统是不兼容的。想要弥补这种情况,可以

    日期:2015年08月30日
  • Hadoop部署目录的作用

    一、Hadoop home 目录          这是Hadoop home软件安装所在的目录,尽管名称里含有home,但通常不要将Hadoop安装在用户的home目录。当配置正确后,该目录是只读的,如果Hadoop是通过包来安装的,那么该目录通常在

    日期:2016年03月03日
  • yarn的工作流程

    问题导读YARN上的应用程序主要分为几类,分别是什么?YARN将分几个阶段运行该应用程序?YARN的工作流程分为八个步骤,分别是什么? 运行在YARN上的应用程序主要分为两类:(1)短应用程序(2)长应用程序 短应用程序是指一定时间内(可能是秒级、分钟级或小时级等)可运行完成并正常退出的应用程序,比如MapReduce作业、Tez DAG作业等. 长应用程序是指不出意外,永不终止运行的应用程序,通常是一些服务,比如StormService(主要包括Nimbus和Supervisor两类服务),HBaseService(包括Hmaster和RegionServer两类服务)等,而它们本身作为一个

    日期:2016年02月07日
  • 如何监控你的Hadoop+Hbase集群?

    前言  监控hadoop的框架有不少,如CDH的CM组件和Ambari都可以监控他们自己的hadoop,但是它不能监控apache的hadoop,如果你是使用原生的Apache Hadoop,那么也没关系,原生的Hadoop天生就提供了非常详细的对接

    日期:2016年03月21日
  • HBase总结(十二)Java API 与HBase交互实例

    java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import

    日期:2016年04月25日
  • hadoop生态系统学习之路(一)Cloudera Manager一键安装 - 博客频道 - CSDN.NET

    接触大数据相关的东西,所以想抓住这个机会,让自己能够成为广大hadoop粉丝的一员。 对于学习任何东西,在笔者看来,在稍微对此技术有一点了解之后,第一步比较重要的就是搭环境,因为没有环境后面的学习无法继续。就向学习java,你不会使用eclipse,那是件很痛苦

    日期:2017年03月24日
  • 对Hadoop自带程序WordCount的解读(转载,自用)

    注:学习备忘自用。 原文链接:http://www.2cto.com/database/201403/287775.html 刚开始学习hadoop,对于Hadoop运行原理还不是特别熟悉,通过此例子可以对hadoop运行的原理有个初步的认知。 下面

    日期:2016年07月22日
  • Linux下hbase的配置

    今天给大家分享一下Linux下hbase数据库的配置,首先一个前提条件就是你的Linux下的hadoop配置成功并且可以跑起来。那么我们下面以centos系统为例开始配置hbase 1,  打开虚拟机,进入centosLinux系统,利用远程连接工具连接

    日期:2016年06月01日
  • python hadoop 在streaming中获取文件名的方法

    hadoop的开发中,经常要根据streaming中不同的文件名做不同的处理, 需要获取文件名,可参考java  版本中获取文件名的方法: 1、hadoop上在java开发可用:   FileSplit fileSplit = (FileSplit

    日期:2015年08月14日
  • hadoop生态系统学习之路(八)hbase与hive的数据同步以及hive与impala的数据同步

    'org.apache.hadoop.hive.hbase.HBaseSerDe' STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ( 'serialization.format'='\t

    日期:2017年03月16日
  • 生产环境下的hadoop 配置实战

    成百上千的hadoop集群维护方式:(技巧) 不维护每台机器的hosts 文件,取而代之的是建立一台dns 服务机,维护服务机来间接维护hosts , dns 服务机系统用 bind软件 来配置 数目巨大的ssh 的配置会是一件非常麻烦,非常容易出错的事情

    日期:2015年07月18日
  • hadoop学习笔记 (2.7.1源代码编译 Ubuntu)

    在编译源代码的时候与到了很多错误。下面列出我遇到的错误: 问题1: no plugin descriptor found at meta-inf/maven/plugin.xml 遇到这个错误的时候,是因为没有编译hadoop

    日期:2015年11月19日
  • 使用sqoop将mysql数据导入到hadoop - 博客频道 - CSDN.NET

    hadoop的安装配置这里就不讲了。 Sqoop的安装也很简单。 完成sqoop的安装后,可以这样测试是否可以连接到mysql(注意:mysql的jar包要放到 SQOOP_HOME/lib 下): sqoop list-databases

    日期:2017年04月04日
  • centos 6.5+hadoop2.4.1环境配置

    参考下面网站配置即可, 但注意在运行wordcount时,使用hdfs路径时, 最好使用 绝对路径,如我的两条命令: hadoop jar share/hadoop/mapreduce/hadoop

    日期:2016年04月27日
  • Hadoop MapReduce示例程序WordCount.java手动编译运行解析

    org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import

    日期:2015年05月10日
  • Hadoop MapReduce进阶 使用DataJoin包实现Join

    概念: Hadoop有一个叫DataJoin的包为Data Join提供相应的框架。它的Jar包存在于contrib/datajoin/hadoop-*-datajoin。 为区别于其他的data join技术,我们称其为reduce-side join

    日期:2014年12月09日
  • Hadoop框架下运行MapReduce程序

    本文介绍了在Linux中Hadoop环境下,利用mapReduce框架写wordCount应用程序的主要方法,并且提供程序的解释说明。 首先在工程中创建一个package:my.examples.hadoop.mr,在这个包下新建一个class

    日期:2016年04月14日
  • HDFS与RPC理解

    1.对hdfs操作的命令格式是hadoop fs     1.1 -ls        <path>    表示对hdfs下一级目录的查看     1.2 -lsr    <path>    表示对hdfs目录的递归查看     1.3    -mkdir

    日期:2016年07月18日