Coin163

  • 启动Hadoop HDFS时的“Incompatible clusterIDs”错误原因分析

    “Incompatible clusterIDs”的错误原因是在执行“hdfs namenode -format”之前,没有清空DataNode节点的data目录。 网上一些文章和帖子说是tmp目录,它本身也是没问题的,但Hadoop 2.4.0是data

    日期:2015年03月19日
  • hadoop节点中不关闭防火墙体验

    最近新增节点后,导致相关运行程序出现异常。 检查下来发现,一个很简单的问题导致,有一个节点运维人员忘记关闭防火墙了。 如果不关闭防火墙,有以下几种情况出现: 第一:hdfs的web管理页面,打不开该节点的文件浏览页面 第二:后台运行脚本(HIVE的),会出现莫名其妙的假死状态 第三:在删除和增加节点的时候,会让数据迁移处理时间更长,甚至不能正常完成相关操作 第四:不管你做任何操作,都是会运行不正常,而且很不顺手

    日期:2017年03月16日
  • Hadoop 序列化

    的作用是把结构化的对象转化成字节流 反序列化(Deserialization)序列化的逆进程将字节流转化成结构化对象(还原数据)。 hadoop序列化的特点: 紧凑:高效使用存储空间 快速:读写数据的额外开销小 可扩展:可透明的读取老格式的数据 互操作:支持

    日期:2016年06月25日
  • <JAVA>Hadoop安装配置(单机)

    /syveen/archive/2013/05/08/3068044.html http://www.cnblogs.com/kinglau/p/3794433.html 环境 :Vmware11下Ubuntu14.04 LTS, Hadoop2.7.1 一 :创建

    日期:2015年08月05日
  • Hadoop实战 Hadoop Pipes运行C++程序问题解决

                    原创博客,转载请注明:http://blog.csdn.net/zhang2010kang/article/details/45871549    说明:我使用的是hadoop-1.2.1,开发环境是OpenSuSE12.3

    日期:2015年05月20日
  • Avro:入门例子

    --设置用户访问数据库的形式 Alter database TestAA set SINGLE_USER with rollback immediate --设置单用户访问数据库 Alter database TestAA set RESTRICTED_USER with rollback immediate RESTRICTED_USER 只允许 db_owner 固定数据库角色成员以及 dbcreator 和 sysadmin 固定服务器角色成员连接到数据库,不过对连接数没有限制。在 ALTER DATABASE 语句的终止子句所指定的时间范围内,所有数据库连接都将被断开。在数据库转换到

    日期:2016年07月23日
  • Spark 入门经典 WordCount 单机/伪分布式

    Spark 单机版本安装 安装Java Win7 下如何配置java环境变量 安装scala http://www.scala-lang.org/ 按步骤点确定即可 此时需要注意 hadoop2.6.x 只能使用 scala2.10.x , 否则会报错无法

    日期:2016年03月25日
  • hadoop 在win7 下安装 +eclipse 和 cygwin

    up vote 0 down vote favorite I'd like to install the custom OData service into the embedded Tomcat web container in Denodo 5.5. I've found that the instructions Denodo provides are somewhat confusing, and thus I'm posting to stackoverflow and including the answer in hopes that someone else finds it

    日期:2014年07月24日
  • Ubuntu下安装配置Hadoop

    Hadoop分布式计算平台是由Apache软件基金会开发的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构

    日期:2016年03月30日
  • (二)hue与HDFS、YARN集成配置与测试

    1、安装环境 hadoop2.5.0 centOS6.4 jdk7 hue3.7.0 2、hadoop配置 2.1、配置hdfs-site.xml <property> <name>dfs.replication</name> <value

    日期:2015年12月22日
  • docker创建与宿主机同域IP的container,解决ssh访问,免端口映射的方法

    如上图:创建名为有—name指定为hadoopnamenode的container; 该container的hostname是有-v指定的hadoopnamenode; 由-v指定要挂载的数据券/opt/running和/opt/soft分别到container中的相同路径; 用—net=node指定自定义网络,下面会说明配置过程; 用--add-host指定container中/etc/hosts的IP和别名;   创建完container后在宿主机执行如下脚本,为各container配置网络: 该文件有需要的可以找我 主动启动ssh服务, 然后就有了和用实体机一样的感受。

    日期:2016年01月15日
  • 3.The Hadoop Distributed File System

    namenode的数据有所延迟,所有数据恢复以后肯定会有数据丢失 3.3. The Command-line Interface 以伪分布式为例 基本的文件系统操作: 1) 将本地数据拷贝到hdfs上 % hadoop fs -copyFromLocal input

    日期:2009年12月10日
  • hadoop集群数据迁移

    hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar  如果想在两个运行着不同版本HDFS的集群上利用distcp,使用hdfs协议是会失败的,因为RPC系统是不兼容的。想要弥补这种情况,可以

    日期:2015年08月30日
  • 数据湖(Data Lake)前世今生解析(下)

     近日EMC发布了数据湖2.0策略,新一代Isilon横向扩展NAS数据湖产品横跨边缘、核心和云实现数据高弹性流动;并将在2016年初推出对应的Isilon软件产品:Isilon SD Edge、下一代Isilon操作系统Isilon OneFS.Next和Isilon CloudPools全面进入“数据湖2.0”时代。 在上期我们讨论过,使用Isilon构建的横向扩展数据湖可以满足业务数据在未来的增长而扩展容量、性能和保护需求。数据湖的边际在数据湖2.0架构中得到更强的扩展,Isilon将非结构化数据在核心数据中心的应用扩展至分支机构等边缘位置系统,并归档至云中。Isilon数据湖2.0

    日期:2015年12月25日
  • Hadoop备战:RPC机制

    第一部分:什么是RPC          RPC  (Remote Procedure Call Protocol)  –  远程过程协议调用  。通过  RPC  我们可以从网络上的计算机请求服务,而不需要了  解底层网络协议。  Hadoop  底层

    日期:2014年05月23日
  • Hadoop部署目录的作用

    一、Hadoop home 目录          这是Hadoop home软件安装所在的目录,尽管名称里含有home,但通常不要将Hadoop安装在用户的home目录。当配置正确后,该目录是只读的,如果Hadoop是通过包来安装的,那么该目录通常在

    日期:2016年03月03日
  • hadoop2.7.1伪分布式配置

    Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode。 Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,伪

    日期:2015年07月30日
  • yarn的工作流程

    问题导读YARN上的应用程序主要分为几类,分别是什么?YARN将分几个阶段运行该应用程序?YARN的工作流程分为八个步骤,分别是什么? 运行在YARN上的应用程序主要分为两类:(1)短应用程序(2)长应用程序 短应用程序是指一定时间内(可能是秒级、分钟级或小时级等)可运行完成并正常退出的应用程序,比如MapReduce作业、Tez DAG作业等. 长应用程序是指不出意外,永不终止运行的应用程序,通常是一些服务,比如StormService(主要包括Nimbus和Supervisor两类服务),HBaseService(包括Hmaster和RegionServer两类服务)等,而它们本身作为一个

    日期:2016年02月07日
  • hadoop Configured Configrable Configuration Tool 源码详解

    ); System.exit(res); } 为什么要这么写?这些类与接口内部是怎样实现的?他们之间是什么关系?相信不少小伙伴都对此会有疑问。为此,我结合相关源码,试图为大家缕缕hadoop里的作业具体是怎样配置的。这些Configured,Configrable,Tool

    日期:2016年05月19日
  • 转:基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

    基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎   网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源

    日期:2015年07月16日