Coin163

  • Hadoop集群完全分布式模式环境部署

    Hadoop简介         Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce

    日期:2015年07月25日
  • 基于hadoop2.7.2 api代码简单模拟rpc通信

    给Client; 不多说下面开始代码演示,首先在eclipse中建立项目,加入hadoop中基本的jar包,这里为了方便我是使用的eclipse-hadoop插件,具体方法参考本人另一篇文章,创建了M-R project,没有手工导入jar 首先编写server类,实现

    日期:2016年05月21日
  • 【Hadoop】9、hadoop1.2.1完全分布式安装过程异常报错 - 博客频道 - CSDN.NET

    StrictHostKeyChecking=no 192.168.0.130 OK了! 我的处理是由于/home下面的主文件夹的权限分配错误,我的是777,我们应该是700这个权限才是对的dwrx——的格式的xiaofeng文件夹的权限 2、启动Hadoop报错

    日期:2017年03月24日
  • Hadoop Partitioner组件

    的HashPartitioner 在org.apache.hadoop.mapreduce.lib.partition.HashPartitioner.java package org.apache.hadoop.mapreduce.lib.partition; import

    日期:2016年05月12日
  • hadoop生态系统学习之路(七)impala的简单使用以及与hive的区别

    上个月参与了公司的大数据接口平台项目,其中就使用到了impala提供实时查询接口。而且,在使用当中还遇到了关于impala版本的问题,主要是sql语法上的差异,目前已经到了2.4了,而我们公司集群环境使用的版本是1.3。 下面,笔者将分以下几个步骤进行介绍。 一、impala的基本概念与原理 Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的 Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query E

    日期:2017年03月14日
  • MapReduce之二——收入支出数据处理与自定义排序

    1.原始数据:trade_info.txt 帐号 收入 支出 时间 zhangsan@163.com 6000 0 2014-02-20 lisi@163.com 2000 0 2014-02-20 lisi@163.com 0 100 2014-02-20 zhangsan@163.com 3000 0 2014-02-20 wangwu@126.com 9000 0 2014-02-20 wangwu@126.com 0 200 2014-02-20 2.数据bean:Info

    日期:2015年06月07日
  • Spark vs. MapReduce 时间节约66%,计算节约40%

    本文转自http://www.csdn.net/article/2014-11-04/2822474,所有权力归原作者所有。虽然本文并没有讲什么实质的东西,但是可以拿来吹牛逼呀~  ⁽⁽ଘ( ˊᵕˋ )ଓ⁾⁾* 摘要:本文将介绍基于物品的协同过滤推荐算法案例在TDW Spark与MapReudce上的实现对比,相比于MapReduce,TDW Spark执行时间减少了66%,计算成本降低了40%。 MapReduce为大数据挖掘提供了有力的支持,但是复杂的挖掘算法往往需要多个MapReduce作业才能完成,多个作业之间存在着冗余的磁盘读写开销和多次资源申请过程,使得基于MapReduce的算法

    日期:2016年03月20日
  • hadoop 基本文件操作命令

    转自:http://blog.sina.com.cn/s/blog_68b4c68f0101429x.html hadoop 基本文件操作命令   (2012-05-15 09:58:38) 转载▼ 标签:  杂谈 分类:  Hadoop 1.将本地文件

    日期:2015年01月23日
  • 【Hadoop】6、Hadoop安装之报错处理 - 博客频道 - CSDN.NET

    的web界面无法访问了(7180端口的那个),hadoop还可以用,impala挂掉了 之前用大内存的虚拟机装上百节点的impala都是没问题的呀,估计是内存不足导致的(想起来之前装过一次单机2GB内存的集群,装完不久 cloudera manager就也打不开

    日期:2017年03月22日
  • 解决 linux 系统 centos 6.4 系统中 java -version和javac -version版本不一致

    问题描述:学习hadoop 的过程中,遇到问题,虚拟机下安装的centoS 6.4 ,安装的桌面版本,因该是安装的时候,自带                  了java,在安装jdk-7u80-linux-x64.tar.gz(java1.7.0_80

    日期:2015年07月05日
  • IBM BigInsights新增独门绝技:全面支持Hadoop On Power!

    前段时间BigInsights V4.1发布时,首次将强大的Hadoop扩展至Power平台之上,但仅限于产品中的开源组件,如HDFS/YARN/HBASE/HIVE等。如今最新产品更新包的发布使得BigInsights中的其他IBM增加组件:BigSQL

    日期:2016年07月18日
  • Ubuntu hadoop 伪分布式环境搭建步骤+ssh密钥(免密码登录)配置

    /home/hadoop/app 2)解压 tar zxvf jdk-7u55-linux-i586.tar.gz -C /home/hadoop/app zxvf分别是四个参数 x : 从 tar 包中把文件提取出来 z : 表示 tar 包是被 gzip 压缩

    日期:2017年03月16日
  • hadoop配置、运行错误总结 - 博客频道 - CSDN.NET

    一、hadoop集群在namenode格式化(bin/hadoop namenode -format)后重启集群会出现如下 (问题非常明显,基本无疑义)   Incompatible namespaceIDS in … :namenode

    日期:2017年03月28日
  • Hadoop启动时SSH免密码登录 - 博客频道 - CSDN.NET

    现在在学习大数据,买了一台云服务器,照着网上的教程安装的。现在在启动(start-all.sh)Hadoop的时候老是要求输入密码,后面在真实环境下不可能每一次通信都要求手动输入密码的,所以,免密码很重要: 现在直接上代码: ssh-keygen -t

    日期:2017年04月01日
  • hadoop学习之hadoop完全分布式集群安装

    要想深入的学习hadoop数据分析技术,首要的任务是必须要将hadoop集群环境搭建起来,可以将hadoop简化地想象成一个小软件,通过在各个物理节点上安装这个小软件,然后将其运行起来,就是一个hadoop分布式集群了。 说来简单,但是应该怎么做呢?不急

    日期:2015年08月31日
  • Windows下Eclipse连接hadoop

    Windows下Eclipse连接hadoop   hadoop在虚拟机上(远程连接也是一样只需要知道master的ip和core-site.xml配置即可。 Vmware上搭建了hadoop分布式平台:   192.168.11.134 master

    日期:2015年12月05日
  • 重拾hadoop hbase知识

    哎,最近连连失利啊。 hadoop集群启动jps查看后没有DATANODE 经常会遇到这样的情况,hadoop的datanode启动一阵子后,突然一会又down掉了这样的现象 主要原因是多次format namenode 造成namenode

    日期:2016年04月20日
  • Hadoop 新 MapReduce 框架 Yarn 详解

    简介: 本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架(Yarn) 原理,优势,运作机制和配置方法等;着重介绍新的 yarn 框架相对于原框架的差异及改进;并通过 Demo 示例详细描述了在新的 yarn 框架下搭建和开发

    日期:2016年05月26日
  • Hive-0.5中UDF和UDAF简述

    一、UDF 1、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括: a)文件格式:Text File,Sequence File b)内存中的数据格式: Java

    日期:2016年04月21日
  • hadoop-lzo-master 编译过程中遇到的问题

    : compile-java:     [javac] /data/hadoop-lzo-master/build.xml:243: warning: 'includeantruntime' was not set, defaulting to build.sysclasspath

    日期:2015年11月10日