Coin163

  • hadoop学习笔记 (2.7.1源代码编译 Ubuntu)

    在编译源代码的时候与到了很多错误。下面列出我遇到的错误: 问题1: no plugin descriptor found at meta-inf/maven/plugin.xml 遇到这个错误的时候,是因为没有编译hadoop

    日期:2015年11月19日
  • 使用sqoop将mysql数据导入到hadoop - 博客频道 - CSDN.NET

    hadoop的安装配置这里就不讲了。 Sqoop的安装也很简单。 完成sqoop的安装后,可以这样测试是否可以连接到mysql(注意:mysql的jar包要放到 SQOOP_HOME/lib 下): sqoop list-databases

    日期:2017年04月04日
  • centos 6.5+hadoop2.4.1环境配置

    参考下面网站配置即可, 但注意在运行wordcount时,使用hdfs路径时, 最好使用 绝对路径,如我的两条命令: hadoop jar share/hadoop/mapreduce/hadoop

    日期:2016年04月27日
  • Hadoop MapReduce示例程序WordCount.java手动编译运行解析

    org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import

    日期:2015年05月10日
  • Hadoop MapReduce进阶 使用DataJoin包实现Join

    概念: Hadoop有一个叫DataJoin的包为Data Join提供相应的框架。它的Jar包存在于contrib/datajoin/hadoop-*-datajoin。 为区别于其他的data join技术,我们称其为reduce-side join

    日期:2014年12月09日
  • Hadoop框架下运行MapReduce程序

    本文介绍了在Linux中Hadoop环境下,利用mapReduce框架写wordCount应用程序的主要方法,并且提供程序的解释说明。 首先在工程中创建一个package:my.examples.hadoop.mr,在这个包下新建一个class

    日期:2016年04月14日
  • HDFS与RPC理解

    1.对hdfs操作的命令格式是hadoop fs     1.1 -ls        <path>    表示对hdfs下一级目录的查看     1.2 -lsr    <path>    表示对hdfs目录的递归查看     1.3    -mkdir

    日期:2016年07月18日
  • Hadoop分布式文件系统HDFS的工作原理 - 博客频道 - CSDN.NET

    Hadoop分布式文件系统HDFS的工作原理   Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。它能提供高吞吐量的数据访问,非常适合大规模数据集上的应用

    日期:2017年03月28日
  • Hadoop生态系统介绍

    1、Hadoop生态系统概况 Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有 可靠、高效、可伸缩的特点。 Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。 下图为hadoop的生态系统: 2、HDFS

    日期:2016年05月13日
  • ubuntu搭建单机版hadoop

    http://www.cnblogs.com/kinglau/p/3794433.html 亲测有效, 注意如果路径设置不正确会出现: 找不到或无法加载主类 org.apache.hadoop.util.RunJar,(如果出现该问题,检查各个路径设置是否

    日期:2016年05月03日
  • hadoop学习之hadoop完全分布式集群安装

    hadoop学习之hadoop完全分布式集群安装 注:本文的主要目的是为了记录自己的学习过程,也方便与大家做交流。转载请注明来自: http://blog.csdn.net/ab198604/article/details/8250461   要想深入的学习

    日期:2015年09月28日
  • Spark Programming Guide (Python) Spark编程指南 (一)

    PySpark编程前的细节:   1.  首先对PySpark输出内容进行简化: Spark(和PySpark)的执行可以特别详细,很多INFO日志消息都会打印到屏幕。 为了减少Spark输出,可以设置/usr/local/spark下的log4j。首先,拷贝一份/usr/local/spar/conf/log4j.properties.template文件,去掉“.template”扩展名。 cp ./conf/log4j.properties.template./conf/log4j.properties   编辑新文件,用WARN替换代码中出现的INFO。 gedit ./conf/lo

    日期:2016年05月15日
  • 14.RDD 深度解密

    速度。 提示:spark的位置感知比hadoop的位置感知好很多,hadoop进行partition的时候,就不管位置在哪里,spark进行partition的时候,进行下一步stage操作,是会确定这个位置的,它更精致化。   2:Spark

    日期:2016年04月22日
  • 集群Hadoop安装错误总结

    refused; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused 这个错误在执行hadoop dfsadmin -report的时候会出现,此时WebUI(50070端口)无法

    日期:2015年05月16日
  • 设置Hadoop用户以便访问任何HDFS文件 - 博客频道 - CSDN.NET

    Hadoop分布式文件系统实现了一个和POSIX系统类似的文件和目录的权限模型。每个文件和目录有一个所有者(owner)和一个组(group)。文件或目录对其所有者、同组的其他用户以及所有其他用户分别有着不同的权限。对文件而言,当读取这个文件时需要有r权限

    日期:2017年03月28日
  • eclipse导入hadoop示例源码on ubuntu14.04

    hadoop自带了example程序,给我们分析map-reduce程序带了许多方便,本文讲述怎么在eclipse导入example.jar源代码 on ubuntu14.04: 1. 将hadoop自带的包导入到eclipse: 在新建的工程中,右键工程名

    日期:2015年12月02日
  • Hive数据倾斜问题总结

     1数据倾斜的原因 1.1操作: 关键词:Join 情形:其中一个表较小,但是key集中--->后果:分发到某一个或几个Reduce上的数据远高于平均值 情形:大表与大表,但是分桶的判断字段0值或空值过多--->后果:这些空值都由一个reduce处理,灰常慢 关键词:group by 情形:group by 维度过小,某值的数量过多--->后果:处理某值的reduce灰常耗时 关键词:Count Distinct 情形:某特殊值过多--->后果:处理此特殊值的reduce耗时 1.2原因: 1)、key分布不均匀 2)、业务数据本身的特性 3)、建表时考虑不周 4)、某些SQL语句本身就有

    日期:2016年07月11日
  • Hadoop常见错误及解决办法汇总 - 博客频道 - CSDN.NET

    :org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start Container 问题原因:namenode,datanode时间同步问题9 d5 X q l” h; D8 w 解决办法:多个datanode与namenode进行时间同步,在每台服务器执行

    日期:2017年04月01日
  • Hadoop集群完全分布式模式环境部署

    Hadoop简介         Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce

    日期:2015年07月25日
  • 基于hadoop2.7.2 api代码简单模拟rpc通信

    给Client; 不多说下面开始代码演示,首先在eclipse中建立项目,加入hadoop中基本的jar包,这里为了方便我是使用的eclipse-hadoop插件,具体方法参考本人另一篇文章,创建了M-R project,没有手工导入jar 首先编写server类,实现

    日期:2016年05月21日