Coin163

  • Hive-0.5中UDF和UDAF简述

    一、UDF 1、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括: a)文件格式:Text File,Sequence File b)内存中的数据格式: Java

    日期:2016年04月21日
  • hadoop-lzo-master 编译过程中遇到的问题

    : compile-java:     [javac] /data/hadoop-lzo-master/build.xml:243: warning: 'includeantruntime' was not set, defaulting to build.sysclasspath

    日期:2015年11月10日
  • Centos6.5安装Hadoop配置集群环境

    up vote 0 down vote favorite Short Version Does BeginReceiveFrom() handle per client? My understanding was its callback was triggered based on the endpoint that was ref. Can you have 2 OnReceive Callbacks going simultaneous? (below outlines my issues in detail) Long Version I'm trying to create a UD

    日期:2016年06月23日
  • Hadoop namenode 不能启动解决方案 - 博客频道 - CSDN.NET

          每次机器重启了,namenode都启动不了,造成到原因可能是:      在core-site.xml配置中hadoop.tmp.dir的目录在系统启动时被清空 <property> <name>hadoop.tmp.dir</name

    日期:2017年04月04日
  • Hadoop开启、关闭调试信息方法

      未标题-2.jpg (60.35 KB, 下载次数: 9) 下载附件 2016-1-14 17:36 上传 Bugly 技术干货系列内容主要涉及移动开发方向,是由 Bugly 邀请腾讯内部各位技术大咖,通过日常工作经验的总结以及感悟撰写而成,内容均属原创,转载请标明出处。 0、写在前面 本文涉及到屏幕密度的讨论,这里先要搞清楚 DisplayMetrics 的两个变量,摘录官方文档的解释: density:The logical density of the display. This is a scaling factor for the Density Independent Pixe

    日期:2016年02月24日
  • Apache Hadoop 2.2.0 HDFS HA + YARN多机部署

    : 个人实验环境部署图: ubuntu12 32bit apache hadoop 2.2.0 jdk1.7 准备工作: 1.在4台机器都配置hosts; 2.配置NameNode节点可以免密码登录到其余所有节点,只需要单向免密登录即可,无需双向; 免密码登录仅仅在启动

    日期:2015年03月13日
  • Hive数据仓库笔记(一)

    =yarn \ -hiveconfyarn.resourcemanager.address=localhost:8032 设置会话期间的属性。   % hadoop fs -mkdir /tmp % hadoop fs -chmod a+w /tmp % hadoop

    日期:2016年06月27日
  • Hadoop 处理小文件 - 博客频道 - CSDN.NET

    问题: 小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。 任何一个

    日期:2017年03月30日
  • Hadoop使用MultipleOutputs输出多文件或者指定命名

    Hadoop使用MultipleOutputs输出多文件或者指定命名 @(博客文章)[hadoop] (一)输出多文件(未测试) 比如将不同国家的信息分别输出到一份对应的文件中。 1、在reduce或map类中创建MultipleOutputs对象,将结果

    日期:2016年04月20日
  • Hadoop基础知识(二)

    Hadoop Shell介绍 bin目录下的Hadoop脚本是最基础的集群管理脚本,用户可以通过该脚本完成各种功能,如HDFS文件管理、MapReduce作业管理等。该脚本的使用方法为: hadoop[–config confdir]COMMAND

    日期:2015年10月17日
  • 如何确定 Hadoop map和reduce的个数--map和reduce数量之间的关系是什么

    ,比如 jobconf.set(“mapred.map.tasks.nums”,20); 如果数据源是HBase的话,map的数量就是该表对应的region数量。 map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务的分布式

    日期:2014年12月09日
  • MapReduce过程、Spark和Hadoop以Shuffle为中心的对比分析 - 博客频道 - CSDN.NET

    up vote 0 down vote favorite My site is based on wordpress cms . it is a e-commerce site . i am using woocommerce plugin . site is working fine on all browser except safari . on chrome site looks like but when i use safari browser images looks like I am not getting any idea how to fix this issue . p

    日期:2017年03月23日
  • HBase总结(十一)hbase Java API 介绍及使用示例

    :org.apache.hadoop.hbase.HBaseConfiguration 作用:对HBase进行配置 返回值 函数 描述 void addResource(Path file) 通过给定的路径所指的文件来添加资源 void clear() 清空所有已设置的属性 string get(String name) 获取属性名对应的值

    日期:2016年04月25日
  • 集群安装:HA与Federation(测试)

    /ifcfg-eth0   修改网卡2: 设置好后重启网络服务:   看网卡的配置信息:     2)、修改主机名(修改/etc/hosts文件) (在三个节点同时操作) [root@hadoop2 ~]# vi /etc/hosts   # Do not remove

    日期:2016年02月07日
  • Hadoop学习总结之四:Map-Reduce的过程解析

    转自:博客园 觉先 Hadoop学习总结之四:Map-Reduce的过程解析 一、客户端 Map-Reduce的过程首先是由客户端提交一个任务开始的。 提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的: public

    日期:2015年01月20日
  • linux环境下配置eclipse

    linux环境下配置eclipse 标签(空格分隔): hadoop 1,配置JDK环境变量 2,安装maven项目管理工具 /etc/profile文件配置 export JAVA_HOME=/root/jdk1.7.0_67 export

    日期:2016年04月12日
  • [Hadoop]设置Task的jvm heap size

    >  有人说应该改hadoop-env.sh里的HADOOP_HEAPSIZE. 这是错的, HADOOP_HEAPSIZE是给一些HADOOP后台进程用的,不是给task用的

    日期:2014年10月24日
  • Hadoop学习8:hdfs文件操作

    Hadoop学习8:hdfs文件操作 标签(空格分隔): hadoop Hadoop学习8hdfs文件操作 一hdfs文件流读操作 三合并文件上传到 一,hdfs文件流读操作 读文件流程 (1)打开分布式文件 调用 分布式文件

    日期:2016年04月12日
  • 2分钟读懂大数据框架Hadoop和Spark的异同

    原文链接 谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。 解决问题的层面不一样 首先,Hadoop和Apache

    日期:2016年01月02日
  • 搭建hadoop的高可用性(HA)集群

    本文为传智播客八天——第五天学习笔记 因为电脑配置问题,只能同时运行三台虚拟机。三台是hadoop高可用性集群的最小数目。不能再少了。 前期准备: 1、修改linux主机名和IP 2、修改主机名和IP的映射关系 3、关闭防火墙 4、ssh免登录 5、安装

    日期:2016年04月21日