sqoop 简单安装配置

sqoop 简单安装配置

1
2
3
4
5
6
7
$HIVE_SRC/build/dist/bin/hive 
--auxpath $HIVE_SRC/build/dist/lib/hive-hbase-handler-0.9.0.jar,
$HIVE_SRC/build/dist/lib/hbase-0.92.0.jar,
$HIVE_SRC/build/dist/lib/zookeeper-3.3.4.jar,
$HIVE_SRC/build/dist/lib/guava-r09.jar
--hiveconf
hbase.zookeeper.quorum=zk1.yoyodyne.com,zk2.yoyodyne.com,zk3.yoyodyne.com

暂时记录的tips

hadoop生态
暂时记录的tips

hadoop mr HistoryServer的配置和启动命令

mapred-site.xml

1
2
3
4
5
6
7
8
<property>
<name>mapreduce.jobhistory.address</name>
<value>node04:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>node04:19888</value>
</property>

hbase笔记总结02

hadoop生态
hbase笔记总结02

HBase优化设计1、表的设计1、Pre-Creating Regions​ 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照r...

hbase笔记总结

hadoop生态
hbase笔记总结

1.先从关系型数据库与非关系型数据讲起

关系型数据库 就是我们传统的像mysql,oracle,sql server这样的具有自己的二维固定的数据结构

优点:

  • 易于维护:都是使用表结构,格式一致

  • 使用方便: SQL语言通用,可用于复杂查询

  • 复杂操作:支持SQL,可用于一个表以及多个表之间非常复杂的查询

计算机底层知识总结01

底层原理
计算机底层知识总结01

硬件基础知识CPU的制作汇编语言的执行过程计算机启动过程操作系统的基本知识进程线程纤程的基本概念内存管理进程与线程管理中断与系统调用(软中断)内核同步基础知识关于硬盘IO DMA

hive-笔记总结

hive-笔记总结

who,what,why

hive的作用

按照做笔记的习惯来说,说一个新的大数据平台框架,一般先从模型说起,而hive本身是企业级数据仓库工具,基于mapreduce计算引擎的封装(2.x之后逐渐将官方计算引擎指定为spark)所以,就其本身而言并没有模型可以讨论.
但是我们可以聊聊他的作用,他是解决什么需求的:

mapreduce笔记-源码剖析

hadoop生态
mapreduce笔记-源码剖析

为什么要看源码1.为了更好的使用框架的Api解决问题,比如说我们遇到一个问题,需要修改mapreduce分片的大小,如果没看过源码,可能会写很多代码,甚至重新调整文件block的大小上传,但是看过源码的都懂,只要简单的修改minSplite和maxSplite这两个配置属性就可以.2.为了学习框架本身的设计方法,应用到日常开发中.(此次源码分析的hadoop版本为2.7....

mapreduce&yarn笔记总结 01

hadoop生态
mapreduce&yarn笔记总结 01

背景,为了体现分布式计算的优点,将数据分而治之再进行相应方面的计算.hadoop提出了mapreduce计算模型 计算模型 map 端负责将拆分出来的数据进行映射,变换,过滤.体现在一进N出 reduce 端负责将数据整合归纳,缩小,分解,一般是一组数据进N出 不管是map还是reduce处理的数据结构基本都是<key,value>的形式划分的 最基本的数据...

×
  • {title}