Lemcoden

来自于大数据攻城狮的分享

mysql四大排名函数

row_number: 连续 不重复

rank: 不连续 重复

dense_rank: 连续 重复

ntile:有参数 入参group_num, 将数据分成group_num个组排序编号

Read more »

1
2
3
4
5
6
7
$HIVE_SRC/build/dist/bin/hive 
--auxpath $HIVE_SRC/build/dist/lib/hive-hbase-handler-0.9.0.jar,
$HIVE_SRC/build/dist/lib/hbase-0.92.0.jar,
$HIVE_SRC/build/dist/lib/zookeeper-3.3.4.jar,
$HIVE_SRC/build/dist/lib/guava-r09.jar
--hiveconf
hbase.zookeeper.quorum=zk1.yoyodyne.com,zk2.yoyodyne.com,zk3.yoyodyne.com
Read more »

下载官方mysql源

1
wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm

加载rpm源

1
rpm -ivh mysql-community-release-el7-5.noarch.rpm
Read more »

hadoop mr HistoryServer的配置和启动命令

mapred-site.xml

1
2
3
4
5
6
7
8
<property>
<name>mapreduce.jobhistory.address</name>
<value>node04:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>node04:19888</value>
</property>
Read more »

HBase优化设计

1、表的设计

1、Pre-Creating Regions

​ 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。

Read more »

1.先从关系型数据库与非关系型数据讲起

关系型数据库 就是我们传统的像mysql,oracle,sql server这样的具有自己的二维固定的数据结构

优点:

  • 易于维护:都是使用表结构,格式一致

  • 使用方便: SQL语言通用,可用于复杂查询

  • 复杂操作:支持SQL,可用于一个表以及多个表之间非常复杂的查询

    Read more »

我们接着上次的hive继续总结

配置补充,hiveserer2的高可用

node2-hive-site.xml

Read more »

who,what,why

hive的作用

按照做笔记的习惯来说,说一个新的大数据平台框架,一般先从模型说起,而hive本身是企业级数据仓库工具,基于mapreduce计算引擎的封装(2.x之后逐渐将官方计算引擎指定为spark)所以,就其本身而言并没有模型可以讨论.
但是我们可以聊聊他的作用,他是解决什么需求的:

Read more »

为什么要看源码

1.为了更好的使用框架的Api解决问题,比如说我们遇到一个问题,需要修改mapreduce分片的大小,如果没看过源码,可能会写很多代码,甚至重新调整文件block的大小上传,但是看过源码的都懂,只要简单的修改minSplite和maxSplite这两个配置属性就可以.
2.为了学习框架本身的设计方法,应用到日常开发中.
(此次源码分析的hadoop版本为2.7.2)

Read more »