Lemcoden

来自于大数据攻城狮的分享

下载官方mysql源

1
wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm

加载rpm源

1
rpm -ivh mysql-community-release-el7-5.noarch.rpm
Read more »

hadoop mr HistoryServer的配置和启动命令

mapred-site.xml

1
2
3
4
5
6
7
8
<property>
<name>mapreduce.jobhistory.address</name>
<value>node04:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>node04:19888</value>
</property>
Read more »

HBase优化设计

1、表的设计

1、Pre-Creating Regions

​ 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。

Read more »

1.先从关系型数据库与非关系型数据讲起

关系型数据库 就是我们传统的像mysql,oracle,sql server这样的具有自己的二维固定的数据结构

优点:

  • 易于维护:都是使用表结构,格式一致

  • 使用方便: SQL语言通用,可用于复杂查询

  • 复杂操作:支持SQL,可用于一个表以及多个表之间非常复杂的查询

    Read more »

我们接着上次的hive继续总结

配置补充,hiveserer2的高可用

node2-hive-site.xml

Read more »

who,what,why

hive的作用

按照做笔记的习惯来说,说一个新的大数据平台框架,一般先从模型说起,而hive本身是企业级数据仓库工具,基于mapreduce计算引擎的封装(2.x之后逐渐将官方计算引擎指定为spark)所以,就其本身而言并没有模型可以讨论.
但是我们可以聊聊他的作用,他是解决什么需求的:

Read more »

为什么要看源码

1.为了更好的使用框架的Api解决问题,比如说我们遇到一个问题,需要修改mapreduce分片的大小,如果没看过源码,可能会写很多代码,甚至重新调整文件block的大小上传,但是看过源码的都懂,只要简单的修改minSplite和maxSplite这两个配置属性就可以.
2.为了学习框架本身的设计方法,应用到日常开发中.
(此次源码分析的hadoop版本为2.7.2)

Read more »

背景,

为了体现分布式计算的优点,将数据分而治之再进行相应方面的计算.hadoop提出了mapreduce计算模型

计算模型

计算模型

  • map 端负责将拆分出来的数据进行映射,变换,过滤.体现在一进N出
    Read more »

基础设施

  • 网卡静态IP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
ifconfig 查看网卡信息
vim /etc/udev/rules.d/70-persistent-ipoib.rules
ACTION=="add", SUBSYSTEM=="net", DRIVERS=="?*", ATTR{type}=="32", ATTR{address}=="?*00:02:c9:03:00:31:78:f2", NAME="网卡名"
vim /etc/sysconfig/network-scripts/ifcfg-网卡名
POXY_METHOD=none
BROWSER_ONLY=no
BOOTPROTO=static //设置静态IP
DEFROUTE=yes
NAME=enp0s3
UUID=290c55a8-1b88-4d99-b741-dcfe455f5c2c
DEVICE=enp0s3
ONBOOT=yes
IPADDR=192.168.0.101 //一般本地IP最后依次增加
NETMASK=255.255.255.0
GATWAY=192.168.0.1 //同一集群必须同一网关