博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
"MapReduce研究现状和毕玄-HBase简介与实践分享"分享总结
阅读量:4111 次
发布时间:2019-05-25

本文共 1152 字,大约阅读时间需要 3 分钟。

概述:

此分享包括:MapReduce研究现状和毕玄-HBase简介与实践分享的汇总

 

汇总点:

Table in HBase以Region为单位管理region(startKey,endKey);Hbase每个Column Family单独存储:storeFile;Hbase当某个Column Family累积的大小 > 某阈值时,自动分裂成两个Region通过查找-ROOT- & .META.来获取某行在某region上;RegionServer:Region读写操作的场所;Master:管理Region的分配和基于zookeeper来保证HA;Hbase的强一致性:同一行数据的读写只在同一台regionserver上进行;Hbase的水平伸缩表现在:region的自动分裂以及master的balance、只用增加datanode机器即可增加容量和增加regionserver机器即可增加读写吞吐量;Hbase行事务同一行的列的写入是原子的;Hbase合理设计rowKey & Pre-Sharding;Hbase开启压缩create table ‘t1’,{NAME => ‘cf1’, COMPRESSION => ‘lzo’}Hadoop集群监控工具Ganglia;

 

Hadoop调优点:

I/O:io.sort.mbio.sort.percentio.sort.record.percentio.sort.spill.percentShuffle:tasktracker.http.threadsmapred.reduce.parallel.copiesmapred.job.shuffle.input.buffer.percent其他:数据压缩推测性执行(同时执行同一Task,杀死运行慢的)同一节点的Child重用jvm重写Partitioner,使分布到各Reducer的数据均匀设置堆空间大小

 

写速度关键因素:

Table region分布均衡;单台region server的region数;hbase.regionserver.handler.counthbase.regionserver.global.memstore.upperLimithbase.hregion.memstore.block.multiplierhbase.hstore.blockingStoreFileshbase.hregion.max.filesize

 

读速度关键因素:

单台Region Server上的Region数;StoreFile数;bloomfilter;in-memory flag;blockcache设置;hfile.block.cache.size;

 

更多详情参见附件

转载地址:http://mjqsi.baihongyu.com/

你可能感兴趣的文章
python数字逆序输出及多个print输出在同一行
查看>>
ESP8266 WIFI数传 Pixhaw折腾笔记
查看>>
苏宁产品经理面经
查看>>
百度产品经理群面
查看>>
去哪儿一面+平安科技二面+hr面+贝贝一面+二面产品面经
查看>>
element ui 弹窗在IE11中关闭时闪现问题修复
查看>>
vue 遍历对象并动态绑定在下拉列表中
查看>>
Vue动态生成el-checkbox点击无法选中的解决方法
查看>>
python __future__
查看>>
MySQL Tricks1
查看>>
python 变量作用域问题(经典坑)
查看>>
pytorch
查看>>
pytorch(二)
查看>>
pytorch(三)
查看>>
pytorch(四)
查看>>
pytorch(5)
查看>>
pytorch(6)
查看>>
ubuntu相关
查看>>
C++ 调用json
查看>>
nano中设置脚本开机自启动
查看>>