博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
关于Hadoop的一些使用心得
阅读量:3926 次
发布时间:2019-05-23

本文共 4390 字,大约阅读时间需要 14 分钟。

关于HDFS使用的一些心得

文章目录

写在前面:

​ 在公司做大数据方面工作也有一段时间了,抽时间整理一下遇到的问题,和一些比较好的优化手段。

1.HDFS存储多目录

1.1生产服务器磁盘情况

在这里插入图片描述

1.2在hdfs-site.xml文件中配置多目录,注意新挂载磁盘的访问权限问题。

​ HDFS的DataNode节点保存数据的路径由dfs.datanode.data.dir参数决定,其默认值file://${hadoop.tmp.dir}/dfs/data,若服务器有多个磁盘,必须对该参数进行修改。按照上图对参数进行调正结果为:

dfs.datanode.data.dir
file:///dfs/data1,file:///hd2/dfs/data2,file:///hd3/dfs/data3,file:///hd4/dfs/data4
2.集群数据均衡

1.节点间数据均衡

开启数据均衡命令

start-balancer.sh -threshold 10

对于参数10,代表的是集群中各个节点的磁盘空间利用率不超过10%,可根据实际情况进行调整

停止数据均衡命令

stop-balancer.sh

2.磁盘间数据均衡

(1)生成均衡计划

hdfs diskbalancer -plan   test-dj01

(2)执行均衡计划

hdfs diskbalancer -execute test-dj01.plan.json

​ (3)查看当前均衡任务执行情况

hdfs  diskbalancer -query test-dj01

​ (4)取消均衡任务

hdfs diskbalancer -cancel hadoop103.plan.json
3. LZO创建索引

​ 创建lzo文件的索引,lzo压缩文件的可切片特性依赖于其索引,故我们需要手动为lzo压缩文件创建索引。若无索引,则lzo文件的切片只有一个;

​ 创建索引的命令为:

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar  com.hadoop.compression.lzo.DistributedLzoIndexer /input/bigtable.lzo
4.基准测试

​ 在本地虚拟机测试的,并未使用公司集群

1)测试HDFS写性能

测试内容:向HDFS集群写10个128M的文件

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB2020-04-16 13:41:24,724 INFO fs.TestDFSIO: ----- TestDFSIO ----- : write2020-04-16 13:41:24,724 INFO fs.TestDFSIO:             Date & time: Thu Apr 16 13:41:24 CST 20202020-04-16 13:41:24,724 INFO fs.TestDFSIO:         Number of files: 102020-04-16 13:41:24,725 INFO fs.TestDFSIO:  Total MBytes processed: 12802020-04-16 13:41:24,725 INFO fs.TestDFSIO:       Throughput mb/sec: 8.882020-04-16 13:41:24,725 INFO fs.TestDFSIO:  Average IO rate mb/sec: 8.962020-04-16 13:41:24,725 INFO fs.TestDFSIO:   IO rate std deviation: 0.872020-04-16 13:41:24,725 INFO fs.TestDFSIO:      Test exec time sec: 67.61

2)测试HDFS读性能

测试内容:读取HDFS集群10个128M的文件

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -read -nrFiles 10 -fileSize 128MB2020-04-16 13:43:38,857 INFO fs.TestDFSIO: ----- TestDFSIO ----- : read2020-04-16 13:43:38,858 INFO fs.TestDFSIO:   Date & time: Thu Apr 16 13:43:38 CST 20202020-04-16 13:43:38,859 INFO fs.TestDFSIO:         Number of files: 102020-04-16 13:43:38,859 INFO fs.TestDFSIO:  Total MBytes processed: 12802020-04-16 13:43:38,859 INFO fs.TestDFSIO:       Throughput mb/sec: 85.542020-04-16 13:43:38,860 INFO fs.TestDFSIO:  Average IO rate mb/sec: 100.212020-04-16 13:43:38,860 INFO fs.TestDFSIO:   IO rate std deviation: 44.372020-04-16 13:43:38,860 INFO fs.TestDFSIO:      Test exec time sec: 53.61

3)删除测试生成的数据

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -clean

4)使用Sort程序评测MapReduce

​ (1)使用RandomWriter来产生随机数,每个节点运行10个Map任务,每个Map产生大约1G大小的二进制随机数

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar randomwriter random-data

​ (2)执行Sort程序

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar sort random-data sorted-data

​ (3)验证数据是否真正排好序了

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar testmapredsort -sortInput random-data -sortOutput sorted-data
5.Hadoop参数调优

1)HDFS参数调优 hdfs-site.xml

​dfs.namenode.handler.count= 在这里插入图片描述,比如集群规模为8台时,此参数设置为41

The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address is not configured then Namenode RPC server threads listen to requests from all nodes.NameNode有一个工作线程池,用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。对于大集群或者有大量客户端的集群来说,通常需要增大参数dfs.namenode.handler.count的默认值10。
dfs.namenode.handler.count
10

2)yarnc参数调优yarn-site.xml

(1)情景描述:总共7台机器,每天几亿条数据,数据源->Flume->Kafka->HDFS->Hive

​ 面临问题:数据统计主要用HiveSQL,没有数据倾斜,小文件已经做了合并处理,开启的JVM重用,而且IO没有阻塞,内存用了不到50%。但是还是跑的非常慢,而且数据量洪峰过来时,整个集群都会宕掉。基于这种情况有没有优化方案。

(2)解决办法:

​ 内存利用率不够。这个一般是Yarn的2个配置造成的,单个任务可以申请的最大内存大小,和Hadoop单个节点可用内存大小。调节这两个参数能提高系统内存的利用率。

(a)  yarn.nodemanager.resource.memory-mb​	表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够8GB,则需要调减小这个值,而YARN不会智能的探测节点的物理内存总量。(b)  yarn.scheduler.maximum-allocation-mb​	单个任务可申请的最多物理内存量,默认是8192(MB)。

yarn.nodemanager.resource.memory-mb

​ 表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够8GB,则需要调减小这个值,而YARN不会智能的探测节点的物理内存总量。

(b) yarn.scheduler.maximum-allocation-mb

​ 单个任务可申请的最多物理内存量,默认是8192(MB)。

转载地址:http://dcugn.baihongyu.com/

你可能感兴趣的文章
Educational Codeforces Round 87 (Rated for Div. 2)----题目+题解(A、B)
查看>>
Codeforces Round #647 (Div. 2) - Thanks, Algo Muse!B. Johnny and His Hobbies(异或)---题解
查看>>
使用WinINet获取网页源代码
查看>>
Ansi、Unicode、UTF-8字符串之间的转换和写入文本文件
查看>>
error C1189:#error:This file requires _WIN32_WINNT to be #defined at least to 0x0403
查看>>
CentOS yum 源的配置与使用
查看>>
error while loading shared libraries: libevent-2.0.so.5 安装好mamcache,启动服务时
查看>>
c++ web编程:写出你的CGI程序
查看>>
Linux RPM 命令参数使用详解 查看 rpm包依赖性
查看>>
xz压缩命令
查看>>
Mysql各种存储引擎对比总结(常用几种)
查看>>
java为我们已经提供了各种锁,为什么还需要分布式锁?
查看>>
一文带你理解mysql中的分区表和合并表(一个常见知识点)
查看>>
Redis5.0数据淘汰策略详解(最新版本,面试常问)
查看>>
为什么 MongoDB 索引选择B-树,而 Mysql 选择B+树(精干总结)
查看>>
面试官:说说 Springboot 中的 javaConfig(基于Spring5.2)
查看>>
你的钱为什么被转走,这篇文章告诉你答案(CSRF详解)
查看>>
JVM中的一个小知识点:深堆和浅堆的概念
查看>>
HashMap的负载因子初始值为什么是0.75?这篇文章以最通俗的方式告诉你答案
查看>>
详解java中一个面试常问的知识点-阻塞队列
查看>>