本文共 4390 字,大约阅读时间需要 14 分钟。
在公司做大数据方面工作也有一段时间了,抽时间整理一下遇到的问题,和一些比较好的优化手段。
1.1生产服务器磁盘情况
1.2在hdfs-site.xml文件中配置多目录,注意新挂载磁盘的访问权限问题。
HDFS的DataNode节点保存数据的路径由dfs.datanode.data.dir参数决定,其默认值file://${hadoop.tmp.dir}/dfs/data,若服务器有多个磁盘,必须对该参数进行修改。按照上图对参数进行调正结果为:
dfs.datanode.data.dir file:///dfs/data1,file:///hd2/dfs/data2,file:///hd3/dfs/data3,file:///hd4/dfs/data4
1.节点间数据均衡
开启数据均衡命令
start-balancer.sh -threshold 10
对于参数10,代表的是集群中各个节点的磁盘空间利用率不超过10%,可根据实际情况进行调整
停止数据均衡命令
stop-balancer.sh
2.磁盘间数据均衡
(1)生成均衡计划
hdfs diskbalancer -plan test-dj01
(2)执行均衡计划
hdfs diskbalancer -execute test-dj01.plan.json
(3)查看当前均衡任务执行情况
hdfs diskbalancer -query test-dj01
(4)取消均衡任务
hdfs diskbalancer -cancel hadoop103.plan.json
创建lzo文件的索引,lzo压缩文件的可切片特性依赖于其索引,故我们需要手动为lzo压缩文件创建索引。若无索引,则lzo文件的切片只有一个;
创建索引的命令为:
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar com.hadoop.compression.lzo.DistributedLzoIndexer /input/bigtable.lzo
在本地虚拟机测试的,并未使用公司集群
1)测试HDFS写性能
测试内容:向HDFS集群写10个128M的文件
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB2020-04-16 13:41:24,724 INFO fs.TestDFSIO: ----- TestDFSIO ----- : write2020-04-16 13:41:24,724 INFO fs.TestDFSIO: Date & time: Thu Apr 16 13:41:24 CST 20202020-04-16 13:41:24,724 INFO fs.TestDFSIO: Number of files: 102020-04-16 13:41:24,725 INFO fs.TestDFSIO: Total MBytes processed: 12802020-04-16 13:41:24,725 INFO fs.TestDFSIO: Throughput mb/sec: 8.882020-04-16 13:41:24,725 INFO fs.TestDFSIO: Average IO rate mb/sec: 8.962020-04-16 13:41:24,725 INFO fs.TestDFSIO: IO rate std deviation: 0.872020-04-16 13:41:24,725 INFO fs.TestDFSIO: Test exec time sec: 67.61
2)测试HDFS读性能
测试内容:读取HDFS集群10个128M的文件
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -read -nrFiles 10 -fileSize 128MB2020-04-16 13:43:38,857 INFO fs.TestDFSIO: ----- TestDFSIO ----- : read2020-04-16 13:43:38,858 INFO fs.TestDFSIO: Date & time: Thu Apr 16 13:43:38 CST 20202020-04-16 13:43:38,859 INFO fs.TestDFSIO: Number of files: 102020-04-16 13:43:38,859 INFO fs.TestDFSIO: Total MBytes processed: 12802020-04-16 13:43:38,859 INFO fs.TestDFSIO: Throughput mb/sec: 85.542020-04-16 13:43:38,860 INFO fs.TestDFSIO: Average IO rate mb/sec: 100.212020-04-16 13:43:38,860 INFO fs.TestDFSIO: IO rate std deviation: 44.372020-04-16 13:43:38,860 INFO fs.TestDFSIO: Test exec time sec: 53.61
3)删除测试生成的数据
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -clean
4)使用Sort程序评测MapReduce
(1)使用RandomWriter来产生随机数,每个节点运行10个Map任务,每个Map产生大约1G大小的二进制随机数
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar randomwriter random-data
(2)执行Sort程序
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar sort random-data sorted-data
(3)验证数据是否真正排好序了
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar testmapredsort -sortInput random-data -sortOutput sorted-data
1)HDFS参数调优 hdfs-site.xml
dfs.namenode.handler.count= ,比如集群规模为8台时,此参数设置为41
The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address is not configured then Namenode RPC server threads listen to requests from all nodes.NameNode有一个工作线程池,用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。对于大集群或者有大量客户端的集群来说,通常需要增大参数dfs.namenode.handler.count的默认值10。dfs.namenode.handler.count 10
2)yarnc参数调优yarn-site.xml
(1)情景描述:总共7台机器,每天几亿条数据,数据源->Flume->Kafka->HDFS->Hive
面临问题:数据统计主要用HiveSQL,没有数据倾斜,小文件已经做了合并处理,开启的JVM重用,而且IO没有阻塞,内存用了不到50%。但是还是跑的非常慢,而且数据量洪峰过来时,整个集群都会宕掉。基于这种情况有没有优化方案。
(2)解决办法:
内存利用率不够。这个一般是Yarn的2个配置造成的,单个任务可以申请的最大内存大小,和Hadoop单个节点可用内存大小。调节这两个参数能提高系统内存的利用率。
(a) yarn.nodemanager.resource.memory-mb 表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够8GB,则需要调减小这个值,而YARN不会智能的探测节点的物理内存总量。(b) yarn.scheduler.maximum-allocation-mb 单个任务可申请的最多物理内存量,默认是8192(MB)。
yarn.nodemanager.resource.memory-mb
表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够8GB,则需要调减小这个值,而YARN不会智能的探测节点的物理内存总量。
(b) yarn.scheduler.maximum-allocation-mb
单个任务可申请的最多物理内存量,默认是8192(MB)。
转载地址:http://dcugn.baihongyu.com/