1 | cd /tmp |
1 | drop table if exists hdfs_meta_temp; |
instr(path,’/’,1,2)这两个参数主要表示指定统计的HDFS目录以及目录钻取深度,instr()函数中的最后一个参数即为目录钻取深度
1 | SELECT |
总结
如上SQL的统计分析可以看到有三个比较重要的统计指标file_nums、blockcounts和avg_filesize。通过这三个指标进行小文件分析,进行如下分析:
如果file_nums/blockcounts的值越大且avg_filesize越小则说明该HDFS或Hive表的小文件越多。
方法二、
使用Sqoop脚本将Hive元数据中关于Hive库和表的信息抽取的Hive中
1 | sqoop import \ |