最近在做hadoop集群的容量数据,主要依据zabbix的监控数据,因为要计算impala的内存使用情况,就使用了下面的sqlselecta.host,avg(b.value)from(selecta.host,b.
最近在做hadoop集群的容量数据,主要依据zabbix的监控数据,因为要计算impala的内存使用情况,就使用了下面的sql
select a.host,avg(b.value) from (select a.host,b.itemid,b.key_ from hosts a,items b where a.hostid=b.hostid and a.host like '%hadoop-datanode%' and b.key_='impala.get[mem]')a join (select itemid,clock,value from history) b on a.itemid=b.itemid and b.clock between unix_timestamp('2014-02-28 00:00:00') and unix_timestamp('2014-03-06 00:00:00') group by a.host;在使用explain时发现巨慢,一个生成执行计划的操作都这么慢?
考虑到sql的性能优化,,就把上面的查询写成了3个表的join:
select a.host,avg(c.value) from hosts a,items b,history c where a.hostid=b.hostid and a.host like '%hadoop-datanode%' and b.key_='impala.get[mem]' and b.itemid=c.itemid and c.clock between unix_timestamp('2014-02-28 00:00:00') and unix_timestamp('2014-03-06 00:00:00') group by a.host;这样性能就好多了。
其实这是explain的一个bug,在使用subquery时,explain会在后台执行这个sql,这样explain的时间就差不多是sql运行的时间了。。
看来自己的sql写得太烂了,以后还是要多多的explain啊。。
本文出自 “菜光光的博客” 博客,请务必保留此出处
声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。TEL:177 7030 7066 E-MAIL:11247931@qq.com