Hive中近似计算Histogram的验证

  • 时间:
  • 浏览:2
  • 来源:神彩大发快3_彩神大发快3官方

基本上还是挺靠谱的,不可能 想提高准确率,可以 增加num_bins的个数,也可是我上方的10。

感兴趣的可以 参考论文,“A streaming parallel decision tree algorithm”。

Histogram可以 更直观的反映数据的分布情况报告,有了Histogram就可以 对执行参数和执行计划有着更有针对性的优化。但我应该 得到准确的Histogram,时需巨大的计算量。不可能 能近似得到相对准确Histogram,就会变得很有价值。

目前HIVE中实现了针对Numeric的近似的Histogram的计算逻辑。NumericHistogram的实现说明如下:

结果如下:

我简单的测试了下:

并不是要看哪些地方地方内容,主要希望数据集成可以 通过对数据的研究,获得数据的型态,选取更相当于的splitpk,将任务可以 拆分得更加平均,减少长尾task,也把用户从优化中解放出来。

很久,NumericHistogram也支持多个partial Histogram的merge操作。