Hive中GroupBy的去重

来源：懂视网责编：小采时间：2020-11-09 13:07:31

Hive中GroupBy的去重

Hive中GroupBy的去重:在Hive的是用中，我们经常会有这种需求：按照同一个id进行Ｇroup By，然后对另一个字段去重，例如下面得数据： id pic1.jpg2.jpg1.jpg 此时，是用DISTINCT或者2 col得Group By都是不行得，我们可以用这个UDAF：collect_set(col)，它将对

推荐度：

点击下载本文 文档为doc格式

导读Hive中GroupBy的去重:在Hive的是用中，我们经常会有这种需求：按照同一个id进行Ｇroup By，然后对另一个字段去重，例如下面得数据： id pic1.jpg2.jpg1.jpg 此时，是用DISTINCT或者2 col得Group By都是不行得，我们可以用这个UDAF：collect_set(col)，它将对

在Hive的是用中，我们经常会有这种需求：按照同一个id进行Ｇroup By，然后对另一个字段去重，例如下面得数据： id pic1.jpg2.jpg1.jpg 此时，是用DISTINCT或者2 col得Group By都是不行得，我们可以用这个UDAF：collect_set(col)，它将对同一个group by 得ke

在Hive的是用中，我们经常会有这种需求：

按照同一个id进行Ｇroup By，然后对另一个字段去重，例如下面得数据：

id pic
1.jpg
2.jpg
1.jpg

此时，是用DISTINCT或者2 col得Group By都是不行得，我们可以用这个UDAF：collect_set(col)，它将对同一个group by 得key进行set去重后，转换为一个array。

再举一个例子，我们可以对pic进行去重，拼接：
SELECT id, CONCAT_WS(',', COLLECT_SET(pic)) FROM tbl GROUP BY id
在这里CONCAT_WS是UDF，COLLECT_SET是UDAF，它将group后的pic去重，并转换为了array，方便udf是用。

PS：如果不需要去重，可以使用COLLECT_LIST。

更多UDAF，见这里 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF

原文地址：Hive中Group By的去重, 感谢原作者分享。

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。TEL:177 7030 7066 E-MAIL:11247931@qq.com