sparksql产生的临时表之间可以进行去重查询吗

2025-05-18 02:15:05
推荐回答(1个)
回答1:

(一)分批执行,就是把几万个id,按3000一组查询一次,最后把所有的查询结果在汇合起来。
(二)使用join,把几万个id创建成一张hive表,然后两表关联,可以一次性把结果给获取到。
这里倾向于第二种解决办法,比较灵活和方便扩展,尽量不要把数据集分散,一旦分散意味着客户端需要做更多的工作来合并结果集,比如随便一个sum或者dinstict,如果是第一种则需要在最终的结果集再次sum或者distinct。