sparksql产生的临时表之间可以进行去重查询吗

2025-05-18 02:15:05

推荐回答（1个）

回答1：

（一）分批执行，就是把几万个id，按3000一组查询一次，最后把所有的查询结果在汇合起来。
（二）使用join，把几万个id创建成一张hive表，然后两表关联，可以一次性把结果给获取到。
这里倾向于第二种解决办法，比较灵活和方便扩展，尽量不要把数据集分散，一旦分散意味着客户端需要做更多的工作来合并结果集，比如随便一个sum或者dinstict，如果是第一种则需要在最终的结果集再次sum或者distinct。