(一)分批执行,就是把几万个id,按3000一组查询一次,最后把所有的查询结果在汇合起来。(二)使用join,把几万个id创建成一张hive表,然后两表关联,可以一次性把结果给获取到。这里倾向于第二种解决办法,比较灵活和方便扩展,尽量不要把数据集分散,一旦分散意味着客户端需要做更多的工作来合并结果集,比如随便一个sum或者dinstict,如果是第一种则需要在最终的结果集再次sum或者distinct。