java爬虫如何去重

2025-05-15 00:19:49
推荐回答(1个)
回答1:

用 requests+Selenium+PhantomJs 多线程爬虫的时候用的是 mp.manager.dict() 来存储已经访问过的网站,如果发现再次访问就直接跳过
我能想到的就是 Bloom Filter ,按照上面所说用 redis 来去重应该也可以!