爬虫怎么保存已经访问过的url

话说同志们在爬取数据的时候如何保存已经访问过的url和队列?对于爬取过的url,我使用redis的set来保存,访问队列是用list来保存,数据量是直线上升,内存不大,也只有4g,扛不住。不知道以前的方法是什么?

爬虫如何保存已访问过的url?

在爬取数据的时候,如何保存已经访问过的url和队列?对于爬取过的url,我使用redis的set来保存,访问队列是用list来保存,数据量是直线上升,内存不大,也只有4g,扛不住。不知道各位朋友有什么好的方法吗?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

社区圈子

阿里云洛神云网络
阿里云洛神云网络
让网络更简单,提供全球畅通无阻的体验!网络产品包含:私有网络VPC,负载均衡SLB,弹性公网IP(EIP),NAT网关,高速通道Express Connect,智能接入网关、云企业网,全球加速,共享带宽包,共享流量包等产品。欢迎关注“洛神云网络技术”微信公众号
185+人已加入
加入