SpiderZ爬虫框架

基于python与Redis的多进程分布式爬虫框架

思路解释

思路就大概是,主文件（我demo中用的main.py）启动多个子进程，每个进程定时访问一次redis，若redis中有数据，则连续访问直到将redis中数据取空。

一个进程负责从redis中读取目标url，发送请求，克服一系列有的没的反爬虫机制，得到网页html代码，塞入redis中。
一个进程负责从redis中读取html，解析后将结果或者后续url塞入redis。
一个进程负责处理相关存储。
因为python的GIL，采用的是多进程方式。每一个进程都可以开多个子进程提升速度。
有出错日志，记录异常网页。
需要起始url。
细节问题用标志位处理。
然后看下思路图，画的比较随意，看个顺序和数据流向
项目地址
这里

2016-09-23

Share to:

全部
标签
我

只是技术博客<br><br>博主qq:897665949 欢迎交流<br>谢谢大家