# proxy-pool **Repository Path**: AmCoder/proxy-pool ## Basic Information - **Project Name**: proxy-pool - **Description**: 爬虫IP代理专用,通过爬取66ip代理网站,云代理网站,快代理网站,西刺代理网站等几个网站IP,来构建我们的IP代理池,其中通过爬取到的IP来代理访问百度地址用于检测IP代理的有效性,针对有效的IP,我们通过以打分的方式来标注出它的可用程度,其中无效的IP或者分数小于设置的最小分数直接舍弃掉,符合的IP保存到redis中存储下来,方便以后通过这些IP来代理访问网站。 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2022-06-21 - **Last Updated**: 2022-08-21 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # proxy-pool #### 介绍 爬虫IP代理专用 #### 软件架构 软件架构说明 #### 使用说明 api.py:使用了flask来提供随机获取代理的接口,以及统计代理总数的接口 crawler.py:爬取IP代理网站的代码逻辑 db.py:操作redis的逻辑 error.py:如果redis代理池没有可用IP后的异常处理 getter.py:存放开始爬取代理的逻辑入口以及判断IP代理池是否已经达到了上限 scheduler.py:整体调度逻辑,将api,crawler,tester等串联起来 tester.py:测试IP代理的有效性 utils.py:存放了一些工具方法 proxy_pool_run.py:程序主入口 settings.py:设置一些参数,例如代理分数的最大值,最小值,初始值,以及redis存储的最大数量等等 #### 参与贡献 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request #### 特技 1. 使用 Readme\_XXX.md 来支持不同的语言,例如 Readme\_en.md, Readme\_zh.md 2. Gitee 官方博客 [blog.gitee.com](https://blog.gitee.com) 3. 你可以 [https://gitee.com/explore](https://gitee.com/explore) 这个地址来了解 Gitee 上的优秀开源项目 4. [GVP](https://gitee.com/gvp) 全称是 Gitee 最有价值开源项目,是综合评定出的优秀开源项目 5. Gitee 官方提供的使用手册 [https://gitee.com/help](https://gitee.com/help) 6. Gitee 封面人物是一档用来展示 Gitee 会员风采的栏目 [https://gitee.com/gitee-stars/](https://gitee.com/gitee-stars/)