# MongooCrawler **Repository Path**: bigcoder/MongooCrawler ## Basic Information - **Project Name**: MongooCrawler - **Description**: 一款分布式爬虫软件 - **Primary Language**: Java - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 65 - **Created**: 2017-05-19 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README #MongooCrawler 一款开源分布式爬虫软件,如果喜欢这个项目记得加star哈。
MongooCrawler为了解决抓取速度和持久化速度不一致的问题引入了disruptor并发框架
抓取的数据分为两类,一类是文本,一类是url,url暂时使用MD5进行去重,再放入队列文本则会直接进入数据库。
如果想私下交流可以在我blog留言
欢迎访问我的blog:http://blog.csdn.net/flashflight #更新说明 2017-05-03 完成图书爬虫逻辑
2017-04-16 添加了电商图书类商品爬取逻辑
2017-01-12 添加了解析html的逻辑,依赖jsoup包
2017-04-12 添加了一个事例 #下一步计划 1、添加一个电商的商品详情解析器,尝试抓取电商数据并测试性能(已完成)
2、添加xml配置管理和注解功能
3、添加多爬虫实例支持(多session)