# 抓数据 **Repository Path**: cookies_code/reptile ## Basic Information - **Project Name**: 抓数据 - **Description**: 抓取数据,转成关键词存入redis - **Primary Language**: Unknown - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2023-08-30 - **Last Updated**: 2024-01-04 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 抓数据 #### 介绍 抓取某浪某博的数据,转成关键词存入redis,并且k为拼音关键词,v为出现的频率 #### 软件架构 软件架构说明 用了jieba的分词库,还有xpinyin的汉字转拼音库 #### 用它能干嘛?(展望) 基于某浪某博的热点事件推送,检索相关关键词,统计出现的次数,进行排名,然后可以根据数据标注,实现热点事件的公司相关产品的排名。分词库支持自定义扩展。可以通过模块集成进去客户端工具,是完全是可以集成在erp系统的一个小项目。 #### 安装教程 1. 就在config.py下面cfg配置下redis。hx_name就是存放hash的名字,node就是你要检索json的那个节点。 2. urlconfig下配置请求的api,一些请求用到的信息。 #### 使用说明 1. 执行完就可以通过redis可视化工具,看到存下来的信息了, 2. 可以通过这个扩展自己公司的大数据,用hash存下来的信息进行数据标注,用来做自己产品的大数据推送。 3. 支持关键词扩展,在dict的文本文档中,设置网络上的一些关键词,其实可以通过二次开发,集成到客户端工具中,格式就一行一个词语。 #### 参与贡献 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request #### 特技 1. 使用 Readme\_XXX.md 来支持不同的语言,例如 Readme\_en.md, Readme\_zh.md 2. Gitee 官方博客 [blog.gitee.com](https://blog.gitee.com) 3. 你可以 [https://gitee.com/explore](https://gitee.com/explore) 这个地址来了解 Gitee 上的优秀开源项目 4. [GVP](https://gitee.com/gvp) 全称是 Gitee 最有价值开源项目,是综合评定出的优秀开源项目 5. Gitee 官方提供的使用手册 [https://gitee.com/help](https://gitee.com/help) 6. Gitee 封面人物是一档用来展示 Gitee 会员风采的栏目 [https://gitee.com/gitee-stars/](https://gitee.com/gitee-stars/)