# DataAnalysisProject
**Repository Path**: oceanrivers/data-analysis-project
## Basic Information
- **Project Name**: DataAnalysisProject
- **Description**: 本项目选择以下数据源完成数据分析相关工作:
https://www.kaggle.com/competitions/sp
其中ghj负责完成分类和聚类部分的工作,wwr负责完成数据预处理、统计分析、回归分析部分的工作,zhx负责完成频繁项集、关联规则挖掘部分的工作
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2024-12-06
- **Last Updated**: 2025-03-28
## Categories & Tags
**Categories**: Uncategorized
**Tags**: pandas, numpy, matplotlib, sklearn
## README
# 数据预处理1.0
时间:2024年12月8日22:40
内容:完成对分类所需数据和聚类所需数据的预处理部分,其中聚类所需要的预处理可能后续根据需求要更改,其余应该不变(注意运行时先运行processed.py)
# 统计分析1.0
时间:2024年12月11日23: 04
内容:完成分析消费直方图,透视表和以cabin为根据的饼图、以目的地为根据的消费散点图,姑且算参考,根据分类聚类情况可能变更
# 分类任务1.0
时间:2024年12月12日22:02:30
内容:完成了分类任务,使用了决策树算法实现分类,在使用朴素贝叶斯时出现了错误,错误原因暂未弄清
# 分类任务1.1
时间:2024年12月18日22:54:30
内容:这次分类使用了新的数据预处理的结果(缺失值处理采用填补的方式),此次更新主要是为了能将分类结果上传到kaggle上进行评测
# 聚类任务1.0
时间:2024年12月12日22:29:22
内容:完成了聚类任务,使用DBScan算法实现的
# 聚类任务1.1
时间:2025年1月5日15:39:56
内容:优化了聚类结果图的绘制
# 频繁挖掘1.0
时间:2024年12月14日10:00:00
内容:完成与传送有关的规则挖掘任务,后续打算挖掘更多规则
# 数据预处理1.1
时间:2024年12月14日23:12
内容:修改关联规则所需的预处理部分,以及增加线性回归所需的预处理操作
# 统计分析1.1
时间:2024年12月15日17:25
内容:新增关系间的热力图分析,以及线性回归模型的分析,热力图中各变量相关性不强;线性回归模型采用了三种,结果都不佳,更换回归模型
# 数据预处理1.2
时间:2024年12月18日21:47
内容:更改预处理步骤,添加了将缺失值进行填补而非去除的处理方式
# 统计分析1.2
时间:2024年12月18日23:19
内容:更改回归分析位置,移动到AnalysisOfRegression软件包中
# 频繁挖掘1.1
时间:2024年12月20日20:32:56
内容:新增频繁项集的挖掘,探索了哪些消费的组合出现更多