# DataAnalysisProject **Repository Path**: oceanrivers/data-analysis-project ## Basic Information - **Project Name**: DataAnalysisProject - **Description**: 本项目选择以下数据源完成数据分析相关工作: https://www.kaggle.com/competitions/sp 其中ghj负责完成分类和聚类部分的工作,wwr负责完成数据预处理、统计分析、回归分析部分的工作,zhx负责完成频繁项集、关联规则挖掘部分的工作 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-12-06 - **Last Updated**: 2025-03-28 ## Categories & Tags **Categories**: Uncategorized **Tags**: pandas, numpy, matplotlib, sklearn ## README # 数据预处理1.0 时间:2024年12月8日22:40
内容:完成对分类所需数据和聚类所需数据的预处理部分,其中聚类所需要的预处理可能后续根据需求要更改,其余应该不变(注意运行时先运行processed.py) # 统计分析1.0 时间:2024年12月11日23: 04
内容:完成分析消费直方图,透视表和以cabin为根据的饼图、以目的地为根据的消费散点图,姑且算参考,根据分类聚类情况可能变更 # 分类任务1.0 时间:2024年12月12日22:02:30
内容:完成了分类任务,使用了决策树算法实现分类,在使用朴素贝叶斯时出现了错误,错误原因暂未弄清 # 分类任务1.1 时间:2024年12月18日22:54:30
内容:这次分类使用了新的数据预处理的结果(缺失值处理采用填补的方式),此次更新主要是为了能将分类结果上传到kaggle上进行评测 # 聚类任务1.0 时间:2024年12月12日22:29:22
内容:完成了聚类任务,使用DBScan算法实现的 # 聚类任务1.1 时间:2025年1月5日15:39:56
内容:优化了聚类结果图的绘制 # 频繁挖掘1.0 时间:2024年12月14日10:00:00
内容:完成与传送有关的规则挖掘任务,后续打算挖掘更多规则 # 数据预处理1.1 时间:2024年12月14日23:12
内容:修改关联规则所需的预处理部分,以及增加线性回归所需的预处理操作 # 统计分析1.1 时间:2024年12月15日17:25
内容:新增关系间的热力图分析,以及线性回归模型的分析,热力图中各变量相关性不强;线性回归模型采用了三种,结果都不佳,更换回归模型 # 数据预处理1.2 时间:2024年12月18日21:47
内容:更改预处理步骤,添加了将缺失值进行填补而非去除的处理方式 # 统计分析1.2 时间:2024年12月18日23:19
内容:更改回归分析位置,移动到AnalysisOfRegression软件包中 # 频繁挖掘1.1 时间:2024年12月20日20:32:56
内容:新增频繁项集的挖掘,探索了哪些消费的组合出现更多