查看: 117|回复: 0

用Excel&MYSQL进行数据分析

[复制链接]

2

主题

3

帖子

7

积分

新手上路

Rank: 1

积分
7
发表于 2023-3-26 12:42:21 | 显示全部楼层 |阅读模式
本文分为两部分,第一部分用Excel清洗数据,第二部分数据可视化,第三部分是用MYSQL进行所提出问题的分析。

整体思路是:


  • 提出问题
  • 理解数据
  • 数据清洗(数据预处理)

  • 删除重复项
  • 缺失值处理
  • 选择子集
  • 一致化处理(根据要分析的问题使数据有统一的标准或者命名)
  • 数据排列
  • 异常值处理


  • 数据可视化
  • MySQL分析问题
<hr/>提出问题:

分析数据分析职位与城市/薪资水平/工作年限/行业需求/学历水平等变量的关系。
part1:Excel清洗数据

1.删除重复项
以职位ID为唯一值,删除重复的值。


2.缺失值处理
以职位ID为基准,查看哪一列有缺失值,并填充
查找空值:注意查找--->定位条件选择“当前区域”,否则空白区域也会选择。
填充方法:
人工手动补全
删除缺失的数据
用平均值代替缺失
用统计模型计算出的值去代替缺失值
这里查看发现只有城市这列有两个缺失值,缺失值待填充内容一致可用自动填充法。
3.选择子集
公司全称、公司简称、公司大小、公司所在商区、职位所属、职位福利这些是我们暂时用不上的数据,所以进行列隐藏操作。
4.一致化处理

  • 薪资字段需要截取为最高最低薪资,然后取平均值。
最低薪资计算公式
=LEFT(M2,FIND("k",M2,1)-1)
最高薪资计算公式
=MID(M2,FIND("-",M2,1)+1,LEN(M2)-FIND("-",M2,1)-1)


  • 自动填充会出现错误,所以筛选错误
1. 最低薪资出错是由于K大写造成,即修改公式k-->K;
2. 最高薪资出错,只有最低无最高,处理为:最高=最低薪资。
注:
求平均值时,注意将以字符串形式存储的数值转换成数值型
字符串形式存储显示为1.在单元格左边,2.左上角有个绿色小标。数值型存储显示为单元格右边。复制粘贴到新的列选值粘贴。



  • 公司所属字段需要拆分
全选-->数据-->分列
5. 数据排列
全选-->开始-->排序-->自定义排序-->如下图:



按照平均薪资降序排列

6.异常值处理
查找异常值可以通过数据透视表,查看职位名称列。


有很多异常值,用如下函数
=IF(COUNT(FIND({"数据运营","数据分析","分析师"},L2))>0,“是”,“否”)


这样选择出了正确的职位名称,运用筛选“是”,再复制粘贴到新的表格中,进行构建模型和可视化图表。
part2数据可视化

1. 薪资水平分析


  • 平均薪资的描述统计信息:



  • 各城市的平均薪资水平



  • 平均薪资与工作年限的关系


可以看出:
从平均薪水的描述统计信息平均值为12.8K,中位数为12K,可以看出数据分析岗位的整体薪资水平是不错的。
在北京、深圳和上海等一线城市薪资水平可观,深圳居第一位,其次是北京。
数据分析岗位的薪资水平与工作时间成正相关,所以此岗位是适合长期发展而且发展空间很大。
2. 行业的职位需求占比分析



可以看出:
随着信息化产业的发展,迎来了大数据时代,各行各业对数据分析职位也有了很大的需求。
其中,移动互联网的需求量最大,其次是金融行业,那么想入职数据分析的小伙伴们却不知选择什么行业的话,互联网和金融不失为一个不错的选择啦。机会大,平台好,也有发展的空间。
3. 学历要求分析



可以看出:
北京对数据分析职位的需求量最多,就业机会大。其次是上海。
数据分析职位对受教育程度的要求不是很高,各城市普遍接受本科学历。
总结:
按城市来分,北京对数据分析职位的需求量最多,机会最大。深圳的平均薪资水平最高,其次是北京。
按行业来分,互联网行业对该职位需求量最大,其次是金融行业。
从学历要求来看,本科学历就可从事该职位。
part3 运用MYSQL进行分析

导入清洗后的数据到数据库中


增加主键
-- INSERT PRIMARY KEY
ALTER TABLE work_new
ADD COLUMN 序号 INTEGER AUTO_INCREMENT PRIMARY KEY;1.平均薪水分析
每个城市的平均薪水


不同工作经验的平均薪水


不同学历的平均薪水


2. 岗位需求分析
不同城市的招聘人数


不同工作经验的招聘人数


不同学历的招聘人数


不同公司规模的招聘人数


总结:

  • 按城市来看,深圳数据分析职位的平均薪资最高,薪水待遇令人满意。北京对该岗位的需求量多,机会较大。
  • 按工作经验来看,平均薪资随工作时间的增长而升高,但是工作时间1-3年的招聘人数最多,值得开心的是刚入行的职员还是有很大机会的。
  • 按学历分析,毋庸置疑学历越高平均薪水越高啊,然而本科和硕士差距并不明显,看来只要入行有真本领,学历并不是必要条件。所以,本科的招聘人数位居首位也很合理。
  • 从公司规模来看,招聘人数随公司规模下降而递减,公司规模无论大小都需要数据分析岗位,规模越大对该岗位需求越迫切。
<hr/>通过运用Excel 和 MySQL,这两种工具进行分析,Excel的体验度真的是不尽人意,我的数据称不上大,居然还卡,如果数据量大python运作起来还是相对“痛快”的,而且图表也是美美哒,MySQL我是用来练习查询语句,用它做数据分析的话,缺点就是没有图形展示,这一点Excel图表就相对简单易操作了。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表