|
本文分为两部分,第一部分用Excel清洗数据,第二部分数据可视化,第三部分是用MYSQL进行所提出问题的分析。
整体思路是:
- 删除重复项
- 缺失值处理
- 选择子集
- 一致化处理(根据要分析的问题使数据有统一的标准或者命名)
- 数据排列
- 异常值处理
<hr/>提出问题:
分析数据分析职位与城市/薪资水平/工作年限/行业需求/学历水平等变量的关系。
part1:Excel清洗数据
1.删除重复项
以职位ID为唯一值,删除重复的值。

2.缺失值处理
以职位ID为基准,查看哪一列有缺失值,并填充
查找空值:注意查找--->定位条件选择“当前区域”,否则空白区域也会选择。
填充方法:
人工手动补全
删除缺失的数据
用平均值代替缺失
用统计模型计算出的值去代替缺失值 这里查看发现只有城市这列有两个缺失值,缺失值待填充内容一致可用自动填充法。
3.选择子集
公司全称、公司简称、公司大小、公司所在商区、职位所属、职位福利这些是我们暂时用不上的数据,所以进行列隐藏操作。
4.一致化处理
最低薪资计算公式
=LEFT(M2,FIND(&#34;k&#34;,M2,1)-1) 最高薪资计算公式
=MID(M2,FIND(&#34;-&#34;,M2,1)+1,LEN(M2)-FIND(&#34;-&#34;,M2,1)-1)
1. 最低薪资出错是由于K大写造成,即修改公式k-->K;
2. 最高薪资出错,只有最低无最高,处理为:最高=最低薪资。
注:
求平均值时,注意将以字符串形式存储的数值转换成数值型
字符串形式存储显示为1.在单元格左边,2.左上角有个绿色小标。数值型存储显示为单元格右边。复制粘贴到新的列选值粘贴。

全选-->数据-->分列
5. 数据排列
全选-->开始-->排序-->自定义排序-->如下图:

按照平均薪资降序排列
6.异常值处理
查找异常值可以通过数据透视表,查看职位名称列。

有很多异常值,用如下函数
=IF(COUNT(FIND({&#34;数据运营&#34;,&#34;数据分析&#34;,&#34;分析师&#34;},L2))>0,“是”,“否”)

这样选择出了正确的职位名称,运用筛选“是”,再复制粘贴到新的表格中,进行构建模型和可视化图表。
part2数据可视化
1. 薪资水平分析



可以看出:
从平均薪水的描述统计信息平均值为12.8K,中位数为12K,可以看出数据分析岗位的整体薪资水平是不错的。
在北京、深圳和上海等一线城市薪资水平可观,深圳居第一位,其次是北京。
数据分析岗位的薪资水平与工作时间成正相关,所以此岗位是适合长期发展而且发展空间很大。
2. 行业的职位需求占比分析

可以看出:
随着信息化产业的发展,迎来了大数据时代,各行各业对数据分析职位也有了很大的需求。
其中,移动互联网的需求量最大,其次是金融行业,那么想入职数据分析的小伙伴们却不知选择什么行业的话,互联网和金融不失为一个不错的选择啦。机会大,平台好,也有发展的空间。
3. 学历要求分析

可以看出:
北京对数据分析职位的需求量最多,就业机会大。其次是上海。
数据分析职位对受教育程度的要求不是很高,各城市普遍接受本科学历。
总结:
按城市来分,北京对数据分析职位的需求量最多,机会最大。深圳的平均薪资水平最高,其次是北京。
按行业来分,互联网行业对该职位需求量最大,其次是金融行业。
从学历要求来看,本科学历就可从事该职位。
part3 运用MYSQL进行分析
导入清洗后的数据到数据库中

增加主键
-- INSERT PRIMARY KEY
ALTER TABLE work_new
ADD COLUMN 序号 INTEGER AUTO_INCREMENT PRIMARY KEY;1.平均薪水分析
每个城市的平均薪水

不同工作经验的平均薪水

不同学历的平均薪水

2. 岗位需求分析
不同城市的招聘人数

不同工作经验的招聘人数

不同学历的招聘人数

不同公司规模的招聘人数

总结:
- 按城市来看,深圳数据分析职位的平均薪资最高,薪水待遇令人满意。北京对该岗位的需求量多,机会较大。
- 按工作经验来看,平均薪资随工作时间的增长而升高,但是工作时间1-3年的招聘人数最多,值得开心的是刚入行的职员还是有很大机会的。
- 按学历分析,毋庸置疑学历越高平均薪水越高啊,然而本科和硕士差距并不明显,看来只要入行有真本领,学历并不是必要条件。所以,本科的招聘人数位居首位也很合理。
- 从公司规模来看,招聘人数随公司规模下降而递减,公司规模无论大小都需要数据分析岗位,规模越大对该岗位需求越迫切。
<hr/>通过运用Excel 和 MySQL,这两种工具进行分析,Excel的体验度真的是不尽人意,我的数据称不上大,居然还卡,如果数据量大python运作起来还是相对“痛快”的,而且图表也是美美哒,MySQL我是用来练习查询语句,用它做数据分析的话,缺点就是没有图形展示,这一点Excel图表就相对简单易操作了。 |
|