7x24快讯 ·

手把手用Python教你分析运筹学薪资状况

由于近些年互联网和计算机的发展,数据对于各个行业来说是一块新的“金矿”,再加上近两年人工智能的兴起,数据的重要性更是越加的凸显,因此一些新的职业比如数据挖掘工程师,算法工程师等成为一个新兴的行业。那么经过了这几年的发展,这个行业在前景是怎样的呢?既然是数据行业,我们就用数据来说话吧。

首先我们来找一些数据的来源,对于我们普通人来说,最好的数据源自然是数据开源网站kaggle (https://www.kaggle.com/),那么我们就找了一个比较符合我们目标的数据集(https://www.kaggle.com/kaggle/kaggle-survey-2017)。这个数据集包含了很多信息,这里仅对其中的薪资分布做重点分析,其他更有趣的信息,各位同学可以自行参考本文进一步挖掘。

一、使用的工具及数据的处理

数据可以从上述提供的链接下载,本文主要通过python来进行数据的处理,主要的工具使用了jupyter,数据包包含python中的科学计算工具:numpy, pandas, matplotlib, seaborn, plotly等。

首先我们来分析一下数据,由于数据不是很大,所以可以用最基本的Excel打开,其中最主要的文件是‘multipleChoiceResponses.csv’和‘conversionRates.csv’两个文件,前者是主要的数据文件,后者是当时的一个货币汇率表,由于我们需要进行薪资对比,所以需要将各个国家的货币统一转换为美元(USD)。

那么接下来首先将数据解压后上传到jupyter中,然后引入必要的包并导入数据:

由于数据中有一些信息我们暂时用不到,同时还有汇率数据需要整合,所以先做一下数据的筛选和拼接:

这其中需要性别,国籍,年龄,全职/兼职,职业,学位,年薪等。然后我们主要对全职的年薪感兴趣,那么我们筛选这一部分数据出来,同时去掉一些信息空值的数据。

下一步我们观察到数据中记录的薪资是以字符串形式记录的,那么我接下来将字符串转换为数字并按照汇率数据统一转换为美元。

这里主要的数据前期处理工作已经可以结束了,但是在画图的时候发现中国有很多个名称,我们需要将相关的数据合并,尤其需要注意的是,台湾也应该算在中国范围内(特殊强调)。

接下来我们来看一下处理好的数据:

?

参与评论