优盛秀|华丽丽的Python可视化图来了!
发布时间:2019-10-21     作者:盛小优     浏览量:129   分享到:


项目名称:拉勾网招聘信息爬取与分析

项目导师:刘国倩

项目成员:王乐乐、郭凯、李晓雨、周录松、郭卓卓(排名不分先后)


  项目背景   

现今,高校毕业生招聘量持续增长,技术市场人才需求可观,与此同时,就业难度也在不断增长。

为使应届生以及其它求职人员快速了解行业需求,快速定位自身是否与企业要求相匹配,西安优盛Python数据分析班学员对拉勾网的招聘信息做了如下数据分析。

现将该项目的干货以及部分优秀学员项目结果做以如下展示:

  项目涉及技术  

Python编程、爬虫专用框架Scrapy;爬虫利器xpath;txt、json、csv导出数据;数据预处理;PyEcharts、matplotlib、seaborn可视化。

  项目的重难点  

1. Scrapy开发步骤

2. Xpath解析规则

3. 多页数据如何爬取;反爬虫机制

  项目流程概览  

网络爬虫(获取数据)--> 数据预处理(得到较高质量的数据)--> 数据分析(针对不同问题展开相关分析)--> 结果可视化(将结果图形化、直观化)

  项目结果展示  

1.  网络爬虫

本次项目中,通过使用专业的爬虫开发框架Scrapy,对拉勾网上的招聘信息等数据进行爬取。

获取到该网站的招聘信息所有页数据,并获取到职位、地点、发布时间、薪资、经验要求、学历要求、行业分类、融资情况、公司规模、公司名称、福利情况、关键词等信息。

爬虫结果展示如下(展示2位学员的成果图)

1.jpg

图1

2.jpg图2

2. 数据预处理

数据预处理的目的是对原始数据进行预处理,以提高数据质量,提高算法的准确性、有效性和可伸缩性,达到简化学习模型和提高算法的泛化能力。

由于上述爬虫得到的数据与进一步数据分析所需数据格式内容不统一,比如:部分招聘地点包含具体区信息而部分仅包含市信息(北京/北京·东城区);薪资无法直接进行分析(25k-35k/10K)等。

数据预处理结果展示如下:

3.jpg

图3

处理任务:数据清洗

主要目的:去除原脏数据中的多余符号与文字,在此基础上计算平均薪资,为后续的数据分析做好准备(主要方法:for循环、replace、split、enumerate).

4.jpg

图4

处理任务:特征分析

主要目的:对所有特征进行onehot编码,使得后续的机器学习算法能够准确预测工资。

3.  数据分析与可视化

获取数据后,对所得数据的内容进行分析并可视化。

比如哪个城市的岗位需求量最多?该岗位属于哪个行业分类?比较各个城市的平均薪资,哪个城市的薪资最高、最低?分别是多少?分析学历和工资的关系?工作经验和工资的关系等?

数据分析结果展示如下:

1579167466477091.jpeg

地图

分析题目:哪个城市的岗位需求量最多?

得出结论:分析各个城市的招聘人数可得:深圳,北京和上海相对于其他城市岗位需求量较大,即一线城市人才需求量较大,所以对于求职者而言,在北京等一线城市求职的机会较多。

1579167594610838.jpeg

词云图

分析题目:岗位需求关键词出现的频率

得出结论:观察上图可得,移动互联网出现频率最高,是当前最热门的行业;与此同时,数据分析、大数据、电商等相关行业需求量较大。

1579167657494376.jpeg

柱状图

分析题目:不同城市的薪资分布

得出结论:北上广老牌一线城市薪资最高,即工资与所在城市密切相关。城市越发达,工资随之增加。 

 1579167708531989.jpeg

散点图

1579167746288287.jpeg

漏斗图


分析题目:工作经验与平均薪资的关系

得出结论:由上图分析可得,应届毕业生的平均工资最低,同时,经验越高,与之对应的工资也会越高。当工作经验达到3年时,薪资会有大幅度增长。 

1579167796197506.jpeg

 饼图

分析题目:各岗位学历需求分布情况

得出结论:由上图分析可得,各岗位学历需求为:本科>大专>不限>硕士。符合现如今本科生较为普遍的现象。

1579167840980291.jpeg

水滴图

分析题目:各个岗位中应届生招聘占比情况

得出结论:统计的是应届生在招聘人数的占比,得出占比为30%,猜测可能由于数据的规模较小,导致此处分析的应届生占比偏小。

以上即为本项目的部分结果展示,为优盛Python分析班学员点赞,期待后续学习再接再厉!


  师点评  

经过短期时间的学习,学员由Python零基础到掌握其基本语法和编程、科学计算与可视化等相关知识,再到现在能够自主开展数据收集与分析相关工作、共同讨论,在汇报项目时应答如流,考虑问题周全细致,成长显著,值得表扬!

25天蜕变,学习Python,成为下一个精英!

  Python数据分析师  

10月火热开班,仅售7800元

涵盖Python编程、大数据分析、科学计算库、数据可视化,还有Web与GUI开发,更有人工智能算法初探和8大实践项目演练,自信满满入职数据分析师岗位。

现在预约咨询还可享受+199元得Oracle官方【MySQL数据库管理员培训课程】一站式掌握最火的开源数据库,双技能在手,高薪更无忧。


报名热线:029-87301012

官方网站:www.udbs.cn