基于招聘网站的数据科学与大数据技术专业人才需求的文本挖掘

潘保国,黄永杰,张慧敏,刘康颖,陈广辉

(1.湖北工程学院 数学与统计学院,湖北 孝感 432000;2.浙江省温州市龙港市玉成实验学校,浙江 温州 325802)

近年来,随着互联网技术的不断发展,网络招聘依托于互联网的触角可以轻易地延伸到世界的每一个角落,达到了传统招聘方式无法获得的效果。网络招聘可以简化招聘流程,减少时间投入,更加快捷。刘畅[1]利用网络文本挖掘技术研究了数据分析岗位需求情况,李玲等[2]以信息管理与信息系统专业为例,分析了网络招聘时代专业人才技能情况,徐成龙等[3]利用网络招聘数据分析了体育经济与管理专业的人才市场需求,杨迪月等[4]以互联网金融招聘数据为例,研究基于复杂网络的招聘文本挖掘,陈慧慧[5]利用2020年网络招聘信息研究了后疫情时代杭州市物流专业人才需求现状。

为了更加直接地了解当前社会上对于数据科学与大数据技术专业人才的需求,本文利用招聘网站对数据科学与大数据技术专业人才需求状况进行研究,采用文本挖掘技术将大量的招聘网站的数据提取出来,然后进行词云图等可视化分析后提出相关建议,为大数据专业的人才培养模式提供参考,更加符合当前大数据人才需求的就业市场。

1.1 数据源选取

通过多个招聘网站对比,我们选择了前程无忧招聘网站。因为它可以较为轻松获取到全国各领域大数据相关专业的人才需求,信息可靠且具有较高的挖掘价值。

1.2 采集结果

通过Python开启多线程,采集得到251313条相关数据。对其进行去重处理(当岗位名称与公司名称一致时,则视为重复记录)。最后得到有效记录共计82436条,保留职位名称、企业名称、薪资、供职地点、发布时间、企业类型、招聘人数、学历要求、经验要求、所属行业、岗位描述和公司规模等12个字段来进一步分析。

对每个字段进行相应处理,保证数据集的完整与干净,便于后续做详细分析。主要包括以下5个方面:

1)对有效字段的缺失值与异常值进行替换或删除。用apply方法进行自定义函数映射,将数值型字段的异常值替换为np.nan,便于后续计算。

2)对岗位字段进行筛选并规范化岗位名称。将岗位名中的大写英文字母统一转换为小写字母,并在结合招聘网站的职位设置与调查相关公司岗位实际设置情况后,大体上可将岗位属性与类型细分为:‘算法’,‘分析’,‘工程师’等十大类,进一步进行count计数与职位名称规范,最后进行归并处理。

3)地址字段也存在参差不齐的现象,对其进行过滤、替换操作。许多城市,由于名称的不规范化,在进行统计计数的时候被记为不同的城市,比如:广州市-天河区,广州市-海珠区,都是属于广州市,却被计为两个地区。

4)对薪资进行统一换算,便于后续可视化操作及相关计算。大体上薪资字段类型分为元/天,千(以上/下)/月,万(以上/下)/月,万(以上/下)/年,如果数据是区间的形式,则求其平均值,最后的值统一单位为元/月。

5)对学历、往届和应届字段字段进行筛选处理。避免切片错误,个别学历字段含有其他字段内容,用正则表达式进行查找替换,并构建新的字段包括:“博士|硕士|本科|大专|高中|中专|中技|初中及以下|应届生|在校生”。

探索招聘的企业所在行业、性质、规模及其要求的学历、工作经验情况,分析各个岗位的薪资状况,挖掘相关企业所需要的职业技能情况。

3.1 招聘单位基本情况的统计分析

1) 企业所在的行业分布。在就业市场中,研究招聘企业所在的行业对数据科学与大数据技术专业求职者来说具有重要的意义,有助于在其学习过程中明确方向。在对大数据领域相关岗位的所在行业进行分类汇总后,从统计出的41个行业中提取出行业排名前10的数据,如图1所示。在目前大数据环境中处于高速发展阶段的互联网行业占比最高,共有14460家企业占比26.4%。其次是电子技术行业,占比9.57%,这两个行业本身就对大数据职业人员的需求较高(见图2)。就招聘岗位而言,缺口最大有开发工程师、运营、数据分析、算法这些热门岗位(见图3)。

图1 大数据相关热门行业分布

图2 大数据相关行业类型

图3 大数据相关热门招聘岗位

2) 企业性质分布,图4展示了大数据相关企业类型占比图。

图4 大数据相关企业类型

从图4来看,超过一半的职位所在的企业为民营企业,这与企业整体水平的趋势大致相同。上市公司和国企的占比相差不大,分别占10.6%和8.19%,排列在后的是合资企业,外资等。从大数据相关企业招人数可知,企业所需的大数据专业的人数最多招若干人的概率为20.65%,招1人的概率高达39.96%,招2人的概率为19.33%。而在公司规模上,有近半数的公司属于50~500人的中小型公司,综上所述,可知目前相关企业对数据科学与大数据技术专业的认知度和认可度相对较高,并且相关招聘公司规模和招人数目也比较可观(见图5)。

图5 大数据相关企业规模

3) 企业所处地区分布(见图6)。从分析结果可以看出招聘岗位的地区主要集中在经济发达的城市,大多分布在沿海偏西部地带。招聘职位数量最多的前六个城市分别是上海(17.91%)、深圳(14.25%)、广州(11.16%)、北京(8.60%)、杭州(5.32%)、武汉(4.96%),这六个城市地理位置和资源配置条件优越,对大部分高校毕业生有一定的吸引力。

图6 大数据相关职位热门招聘城市

3.2 招聘岗位的基本条件需求分析

1) 学历要求。学历是企业招聘人才最初的门槛,通常,企业在招聘信息中明确指出最低学历的限制,研究职位的最低学历要求有助于求职者的自我定位以及培养机构的教育机制改革。

对相关学历要求进行分析后,可知企业对学历的要求可以分为以下几类;
本科(61.09%)、大专(28.75%)、硕士(6.02%)等,超过一大半的岗位对学历提出了硬性的要求,大多数岗位招收的是本科和大专的学历(见图7)。从大数据相关职位学历与平均薪资水平关系的图(见图8)中可以看出,学历和薪资有一定的关系,其中学历最高的博士薪资最高,硕士其次。

图7 大数据相关学历要求

图8 大数据相关职位学历与平均薪资水平关系

2) 工作经验要求。企业对工作经验的需求与岗位的性质有很大的关系,拥有相关工作经验的求职者可以更快的适应相关工作岗位,可以减少公司培训的成本。不同的工作岗位会有不同的工作经验需求。我们可以发现企业对大数据岗位的最低工作年限要求可以分为7个取值范围:无需经验、1年经验、2年经验、3~4年经验、5~7年经验、8~9年经验、10年以上经验,其中3~4年经验的人才需求最多(见图9)。从大数据相关职位经验与平均薪资关系图中(见图10),我们可以看出随着经验的加深,平均薪资会越来越多。

图9 大数据相关工作经验漏斗图

图10 大数据相关职位经验与平均薪资关系图

3) 招聘单位对岗位的能力要求。招聘信息中的岗位要求和任职资格非常直观的体现了用人单位对求职者的技能需求,通过对岗位描述字段作进一步文本挖掘,探索求职高频职业技能。TF-IDF定义如下:

逆文档频率(IDF)=

TF-IDF=TF*IDF

利用TF-IDF算法加权,筛选出前一百个高频技能词汇,并绘制了下列的词云图(见图11)。

图11 高频技能词汇词云图

从图11中我们可以直观看到用人单位对应聘者的能力要求分可大致分为两大类,一类是基本能力要求,包括沟通能力、学习能力、责任心等;
另一类是专业技能需求,包括Java语言、数据库、Python、linux、web、运维、架构等。我们又根据这一百个高技能词汇相应的权值抽取部分绘制出了“基本能力要求表”和“专业技能需求表”(见表1和表2)。

4) 基本能力要求。本文将基本能力定义为除专业技能以外的能力,可以概括为人际交往、职业素养、心理素质、语言能力四大类。根据表1,从人际交往、职业素养等方面来看,用人单位对求职者有一些基本要求,包括要有较强的团队意识、学习能力要好,并且最重要的就是要有较好的沟通能力和责任心,说明了企业比较重视团队之中成员与成员沟通,只有沟通才能够建立合作,以及成员与成员的在工作中的互相协助。其次对责任心的要求,则说明了企业十分重视员工在工作室认真负责的工作态度。再次就是学习能力,这表明了在大部分工作岗位中最需要的就是学习能力,这样才能提高工作的效率,这也是用人单位非常看重的品质。而营销能力和策划能力以及抗压能力和报告撰写能力也占据了较高的权重,说明部分岗位偏运营管理类,和营销、策划有关。紧随其后的就是团队合作能力,足以说明与大数据相关专业的工作中,经常需要同其他部门进行合作。

表1 基本能力要求表

5) 专业技能要求。在专业知识技能需求的分析中,我们将对数据科学与大数据技术专业的技能要求按知识类型分为数学与统计学基础知识、计算机相关知识、大数据技术专业知识三大类,其中优化的权重最大,说明大数据相关岗位大部分以数学基础为核心(见表2)。只有具备了一定的数学基础,才能够更好地理解和掌握各种更深层次的算法,位列其后的便是Java语言与数据库,处于大数据时代,各种类型的数据体量呈指数爆炸式增长,普通的存储方式很难满足相关数据的存储,这时就需要数据库来进行存取,便于数据的预处理与读取,从而更好的处理数据。对于日益复杂的用户需求,大数据各个领域的相关岗位任职者也得具备一定的编程能力,Java、Python、c++等编程语言在开发上的应用范围也十分广泛。对于不同的岗位,可以选择不同的编程语言作为辅助工具。

表2 专业技能需求表

通过对数据科学与大数据技术专业人才岗位需求分析得出以下三点结论:

1)招聘岗位主要集中在经济较为发达的一线城市和超一线城市,大多分布在沿海偏西部地带,就业空间广泛,各公司对于开发工程师、运营、数据分析等职位存在较大需求,其中根据对比分析可以看出求职者选择去上市公司或者民营企业就职会更好,并且职位经验越高的平均薪资越高。

2)用人单位对求职者的专业技能和职业综合素质要求较高。大数据相关行业需要经过一定的实习,培养扎实的专业技能,练就较强的沟通能力,有较丰富的经验才能找到更好的工作。

3)学历是企业招聘人才的第一道门槛,交叉分析可知本科以上的学历在就业中会有一定的优势,并且薪资相对于而言也会更高。

在进行网络调研时,本文只选取了第三方招聘网站的招聘信息作为数据来源,而多数事业单位、国企等机构的招聘信息通常发布在官网或其他人力资源网站上,数据选取还不够全面系统,对大数据人才需求现状的调研结果不够精确,有待进一步提高。

猜你喜欢字段人才需求薪资图书馆中文图书编目外包数据质量控制分析江苏科技信息(2022年16期)2022-07-17不简单以“住房薪资”引才——遵循“一步一重天”的人才发展规律当代陕西(2022年6期)2022-04-192022年冬奥会冰雪体育人才需求与培养路径研究冰雪运动(2021年4期)2021-11-20能源行业网络安全人才需求与培养探讨信息安全研究(2018年12期)2018-12-29呼伦贝尔地区蒙医专业人才需求与教学改革中国民族医药杂志(2016年1期)2016-05-09中国海归人才需求地图留学(2015年10期)2015-12-16CNMARC304字段和314字段责任附注方式解析图书馆建设(2015年10期)2015-02-13无正题名文献著录方法评述新世纪图书馆(2014年7期)2014-09-19">关于CNMARC的3--字段改革的必要性与可行性研究
图书馆建设(2014年3期)2014-02-12

推荐访问:数据 挖掘 招聘网站