心理学的17135种可能性
发布时间:2021-05-25 浏览次数: 来源:

874万,2020届高校毕业生人数再创新高,同比增加40万。同时,受疫情影响,大量人员面临降薪和失业。2020的难,还难在就业。这也激发了心理学学子的危机意识,纷纷开始关注就业信息,提前做打算。此外,随着“以用户为中心”观念的普及,企业对心理学人越来越重视,明确招聘心理学专业的岗位也越来越多,但部分心理学的同学对于自己未来从事的职业有所迷茫。现有心理学求职指南多是从定性的角度对少数职场人进行调查访谈,本篇报告从爬取的大量招聘信息入手,力求对心理学人的整体就业市场形成更客观、量化的认识。

为了帮助心理学人更直观地了解心理学就业前景,以及更有针对性地准备相关岗位应聘。在2020年3月31日至4月6日,以"心理学"为关键词,分别爬取了拉勾网、猎聘网和前程无忧三大招聘网站的搜索结果。为了获取更全面的大厂信息,在4月15至16日爬取了阿里巴巴、腾讯、百度、京东、网易、字节跳动的官方招聘网站中包含“心理学”关键词的招聘信息(包括校招和社招网站)。最终清洗过后数据共17135条,将之称为:心理学人的17135种可能。


数据爬取、分析、可视化的全流程技术解读

数据爬取


数据预处理


数据规范化

进行数据规范化主要分为两个步骤:一是使用正则表达式从原始数据中分别提取文字和数字信息;二是针对不同的原始单位,按照预先设定的判断逻辑进行计算和转化。

正则表达式( Regular expression)是一组由字母和符号组成的特殊文本, 它可以用来从文本中找出满足你想要的格式的句子。


数据分析

以本次项目为例,主要有四类分析需求,即描述性分析、交叉分析、时序分析以及文本分析。

描述性分析和交叉分析的部分,出于美观以及操作便捷性的考虑,选取Tableau和Excel。

时序分析希望展示的是数据在时间维度上的变化趋势,而动态效果更能体现这种变化趋势,因此,我们选取了Flourish数据跑分软件。

文本分析常见的用途是从大量文本中提炼主题或关键字,比较简单的方法是对词频进行统计分析。但单纯的词频统计往往会遇到高频无意义词(例如“一个”、“的”)和单个词语意义有限两个问题。以“岗位关键能力”分析为例,我们希望在岗位描述中,提取出反映岗位要求的信息。为解决上述问题,选择将TF-IDF算法与n-gram结合使用。

TF-IDF算法可在计算词频时引入权重,从而排除在一般场景下词语使用频率的影响,得到在特定语境中的真实高频词。

n-gram是从一个句子中提取n个连续词的集合,可以获取到词的前后信息。经试验我们选择了1-gram、2-gram、3-gram和4-gram四种组合的结果。



数据可视化


项目成果


 


项目获“方向特色奖学金特等奖”;北师大英才“促就业行动”荣誉评价