脱单攻略:数据教你精准把到交大女神
摘要: 开学了,交个女朋友再自然不过。不过,对于和长者同为校友的上海交大学子而言,除了思考隔壁“华师大的姑娘真的那么可爱吗”的诱惑外,还要饱受“你女朋友才是交大的呢”、”有个交大女朋友是怎样一种体验“的质疑,甚至还有好事者编了首歌叫《交大无美女》。于是,作为交大的数据侠,张宏伦决定为本校的女生洗白……
文/DT财经 张宏伦
交大女神,生活好;少吃晚饭,爱洗澡
“为什么要找交大女生做女友?”这个问题,其实知乎上已经有不少神回复了。
我们利用现有上海交大的校园卡数据,基于商户信息、用户信息、交易记录、气象记录和校园网记录五个数据集,来分析一下交大女生有何特质。
由于校园卡消费人群具有许多特性,不同人群每周去食堂、超市、洗浴中心的次数,以及在不同场所的花销也不同,但总体来说人群会根据消费习惯的不同形成不同的类别。通过对校园卡消费人群进行聚类分析,得出的结论是:“交大女神,生活好;少吃晚饭,爱洗澡。”
(DT君OS:看到这里,DT君忍不住翻了一个白眼。但本着尊重作者的专业态度,DT君还是决定好好看下去……)
第1步:交大女生常在哪里出没?
知己知彼,才能百战不殆。
在男女比例为1:0.618的上海交大(注:本数据来自上海交大微信公号),要想捕获一枚交大女神也不是那么容易。
首先,我们得先明确一下,她们都在哪儿出没。
根据校园卡数据,我们将全校消费的商户信息分为以下几类:
可以看出校园卡消费用户大部分的消费记录都集中在食堂(72.31%)上;此外洗浴及热水(19.23%)和超市(6.86%)消费也占据了一部分,其他的消费记录(其他服务、运动、图书馆)只占据了极小部分(1.60%)。
食堂的就餐行为占整个用户的刷卡交易行为的72.31%,可见食堂就餐是一卡通持卡用户交易最频繁、交易量最大的消费行为。本着最大的可能性,从食堂里找交大女生最为容易了。
因此,我们将重点集中在餐饮消费数据,来看看人群的行为习惯。
先来看看下面这张按照出现频率统计的消费地点词云:
由于每条消费记录会包含一个窗口名称,还有一个所属食堂,所以我们很容易得出哪些食堂的哪些地方消费次数最多,营业额最高。
根据窗口信息汇总,最受欢迎的食堂非第三食堂莫属。新闵行第三餐饮学生餐厅完成装修后于2014年9月2日重新投入营业。在观测时间范围内,营业额为3793804元,在各子商户中排名第一;消费人次达626013次,同样位于第一。
而女生的总体商户消费分布是长这样子的(看不清没关系,有个概念就好,接下来会有解释):
可见,无论是小本、硕士、还是女博士,最受姑凉们欢迎的是闵行第三餐饮学生餐厅和教育超市(DT君OS:都说“玩在复旦,住在交大,吃在同济,爱在华师大”,如今交大女生是要逆天呀……)。
下图给了你一个全景,让你看看交大女生的总体消费习惯是怎么样:
可以很明显地看出,女生在就餐上的开销总体大约比男生少600元,硕士和博士在就餐上的花费范围也比本科生波动要大一些。
而本科生在超市和点心上的消费比硕士和博士更多,女生在水果和咖啡上的消费也比男生要多一些。
从消费次数分布可以看到更明显的一些特征。男生人均比女生在食堂就餐的次数更多,女生比男生洗澡次数更多,本科生比硕士和博士生逛超市的次数更多。从本科到硕士到博士,所念学历越高,学生在食堂就餐的最低次数逐渐降低,也许是因为忙于科研没时间出去吃饭,所以养成了点外卖的习惯~
还有一个很出人意料的结论:各类用户(男和女,本硕博)中都有在就餐方面消费总额和次数均为零的情况,他们从来不在食堂吃饭!
看完了这一节,你至少知道如何在校园里,和为数不多的交大女生来一次大概率的偶遇了吧。
第2步:聚类分析划定五类人,里面就有你要的女神
交大女生那么多?哪一款才是我们的女神呢?让我们把交大学生做一次聚类分析。
聚类分析法是一种无监督的机器学习方法,即根据事物某方面特性把它们划分成为多个类别,使得属于同一类别的个体具有相似的特性或比较高的相似度,而不属于同一类别的个体具有不同的特征或比较低的相似度。同一类别的相似性越大,不同类别间差别越大,聚类效果就越好。
因为我们的数据集比较大,而涉及到的数值型的属性比较多(消费数额,消费次数等),所以这里我们选用基于划分的K-Means聚类。
聚类特征的选取很重要,考虑到对消费人群进行画像,我们选取学生在食堂、洗浴中心及超市的消费次数、平均消费金额作为特征。整理好数据集后我们查视一下数据集的格式:
我们从中选取数据的数值特征,为了保证可靠的方差分析,我们先用scale函数对样本特征的取值范围进行归一化,并绘制组内方差图选取合适的K值,下面的图表现了不同K值下组内方差的结果。x轴代表聚类个数,y轴代表平均组内方差。我们可以看到,当聚类数目越大的时候,每组的组内方差就越小。
可以看出当聚类个数K>5后组内方差下降趋势变缓,同时也保证了K的数目足够小,所以我们选取K=5为聚类个数。
利用R的kmeans函数可以很快实现K-Means,如下:
得到聚类中心后,我们可以可视化我们的聚类结果,我们不妨比较一下去食堂次数以及去超市次数的聚类散点图:
可以从图中看出形成了比较明显的聚类,即属于第三聚类的人群去超市次数多于其他各类,去食堂次数则相对较少,从生活习性我们可以推断这些人可能是比较喜欢买泡面解决饮食的宅男们。
不妨再比较一下去食堂次数以及去洗浴中心等次数的聚类散点图:
我们从图中可以果断的找出女神人群就是第一聚类,爱洗澡 生活有规律(去食堂) 女生占比大的种类,非女神莫属!(DT君OS:大侠,你的口味好独特哦!)
我们可以随机抽取50个样本,绘制聚类热力图,如下:
结合热力图和不同性别,不同学历在各组间出现的比例,我们可以推测各个组的性质。
就此我们可以得到这5类人群的画像:
-
第一聚类:女神or男神,这一聚类女生比例较高,去食堂次数十分规律稳定,而且注重个人卫生,经常去洗澡。
第二聚类:潜力股or学术帝,男生很多,博士生的比例最高,相对于第一类生活更规律,去食堂的次数更多。
第三聚类:宅男,这一聚类男生比例极高,去食堂的次数相对较少,反而经常去超市,推测经常购买的物品一定是泡面纸巾……
第四聚类:奇行种,去食堂、超市、洗浴中心的次数都很少,不知道他们每天都在哪里。
第五聚类:人民群众,去食堂、超市、洗浴中心的次数都比较均衡,是我们广大人民群众中的一员。
显然,我们要找的是第一种。可这里面竟然还有男的……(DT君OS:嗯其实找个干净的男朋友也是不错的,男生们你们不妨也考虑一下……)
第3步:精准定位你的女神
见证奇迹的时刻到了。
究竟如何准确定位女神呢?
我们将消费数据与第一聚类匹配,就得到第一聚类中女性(即女神!敲黑板画重点!)的消费频次分布,如下图:
接着,我们可以利用性别、入学年份、出生年份、学位类别、最常去的食堂、就餐均匀度、总就餐次数和工作日就餐比等特征,匹配自己的资料和就餐习惯,逐步缩小筛选范围并最终锁定目标(哪怕数据已经经过了脱敏处理)。
根据当下男生喜欢的类型,我输入了“年龄小(95后),本科生,女,爱洗澡爱逛超市,生活有规律”几个条件,为你筛选出15个高颜值女神。
当然,如果你觉得光是一卡通数据不够精准定位你的女神,还可以和校园网wifi数据结合起来挖掘,可以进一步研究女神的特征,比如她们经常访问一些文艺的网站,购买化妆品、衣服等等(DT君OS:从这里可见,张童鞋是位老司机)。
彩蛋:我们还可以定位最佳男友哦
这个话题,其实上面已经提到一些些了。
好基友的定义有很多种。利用餐饮数据,我们简单的定义最佳好基友为帮基友或舍友带饭的童鞋;而好男友简单的定义,则为每次都会帮女友刷卡的童鞋们……他们之间共同的特征是会在连续打若干次饭,并且价钱相近。利用这条规则,我们在找到了20000多次刷卡记录,剔除掉无效的数据(同一时间出现两条数据的、联系两次但价格相差很大的),共有10000余条这样的记录,这说明至少有10000次这样代为打饭的同学。前5名如下所示:
虽然不知道这几位同学具体的名字,但是按你胃,你们现在成为国民好男友啦。
数据获取与整理
本文是在一份比赛报告基础上进行改写的。
本次研究是参加EMC杯智慧校园开放数据大赛的比赛报告,比赛举办方是交大网络信息中心;比赛数据由上海交通大学网络信息中心和OMNILab联合提供。
研究报告涉及到的数据,分为以下几个部分:
-
用户信息中包含了上海交通大学闵行校区使用过校园卡消费的学生信息。包扩卡号(匿名化)、学号(匿名化)、性别、年龄、入学年、学生类型。共30861项观测,包含30861个一卡通账户、30812个学号,即有49名学生拥有两个一卡通账户。时间跨度为2014-09-01至2015-01-31。
交易记录中包含了上海交通大学闵行校区的校园卡消费信息。每条交易记录包括消费者卡号、商户号、商户所属系统、交易时间、交易金额。共7915289项交易记录,时间跨度为2014-09-01至2015-01-31。
商户信息中包含了上海交通大学大学闵行校区各个商户的信息。包括商户所属系统代码、商户所属系统名称、商户代码、商户名称、商户地点(有缺失)、商户成立时间。共134项观测,包含32个商户系统、85个子商户。
校园网记录中包含了共12736408项校园网记录,时间跨度为2014-09-01至2015-01-31。
数据侠门派(附第二个彩蛋)
本文数据侠:张宏伦,上海交通大学OMNILab实验室直博生,研究方向为数据分析和数据可视化。
好了,答应你们的彩蛋来了:
文章的最后,萌主问张宏伦,既然交大女生这么好,你给我介绍个师妹来实习吧!(这是真的!萌主约你一统江湖。)
他回复:你觉得我有师妹吗?
BTW,更惨痛的事实是,萌主私下多方打听了解到,张大侠的女朋友……并不是交大的!
如何加入数据侠
“数据侠”栏目网罗全球最IN的大数据侠客,利用人工智能、机器学习以及各种前瞻算法,打造理性而酷炫的数据可视化盛宴。过去,我们用文字,视频,图片传达信息。现在,我们用大数据阐述事实及其背后逻辑趋势。
DT时代超级英雄正在组队!你也想要成为成为数据侠吗?请将你脑洞大开的数据作品,发到数据侠联盟萌主沈念祖的邮箱:shennianzu@dtcj.com。哦对了,请不要叫她沈先生,切记。
(了解更多有趣又有料的商业数据分析,欢迎关注DT财经微信公众号“DTcaijing”,下载“DT·一财”APP)