赛题很长,有整整一页。
前面是一大段关于赛题的介绍。
唐苏总结了一下,就是需要对赛题提供的虚拟网站的数据进行爬取、清洗、整理、计算、表达、分析,最后要用图表的形式实现数据可视化。
虽然只是初赛,但是唐苏感觉赛题的难度真的有点大,尤其是她们现在才大一,一些专业知识没有学过,甚至也没有上过数据可视化相关的课程。
唐苏倒是自学过数据可视化的一些课程,但是并不深入。
唐苏点开赛题上给出连接,准备开始爬取数据。
但她还未操作,就见一些同学离场了。
唐苏看了一下,离场的竟然包括自己寝室的同学杨璐和仇晓。有将近二三十个同学离场了,其中很多是自己的同学。
唐苏深吸一口气。
看来很多同学对于这个赛题是无从下手吧,或者因为没有掌握相关的一些技能,而不得不放弃比赛。
唐苏不管其他人了,她开始操作了。
她先进行了hadoop相关组件安装部署,主要是安装hive组件。
第一步完成之后,她开始使用python语言爬取数据。
唐苏以前也去一些网站爬取过数据,这一步对于她来说难度并不是很大,这也是作为大数据专业的学生需要掌握的基本技能之一。
第二步,爬取到了数据,唐苏开始提取有效数据,然后对数据进行格式转化,转化为json格式。这一步唐苏很熟练的完成了,因为以前就做过。
第三步,需要对数据进行清洗和分析。这一步是非常关键的一步。唐苏考虑了一下后,使用了java语言编写了用于数据清洗的mapreduce程序。清洗好数据之后,她将可用数据加载到hive数据库中,通过运行hql命令完成数据的分析与统计。最后在hive中执行sql脚本,查看表中的数据。
这一系列操作花了不少的时间,唐苏看到两个小时已经过去了。
她仅剩一个小时完成赛题。
第四步是完成数据可视化,唐苏思考了一下后分别采用柱状图,折线图,以及雷达图来输出自己分析的数据。
这次赛题的主题是对各地it行业从业人员的薪资情况进行对比分析,得出分析结果。
第五步,是写数据分析报告。
此时距离比赛结束还有半个小时。
而到这个点,还在现场的已经只剩下不到三分之一的人了。
很多同学要么放弃比赛直接离开,有的则可能是提前做完了离开。
有了可视化的图表,唐苏做数据分析比较顺利,也顺利在规定的时间内写出了分析报告。
写完报告后,唐苏点击了提交,然后离开了比赛现场。
分数不会当场出来,所以唐苏还需要等几天后公布的复赛名单才会知道自己有没有机会晋级复赛。
将近150人参加初赛,但是只有30名同学能进复赛,唐苏不知道自己有没有这个机会,但是她已经尽力了,做按照步骤做完了题。
如果最后没有晋级,只能说,她现在的专业水平还不够。