900字范文,内容丰富有趣,生活中的好帮手!
900字范文 > 从爬虫到分析之猫眼电影大数据

从爬虫到分析之猫眼电影大数据

时间:2018-10-03 21:59:24

相关推荐

从爬虫到分析之猫眼电影大数据

有态度地学习

双11已经过去,双12即将来临,离的结束也就2个月不到,还记得年初立下的flag吗?

完成了多少?相信很多人和我一样,抱头痛哭...

本次利用猫眼电影,实现对的电影大数据进行分析。

/ 01 / 网页分析

01 标签

通过点击猫眼电影已经归类好的标签,得到网址信息。

02 索引页

打开开发人员工具,获取索引页里电影的链接以及评分信息。

索引页一共有30多页,但是有电影评分的只有10页。

本次只对有电影评分的数据进行获取。

03 详情页

对详情页的信息进行获取。

主要是名称,类型,国家,时长,上映时间,评分,评分人数,累计票房。

/ 02 / 反爬破解

通过开发人员工具发现,猫眼针对评分,评分人数,累计票房的数据,施加了文字反爬。

通过查看网页源码,发现只要刷新页面,三处文字编码就会改变,无法直接匹配信息。

所以需要下载文字文件,对其进行双匹配。

将woff格式转换为xml格式,以便在Pycharm中查看详细信息。

利用下面这个网站,打开woff文件。

url:/static/editor/index.html

可以得到下面数字部分信息(上下两块)。

在Pycharm中查看xml格式文件(左右两块),你就会发现有对应信息。

通过上图你就可以将数字6对上号了,其他数字一样的。

/ 03 / 数据获取

01 构造请求头

因为索引页和详情页请求头不一样,这里为了简便,构造了一个函数。

02 获取电影详情页链接

03 获取电影详情页信息

/ 04 / 数据存储

01 创建数据库及表格

其中票房收入数据类型为BIGINT(19位数),最大为18446744073709551615。

INT(10位数),最大为2147483647,达不到36亿(3600000000)。

02 数据存储

最后成功存储数据

/ 05 / 数据可视化

可视化源码就不放了,公众号回复电影即可获得。

01 电影票房TOP10

还剩一个多月,不知道榜单上会不会有新成员。最近「毒液」很火,蛮有希望。

02 电影评分TOP10

这里就得吐槽一下pyecharts,坐标转换后,坐标值名称太长就会被遮挡,还需改进呢~

03 电影人气TOP10

茫茫人海之中,相信一定也有大家的身影,我也是其中的一员!!!

04 每月电影上映数量

每月上映数好像没什么大差距,7月最少,难道是因为天气热?

05 每月电影票房

这里就看出春节档电影的威力了,金三银四、金九银十,各行各业的规律,电影行业也不例外。

上一张图我们知道7月份电影上新最少,票房反而是第二。

这里看了下数据,发现有「我不是药神」「西虹市首富」「邪不压正」「摩天营救」「狄仁杰之四大天王」几部大剧撑着。

06 各国家电影数量TOP10

原来中国电影这么高产的,可是豆瓣TOP250里又有多少中国电影呢?深思!!!

07 中外票房对比

的年度票房是560亿,估计今年快要突破了。据说今年全年票房有望突破600亿。

08 电影名利双收TOP10

计算公式是,把某部电影的评分在所有电影评分中的排名与这部电影的票房在所有票房中的排名加起来,再除以电影总数。

除了「侏罗纪世界2」「无双」「捉妖记2」,我都看过啦!

09 电影叫座不叫好TOP10

计算公式是,把某部电影的票房排名减去某部电影的评分排名加起来,再除以电影总数。

可能是猫眼的用户比较仁慈吧,与豆瓣相比,普遍评分都比较高。我个人都不太敢相信这个结果。

不过有一个还是挺准的,「爱情公寓」。

10 电影类型分布

剧情电影永远引人深思。感觉今年的电影好多跟钱有关,比如「我不是药神」「西虹市首富」「一出好戏」「头号玩家」,贫穷限制了大家伙们。

公众号回复电影。即可获取全部源码。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。