数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分（下）

2024-04-29 20

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分

数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分（上）：

/article/1497192

相比之下《黑暗骑士》排名波动较大，从上图可以看出，影片于2008年7月中旬上映，在几天之内冲到Top 250的第一，但在这个位置上它只保持了不到一个月，从8月10日开始连连下跌，最低跌到过第12名，今排第6。

df[,c("Date"  , "Change" ,  "Votes" ,  "Rating"      )]

《黑暗骑士》在2008年7月份的投票变动情况

par(new=TRUE)  
plot(x, y2,,type="l",col="blue",xaxt="n",yaxt="n",xlab="",ylab="")  
axis(4)  
mtext("y2",side=4,line=3)

点击标题查阅往期内容

《黑暗骑士》在2008年7月份的投票和新增票数变动情况

上映几天之内新增的票数和评分的走势基本一致，可以认为大量新增的评分拉高了平均分。之后恢复常态的新增票数对评分作了矫正。《黑暗骑士》上映，《教父》投票猛增，伴随排名下降。《黑暗骑士》超过了《教父》，《教父》又跌到《肖申克的救赎》之下，结论即：短期内恶评《教父》的人大量增加了。

《肖申克的救赎》的IMDb排名走势图

《肖申克的救赎》在2008年7、8月份的投票变动情况

par(new=TRUE)  
plot(x, y2,,type="l",col="blue",xaxt="n",yaxt="n",xlab="",ylab="")

2008年7月16日至2008年8月10日《教父》、《黑暗骑士》、《肖申克的救赎》的IMDb排名（《教父》和《肖申克的救赎》对应的是次坐标轴）

结合图表发现，其实《肖申克的救赎》的投票情况也受到了《黑暗骑士》上映的影响，从之前的每天100至200票，猛增到后来的每天600至1000票，个别数甚至突破1000。和《教父》情况相似，只不过《肖申克的救赎》的目标不如《教父》醒目，所以受到的“攻击”不如《教父》猛烈，最后渔翁得利。

counts <- t(proportion)  
barplot(counts, main="Vote rate",

观察《教父》、《黑暗骑士》、《肖申克的救赎》的IMDb评分比例，结合hate votes仇恨投票比例，即打1分的票数占总票数之比。《十二怒汉》[1]、《黄金三镖客》[2]、《低俗小说》[3]等其他Top 10行列的影片这个比例在2.20-3.60%之间，肖申克的救赎为3.40%，比较正常，《黑暗骑士》为3.70%，略偏高，而常年稳居第一的《教父》竟高达6.40%，即出现大量的人给《教父》打1分。从2015年12月18日《教父》、《黑暗骑士》、《肖申克的救赎》的IMDb评分比例可见三者均有被恶评的现象，其中《教父》也高于后两者。

从TOP 250看受众电影偏好

通过分析TOP 250电影特征，能够给予观众和制作者一些启发。亚马逊也靠IMDb卖出了更多的 DVD和录像带。

生产国家

"Russia",  
"Federal Republic of Yugoslavia"  
)  
barplot( y1 ,col="blue",xaxt="n", yaxt="n",xlab="",ylab="" )  
axis(4)  
mtext("y1",side=4,line=3 )

上图影片数拟合幂律分布的可决系数R?高达0.988，前五名（包括美国、英国、法国、德国、日本）集中了81.6%的影片。美国电影独占鳌头，一方面原因是IMDb的主要评分人群在北美，主要定位在北美观众；另一方面得益于严谨的商业体系，稳定的运作。

导演和演员

wb = loadWorkbook("imdb top250.xls")  
df = readWorksheet(wb, sheet = "导演", header = TRUE)  
## 生产国家

上图影片数拟合幂律分布的可决系数R?分别高达0.899和0.968。观众对于导演的喜爱程度不如演员集中。

演员与影片数和平均评分

df = readWorksheet(wb, sheet = "演员", header = TRUE)

风格流派

y=df$Count[-nrow(df)]  
names(y)=df$Genre[-nrow(df)]

风格流派与影片数

影片数拟合幂律分布的可决系数R?分别高达0.839。其中评分最高的是剧情片。由于剧情片的分数除了其本身水准以外，还会受到一定程度上的情感倾向影响，倾向于励志、感人、亲情、悲剧等一些容易唤起观众共鸣的情感，人们更容易对故事本身而不是电影水准产生认可，但最主要的因素仍是电影本身的质量好坏。

年份

df[df$Year %in% 1990:1999,-1]

观察一共884部历史曾经入选的影片制作年份，可见20世纪 90年代及本世纪初的电影有比较出色的表现。尤其是1996年（包括《美好事物》、《泰坦尼克号》、《真实的谎言》、《罗密欧与朱丽叶》）、1995年（《七宗罪》、《十二只猴子》）、1994年（《低俗小说》、《阿甘正传》、《肖申克的救赎》）

此外，入选的影片制作年份分布明显右偏。虽然20世纪30年代初到40年代末，特别是1935年到1945年是好莱坞也是美国电影的鼎盛时期。这一时期拍片的数量最多，1946年的产量达500部。电影的观众也最多，影片获得的利润也是最高的，但这并不能说这一时期的影片艺术水平最高，虽然被之后的作品借鉴，但观众最早接触到的仍是离他们最近的影片。

总结

通过以上分析可以明显发现，观众的偏好无论是对于生产国家、导演和演员、制作年份还是风格流派都服从幂律分布，并能够大致勾画出TOP 250电影的典型特征：由欧美国家制作于上世纪末本世纪初的剧情片。

面对良莠不齐的影片，通过集体智慧去粗取精，榜单是一种帮助建立品位的电影体并作为生产者参考标准之一：在IMDb上的口碑直接影响电影公司对于导演、演员的选取。

数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分（下）

从TOP 250看受众电影偏好

生产国家

导演和演员

演员与影片数和平均评分

风格流派

风格流派与影片数

年份

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景