数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分（上）

2024-04-29 29

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分

全文链接：https://tecdat.cn/?p=32998

本文首先介绍了IMDb（互联网电影资料库） TOP250及其排名算法、评分机制利弊，帮助客户通过分析《黑暗骑士》、《肖申克的救赎》和《教父》三部影片评分数据，分析排名变动的原因（点击文末“阅读原文”获取完整代码数据）。

其次，通过抓取曾经入选电影的生产国家、导演和演员、制作年份、风格流派以及当前入选的制作年份和各自的计数、平均打分，总结IMDb TOP250电影特征，最终得出互联网资料库Top250多为欧美国家制作于上世纪末本世纪初剧情片的分析结果。

IMDb简介

互联网电影资料库（Internet Movie Database，简称IMDb）是一个关于电影演员、电影、电视节目、电视明星、电子游戏和电影制作的在线数据库。IMDb创建于1990年10月17日，从1998年开始成为Amazon公司旗下网站，2010年是IMDb成立20周年纪念。对于电影的评分目前使用最多的就是IMDb评分。

Top250

Top250是IMDb的特色，里面列出了注册用户投票选出的有史以来最佳250部电影（查看文末了解数据免费获取方式）。只有供影院播出的影片可以参加评选，而短片，纪录片，连续短剧和电视电影不在其列。用户在从“1”（最低）到“10”（最高）的范围内对影片评分。得分经过数学公式（IMDb公开的Top250算法[1]）的过滤而生成最后的评定。为了保护结果不受恶意投票的影响，并且，只有“经常投票的用户”的投票被记入结果，为保护公平性，成为该类用户的条件是保密的。

[1] The formula for calculating the Top Rated 250 Titles gives a true Bayesian estimate:

weighted rating (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C =C+(R-C) ×1/（1+m/v）

where:

R = average for the movie (mean) = (Rating)

v = number of votes for the movie = (votes)

m = minimum votes required to be listed in the Top 250 (currently 25000)

C = the mean vote across the whole report (currently 7.0)

for the Top 250, only votes from regular voters are considered.

因此：临界值m=v，有Rating(WR)=（R+C）/2，即最终得分为用户打分和平均分的均值，用户打分有效，但不明显；v<>m时，有Rating(WR)→R，即打分用户越多，用户打分影响越大，越趋近用户真实打分。

查看数据

head(df)
df$`Highest position`=apply(df[,c("rank1" ,"rank2")],1,min)

另外在五部曾经成为过Top1里面，除了《肖申克的救赎》和《教父》，《星球大战》、《黑暗骑士》、《指环王》都是轰动一时的大片；并且排名达到过第二的电影里面既有奥斯卡得主也有商业大片：这说明一部电影在上映或评选时引起的轰动会影响到IMDb排名的剧烈波动。此外，《教父》和《肖申克的救赎》的平均评分分别是9.11和9.10，另外三部拿过第一的电影在平均评分上与前二者有明显差距。

点击标题查阅往期内容

数据分享|R语言逐步回归、方差分析anova电影市场调查问卷数据可视化

排名算法探讨

IMDb Top250算法的思路就是通过每部影片的评分人数作为调节排序的杠杆：如果这部影片的评分人数低于一个预设值，影片的最终得分会向全部影片的平均分被拉低。

由此可见，平衡评分人数和得分，避免小众高分影片排前，是这个计算方法的出发点。可问题在于：调节整个榜单的排序主要依赖于评分人数预设值。若被设置的很低，那么最终的排序结果，就是每部影片自身评分从高到低在排序；若被设置得过高，那么只适用高曝光率的影片。该预设值从500被调整至25000，遗憾的是这个算法仍然无法很好的解决他们的问题。

考虑国内电影市场，2015年11月19日上映的《我的少女时代》，在2015年12月19日在豆瓣电影得到了累计超过11万人次的评分，而1942年上映的《卡萨布兰卡》，同时刻的评分人数还不到10万。近几年由于观影方式的多样化以及影院观影的持续火爆，使得新近上映的影片很轻松地就能获得大量的评分，相较之下，老片子的曝光机会少了很多。继续调节评分人数预设值已无法满足当前国内电影排行榜的实际需求。

评分机制利弊

对于大部分电影而言，长期来看评分是有一定参考价值的。但由于存在受雇于网络公关公司，或者狂热粉丝伪装成普通用户在网站上刷口碑，给竞争对手抹黑，借以操纵市场的行为，不可盲目迷信分数。

2008年7月18日《黑暗骑士》[1]上映时，诺兰狂热粉丝为了将其推上TOP1，昼夜不停给该片打10分，同时给当时TOP1的《教父》[2]打1分，终于把一部21世纪影片送上了TOP1宝座，也让《肖申克的救赎》的分数超越了《教父》。如今《黑暗骑士》终究不敌岁月洗礼跌下去了，不过《肖申克的救赎》[3]的优势却保留了下来，成了TOP1。

下面通过采集IMDb相应时段数据，说明该过程：

# 《教父》的IMDb排名走势图  
  
df = read_excel("imdb top250.xls", sheet = 3  )

从1998年开始，《教父》基本上稳定地排在Top 250榜单的第一名，而在2008年7月底，突然降到第3名，然后从当年8月10日起至今，回升并保持在第二。

data.frame(date,na.omit(df$Change),na.omit(rank,df$Rating),na.omit(df$V

在7月中旬之前，该片每天新增投票100多，但从大约7月20日起，每天新增投票超过1000，同时它的排名降到第2，然后在6天之内降至第3。

数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分（下）：/article/1497193

数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分（上）

全文链接：https://tecdat.cn/?p=32998

IMDb简介

Top250

查看数据

排名算法探讨

评分机制利弊

热门文章

最新文章

相关课程

相关电子书

相关实验场景