电影角色的关系揭示了关于性别的什么,随着时间的流逝,这种关系发生了什么变化?

尽管进步取得了不断的进步,但电影中的性别差距仍然很大。利用IMDB的字幕和信息进行了15,000多部电影,我们发现在整个类型的电影中,平均只有3.3名女性。

数据科学有可能提出广泛的社会科学问题。在这里,我们将注意力转移到电影中女性的刻画,该行业对社会对生活的影响有重大影响,包括自尊和职业选择。金博宝188app网站

在过去的几年中,电影业的性别差距引起了很多关注。这个问题是众所周知的:妇女的薪水仍然不足和代表性不足。这种情况必须改变,我们认为改变某事的最佳方法是阐明问题所在。

数据科学如何帮助?

作为数据科学家,我们决定利用网络和机器学习算法来通过执行迄今为止最大的分析来调查电影行业的性别差距问题。

为此,我们从在线电影数据库IMDB和从封闭的字幕字幕中获取的电影对话数据集融合了数据,以创建最大的电影社交网络语料库(15,540个网络)。

分析这一点,我们调查了过去一个世纪中屏幕女性在电影界的作用。首先,我们将电影字幕的数据与IMDB数据集相结合。接下来,使用命名实体识别(NER),我们从字幕中提取了电影字符,并将其链接到演员。然后,我们在电影角色之间建立了一个社交网络。

如何从字幕建立社交网络

为了更好地理解我们的算法的工作原理,让我们以“矩阵”字幕的三行来为例。首先,使用ner检测每个字符名称在字幕中的何处和何时出现。在这种情况下,我们有一个场景,Morpheus与Neo进行了交谈。要找到名为的演员并验证它是一个角色,我们将字幕中的名称与IMDB的字符列表匹配。

最后,使用匹配的字符,我们在电影间隔中出现的字符之间创建了一个链接,而该字符的时间间隔小于预定义的阈值。在我们的示例中,我们知道Morpheus向Neo介绍了自己,并且我们知道Morpheus和Neo在5秒钟的时间间隔内交谈。

如果5秒小于预定义阈值,则我们在NEO和Morpheus之间连接和边缘。我们对电影字幕中的所有线路进行此过程,这导致了一个加权的社交网络,其中边缘权重是两个节点(字符)出现在一起的次数。

《星球大战》电影系列中女性代表的演变(版权所有Dima Kagan,Thomas Chesney和Michael Fire CC,由4.0列出)。

看中心

使用这些网络,我们研究了电影中性别之间的差异。我们认为,根据网络中的中心地位,分析前10名角色中的女性人数将很有趣。

尽管上个世纪有所改善,但在电影中的领导角色中,男性的平均水平仍然是女性的两倍。

在电影中,主要角色是最重要的角色,它吸引了大多数焦点,重要的是要看到足够多的女性扮演这些角色。我们发现,平均而言,女性在具有非常明显的差距的电影中扮演的核心角色更少。

在上个世纪,这个数字一直在不断增长。但是,今天平均而言,在电影中前10名角色中,男人仍然是女性的两倍。该结果表明,平均而言,女性角色更小。

如何衡量公平代表?

如今,最著名的措施是女性在电影中的表现方式是Bechdel测试。要通过测试,这部电影必须通过三个标准:(1)它必须至少有两个女人,她们(2)互相交谈,大约是(3)男人以外的东西。

我们想到的第一件事并不容易手动检查每部电影是否通过测试,为什么不自动化它。我们使用我们构建的网络来提取基于网络的功能,并根据机器学习算法创建了自动化的BechDel测试。

使用我们自动化的Bechdel测试,我们发现一些电影当前错误地分类了其Bechdel测试分数的条款。此外,我们用它来量化未分类的电影,发现通过Bechdel测试的电影数量增加。

玛丽莲·梦露(Marilyn Monroe)是一位以喜剧“金发重磅炸弹”角色而闻名的美国女演员。Skeeze的图像,Pixabay CC-0。

尽管Bechdel测试肯定是一个有用且重要的测试除了男人以外的其他几秒钟之外,这部电影将通过传统的Bechdel测试。

我们坚信,今天我们应该进行一项测试,以提供更准确的电影中女性代表性。我们提出了一项测试,该测试使用每个性别的总数(相互作用数)来衡量性别差距。

我们认为,一个好的经验法则应该是:

可悲的是,所有电影中只有12%通过了这项测试。话虽如此,我们发现了许多证据表明,电影中女性代表性的趋势有所改善。

这些结果凸显了大量数据以及高级算法以及提高性别不平等研究的高潜力。未来使用类似方法的研究还可以分析电视系列和其他类型的媒体发现其他空白。

查看有关社会主页的最新帖子金博宝188app网站

注释