机器学习技术能预测社交媒体上表情包的流行程度吗?-论自然科学

机器学习技术能预测社交媒体上表情包的流行程度吗?

到底是什么让表情包在社交网络上走红呢?最近发表于应用网络科学使用机器学习技术来检查和预测模因的成功。此外，这些表情包可以为我们了解新冠肺炎时期互联网用户的想法提供一面镜子。Nóra Balogh，该研究的合著者，谈论了这些发现。

作者，基于https://unsplash.com/photos/rFkORkehOdg

由于新冠肺炎大流行和保持社交距离的副作用，越来越多的人转向网络平台进行社交。

很少有模因能真正传播开来，也不清楚什么特征会导致模因有价值

因此，以有趣的图片、引用、笑话、推特和标签等形式出现的表情包已经成为一种更为重要的社会现象，引起了社会学家、网络科学家以及像我们这样的数据科学家的注意。

模因可以表达幽默、思想，并引起人们对尖锐的文化和政治主题的关注。很少有模因能真正传播开来，也不清楚什么特征会导致模因有价值。

许多作者探索了导致模因走红的社交网络因素，但把模因内容可能对流行的影响放在了一边。

相比之下，我们的研究是基于内容的分析，使用先进的机器学习技术来分析是什么让模因成功。

在全球冠状病毒爆发之初，我们收集了Reddit上发布的129326个独特的图文表情包。图像与文本模因的病毒性质使这些数据非常适合二元分类任务。

因此，我们得到了我们的目标变量，如果一个模因位于赞数除以reddit订阅人数的前5%，则为湿(1)，否则为非湿(0)。

在数据清理步骤和解释性分析之后，我们使用文本分析和光学字符识别来研究文本属性和流行度之间的关系。

这篇文章顶部的单词云是由我们收集的每个单词创建的，表明从2020年3月下旬开始，某些主题在表情包中特别流行。

我们发现，在大多数情况下，最常见的单词在前5%的病毒模因中与在非病毒模因中一样普遍，除了类别COVID-19同义词在潮湿模因中出现得更频繁。

令人惊讶的是，图像相关或文本属性是否具有更强的预测能力并不明显

我们还分析了图像的低级属性，如色彩内容、色调、值、饱和度等，以及旨在描述图像中存在的语义意义的高级属性。

我们使用三个监督学习模型来预测模因是否属于潮湿类别:梯度增强、随机森林和卷积神经网络。

模型使用纯图像属性、纯文本属性以及两者和所有属性进行训练。

毫不奇怪，用所有数据训练的模型优于其他模型。这与之前文本和网络数据具有更强预测能力的结果一致图片在Flickr上的受欢迎程度。

令人惊讶的是，图像相关属性和文本属性是否具有更强的预测能力并不明显，因为Random forest模型使用图像相关属性表现得更好，而Gradient Boosting模型使用文本属性表现得更好。

我们发现，仅从模因的内容就可以较好地预测模因的成功;我们的最佳机器学习模型预测的病毒模因的roc曲线下面积得分(AUC)为0.68。

我们还发现，图像相关属性和文本属性都具有显著的增量预测能力。

与该项目相关的未来研究有许多伟大的方向，如分析受COVID-19启发的模因，或研究模因成功的时间和动态方面。

在物理科学