在推特领导层更换后的一个多月里,这个社交媒体平台发生了重大变化,推出了新的“推特2.0”。”版本。对于使用推特作为主要数据来源的研究人员,包括南加州大学的许多计算机科学家信息科学研究所(ISI),其影响可能会使人衰弱。
Twitter 1.0版本的数据
多年来,Twitter一直对研究人员非常友好,专门为学术研究提供并维护了一个健壮的API(应用程序编程接口)。Twitter学术研究API允许隶属于学术机构的具有特定目标的研究人员免费收集推文的历史和实时数据集以及相关元数据。目前,用于学术研究的Twitter API将继续在Twitter 2.0中运行和维护。
从API获得的数据为观察公众对话和了解人们对社会问题的看法提供了一种手段。卢卡Luceri他称Twitter是“观察与政治和社会问题相关的在线讨论的主要平台”。Twitter将其用于学术研究的API吹捧为“学术研究人员可以使用来自公众对话的数据来研究与Twitter本身对话一样多样的主题”的一种方式。
然而,如果人们继续停用他们的Twitter账户,这似乎是事实,用户基础的构成将发生变化,数据集和相关研究将受到相应的影响。如果用户群的发展方式使其在意识形态上更加同质化,多样性减少,这一点尤其正确。
根据麻省理工科技评论在美国,在转型后的第一周,Twitter可能失去了100万用户,这意味着失去的账户增加了208%。还有人担心,由于工程团队的规模大幅减少,该网站可能无法有效工作。这包括研究人员所依赖的数据服务(即Twitter API)的持久性。的创始人Jason BaumgartnerPushshift他说,在最近的几个API请求中,他的团队也发现错误率显著增加——在25-30%的范围内,而他们通常看到的错误率接近1%。虽然目前这只是传闻,但它让研究人员怀疑他们是否能够在未来的研究中依赖Twitter的数据。
一个例子是,如果边缘群体离开Twitter的速度高于普通用户群,例如,由于仇恨言论的增加,那么不受监管的Twitter 2.0用户群的构成可能会发生重大改变。基斯Burghardt研究网上仇恨言论的ISI计算机科学家说:“监管不足的社交媒体并不是改变了人们的观点,而是让人们更加直言不讳。所以你可能会看到更多可恨的内容。”事实上,研究蒙特克莱尔州立大学的一项研究发现,在Twitter被收购后的一周内,Twitter上的仇恨言论激增。
处于危险中的研究类型
在南加州大学信息科学研究所,许多科学家使用从Twitter学术研究API获得的数据进行研究。
凯蒂Felkner他是ISI的研究生研究助理,研究人工智能和语言模型。她使用推特数据集减少对酷儿的偏见通过使用LGBTQ+社区成员写的推文来训练一个大型语言模型。此外,她发现来自LGBTQ+社区成员的推文比来自该社区外关于LGBTQ+问题的推文更能减轻偏见。她在哈佛大学的酷儿人工智能研讨会上发表了她的论文计算语言学协会北美分会(NAACL)会议将于2022年7月举行。
Felkner解释了为什么Twitter对她的工作如此重要:“如果你从新闻中获得数据,你只能得到那些被认为有新闻价值的故事,以及对每个故事的一些观点,而Twitter非常民主化,对于不同的参与者来说,准入门槛很低。它也是非常公开的,因为大多数用户都将他们的推文设置为公开。Twitter API(用于学术研究)在特定时间从该平台上的所有推文中抽取样本。因此,任何在X时间发布关于主题Y的推文的人都有一定概率被包含在关于该主题的数据集中。”
Felkner指出,除此之外,“这是最后一个基于文本的社交媒体平台。”Facebook有文本,但没有太多公开数据;Instagram是基于照片的;而TikTok都是视频。Felkner补充说:“从视频和图像中提取有用的数据通常很困难,因此在研究环境中非常昂贵。”
克里斯蒂娜Lerman他是ISI的首席科学家,专注于将基于网络和机器学习的方法应用于社会计算问题。她目前有几个使用Twitter数据的项目。在一个项目中,勒曼和她的团队试图识别社交媒体上的社会操纵和影响活动。她解释说,“我们正在使用推特的数据,看看恶意行为者是如何协调以这样或那样的方式影响公众舆论的。”
在其他研究中,她和Burghardt正在使用Twitter来确定驱动错误信息或反科学态度的因素。勒曼说:“我们正在收集推特数据,以确定政治意识形态的特征,以及人们在推特上发布了多少错误信息或反科学内容,试图了解错误信息的根源,并发现谁容易受到错误信息的影响。”这补充了Burghardt的工作,Burghardt帮助开发了一种预测方法推特上的反疫苗情绪现在,这个问题很可能只会变得更糟Twitter的疫苗错误信息政策不再执行.
在另一个项目中,她正在研究性别认同,以及人们如何回应和与不同性别的人交谈。勒曼说:“在Twitter上,人们确实有一些个人资料信息;他们可以表达自己喜欢的代词。因此,与Reddit等其他网站不同的是,在这些网站上,关于用户身份的个人资料信息不会透露太多,我们依赖于Twitter特有的一些功能,即人们可能如何表达自己,以及其他人可能会根据他们的身份表达与他们互动多少。”
考虑到现在Twitter的性质正在发生变化,勒曼和她的团队的处境有点不稳定。她惊呼道:“我们今天早上还在讨论如何加快速度收集所有数据!”她举了一个例子,“在一个项目中,我们试图了解COVID当局如何沟通。他们使用什么样的信息策略,以及人们如何回应。所以我们正努力抓紧时间,尽可能地向COVID当局收集所有的回复。”
卢塞里正在研究错误信息是如何在推特上传播的,以及如何防止这种情况的发生。“我们目前正在进行的一个项目与了解推特用户对错误信息、阴谋论和网络伤害的不同敏感性有关。在我们最近的一篇论文中,我们试图理解人们是如何激进地参与某些阴谋的就像QAnon一样。”
该团队既想检测欺骗性和不真实的活动,也想看看他们如何保护用户免受其害。卢塞里说:“我们想了解推特用户是如何应对假新闻、错误信息和阴谋论的,以及谁是最容易受到攻击的用户。”
但没有数据,他们无法做到这一点。他解释说:“当然,我们没有数据的可能性是一个问题,因为我们的工作利用了Twitter的数据集,而且也是为了发现可能对Twitter本身有帮助的东西而量身定制的。”Luceri提供了他正在做的工作的一些细节,“我们希望揭示审核政策的有效性,同时观察用户对有害内容的参与情况。我们的发现可以为社交媒体提供商、监管机构和政策制定者提供信息,以制定策略来对抗阴谋论和虚假信息在社交媒体上的传播。例如,了解哪些用户是最容易受到攻击的用户,可能会让Twitter知道如何应对这些用户,可能不会让他们暴露在所有这些攻击之下。”
超出数据集的影响
乔纳森可能他研究并教授自然语言处理(NLP),这是人工智能的一个子领域,涉及计算机如何理解人类语言。
May发现Twitter在数据集之外的其他方面也很专业:“关于NLP的国际对话主要发生在Twitter上。”他引用了2018年NLP推特历史上的一个文字对话:意义/语义大线程。由麻省理工学院的助理教授Jacob Andreas发起,他在推特上发布了NLP模型理解意义的能力,在NLP社区引发了一场学术辩论和有意义的讨论。事实上,这是一个非常值得关注的话题写过并画过图的.梅说:“推特上的对话往往是开放的,所以大型的公开对话就发生在那里。”
梅说,在我们所知的推特可能消失的情况下,这样的讨论可能会找到一个新的归宿。“有很多本质上相同的空间。例如,乳齿象它有一点去中心化的性质。”ISI的几位研究人员提到了Mastodon作为学术推特的替代品。著名刊物科学据报道,许多学者目前都在关注MastoBOB综合体育官方APP地址don,这是一个免费、去中心化的社交媒体平台,拥有类似Twitter的微博功能。
梅继续说道:“我认为任何具有足够表现力的社交媒体空间都可以做到这一点。这只是一种达成共识的问题,这种共识将自然地发展,基于-谁知道呢?——不管是什么让推特变成了推特。”
发布于2022年12月6日
最后更新于2022年12月6日