
近年网络错误信息(假新闻、谣言、虚假信息等)暴增,成为日益严峻的社会问题。为了寻求解决方法,身兼香港浸会大学计算机科学系助理教授及系统健康研究实验室成员的马晶博士在近期发表了的两篇学术文章中,探讨以多重平台进行事实验证及建立用於侦测谣言的模型。
多平台事实和语言验证
事实验证有助互联网用户鉴别某件事件或某个主题的真实性。现行的一些事实验证方法,基本上从大规模语料库中采集谣言指示信号,从中识别贴文回应的主流意见。然而,当某件事件同时在多个平台或媒体上、并透过多种语言来传播时,事实验证就会变得更加复杂和具挑战性。这些挑战包括:
- 网上信息的特性(例如在多平台上传播的用户意见、语言风格可以是五花八门)
- 语言/知识的差距可能产生误译或误解的情况,导致事实被扭曲
- 过往并没有相关工作或数据集试图在多平台和多语言的情况下进行事实验证
马博士的团队开发了一种新方法推敲来自不同平台的证据,从而推断特定事件的真实性。例如来自不同网上媒体(平台)的文件或网络摘录报导的相同(虚假)陈述—「吸烟、甲醇或可卡因可以治愈冠状病毒」将构成故事情节。这些故事情节其实是通过互相比较和配对相关内容,自动生成。比较不同平台的信息内容之能力,将对网上信息的质素和可用性产生重要和积极的影响,同时有助於侦测前后矛盾和遗漏的内容,从而打击散布错误信息的活动。
上图撷取自马博士最近发表的研究报告《用 Tree Transformer 揭穿推特上的谣言》。资料来源:https://www.aclweb.org/anthology/2020.coling-main.476/
这项研究的一个重要部分,是评估有关新冠病毒大流行的双语假新闻。这项工作对香港这样的大型双语环境尤为重要。
马晶博士
计算机科学系助理教授
此外,当信息从一种语言被转换成另一种语言时,可能会因误译而被曲解。马博士的团队现正开发一套翻译系统,期望进一步改善不同语言之间的信息流,藉以解决语言差距,帮助人们在进行事实核查时,可及早发现可疑的内容。「这项研究的一个重要部分,是评估有关新冠病毒大流行的双语假新闻。」马博士表示。「这项工作对香港这样的大型双语环境尤为重要。」
谣言侦测模型
如前所述,在社交媒体上散播谣言会严重削弱互联网内容的可信性。因此,自动揭穿谣言对於保持社交媒体环境健康非常重要。面对可疑内容时,人们经常会在贴文中表达怀疑,当中包含了各种质疑其真实性的线索,这些线索可以形成具有长距离依赖关系的有用证据。马博士的团队试图透过追踪微博贴文的非顺序传播结构,寻找贴文内容中的歧视特徵,从中梳理出更强大的表徵来识别谣言。这项研究揭示要有效侦测谣言,便需寻找可作为证据的相关贴文,尤其是那些对某种说法的真伪表达明确态度的贴文。马博士的研究结果证实:
- 这些模型较其他先进的方法更能有效侦测谣言和作出分类
- 专注留意证据贴文的机制可提高由团队研发的方法的表现
- 此方法在早期侦测谣言表现卓越
读者如有兴趣,可按此阅览研究报告的详细内容。
马博士於 2020 年获得香港中文大学系统工程与工程管理学系博士学位。在此之前,她分别在2013年和2016年获得北京邮电大学获得学士学位和硕士学位。她的研究兴趣包括自然语言处理、社交网络分析和挖掘、谣言侦测和事实验证。
联络我们的研究人员
计算机科学系助理教授
出版
- An Attention-based Rumor Detection Model with Tree-structured Recursive Neural Networks (2020)ACM Transactions on Intelligent Systems and TechnologyVolume 11Issue 4
July 2020 Article No.: 42pp 1–28 https://doi.org/10.1145/3391250
上一则消息
09.06.2021
下一则新闻
08.06.2021