IORG 發論文!2020 上半年 COVID-19 謠言分群及案例分析

  • 論文作者 = 王文懿、籃若瑜、王銘宏、游知澔
  • 本文作者 = 籃若瑜、王文懿
  • 本文編輯 = 游知澔
  • 發佈 = 2021.10.8 12:00

2020 年起,COVID-19 疫情肆虐全球,許多關於疫情的新聞、醫療健康資訊,無論內容正確與否,皆在社交媒體平台上廣為流傳。目前已有許多學術論文利用機器學習、深度學習研究關於疫情的訊息內容及傳播,不過絕大部分都是針對公開平台像是 Twitter、Facebook 所做的研究。IORG 希望能更深入瞭解封閉平台上疫情「謠言」的傳播情形,因此,我們選擇台灣人最常使用的通訊軟體 LINE,在 2021 年完成研究,是我國第一篇針對封閉平台內 COVID-19 訊息傳播的研究、發表於國際醫學期刊的學術論文。

為了資料科學研究,IORG 蒐集 2020 年 1 月至 7 月間,由 LINE 不特定使用者匿名回報的可疑訊息內容,作為研究用的原始資料。IORG 並無蒐集任何 LINE 使用者帳號資料,包括回報者及訊息原作者。

獲得訊息原始資料後,首先需要根據訊息的內容,將相同或類似的訊息分在一「群」,而這樣的一群訊息,就是一則「謠言」。因為我們無法預先知道會有多少「群」,所以在分群的方法上採用 HAC+KNN。HAC 可以自定義訊息間的「距離」,以觀察訊息的相似程度:若訊息相似程度高,則距離近。不過,HAC 的速度慢,不適合處理大量資料,所以,我們先以 HAC 將一部分訊息分群,再用結果訓練 KNN,加快分群速度。如果訊息 A、B 大部分內容重疊,會希望 2 則訊息的「距離」是相近的,如果有一則訊息包含了大部分的 A 而沒有包含 B,則可以認為 B 是由多則訊息所構成,A、B 的「距離」希望能夠加大,進而被分到不同的「群」。

HAC 聚合式階層分群法

全名為 hierarchical agglomerative clustering。透過一種階層架構的方式,將資料層層反覆地進行聚合,將資料或群聚逐漸合併,最後產生樹狀結構。

KNN K-近鄰演算法

全名為 k-nearest neighbors algorithm。這個演算法能判斷未知事物的特徵,判斷其和哪一類已知事物的的特徵最接近,也就是會嘗試對一大堆「東西」作用,達成「物以類聚」的效果。

圖:利用機器學習,將訊息分「群」成「謠言」。來源:IORG 製圖。

接著,以訊息內容過濾,留下與 COVID-19 相關的訊息。我們人工舉了下列與 COVID-19 相關的關鍵詞,與訊息內容比對,判斷訊息是否與 COVID-19 疫情相關。

COVID-19 相關關鍵詞列表

  • 指揮中心
  • 奎寧
  • 急性呼吸道感染
  • 新型病毒
  • 疫情
  • 口罩
  • 負壓
  • 抗疫
  • 陽性
  • 新型冠狀病毒
  • 潛伏期
  • 李文亮
  • 纖維化
  • 自主管理
  • 群聚
  • 隔離
  • 確診
  • 武漢
  • 譚德塞
  • 陰性
  • 新冠
  • 染疫
  • 武肺
  • 封城
  • 肺炎
  • 自主健康管理
  • 防疫
  • 冠狀
  • 家庭感染
  • covid
  • ibuprofen
  • 2019-ncov
  • coronavirus

所有訊息經過處理後,我們發現了 396 個「群」,也就是 396 則與 COVID-19 有關的謠言,共 42,829 則訊息;其中有 134 則謠言,已經被台灣事實查核中心或 MyGoPen 查核為虛假或誤導的訊息內容。

我們選擇 396 則謠言中訊息數量最多,也就是最為廣傳的謠言,進一步觀察分析。我們也列出了 2020 年 1-7 月間,在台灣疫情相關的重要事件時間點,觀察訊息的傳播是否與這些時間點有關。

案例 1,是一則「別出門」的謠言。最早一則訊息出現於 2 月 5 日,內容如下。

鐘南山院士再次強調:別出門,元宵後,再看疫情控制情況!警告:一旦染上,就算治癒了,後遺症也會拖累後半生!這場瘟疫比 17 年前的非典更嚴重,用的藥副作用更大。如果出了特效藥,也只能保命,僅此而已!出門前想想你的家人,別連累家人,能不出門就不出門,大家一起轉發吧!這是一場戰役,不是兒戲,收起你盲目的自信和僥倖心理,也收起你事不關己高高掛起的態度,在這場戰役中沒有局外人!在家!在家!在家!不要點贊!求轉發──鐘南山

可以看到,這則訊息提到「鐘南山院士」,時間點為「元宵節」。有趣的是,隨著訊息的流傳,在一段時間後,元宵節替換成了「三月」、「端午節」,引用的權威人士從鐘南山改成了台灣人所熟知的衛福部部長陳時中,內容的變化如下表。IORG 也有觀察到,這則訊息在今年(2021)也繼續被轉發。

日期

原訊息內容

當日出現訊息內容

2 月 17 日

鍾南山院士再次強調

大陸防疫專家鍾南山院士再次強調

2 月 18 日

鍾南山院士再次強調

大陸,冠狀病毒專家鐘南山 78 歲院士再次強調

2 月 27 日

鍾南山院士再次強調

大陸,冠狀病毒專家鐘南山 84 歲院士再次強調

4 月 1 日

鍾南山院士再次強調

台灣衛福部長陳時中提醒大家

2 月 18 日

別出門,元宵後,再看疫情控制情況

別出門,端午節過後,再看疫情控制情況

表:案例 1 謠言訊息內容變化。資料來源:IORG,IORG 製表。

案例 2,是一則「台灣進入肺炎流行關鍵期」的謠言。最早一則訊息出現於 2 月 6 日,內容如下。

今天開始 10 天,台灣正式進入武漢肺炎関鍵期。建議如下:1. 嚴禁進入公共場所。 2. 用餐儘量將食物外帶。 3. 用餐環境儘量在外。 4. 正確方式的洗手(特別重要)。 5. 坐捷運(公車),選擇在車前頭。 6. 避免戴隱形眼鏡 7. 吃熱食,避開生凉食物,多吃蔬菜 8. 保持腸胃暢。 9. 多喝溫水。 10. 暫停去髮廊。 11. 穿過的衣服(外套,長褲)回家先單獨吊在外 2 小時 12. 暫停戴首飾。 13. 一有接觸錢幣,一定要洗手,剛拿進來的錢弊,先單獨放在塑膠袋中,一天後,才拿出來。 14. 在公司不要使用別人的電話筒。電話筒的消毒。15. 避開峰時間坐車。 16. 不去傳統市場及夜市。 17. 適當的運動。18. 暫停進入健身房。

這則訊息內容條列出數項建議措施,而在流傳過程中,轉發者似乎會自行新增或刪除一些內容,且會增加一些權威人士或團體,藉此提高此訊息的可信度。

日期

原訊息內容

當日出現訊息內容

2 月 12 日

1. 嚴禁進入公共場所。

1. 減少進入公共場所。

2 月 12 日

3. 用餐環境儘量在外。[...]

5. 坐捷運(公車),選擇在車前頭。[...]

10. 暫停去髮廊。[...]

16. 不去傳統市場及夜市。[...]

刪除

2 月 12 日

醫師全聯會關心您

3 月 18 日

今天起 10 天,台灣正式進入武漢肺炎関鍵期,建議如下 [...]

今天起 10 天,台灣正式進入武漢肺炎関鍵期,(3/18 陳時中立法院說明)建議如下 [...]

3 月 18 日

醫師全聯會關心您

刪除;訊息內容出現「陳時中」,則不會出現「醫師全聯會」。

表:案例 2 謠言訊息內容變化。資料來源:IORG,IORG 製表。

另外,在這則謠言流傳期間,就算台灣事實查核中心已經在 2 月初發布相關查核報告,此訊息數量依舊沒有消失,甚至在查核一個月後,數量達到最高峰。

圖:案例 2 2020 年 2-3 月每日回報訊息數量分布圖。事實查核報告:2 月 10 日11 日12 日15 日。重大事件:2 月 9 日台灣無症狀高病毒感染者首例;10 日,台灣死亡首例;3 月 18 日,衛福部長陳時中赴立法院備詢。資料來源:IORG,IORG 製圖。

上述案例,都宣稱引用權威人士的言論,像是專業醫療人員,或是社會大眾熟知的公眾人物。這些「權威」讓訊息看起來更可信,就算被國際認證的事實查核組織認定為錯誤或誤導,仍持續傳播,訊息數量甚至增加。從案例來看,事實查核可能不能有效阻止錯誤訊息傳播。

另外,我們的觀察發現,與同期 COVID-19 相關訊息相比,COVID-19 相關訊息更有可能包含中國用語或簡體字。這可能表示,COVID-19 相關訊息更可能來自非台灣的 LINE 使用者。

不論內容正確與否,與時事相關訊息,都有可能在短時間內被大量轉傳,作為閱聽人,接收來自混雜來源、多元形式的訊息時,不能不更加謹慎。近年來,多個民間組織開始協助民眾查核各種訊息,更開發聊天機器人,讓民眾能更簡單查詢訊息真假。如果收到親友轉傳的訊息,不確定內容是否正確,可以先利用這些聊天機器人(例如 Cofacts 真的假的)查查看,可能就能阻止錯誤訊息流傳,也能增強自己資訊判讀的能力。

IORG 很幸運,能與學者協作,研究 COVID-19 謠言在台灣傳播的情形,並發表我國第一篇刊登於國際醫療期刊的學術論文,做出微小的學術貢獻。IORG 自成立以來,致力於可公開驗證的資料科學研究,揭露謠言的出沒、傳播。我們會繼續努力,對健全台灣社交媒體安全、公共討論,做出貢獻。

  • 資料科學