為了資料科學研究,IORG 蒐集 2020 年 1 月至 7 月間,由 LINE 不特定使用者匿名回報的可疑訊息內容,作為研究用的原始資料。IORG 並無蒐集任何 LINE 使用者帳號資料,包括回報者及訊息原作者。
獲得訊息原始資料後,首先需要根據訊息的內容,將相同或類似的訊息分在一「群」,而這樣的一群訊息,就是一則「謠言」。因為我們無法預先知道會有多少「群」,所以在分群的方法上採用 HAC+KNN。HAC 可以自定義訊息間的「距離」,以觀察訊息的相似程度:若訊息相似程度高,則距離近。不過,HAC 的速度慢,不適合處理大量資料,所以,我們先以 HAC 將一部分訊息分群,再用結果訓練 KNN,加快分群速度。如果訊息 A、B 大部分內容重疊,會希望 2 則訊息的「距離」是相近的,如果有一則訊息包含了大部分的 A 而沒有包含 B,則可以認為 B 是由多則訊息所構成,A、B 的「距離」希望能夠加大,進而被分到不同的「群」。
HAC 聚合式階層分群法
全名為 hierarchical agglomerative clustering。透過一種階層架構的方式,將資料層層反覆地進行聚合,將資料或群聚逐漸合併,最後產生樹狀結構。
KNN K-近鄰演算法
全名為 k-nearest neighbors algorithm。這個演算法能判斷未知事物的特徵,判斷其和哪一類已知事物的的特徵最接近,也就是會嘗試對一大堆「東西」作用,達成「物以類聚」的效果。
圖:利用機器學習,將訊息分「群」成「謠言」。來源:IORG 製圖。
接著,以訊息內容過濾,留下與 COVID-19 相關的訊息。我們人工列舉了下列與 COVID-19 相關的關鍵詞,與訊息內容比對,判斷訊息是否與 COVID-19 疫情相關。
COVID-19 相關關鍵詞列表
- 指揮中心
- 奎寧
- 急性呼吸道感染
- 新型病毒
- 疫情
- 口罩
- 負壓
- 抗疫
- 陽性
- 新型冠狀病毒
- 潛伏期
- 李文亮
- 纖維化
- 自主管理
- 群聚
- 隔離
- 確診
- 武漢
- 譚德塞
- 陰性
- 新冠
- 染疫
- 武肺
- 封城
- 肺炎
- 自主健康管理
- 防疫
- 冠狀
- 家庭感染
- covid
- ibuprofen
- 2019-ncov
- coronavirus
所有訊息經過處理後,我們發現了 396 個「群」,也就是 396 則與 COVID-19 有關的謠言,共 42,829 則訊息;其中有 134 則謠言,已經被台灣事實查核中心或 MyGoPen 查核為虛假或誤導的訊息內容。
我們選擇 396 則謠言中訊息數量最多,也就是最為廣傳的謠言,進一步觀察分析。我們也列出了 2020 年 1-7 月間,在台灣疫情相關的重要事件時間點,觀察訊息的傳播是否與這些時間點有關。
案例 1,是一則「別出門」的謠言。最早一則訊息出現於 2 月 5 日,內容如下。
鐘南山院士再次強調:別出門,元宵後,再看疫情控制情況!警告:一旦染上,就算治癒了,後遺症也會拖累後半生!這場瘟疫比 17 年前的非典更嚴重,用的藥副作用更大。如果出了特效藥,也只能保命,僅此而已!出門前想想你的家人,別連累家人,能不出門就不出門,大家一起轉發吧!這是一場戰役,不是兒戲,收起你盲目的自信和僥倖心理,也收起你事不關己高高掛起的態度,在這場戰役中沒有局外人!在家!在家!在家!不要點贊!求轉發──鐘南山
可以看到,這則訊息提到「鐘南山院士」,時間點為「元宵節」。有趣的是,隨著訊息的流傳,在一段時間後,元宵節替換成了「三月」、「端午節」,引用的權威人士從鐘南山改成了台灣人所熟知的衛福部部長陳時中,內容的變化如下表。IORG 也有觀察到,這則訊息在今年(2021)也繼續被轉發。
日期 | 原訊息內容 | 當日出現訊息內容 |
---|---|---|
2 月 17 日 | 鍾南山院士再次強調 | 大陸防疫專家鍾南山院士再次強調 |
2 月 18 日 | 鍾南山院士再次強調 | 大陸,冠狀病毒專家鐘南山 78 歲院士再次強調 |
2 月 27 日 | 鍾南山院士再次強調 | 大陸,冠狀病毒專家鐘南山 84 歲院士再次強調 |
4 月 1 日 | 鍾南山院士再次強調 | 台灣衛福部長陳時中提醒大家 |
2 月 18 日 | 別出門,元宵後,再看疫情控制情況 | 別出門,端午節過後,再看疫情控制情況 |
表:案例 1 謠言訊息內容變化。資料來源:IORG,IORG 製表。
案例 2,是一則「台灣進入肺炎流行關鍵期」的謠言。最早一則訊息出現於 2 月 6 日,內容如下。
今天開始 10 天,台灣正式進入武漢肺炎関鍵期。建議如下:1. 嚴禁進入公共場所。 2. 用餐儘量將食物外帶。 3. 用餐環境儘量在外。 4. 正確方式的洗手(特別重要)。 5. 坐捷運(公車),選擇在車前頭。 6. 避免戴隱形眼鏡 7. 吃熱食,避開生凉食物,多吃蔬菜 8. 保持腸胃暢。 9. 多喝溫水。 10. 暫停去髮廊。 11. 穿過的衣服(外套,長褲)回家先單獨吊在外 2 小時 12. 暫停戴首飾。 13. 一有接觸錢幣,一定要洗手,剛拿進來的錢弊,先單獨放在塑膠袋中,一天後,才拿出來。 14. 在公司不要使用別人的電話筒。電話筒的消毒。15. 避開峰時間坐車。 16. 不去傳統市場及夜市。 17. 適當的運動。18. 暫停進入健身房。
這則訊息內容條列出數項建議措施,而在流傳過程中,轉發者似乎會自行新增或刪除一些內容,且會增加一些權威人士或團體,藉此提高此訊息的可信度。
日期 | 原訊息內容 | 當日出現訊息內容 |
---|---|---|
2 月 12 日 | 1. 嚴禁進入公共場所。 | 1. 減少進入公共場所。 |
2 月 12 日 | 3. 用餐環境儘量在外。[...] 5. 坐捷運(公車),選擇在車前頭。[...] 10. 暫停去髮廊。[...] 16. 不去傳統市場及夜市。[...] | 刪除 |
2 月 12 日 | 無 | 醫師全聯會關心您 |
3 月 18 日 | 今天起 10 天,台灣正式進入武漢肺炎関鍵期,建議如下 [...] | 今天起 10 天,台灣正式進入武漢肺炎関鍵期,(3/18 陳時中立法院說明)建議如下 [...] |
3 月 18 日 | 醫師全聯會關心您 | 刪除;訊息內容出現「陳時中」,則不會出現「醫師全聯會」。 |
表:案例 2 謠言訊息內容變化。資料來源:IORG,IORG 製表。
另外,在這則謠言流傳期間,就算台灣事實查核中心已經在 2 月初發布相關查核報告,此訊息數量依舊沒有消失,甚至在查核一個月後,數量達到最高峰。
圖:案例 2 2020 年 2-3 月每日回報訊息數量分布圖。事實查核報告:2 月 10 日、11 日、12 日、15 日。重大事件:2 月 9 日台灣無症狀高病毒感染者首例;10 日,台灣死亡首例;3 月 18 日,衛福部長陳時中赴立法院備詢。資料來源:IORG,IORG 製圖。
上述案例,都宣稱引用權威人士的言論,像是專業醫療人員,或是社會大眾熟知的公眾人物。這些「權威」讓訊息看起來更可信,就算被國際認證的事實查核組織認定為錯誤或誤導,仍持續傳播,訊息數量甚至增加。從案例來看,事實查核可能不能有效阻止錯誤訊息傳播。
另外,我們的觀察發現,與同期非 COVID-19 相關訊息相比,COVID-19 相關訊息更有可能包含中國用語或簡體字。這可能表示,COVID-19 相關訊息更可能來自非台灣的 LINE 使用者。
不論內容正確與否,與時事相關訊息,都有可能在短時間內被大量轉傳,作為閱聽人,接收來自混雜來源、多元形式的訊息時,不能不更加謹慎。近年來,多個民間組織開始協助民眾查核各種訊息,更開發聊天機器人,讓民眾能更簡單查詢訊息真假。如果收到親友轉傳的訊息,不確定內容是否正確,可以先利用這些聊天機器人(例如 Cofacts 真的假的)查查看,可能就能阻止錯誤訊息流傳,也能增強自己資訊判讀的能力。
IORG 很幸運,能與學者協作,研究 COVID-19 謠言在台灣傳播的情形,並發表我國第一篇刊登於國際醫療期刊的學術論文,做出微小的學術貢獻。IORG 自成立以來,致力於可公開驗證的資料科學研究,揭露謠言的出沒、傳播。我們會繼續努力,對健全台灣社交媒體安全、公共討論,做出貢獻。