IORG 研究方法

IORG 中國對台影響力作戰研究

  • 作者 = IORG
  • 發佈 = 2020.10.20 18:00
  • 更新 = 2021.9.7 16:30

為研究、理解中國對台各項影響力脈絡及現況,IORG 研究「資訊操弄」、「人際滲透」二主題,並綜合建構「影響力網絡」。

IORG 的研究,堅持可公開驗證的資料科學方法,研究方法及成果皆開放(open)、當責(accountable)。本文件說明 IORG 研究方法,包括下列各項,分項說明。

  • 資料蒐集
  • 網路言論觀測
  • 特定論述傳播行為分析
  • 心慌週報
  • 資訊操弄
  • 人際滲透

資料蒐集

Facebook 華語粉專

IORG 在 2021 年 1 至 3 月間,以 Facebook 粉專「蔡英文 Tsai Ing-wen」為起始,循 Facebook 網頁介面所列的「相關粉專」,持續「滾雪球」(snowballing),蒐集相關粉專,共蒐得 1,579,277 個 Facebook 華語粉專。

分析其貼文時間及內容,有 20,295 個粉專已刪除、13,524 個粉專發生技術問題、448,919 個粉專貼文內容不包含中文漢字、386,080 個粉專最近一次貼文早於 2020/9/1,其中 111,074 為有中文內容且最近一次貼文時間早於 2020/9/1。綜上,刪除 723,925 個粉專,針對 821,533 個 Facebook 粉專蒐集貼文資料。

針對 821,533 個 Facebook 華語粉專,依據其貼文時間平均間距分組,並按分組以不同頻率蒐集貼文資料,每日蒐集約 600 萬則貼文。

微博帳號

IORG 在 2020 年 7 月間,以微博帳號「新華網」為起始,循微博網頁介面所列的「他的关注」、「他的粉丝」,持續「滾雪球」,蒐集相關微博帳號,共蒐集 138,077 個微博帳號。

其中,IORG 篩選帳號分類標籤為「公司」、「行業類別」或追蹤人數大於 10 萬者,自 2020/8/1 起,針對 33,449 個帳號蒐集貼文資料。

  • 2020/10/5 以微博帳號「吳奇隆」為起始,再次滾雪球蒐集相關帳號,將 4,952 個帳號加入追蹤。
  • 2020/10/7 以微博帳號「南海战略态势感知」為起始,再次滾雪球蒐集相關帳號,將 3,553 個帳號加入追蹤。
  • 2020/10/12 以微博帳號「吳克群」為起始,再次滾雪球蒐集相關帳號,並將 8,009 個帳號加入追蹤。

綜上,IORG 共追蹤 49,963 個微博帳號,依據其貼文間距進行分組,並按分組以不同頻率蒐集貼文資料,每日蒐集約 80 萬則貼文。

網路群組

為深入了解台灣各地受資訊操弄之狀況,IORG 與眾多公民運動者、組織協力,在各地建立數個地方研究團隊,透過以下機制,不定期蒐集據研究分析價值的即時通訊及非公開訊息,以觀察、理解下列 4 種網路群組。

  • Facebook Messenger 群組
  • Facebook 社團
  • LINE 聊天群組
  • LINE OpenChat

加入群組的方法,說明如下。

  • IORG 研究員皆以個人身份加入群組,不捏造身分。
  • IORG 研究員會主動加入已知群組。
  • IORG 研究員會透過群組內其他成員的推薦,主動加入新的群組。
  • 加入群組時,可能會有各種驗證機制,IORG 研究員會以成功加入群組為目的,進行驗證。

蒐集訊息內容的方法,說明如下。

  • 研究員定期觀察群組內訊息內容,以機器輔助人工逐筆紀錄回報,方法包括但不限於:單筆人工謄打、單筆複製內容、多筆複製內容。
  • 回報時,IORG 研究員會紀錄群組類型、群組名稱、傳送者顯示名稱、傳送時間、訊息完整文字內容。

目前,IORG 觀察至少 500 個 LINE 群組、OpenChat,並蒐集可疑訊息內容及詮釋資料。

IORG China Watch

IORG 研究員針對中國官方組織、官員、官媒、重要意見領袖的網站及社交媒體帳號,以人工或機器輔助的各種方法,觀察其發布內容,並記錄對台政治宣傳、資訊操弄、可疑訊息內容。

IORG 中國觀察清單完整內容,公告於 IORG 網站 https://iorg.tw/china-watch

IORG US Watch

IORG 研究員針對美國新聞媒體、政治評論出版品、政治人物、官員的網站季社交媒體帳號,以人工觀察台、美、中國際事務相關內容,紀錄可疑訊息、資訊操弄,並觀察相關訊息及時事連動關係及論述發展。

Cofacts 真的假的民眾回報可疑訊息、社群協力闢謠

Cofacts 是台灣公民黑客社群 g0v 零時政府的開源專案,提供一般民眾回報可疑訊息,並透過社群協作查證可疑訊息,並以開放資料釋出相關資訊。

IORG 使用 Cofacts API 提供的可疑訊息資料,每週約 1 千則獨特的可疑訊息。另外,IORG 研究員亦有人工觀察 Cofacts 平台上社群協力查核的編輯意見,作為 IORG 研究、查核、判定資訊操弄的重要參考。

0archive 零時檔案局

0archive 是台灣公民黑客社群 g0v 零時政府的開源專案,IORG 的 2 位成員也是該專案的貢獻者。0archive 備份新聞媒體網站、內容農場、網路論壇資料,並將所備份資料以開放資料釋出,供研究使用。

IORG 使用 0archive 蒐集的 14 個台灣新聞媒體網站的報導內容及詮釋資料,每日約 5 千則新聞。

台灣事實查核中心

台灣事實查核中心是台灣重要的民間事實查核機構,其主要業務包括針對台灣資訊空間中的錯假訊息進行查證,並不定期發布查核報告,報告內容包括訊息原始內容、查核標的、查核結果。

IORG 研究員以人工觀察台灣事實查核中心查核報告內容,作為 IORG 研究、查核、判定資訊操弄的重要參考。

網路言論觀測

IORG 工程部門以資料蒐集為基礎,自行研發資訊系統自動產出每日、每週網路言論觀測報表,計算一日、一週關鍵詞「熱門分數」,定義「熱門關鍵詞」、「新進熱門關鍵詞」,並針對 IORG 研究中曾經出現的在地協力者,列出其社交媒體貼文內容。

此外,IORG 工程部門亦自行研發視覺化工具,自動計算、繪出一週內「新進熱門關鍵詞」的關係網絡,協助研究員快速確認一週「熱門議題」,進一步發現可疑論述,掌握台灣資訊空間的網路言論發展。

特定論述傳播行為分析

綜合個人觀察、工程部門所提供的每日、每週報表,IORG 研究員以人工累積、羅列、選定可疑訊息、資訊操弄,做為「候選論述」,並協同工程部門,做進一步分析。

針對每項候選論述,IORG 工程部門利用自行研發的工具產出針對該論述的資料分析報表,除輔助研究員釐清論述傳播情形、內容「變形」,更能以「資料驅動」方法,主動發現人工難以發現的現象。

「來自微博」

  1. IORG 研究員提出論述內容,並根據觀察列出該論述之關鍵詞。
  2. IORG 資料工程師以關鍵詞篩選 Facebook 華語粉專貼文及微博貼文。
  3. 將所有貼文內容由轉為繁體中文,並斷句。
  4. 找出在微博、Facebook 都出現過的語句,比較最早出現的時間,找出哪些語句是「先出現在微博、後出現在 Facebook」。
  5. 將結果交給 IORG 研究員,判定句子「來自微博」,並觀察特定 Facebook 粉專發布「來自微博」內容的行為。

「協同發文」

  1. IORG 研究員提出論述內容,並根據觀察列出該論述之關鍵詞。
  2. IORG 資料工程師以關鍵詞篩選 Facebook 華語粉專貼文,擷取這些貼文所分享的網址。
  3. 找出在 1 分鐘內分享相同連結的 2 個 Facebook 華語粉專。
  4. 將結果交給 IORG 研究員,判定「協同發文」的行為。

心慌週報

「本期最心慌」

心慌週報「本期最心慌」介紹當期週報之熱門議題。

「本期最心慌」資料來源有二,一為 IORG 蒐集的 Facebook 華語粉專貼文;二為 g0v 社群專案 「0archive」公開資料集中的台灣新聞媒體報導,目前包括自由時報、聯合新聞網、中央社、鏡週刊、ETtoday 新聞雲、上報、公共電視新聞網、風傳媒、三立新聞網、東森新聞、中時電子報、蘋果即時新聞網。

  1. IORG 資料工程師按當期週報的時間區間,將區間內的 Facebook 華語粉專貼文內容、0archive 台灣新聞媒體報導內容,以台灣中央研究院中文詞知識庫小組CKIP Lab)於 2020/9/10 發表於 GitHub 的 CkipTagger 斷詞。
  2. IORG 選擇字串長度超過 1、至少有 1 個中文漢字、不含中文漢字、英、數以外字元,且非停用詞之關鍵詞,為有效詞。
  3. 計算所有有效詞對每一則文章的 TF-IDF
  4. 將每一個有效詞對每一則文章的 TF-IDF 加總,除以該時間區間內的文章總數,即為該關鍵詞的分數。
  5. 將關鍵詞當期分數與上期分數比較,分別列出 Facebook 及 0archive 前 300 高分的關鍵詞。
  6. 關鍵詞列表供 IORG 研究員判讀,人工將關鍵詞分群,形成議題。
  7. 將議題所屬關鍵詞分數加總,即為議題的分數。
  8. 得分最高的議題,即為當期「本期最心慌」之議題。

「維尼這麼說」

心慌週報「維尼這麼說」觀察中國官方論述,及其在台灣的傳播情形。

為了更好了解是否有來自中國的論述在台灣流傳,IORG 自行建立「中國觀察清單」,其中包括中國政府、中共官方組織、中共官媒、中國媒體、中國外交人員、疑似中國網軍的網站或 Twitter 帳號。

截至 2021 年 6 月 9 日,觀察清單上共計 5 個網站、80 個 Twitter 帳號。為避免疑似中國網軍因資訊揭露而改變行為、影響研究,IORG 僅公開中國、中共官方組織、官媒、媒體及外交人員的觀察清單名單

資訊操弄

針對網路內容、社交媒體、即時通訊平台,以資料科學方法做內容及使用者行為分析。IORG 所採用之研究方法包括:網路資料彙整、訊息內容蒐集、內容分析、行為分析、田野調查、人工紀錄。

根據中華民國科技部「台灣傳播調查資料庫」《2018 年第二期第二次調查計畫:媒介使用與社會互動》,台灣大眾 79.6% 以 Facebook 為最常使用的社交媒體,其次為 72.6% YouTube。IORG 以 Facebook、YouTube 的資料蒐集、內容分析、行為分析為優先。

根據同項調查計畫,台灣大眾 98.5% 以 LINE 為最常使用的即時通訊軟體,其次為 48.2% Facebook Messenger。因此 IORG 以 LINE、Facebook Messenger 的田野調查為優先。

為深入了解台灣各地受資訊操弄之狀況,IORG 與眾多公民運動者、組織協力,在各地建立數個地方研究團隊,不定期蒐集據研究分析價值的即時通訊訊息,以觀察、理解各式封閉網路群組,包括 LINE 群組、Facebook Messenger 群組、封閉 Facebook 社團。

IORG 亦透過電傳及人際拜訪,與地方人士聯繫、訪談,以擴充對地方組織、社區網絡的了解,協助調整田野調查的計劃與執行,並解讀、分析透過通報機制蒐集的訊息。

台灣傳播調查資料庫「2018 年第二期第二次調查計畫:媒介使用與社會互動」(MOST 105-2420-H-004-035-SS3)。「台灣傳播調查資料庫」(TCS)計畫主持人為國立政治大學張卿卿教授。詳細資料請參閱 TCS 網頁:http://www.crctaiwan.nctu.edu.tw/index.asp。作者感謝上述機構提供資料協助,惟本文之內容概由作者自行負責。Doi:10.6141/TW-SRDA-D00176-1

人際滲透

針對中國對台的人際滲透行為,包括但不限於組織合作、人脈建立,IORG 採用研究方法,包括:文獻回顧、網路資料彙整、田野調查、當事者訪談、學者訪談、專家訪談。

相較於資訊操弄研究,人際滲透研究仰賴文獻回顧、訪談等質化研究方法。IORG 透過網路公開資料、人際滲透研究的相關文獻,彙整出中國對台建立的人際滲透的網絡,並訪問相關研究領域的學者,基於文獻與學者提供的資訊,與地方研究團隊合作,於人際滲透的實體場域進行田野調查,近距離觀察、訪問。