IORG 研究方法

IORG 中國對台影響力作戰研究

  • 作者 = IORG
  • 發佈 = 2020.10.20 18:00
  • 更新 = 2021.10.1 12:00

為研究、理解中國對台各項影響力脈絡及現況,IORG 研究「資訊操弄」、「人際滲透」二主題,並綜合建構「影響力網絡」。

IORG 的研究,堅持可公開驗證的資料科學方法,研究方法及成果皆開放(open)、當責(accountable)。本文件說明 IORG 研究方法,包括下列各項,分項說明。

  • 資料蒐集
  • 網路言論觀測
  • 特定論述傳播行為分析
  • 心慌週報
  • 資訊操弄
  • 人際滲透

資料蒐集

Facebook 華語粉專

IORG 在 2021 年 1 至 3 月間,以 Facebook 粉專「蔡英文 Tsai Ing-wen」為起始,循 Facebook 網頁介面所列的「相關粉專」,持續「滾雪球」(snowballing),蒐集相關粉專,共蒐得 1,579,277 個 Facebook 華語粉專。

分析其貼文時間及內容,有 20,295 個粉專已刪除、13,524 個粉專發生技術問題、448,919 個粉專貼文內容不包含中文漢字、386,080 個粉專最近一次貼文早於 2020/9/1,其中 111,074 為有中文內容且最近一次貼文時間早於 2020/9/1。綜上,刪除 723,925 個粉專,針對 821,533 個 Facebook 粉專蒐集貼文資料。

針對 821,533 個 Facebook 華語粉專,依據其貼文時間平均間距分組,並按分組以不同頻率蒐集貼文資料,每日蒐集約 600 萬則貼文。

微博帳號

IORG 在 2020 年 7 月間,以微博帳號「新華網」為起始,循微博網頁介面所列的「他的关注」、「他的粉丝」,持續「滾雪球」,蒐集相關微博帳號,共蒐集 138,077 個微博帳號。

其中,IORG 篩選帳號分類標籤為「公司」、「行業類別」或追蹤人數大於 10 萬者,自 2020/8/1 起,針對 33,449 個帳號蒐集貼文資料。

  • 2020/10/5 以微博帳號「吳奇隆」為起始,再次滾雪球蒐集相關帳號,將 4,952 個帳號加入追蹤。
  • 2020/10/7 以微博帳號「南海战略态势感知」為起始,再次滾雪球蒐集相關帳號,將 3,553 個帳號加入追蹤。
  • 2020/10/12 以微博帳號「吳克群」為起始,再次滾雪球蒐集相關帳號,並將 8,009 個帳號加入追蹤。

綜上,IORG 共追蹤 49,963 個微博帳號,依據其貼文間距進行分組,並按分組以不同頻率蒐集貼文資料,每日蒐集約 80 萬則貼文。

網路群組

為深入了解台灣各地受資訊操弄之狀況,IORG 與眾多公民運動者、組織協力,在各地建立數個地方研究團隊,透過以下機制,不定期蒐集據研究分析價值的即時通訊及非公開訊息,以觀察、理解下列 4 種網路群組。

  • Facebook Messenger 群組
  • Facebook 社團
  • LINE 聊天群組
  • LINE OpenChat

加入群組的方法,說明如下。

  • IORG 研究員皆以個人身份加入群組,不捏造身分。
  • IORG 研究員會主動加入已知群組。
  • IORG 研究員會透過群組內其他成員的推薦,主動加入新的群組。
  • 加入群組時,可能會有各種驗證機制,IORG 研究員會以成功加入群組為目的,進行驗證。

蒐集訊息內容的方法,說明如下。

  • 研究員定期觀察群組內訊息內容,以機器輔助人工逐筆紀錄回報,方法包括但不限於:單筆人工謄打、單筆複製內容、多筆複製內容。
  • 回報時,IORG 研究員會紀錄群組類型、群組名稱、傳送者顯示名稱、傳送時間、訊息完整文字內容。

目前,IORG 觀察至少 500 個 LINE 群組、OpenChat,並蒐集可疑訊息內容及詮釋資料。

IORG 中國觀察清單

IORG 研究員針對中國官方組織、官員、官媒、重要意見領袖的網站及社交媒體帳號,以人工或機器輔助的各種方法,觀察其發布內容,並記錄對台政治宣傳、資訊操弄、可疑訊息內容。

IORG 中國觀察清單(IORG China Watch)完整內容,公告於 IORG 網站 https://iorg.tw/china-watch

IORG 美國觀察清單

IORG 研究員針對美國新聞媒體、政治評論出版品、政治人物、官員的網站季社交媒體帳號,以人工觀察台、美、中國際事務相關內容,紀錄可疑訊息、資訊操弄,並觀察相關訊息及時事連動關係及論述發展。

IORG 美國觀察清單(IORG U.S. Watch)完整內容,公告於 IORG 網站 https://iorg.tw/us-watch

Cofacts 真的假的民眾回報可疑訊息、社群協力闢謠

Cofacts 是台灣公民黑客社群 g0v 零時政府的開源專案,提供一般民眾回報可疑訊息,並透過社群協作查證可疑訊息,並以開放資料釋出相關資訊。

IORG 使用 Cofacts API 提供的可疑訊息資料,每週約 1 千則獨特的可疑訊息。另外,IORG 研究員亦有人工觀察 Cofacts 平台上社群協力查核的編輯意見,作為 IORG 研究、查核、判定資訊操弄的重要參考。

0archive 零時檔案局

0archive 是台灣公民黑客社群 g0v 零時政府的開源專案,IORG 的 2 位成員也是該專案的貢獻者。0archive 備份新聞媒體網站、內容農場、網路論壇資料,並將所備份資料以開放資料釋出,供研究使用。

IORG 使用 0archive 蒐集的 14 個台灣新聞媒體網站的報導內容及詮釋資料,每日約 5 千則新聞。

台灣事實查核中心

台灣事實查核中心是台灣重要的民間事實查核機構,其主要業務包括針對台灣資訊空間中的錯假訊息進行查證,並不定期發布查核報告,報告內容包括訊息原始內容、查核標的、查核結果。

IORG 研究員以人工觀察台灣事實查核中心查核報告內容,作為 IORG 研究、查核、判定資訊操弄的重要參考。

資料處理

斷句規則

在特定符號出現時斷句⋯

  • ,
  • :
  • !
  • ?

忽略特定符號不予斷句⋯

  • (
  • )
  • <
  • >
  • [
  • ]
  • '
  • "

微博特有的例外狀況:微博的 hashtag 是用兩個 #(U+0023 number sign)夾起來的一串任意文字,故微博貼文中,夾在兩個 # 之間的字詞應計做 1 句,不予斷句。

網路言論觀測

IORG 工程部門以資料蒐集為基礎,自行研發資訊系統自動產出每日、每週網路言論觀測報表,計算一日、一週關鍵詞「熱門分數」,定義「熱門關鍵詞」、「新進熱門關鍵詞」,並針對 IORG 研究中曾經出現的在地協力者,列出其社交媒體貼文內容。

此外,IORG 工程部門亦自行研發視覺化工具,自動計算、繪出一週內「新進熱門關鍵詞」的關係網絡,協助研究員快速確認一週「熱門議題」,進一步發現可疑論述,掌握台灣資訊空間的網路言論發展。

「本期最心慌」

心慌週報「本期最心慌」介紹當期週報之熱門議題。

「本期最心慌」資料來源有二,一為 IORG 蒐集的 Facebook 華語粉專貼文;二為 g0v 社群專案 「0archive」公開資料集中的台灣新聞媒體報導,目前包括自由時報、聯合新聞網、中央社、鏡週刊、ETtoday 新聞雲、上報、公共電視新聞網、風傳媒、三立新聞網、東森新聞、中時電子報、蘋果即時新聞網。

  1. IORG 資料工程師按當期週報的時間區間,將區間內的 Facebook 華語粉專貼文內容、0archive 台灣新聞媒體報導內容,以台灣中央研究院中文詞知識庫小組(CKIP Lab)於 2020/9/10 發表於 GitHub 的 CkipTagger 斷詞。
  2. IORG 選擇字串長度超過 1、至少有 1 個中文漢字、不含中文漢字、英、數以外字元,且非停用詞之關鍵詞,為有效詞。
  3. 計算所有有效詞對每一則文章的 TF-IDF
  4. 將每一個有效詞對每一則文章的 TF-IDF 加總,除以該時間區間內的文章總數,即為該關鍵詞的分數。
  5. 將關鍵詞當期分數與上期分數比較,分別列出 Facebook 及 0archive 前 300 高分的關鍵詞。
  6. 關鍵詞列表供 IORG 研究員判讀,人工將關鍵詞分群,形成議題。
  7. 將議題所屬關鍵詞分數加總,即為議題的分數。
  8. 得分最高的議題,即為當期「本期最心慌」之議題。

特定論述傳播行為分析

綜合個人觀察、工程部門所提供的每日、每週報表,IORG 研究員以人工累積、羅列、選定可疑訊息、資訊操弄,做為「候選論述」,並協同工程部門,做進一步分析。

針對每項候選論述,IORG 工程部門利用自行研發的工具產出針對該論述的資料分析報表,除輔助研究員釐清論述傳播情形、內容「變形」,更能以「資料驅動」方法,主動發現人工難以發現的現象。

「協同發文」

  1. IORG 研究員提出論述內容,並根據觀察列出該論述之關鍵詞。
  2. IORG 資料工程師以關鍵詞篩選 Facebook 華語粉專貼文,擷取這些貼文所分享的網址。
  3. 找出在 1 分鐘內分享相同連結的 2 個 Facebook 華語粉專。
  4. 將結果交給 IORG 研究員,判定「協同發文」的行為。

「來自微博」

  1. IORG 研究員提出論述內容,並根據觀察列出該論述之關鍵詞。
  2. IORG 資料工程師以關鍵詞篩選 Facebook 華語粉專貼文及微博貼文。
  3. 將所有貼文內容由轉為繁體中文,並斷句。
  4. 找出在微博、Facebook 都出現過的語句,比較最早出現的時間,找出哪些語句是「先出現在微博、後出現在 Facebook」。
  5. 將結果交給 IORG 研究員,判定句子「來自微博」,並觀察特定 Facebook 粉專發布「來自微博」內容的行為。

「來自中共」

  1. IORG 研究員針對特定議題,定義特定時間區間、搜尋條件。
  2. 根據時間區間、搜尋條件,過濾 Facebook 華語粉專貼文、台灣新聞媒體報導(使用 g0v 0archive 開放資料)。
  3. 所有貼文,按照斷句規則斷句。
  4. 僅考慮長度 10 個字元以上的句子。
  5. 所有句子,如在時間區間內,最早由「IORG 中國觀察清單」所列官方機構、官媒發布,這一句即為「來自中共」。

資訊操弄

針對網路內容、社交媒體、即時通訊平台,以資料科學方法做內容及使用者行為分析。IORG 所採用之研究方法包括:網路資料彙整、訊息內容蒐集、內容分析、行為分析、田野調查、人工紀錄。

根據中華民國科技部「台灣傳播調查資料庫」《2018 年第二期第二次調查計畫:媒介使用與社會互動》,台灣大眾 79.6% 以 Facebook 為最常使用的社交媒體,其次為 72.6% YouTube。IORG 以 Facebook、YouTube 的資料蒐集、內容分析、行為分析為優先。

根據同項調查計畫,台灣大眾 98.5% 以 LINE 為最常使用的即時通訊軟體,其次為 48.2% Facebook Messenger。因此 IORG 以 LINE、Facebook Messenger 的田野調查為優先。

為深入了解台灣各地受資訊操弄之狀況,IORG 與眾多公民運動者、組織協力,在各地建立數個地方研究團隊,不定期蒐集據研究分析價值的即時通訊訊息,以觀察、理解各式封閉網路群組,包括 LINE 群組、Facebook Messenger 群組、封閉 Facebook 社團。

IORG 亦透過電傳及人際拜訪,與地方人士聯繫、訪談,以擴充對地方組織、社區網絡的了解,協助調整田野調查的計劃與執行,並解讀、分析透過通報機制蒐集的訊息。

台灣傳播調查資料庫「2018 年第二期第二次調查計畫:媒介使用與社會互動」(MOST 105-2420-H-004-035-SS3)。「台灣傳播調查資料庫」(TCS)計畫主持人為國立政治大學張卿卿教授。詳細資料請參閱 TCS 網頁:http://www.crctaiwan.nctu.edu.tw/index.asp。作者感謝上述機構提供資料協助,惟本文之內容概由作者自行負責。Doi:10.6141/TW-SRDA-D00176-1

人際滲透

針對中國對台的人際滲透行為,包括但不限於組織合作、人脈建立,IORG 採用研究方法,包括:文獻回顧、網路資料彙整、田野調查、當事者訪談、學者訪談、專家訪談。

相較於資訊操弄研究,人際滲透研究仰賴文獻回顧、訪談等質化研究方法。IORG 透過網路公開資料、人際滲透研究的相關文獻,彙整出中國對台建立的人際滲透的網絡,並訪問相關研究領域的學者,基於文獻與學者提供的資訊,與地方研究團隊合作,於人際滲透的實體場域進行田野調查,近距離觀察、訪問。