為深入理解華語資訊環境,台灣資訊環境研究中心以「IORG 資訊環境資料庫」為基礎,研發技術工具,以研究員及人工智慧協作(human-AI collaboration)模式觀測資訊環境生態,辨識不合理(unreasonable)或具操弄特性(manipulative)的論述,並深入分析論述內容及傳播行為。
台灣資訊環境研究中心 IORG 堅持可公開驗證的科學研究,為充分實踐開放(open)、當責(accountable)的核心價值,IORG 研究架構、研究方法、研究成果皆預設開放(open by default),本文件於下分項說明 IORG 資訊環境研究架構。
IORG 資訊環境資料庫 Information Environment Archive
為深入理解華語資訊環境,IORG 自行研發、整合軟硬體技術元件及自動化控制系統,備份公開可及跨平台多媒體文本,結合開放資料及研究員人工處理的各式資料,構成「IORG 資訊環境資料庫」。目前(2023 年 8 月),IORG 資訊環境資料庫每日處理資料量超過 1,200 萬則文本。
Facebook 華語粉專
IORG 定義「Facebook 華語粉專」為近半年內至少有一則貼文使用至少一個漢字的 Facebook 粉專。IORG 自 2020 年起不定期以「蔡英文」及其他重要台灣粉專為起點「滾雪球」蒐集約 500 萬個各類粉專帳號,並持續備份約 120 萬個華語粉專的貼文內容、詮釋資料及互動數據。
滾雪球 snowballing
「滾雪球」指以某帳號為起點,依循帳號間既存關係(例如:推薦、相關)持續拓展帳號網路的網絡搜尋方法。
LINE 群組
為維護 LINE 群組的程度不一的私密性,IORG 研究員遵守以下原則,自 2020 年起加入各類 LINE 群組,觀察至少 500 個 LINE 群組及頻道,備份訊息及貼文內容及詮釋資料。
- 研究員會主動加入已知群組。
- 研究員會透過群組內其他成員的推薦,主動加入新的群組。
- 研究員皆以個人身分加入群組,不捏造身分。
- 加入群組時,可能會有各種驗證機制,研究員會以成功加入群組為目的進行驗證。
研究員加入群組後,會定期觀察群組內訊息內容,以資訊工具輔助人工逐筆紀錄回報,方法包括但不限於:單筆人工謄打、單筆複製內容、多筆複製內容。回報資料包括但不限於群組類型、群組名稱、傳送者顯示名稱、傳送時間、訊息完整文字內容。
Cofacts 是台灣公民黑客社群 g0v 零時政府的開源專案,提供一般民眾回報可疑訊息,並透過社群協作查證可疑訊息,並以開放資料釋出相關資訊。IORG 使用 Cofacts API 提供的可疑訊息資料,備份每週約 1 千則獨特可疑訊息及編輯意見。
YouTube 頻道
IORG 以 IORG 資訊環境資料庫中曾獲分享之 YouTube 影片所屬頻道為基礎,自 2023 年起備份約 16 萬個 YouTube 頻道所發表長度不超過 45 分鐘的影片內容及詮釋資料。
台灣新聞媒體
IORG 定義「台灣新聞媒體」為使用繁體漢字、台灣華語為主的電視、報紙、網路大眾傳媒。自 2022 年起,IORG 持續備份台灣新聞媒體報導內容及詮釋資料,並整合台灣零時政府 g0v 社群 0archive 零時檔案局專案(2021 年 12 月 31 日前)開放資料集。
中共官方機構及官方媒體
IORG 定義「中共官方機構及官方媒體」為中华人民共和国国家互联网信息办公室(网信办)發布《互联网新闻信息稿源单位名单》(簡稱「稿源」)所列 1,358 項中華人民共和國(中國共產黨)中央及地方官方機構、官方媒體、私人企業轄下網站及社交媒體帳號,並整合 IORG 中國觀察,自 2021 年起持續備份報導內容及詮釋資料。
微博帳號
IORG 自 2020 年起不定期以「新華網」及其他重要微博帳號為起點「滾雪球」蒐集約 20 萬各類微博帳號,包括分類為「公司」、「行業」及追蹤數大於 10 萬的帳號,並持續備份約 5 萬個微博帳號的貼文內容、詮釋資料及互動數據。
抖音帳號
IORG 自 2023 年起以「稿源」所列機構轄下抖音帳號為基礎,持續備份影片內容及詮釋資料。
IORG 資訊環境索引 Information Environment Directory
媒體集團
IORG 自行建立台灣、中國(中共)政府(黨)及民間媒體機構階層架構索引,包含各集團及機構轄下各類網站、各類社交媒體帳號。
公眾人物
IORG 自行建立台灣、中國(中共)各類公眾人物索引,包括姓名、政黨、媒體或其他機構關聯、社交媒體帳號、其他各類屬性、臉部圖像。
資料處理
文本斷詞
IORG 使用中央研究院中文詞知識庫小組(CKIP)發布之 CKIP Tagger 處理文本斷詞。
文本斷句
IORG 使用自訂規則對文本內容斷句,在特定符號出現時斷句⋯
- ,
- 。
- :
- !
- ?
- ,
- :
- !
- ?
忽略特定符號不予斷句⋯
- (
- )
- <
- >
- 〈
- 〉
- 《
- 》
- 「
- 」
- 【
- 】
- "
- 、
- (
- )
- <
- >
- [
- ]
- '
- "
- ’
- “
- ”
微博特有的例外狀況:微博的 hashtag 是用兩個 #(U+0023 number sign)夾起來的一串任意文字,微博貼文內文間兩個 # 之間的字詞計做 1 句,不予斷句。
圖像文字辨識
IORG 整合多項圖像文字辨識技術,辨識圖像及影片畫面中出現的字幕、圖卡。
語音文字辨識
IORG 使用 OpenAI Whisper 辨識影片中的人聲,並以自行開發之技術進一步辨別講者。
人物身分辨識
IORG 以機器學習辨識人臉,並結合資訊環境索引公眾人物臉部圖像資料集,辨識圖像及影片中的人物。
資訊環境觀測
IORG 進行資訊環境觀測,偵測創立論述、放大論述、協同行為等行為,並以中共對台的資訊操弄及政治宣傳為觀測重點之一,並公開發布研究成果。IORG 採用研究方法包括:文獻回顧、網路公開資料彙整、內容分析、時序分析、網絡行為分析。
熱門議題
IORG 使用自訂「熱門關鍵詞」、「關鍵詞關聯網絡」偵測特定時間區間內之熱門議題。
IORG 定義「熱門關鍵詞」為特定時間區間內 TF-IDF 總分(較上期增加幅度)較高之有效詞(字串長度超過 1、至少 1 個漢字、不含漢字、英、數以外字元、且非停用詞),並以關鍵詞間「共現」為基礎計算分數,製成關鍵詞關聯網絡,在人工確認後形成以相連網絡形成議題,以議題總分排序定義「熱門議題」。
議題傳播趨勢
IORG 計算特定議題所屬關鍵詞計算該議題單位時間(日或小時)之「傳播熱度」(文本數量佔單位時間內文本總量比例),以此描述議題傳播趨勢,並進一步計算傳播高峰、探討可能成因。
跨平台傳播連動
IORG 計算任二平台間特定議題傳播趨勢相關係數,以此描述特定議題跨平台傳播連動情形,並進一步探討可能成因。
論述觀測
論述辨識
IORG 以資訊環境資料庫為基礎,由 IORG 研究員主導,透過研究員及人工智慧協作,以自動化工具歸納特定議題相關之大量文本,以文本分群結果列舉候選論述,並參考熱門關鍵詞關聯網絡人工調整文本過濾條件,確定論述範圍。
論述辨識完成後,可依據論述跨平台傳播趨勢、訊息可信度評量結果、中共參與程度及其他特性綜合評估,紀錄獲選論述內容及傳播狀況,並發布報告。
論述傳播行為分析
IORG 以論述範圍內文本內容及詮釋資料分析其傳播行為,包括以文本內容差距計算論述「變形」、以文本發布時間相近程度判定「群聚發文」、「集團式分享」、以文本內容斷句計算論述「來自微博」、「來自中共」等特性。
訊息可信度評量
IORG 提出「訊息可信度評量」4 步驟,拆解事實陳述及觀點、檢驗是否符合不合理(unreasonable)或具操弄特性(manipulative)的特徵,綜合評量訊息之可信度(credibility)。
公共討論觀測
IORG 進行公共討論觀測,觀察台灣公共討論發展近況,並公開發布研究成果,亦針對防治資訊操弄、改善公共討論、強化民主韌性 3 方向提出政策及行動建議。IORG 採用研究方法包括:文獻回顧、網路公開資料彙整、田野調查、當事者訪談、學者訪談、專家訪談。
為深入了解台灣各地公共討論現狀及其受資訊操弄之影響,IORG 和全國各地眾多公民運動者、組織協力,建立數個地方研究團隊,觀察、理解各類封閉式公共討論空間,包括聊天群組、社交媒體社團、實體地方社區及社群。IORG 亦透過電傳或實體訪談和地方人士保持聯繫,擴充對地方組織、社區網絡的了解,調整研究方向。
人際網絡觀測
IORG 進行人際網絡觀測,紀錄組織合作、人脈建立等行為,並以中共對台的人際滲透行為為觀測重點之一,並公開發布公開報告。IORG 採用研究方法包括:文獻回顧、網路公開資料彙整、田野調查、當事者訪談、學者訪談、專家訪談,並與台灣各地地方研究團隊合作進行研究。