IORG 資訊環境研究架構

  • 作者 = 台灣資訊環境研究中心 IORG
  • 發布 = 2020.10.20 18:00
  • 更新 = 2026.3.31 10:30

為深入理解華語資訊環境,台灣資訊環境研究中心以「IORG 資訊環境資料庫」為基礎,研發技術工具,以人機協作(human-AI collaboration)模式觀測資訊環境生態,辨識不合理(unreasonable)或具操弄特性(manipulative)的論述,並深入分析論述內容及傳播行為。

台灣資訊環境研究中心 IORG 堅持可公開驗證的科學研究,為充分實踐開放(open)、當責(accountable)的核心價值,IORG 研究架構、研究方法、研究成果皆預設開放(open by default),本文件於下分項說明 IORG 資訊環境研究架構。

IORG 資訊環境資料庫

為深入理解華語資訊環境,IORG 自行研發、整合軟硬體技術元件及自動化控制系統,備份跨平台公開多模態文本內容及詮釋資料,結合開放資料及研究員人工處理的各式資料,綜合構成「IORG 資訊環境資料庫」。

目前(2026 年 2 月),IORG 資訊環境資料庫每日處理資料量超過 2,500 萬則文本。

台灣新聞媒體(網站、旗下社交平台帳號)

IORG 定義「台灣新聞媒體」為使用繁體漢字、台灣華語為主的電視、報紙、網路大眾傳媒。

IORG 整合台灣零時政府 g0v 社群 0archive 零時檔案局專案(2021 年 12 月 31 日前)開放資料集,並自 2022 年起持續備份台灣新聞媒體報導內容、跨平台社交媒體帳號貼文內容及詮釋資料。

中共官方機構及官方媒體(網站、旗下社交平台帳號)

IORG 定義「中共官方機構及官方媒體」為中华人民共和国国家互联网信息办公室(网信办)發布《互联网新闻信息稿源单位名单》(簡稱「稿源」)所列約 1,400 項中華人民共和國(中國共產黨)中央及地方官方機構、官方媒體、私人企業。

IORG 研究員人工標註整理「稿源」所列機構轄下網站及社交媒體帳號,自 2021 年起持續備份報導內容、跨平台社交媒體帳號貼文內容及詮釋資料。

Facebook 華語粉專

IORG 定義「Facebook 華語粉專」為近半年內至少有一則貼文使用至少一個漢字的 Facebook 粉專。2020 年起,IORG 不定期以「蔡英文」及其他重要台灣粉專為起點「滾雪球」更新各類粉專帳號清單,並持續備份約 200 萬個華語粉專的貼文內容、詮釋資料及互動數據。

滾雪球 snowballing

「滾雪球」指以某帳號為起點,依循帳號間既存關係(例如:推薦、相關)持續拓展帳號網路的網絡探索方法。

YouTube 頻道

IORG 以 IORG 資訊環境資料庫中曾獲分享之 YouTube 影片所屬頻道為基礎,持續不定期「滾雪球」蒐集帳號清單,自 2023 年起備份約 16 萬個 YouTube 頻道所發表長度 150 分鐘以下的影片內容及詮釋資料。

微博帳號

IORG 自 2020 年起不定期以「新華網」及其他重要微博帳號為起點「滾雪球」蒐集各類微博帳號清單,包括分類為「公司」、「行業」及追蹤數大於 10 萬的帳號,並持續備份約 40 萬個微博帳號的貼文內容、詮釋資料及互動數據。

抖音帳號

IORG 自 2023 年起以「稿源」所列機構轄下抖音帳號為基礎,持續備份約 1 千個抖音帳號的影片內容及詮釋資料。

TikTok 帳號

IORG 自 2024 年起以研究員判定涉及可疑行為 TikTok 帳號為起點,持續不定期「滾雪球」蒐集帳號清單,並備份約 3 萬個帳號的影片內容、詮釋資料及互動數據。

Twitter(現稱 X)帳號

IORG 自 2024 年起以研究員判定涉及可疑行為 Twitter 帳號為起點,持續不定期「滾雪球」蒐集帳號清單,並備份相關重點帳號的貼文內容、詮釋資料及互動數據。

Threads 帳號

IORG 自 2025 年起以研究員判定涉及可疑行為 Threads 帳號為起點,持續不定期「滾雪球」蒐集帳號清單,並備份約 200 萬個帳號的貼文內容、詮釋資料及互動數據。

LINE 群組

為維護 LINE 群組的程度不一的私密性,IORG 研究員遵守以下原則,自 2020 年起加入各類 LINE 群組,觀察至少 500 個 LINE 群組及頻道,備份訊息及貼文內容及詮釋資料。

  • 研究員會主動加入已知群組。
  • 研究員會透過群組內其他成員的推薦,主動加入新的群組。
  • 研究員皆以個人身分加入群組,不捏造身分。
  • 加入群組時,可能會有各種驗證機制,研究員會以成功加入群組為目的進行驗證。

研究員加入群組後,會定期觀察群組內訊息內容,以資訊工具輔助人工逐筆紀錄回報,方法包括但不限於:單筆人工謄打、單筆複製內容、多筆複製內容。回報資料包括但不限於群組類型、群組名稱、傳送者顯示名稱、傳送時間、訊息完整文字內容。

Cofacts 真的假的是台灣公民黑客社群 g0v 零時政府的開源專案,使用者可透過 Cofacts LINE 帳號回報可疑訊息,經過社群協作查證可疑訊息,並以開放資料釋出相關資訊。IORG 使用 Cofacts API 提供的可疑訊息資料,備份每週約 1 千則獨特可疑訊息及編輯意見。

IORG 資訊環境索引

政府機關

IORG 自行建立台灣中央、台灣地方、中國(中共)黨、政、軍(中央、省市)機構階層架構索引,包括各層級機關轄下各類網站、各類社交媒體帳號。

媒體集團

IORG 自行建立台灣國營、公營、私營、中國(中共)黨、政、軍、民間、世界各國華語媒體機構階層架構索引,包括各集團及機構主管機關、轄下各類網站、各類社交媒體帳號。

公眾人物

IORG 自行建立台灣、中國(中共)各類公眾人物索引,人物類型包括政治人物、媒體工作者等,資料欄位包括姓名、職務、在職期間、政黨、媒體或其他機構關聯、社交媒體帳號、其他各類屬性、臉部圖像。

資料處理

文本斷詞

IORG 使用中央研究院中文詞知識庫小組(CKIP)發布之 CKIP Tagger 處理文本斷詞。

文本斷句

IORG 使用自訂規則對文本內容斷句,在特定符號出現時斷句⋯

  • ,
  • :
  • !
  • ?

在特定符號出現時則予以忽略、不予斷句⋯

  • (
  • )
  • <
  • >
  • [
  • ]
  • '
  • "

微博特有例外狀況:微博 hashtag 是用兩個 #(U+0023 number sign)夾起來的一串任意文字,因應此一特性,微博貼文內文之中兩個 # 符號之間的字詞將計做單句,不予斷句。

圖像文字辨識

IORG 整合多項圖像文字辨識技術,辨識圖像及影片畫面中出現的字幕、圖卡。

語音文字辨識

IORG 使用 OpenAI Whisper 辨識各大平台影片中的人聲,將影片語音轉換為逐字稿,並以自行開發之技術進一步辨別講者。

人物身分辨識

IORG 及國立中正大學數位社會與安全實驗室協力開發人臉辨識系統,使用深度學習相關技術辨認影片中出現的人物臉部特徵,經系統辨識輔以研究員人工覆核後辨識圖像及影片中出現的人物。

影片語音相似度

為避免異體字、同音字及自動化語音文字轉換中常見錯誤(如人名、地名、其他專有名詞),IORG 以開源軟體工具將影音內容逐字稿轉換為羅馬拼音,再以 5 個漢字的 sliding window 將逐字稿截斷為羅馬拼音字串。

計算任兩部影片的語音相似度,即依序比對計算兩部影片相同之羅馬拼音字串,以兩部影片相同字串數(字數)為其語音相似度。

影片畫面相似度

為加速運算,IORG 以 2 秒為頻率擷取影片畫面,將所有畫面等比例縮小至寬 100 像素後疊加,計算所有像素位置的 RGB 平均值,為該影片平均像素圖。

計算任兩部影片的畫面相似度,即計算兩部影片平均像素圖對應像素之差值,差值小於特定閾值者視為相同像素,以兩部影片相同像素數量為其畫面相似度。

誘餌標題辨識

IORG 分別計算文本標題、文本內容之負面情緒指標,並計算二者之相關性指標,協助判定篩選具備誘餌標題之候選文本。相關性指標低、標題負面情緒指標高、二者負面情緒指標相差大、二者相關性指標低者,即較有可能為具備誘餌標題之文本。

資訊環境觀測

IORG 進行資訊環境觀測,偵測創立論述、放大論述、協同行為等行為,並以中共對台的資訊操弄及政治宣傳為觀測重點之一,並公開發布研究成果。IORG 採用研究方法包括:文獻回顧、網路公開資料彙整、內容分析、時序分析、網絡行為分析。

熱門議題、議題傳播熱度

IORG 使用自訂「熱門關鍵詞」、「關鍵詞關聯網絡」偵測特定時間區間內之熱門議題。

IORG 定義「熱門關鍵詞」為特定時間區間內 TF-IDF 總分(較上期增加幅度)較高之有效詞(字串長度超過 1、至少 1 個漢字、不含漢字、英、數以外字元、且非停用詞),並以關鍵詞間「共現」為基礎計算分數,製成關鍵詞關聯網絡,在人工確認後形成以相連網絡形成議題,以議題總分排序定義「熱門議題」。

議題傳播趨勢

IORG 計算特定議題所屬關鍵詞計算該議題單位時間(日或小時)之「傳播熱度」(文本數量佔單位時間內文本總量比例),以此描述議題傳播趨勢,並進一步計算傳播高峰、探討可能成因。

跨平台議題傳播連動

IORG 計算任二平台間特定議題傳播熱度趨勢之相關係數,以此描述特定議題跨平台傳播連動情形,並進一步探討可能成因。

議題傳播週期

IORG 以峰度(kurtosis)衡量議題傳播熱度之尖峰。

基於議題傳播熱度尖峰出現情形,IORG 進一步歸納議題傳播高峰期,並以年為週期判定議題傳播週期。

論述觀測

論述辨識

IORG 以資訊環境資料庫為基礎,透過 IORG 研究員主導的人機協作工作流程,使用開源工具及自行開發之機器學習工具歸納特定議題相關之大量文本,依據文本向量相似度分群,以分群結果列舉候選論述,並參考熱門詞彙關聯網絡調整文本過濾條件,確定論述範圍。

論述辨識完成後,可依據論述跨平台傳播趨勢、訊息可信度評量結果、中共參與程度及其他特性綜合評估,紀錄獲選論述內容及傳播狀況,並發布報告。

論述變形

論述分群範圍內,以每則文本原始相關內容差距計算論述隨時間之變形。

論述來源

論述所含內容斷句後,如其中一定句數(m)於首次發布事件前即出現於特定行為者集團或平台,且任一句字串長度皆大於特定數值(n),經研究員判定適當 m n 數值組合,則可判定該論述來自特定行為者集團(如:中共)或平台(如:微博)。

訊息可信度評量

IORG 提出「訊息可信度評量」4 步驟,拆解事實陳述及觀點、檢驗是否符合不合理(unreasonable)或具操弄特性(manipulative)的特徵,綜合評量訊息之可信度(credibility)。

行為觀測

台媒內容產製策略

IORG 長期觀測台灣媒體集團產製內容,透過系統性歸納各媒體集團的傳播手法及發布的文本內容(涵蓋文字與影音),以逆向推導各媒體集團的經營策略、企圖擴散的觀點等。

研究方法包含分析 YouTube 影片剪輯方法,檢視各媒體集團是否以製作短片(YouTube Shorts)及混剪新聞片段與政論節目的手法以增加觀看次數,以及統計不同爭議用詞(如謾罵、非人化等負面用詞)在各媒體集團文本中的使用比例等。

中共認可行為者

IORG 使用臉部辨識及其他人物辨識之機器學習技術,以中共官方及官媒旗下帳號發布影片內容識別影片中出現之台灣人物,經系統判定及研究員覆核,確定獲中共認可行為者的身分(政治人物、政論名嘴、網紅⋯)、獲中共認可的論述內容、獲中共引用(剪輯轉載)次數、時長等資訊,推測中共政治宣傳策略。

代理人帳號

IORG 結合語音相似度及影像相似度二項計算方法,比對來自不同集團發布的兩部影片內容,以語音相似度及影像相似度達特定閾值為條件,判定兩部影片是否構成使用相同素材的「影片組合」,並透過比對影片組合的發布時間、內容再製程度、發布帳號的詮釋資料等變數,偵測可能為特定集團的代理人的帳號。

集團式協同行為

IORG 以論述範圍內文本內容及詮釋資料(文本發布時間等)相近程度綜合判定「群聚發文」、「集團式分享」等協同行為模態。

平台言論審查

IORG 運用跨平台備份資料,藉由不同時間點的文本存取狀況、文本編輯歷程,得以探查平台上是否存在針對特定言論、敏感用詞、特定帳號的審查機制,並推估平台審查的標準與量能。

公共討論觀測

IORG 進行公共討論觀測,觀察台灣公共討論發展近況,並公開發布研究成果,亦針對防治資訊操弄、改善公共討論、強化民主韌性 3 方向提出政策及行動建議。IORG 採用研究方法包括:文獻回顧、網路公開資料彙整、田野調查、民意調查、當事者訪談、學者訪談、專家訪談。

為深入了解台灣各地公共討論現狀及其受資訊操弄之影響,IORG 和全國各地眾多公民運動者、組織協力,建立數個地方研究團隊,觀察、理解各類封閉式公共討論空間,包括聊天群組、社交媒體社團、實體地方社區及社群。IORG 亦透過電傳或實體訪談和地方人士保持聯繫,擴充對地方組織、社區網絡的了解,調整研究方向。

人際網絡觀測

在地實體網絡

IORG 進行人際網絡觀測,紀錄組織合作、人脈建立等行為,並以中共對台的人際滲透行為為觀測重點之一,並公開發布公開報告。IORG 採用研究方法包括:文獻回顧、網路公開資料彙整、田野調查、民意調查、當事者訪談、學者訪談、專家訪談,並與台灣各地地方研究團隊合作進行研究。

中共統戰活動

IORG 以中共官方媒體發布文本為分析對象,透過研究員及 OpenAI ChatGPT 人機協作分析文本內容。先由 OpenAI ChatGPT 初步判定文本內容提及兩岸交流活動,並進一步標定活動舉辦地點、產業類別、參與人次等活動屬性,再由研究員覆核確認文本所提活動舉辦地點(是否位於中國境內)、主旨、參與者身分(是否有台灣人士參與)等條件後列入觀測目標。