Why 抄微博?以資料科學初探 Facebook 粉專經營

  • 作者 = 林玿弘
  • 編輯 = 游知澔
  • Published = 2021.4.8 18:00

摘要

IORG 研究結果顯示,「來自微博」的貼文確實有較佳的互動表現。雖然抄微博有助互動,但這些獲得較佳互動的粉專卻未張貼更多來自微博貼文,反而是互動較差的粉專,抄的更多。由此可知,獲得更佳的互動,不是粉專抄微博的主要考量。

Why 抄微博?資料科學告訴我們,不是為了增加更多互動呢⋯圖片來源:文茜的世界周報、婷婷看世界 Facebook 粉專,IORG 製圖。

前言

2021 年 3 月 IORG 發表編號 R.1 的資訊操弄案例研究「關於美國、來自微博」,證實「從微博到 Facebook」為中國對台資訊操弄的傳播途徑。而本文在此基礎上進一步探討「來自微博」的 Facebook 貼文在情緒反應、分享、留言等互動指標上,是否會有較好的表現,讓更多粉專將微博內容引入 Facebook。

資料來源

IORG 自 2020/8/1 起,以自建網路爬蟲(web crawler)為工具,蒐集中國社交媒體平台微博約 5 萬個帳號的貼文內容。關於選取帳號的方法,IORG 自中國官媒新華社轄下的「新華網」帳號為基礎,依據微博系統推薦的帳號「滾雪球」(snowballing),並考慮系統負載限制,隨後蒐集獲微博認證的「公司」、「行業」、「超過 10 萬粉絲」共約 13 萬個微博帳號。

在 Facebook,IORG 社交媒體資料庫以自建爬蟲蒐集約 60 萬個 Facebook 粉專的貼文。2020 年共蒐集超過 2 億則貼文。

基於 IORG 社交媒體資料庫限制,本文分析選定的時間區間為 2020/8/1 至 2020/12/31。因本文以「先出現在微博,後出現在 Facebook」的句子為判定貼文是否為來自微博的關鍵,為避免錯誤歸因,在考慮資料來源、運算資源限制後,決定將 Facebook 的資料區間提前一個月到 2020/7/1,為降低錯誤歸因的合理做法。

研究個案

本文針對 Facebook 上「關於中國」與「關於美國」的內容是否「來自微博」,進行分析。

選擇中國,因為中國近年來積極推動其「大外宣」,「微博到 Facebook」是否為「大外宣」有效觸及 Facebook 用戶的管道之一,令人好奇,而 IORG R.1 案例也證實「微博到 Facebook」是中國對台影響力作戰的途徑之一,其效果如何,本文將一併討論。而選擇美國,則因為 2020 年下半年美國總統選舉是台灣輿論熱門議題,關於美國的討論內容是否來自微博,值得分析、觀察。

研究方法及資料概述

本文在 IORG 社交媒體資料庫中,以關鍵字過濾 2020/7/1 至 2020/12/31 包含「中國」、「大陸」的 Facebook 貼文共 1,145,020 則,包含「美國」的文章共 1,115,969 則,其中 8/1 之後共 927,126 則。根據使用習慣,在微博上針對中國事務的討論,不一定會寫明中國,因此對於微博資料,本文選擇不以關鍵字過濾資料,而是將 2020/8/1 至 2020/12/31 的 28,352,912 則貼文全數納入分析。

找出微博和 Facebook 貼文後,本文以標點符號對內容斷句(斷句規則如下),比較微博句子與 Facebook 句子的內容及出現時間,發現「關於中國」共有 154,021 句,而「關於美國」則有 122,638 句是「先出現在微博,後出現在 Facebook」,判定這些句子為「來自微博」的句子。

斷句規則

在特定符號出現時斷句⋯

  • ,
  • :
  • !
  • ?

忽略特定符號不予斷句⋯

  • (
  • )
  • <
  • >
  • [
  • ]
  • '
  • "

微博特有的例外狀況:微博的 hashtag 是用兩個 #(U+0023 number sign)夾起來的一串任意文字,故微博貼文中,夾在兩個 # 之間的字詞應計做 1 句,不予斷句。

參考 IORG R.1 案例內容,本文以「至少有 6 句,每句至少 4 個字」,即「6 句 4 字」作為判斷一則 Facebook 貼文「來自微博」的標準。以此標準,能判定共 5,203 則「關於美國」Facebook 貼文「來自微博」,9,138 則「關於中國」Facebook 貼文「來自微博」。

「關於美國、來自微博」

在本文研究的 5 個月內,來自微博的 Facebook 貼文不論在情緒反應數、留言數、分享數,都高於非來自微博的貼文。(詳見表 1)

全部

來自微博

非來自微博

平均情緒反應數

135.2257

247.5399

134.5529

平均留言數

12.4227

18.0427

12.3891

平均分享數

9.6173

20.4778

9.5522

有互動數據的貼文數

873,778

5,203

868,575

所有貼文數

927,126

5,650

921,476

表 1 =「關於美國」Facebook 貼文互動數據比較表。來源:IORG 社交媒體資料庫。

如將有互動數據的 5,203 則貼文依照貼文的粉專分群,可知共有 792 個粉專在討論美國議題時將微博的論述內容引進 Facebook。分析其來自微博、非來自微博貼文各自的互動表現,發現有 342 個粉專(43.18%)來自微博貼文的互動表現較佳。

進一步分析這 342 個粉專,既然抄微博有助互動,這些粉專會不會更傾向於張貼來自微博的貼文?從數據上來看,不會。342 個粉專平均張貼 3.9386 則來自微博貼文,而那些抄微博無助互動的 450 個粉專卻抄更多,平均 4.1933 則。

「關於中國、來自微博」

與美國討論相比,在 2020/8/1 至 2020/12/31 Facebook 上討論中國的貼文數與討論美國相差不多,但「來自微博」的 Facebook 貼文數明顯增加。更值得注意的是,「關於中國、來自微博」的 Facebook 貼文情緒反應數、留言數、分享數不只較非來自微博的貼文高,相較於一樣來自微博的關於美國 Facebook 貼文,各項互動表現也較佳。(詳見表 2)

全部

來自微博

非來自微博

平均情緒反應數

145.8386

285.5100

144.4415

平均留言數

13.3953

20.5807

13.3234

平均分享數

12.9588

23.5121

12.8532

有互動資料的貼文數

862,625

8,543

854,082

所有貼文數

924,240

9,138

915,102

表 2 =「關於中國」Facebook 貼文互動數據比較表。來源:IORG 社交媒體資料庫。

如將有互動數據的 8,543 則貼文依照貼文的粉專進行分群,可知共有 1,245 個粉專在討論中國議題時將微博的論述內容引進 Facebook。分析其來自微博、非來自微博貼文各自的互動表現,發現有 525 個粉專(42.16%)來自微博貼文的互動表現較佳,比例上與關於美國的狀況相去不遠。

進一步分析這 1,245 個粉專,能發現與前段關於美國一樣的現象。525 個抄微博有助互動的粉專,平均張貼 3.8686 則來自微博貼文,而那些抄微博無助互動的 720 個粉專則抄更多,平均 4.7917 則,差距較關於美國大。

「來自微博」貼文互動較佳

比較上述 2 個案,我們發現,相較非來自微博的貼文,來自微博的貼文互動表現更好。(詳見表 3)

關於美國

關於中國

平均情緒反應數

183.97%

197.66%

平均留言數

145.63%

154.47%

平均分享數

214.38%

182.93%

表 3 = 「來自微博」的 Facebook 貼文互動,較非來自微博貼文的互動為佳。表列數據,以非來自微博貼文平均互動數為 100%。來源:IORG 社交媒體資料庫。

也就是說,同樣「來自微博」,「關於中國」貼文互動表現優於「來自美國」貼文互動表現,而無論關於美國或中國,「來自微博」貼文互動表現皆優於較非來自微博貼文互動。

增加互動不是粉專抄微博主要考量

不論是關於美國或是中國,都有超過 40% 的粉專,抄微博的貼文互動表現更佳。進一步發現,抄微博互動較差的粉專,反而抄的更多。由此可知,除了增加互動,粉專抄微博有其他更重要的考量,而且,這樣的現象在關於中國的討論中,比關於美國的討論更為明顯。

  • 資料科學
  • 粉專經營
  • 抄微博
  • 從微博到 Facebook