Re: [問卦] 杜奕瑾:烏俄戰爭駐批踢踢內應的也沒閒著

看板Gossiping作者 (TingTing)時間2年前 (2022/03/28 13:12), 2年前編輯推噓85(90577)
留言172則, 97人參與, 2年前最新討論串45/64 (看更多)
看了一下原FB文內連結到的協同行為分析方法大公開的文章 裡面有AI Labs.tw的研究論文可以取得 Exploring Atypical Online Coincidental Behavior on PTT 不過要填姓名跟信箱就是了 花了一點時間看完了論文,基本上呢研究的方法沒甚麼問題 都是使用很基礎的Data mining 算法,consine similarity、tf-idf 其他看起來也沒有甚麼大問題,在clustering用的數學式是合理可以將族群分開的 唯一大概能說的就是在threshold的參數選擇上並沒有多加說明,這部分會有疑慮 裡面對於phi-coefficients設定>0.35的說明竟然是an expert-defined threshold 連引用資料都沒有,這要是碩士論文肯定被電飛 但本文重點不是探討研究方法,主要重點: 用得出的數據去探討結論這件事情很有趣,給不同立場的人看,會有不同的結論產生 而本篇論文的立場個人感覺超級偏頗,某方面來說是對的,換個角度想又覺得怪怪的 有興趣的往下看請搭配該網站得到的論文服用,就不截圖了 --------- 以下是節錄翻譯 ------------------------------------------------------------------------------ 名詞定義:coincidental users/group(協同用戶/組),大致上是指由演算法分群得出的 User grouping基本上有兩個規則 考慮UserPair(UserA,UserB) 1.一個小時內用同一個IP上線推發文 2.越常同時出現在一篇文章中,或同時沒出現越容易被分到一組 若一人在一篇文章中出現,另一人沒出現則降低phi-coefficient 以該文章敘述的數據,本人推敲大概是兩個條件符合一個就會被分到一組 ----------------------------------------------------------------------------- 在論文中的圖3(a),該圖是熱點圖,顯示出了"所有"協同用戶在一天中的活動時間 通常是在下午兩點達到高峰,而圖3(b)則是與非協同用戶進行比較顏色越紅表示協同用戶 相對比較常在這時段一起出現,藍色則相反 而這段得出的結論我蠻認同的,畢竟下午兩點就是防疫記者會召開的時間,所以關注疫情 發展的人就會上來看/推/發文 ----------- 論文的圖9,將不同的協同組分別製成熱點圖來看活動時間 可以看出,即使皆被分類為協同用戶,不同組之間的活動時間也是相差甚遠 ----------- 圖12, group 3 --- 67人 ---620則推文 可以看出這群人主要探討的主題皆圍繞在奧運以及與中國隊的對抗上 ----------- 圖13, group 11--- 25人 ---17338則推文 主題圍繞在乃木坂46,少部分有提到疫情跟疫苗 ----------- 圖14, group 18--- 26人 ---5854則推文 分為兩個部分 第一部分為使用負面詞彙指責DPP使用中國作為得不到疫苗的藉口 第二部分為奧運與中國的對抗上 ---------- 圖15, group 19--- 19人 ---930則推文 在"國產"此一詞上擴展出"棒棒"、"受制於人" 是在諷刺地表達對國產疫苗的不信任與進口疫苗缺乏的不滿 而"穩到" 則是在諷刺台灣政府在疫情時的無效政策 --------- 圖16, group 32--- 15人 ---19450則推文 這組人最少卻有最多的貼文 基本沒有具體討論的主題,而只有具有攻擊性的侮辱詞彙,且大家用的詞彙都差不多 "他媽(Fucking)" "肥宅(Fat nerds)" "臺灣價值(Taiwan value)" 可以看到用這類侮辱來反映對臺灣處理疫情的不滿 然而這組對於中國的敵意卻是最強的 "臺灣統一中國"、"臺灣才是正統中國" -------- 另外比對圖9跟圖3, 可以看出當考慮所有的協同用戶時,看不出有明顯的活動時間 但考慮個別協同組時,可以看出群體表現出或多或少的模式傾向 雖然不是全部都可以觀察的出來(例如第3組) -------- 在本論文中,根據共用IP、活動時間、敘述,研究人員得出結論,這些模式不是隨機產生 他們是有意識地,合力地參與了討論。 儘管無法證明其意圖是操控輿論,但研究人員找不到其他合理解釋說明這些行為具有正當 性。因為他們與非協同用戶是如此不同。 -------- 可以觀察到以下六種行為: 1.每個協同組有相似的活動時間 2.更喜歡參與推文而非發文,且有更高的煽動值 3.協同用戶們展現出較高的操縱模式 4.不同協同組展現出了不同的行為偏好 5.一些協同組只使用一個負面/操縱口號,而其他則使用多個或根本不用 6.不同協同組展現不同的敘述偏好跟詞彙選擇 -------- 而在1985個事件之中,有880起非典型事件(這裡大概是指有協同用戶/組),約佔一半表現 出了操縱行為,而且可能且確實發生在各種主題上,包括體育、商業、娛樂、政治等。 -------- 節錄翻譯結束,以下感想 -------- 好了,你各位阿 每天生活作息規固定時間上來PTT看熱鬧的鄉民 在這種算法上都很容易被歸類為協同用戶/組(網軍/公關公司?) 確實這種算法是有機會抓出網軍 但光看數據我就覺得這裡面的誤差肯定很大 討論奧運都可以被抓出來 奧運本來就是特定時間有特定選手/比賽所以會同時討論 人本來就會有自己的偏好,不論是行為還是愛好 八卦版基本上甚麼都可以討論 可能有人就想討論個奧運、地震發文告白、承認包莖,盜懶覺^Q^ 在推文底下嗆人肥宅,嘴人媽媽 更何況在心理學上早就有研究表明人無意間會受到他人影響,而改變自己的行為模式 還有意見領袖,在各個論壇都會存在 常常會有人看到某個ID發文,底下一堆先推再說的,不然就是先給尊重 現在通通要被當作協同(認知)作戰的打手囉 建議杜先生請把論文中提到共用IP、且行為模式相近的帳號做一波整理 直接送往帳號部請他們確認是不是異常帳號 看到底有多少的網軍帳號可以抓出來 而不是用別的平台來影射PTT裡面很多中共內應 然後實際上在PTT上被抓出來的大部分都是塔綠班的內應喔 還有要不要做一篇協同作戰分析正面論述天天對塔綠班歌功頌德的 是不是跟罵政府的一樣會被你抓出來有共同行為模式呢? 整篇論文的結論竟然是 "雖然不能證明有在操縱輿論,但研究人員想不出來這麼做的正當性" 那我也懷疑有人在操縱大眾輿論,抹黑PTT,因為我想不出這麼做的正當性 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 185.205.48.180 (瑞典) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1648444345.A.872.html

03/28 13:14, 2年前 , 1F
這些人跟苦無不就一個樣 面對塔綠班就閉
03/28 13:14, 1F

03/28 13:14, 2年前 , 2F
嘴了
03/28 13:14, 2F

03/28 13:14, 2年前 , 3F
連引用資料都沒有,就不用看了
03/28 13:14, 3F
參數在Data Mining之類的數據科學超級重要的 有些情況下可以透過調整參數來得出相反的結果

03/28 13:14, 2年前 , 4F
一堆反串怎麼抓
03/28 13:14, 4F

03/28 13:16, 2年前 , 5F
簡單說就是包裝比較好的文字獄 說你五
03/28 13:16, 5F

03/28 13:16, 2年前 , 6F
毛就是五毛
03/28 13:16, 6F

03/28 13:16, 2年前 , 7F
結論很簡單討厭民進黨的都是中共同路人
03/28 13:16, 7F

03/28 13:17, 2年前 , 8F
就問你杜老爺一句,名單呢?
03/28 13:17, 8F
其實名單在他們提供的github上面是有檔案可以抓的 我是沒有抓啦,我這邊半夜想說閒來無事看他到底怎麼分析的 看完就馬上來發文了 ※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:20:29

03/28 13:17, 2年前 , 9F
我比你更短的結論 苦無證據 先抹再說
03/28 13:17, 9F

03/28 13:18, 2年前 , 10F
03/28 13:18, 10F

03/28 13:18, 2年前 , 11F
可能想當網軍的創世神吧 ptt創世神名號沒價
03/28 13:18, 11F

03/28 13:18, 2年前 , 12F
那不叫研究,那叫專欄社論
03/28 13:18, 12F

03/28 13:18, 2年前 , 13F
值了
03/28 13:18, 13F

03/28 13:19, 2年前 , 14F
簡單一句話.我沒有證據.但是肯定是這樣
03/28 13:19, 14F

03/28 13:19, 2年前 , 15F
來八卦版本來就是來討論類似議題
03/28 13:19, 15F

03/28 13:19, 2年前 , 16F
影射最有殺傷力
03/28 13:19, 16F

03/28 13:19, 2年前 , 17F
舉手提問,請問論文只有研究八卦嗎?
03/28 13:19, 17F

03/28 13:20, 2年前 , 18F
其實以他的研究方式,研究前幾熱門板
03/28 13:20, 18F

03/28 13:20, 2年前 , 19F
也是會得到一堆偕同群組吧?
03/28 13:20, 19F
該篇研究只探討八卦版 個人認為套用到其他版大機率可以得出類似的結論

03/28 13:21, 2年前 , 20F
喜歡參與推文那也是因為發文限制較多
03/28 13:21, 20F
沒錯 很多因素都沒有考慮,單拿數字雲來說有人在協同作戰當內應 我只能說 非!常!奇!怪! ※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:22:57

03/28 13:21, 2年前 , 21F
抓到乃木坂46的網軍
03/28 13:21, 21F

03/28 13:21, 2年前 , 22F
靠腰 發文少臭了嗎
03/28 13:21, 22F

03/28 13:21, 2年前 , 23F
倚靠的就是 相信我之術
03/28 13:21, 23F

03/28 13:22, 2年前 , 24F
你太認真了吧= =
03/28 13:22, 24F

03/28 13:22, 2年前 , 25F
把PTT給的限制造成的影響當作觀察也是搞笑
03/28 13:22, 25F

03/28 13:22, 2年前 , 26F
超譯逐字稿 ZZZZZzzzzzz
03/28 13:22, 26F

03/28 13:22, 2年前 , 27F
抓蟑螂和瑋豐需要証據互相連結論証,
03/28 13:22, 27F

03/28 13:22, 2年前 , 28F
抹鄉民五毛只需要”感覺和苦無”
03/28 13:22, 28F

03/28 13:22, 2年前 , 29F
不要限制發文不要整天檢舉 那我還不發爆
03/28 13:22, 29F

03/28 13:23, 2年前 , 30F
先抹贏一半 選我正解
03/28 13:23, 30F

03/28 13:23, 2年前 , 31F
人的行為都會有模式可循的 不然社會科學
03/28 13:23, 31F

03/28 13:23, 2年前 , 32F
論文綠舔狗有正當性,收錢吹喇叭
03/28 13:23, 32F

03/28 13:23, 2年前 , 33F
就不用玩了 不能說有模式就是網軍阿
03/28 13:23, 33F
苦無證據,但我想不出正當性 所以你是協同作戰喔 啾咪><

03/28 13:24, 2年前 , 34F
但,就苦無證據:3
03/28 13:24, 34F
還有 100 則推文
還有 19 段內文
03/28 16:36, 2年前 , 135F
03/28 16:36, 135F

03/28 16:47, 2年前 , 136F
哈哈哈哈哈
03/28 16:47, 136F

03/28 17:19, 2年前 , 137F
這種無聊套工具算法上去分析的結果如果是
03/28 17:19, 137F

03/28 17:19, 2年前 , 138F
「研究人員想不出來這麼做的正當性」的話
03/28 17:19, 138F

03/28 17:20, 2年前 , 139F
很可能根本就只是非常正常的自然現象
03/28 17:20, 139F

03/28 17:21, 2年前 , 140F
找不出實例、因果,就只有我發現了一個不知
03/28 17:21, 140F

03/28 17:22, 2年前 , 141F
道是不是自然的模式,就冒然認定這是種特徵
03/28 17:22, 141F

03/28 17:22, 2年前 , 142F
然後再跟自己的想法聯結,這是在做研究?
03/28 17:22, 142F

03/28 17:22, 2年前 , 143F
推,這些都是Data mining很基本的方法
03/28 17:22, 143F

03/28 17:24, 2年前 , 144F
標準垃圾進垃圾出的東西耶..
03/28 17:24, 144F

03/28 18:14, 2年前 , 145F
好專業的文
03/28 18:14, 145F

03/28 18:21, 2年前 , 146F
苦無
03/28 18:21, 146F

03/28 18:29, 2年前 , 147F
如果10年前ptt也有grouping的現象 那
03/28 18:29, 147F

03/28 18:29, 2年前 , 148F
又會怎麼掰呢^^
03/28 18:29, 148F

03/28 18:39, 2年前 , 149F
03/28 18:39, 149F

03/28 19:23, 2年前 , 150F
這種作法至少也要有多參數的結果 更不要
03/28 19:23, 150F

03/28 19:24, 2年前 , 151F
說這種人類行為學的資料居然用tf-idf 整
03/28 19:24, 151F

03/28 19:24, 2年前 , 152F
個感覺就是在湊算法跟參數導向自身期望
03/28 19:24, 152F
人類心理、社會行為學很複雜 從眾心理、厭惡損失、鏡像神經元對行為的影響等,這些都還只是心理學的基礎 今天他找出有些群體有接近的行為模式 他應該說說,目前為止的結果很有趣 這裡應該是可以往下繼續研究探討的問題點,為何看似隨機的狀態中間會有一群人有這些 行為 不是單單說一句 喔 "這裡可能有人在操縱輿論 並且也沒有其他具有正當性的說明"

03/28 20:03, 2年前 , 153F
理組苦無
03/28 20:03, 153F

03/28 20:32, 2年前 , 154F
垃圾演算法當然就是先預設你就是五
03/28 20:32, 154F

03/28 20:32, 2年前 , 155F
毛 先抹先贏
03/28 20:32, 155F

03/28 20:52, 2年前 , 156F
笑死
03/28 20:52, 156F

03/28 21:36, 2年前 , 157F
推專業整理
03/28 21:36, 157F

03/28 22:11, 2年前 , 158F
03/28 22:11, 158F

03/28 23:07, 2年前 , 159F
看了幾個分析他方法的,你講的最好
03/28 23:07, 159F
※ 編輯: sami012985 (185.205.48.180 瑞典), 03/29/2022 00:25:10

03/29 10:03, 2年前 , 160F
03/29 10:03, 160F

03/29 11:49, 2年前 , 161F
最一開始 一個小時內用同一個IP上線推發文
03/29 11:49, 161F

03/29 11:50, 2年前 , 162F
這比例不知道有多少。如果佔比超少甚至沒有
03/29 11:50, 162F

03/29 11:51, 2年前 , 163F
那整篇就變成"話題的群聚現象研究"而已
03/29 11:51, 163F

03/29 13:29, 2年前 , 164F
回樓上,我這邊看論文,他的phi coeffic
03/29 13:29, 164F

03/29 13:29, 2年前 , 165F
ient分佈顯示大部分的用戶都在0~0.05之
03/29 13:29, 165F

03/29 13:29, 2年前 , 166F
間。說實在,很難找到明確統計有大量網
03/29 13:29, 166F

03/29 13:29, 2年前 , 167F
軍在操縱
03/29 13:29, 167F

03/29 13:30, 2年前 , 168F
phi coefficient 的升降可以看那幾條gro
03/29 13:30, 168F

03/29 13:30, 2年前 , 169F
up 規則
03/29 13:30, 169F

03/29 13:40, 2年前 , 170F
某種角度來,用語言學的脈絡來說,本來
03/29 13:40, 170F

03/29 13:41, 2年前 , 171F
相似的文化圈就會流行相同的術語,把PTT
03/29 13:41, 171F

03/29 13:41, 2年前 , 172F
解釋成30老漢次文化圈也是合理的
03/29 13:41, 172F
文章代碼(AID): #1YGKEvXo (Gossiping)
討論串 (同標題文章)
以下文章回應了本文
完整討論串 (本文為第 45 之 64 篇):
文章代碼(AID): #1YGKEvXo (Gossiping)