Re: [爆卦] 異常爆文分析器V1.2_新增推文ID統計消失

看板Gossiping作者時間7年前 (2018/11/07 07:13), 7年前編輯推噓2(209)
留言11則, 5人參與, 最新討論串8/9 (看更多)
這個程式抓到的名單確實有大量黨工 id 而且鎖定的方向很正確,就是短時間被大量 id 推文的文章 除了發錢文和有料的八卦文,剩下很多都是網軍洗的 八卦是某人經手超過一千個 id 在 PTT 帶風向 有鄉民在半個月前交給站方相關證據記錄及一千多個 id 清單,但遲遲沒有下文 看來 PTT 只能繼續被假言論操縱了 ※ 引述《clothg34569 (提拉米蘇冰淇淋)》之銘言: : 一樣,東西放在GIT : https://github.com/Daniel34569/PTTCrawler : 然後使用方式和介紹前面兩篇有了就不贅述: : https://www.ptt.cc/bbs/Gossiping/M.1541499806.A.EB8.html : https://www.ptt.cc/bbs/Gossiping/M.1541510766.A.2BE.html : 首先這次改版主要是新增了ID統計功能 : 簡單來說,異常爆文中(定義看前篇),N推內的ID會被記錄起來,N為自定義參數 : 再跑完目標範圍(可以為指定篇數,EX:770000~780000;或者特定ID發的文)之後 : 會統計出每個ID的出現頻率 : 如果要找網軍的話,我是建議可以搭配之前那個i'Analyseur使用效果更好XD : 另外也建議要翻一下那篇文章中特定ID發了甚麼言再比對 : 不過共通盲點應該是找不出政治廢人和網軍的差別 : 接下來會以Soyud12和Kingkingcold的發文當作範圍來作為範例 : 使用這兩個的原因是,剛好兩個不同立場,而且都有大量爆文可以作為分析使用 : 不得不說,八卦版真的是練習資料分析的好地方,八十萬筆公開資料可以使用 : 格式又很整齊漂亮 : 首先是Soyud12 : 參數與運行結果(因為只有11篇所就全貼了) : 這次參數門檻為,第25篇推文與發文間隔<10分鐘... : 雖然Soyud的就算用5分鐘也只會少一篇 : https://i.imgur.com/XApSb4B.png
: 符合設定門檻的10篇的前25則推文,總共250則推文 : 其中的每個ID推文次數 : https://i.imgur.com/CRayU9A.png
: 前50則推文,共500則 : 每個ID推文次數 : https://i.imgur.com/lZfHNLK.png
: 再來是KKC : 參數同Soyud12 : https://i.imgur.com/8vTkNB2.png
: 擷取前25則推文 : 只有一張的原因是因為KKC兩百多篇,跑兩次好累= = : 結論: : 其實單從這個結果來看,我會認為KKC的文章似乎比較少受到網軍影響 : 而且他過門檻的比例也低很多(191篇中81篇過) : 然後重複ID推文數也少很多 : 而Soyud12,我覺得已經可以接近網軍分析的範本了 : 雖然Vner那個更誇張,但是Vner發文量太少所以就分析Soyud12的 : 14篇文章中,11篇文為爆文(剩下三篇非政治),其中10篇過門檻 : 甚至有9篇過5分鐘的門檻 : 然後重複ID推文比例,10篇中可以和KKC 81篇相比 : 就我自己而言,我覺得這是意外的機率有點低啦 : 應該可以合理推測,這是網軍的機率還蠻高的 : PS:rorobus我不知道是政治狂熱還是網軍 : --- : 最後,如果有心做標籤的話,其實今年的選舉蠻適合拿來做機器學習分類練習的 : 用語意分析來找出大量推文者的政治傾向,以及是否為網軍(不管是紅藍綠) : 應該都是不錯的娛樂XD -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 203.121.240.166 ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1541546018.A.FA0.html

11/07 07:14, , 1F
挖嘎哩共拉 這叫無罪推定
11/07 07:14, 1F

11/07 07:15, , 2F
是不是當初大學好好念書 這我也寫得出來
11/07 07:15, 2F

11/07 07:15, , 3F
不然同 IP 他說室友同事辦公室你又怎樣
11/07 07:15, 3F

11/07 07:15, , 4F
我們同學一起去 hotel 開房間上網同IP阿
11/07 07:15, 4F

11/07 07:16, , 5F
大家同學聚在一起上 PTT 推文不行捏
11/07 07:16, 5F
我猜是在打麻將 ※ 編輯: ho2002 (203.121.240.166), 11/07/2018 07:16:44

11/07 07:16, , 6F
IPv4 都要用完惹捏,同IP很正常吧
11/07 07:16, 6F

11/07 07:17, , 7F
哪像那個甚麼 s86X134 的ID都用同IP
11/07 07:17, 7F

11/07 07:17, , 8F
不怕哪天被人查水表
11/07 07:17, 8F

11/07 07:17, , 9F
1000多人擠摩鐵喔 世紀最大趴
11/07 07:17, 9F

11/07 07:19, , 10F

11/07 07:26, , 11F
綠的就沒關係
11/07 07:26, 11F
文章代碼(AID): #1RuY0Y-W (Gossiping)
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 8 之 9 篇):
文章代碼(AID): #1RuY0Y-W (Gossiping)