Re: [爆卦] 網軍分析系統上線已回收

看板Gossiping作者時間7年前 (2018/10/02 10:32), 7年前編輯推噓20(22243)
留言67則, 20人參與, 7年前最新討論串18/27 (看更多)
※ 引述《kuo1102 (昨天已過去)》之銘言: : 2. 數據哪來的 ? : 通常這種多是從資料庫裏撈數據然後交給程式統計, 一般如公車 APP, 不是向 : 各公家機關要求資料庫讀取權限,不然就是從某些不能說的方法撈到資料。 : 最後的方法是向官方網頁撈資料,或用 GOOGLE 的搜尋找某個網站 SITE 裏的 : 關鍵字和關鍵 ID 撈到資料後來統計。 : 以上只是猜測。一般用在網頁資料庫統計中用最多的是 ASP 或 PHP。 : 自己建資料庫。我猜不太可能。資料量太大,而且要用很多空間來裝。 ASP/PHP是程式語言....資料庫是像是MySQL/MongoDB這種東西 不過我猜你不太懂,算惹....自己建資料庫不可能? 八卦版跟政黑板的IP紀錄是會吃多少儲存空間啦....5G 10G很夠了啦... : 5. 作者的 IP : 我知道你看不懂。 : 這是從 SEEDNET 的 DNS 上查詢的 IP 反查資料。 : 最後一個是 cn 也就是你也是從中國來的。 : 呵呵。 : 有沒有打臉到,我不知道。不過很明顯的是你在帶風向。 : 我常用 VPN 上線。沒辦法,不想惹麻煩。老闆看我上班不上班用公司的 IP 上 : BBS 非開了我不可。 : VPN 在手機上就可以用, 基本上不用太多設定,裝幾個 APP 就可以了。 : 以上。 : 我不是藍色綠色黃色甚至白色的網軍。可以不用肉搜我了。 : ~/sh/sh2# nslookup 112.116.160.234 ^^^ https://i.imgur.com/8sQIb10.png
https://i.imgur.com/1idtXbz.png
???? BJ4......不過人都有耍呆的時候,這就不怪你惹 -- -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.231.192.102 ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1538447553.A.DF6.html

10/02 10:35, 7年前 , 1F
我說的昰資料庫統計不是資料庫
10/02 10:35, 1F
我覺得你真的不用在這部分跟我爭執...你真的是很不懂啊.... 然後我跟你說,一般比方說公車APP這種撈資料的,根本沒人會直接開資料庫給人存取 (除了沒有資安觀念的以外....) 你放資料庫去給人家access是心臟多大顆? 都是包成API給人好嗎 簡單一點的如open data可能放個json的存取URL 比較要求安全性的會包一些hash key或是auth token之類的,怎麼可能直接放資料庫

10/02 10:35, 7年前 , 2F
122跟112?
10/02 10:35, 2F

10/02 10:36, 7年前 , 3F
112跟122的關聯性是?
10/02 10:36, 3F
都有1跟2吧...

10/02 10:37, 7年前 , 4F
122跟112 ??
10/02 10:37, 4F

10/02 10:37, 7年前 , 5F
居然有人氣成這樣 呵呵
10/02 10:37, 5F

10/02 10:37, 7年前 , 6F
都說我不是寫程式的。網管裏管主機和
10/02 10:37, 6F

10/02 10:38, 7年前 , 7F
管程式的分開。管美編的不會管資料庫
10/02 10:38, 7F

10/02 10:38, 7年前 , 8F
大多數人都是保持著有趣的心態看這程式
10/02 10:38, 8F
對啊,所以我跟你說你就不懂嘛 btw 我是寫程式的 ㄎㄎ 好心教你還被你崩潰噓欸...sad

10/02 10:39, 7年前 , 9F
難怪說高手在人間 鄉民一出手就知有沒有
10/02 10:39, 9F

10/02 10:39, 7年前 , 10F
期待開釋112跟122的關係
10/02 10:39, 10F
※ 編輯: kurtsgm (61.231.192.102), 10/02/2018 10:40:02

10/02 10:41, 7年前 , 11F
超糗 一隻半解還那邊陰謀論
10/02 10:41, 11F

10/02 10:44, 7年前 , 12F
1推文1筆IP資料一天10G都嫌少了
10/02 10:44, 12F

10/02 10:50, 7年前 , 13F
所以人家說你不懂有啥好解釋的?事實就虛
10/02 10:50, 13F

10/02 10:50, 7年前 , 14F
心接受就好 本來就不懂啊
10/02 10:50, 14F

10/02 10:51, 7年前 , 15F
所以你覺得這系統可以很正確的抓出網軍嗎
10/02 10:51, 15F

10/02 10:51, 7年前 , 16F
10/02 10:51, 16F
(跟層面技術無關) 我覺得是很難啦...頂多抓一些多重分身的政治魔人而已 網軍吼,尤其是買帳號的,根本都拋棄式的..... 出來爆真假料的,一堆都是從來沒發文過的,根本沒啥歷史紀錄可以找 但是抓魔人的分身也是滿有趣的就是....

10/02 10:52, 7年前 , 17F
我也不是很理解一大片資料撈出來還要編輯
10/02 10:52, 17F

10/02 10:52, 7年前 , 18F
的概念
10/02 10:52, 18F

10/02 10:53, 7年前 , 19F
@kuo1102 不會看上站次數以及把122看成112
10/02 10:53, 19F
※ 編輯: kurtsgm (61.231.192.102), 10/02/2018 10:54:52

10/02 10:53, 7年前 , 20F
跟會不會寫程式無關吧?
10/02 10:53, 20F

10/02 10:53, 7年前 , 21F
不是編輯,是篩選關鍵IP跟ID
10/02 10:53, 21F

10/02 10:53, 7年前 , 22F
這系統就跟ptt為何要顯示ip一樣給人參考
10/02 10:53, 22F

10/02 10:53, 7年前 , 23F
而已何必這麼執著
10/02 10:53, 23F

10/02 10:55, 7年前 , 24F
而且不知道為何會有錯誤 可能程式有bug
10/02 10:55, 24F

10/02 10:55, 7年前 , 25F
id:12, ip:4, date:3(不確定)bytes
10/02 10:55, 25F

10/02 10:55, 7年前 , 26F
至少要知道人家的演算法規則
10/02 10:55, 26F

10/02 10:55, 7年前 , 27F
好啦幫你補血
10/02 10:55, 27F

10/02 10:56, 7年前 , 28F
id佔的bytes比推文多??
10/02 10:56, 28F

10/02 10:58, 7年前 , 29F
沒什麼規則就類似論文引用次數
10/02 10:58, 29F

10/02 10:59, 7年前 , 30F
id最長12byes(ascii code),10/1 2083篇
10/02 10:59, 30F

10/02 11:00, 7年前 , 31F
看起來就只是個 某id使用的ip被其他人用
10/02 11:00, 31F

10/02 11:00, 7年前 , 32F
幾次這樣 看不出來有什麼奇怪的加成
10/02 11:00, 32F

10/02 11:00, 7年前 , 33F
2083*19bytes*平均推文,其實可以大概抓
10/02 11:00, 33F

10/02 11:03, 7年前 , 34F
八卦版平均推文隨便抓50好了,大概2G上下
10/02 11:03, 34F

10/02 11:04, 7年前 , 35F
不過那是啥米都塞的情況,很多可以最佳化
10/02 11:04, 35F

10/02 11:06, 7年前 , 36F
推文內容不可能只有3bytes 但是如果建資
10/02 11:06, 36F

10/02 11:06, 7年前 , 37F
料庫這可以不存的
10/02 11:06, 37F

10/02 11:07, 7年前 , 38F
date日期,他那個網頁也沒看到推文內容
10/02 11:07, 38F

10/02 11:07, 7年前 , 39F
可以查到兩個月左右的資料 吃的空間就很
10/02 11:07, 39F

10/02 11:08, 7年前 , 40F
驚人了
10/02 11:08, 40F

10/02 11:08, 7年前 , 41F
只是date只有算年月日,我不太確定能不能
10/02 11:08, 41F

10/02 11:08, 7年前 , 42F
日期倒是有加上
10/02 11:08, 42F

10/02 11:12, 7年前 , 43F
有沒有加上時分秒大概是3和8bytes的差別
10/02 11:12, 43F

10/02 11:20, 7年前 , 44F
一樓不要笑死人了
10/02 11:20, 44F

10/02 11:32, 7年前 , 45F
初見kuo1102的文時我也覺得他不太懂webAPI
10/02 11:32, 45F

10/02 11:34, 7年前 , 46F
抓資料用程式語言 存資料要用資料庫方式
10/02 11:34, 46F

10/02 11:34, 7年前 , 47F
不過那網頁的概念屬於prototype 不很精準
10/02 11:34, 47F

10/02 11:35, 7年前 , 48F
我比較相信這篇 順帶一說 程式很難準確
10/02 11:35, 48F

10/02 11:35, 7年前 , 49F
分析是不是網軍拉 要有一套核心的演算
10/02 11:35, 49F

10/02 11:35, 7年前 , 50F
法比較有機會 我她媽有時間寫這種演算法
10/02 11:35, 50F

10/02 11:36, 7年前 , 51F
願意分享值得拍拍手 如有source code更棒
10/02 11:36, 51F

10/02 11:36, 7年前 , 52F
不如拿去賺錢 你以為演算法很好想喔!
10/02 11:36, 52F

10/02 11:36, 7年前 , 53F
可以放gitHub讓大家一起精進那套程式
10/02 11:36, 53F

10/02 11:38, 7年前 , 54F
日期時間(到秒)可以用timestamp,4byte(int)
10/02 11:38, 54F

10/02 11:40, 7年前 , 55F
那你利用這系統觀察,覺得我有沒有分身?
10/02 11:40, 55F

10/02 11:48, 7年前 , 56F
我看過寫程式的那位員發文者的留言了
10/02 11:48, 56F

10/02 11:49, 7年前 , 57F
這套系統不是即時制的 所以存取的資料
10/02 11:49, 57F

10/02 11:49, 7年前 , 58F
是昨天之前的 那發文者看起來也是分身
10/02 11:49, 58F

10/02 11:49, 7年前 , 59F
沒有發文紀錄當然就查不到資料拉
10/02 11:49, 59F

10/02 12:34, 7年前 , 60F
好文章給推,某大大不用強調自己清白了
10/02 12:34, 60F

10/02 12:34, 7年前 , 61F
,看來這系統造成你不少困擾
10/02 12:34, 61F

10/02 12:34, 7年前 , 62F
非同步那就一定是有建資料庫了
10/02 12:34, 62F

10/02 12:50, 7年前 , 63F
這系統就爬出來的 是在資料庫甚麼
10/02 12:50, 63F
還是有啦,看他那個網頁的響應速度,如果是你查詢當下才去爬,沒辦法這麼快 (會比較類似我們在skyscanner那種查價網站一樣,慢慢轉出來) 所以他一定是先用爬蟲爬了也許一兩個小時,資料做標準化之後再存進自己的DB

10/02 13:13, 7年前 , 64F
蠻多新手第一個爬蟲就是爬PTT
10/02 13:13, 64F

10/02 13:13, 7年前 , 65F
根本不難阿....
10/02 13:13, 65F
※ 編輯: kurtsgm (118.169.188.207), 10/02/2018 14:22:27

10/02 15:30, 7年前 , 66F
除非你要一直更新 不然慢慢爬就好了
10/02 15:30, 66F

10/02 15:30, 7年前 , 67F
每篇文章都只爬一次 雖然會漏掉一些新推文
10/02 15:30, 67F
文章代碼(AID): #1RijZ1ts (Gossiping)
討論串 (同標題文章)
文章代碼(AID): #1RijZ1ts (Gossiping)