Re: 關於之前說的無名小站搜集

看板sungshan作者 (松江水綠復站)時間17年前 (2007/01/30 02:44), 編輯推噓1(100)
留言1則, 1人參與, 最新討論串3/3 (看更多)

01/29 00:27,
XD 用GOOGLE可以搜到一堆喔
01/29 00:27

01/29 11:27,
可以阿 不是說設定來源就可以了
01/29 11:27
關於這個問題,我還是回答一下好了 這樣的程式看起來或許很無用,但某種程度而言算是領域搜尋 是的,Google 確實可以搜尋到這些 ID, 但是有以下問題 1. 搜尋 "site:www.wretch.cc/user 松山高中" 的時候, 假若頁面有 "..他是松山高中.." 或是 "..住在松山高中附近.." 這樣的句子時,該 ID 或許與松山高中毫無關係 2. 你無從得知某 ID 被別人加成朋友的時候,是哪些敘述句, 就算搜尋得到,你也要花上很多時間去過濾結果 3. 你無法精確紀錄朋友與朋友之間的連線關係, 因為 Google 的 spider 是會挑網頁去快取的,page rank 低的網頁或許根本不會有 對於 "試著找出與 ddachung 相關的朋友,並列出敘述句" 這樣的行為, Google 是沒有辦法精確找出來的 目前被我當成 root 的,大多是松山高中的人, 因此你可以將之視為松高人的無名清單探索 Hum... 或許之後可以就 Google 搜尋出來的網址進行追蹤 4. 這支 script 是追著朋友清單找的,因此找到的人會有以下幾種 a) 與該 ID 絕對相關的人: 同班同學、好朋友、親人 b) 眾人皆知的名人 ID: 彎彎、輔大猴.. etc c) 因為其他原因加進去的 ID: 某團體,或是某群集 d) 更少數的: 被亂加的 ID 從這點來看,或許它會找不到部份 Google 找得到的 ID, 但不可否認的是,精確度會較 Google 來得高 5. 說到底,當初就是因為 Google 找不出來我才會寫這樣的東西啊 囧 資料量不是多就好.. garbage 再怎麼處理還是 garbage 不同領域用到的工具本就不同,我不會沒事用這隻 Script 來找報告資料的 (遠) -- 可惡 我認真了 囧 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 218.166.123.188 ※ 編輯: cornguo 來自: 218.166.123.188 (01/30 02:59)

01/31 23:41, , 1F
推認真 囧
01/31 23:41, 1F
文章代碼(AID): #15la2UCq (sungshan)
文章代碼(AID): #15la2UCq (sungshan)