Re: 關於之前說的無名小站搜集
推
01/29 00:27,
01/29 00:27
→
01/29 11:27,
01/29 11:27
關於這個問題,我還是回答一下好了
這樣的程式看起來或許很無用,但某種程度而言算是領域搜尋
是的,Google 確實可以搜尋到這些 ID,
但是有以下問題
1. 搜尋 "site:www.wretch.cc/user 松山高中" 的時候,
假若頁面有 "..他是松山高中.." 或是 "..住在松山高中附近.."
這樣的句子時,該 ID 或許與松山高中毫無關係
2. 你無從得知某 ID 被別人加成朋友的時候,是哪些敘述句,
就算搜尋得到,你也要花上很多時間去過濾結果
3. 你無法精確紀錄朋友與朋友之間的連線關係,
因為 Google 的 spider 是會挑網頁去快取的,page rank 低的網頁或許根本不會有
對於 "試著找出與 ddachung 相關的朋友,並列出敘述句" 這樣的行為,
Google 是沒有辦法精確找出來的
目前被我當成 root 的,大多是松山高中的人,
因此你可以將之視為松高人的無名清單探索
Hum... 或許之後可以就 Google 搜尋出來的網址進行追蹤
4. 這支 script 是追著朋友清單找的,因此找到的人會有以下幾種
a) 與該 ID 絕對相關的人: 同班同學、好朋友、親人
b) 眾人皆知的名人 ID: 彎彎、輔大猴.. etc
c) 因為其他原因加進去的 ID: 某團體,或是某群集
d) 更少數的: 被亂加的 ID
從這點來看,或許它會找不到部份 Google 找得到的 ID,
但不可否認的是,精確度會較 Google 來得高
5. 說到底,當初就是因為 Google 找不出來我才會寫這樣的東西啊 囧
資料量不是多就好.. garbage 再怎麼處理還是 garbage
不同領域用到的工具本就不同,我不會沒事用這隻 Script 來找報告資料的 (遠)
--
可惡 我認真了 囧
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 218.166.123.188
※ 編輯: cornguo 來自: 218.166.123.188 (01/30 02:59)
推
01/31 23:41, , 1F
01/31 23:41, 1F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 3 之 3 篇):