Re: [問題] 用PHP抓取搜尋結果的問題
※ 引述《GALINE (星光燦爛小天竹)》之銘言:
: 我想紀錄某些關鍵字長時間的搜尋結果數量變化
: 而我想到的做法是用PHP去抓取Google網頁上的關鍵字
: 可是這時候碰到一個奇怪的狀況
: 我自己開Firefox看到的搜尋結果數字跟PHP抓到的搜尋結果數字不一樣
: 我用的搜尋網址是
: http://www.google.com.tw/search?q=%E7%A7%91%E5%B9%BB&meta=lr%3Dlang_zh-TW
: 而用file_get_contents去抓上面的網址之後,得到的是這樣
: http://cqd.hiigara.net/search_logger.php
: 以我PO文的時候來說
: 自己訪問Google的搜尋結果是850,000筆
: 用程式抓取網頁的搜尋結果是2,060,000筆
: 為什麼會差這麼多,有人知道原因嗎?
我提供一些以前的經驗讓你參考。
首先,那個科幻兩字如果沒有用""框起來做為"科幻",
是會算到有"科"有"幻"但沒有"科幻"的網頁記錄,
例如,....科科科,傻孩子的幻想....,....幻科....。
這你要去查查Google搜尋可以下的命令參數有什麼區別,
另外是多語言的部份你要加入還是扣除,得視你的研究需要。
以前,我是用手工去查然後記錄,既然你會寫程式,
建議用Google API去跑,以前是單日限查詢一千次,
如果你有研究計畫需要且能說服Google的話,應該是可以提高上限。
至於數量大幅變化,可能是Google農場裡記錄這個關鍵字的鴿子得了禽流感沒回應,
過一段可長可短的時間或許又回復,只是你也不知道究竟是怎麼回事。
然後Google所用的演算法何時修改如何修改了,你一樣不知道是怎麼回事。
還要注意命令參數是否修改等,這是透過Google記錄關鍵字數量變化的方法缺點。
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.40.103
→
04/03 15:59, , 1F
04/03 15:59, 1F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):