Re: [問題] 用PHP抓取搜尋結果的問題

看板Google作者 (嗯嗯)時間18年前 (2008/04/03 14:16), 編輯推噓0(001)
留言1則, 1人參與, 最新討論串2/2 (看更多)
※ 引述《GALINE (星光燦爛小天竹)》之銘言: : 我想紀錄某些關鍵字長時間的搜尋結果數量變化 : 而我想到的做法是用PHP去抓取Google網頁上的關鍵字 : 可是這時候碰到一個奇怪的狀況 : 我自己開Firefox看到的搜尋結果數字跟PHP抓到的搜尋結果數字不一樣 : 我用的搜尋網址是 : http://www.google.com.tw/search?q=%E7%A7%91%E5%B9%BB&meta=lr%3Dlang_zh-TW : 而用file_get_contents去抓上面的網址之後,得到的是這樣 : http://cqd.hiigara.net/search_logger.php : 以我PO文的時候來說 : 自己訪問Google的搜尋結果是850,000筆 : 用程式抓取網頁的搜尋結果是2,060,000筆 : 為什麼會差這麼多,有人知道原因嗎? 我提供一些以前的經驗讓你參考。 首先,那個科幻兩字如果沒有用""框起來做為"科幻", 是會算到有"科"有"幻"但沒有"科幻"的網頁記錄, 例如,....科科科,傻孩子的幻想....,....幻科....。 這你要去查查Google搜尋可以下的命令參數有什麼區別, 另外是多語言的部份你要加入還是扣除,得視你的研究需要。 以前,我是用手工去查然後記錄,既然你會寫程式, 建議用Google API去跑,以前是單日限查詢一千次, 如果你有研究計畫需要且能說服Google的話,應該是可以提高上限。 至於數量大幅變化,可能是Google農場裡記錄這個關鍵字的鴿子得了禽流感沒回應, 過一段可長可短的時間或許又回復,只是你也不知道究竟是怎麼回事。 然後Google所用的演算法何時修改如何修改了,你一樣不知道是怎麼回事。 還要注意命令參數是否修改等,這是透過Google記錄關鍵字數量變化的方法缺點。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.112.40.103

04/03 15:59, , 1F
科科,傻孩子的幻想...
04/03 15:59, 1F
文章代碼(AID): #17z7OrJJ (Google)
文章代碼(AID): #17z7OrJJ (Google)