[問題] httpClient無法取得網頁html的問題

看板java作者 (奶油焗蛋餃...:))時間13年前 (2012/11/30 00:37), 編輯推噓0(005)
留言5則, 2人參與, 最新討論串1/5 (看更多)
最近因為工作上有需要,必須蒐集一些電影資訊 發現開眼電影 ( http://www.atmovies.com.tw/home/ ) 這個網站的資料還不錯 所以想利用 httpClient 來擷取資料 直覺上,應該就像當我在網頁的搜尋 bar 裡面鍵入想查詢的中文片名 keyword, 然後畫面上應該就會出現一份符合這個 keyword 的電影清單。 所以我寫了如下的 code: /*--------------------------程式碼分隔線--------------------------------*/ import java.io.BufferedReader; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.List; import org.apache.http.HttpEntity; import org.apache.http.HttpResponse; import org.apache.http.NameValuePair; import org.apache.http.client.entity.UrlEncodedFormEntity; import org.apache.http.client.methods.HttpPost; import org.apache.http.impl.client.DefaultHttpClient; import org.apache.http.message.BasicNameValuePair; public class Test { public static void main(String[] args) throws Exception { // 我要查詢的關鍵字 String searchStr = "復仇者聯盟"; // 表單 submit 時的 action 程式 (方法為 post) String searchUrl = "http://search.atmovies.com.tw/search/search.cfm"; DefaultHttpClient httpclient = new DefaultHttpClient(); HttpPost httpPost = new HttpPost(searchUrl); // 設定submit時的各項參數 (type, search_term 都是表單元件的變數名稱) List <NameValuePair> nvps = new ArrayList <NameValuePair>(); nvps.add(new BasicNameValuePair("type", "all")); nvps.add(new BasicNameValuePair("search_term", searchStr)); httpPost.setEntity(new UrlEncodedFormEntity(nvps, "utf-8")); HttpResponse response = httpclient.execute(httpPost); // 檢查一下有沒有回傳成功 if(response.getStatusLine().getStatusCode() != 200) System.out.println("Http response error!"); HttpEntity entity = response.getEntity(); BufferedReader in = new BufferedReader( new InputStreamReader(entity.getContent(), "utf-8")); // 把網頁的 HTML 印出來 String html = null; while ((html = in.readLine()) != null) System.out.println(html); } } /*--------------------------程式碼結束--------------------------------*/ 程式的大意是說: 我想要查詢符合「復仇者聯盟」字串的電影,然後抓出這份清單的 html 內容 雖然 submit 的結果沒有異常(status code = 200),但輸出卻是一片空白 @@~ 我有試過把 http header 改成跟瀏覽器送出的完全相同,但結果還是一樣 不曉得各位高手有什麼看法?感謝囉! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 36.227.147.101 ※ 編輯: ciphero 來自: 36.227.147.101 (11/30 00:56)

12/01 18:00, , 1F
不要忽略 hidden 欄位的資訊 ex. action=home&fr=search
12/01 18:00, 1F

12/01 22:01, , 2F
ㄟ~其實這一點也試過了,仍然不行。我用某些軟體去找
12/01 22:01, 2F

12/01 22:04, , 3F
所有submit出去的變數與值以及http header,然後以程式
12/01 22:04, 3F

12/01 22:06, , 4F
送出完全相同的內容,結果仍然一樣。也許只能推測對方的
12/01 22:06, 4F

12/01 22:09, , 5F
action程式中做了什麼未知的處理,似乎也無法繼續追查了吧
12/01 22:09, 5F
文章代碼(AID): #1GjuzAJT (java)
討論串 (同標題文章)
文章代碼(AID): #1GjuzAJT (java)