[問題] httpClient無法取得網頁html的問題
最近因為工作上有需要,必須蒐集一些電影資訊
發現開眼電影 ( http://www.atmovies.com.tw/home/ ) 這個網站的資料還不錯
所以想利用 httpClient 來擷取資料
直覺上,應該就像當我在網頁的搜尋 bar 裡面鍵入想查詢的中文片名 keyword,
然後畫面上應該就會出現一份符合這個 keyword 的電影清單。
所以我寫了如下的 code:
/*--------------------------程式碼分隔線--------------------------------*/
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.List;
import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.NameValuePair;
import org.apache.http.client.entity.UrlEncodedFormEntity;
import org.apache.http.client.methods.HttpPost;
import org.apache.http.impl.client.DefaultHttpClient;
import org.apache.http.message.BasicNameValuePair;
public class Test {
public static void main(String[] args) throws Exception {
// 我要查詢的關鍵字
String searchStr = "復仇者聯盟";
// 表單 submit 時的 action 程式 (方法為 post)
String searchUrl = "http://search.atmovies.com.tw/search/search.cfm";
DefaultHttpClient httpclient = new DefaultHttpClient();
HttpPost httpPost = new HttpPost(searchUrl);
// 設定submit時的各項參數 (type, search_term 都是表單元件的變數名稱)
List <NameValuePair> nvps = new ArrayList <NameValuePair>();
nvps.add(new BasicNameValuePair("type", "all"));
nvps.add(new BasicNameValuePair("search_term", searchStr));
httpPost.setEntity(new UrlEncodedFormEntity(nvps, "utf-8"));
HttpResponse response = httpclient.execute(httpPost);
// 檢查一下有沒有回傳成功
if(response.getStatusLine().getStatusCode() != 200)
System.out.println("Http response error!");
HttpEntity entity = response.getEntity();
BufferedReader in = new BufferedReader(
new InputStreamReader(entity.getContent(), "utf-8"));
// 把網頁的 HTML 印出來
String html = null;
while ((html = in.readLine()) != null) System.out.println(html);
}
}
/*--------------------------程式碼結束--------------------------------*/
程式的大意是說:
我想要查詢符合「復仇者聯盟」字串的電影,然後抓出這份清單的 html 內容
雖然 submit 的結果沒有異常(status code = 200),但輸出卻是一片空白 @@~
我有試過把 http header 改成跟瀏覽器送出的完全相同,但結果還是一樣
不曉得各位高手有什麼看法?感謝囉!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 36.227.147.101
※ 編輯: ciphero 來自: 36.227.147.101 (11/30 00:56)
→
12/01 18:00, , 1F
12/01 18:00, 1F
→
12/01 22:01, , 2F
12/01 22:01, 2F
→
12/01 22:04, , 3F
12/01 22:04, 3F
→
12/01 22:06, , 4F
12/01 22:06, 4F
→
12/01 22:09, , 5F
12/01 22:09, 5F
討論串 (同標題文章)
以下文章回應了本文:
完整討論串 (本文為第 1 之 5 篇):