[問題] GAE的PTT爬蟲
如題, 小弟想弄一個可以幫我篩選文章的爬蟲.
先排除GAE daemon等等等問題,
目前碰上的是撈回來的資料有問題.
使用telnetlib,
用read_very_eager()讀取,
用google SDK中的new_project_template改寫,
程式碼如下:
https://gist.github.com/anonymous/6711232
結果會是:
http://ppt.cc/Fe3q
(一個冒號)
能正確登入 (用其他帳號查詢過)
自己功力很差, 不知道原因和問題,
所以上來求助是最快的解答方式,
希望能幫助解惑.
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 125.224.237.99
→
09/26 16:39, , 1F
09/26 16:39, 1F
ker ker...哈...謝謝,
我是想補充說, 如果不是用GAE, 直接使用電腦去連,
撈回來的資料就會如同在command line連ptt一樣的資料,
所以...ummmmmm...
※ 編輯: EmptySmile 來自: 125.224.237.99 (09/26 16:42)
→
09/26 16:51, , 2F
09/26 16:51, 2F
→
09/26 16:51, , 3F
09/26 16:51, 3F