[問題] GAE的PTT爬蟲

看板Python作者 ((σ′▽‵)′▽‵)σ)時間10年前 (2013/09/26 16:17), 編輯推噓0(003)
留言3則, 2人參與, 最新討論串1/1
如題, 小弟想弄一個可以幫我篩選文章的爬蟲. 先排除GAE daemon等等等問題, 目前碰上的是撈回來的資料有問題. 使用telnetlib, 用read_very_eager()讀取, 用google SDK中的new_project_template改寫, 程式碼如下: https://gist.github.com/anonymous/6711232 結果會是: http://ppt.cc/Fe3q (一個冒號) 能正確登入 (用其他帳號查詢過) 自己功力很差, 不知道原因和問題, 所以上來求助是最快的解答方式, 希望能幫助解惑. -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 125.224.237.99

09/26 16:39, , 1F
我沒測, 不過 PTT 看板搜尋是小寫 s 不是大寫...
09/26 16:39, 1F
ker ker...哈...謝謝, 我是想補充說, 如果不是用GAE, 直接使用電腦去連, 撈回來的資料就會如同在command line連ptt一樣的資料, 所以...ummmmmm... ※ 編輯: EmptySmile 來自: 125.224.237.99 (09/26 16:42)

09/26 16:51, , 2F
超哭得...我在read_very_eager前面加sleep(1)就解決了.
09/26 16:51, 2F

09/26 16:51, , 3F
感謝...解決了...撈得到正常的樣子了...
09/26 16:51, 3F
文章代碼(AID): #1IG-s0cr (Python)