Re: [問題] NCBI爬蟲問題已刪文

看板Python作者 (Neisseria)時間8年前 (2017/08/22 15:41), 8年前編輯推噓1(102)
留言3則, 2人參與, 最新討論串2/2 (看更多)
※ 引述《dummytrue (就只是大叔而已)》之銘言: : 想要找目前做某個東西的論文中標題出現某個字的出現頻率 : 寫了一隻爬蟲(有用到selenium、BeautifulSoup) : 結果NCBI會封ip : 不知道有推薦其他方法的嗎? NCBI 自己有出工具啊 E-utilities: Web API,但是沒有包成 RESTful API,是老式的 web 呼叫 範例是用 Perl,但其實用其他 http clients 也可以 Python 的話推薦用 requests Entrez Direct: 一組 Unix 命令列工具,將上述 web 呼叫包成命令列工具 同樣也是用 Perl 寫成;我試過,在類 Unix 系統才能使用 NCBI 一定會封 IP,不要浪費時間去試爬蟲 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 203.71.94.20 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1503387708.A.74A.html

08/22 17:27, , 1F
XD 也是po完才找到這些工具 感謝原po囉
08/22 17:27, 1F

08/22 21:42, , 2F
用這些工具也是一樣,只要你單位時間內query太多次就會封
08/22 21:42, 2F

08/22 21:42, , 3F
我會寧願去他的ftp下載那些資料回來再慢慢處理
08/22 21:42, 3F
的確是這樣沒錯,不過量少用這些工具抓一抓還過得去 ※ 編輯: Neisseria (203.71.94.20), 08/23/2017 11:30:47
文章代碼(AID): #1Pc-0yTA (Python)
討論串 (同標題文章)
文章代碼(AID): #1Pc-0yTA (Python)