Re: [問題] NCBI爬蟲問題已刪文
※ 引述《dummytrue (就只是大叔而已)》之銘言:
: 想要找目前做某個東西的論文中標題出現某個字的出現頻率
: 寫了一隻爬蟲(有用到selenium、BeautifulSoup)
: 結果NCBI會封ip
: 不知道有推薦其他方法的嗎?
NCBI 自己有出工具啊
E-utilities:
Web API,但是沒有包成 RESTful API,是老式的 web 呼叫
範例是用 Perl,但其實用其他 http clients 也可以
Python 的話推薦用 requests
Entrez Direct:
一組 Unix 命令列工具,將上述 web 呼叫包成命令列工具
同樣也是用 Perl 寫成;我試過,在類 Unix 系統才能使用
NCBI 一定會封 IP,不要浪費時間去試爬蟲
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 203.71.94.20
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1503387708.A.74A.html
推
08/22 17:27, , 1F
08/22 17:27, 1F
→
08/22 21:42, , 2F
08/22 21:42, 2F
→
08/22 21:42, , 3F
08/22 21:42, 3F
的確是這樣沒錯,不過量少用這些工具抓一抓還過得去
※ 編輯: Neisseria (203.71.94.20), 08/23/2017 11:30:47
討論串 (同標題文章)