[請益] js有辨法寫爬蟲嗎

看板Soft_Job作者 (Vi)時間3年前 (2020/07/18 19:31), 3年前編輯推噓13(13029)
留言42則, 27人參與, 3年前最新討論串1/1
打算寫一支591爬蟲 有符合條件的新物件就跳出通知 因為懶得架server跟DB 想用chrome extension來做 稍微做了研究 發現要取得房屋列表json 需要先進到591頁面 取得cookie的591_new_session跟html裡面<meta>中的csrf-token 分別放到get reqeust中的header跟cookie 才能取到我要的資料 想問用js能做得到嗎 還是一定要後端語言呢 如果要做成後端 要能設定定時執行 還要考慮跨電腦同步db問題 只打算存物件id用來判斷重複物件 想到就覺得麻煩... 好像還沒看過有人用純js寫爬蟲的? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.68.118.128 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1595071872.A.0BE.html ※ 編輯: vi000246 (219.68.118.128 臺灣), 07/18/2020 19:37:55

07/18 19:33, 3年前 , 1F
可以
07/18 19:33, 1F

07/18 19:34, 3年前 , 2F
應該可以用 nodejs 試試?
07/18 19:34, 2F

07/18 19:35, 3年前 , 3F
JS 會先處理 CORS 到爆
07/18 19:35, 3F
cors超討厭的 害我的載片小幫手沒辨法在頁面inject預覽圖 只能用開新視窗的方式 ※ 編輯: vi000246 (219.68.118.128 臺灣), 07/18/2020 19:39:50

07/18 19:51, 3年前 , 4F
可以 查apify
07/18 19:51, 4F

07/18 19:52, 3年前 , 5F
啊 不過我抓的是靜態頁面 可能不符
07/18 19:52, 5F

07/18 19:54, 3年前 , 6F
非常討厭CORS
07/18 19:54, 6F

07/18 19:54, 3年前 , 7F
python他不香嗎
07/18 19:54, 7F

07/18 19:55, 3年前 , 8F
db跟server 用docker不就幫你裝好了
07/18 19:55, 8F

07/18 19:57, 3年前 , 9F
真香
07/18 19:57, 9F

07/18 20:00, 3年前 , 10F
我覺得你可以先搞懂為什麼會有CORS存在 還有api gateway
07/18 20:00, 10F

07/18 20:40, 3年前 , 11F
不然直接去591客服問怎麼爬你們家的網頁
07/18 20:40, 11F

07/18 20:59, 3年前 , 12F
https://reurl.cc/9Elgea + cron 給我香起來
07/18 20:59, 12F

07/18 21:41, 3年前 , 13F
....
07/18 21:41, 13F

07/18 21:43, 3年前 , 14F
用node.js寫 不會很難 用js browser會因為cors擋
07/18 21:43, 14F

07/18 21:43, 3年前 , 15F
11樓意見不錯,已笑翻
07/18 21:43, 15F

07/18 23:35, 3年前 , 16F
最近剛好在學 你須要的是Puppeteer
07/18 23:35, 16F

07/18 23:51, 3年前 , 17F
extension在background發XHR應該就不會被CORS擋
07/18 23:51, 17F

07/19 00:03, 3年前 , 18F
不過要先在manifest的permissions把目標網域加進去
07/19 00:03, 18F

07/19 00:21, 3年前 , 19F
直接nodejs不用cors啦
07/19 00:21, 19F

07/19 00:23, 3年前 , 20F
用cheerio處理html 抓取你要的部分就好
07/19 00:23, 20F

07/19 01:21, 3年前 , 21F
大家講的都是node.js 看來只能用後端寫了
07/19 01:21, 21F

07/19 01:31, 3年前 , 22F
在瀏覽器執行一定撞cors,載片我都寫Python
07/19 01:31, 22F

07/19 01:32, 3年前 , 23F
直接把連結用 書籤放js丟給python後端XD
07/19 01:32, 23F

07/19 02:31, 3年前 , 24F
cors可以關掉瀏覽器的cors看看,或是你webpack用proxy
07/19 02:31, 24F

07/19 02:31, 3年前 , 25F
繞過去,但就只是自己用爽的而已
07/19 02:31, 25F

07/19 02:57, 3年前 , 26F
我打算用python寫了 買個便宜主機設定cron job
07/19 02:57, 26F

07/19 02:57, 3年前 , 27F
資料庫用jsonbin 應該能解決我的問題
07/19 02:57, 27F

07/19 09:50, 3年前 , 28F
SSR 還好,如果你是 CSR 的話就一定要用後端處理了,puppe
07/19 09:50, 28F

07/19 09:50, 3年前 , 29F
teer 操作萬解
07/19 09:50, 29F

07/19 12:17, 3年前 , 30F
前端我用angular 框架 用proxy 啟動不會cors哦
07/19 12:17, 30F

07/19 15:15, 3年前 , 31F
樓上,ng就是幫你起了一個本地的node伺服器做proxy啊.
07/19 15:15, 31F

07/19 15:15, 3年前 , 32F
..
07/19 15:15, 32F

07/19 15:57, 3年前 , 33F
有proxy當然不會有cors啊 =_=
07/19 15:57, 33F

07/19 19:07, 3年前 , 34F
GitHub Actions 就能搞定的東西,為什麼要自己租伺服器?
07/19 19:07, 34F

07/20 14:46, 3年前 , 35F
591我之前用python直接打request,一下就搞定了
07/20 14:46, 35F

07/20 14:47, 3年前 , 36F
放在heroku上也免費
07/20 14:47, 36F

07/21 01:26, 3年前 , 37F
這樣找租屋變好方便XD
07/21 01:26, 37F

07/21 08:02, 3年前 , 38F
Heroku免費的應該有限制吧!還是去官網看一下比較好。
07/21 08:02, 38F

07/21 08:57, 3年前 , 39F
heroku我記得一天要休眠6小時 沒人戳也會自動休眠
07/21 08:57, 39F

07/22 09:58, 3年前 , 40F
heroki不是綁信用卡就不用休眠?
07/22 09:58, 40F

07/22 09:59, 3年前 , 41F
*heroku
07/22 09:59, 41F

07/23 14:33, 3年前 , 42F
11樓XD
07/23 14:33, 42F
文章代碼(AID): #1V4js02- (Soft_Job)