[請益] 請問想爬蟲應該用 python 還是 php 好?

看板Soft_Job作者 (稀飯)時間5年前 (2018/09/13 15:28), 5年前編輯推噓25(25018)
留言43則, 31人參與, 6年前最新討論串1/1
不好意思,我是 php/java 工程師,5年經驗, 我最近想學爬蟲去爬一些電商網站,抓蝦皮或露天之類的 網站,主要是想抓某熱銷產品/某賣場全商品,可能會破千筆。 然後有點問題想請教一下: 1)看到很多關於爬蟲的書都是用 python,想問用 php 寫爬蟲 的話是會很不好寫嗎?我應該去學 python 再來爬嗎? 2)我想抓的都公開資訊,應該不會有觸法的問題吧? 看到之前文章說不把對方網站搞掛就不會有事, 但電商網站可能一次有十幾萬人在上面買東西或爬蟲, 要是真的掛的話,對方怎麼判定是不是我搞掛的? 謝謝,希望有爬蟲的前輩給一些建議 ^^" -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.34.5.66 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1536823701.A.CA2.html

09/13 15:34, 5年前 , 1F
先拿你掌握度高的來做
09/13 15:34, 1F

09/13 15:36, 5年前 , 2F
PY
09/13 15:36, 2F

09/13 15:55, 5年前 , 3F
凡走過必留下痕跡
09/13 15:55, 3F

09/13 15:55, 5年前 , 4F
Php不好debug 我其實只care這點
09/13 15:55, 4F
php我平常覺得很好debug說, 你是指爬蟲的部份嗎?

09/13 16:02, 5年前 , 5F
如果你沒有自己用php爬過就來問,那還是去學python吧
09/13 16:02, 5F
感謝,那請問第二點的疑問有人知道嗎? ※ 編輯: s9503669 (114.34.5.66), 09/13/2018 16:07:07

09/13 16:06, 5年前 , 6F
推Python是因為有爬蟲專門的套件,像是Scrapy
09/13 16:06, 6F

09/13 16:07, 5年前 , 7F
PHP我沒用過,google一下有找到Goutte這個東西
09/13 16:07, 7F

09/13 16:13, 5年前 , 8F
py
09/13 16:13, 8F

09/13 16:34, 5年前 , 9F
一般會有反爬蟲的策略
09/13 16:34, 9F

09/13 16:43, 5年前 , 10F
破千筆?還以為是要抓幾百萬筆資料。先看robots.txt那些不
09/13 16:43, 10F
robot.txt? 我如果是抓公開的產品資料還要確認這個嗎?

09/13 16:44, 5年前 , 11F
能抓。shopee可能要用puppeteer的headless chrome來抓。
09/13 16:44, 11F

09/13 16:44, 5年前 , 12F
千筆資料?你想太多了。
09/13 16:44, 12F
所以爬幾千筆賣場資料不會被告吧? XD

09/13 17:00, 5年前 , 13F
用過python就回不去了
09/13 17:00, 13F

09/13 17:03, 5年前 , 14F
PHP 用 XPATH 我覺得還不錯,遇到需要執行 JS 的就
09/13 17:03, 14F

09/13 17:03, 5年前 , 15F
起個 PHANTOMJS 執行再 PARSE
09/13 17:03, 15F

09/13 17:06, 5年前 , 16F
用Py 趁機多學一種語言也不錯
09/13 17:06, 16F

09/13 17:06, 5年前 , 17F
反爬主要都是增加爬的難度,就看能克服多少
09/13 17:06, 17F

09/13 17:08, 5年前 , 18F
Py潮
09/13 17:08, 18F

09/13 17:08, 5年前 , 19F
Headless Chrome 好物,還可以模擬點擊畫面XD
09/13 17:08, 19F
? 來研究一下XD ※ 編輯: s9503669 (114.34.5.66), 09/13/2018 17:17:39 ※ 編輯: s9503669 (114.34.5.66), 09/13/2018 17:28:31

09/13 17:36, 5年前 , 20F
看一下。看哪些目錄不能抓。幾千筆資料, 沒人在管的,你
09/13 17:36, 20F

09/13 17:37, 5年前 , 21F
phantomJS好像沒更新了 直接用headless chrome/ff
09/13 17:37, 21F

09/13 17:37, 5年前 , 22F
就一筆一筆的抓,ecommerce的site一點感覺都沒有。
09/13 17:37, 22F

09/13 18:47, 5年前 , 23F
你會java幹嘛不用jsoup就好?
09/13 18:47, 23F

09/13 18:49, 5年前 , 24F
用java爬也滿簡單的,jsoup的selector 做的還不錯
09/13 18:49, 24F

09/13 19:01, 5年前 , 25F
推jsoup
09/13 19:01, 25F

09/13 19:05, 5年前 , 26F
scala配jsoup 爽爽用
09/13 19:05, 26F

09/13 19:36, 5年前 , 27F
會 java 用 jsoup 就好啦
09/13 19:36, 27F
阿java有爬蟲工具喔?! 沒用在爬蟲所以不知道XD 感謝感謝 ※ 編輯: s9503669 (1.200.192.147), 09/13/2018 22:26:45

09/13 22:29, 5年前 , 28F
對阿 你都寫JAVA了 直接用jsoup就好XDD
09/13 22:29, 28F

09/13 22:37, 5年前 , 29F
PHP不是只能一步一步印嗎 還是有更好的方法請教教我
09/13 22:37, 29F

09/14 01:16, 5年前 , 30F
Java 有crawler4j 挺完整的
09/14 01:16, 30F

09/14 01:43, 5年前 , 31F
py
09/14 01:43, 31F

09/14 10:20, 5年前 , 32F
推py
09/14 10:20, 32F

09/14 12:37, 5年前 , 33F
python爬開發比java在處理字串上面會省很多時間
09/14 12:37, 33F

09/14 13:52, 5年前 , 34F
網路機器人、網路蜘蛛與網路爬蟲(php) 不過絕版了
09/14 13:52, 34F

09/14 13:53, 5年前 , 35F
你可能要找找看二手的
09/14 13:53, 35F

09/14 13:55, 5年前 , 36F
有好的中文書就要趕快買下來(?
09/14 13:55, 36F

09/14 13:57, 5年前 , 37F
Python套件比較容易裝跟用
09/14 13:57, 37F

09/14 17:00, 5年前 , 38F
軟體版真溫暖@@ 好多人好熱血
09/14 17:00, 38F

09/14 18:38, 5年前 , 39F
推python
09/14 18:38, 39F

09/15 00:09, 5年前 , 40F
剛學python幾天, 用 bs4 還可用 selector 爬資料超方便
09/15 00:09, 40F

09/16 13:04, 5年前 , 41F
你看過哪間爬蟲分析資料的公司主力是php的嗎
09/16 13:04, 41F

09/21 09:09, 5年前 , 42F
一天幾千筆還是一秒幾千筆?
09/21 09:09, 42F

07/18 22:36, 6年前 , 43F
用java
07/18 22:36, 43F
文章代碼(AID): #1RcX6LoY (Soft_Job)