ㄤㄤ窩八卦肥宅辣o'_'o
肥宅窩建議ㄋ齁
挑工具之前不仿先檢視下自己的需求
需不需要cookie?
需不需要執行js?
這邊放一些常用的工具關鍵字
你可以上網找對應語言的alt. 來用
>>如果不需要cookie
《Nokogiri》是可以輸入xml文本,產生對應的dom物件,然後有帶dom選擇器,如果頁面
不複雜,爬大部分的政府頁面很好用。也能用於html以外的xml 對網頁以外的爬蟲也能有
很好的應用場景。
>>如果需要cookie
《Mechanize》包含了nokogiri與http-cookie,對有些以session控制頁面狀態的網頁很
好用
>>如果需要執行js
《selenium》是很強大的工具,配合瀏覽器的驅動可以直接操作瀏覽器。也可以配合。
Ruby或Java下有一個以Selenium為底的庫叫做《Watir》,帶了很多與使用者操作相關的功
能。
另外,搶票這葛場景
你還會需要考慮多線程跟MQ
也不建議用一般的瀏覽器模擬, UI太肥惹
會需要《PhantomJS》之類的web引擎減少UI繪製
以上是一些經驗
通常只要放個captcha我就QQ惹
滑動解鎖還有些機會(如掏寶)
_____________________
/ 口 我不是機器人 /
/____________________/
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.80.70.6
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1484652690.A.1D0.html
推
01/17 20:01, , 1F
01/17 20:01, 1F
→
01/17 20:09, , 2F
01/17 20:09, 2F
→
01/17 22:23, , 3F
01/17 22:23, 3F
→
01/17 23:29, , 4F
01/17 23:29, 4F
→
01/18 00:52, , 5F
01/18 00:52, 5F
→
01/18 00:52, , 6F
01/18 00:52, 6F
→
01/18 00:53, , 7F
01/18 00:53, 7F
→
01/18 18:44, , 8F
01/18 18:44, 8F
討論串 (同標題文章)