[閒聊] InsideJob 篩選器

看板Soft_Job作者 (自以為鄉民)時間12年前 (2014/01/07 22:49), 編輯推噓2(201)
留言3則, 3人參與, 最新討論串1/1
Hi 大家好 昨天短暫的討論了一下,關於Inside Job Board是否可以做網路爬蟲。 爬完,再透過程式做資料篩選。 雖然看過該網站的Robots.txt,並無不允許機器人去抓資料。 昨天也直接把寫完的東西發到GitHub了, 但是,看到有鄉民說還是有機率有法律問題, 我個人也詳細看了一下資料,確實是有機率。 所以,默默把文章給刪除了。 但是,我想還是有人會好奇 & 或許自己想實際撰寫。 我寫了一篇教學文,說明我實做的過程&想法。 也有部分程式碼,參考資料等。 或許透過教學文可能沒辦法快速享受成果, 但若自己去實做或許也會跟我一樣享受過程。 有問題大家可以隨時討論,我盡我知道的解決。 文章網址:http://ppt.cc/AY2I 今天也有發訊息問硬塞網,是否可以同意此等行為。 若後續經過同意,將再發佈給大家。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 123.194.233.173

01/07 22:53, , 1F
這樣的作法好得多 推個
01/07 22:53, 1F

01/07 23:31, , 2F
很久以前用php-gtk2寫php爬dcview改一改就可以用呢
01/07 23:31, 2F

01/07 23:38, , 3F
只能推HtmlAgilityPack了,之前也都在用那個parsing
01/07 23:38, 3F
文章代碼(AID): #1Ip1Fgcb (Soft_Job)