[請益] 如何從網站撈資料

看板Soft_Job作者 (Ian)時間12年前 (2013/11/12 17:14), 編輯推噓9(9011)
留言20則, 14人參與, 最新討論串1/2 (看更多)
我想從”網龍大富翁”這類網站撈資料回來處理,實務上做得到嗎?該怎麼做?當然我只是想做一個嚐試,不會侵犯人家的權益 -- Sent from my Android -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 115.82.250.234

11/12 17:15, , 1F
看是撈什麼資料吧? 頁面上的資料可以
11/12 17:15, 1F

11/12 17:16, , 2F
對方資料庫裡的就.....
11/12 17:16, 2F

11/12 17:23, , 3F
撈得到資料,天下就大亂了,你去駭看看啊
11/12 17:23, 3F

11/12 17:27, , 4F
我想偷偷去別人家的浴室散步,實務上做的到嗎?該怎麼做?
11/12 17:27, 4F

11/12 17:27, , 5F
當然我只是想做一個嚐試,不會侵犯人家的權益
11/12 17:27, 5F

11/12 17:28, , 6F
去 google 網路爬蟲吧。
11/12 17:28, 6F

11/12 17:29, , 7F
google: 網路爬蟲, python有一整套solution.
11/12 17:29, 7F

11/12 18:30, , 8F
網頁資料當然可以抓,但你要用啥技術,怎麼寫又是另外一
11/12 18:30, 8F

11/12 18:30, , 9F
回事情,畢竟技術那麼多種。
11/12 18:30, 9F

11/12 19:54, , 10F
有人可能誤會了,我只是想取得頁面上的資料回來處理
11/12 19:54, 10F

11/12 20:03, , 11F
哪種語言? 抓網頁沒什麼啦.....
11/12 20:03, 11F

11/12 21:02, , 12F
wget
11/12 21:02, 12F

11/12 21:26, , 13F
jsoup 方便你取得網頁的元素資料
11/12 21:26, 13F

11/12 21:52, , 14F
用xpath就很簡單抓抓
11/12 21:52, 14F

11/12 23:52, , 15F
抓網頁簡單 , parse會難一些,要硬啃html的話最好有
11/12 23:52, 15F

11/12 23:52, , 16F
些 regex的技能
11/12 23:52, 16F

11/13 00:15, , 17F
如果用眼睛就看得出來的規則就還好,現在有些用JavaScript
11/13 00:15, 17F

11/13 00:17, , 18F
混淆內容再塞在DOM裡顯示,那個就很麻煩了
11/13 00:17, 18F

11/13 01:27, , 19F

11/13 12:45, , 20F
朕沒給的 你不能要
11/13 12:45, 20F
文章代碼(AID): #1IWV5tkF (Soft_Job)
文章代碼(AID): #1IWV5tkF (Soft_Job)