[請益] crawler and API?

看板Soft_Job作者 (正妹真難找)時間10年前 (2014/06/26 17:50), 10年前編輯推噓11(11018)
留言29則, 11人參與, 最新討論串1/1
想問下各位前輩 目前要開發擷取網頁的技術 一個是有API 直接讓C#去讀取XML資料 一個是不提供 API 直接用crawler方式 去抓 但是crawler方式 似乎無法跟讀取 XML節點一樣 有效整理我所要的擷取內容 crawler似乎只能傳一堆網站資料進來 但我如何用crawler技術有效擷取我所要的資訊 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.129.46.206 ※ 文章網址: http://www.ptt.cc/bbs/Soft_Job/M.1403776201.A.7C2.html

06/26 17:57, , 1F
Crawler應該可以照你想要抓的tag來撈資料 只是撈回來自己
06/26 17:57, 1F

06/26 17:57, , 2F
要再parse
06/26 17:57, 2F

06/26 18:00, , 3F
你這問題應該要在C#板上問
06/26 18:00, 3F

06/26 18:00, , 4F
我可以給你一個關鍵字,Html Agility Pack
06/26 18:00, 4F

06/26 18:01, , 5F
我自己也開發過爬蟲專案,這東西不錯用
06/26 18:01, 5F

06/26 19:36, , 6F
推HAP
06/26 19:36, 6F

06/26 20:35, , 7F
xpath..regular expression都可以啊
06/26 20:35, 7F

06/27 02:28, , 8F
樓上,你別鬧了,正規表示法根本不好用。
06/27 02:28, 8F

06/27 02:29, , 9F
xpath…請問你是用什麼東西搭配xpath?
06/27 02:29, 9F

06/27 03:57, , 10F
推kiii210的regex,至於樓上.如果njpp是限定c#抓XML資料
06/27 03:57, 10F

06/27 03:58, , 11F
那你說的很對,但若不是。我只能ㄏㄏ了...
06/27 03:58, 11F

06/27 09:28, , 12F
正規表示法不好用?可是你用的parser跟compiler都是用正規
06/27 09:28, 12F

06/27 09:29, , 13F
表示法再爬抓回來的網頁和你的程式耶
06/27 09:29, 13F

06/27 12:10, , 14F
正規表示法不好用....
06/27 12:10, 14F
那到底該用Html Agility Pack 還是 正規表示法? 如果無解我能去科技板 或是對岸 專業論壇找答案... PTT C#很少人... ※ 編輯: njpp (36.231.153.10), 06/27/2014 12:38:23

06/27 16:03, , 15F
請用HAP,用正規表示法的我只能說,根本自爽
06/27 16:03, 15F

06/27 16:04, , 16F
我用過單純字串處理、正規表事法、HAP,相信我
06/27 16:04, 16F

06/27 16:05, , 17F
HAP第三方的dll真的好用太多了,尤其是解析網頁
06/27 16:05, 17F

06/27 16:06, , 18F
而且HAP也是用xpath去解析,不僅靈活度高,易讀性也高
06/27 16:06, 18F

06/27 16:09, , 19F
PTT C#版人多,不過大多都學生,有時候業界人的話會無
06/27 16:09, 19F

06/27 16:10, , 20F
法認同
06/27 16:10, 20F

06/27 16:11, , 21F
如果樓主無法決定用哪個,你就兩個都用,你就知道差異
06/27 16:11, 21F

06/27 16:13, , 22F
另外C#抓XML沒人再用HAP也沒用正規,是用class去轉
06/27 16:13, 22F

06/27 16:15, , 23F
up9cloud真的寫過C#嗎?我很懷疑你的經驗
06/27 16:15, 23F

06/28 01:41, , 24F
兩個都用過,正規表示式學習曲線高,但彈性 powerfull
06/28 01:41, 24F

06/28 01:42, , 25F
HAP方便,但過於依賴也不太好...
06/28 01:42, 25F

06/28 15:36, , 26F
順便問問有沒有java的,然後完美解決ajax的
06/28 15:36, 26F

06/28 15:37, , 27F
htmlunit不穩定
06/28 15:37, 27F

06/28 22:42, , 28F
要完美解決ajax要做的事太多了 htmlunit已經不錯了...
06/28 22:42, 28F

06/28 23:47, , 29F
Google花了 15 年才解決 AJAX 的問題,這問題不好解阿~
06/28 23:47, 29F
文章代碼(AID): #1Jg-p9V2 (Soft_Job)