討論串(共7篇) - [討論] 資料擷取程式發想 - 看板Soft_Job

看板 [ Soft_Job ]

討論串[討論] 資料擷取程式發想

共 7 篇文章

排序：最新先 | 最舊先 | 留言數 | 推文總分

內容預覽：開啟 | 關閉 | 只限未讀

首頁

尾頁

Re: [討論] 資料擷取程式發想

推噓0(0推 )留言0則，0人參與作者Spanner (孝任)時間11年前 (2014/05/14 15:16)資訊

內容預覽:

我自己是用XDocument，首先擷取回來的碼先用HtmlAgilityPack轉成標準xml. 用XDocument直接下語法去查(擷取物件). 例如找出原始碼中table元素 id=table4的所有資料. XElement table = (from t in xdoc.Descendan

(還有265個字)

Re: [討論] 資料擷取程式發想

推噓2(2推 )留言12則，0人參與作者StupidGaGa (笨嘎嘎)時間11年前 (2014/05/13 16:40)資訊

內容預覽:

剛好我也開發過類似的專案，. 回答你一些我用到的東西。以C#來開發。. 抓網頁的方法有三個. 01. httpwebrequest. 02. webclient. 03. webbrowser. 由難到簡單是01>02>03，. 不過，我比較建議的是用httpwebrequest，. 如果想偷懶點或

(還有1166個字)

Re: [討論] 資料擷取程式發想

推噓1(1推 )留言2則，0人參與作者VVll (J.)時間11年前 (2014/05/13 00:24)資訊

內容預覽:

以最近工作在碰的來說. 不停抓不同來源網站的資料. C# .Net. 主要用了兩個方法. 1. webClinet. 優點. 可以設定非同步下載，跟設定proxy，還有completed事件好處理. 缺點. 無timeout可使用，若使用到有狀況的網路情況，連線會卡住. 必須自己寫個timer去處

(還有206個字)

Re: [討論] 資料擷取程式發想

推噓0(0推 )留言0則，0人參與作者windycity (飛吧！)時間11年前 (2014/05/12 17:37)資訊

內容預覽:

最近在FB看盜文網站的文章看到很煩. 應該做一個盜盜文網站. 就去爬什麼 TEEPR, onefunnyjoke等等的網站貼回來. 其他一些老是沒有授權翻譯國外Blog文章當自己文章貼的也順便盜一盜. 應該很容易弄出不少流量吧. --. ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.2

Re: [討論] 資料擷取程式發想

推噓0(0推 )留言1則，0人參與作者yphs88 (黑輪)時間11年前 (2014/05/12 15:10)資訊

內容預覽:

網路蜘蛛爬資料. 第2步驟另一種方式可改用 3rd Party "Html Agility Pack" 可節省時間. http://htmlagilitypack.codeplex.com/. 缺點:網站版面配置一改版就破功. --. ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118

首頁

尾頁