討論串[討論] 資料擷取程式發想
共 7 篇文章
首頁
上一頁
1
2
下一頁
尾頁

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者Spanner (孝任)時間11年前 (2014/05/14 15:16), 編輯資訊
0
0
1
內容預覽:
我自己是用XDocument,首先擷取回來的碼先用HtmlAgilityPack轉成標準xml. 用XDocument直接下語法去查(擷取物件). 例如 找出原始碼中table元素 id=table4的 所有資料. XElement table = (from t in xdoc.Descendan
(還有265個字)

推噓2(2推 0噓 10→)留言12則,0人參與, 最新作者StupidGaGa (笨嘎嘎)時間11年前 (2014/05/13 16:40), 11年前編輯資訊
0
0
2
內容預覽:
剛好我也開發過類似的專案,. 回答你一些我用到的東西。以C#來開發。. 抓網頁的方法有三個. 01. httpwebrequest. 02. webclient. 03. webbrowser. 由難到簡單是01>02>03,. 不過,我比較建議的是用httpwebrequest,. 如果想偷懶點或
(還有1166個字)

推噓1(1推 0噓 1→)留言2則,0人參與, 最新作者VVll (J.)時間11年前 (2014/05/13 00:24), 編輯資訊
0
0
2
內容預覽:
以最近工作在碰的來說. 不停抓不同來源網站的資料. C# .Net. 主要用了兩個方法. 1. webClinet. 優點. 可以設定非同步下載,跟設定proxy,還有completed事件好處理. 缺點. 無timeout可使用,若使用到有狀況的網路情況, 連線會卡住. 必須自己寫個timer去處
(還有206個字)

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者windycity (飛吧!)時間11年前 (2014/05/12 17:37), 編輯資訊
0
0
1
內容預覽:
最近在FB看盜文網站的文章看到很煩. 應該做一個盜盜文網站. 就去爬什麼 TEEPR, onefunnyjoke等等的網站貼回來. 其他一些老是沒有授權翻譯國外Blog文章當自己文章貼的也順便盜一盜. 應該很容易弄出不少流量吧. --. 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.2

推噓0(0推 0噓 1→)留言1則,0人參與, 最新作者yphs88 (黑輪)時間11年前 (2014/05/12 15:10), 編輯資訊
0
0
3
內容預覽:
網路蜘蛛爬資料. 第2步驟 另一種方式 可改用 3rd Party "Html Agility Pack" 可節省時間. http://htmlagilitypack.codeplex.com/. 缺點:網站版面配置一改版就破功. --. 發信站: 批踢踢實業坊(ptt.cc), 來自: 118
首頁
上一頁
1
2
下一頁
尾頁