[討論] 資料擷取程式發想

看板Soft_Job作者 (DOTA)時間11年前 (2014/05/12 08:59), 11年前編輯推噓18(18021)
留言39則, 21人參與, 最新討論串1/7 (看更多)
我想要做一隻可以從網路擷取資料並分析利用的程式, 我的初步想法如該圖 http://ppt.cc/a3Ve 1.擷取網頁碼我算用httpwebrequest(httpWebresponse)或WebBroswer技術 2.分析資料用regularExpression 3.介面顯示用datagridview 4.資料EXCEL匯出則用NPOI 但目前我苦無想法與來源來為這隻程式注入生命, 大家有什麼idea嗎? 註:個人使用語言是VB.NET -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.85.177.195 ※ 文章網址: http://www.ptt.cc/bbs/Soft_Job/M.1399856344.A.616.html ※ 編輯: d25702 (219.85.177.195), 05/12/2014 09:03:53

05/12 09:09, , 1F
去撈色情網站,幫我推薦一部好看的,個人喜歡日系口味
05/12 09:09, 1F

05/12 09:11, , 2F
各國運彩賭盤之類的XD
05/12 09:11, 2F

05/12 09:28, , 3F
現在有不少要跑過js之後網站內容才會出來的網站
05/12 09:28, 3F

05/12 09:29, , 4F
有興趣的話請google casper.js
05/12 09:29, 4F

05/12 09:54, , 5F
去撈股票資料
05/12 09:54, 5F

05/12 09:59, , 6F
facebook什麼的 最近公民議題應該有不少都需要這類東西
05/12 09:59, 6F

05/12 11:35, , 7F
我撈公司有在使用的軟體更新檔差不多就是類似這樣整理
05/12 11:35, 7F

05/12 12:06, , 8F
的確~有一些網站第一手擷取的資料並不是所要的,而是要他跑
05/12 12:06, 8F

05/12 12:07, , 9F
完javascript後才是所要的資料
05/12 12:07, 9F

05/12 12:16, , 10F
我本來想撈新聞焦點的說,公民議題這個範圍還蠻廣泛的
05/12 12:16, 10F

05/12 13:03, , 11F
抓成人網站的那個我還真的有朋友寫過,不過不公開.....
05/12 13:03, 11F

05/12 13:11, , 12F
最近為了搶限定版才寫了一隻在監控巴哈商城上架
05/12 13:11, 12F

05/12 13:12, , 13F
對了,好像有人寫出聯合pchome、露天、y拍之類的商城的中控
05/12 13:12, 13F

05/12 13:13, , 14F
系統去監控商品的上架跟下單..... 比原po講的複雜一點,但
05/12 13:13, 14F

05/12 13:13, , 15F
基本上的原理是一樣的
05/12 13:13, 15F

05/12 15:17, , 16F
http://antispite.tonyq.org/ 我最近的業餘興趣作品。XD
05/12 15:17, 16F

05/12 15:17, , 17F
網路留言的評估、回饋與分析。
05/12 15:17, 17F

05/12 15:56, , 18F
casper.js看起來真不錯 我還以為要用開源的JS引擎去處理
05/12 15:56, 18F

05/12 16:15, , 19F
國際麻將八番起胡的原始碼
05/12 16:15, 19F

05/12 16:24, , 20F
最近也想做一個可以撈MLB 成績的網站!!!
05/12 16:24, 20F

05/12 17:57, , 21F
運動的數據資料不難抓 有些官網有json直接抓
05/12 17:57, 21F

05/12 20:36, , 22F
一樓這個我喜番
05/12 20:36, 22F

05/13 00:01, , 23F
第二點... 只用 regex 不算是"分析"資料吧
05/13 00:01, 23F

05/13 00:29, , 24F
加個db吧,資料抓下來把分析後的資料寫入db變成資訊
05/13 00:29, 24F

05/13 00:37, , 25F
想好你要分析什麼 大概要哪些資料就準備開始處理ETL吧
05/13 00:37, 25F

05/13 14:11, , 26F
感謝,我先實作第一版程式出來,再來與大家share交流一下。
05/13 14:11, 26F

05/13 14:23, , 27F
我都來抓 股票公司的營收盈餘 籌碼面 = =
05/13 14:23, 27F

05/13 14:26, , 28F
工作一忙 就沒時間弄成UI 和排schedule了
05/13 14:26, 28F

05/13 23:35, , 29F
有興趣的話,去抓每天北市公車的資料然後分析他們預測到
05/13 23:35, 29F

05/13 23:36, , 30F
站時間的誤差值,然後再幫個忙把那個路口誤差最大算出來
05/13 23:36, 30F

05/13 23:38, , 31F
有餘力的話,再加個氣象變數,看下雨對預測的影響 QQ
05/13 23:38, 31F

05/14 16:28, , 32F
如果要用HtmlDocument結構去解析的話 可以參考下面這張圖
05/14 16:28, 32F

05/14 16:28, , 33F
概念差不多 應該有幫助
05/14 16:28, 33F

05/14 16:30, , 34F
對於單一元素 因為loading延遲的關係 所以除了timer
05/14 16:30, 34F

05/14 16:30, , 35F
也可以搭配迴圈的方式設個尋找條件 超過一定次數才放棄
05/14 16:30, 35F

05/14 16:31, , 36F
尋找該元素。 若考慮需要持續維護該程式 模組化和除錯機
05/14 16:31, 36F

05/14 16:32, , 37F
制的設計 才比較花時間
05/14 16:32, 37F

05/15 18:08, , 38F
對了Document.readyState屬性可檢查是否完成載入
05/15 18:08, 38F

05/15 18:08, , 39F
經常檢查 可盡量避免資料不夠完整
05/15 18:08, 39F
文章代碼(AID): #1JS1pOOM (Soft_Job)
討論串 (同標題文章)
文章代碼(AID): #1JS1pOOM (Soft_Job)