[發案] 爬蟲網站資料+搜尋系統web scrapping

看板CodeJob作者 (肚子餓)時間13年前 (2012/10/05 12:47), 編輯推噓2(209)
留言11則, 4人參與, 最新討論串1/1
案件狀態:發包中 發案人:吳先生 聯絡方式1:duofilm18@gmail.com 聯絡方式2:0928-155-500 或站內信 所在地區 :台北市中山區 有效時間:2012.10.05-2012.10.20 專案說明: 抓取指定網頁上的商品資料,匯入MYSQL資料庫,之後,資料庫需定 期隨著指定網頁上的商品資料而更新。 ------ 功能一 ---------------------------------------------------------------- 在yahoo,8891中古車,sum賞車網,hot大聯盟 抓取中古車的資料像這樣匯入mysql資料庫(或是通用格式的資料庫也可以) 一天更新一次 來源網址 https://www.XXXtcar.com.tw/..*54154 出廠年份 2009 地區 彰化埔心 售車類型 中古車 車輛售價 8萬 排檔方式 自排 排氣量 1501cc~1800cc 掛牌年份 2009 行駛里程(km) XXXXX 車廠品牌 NISSAN 車種名稱 TIIDA 車輛來源 車商/個人 車門數 四門 車體顏色 黑 ----- 功能二 ----------------------------------------- 用上面程式所抓取的資料 做出可以在網路上搜尋 品牌,名車,行駛里程,地區等搜尋功能,排氣量,售價 搜尋結果可排序 展示出來源網址找出適合條件的車子 其他功能 *會員功能 *檢舉資料不實黑名單功能,之後都不看這個資訊 *追蹤功能,放進我的最愛 *更新統計 售價變動 每日上架 每日下架 接案者要求:一二盡量是同一個人比較方便溝通 接受新手承案否:是,但是我要求的功能要做到 附註: 請問一下版友們,這大概要多少錢呢? 版面不用漂亮,實用順手最重要。像是google那種簡潔的系統就可以。 用這種爬蟲程式會不會被網站banIP位址呢? 感謝 -- -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 111.248.173.234 ※ 編輯: Duofilm 來自: 111.248.173.234 (10/05 12:48)

10/05 12:50, , 1F
用這種爬蟲程式會不會被網站banIP位址呢? <= 可能性極高
10/05 12:50, 1F

10/05 12:52, , 2F
好奇問一下,這種問題就是分散時間上去抓就對了吧...
10/05 12:52, 2F
※ 編輯: Duofilm 來自: 111.248.173.234 (10/05 12:55)

10/05 12:54, , 3F
10/05 12:54, 3F

10/05 12:55, , 4F
最好還要分散ip
10/05 12:55, 4F

10/05 12:57, , 5F
那我加一個^^,防止會被ban IP的問題
10/05 12:57, 5F

10/05 13:57, , 6F
已寄信
10/05 13:57, 6F

10/05 14:23, , 7F
yahoo 有999 error 就是被 banIP啦
10/05 14:23, 7F

10/05 14:24, , 8F
目前收到兩組資訊,因為第一次做這種東西...所以沒辦法
10/05 14:24, 8F

10/05 14:24, , 9F
快速決定
10/05 14:24, 9F

10/06 11:51, , 10F
目前收到三組....
10/06 11:51, 10F

10/06 12:15, , 11F
目前功能一在洽談階段
10/06 12:15, 11F
文章代碼(AID): #1GRcPDM7 (CodeJob)