[心得] 小爬蟲實做分享
github網址:
https://github.com/yin-xuanHuang/web_crawler_ptt_gamesale
爬蟲目標是PTT gamesale 板的買賣文,
只要是在白名單的文章分類大部分會爬進去
(文章標題不符會跳過)。
將爬到的資料都用字串存在sqlite資料庫裡,
有用關聯式的資料庫。
還有很大改進的空間,
希望大大能指點。
初學git(大部分在udacity學的)
How to Use Git and GitHub
https://www.udacity.com/course/how-to-use-git-and-github--ud775
初學python(大部分在coursera學的)
Intro to Computer Science (udacity)
https://www.udacity.com/course/intro-to-computer-science--cs101
Python for Everybody Specialization(coursera)
https://www.coursera.org/specializations/python
請多多指教。
有站內信問目標課程,這裡統一回應。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.231.219.77
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1490532104.A.C91.html
→
03/27 08:16, , 1F
03/27 08:16, 1F
你好,
內容有過濾特殊字串,
像是★、空白、大的空白、換行、發文提醒的範例文字,
最後也有過濾"【"、":" --->用這些判斷區間,
像是 "物品名稱" 存字串由":"到下個"【"之間,
內容分:八個區段:
1. 物品名稱
2. 遊戲分級
3. 語系版本
4. 徵求價 or 售價
5. 交易方式
6. 保存狀況
7. 地區
8. 附註
TODO:交換的區段
※ 編輯: yinxuanh (111.253.153.59), 03/27/2017 12:21:42
※ 編輯: yinxuanh (118.170.72.158), 03/30/2017 12:37:13