[心得] 小爬蟲實做分享

看板Python作者 (飄飄然)時間7年前 (2017/03/26 20:41), 7年前編輯推噓0(001)
留言1則, 1人參與, 最新討論串1/1
github網址: https://github.com/yin-xuanHuang/web_crawler_ptt_gamesale 爬蟲目標是PTT gamesale 板的買賣文, 只要是在白名單的文章分類大部分會爬進去 (文章標題不符會跳過)。 將爬到的資料都用字串存在sqlite資料庫裡, 有用關聯式的資料庫。 還有很大改進的空間, 希望大大能指點。 初學git(大部分在udacity學的) How to Use Git and GitHub https://www.udacity.com/course/how-to-use-git-and-github--ud775 初學python(大部分在coursera學的) Intro to Computer Science (udacity) https://www.udacity.com/course/intro-to-computer-science--cs101 Python for Everybody Specialization(coursera) https://www.coursera.org/specializations/python 請多多指教。 有站內信問目標課程,這裡統一回應。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.231.219.77 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1490532104.A.C91.html

03/27 08:16, , 1F
比較好奇你是整篇文章存 還是有過濾特殊字串?
03/27 08:16, 1F
你好, 內容有過濾特殊字串, 像是★、空白、大的空白、換行、發文提醒的範例文字, 最後也有過濾"【"、":" --->用這些判斷區間, 像是 "物品名稱" 存字串由":"到下個"【"之間, 內容分:八個區段: 1. 物品名稱 2. 遊戲分級 3. 語系版本 4. 徵求價 or 售價 5. 交易方式 6. 保存狀況 7. 地區 8. 附註 TODO:交換的區段 ※ 編輯: yinxuanh (111.253.153.59), 03/27/2017 12:21:42 ※ 編輯: yinxuanh (118.170.72.158), 03/30/2017 12:37:13
文章代碼(AID): #1OrxS8oH (Python)