[問題] 如何有效率地學習爬蟲(台灣股市資訊網)?

看板Python作者 (Bunby)時間3年前 (2020/11/01 08:38), 編輯推噓4(4014)
留言18則, 8人參與, 3年前最新討論串1/1
目的: 抓取台灣股市資訊網的資料,不用手動輸入代號,然後選擇個股市況/每月營收/基本資料 /法人買賣超/每月營收/股利/財務報表(單季/年度),然後再複製/貼上到excel上。 註記0:goodinfo預設帶入的月營收,時間排序是從下到上,我想要從上到下。 註記1:goodinfo預設帶入的損益表是「累季」的,我想要選擇「單季」還有「年度」。 註記2:goodinfo預設帶入的格式,時間排序是從右到左,我想要從左到右。 範例檔說明檔下載: https://wsi.li/dl/stNaX7Dqu6JdvhPqK/ 想使用的工具:python或者excel(vba) 使用Python: 優點:套件多,網路資源也多,功能也強大。 缺點:不知道抓取資料後,能不能像excel這樣排好一個個sheet? 使用Excel: 優點:抓取資料後可以直接在上面整理。 缺點:沒有套件,處理網頁資訊可能會讓code變的很複雜。 小弟背景: 會hello world,看的懂簡單的宣告、迴圈、判斷式。 目前遇到的困難: 0. 網路上的資源感覺太過零碎,想請問各位有沒有推薦比較詳細、比較適合初學者, 然後有系統的書? 1. 感覺爬蟲最困難的部分是在處理網頁,請問爬蟲之前要先搞懂一部分的html的架構 嗎? 目前有看到適合的書: Python: 0. Python網路爬蟲:大數據擷取、清洗、儲存與分析:王者歸來 1. Python:網路爬蟲與資料分析入門實戰 VBA: 0. 文科生也學得會的網路爬蟲:Excel VBA + Web Scraper 1. Excel VBA實戰技巧|金融數據x網路爬蟲 註記: 0. 不想花幾千塊買課程,但是可以買幾本書,還是說買課程最快最有效率? 1. 小弟不在乎幾秒的執行效率,只求抓的資訊來源正確無誤。 2. 爬股市資訊可能只是第一步,或許之後可以再往其他的方向邁進。 謝謝各位花時間看這篇文章。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.204.245.22 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1604191120.A.3B2.html

11/01 08:44, 3年前 , 1F
只是要做這種事情根本還不需要買書 網路上資訊拼一拼就
11/01 08:44, 1F

11/01 08:44, 3年前 , 2F
11/01 08:44, 2F

11/01 08:46, 3年前 , 3F
而且看起來你根本就還只是停在想 而沒有開始做。google
11/01 08:46, 3F

11/01 08:46, 3年前 , 4F
一下就找到有人做過了
11/01 08:46, 4F

11/01 08:49, 3年前 , 5F
Goodinfo的東西看起來可以寫code再整理一下格式...開始
11/01 08:49, 5F

11/01 08:49, 3年前 , 6F
動手吧不然永遠學不會
11/01 08:49, 6F

11/01 09:33, 3年前 , 7F
女生我不知道 對男生來說最有效率的方法就是去爬prontub
11/01 09:33, 7F

11/01 09:33, 3年前 , 8F
e
11/01 09:33, 8F

11/01 10:04, 3年前 , 9F
先會寫腳本爬ptt西斯送到mysql,學會了再爬dcard西
11/01 10:04, 9F

11/01 10:04, 3年前 , 10F
斯或104送mysql,都會了學scrapy爬ubereats或京東,
11/01 10:04, 10F

11/01 10:04, 3年前 , 11F
不會的google或看requests文檔,爬一週再考慮找書
11/01 10:04, 11F

11/01 10:04, 3年前 , 12F
或課程
11/01 10:04, 12F

11/01 13:50, 3年前 , 13F
爬O片網站,解析到真實影片位置(可直連的) 會學到很多反
11/01 13:50, 13F

11/01 13:50, 3年前 , 14F
爬跟拆別人API流程的知識
11/01 13:50, 14F

11/01 17:06, 3年前 , 15F
推一樓
11/01 17:06, 15F

11/03 21:29, 3年前 , 16F
一樓誠實
11/03 21:29, 16F

11/04 01:22, 3年前 , 17F
花錢
11/04 01:22, 17F

11/04 07:10, 3年前 , 18F
先動手做做看再說...
11/04 07:10, 18F
文章代碼(AID): #1VdWEGEo (Python)