[問題] 大量網頁的特定文字截取?

看板Python作者 (陰天)時間13年前 (2011/05/29 18:56), 編輯推噓0(0015)
留言15則, 3人參與, 最新討論串1/1
我真的是一個超新手的初學者 沒有寫程式的經驗,但為了論文需要截取某網頁上的資料(公開資料) 我現在有兩個問題 第一,目前看到截取網頁都是在同一頁內截取 但我需要所有http://xxx.xxx.xxx?ID=XXXXX的所有網頁內容 也就是所有id的網頁都需要,但id並不是連續數字,是網頁的名稱 該如何截取呢?大約有二千頁,我需要一些關鍵字 第二,我只是要裡面三段文字, 可以有個指令是下"我只要以下三個中文字+它們後方的資料"即可? 軟體名稱:____ 下載次數:____ 軟體價格:___ 然後下載成一個excel檔,就整理成:軟體名稱|下載次數|軟體價格的列表 不曉得這樣截取會太暴力而被擋嗎? 希望有個指引可以讓我完成它,先跟大家說聲謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 114.27.212.83

05/29 19:05, , 1F
會不會太暴力要看那個網站的伺服器設定
05/29 19:05, 1F

05/29 19:07, , 2F
最簡單的方法是把網頁內容讀進成一個 string 後, 用 find
05/29 19:07, 2F

05/29 19:07, , 3F
找到你想要的中文字, 然後擷取後面的資料(要截到哪邊看
05/29 19:07, 3F

05/29 19:08, , 4F
需求而定), 參考 http://goo.gl/3FGB
05/29 19:08, 4F

05/29 21:55, , 5F
我現在還是不曉的要怎麼多個網頁讀入?而且是非連續數
05/29 21:55, 5F

05/29 21:55, , 6F
但我已經可以載入檔案~謝謝u大
05/29 21:55, 6F

05/29 22:15, , 7F
雖然不連續, 不過有什麼規則嗎?
05/29 22:15, 7F

05/29 22:17, , 8F
沒有規則耶,就是依軟體名稱取的,都是英文字這樣
05/29 22:17, 8F

05/29 22:53, , 9F
寫一個list 然後一個一個來?
05/29 22:53, 9F

05/30 00:12, , 10F
有可能程式去判斷只要是http:XXX.XXX?id=的字樣全下載嗎
05/30 00:12, 10F

05/30 00:36, , 11F
可是沒辦法知道那個伺服器上面究竟有哪些檔案啊...
05/30 00:36, 11F

05/30 00:36, , 12F
除非你要像猜金庫密碼一樣一個一個試XD
05/30 00:36, 12F

05/30 00:41, , 13F
那個網址格式很明顯是用 GET 在送的, 如果沒有 server 端
05/30 00:41, 13F

05/30 00:42, , 14F
的資訊根本沒辦法知道要送什麼進去才會正確...
05/30 00:42, 14F

05/30 00:49, , 15F
對阿(苦笑...)看來真的要去寫list了XD
05/30 00:49, 15F
文章代碼(AID): #1DuYPxBP (Python)