討論串(共4篇) - [問題] 關於網頁抓取內容 - 看板Python

看板 [ Python ]

討論串[問題] 關於網頁抓取內容

共 4 篇文章

排序：最新先 | 最舊先 | 留言數 | 推文總分

內容預覽：開啟 | 關閉 | 只限未讀

首頁

尾頁

Re: [問題] 關於網頁抓取內容

推噓0(0推 )留言0則，0人參與作者darkch (chang)時間11年前 (2014/09/13 17:11)資訊

內容預覽:

咬光光. import urllib, urllib2. import sys. from lxml.html import fromstring. reload(sys). sys.setdefaultencoding('utf-8'). class http_code:. def __init_

(還有1112個字)

Re: [問題] 關於網頁抓取內容

推噓0(0推 )留言0則，0人參與作者qoofamily (阿祐)時間11年前 (2014/09/13 16:42)資訊

內容預覽:

self.name.append(text). 改成. import re. self.name.append(re.sub('\n','',text)). --. ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.70.186.199. ※ 文章網址: http://www.ptt.c

Re: [問題] 關於網頁抓取內容已刪文

推噓0(0推 )留言0則，0人參與作者Neisseria (Neisseria)時間11年前 (2014/09/01 16:29)資訊

內容預覽:

提供其中一種方法，但是，是用 Perl 的 Mojo::UserAgent 來解決. 當然也可以試著用 Python 的模組來解決，自行參考看看. 想法是用程式來做原本手動做的 HTTP 的動作，在這裡用 POST. 然後將 DOM 樹抓出想要的部分，剩一點點 HTML tag 就用 regex 直

(還有896個字)

Re: [問題] 關於網頁抓取內容

推噓3(3推 )留言23則，0人參與作者uranusjr (←這人是超級笨蛋)時間11年前 (2014/09/01 15:25)資訊

內容預覽:

看得出來你和 Python 很不熟. 不過身為一個寫 C++ 賺飯錢的人. 我必須要先說你變數命名成這樣即使 C++ 也是不及格.... Anyway. 常見的 markup language parser 基本上分兩種. Python 2 內建的 SGMLParser 屬於 SAX parser.

(還有1303個字)

首頁

尾頁