看板 [ Python ]
討論串[問題] 關於網頁抓取內容
共 4 篇文章
首頁
上一頁
1
下一頁
尾頁

推噓3(3推 0噓 20→)留言23則,0人參與, 最新作者uranusjr (←這人是超級笨蛋)時間9年前 (2014/09/01 23:25), 編輯資訊
0
0
4
內容預覽:
看得出來你和 Python 很不熟. 不過身為一個寫 C++ 賺飯錢的人. 我必須要先說你變數命名成這樣即使 C++ 也是不及格.... Anyway. 常見的 markup language parser 基本上分兩種. Python 2 內建的 SGMLParser 屬於 SAX parser.
(還有1303個字)

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者Neisseria (Neisseria)時間9年前 (2014/09/02 00:29), 編輯資訊
0
0
4
內容預覽:
提供其中一種方法,但是,是用 Perl 的 Mojo::UserAgent 來解決. 當然也可以試著用 Python 的模組來解決,自行參考看看. 想法是用程式來做原本手動做的 HTTP 的動作,在這裡用 POST. 然後將 DOM 樹抓出想要的部分,剩一點點 HTML tag 就用 regex 直
(還有896個字)

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者qoofamily (阿祐)時間9年前 (2014/09/14 00:42), 編輯資訊
0
0
2
內容預覽:
self.name.append(text). 改成. import re. self.name.append(re.sub('\n','',text)). --. 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.70.186.199. 文章網址: http://www.ptt.c

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者darkch (chang)時間9年前 (2014/09/14 01:11), 編輯資訊
0
0
3
內容預覽:
咬光光. import urllib, urllib2. import sys. from lxml.html import fromstring. reload(sys). sys.setdefaultencoding('utf-8'). class http_code:. def __init_
(還有1112個字)
首頁
上一頁
1
下一頁
尾頁