[問題] youtube影片爬蟲問題
如題 最近想用爬蟲做個youtube影片下載器
靈感來源是http://kej.tw/flvretriever/ 這個YOUTUBE下載網站
步驟是先貼上網址,然後下載一個影片info
然後把info裡面的內容貼上網頁給網頁分析出連結
影片info裡面大概就是就是從某個網址request回來的內容
影片實體連結是url_encoded_fmt_stream_map之後的url=video_real_link
隨便舉一個影片的連結
大概長這樣
https://r6---sn-3cu-3iie.googlevideo.com/videoplayback?lmt=1458XXXX.....(下略
縮:https://goo.gl/L8ug5f
點進去是個真實的影片連結
所以上實作(Python 2.7):
import requests,re,urlparse,shutil
link = "https://www.youtube.com/watch?v=qQ7g1tfEGFc"
res = requests.get(link).text
co = re.compile('"url_encoded_fmt_stream_map":"(.*?),"fade')
m = co.search(res)
url_all = m.group(1).decode('unicode_escape')
a = urlparse.parse_qs(url_all)
print a['url']
不過這邊取得的影片連結就不對了
=>
https://r6---sn-3cu-3iie.googlevideo.com/videoplayback?key=yt6&XXXXX
縮:https://goo.gl/vbZVeB
然後直接對瀏覽器丟這個網址會出現403
感覺上就是沒有抓到影片的真實位置
問題應該有2個可能
1.一開始跟原影片網址要request時的Header資訊
2.不該跟原始網址要request,而是其他網址(api之類的)
還請前輩們指教 感謝~~
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.68.10.154
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1496684369.A.5F3.html
※ 編輯: neil987 (219.68.10.154), 06/06/2017 01:43:10
→
06/06 02:24, , 1F
06/06 02:24, 1F
→
06/06 10:25, , 2F
06/06 10:25, 2F
推
06/06 10:41, , 3F
06/06 10:41, 3F
→
06/06 10:42, , 4F
06/06 10:42, 4F
→
06/06 13:57, , 5F
06/06 13:57, 5F
→
06/06 14:25, , 6F
06/06 14:25, 6F
→
06/06 14:26, , 7F
06/06 14:26, 7F
→
06/06 14:45, , 8F
06/06 14:45, 8F
推
06/06 15:03, , 9F
06/06 15:03, 9F
→
06/06 15:09, , 10F
06/06 15:09, 10F
→
06/06 15:16, , 11F
06/06 15:16, 11F
推
06/06 15:17, , 12F
06/06 15:17, 12F
→
06/06 15:17, , 13F
06/06 15:17, 13F
→
06/06 15:21, , 14F
06/06 15:21, 14F
→
06/07 08:24, , 15F
06/07 08:24, 15F
推
06/07 12:51, , 16F
06/07 12:51, 16F
討論串 (同標題文章)