Re: an94mod0 : 備份網站找不到了
: 推 emptie: 屁啦 一大堆純文字的東西最好會影響效能 07/03 14:21
: → emptie: but站方有限制爬蟲短時間能存取的數量就是了,你爬太快有 07/03 14:22
: → emptie: 機會被auto ban 07/03 14:22
: → emptie: 那樣備份網站可能就要多開幾隻帳號來爬 很不方便 07/03 14:23
我不認為備份網站是用 PTT 帳號在爬的
應該是去爬網頁板,原因有以下幾個
1. 控制碼
首先可以觀察到,備份站是沒有控制碼的。
如果是用帳號在爬的話,有控制碼的文章就會出現他的帳號名稱。
PiTT 的作法是偵測到這個頁面有在用控制碼(右下角會顯示)就改成純文字模式,
所以如果用 PiTT 你會發現有控制碼的文章一定是全白色的,即使作者有用顏色。
但純文字模式下ID控制碼會變成 **s,也並非完全消失
當然他可以取一個亂碼ID然後直接取代掉,不過感覺起來還是直接爬網頁板比較方便
2. 文章編號
例如以下形式 #12345678 (NoSuchBoard)
可以發現備份網站的文章編號是可以連到相應的文章的
如果是爬網頁板的話很簡單,因為網頁板直接就提供連結了 (<a href=...>)
把網域改了就好了
但如果是用帳號去爬的話,就得自己去偵測哪裡有文章編號
還要自己從文章編號轉成網址,有點吃力不討好
3. ???
525的這篇文章: #1YiVstLH (Marginalman)
https://www.ptt.cc/bbs/Marginalman/M.1655831991.A.551.html
我也不知道原因,可是我不管用 term.ptt.cc 還是各種 app
都會顯示一堆 胬胬胬胬胬胬胬胬胬胬胬胬胬胬胬胬胬
而網頁板不知道為什麼就沒有,且備份站也沒有
所以我覺得備份站應該是爬網頁板而不是自己用帳號爬的
--
https://i.imgur.com/lGiFkH9.png

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.198.173.41 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Marginalman/M.1656845472.A.3D6.html
推
07/03 18:54,
3年前
, 1F
07/03 18:54, 1F
→
07/03 18:55,
3年前
, 2F
07/03 18:55, 2F
推
07/03 18:57,
3年前
, 3F
07/03 18:57, 3F
推
07/03 18:57,
3年前
, 4F
07/03 18:57, 4F
→
07/03 18:57,
3年前
, 5F
07/03 18:57, 5F
→
07/03 18:58,
3年前
, 6F
07/03 18:58, 6F
推
07/03 19:04,
3年前
, 7F
07/03 19:04, 7F
推
07/03 19:07,
3年前
, 8F
07/03 19:07, 8F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 12 之 14 篇):