Re: an94mod0 : 備份網站找不到了

看板Marginalman作者 (後悔なんてあるわけない)時間3年前 (2022/07/03 18:51), 編輯推噓5(503)
留言8則, 7人參與, 3年前最新討論串12/14 (看更多)
: 推 emptie: 屁啦 一大堆純文字的東西最好會影響效能 07/03 14:21 : → emptie: but站方有限制爬蟲短時間能存取的數量就是了,你爬太快有 07/03 14:22 : → emptie: 機會被auto ban 07/03 14:22 : → emptie: 那樣備份網站可能就要多開幾隻帳號來爬 很不方便 07/03 14:23 我不認為備份網站是用 PTT 帳號在爬的 應該是去爬網頁板,原因有以下幾個 1. 控制碼 首先可以觀察到,備份站是沒有控制碼的。 如果是用帳號在爬的話,有控制碼的文章就會出現他的帳號名稱。 PiTT 的作法是偵測到這個頁面有在用控制碼(右下角會顯示)就改成純文字模式, 所以如果用 PiTT 你會發現有控制碼的文章一定是全白色的,即使作者有用顏色。 但純文字模式下ID控制碼會變成 **s,也並非完全消失 當然他可以取一個亂碼ID然後直接取代掉,不過感覺起來還是直接爬網頁板比較方便 2. 文章編號 例如以下形式 #12345678 (NoSuchBoard) 可以發現備份網站的文章編號是可以連到相應的文章的 如果是爬網頁板的話很簡單,因為網頁板直接就提供連結了 (<a href=...>) 把網域改了就好了 但如果是用帳號去爬的話,就得自己去偵測哪裡有文章編號 還要自己從文章編號轉成網址,有點吃力不討好 3. ??? 525的這篇文章: #1YiVstLH (Marginalman) https://www.ptt.cc/bbs/Marginalman/M.1655831991.A.551.html 我也不知道原因,可是我不管用 term.ptt.cc 還是各種 app 都會顯示一堆 胬胬胬胬胬胬胬胬胬胬胬胬胬胬胬胬胬 而網頁板不知道為什麼就沒有,且備份站也沒有 所以我覺得備份站應該是爬網頁板而不是自己用帳號爬的 -- https://i.imgur.com/lGiFkH9.png
-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.198.173.41 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Marginalman/M.1656845472.A.3D6.html

07/03 18:54, 3年前 , 1F
所以還是沒結論
07/03 18:54, 1F

07/03 18:55, 3年前 , 2F
大師
07/03 18:55, 2F

07/03 18:57, 3年前 , 3F
胬胬胬胬胬胬胬胬胬胬胬胬胬胬胬
07/03 18:57, 3F

07/03 18:57, 3年前 , 4F
3好神奇
07/03 18:57, 4F

07/03 18:57, 3年前 , 5F
525那篇顯示沒問題
07/03 18:57, 5F

07/03 18:58, 3年前 , 6F
我的pttstar會有很多 胬
07/03 18:58, 6F

07/03 19:04, 3年前 , 7F
大師
07/03 19:04, 7F

07/03 19:07, 3年前 , 8F
大師
07/03 19:07, 8F
文章代碼(AID): #1YmNIWFM (Marginalman)
討論串 (同標題文章)
文章代碼(AID): #1YmNIWFM (Marginalman)