[詢問] IMPORTXML&HTML 限制問題

看板Google作者 (wow)時間2年前 (2021/08/02 02:22), 編輯推噓3(309)
留言12則, 3人參與, 2年前最新討論串1/1
Hi ALL 小弟最近想做個資料分析,想抓一些yahoo 上的新聞回來分析 目前想用這個網址 https://tw.news.yahoo.com/world 所以有幾個問題,想請問 1. importxml 好像有網址長度的限制, 有什方式可解決? 系統說:指定網址內容的資源超出大小上限。 https://imgur.com/QpjwYsD
2. importxml or importhtml 有什辦法可取得資料時又同時取得網址? 又或者有什其它參數or 工具可取得? https://imgur.com/ynz7L5x
3. importhtml 會只抓第一頁資料,有什方式可以讓它也會向下滾動, 可以去抓第二頁以上的資料? 像是https://tw.news.yahoo.com/world,他預設只能顯示一頁資料,可 必需要偵測到下滾的動作,才會顯示第二頁的資料。 4. importxml or importhtml抓的資料,會同一格去顯示多行的資料,有什 指令可以讓他切成多行? 請多指教,謝謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.99.151 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Google/M.1627842154.A.2C0.html

08/02 09:08, 2年前 , 1F
1. 超出大小的是網頁內容,不是網址
08/02 09:08, 1F

08/02 09:10, 2年前 , 2F
2. 用 XPath 自行篩選出超連結的 href 屬性
08/02 09:10, 2F

08/02 09:18, 2年前 , 3F
3. 這種動態載入的網頁,要去找背後 XHR 的網址跟參數
08/02 09:18, 3F

08/02 09:18, 2年前 , 4F
然後再用該網址跟參數去抓資料
08/02 09:18, 4F

08/02 20:06, 2年前 , 5F
考慮用傳統程式語言的方式去解決吧,不然 AppSheet 也好
08/02 20:06, 5F

08/02 20:08, 2年前 , 6F
ㄟ等等,不是 AppSheet,我是說指令碼編輯器..
08/02 20:08, 6F

08/02 23:34, 2年前 , 7F
感謝兩位,偶會把他寫成AppScript,只是XHR還找不到範例
08/02 23:34, 7F

08/02 23:36, 2年前 , 8F
還不清楚要怎看XHR的網址跟參數
08/02 23:36, 8F

08/03 05:45, 2年前 , 9F
最直接的方式就是用 Chrome DevTool 看 network
08/03 05:45, 9F

08/03 05:47, 2年前 , 10F
最保險的方式是從上面的方式再去追 source code 怎麼寫
08/03 05:47, 10F

08/03 05:48, 2年前 , 11F
但是有很高的機率不是你想像的那樣,除非 importXXX
08/03 05:48, 11F

08/03 05:48, 2年前 , 12F
不是我想像的那樣 XDDDD(謎之聲:哪樣?)
08/03 05:48, 12F
文章代碼(AID): #1X1kPgB0 (Google)