[問題] Rselenium操作chrome爬取IE限定網頁問題

看板R_Language作者 (P)時間3年前 (2020/06/17 09:39), 3年前編輯推噓3(306)
留言9則, 3人參與, 3年前最新討論串1/1
[問題類型]: 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來) [軟體熟悉度]: 使用者(已經有用R 做過不少作品) [問題敘述]: 情境1: 我想要抓取某個只能限定IE開啟的網頁。 狀況大體上是用IE開的話可以看到html下面有head>div>table等等,我想要抓table裡的 元素。 但是用chrome開的話只能看到head,下面就都沒有東西了。 情境2: 因為是公司的電腦有權限問題,我無法安裝IE的driver。 情境3: Google driver可以安裝,我可以用Rselenium啟動chrome爬取網頁。 情境4: 我已嘗試在Chrome上安裝附加元件IE-tab,並使用Rselenium開啟。但由於IE-tab是模擬 器的關係,我無法抓取用IE-tab所顯示的網頁元素。 問題: 請問有什麼方法可以突破這個難關? 或者有什麼其他的方式與思路可以讓我使用chrome爬取IE限定網站,想請各位版大開示一 下…… 2020/6/20更新 發現好像是因為該網頁只能使用IE文件模式7和8,而非瀏覽器模式的問題。 不曉得Chrome有沒有辦法更改文件模式? [關鍵字]: Rselenium -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 27.52.193.11 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1592357987.A.8D4.html

06/17 17:30, 3年前 , 1F
不然不要用R爬用python爬可以嗎
06/17 17:30, 1F
嘗試過了,但公司電腦不給裝Python……QAQ

06/17 18:07, 3年前 , 2F
IE限定是怎麼個限定法?連HTML都不給嗎?
06/17 18:07, 2F
因為是不能外傳的網頁,不好意思。 IE限定大概是用IE開的話可以看到html下面有head>div>table等等,我想抓table裡的元 素。 但是chrome開的話只能看到head,下面就都沒東西了。

06/17 19:57, 3年前 , 3F
限定用IE開是因為和有ActiveX的元件還是server有方式辨
06/17 19:57, 3F

06/17 19:57, 3年前 , 4F
識client端採用chrome而block呢? 如果是透過user-agent
06/17 19:57, 4F

06/17 19:57, 3年前 , 5F
來block 其他瀏覽器可以嘗試去改chrome的user agent 或
06/17 19:57, 5F

06/17 19:57, 3年前 , 6F
是 Window name來避開XD
06/17 19:57, 6F
個人感覺應該是元件的問題。 因為我也嘗試用了不同瀏覽器(火狐、或是用chrome 裝其他擴充元件),甚至IE本身,該 網站只有IE7跟IE8能顯示網站內容,用IE9以上一樣無法顯示。 ※ 編輯: nico831116 (27.52.193.11 臺灣), 06/18/2020 11:22:53 ※ 編輯: nico831116 (27.52.193.11 臺灣), 06/18/2020 11:38:54 ※ 編輯: nico831116 (27.52.193.11 臺灣), 06/18/2020 11:45:18

06/18 15:23, 3年前 , 7F
非IE但改過user-agent偽裝IE6/7也不行嗎?
06/18 15:23, 7F
好像UA沒辦法,我試過Chrome裝User-Agent Switcher,也嘗試直接從Chrome的設定偽裝 成IE7,但都無法顯示出我要的內容。 ※ 編輯: nico831116 (27.52.193.11 臺灣), 06/19/2020 13:44:45

06/19 13:55, 3年前 , 8F
這就苦手了... 我自己也沒聽說過怎麼處理IE only問題
06/19 13:55, 8F
※ 編輯: nico831116 (27.52.193.11 臺灣), 06/20/2020 10:53:02

06/20 18:51, 3年前 , 9F
透過wdman package 的 IE driver 有辦法嗎
06/20 18:51, 9F
文章代碼(AID): #1UwNHZZK (R_Language)