Re: [問題] xpathApply with lapply

看板R_Language作者時間6年前 (2018/05/04 23:11), 6年前編輯推噓3(3015)
留言18則, 2人參與, 6年前最新討論串2/2 (看更多)
library(XML) library(data.table) library(magrittr) #library(purrr) PDF <- xmlTreeParse("ideone_jqS8fo.xml", useInternalNodes=TRUE) pages <- getNodeSet(PDF, "//Page[@number]") words <- sapply(seq_along(pages), function(x) { wx<- getNodeSet(PDF, paste0("//Page[@number='",x,"']/Content/Para/Box/Word")) length(wx) }, simplify = TRUE) out <- rbindlist(list( #rep(xpathApply(PDF, path="//Page", fun= xmlGetAttr, 'number'), each=2), #flatten(mapply(rep, times=words, x=seq_along(pages), USE.NAMES = F)), as.list(do.call(function(x,times) {rep(x,times)}, args=list(x=seq_along(pages), times=words))), xpathApply(PDF, path="//Page/Content/Para/Box/Word/Text", fun= xmlValue), xpathApply(PDF, path="//Page/Content/Para/Box/Word/Box[@*]", fun= xmlAttrs) )) %>% data.table::transpose() #> out V1 V2 V3 V4 V5 1: D1.2 70.87 43.56 94.53 31.56 2: Date 109.17 156.75 131.80 144.75 3: Forms 70.87 43.56 94.53 31.56 4: only 264.74 43.56 286.73 31.56 ######################################### 隨意增加一段Text #> out V1 V2 V3 V4 V5 V6 1: 1 D1.2 70.87 43.56 94.53 31.56 2: 1 Date 109.17 156.75 131.80 144.75 3: 1 MyTry 10.17 15.75 13.80 14.75 4: 2 Forms 70.87 43.56 94.53 31.56 5: 2 only 264.74 43.56 286.73 31.56 ※ 引述《lsshno1 ( )》之銘言: : [問題類型]: : 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來) : [軟體熟悉度]: : 入門(寫過其他程式,只是對語法不熟悉) : [問題敘述]: : 各位前輩好, 我目前手邊有一個xml的檔案, 我想要取出其中的parent跟children node, : merge在一起. : Page(我的parent node)為分頁, 範例中有兩頁. : Text與Box@llx, lly, urx, ury為我的children node. : 我預期我的data.frame為: : Page Text llx lly urx ury : 1 D1.2 70.87 43.56 94.53 31.56 : 1 Date 109.17 156.75 131.80 144.75 : 2 Forms 70.87 43.56 94.53 31.56 : 2 only 264.74 43.56 286.73 31.56 : 目前參考這邊的做法 https://tinyurl.com/ya3yh5cj : 連結的作法為, 取出每個page的node, 並放在list中. : (就範例而言, 會創造出一個list, 其中有兩個element, 分別代表兩個page) : 接著, 利用lapply結合xpathApply, 對每個element取出我要的children node. : 但, 我發現在values這個list中, 她的確有兩個element, : 其中每個elements都是重複page 1 and 2 的資訊. : 如下: : [[1]] [[2]] : D1.2 D1.2 : Date Date : Forms Forms : only only : 煩請各位指教, 謝謝! : 程式碼: https://ideone.com/D2kbyw : 範例檔案: https://ideone.com/jqS8fo -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.45.14.109 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1525446714.A.268.html ※ 編輯: cywhale (114.45.14.109), 05/04/2018 23:16:12

05/05 00:34, 6年前 , 1F
感謝前輩的回覆, 這樣的確可以抓出我的資訊, 但是我之所
05/05 00:34, 1F

05/05 00:35, 6年前 , 2F
會用lapply去包xpathApply, 其實就是因為parent node
05/05 00:35, 2F

05/05 00:36, 6年前 , 3F
如資料, D1.2 and Date 應該屬於 page[@number]=1
05/05 00:36, 3F

05/05 00:37, 6年前 , 4F
Form and only是屬於page number=2, 所以我沒辦法
05/05 00:37, 4F

05/05 00:37, 6年前 , 5F
把Page number與Text and Box[@*]放在一起, 再麻煩各位了
05/05 00:37, 5F
※ 編輯: cywhale (114.45.14.109), 05/05/2018 00:56:56

05/05 00:57, 6年前 , 6F
我沒注意到你還要有page那一欄..我加了,你看看
05/05 00:57, 6F

05/05 01:26, 6年前 , 7F
感謝回覆, 您的做法是抓出number然後用rep去處理, 但是
05/05 01:26, 7F

05/05 01:27, 6年前 , 8F
實際的資料每個page中, 會有不同長度的Text跟Box@
05/05 01:27, 8F

05/05 01:28, 6年前 , 9F
例如page=1時, 可能有15個Text, page=2有20個Text
05/05 01:28, 9F

05/05 01:29, 6年前 , 10F
所以簡單的來說, 我沒有一個merge key把Parent node
05/05 01:29, 10F

05/05 01:29, 6年前 , 11F
merge回到children node (我平常寫SAS, 所以用Merge思考)
05/05 01:29, 11F

05/05 01:30, 6年前 , 12F
之前想要lapply就是想把每個page放到list中, 利用lapply
05/05 01:30, 12F

05/05 01:30, 6年前 , 13F
處理list中每個element (page)
05/05 01:30, 13F
※ 編輯: cywhale (114.45.14.109), 05/05/2018 19:54:55

05/05 19:55, 6年前 , 14F
程式這種事就是這樣囉..改規格..就加幾行..寫下去就對了
05/05 19:55, 14F

05/05 19:57, 6年前 , 15F
mapply+purrr::flattenO應該可以簡化 我隨手寫,參考看看
05/05 19:57, 15F

05/05 20:07, 6年前 , 16F
改了一下..改用do.call
05/05 20:07, 16F
※ 編輯: cywhale (114.45.14.109), 05/05/2018 20:07:38

05/05 20:11, 6年前 , 17F
對了請不要稱前輩,這稱呼太重太老^^,直接call名就好了
05/05 20:11, 17F
※ 編輯: cywhale (114.45.14.109), 05/05/2018 21:39:08

05/05 22:03, 6年前 , 18F
成功了, 太感謝您了!!
05/05 22:03, 18F
文章代碼(AID): #1Qx7Ww9e (R_Language)
文章代碼(AID): #1Qx7Ww9e (R_Language)