[問題] R 語言讀取序列資料

看板R_Language作者 (把渚送上本壘吧!)時間7年前 (2017/06/05 09:48), 7年前編輯推噓0(007)
留言7則, 2人參與, 最新討論串1/1
[問題類型]: R 語言讀取長短不一的序列資料問題 [軟體熟悉度]: 入門(對 R 語法不太熟悉) [問題敘述]: 目前想讀取 22 萬筆序列資料(input.csv)如下格式: a,b,c,a,gcc,aka,c,t a,b,c,g,gcc,a,nv,qc,c,ntt,ntt1,ntt2,g,ncc,nv a,sgt,c,a,org,com,ggc,bbc,qc,c,b,ncc,gov,gov,gov,ntt1,ntt2,fb,app,la,d,e,fb,fe t, a,b,c,a,gcc,d,sgt,c,fet,1394,1394,1394,fet,fet,org a,sgt,c,org ... 每一筆資料長短不同,最長為 10,143 個項目;最短 2 個項目。 如果直接用 read.csv 或 read.table 讀取的話無法將全部的數列儲存為 data.frame, 最大只有 71 行,另外就是原本同一行的資料會被拆成 2 行。 > dim(input) [1] 210220 71 # 只能讀 71 行,且資料少 48,333 筆 > view(input) 57 a b a c c c 1394 c c c org c c c c 1394 .. . 58 skt skt skt skt # 57, 58 在原始資料為同一筆(列) 想請問有沒有更好的資料讀取方式? 後續想接 seqHMM 建立隱馬可夫模型, seqHMM 會呼叫 seqdef {TraMineR} 將 data.fra me 轉換成模型的輸入格式 謝謝各位前輩的幫忙。感謝 =) -- Sent from my Windows -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.136.186.27 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1496627319.A.360.html ※ 編輯: ariainaqua (114.136.186.27), 06/05/2017 09:54:07 ※ 編輯: ariainaqua (114.136.186.27), 06/05/2017 09:58:32 ※ 編輯: ariainaqua (114.136.186.27), 06/05/2017 10:06:50

06/05 11:18, , 1F
Try two package: text2vec or FeatureHashing
06/05 11:18, 1F

06/05 20:14, , 2F
謝謝 Wush 的建議,只是轉換成特徵向量是不是就不適合
06/05 20:14, 2F

06/05 20:15, , 3F
使用 HMM 了?
06/05 20:15, 3F

06/06 00:06, , 4F
我不知道耶,要看你HMM的實做了
06/06 00:06, 4F

06/06 00:06, , 5F
不然就用strsplit硬幹,或是寫Rcpp在C++裡面處理
06/06 00:06, 5F

06/06 00:53, , 6F
喔喔!原來使用 text2vec 的 ifiles 就可以了,太感
06/06 00:53, 6F

06/06 00:53, , 7F
謝了 =)
06/06 00:53, 7F
文章代碼(AID): #1PDBXtDW (R_Language)