[程式] R 字串比對問題

看板Statistics作者 (夜很深)時間12年前 (2013/03/25 18:30), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串1/2 (看更多)
------------------------------------------------------------------------ [軟體程式類別]: R [程式問題]: 資料處理 [軟體熟悉度]: 低(1~3個月) [問題敘述]: 各位好,我想要處理的問題,是去比對兩組新舊的資料,找出新增的部分 我盡量描述我的資料格式,希望大家可以了解 Old Data New Data name Description name Description Tom John happy hungry energy Kate greedy,lazy,evil Mary pretty cute funny Tom happy,kind Kate greedy lazy John hungry,energy,angry,crazy Cindy sunny Mary pretty,cute Jack nice,stupid Alan funny,shy,stupid 兩欄之間是以TAB作分隔 在name欄中 舊資料與新資料的差異是在同一列中,舊資料會同時有兩個名字 新資料則是拆開成兩列,且新資料會有多的人名 在 Description欄中,舊資料是以空白作分隔,新資料是逗點;且同一人名新資料 會多或少一些描述 現在我的目標是產生一個新檔案 以新的資料人名為主。舊資料有,新資料沒有的人名,不要。 以新資料的人名,去比較新與舊的描述,只要新的描述。舊的有,新的沒有也不要 並且以空白作分隔 以上述例子,結果會變成 name Discription Kate evil Tom kind John angry crazy Mary Jack nice stupid Alan funny shy stupid 我現在的想法是說 把新舊資料設為matrix 將先將舊資料與新資料作match,找出舊資料的index, 再依此index對相對應的Discription作處理 match(new[,1],old[,1]) 但是此時會產生一個問題,就是在舊資料的 Tom John 這筆資料 無法被新資料match到,所以我猜match是精準比對? 有無辦法變成部分比對或模糊比對?或者有更好的方式 再來就是Discription的部分,我是想找到index後,將相對應的新舊資料 再做一次比對,然後取代回新資料。可是這種類似取差集的的過程,有沒有 適當的函式可以操作。另外,我也不太懂要如何將資料matrix中的元素 以逗號和空白拆開,讓我可以做比對 不知各位有沒有其他的想法,文長抱歉 [程式範例]: 雖然張貼程式很可怕,但基本上有些程式還是要張貼才能解決 ----------------------------------------------------------------------------- -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 211.76.175.169 ※ 編輯: windguide 來自: 211.76.175.169 (03/25 18:33)
文章代碼(AID): #1HK2TTXv (Statistics)
文章代碼(AID): #1HK2TTXv (Statistics)