[問題]中文的斷句存成data.frame

看板R_Language作者 (empireisme)時間4年前 (2020/04/28 01:55), 編輯推噓1(107)
留言8則, 3人參與, 4年前最新討論串1/1
如題 假設我有一段文章 content <- "紐約商業交易所(NYMEX)6月原油期貨5月6日收盤上漲0.31美元或0.5%成為 每桶62.25美元,因伊朗的局勢升溫,歐洲ICE期貨交易所(ICE Futures Europe)近月布 蘭特原油上漲0.39美元或0.6%成為每桶71.24美元。路透社報導,美國正在向中東部署一 個航母打擊群和一個轟炸機特遣部隊,美國代理國防部長稱伊朗政權的威脅是可信的。 卡達半島電視台網站5月5日報導,美國本月起取消對8個經濟體(中國、印度、日本、韓 國、台灣、土耳其、義大利和希臘)購買伊朗石油的豁免,相比去年11月美國對伊朗石油 出口實施制裁的時候允許這些國家在6個月內繼續購買以避免過度影響油價,顯然美國認 為如今油市已經有足夠的供應。美國國務卿蓬佩奧(Mike Pompeo)表示,美國已經與主 要產油國家進行溝通,希望確保油市的供應充足;加上美國國內的產油也在持續增長,這 令美國有信心油市的供應不會匱乏。 不過,實際局勢可能未必如美國所想。目前有多個 產油國家內政動盪並影響產量,包括阿爾及利亞、安哥拉、利比亞、伊朗、奈及利亞與委 內瑞拉,一旦動盪升級,隨時會進一步影響油市供應。此外,伊朗重質原油也並非任何國 家都能替代,遑論美國的輕質原油,與伊朗原油在品質上最為相近的是沙烏地阿拉伯,其 次為阿拉伯聯合大公國。" 我要如何把這段文章去做斷句 存成一個表格 第一列 是第一個句子 紐約商業交易所(NYMEX)6月原油期貨5月6日收盤上漲0.31美元或0.5%成為每桶62.25美 元 第二列 是第二個句子 因伊朗的局勢升溫 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.91.75.186 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1588010158.A.94C.html

04/28 02:40, 4年前 , 1F
regular expression
04/28 02:40, 1F

04/28 02:51, 4年前 , 2F
為什麼要存成表格/dataframe?list不好嗎XD
04/28 02:51, 2F

04/28 02:53, 4年前 , 3F
stringr::str_split(content, regex("[,。]"))
04/28 02:53, 3F

04/28 15:36, 4年前 , 4F
tstrsplit(content,',|。') 會是你要的嗎?~~
04/28 15:36, 4F

04/29 16:48, 4年前 , 5F
謝l大,因為習慣表格xd
04/29 16:48, 5F

04/29 16:48, 4年前 , 6F
c大那不work
04/29 16:48, 6F

04/29 16:48, 4年前 , 7F
即使加了s也一樣喔
04/29 16:48, 7F

04/29 16:56, 4年前 , 8F
我忘了tstrsplit是data.table的,用strsplit功能也一樣
04/29 16:56, 8F
文章代碼(AID): #1UfnokbC (R_Language)