[問題] 截取中文字資料清洗

看板Python作者Pear888 (皮爾掰)時間8年前 (2017/11/21 22:57)推噓10(10推 0噓 14→)

留言24則, 6人參與討論串1/1

小弟想要把網路上截取的留言做資料清洗只留下中文字在網路上看到以下編碼 #!/usr/bin/env python # -*- encoding: utf8 -*- import re sample = u'I am from 美国。We should be friends. 朋友。' for n in re.findall(ur'[\u4e00-\u9fff]+',sample): print n 1.想請問這unicode是只有簡體字的範圍嗎還是可以改成大五碼嗎 2.有其他推薦方法可以只留下中文字去處全形標點符號跟表情符號嗎感謝！ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.137.226.7 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1511276238.A.472.html

推

11/21 23:37, 8年前 , 1^F

11/21 23:37, 1^F

→

11/21 23:43, 8年前 , 2^F

11/21 23:43, 2^F

→

11/21 23:43, 8年前 , 3^F

11/21 23:43, 3^F

→

11/21 23:43, 8年前 , 4^F

11/21 23:43, 4^F

→

11/22 01:02, 8年前 , 5^F

11/22 01:02, 5^F

→

11/22 01:54, 8年前 , 6^F

11/22 01:54, 6^F

推

11/22 17:52, 8年前 , 7^F

11/22 17:52, 7^F

推

11/22 18:12, 8年前 , 8^F

11/22 18:12, 8^F

推

11/22 18:15, 8年前 , 9^F

11/22 18:15, 9^F

推

11/22 23:22, 8年前 , 10^F

11/22 23:22, 10^F

推

11/23 04:24, 8年前 , 11^F

11/23 04:24, 11^F

→

11/23 04:25, 8年前 , 12^F

11/23 04:25, 12^F

→

11/23 04:26, 8年前 , 13^F

11/23 04:26, 13^F

→

11/23 04:26, 8年前 , 14^F

11/23 04:26, 14^F

→

11/23 04:27, 8年前 , 15^F

11/23 04:27, 15^F

→

11/23 11:01, 8年前 , 16^F

11/23 11:01, 16^F

→

11/23 11:01, 8年前 , 17^F

11/23 11:01, 17^F

→

11/23 11:01, 8年前 , 18^F

11/23 11:01, 18^F

推

11/23 16:44, 8年前 , 19^F

11/23 16:44, 19^F

推

11/23 16:51, 8年前 , 20^F

11/23 16:51, 20^F

推

11/23 16:53, 8年前 , 21^F

11/23 16:53, 21^F

→

11/24 11:05, 8年前 , 22^F

11/24 11:05, 22^F

推

11/24 15:04, 8年前 , 23^F

11/24 15:04, 23^F

→

11/24 15:04, 8年前 , 24^F

11/24 15:04, 24^F

‣ 返回看板[ Python ] 程設

‣ 更多 Pear888 的文章

文章代碼(AID): #1Q53xEHo (Python)