[問題] 截取中文字 資料清洗
小弟想要把網路上截取的留言做資料清洗
只留下中文字
在網路上看到以下編碼
#!/usr/bin/env python
# -*- encoding: utf8 -*-
import re
sample = u'I am from 美国。We should be friends. 朋友。'
for n in re.findall(ur'[\u4e00-\u9fff]+',sample):
print n
1.想請問這unicode是只有簡體字的範圍嗎
還是可以改成大五碼嗎
2.有其他推薦方法可以只留下中文字
去處全形標點符號跟表情符號嗎
感謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.137.226.7
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1511276238.A.472.html
推
11/21 23:37,
6年前
, 1F
11/21 23:37, 1F
→
11/21 23:43,
6年前
, 2F
11/21 23:43, 2F
→
11/21 23:43,
6年前
, 3F
11/21 23:43, 3F
→
11/21 23:43,
6年前
, 4F
11/21 23:43, 4F
→
11/22 01:02,
6年前
, 5F
11/22 01:02, 5F
→
11/22 01:54,
6年前
, 6F
11/22 01:54, 6F
推
11/22 17:52,
6年前
, 7F
11/22 17:52, 7F
推
11/22 18:12,
6年前
, 8F
11/22 18:12, 8F
推
11/22 18:15,
6年前
, 9F
11/22 18:15, 9F
推
11/22 23:22,
6年前
, 10F
11/22 23:22, 10F
推
11/23 04:24,
6年前
, 11F
11/23 04:24, 11F
→
11/23 04:25,
6年前
, 12F
11/23 04:25, 12F
→
11/23 04:26,
6年前
, 13F
11/23 04:26, 13F
→
11/23 04:26,
6年前
, 14F
11/23 04:26, 14F
→
11/23 04:27,
6年前
, 15F
11/23 04:27, 15F
→
11/23 11:01,
6年前
, 16F
11/23 11:01, 16F
→
11/23 11:01,
6年前
, 17F
11/23 11:01, 17F
→
11/23 11:01,
6年前
, 18F
11/23 11:01, 18F
推
11/23 16:44,
6年前
, 19F
11/23 16:44, 19F
推
11/23 16:51,
6年前
, 20F
11/23 16:51, 20F
推
11/23 16:53,
6年前
, 21F
11/23 16:53, 21F
→
11/24 11:05,
6年前
, 22F
11/24 11:05, 22F
推
11/24 15:04,
6年前
, 23F
11/24 15:04, 23F
→
11/24 15:04,
6年前
, 24F
11/24 15:04, 24F