[問題] 請問python3.0怎麼去除半型全型標點符號

看板Python作者 (ptero)時間9年前 (2015/04/05 20:46), 編輯推噓2(2011)
留言13則, 5人參與, 最新討論串1/1
由於中文資料中會有全形半型標點混雜使用,而且也太多種難以列舉。 想問有沒有比較聰明的方法解決。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.163.50.199 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1428238007.A.57C.html

04/05 21:44, , 1F
ASCII code?
04/05 21:44, 1F

04/05 21:53, , 2F
用replace,把全形通通轉成半形
04/05 21:53, 2F

04/05 22:00, , 3F
utf-8。 replace 有能一次把全部全型轉半行型的方法?
04/05 22:00, 3F

04/05 23:23, , 4F

04/05 23:24, , 5F
去算 codepoint 蠻容易炸的,用 dict 列舉比較保險
04/05 23:24, 5F

04/05 23:25, , 6F
上面那個 code 要再調整,吃到 ',' 和 '「」' 都有問題
04/05 23:25, 6F

04/05 23:30, , 8F
可以搭配 unicodedata.east_asian_width 去判算字寬
04/05 23:30, 8F

04/05 23:33, , 9F
0x3000 是 ideographic space, 真正的全型空白其實確實
04/05 23:33, 9F

04/05 23:34, , 10F
有和其他字元連在一起, 是 0xff00; 這種轉換其實除了
04/05 23:34, 10F

04/05 23:34, , 11F
上面的全半形對應外真的沒有特別好的方法, 不如列舉
04/05 23:34, 11F

04/05 23:36, , 12F
沒事別亂捅 Unicode 這螞蜂窩, 不然怎麼死的都不知道
04/05 23:36, 12F

04/06 12:14, , 13F
感謝
04/06 12:14, 13F
文章代碼(AID): #1L8IwtLy (Python)