[討論] 請教中文處理

看板Python作者 (鬼接TU\)時間12年前 (2013/04/04 11:30), 編輯推噓0(004)
留言4則, 3人參與, 最新討論串1/1
最近幫中文系老師處理編書工作,想順便練習python 想寫一個程式來這樣作: 抓取中文字(char),判斷字的部首及筆畫 例如: 我-戈部-7劃 研究中文字的產生規範,中文內碼並無記載部首和筆畫資訊 所以必須有現成的「字-部首-筆畫」對照表 很遺憾,目前教育部推出的各式線上字辭典 似乎沒有一個線上字典有做到「字-部首-筆畫」這樣的功能 在中國網站找到一個「漢典」線上字典,網址 http://zdic.net 有「字-部首-筆畫-首字拼音-五筆檢字」等資料! (太汗顏了,中國的一個非官方站做的功能還比較齊全) 但目前問題是,這網站不提供raw data,亦無api 所以若要達到前面所提功能,想到以下作法 一、 找到一個現成的字典檔,有「字-部首-筆畫」對照表: 這樣由程式讀取後比對即可 二、 利用urllib模擬browser, 把要查詢的字送出去,再比對查詢結果: 這可能會有效能上的問題,會比較慢 三、 寫一個爬蟲程式,把 http://zdic.net上的資料都爬回來,整理成一個字典檔: 我對爬蟲不太熟,大概了解爬蟲會先找頁面內的url整理成列表 再依續爬url內的url, 不斷地遞迴 我找到的初步資訊像這樣: 查詢「我」這個字,其送回的url http://www.zdic.net/zd/zi/ZdicE6Zdic88Zdic91.htm 把「我」這個字的utf8內碼「E68891」藏在URL內 似乎可以從這裡開始爬整個utf8碼定義的中文字範圍 ? 以上大概是我目前想到的辦法, 請各位大大不吝提出意見 看看是否有更好的作法或是solution 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.112.230.209 ※ 編輯: Gjoy 來自: 140.112.230.209 (04/04 19:38)

04/04 21:45, , 1F
全字庫有資料可以申請
04/04 21:45, 1F

04/05 01:59, , 2F
pyUnihan:http://ppt.cc/mx8w 從unihan資料庫做的
04/05 01:59, 2F

04/05 01:59, , 3F
還有看到一個cjklib: http://ppt.cc/RLy~
04/05 01:59, 3F

04/05 04:15, , 4F
感謝你啊,幫了大忙!
04/05 04:15, 4F
文章代碼(AID): #1HNMG-qg (Python)