[討論] 請教中文處理
最近幫中文系老師處理編書工作,想順便練習python
想寫一個程式來這樣作:
抓取中文字(char),判斷字的部首及筆畫
例如: 我-戈部-7劃
研究中文字的產生規範,中文內碼並無記載部首和筆畫資訊
所以必須有現成的「字-部首-筆畫」對照表
很遺憾,目前教育部推出的各式線上字辭典
似乎沒有一個線上字典有做到「字-部首-筆畫」這樣的功能
在中國網站找到一個「漢典」線上字典,網址 http://zdic.net
有「字-部首-筆畫-首字拼音-五筆檢字」等資料!
(太汗顏了,中國的一個非官方站做的功能還比較齊全)
但目前問題是,這網站不提供raw data,亦無api
所以若要達到前面所提功能,想到以下作法
一、 找到一個現成的字典檔,有「字-部首-筆畫」對照表:
這樣由程式讀取後比對即可
二、 利用urllib模擬browser, 把要查詢的字送出去,再比對查詢結果:
這可能會有效能上的問題,會比較慢
三、 寫一個爬蟲程式,把 http://zdic.net上的資料都爬回來,整理成一個字典檔:
我對爬蟲不太熟,大概了解爬蟲會先找頁面內的url整理成列表
再依續爬url內的url, 不斷地遞迴
我找到的初步資訊像這樣:
查詢「我」這個字,其送回的url
http://www.zdic.net/zd/zi/ZdicE6Zdic88Zdic91.htm
把「我」這個字的utf8內碼「E68891」藏在URL內
似乎可以從這裡開始爬整個utf8碼定義的中文字範圍 ?
以上大概是我目前想到的辦法,
請各位大大不吝提出意見
看看是否有更好的作法或是solution
謝謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.230.209
※ 編輯: Gjoy 來自: 140.112.230.209 (04/04 19:38)
→
04/04 21:45, , 1F
04/04 21:45, 1F
→
04/05 01:59, , 2F
04/05 01:59, 2F
→
04/05 01:59, , 3F
04/05 01:59, 3F
→
04/05 04:15, , 4F
04/05 04:15, 4F