[討論] 請教中文處理

看板Python作者Gjoy (鬼接TU\)時間12年前 (2013/04/04 11:30)推噓0(0推 0噓 4→)

留言4則, 3人參與討論串1/1

最近幫中文系老師處理編書工作，想順便練習python 想寫一個程式來這樣作: 抓取中文字（char），判斷字的部首及筆畫例如: 我-戈部-7劃研究中文字的產生規範，中文內碼並無記載部首和筆畫資訊所以必須有現成的「字-部首-筆畫」對照表很遺憾，目前教育部推出的各式線上字辭典似乎沒有一個線上字典有做到「字-部首-筆畫」這樣的功能在中國網站找到一個「漢典」線上字典，網址 http://zdic.net 有「字-部首-筆畫-首字拼音-五筆檢字」等資料！ (太汗顏了，中國的一個非官方站做的功能還比較齊全) 但目前問題是，這網站不提供raw data，亦無api 所以若要達到前面所提功能，想到以下作法一、找到一個現成的字典檔，有「字-部首-筆畫」對照表: 這樣由程式讀取後比對即可二、利用urllib模擬browser, 把要查詢的字送出去，再比對查詢結果: 這可能會有效能上的問題，會比較慢三、寫一個爬蟲程式，把 http://zdic.net上的資料都爬回來,整理成一個字典檔: 我對爬蟲不太熟，大概了解爬蟲會先找頁面內的url整理成列表再依續爬url內的url, 不斷地遞迴我找到的初步資訊像這樣: 查詢「我」這個字，其送回的url http://www.zdic.net/zd/zi/ZdicE6Zdic88Zdic91.htm 把「我」這個字的utf8內碼「E68891」藏在URL內似乎可以從這裡開始爬整個utf8碼定義的中文字範圍 ? 以上大概是我目前想到的辦法，請各位大大不吝提出意見看看是否有更好的作法或是solution 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.112.230.209 ※ 編輯: Gjoy 來自: 140.112.230.209 (04/04 19:38)

→

buganini

04/04 21:45, , 1^F

04/04 21:45, 1^F

→

grapherd

04/05 01:59, , 2^F

04/05 01:59, 2^F

→

grapherd

04/05 01:59, , 3^F

04/05 01:59, 3^F