[問題] grep 和 big5 中文字

看板Linux作者 ( )時間14年前 (2011/03/27 14:28), 編輯推噓2(203)
留言5則, 2人參與, 最新討論串1/1
這個問題我 google 了幾天了都找不到解決方案 所以決定到版上來問問看 因為要做研究的關係我蒐集很多 .html 的網頁資料 (大概600筆左右) 全部都是 big5 中文碼 我想用 grep 抓關鍵字分析資料 沒想到 grep 居然抓不到 big5 的中文字 (utf-8 的中文和日文都抓得到) 詭異的地方在於 我之前用的系統 (Ubuntu 10.04 Lucid Lynx, i386; GNOME) grep 抓得到 big5 中文字 換了電腦又升級系統之後 (Ubuntu 10.10 Maverick Meerkat, amd64; GNOME 2.32.0) grep 就不認識 big5 中文字了 我不太知道這種問題要從什麼地方下手解決 google 的時候也是抱著亂槍打鳥的心情在找 希望版上有大大也遇到類似的狀況 指引小女子解決問題的一盞明燈 <(_ _)> 感謝!! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 74.76.87.147 ※ 編輯: linanne 來自: 74.76.87.147 (03/27 14:32)

03/27 14:47, , 1F
存檔編碼的關係。用iconv轉html成utf-8的編碼即可
03/27 14:47, 1F
我也想過 可是所有的檔案都是存成 包括所有圖片檔的html 所有文字檔都分別存在單一資料夾裏面 資料有六百筆上下 要把檔案一個一個找出來轉檔太浪費時間了 而且我很不懂的是 為什麼之前 10.04 可以 grep 10.10 就 grep 不到? 為什麼會這樣.............. ※ 編輯: linanne 來自: 74.76.87.147 (03/27 14:55)

03/27 14:57, , 2F
之前灌的系統語系是用big-5吧
03/27 14:57, 2F

03/27 14:59, , 3F
所以也許可以LANG=zh_TW.Big5 grep "xyz" XYZ.html這樣用
03/27 14:59, 3F
喔喔喔喔喔喔~~~~ 感謝 A大!!!! 加上 LANG=zh_TW.Big5 就 grep 得到了~~~ 太感謝了!!!! :)

03/27 17:12, , 4F
用find -exec轉很快吧
03/27 17:12, 4F

03/27 17:12, , 5F
但記得先備份
03/27 17:12, 5F
※ 編輯: linanne 來自: 74.76.87.147 (03/28 00:36)
文章代碼(AID): #1DZjaXdQ (Linux)