Re: [請益] 雙語/翻譯語料庫的建立

看板Linguistics作者 (熱啊!)時間7年前 (2016/12/18 21:44), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串2/2 (看更多)
※ 引述《chadlu (chadlu)》之銘言: : 各位版友好: : 小弟從事筆譯工作 : 目前想針對不同領域的中英文本建立專屬的平行語料庫 : 作為之後的查詢及參考之用 : 但因為本身對語料庫這塊還不是很了解,所以想跟各位請教以下幾個問題: : 1. 常見的Antconc是否可用於建立平行語料庫? 若不行是否有其他推薦的軟體? : 2. 有沒有軟體可以自動擷取雙語網站中的中英文語料? : 3. 擷取完的文本該如何對齊(Alignment)? : 以上,謝謝各位~ : PS. 若有相關的參考書籍或資料也歡迎跟我說 Thanks :) 不是很了解你的問題。拿平衡語料庫做例子好了。 如果你跟詞庫購買平衡語料庫,你拿到的是三百多 個xml檔。當然,語料有tag並且以xml格式標好。 簡單說,語料庫就是一堆文章的集合。所以,回到你 的問題。什麼軟體可以建語料庫?Notepad ++就可以 了吧.... 那是一個編寫程式用的純文字編輯器.... 自動擷取雙語網站?沒有聽過有在提供類似軟體,不 過你可以自己寫爬蟲去抓.... 如何對齊?看你用什麼 標準對齊啊.... 也可以自己寫程式去做... 老實說,連keyword search或是concordancer這些很 常見的功能都沒有免費軟體了,語料庫嘛... 恐怕要 靠自己了... -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.242.29.182 ※ 文章網址: https://www.ptt.cc/bbs/Linguistics/M.1482068696.A.021.html
文章代碼(AID): #1OLfBO0X (Linguistics)
文章代碼(AID): #1OLfBO0X (Linguistics)