[分享] ebook-GPT-translator: 開源文件翻譯

看板AI_Art作者 (Zaious.)時間8月前 (2023/08/31 15:14), 8月前編輯推噓6(609)
留言15則, 8人參與, 8月前最新討論串1/1
https://github.com/jesselau76/ebook-GPT-translator 支援檔案格式pdf、docx、mobi、epub、txt,可選選項有翻譯成指定語言(預設翻簡中)、 支援名詞對照表讓特定名詞優先採用指定翻譯。 使用自掛的GPTAPI Key,串GPT3.5的模型,翻譯結束後還會顯示花了多少的token price ,不用付錢給作者或軟體公司。 程式碼很好懂,可以自己調整翻譯Prompt或把模型改成GPT4。 甚至可以翻成文言文(?) https://imgs.plurk.com/QD2/oZm/d6hYkn2tdmjzR0KKTetf08zpCou_lg.png
作者還附了個用詞會對照表處理TPRG規則書的例子 https://imgs.plurk.com/QD2/6g0/OAX5bJKJITF7CLF0P9mhiiPtSdd_lg.png
- 剛剛在找串GPT的AI翻譯工具,坊間標榜串GPT的AI工具收的費用還不便宜, 外加如果有套裝工具我也蠻怕他備份我要翻譯的東西或把我的Key外流, 本來想手刻, 後來想想理論上這麼簡單的程式(Python把文件解成純文字、切分、逐段送給GPT API) 應該有人寫好放github上吧... 找了一下果然有。 晚點再來想想如果要更符合我自己的使用習慣要怎麼改Code。 缺點:沒有GUI,至少要自己看的懂怎麼用cmd 試翻AI小鎮的論文 https://arxiv.org/pdf/2304.03442v1.pdf 指定翻成繁體中文還是會出現簡中,不過這gpt3.5老bug了 用了26分鐘有點過分,不過只花了0.16$ 成果如下: https://images.plurk.com/6kvVm6RjHRIVPd7KtKABgd.png
這個程式可以改的地方有點多(畢竟四個多月沒更新了) GPT3.5升級到GPT4應該效果會更好更穩定,只是花費20倍價錢 然後就是我不知道為什麼他切文用1024的英文字去切,1024個英文字也才不到200token, 加上翻譯回來的中文也才約1000token,現在gpt3.5已經支援到8Ktoken了,應該可以不用 切的那麼細,改這個也能提高翻譯速度跟效果。 我有點忘記最早GPT3.5的模型context多少了,但這麼切是真的很保守。 https://images.plurk.com/62TKUPoimrP0dSDqCZh921.png
https://images.plurk.com/7imHDoLKOtzYW2MqT74xAz.png
-- AI_Art AI藝術與創作板 歡迎各方前來討論AIGC創作與相關議題! AI情報屋營業中 噗浪:https://www.plurk.com/Zaious IG :https://www.instagram.com/zaious.design/ 日曆:https://zaious.notion.site/zaious/22c0024eceed4bdc88588b8db41e6ec4 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.250.61.231 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1693466097.A.581.html

08/31 16:57, 8月前 , 1F
文言文不太文言,真是程式不足。
08/31 16:57, 1F
我剛剛看了一下設定,這好像叫紅樓夢風格的半文言文XD

08/31 18:16, 8月前 , 2F
推自動文件翻譯程式介紹,繁體我覺得用程式簡繁處理最保險
08/31 18:16, 2F
GPT3.5我試過了 settings.cfg 設定檔打開, #set prompt, you can change Chinese to "en", "zh-cn", "ja", "繁体中文","文言文 ", or "红楼梦风格的半文言文" etc prompt = "Please behave like GPT-4 model, translate the following text into 繁體中文 #Language code of the output epub file, e.g. "en", "zh-cn", "ja"langcode = zh-tw 基本上可以穩出中文,晚一點我可能會放我修改過的程式 ※ 編輯: ZMTL (60.250.61.231 臺灣), 08/31/2023 18:43:07

08/31 21:46, 8月前 , 3F
推推
08/31 21:46, 3F

09/01 07:47, 8月前 , 4F
這個會有一個問題,常常翻譯到一半突然某段會翻譯成英文
09/01 07:47, 4F

09/01 07:47, 8月前 , 5F
,知道怎麼解嗎
09/01 07:47, 5F

09/01 09:43, 8月前 , 6F
原文不是英文嗎?可以把settings.cfg的prompt全用繁中寫看看
09/01 09:43, 6F
先說,這邊最近會放出一個自己fork修改過的版本, 可以從setting選用gpt4模型、可以計算翻譯的總字數跟所花費的時間, 並且一次翻譯更長段文本。 如果原作者的版本使用上有什麼許願或建議,歡迎提供想法。 ※ 編輯: ZMTL (60.250.61.231 臺灣), 09/01/2023 10:05:54

09/01 12:51, 8月前 , 7F
期待ing
09/01 12:51, 7F

09/01 13:18, 8月前 , 8F
然後現在找了一個更好的方式來處理簡繁問題,Prompt真的
09/01 13:18, 8F

09/01 13:18, 8月前 , 9F
不管怎麼下3.5都有機會給簡中
09/01 13:18, 9F

09/01 17:11, 8月前 , 10F
要處理簡繁問題 額外掛一個OpenCC不好嗎
09/01 17:11, 10F

09/01 17:15, 8月前 , 11F
對我是這麼做的XD
09/01 17:15, 11F

09/01 17:16, 8月前 , 12F
現在在測原作者的譯名表好像沒有效果,我正在找程式碼哪邊有
09/01 17:16, 12F

09/01 17:16, 8月前 , 13F
問題
09/01 17:16, 13F

09/03 12:23, 8月前 , 14F
09/03 12:23, 14F

09/04 11:06, 8月前 , 15F
期待新版本~
09/04 11:06, 15F
文章代碼(AID): #1ay3tnM1 (AI_Art)