[分享] 聲音生成 ElevenLabs 和 d-id

看板AI_Art作者saces (saces)時間1年前 (2023/03/10 02:24)推噓3(3推 0噓 7→)

留言10則, 5人參與討論串1/1

最近稍微試了一下ElevenLabs 蠻驚艷的，就來分享一下。它是一個文字轉語音的AI服務。還能用已有的聲音去複製聲線最近很多美國總統玩遊戲的影片都是用這個有10000字的試用額度，它是連標點符號和空白都算的。 https://i.imgur.com/HVIc1Q6.jpg

上面是文字生聲音下面是生產或複製聲線 https://i.imgur.com/Un5Q0B6.jpg

介面基本上長這樣。 Stability 越高聲音就越穩定，調低的話情緒會比較明顯，我自己是覺得真實很多。調高就比較有機械感 Clarity + Similarity Enhancement 就清晰度和原本聲音的相似度。這不建議調太低，不然效果不好。一般說話的聲音，我看Discord一些用戶的建議是將 stability 25% Clarity 85% 另外是文字的部分，雖然試用可以一次生成2500字，但太長的話，有時候聲音會突然變調，建議分段都在500-600字以下。 AI本身會偵測文字的語氣，但也可以用文字敘述，可以在一段話前加上，He said angril y 或 He whisper。AI就會用相應語氣。用這方法最好將Stability 降到10%左右。另外全大寫字母，或是表情符號也有效果聲線部分，它原本就有一些預設的聲線，其實效果算不錯。非會員可以用隨機生產聲線的功能。複製聲線功能之前好像被玩壞了，現在只有會員才能用。隨機的部分，可以選性別、年紀和口音。 https://i.imgur.com/dVFORW3.jpg

Generate 就可以生成一個新的聲線。並且產生一段範例聲音但會消耗你範例裡文字數的額度喜歡的話就可以存起來我覺得這蠻看運氣的，有時候蠻機械化的，但有時候又能骰到不錯的聲線。最後就是複製聲音的部分，基本上一小段話丟進去就能複製到非常像，複製本身不會產生範例，也不會消耗額度。盡量不要有噪音，他們是說五分鐘以上效果最好。這AI大概是我目前聽過最真實的文字轉語音，不過目前只有英文效果最好，中文可以轉，但超級爛，完全不建議。 d-id 是另一個文字轉語音加影片。能讓圖片動起來嘴形符合語音。 https://youtu.be/eyJ5kZeSF8k

這影片有在關注AI的可能會有看過。裡面有教學，它本身能文字轉語音，但我覺得效果普通。你也可以匯入其他的語音。ElevenLabs產的聲音丟進d-I’d效果蠻好的。另外圖片選擇的時候，盡量選擇正臉的圖片。側臉會變的非常獵奇。我覺得ElevenLabs運用應該蠻廣的，例如在一些indie game 開發上會蠻有用的。d-id 就比較像玩具一點。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.34.148.51 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1678386291.A.59B.html

推

ZMTL

03/10 04:08, 1年前 , 1^F

03/10 04:08, 1^F

推

v86861062

03/10 07:05, 1年前 , 2^F

03/10 07:05, 2^F

→

saces

03/10 08:00, 1年前 , 3^F

03/10 08:00, 3^F