[分享] 聲音生成 ElevenLabs 和 d-id

看板AI_Art作者 (saces)時間1年前 (2023/03/10 02:24), 編輯推噓3(307)
留言10則, 5人參與, 1年前最新討論串1/1
最近稍微試了一下ElevenLabs 蠻驚艷的,就來分享一下。 它是一個文字轉語音的AI服務。 還能用已有的聲音去複製聲線 最近很多美國總統玩遊戲的影片都是用這個 有10000字的試用額度,它是連標點符號和空白都算的。 https://i.imgur.com/HVIc1Q6.jpg
上面是文字生聲音 下面是生產或複製聲線 https://i.imgur.com/Un5Q0B6.jpg
介面基本上長這樣。 Stability 越高聲音就越穩定,調低的話情緒會比較明顯,我自己是覺得真實很多。調高 就比較有機械感 Clarity + Similarity Enhancement 就清晰度和原本聲音的相似度。這不建議調太低, 不然效果不好。 一般說話的聲音,我看Discord一些用戶的建議是將 stability 25% Clarity 85% 另外是文字的部分,雖然試用可以一次生成2500字,但太長的話,有時候聲音會突然變調 ,建議分段都在500-600字以下。 AI本身會偵測文字的語氣,但也可以用文字敘述,可以在一段話前加上,He said angril y 或 He whisper。AI就會用相應語氣。用這方法最好將Stability 降到10%左右。 另外 全大寫字母,或是表情符號也有效果 聲線部分,它原本就有一些預設的聲線,其實效果算不錯。非會員可以用隨機生產聲線的 功能。複製聲線功能之前好像被玩壞了,現在只有會員才能用。 隨機的部分,可以選性別、年紀和口音。 https://i.imgur.com/dVFORW3.jpg
Generate 就可以生成一個新的聲線。 並且產生一段範例聲音 但會消耗你範例裡文字數的額度 喜歡的話就可以存起來 我覺得這蠻看運氣的,有時候蠻機械化的,但有時候又能骰到不錯的聲線。 最後就是複製聲音的部分,基本上一小段話丟進去就能複製到非常像,複製本身不會產生 範例,也不會消耗額度。盡量不要有噪音,他們是說五分鐘以上效果最好。 這AI大概是我目前聽過最真實的文字轉語音,不過目前只有英文效果最好,中文可以轉, 但超級爛,完全不建議。 d-id 是另一個文字轉語音加影片。能讓圖片動起來嘴形符合語音。 https://youtu.be/eyJ5kZeSF8k
這影片有在關注AI的可能會有看過。裡面有教學,它本身能文字轉語音,但我覺得效果普 通。你也可以匯入其他的語音。ElevenLabs產的聲音丟進d-I’d效果蠻好的。另外圖片選 擇的時候,盡量選擇正臉的圖片。側臉會變的非常獵奇。 我覺得ElevenLabs運用應該蠻廣的,例如在一些indie game 開發上會蠻有用的。d-id 就 比較像玩具一點。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.34.148.51 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1678386291.A.59B.html

03/10 04:08, 1年前 , 1F
還沒用直接先問,目前中文可以work嗎XD
03/10 04:08, 1F

03/10 07:05, 1年前 , 2F
推推
03/10 07:05, 2F

03/10 08:00, 1年前 , 3F
Elevenlab中文會變成有點像外國人講話用拼音發音的感覺,
03/10 08:00, 3F

03/10 08:00, 1年前 , 4F
機械感也很明顯
03/10 08:00, 4F

03/10 08:35, 1年前 , 5F
看起來是真的對indie很有用
03/10 08:35, 5F

03/10 10:44, 1年前 , 6F
https://reurl.cc/rL5R6Z discord有人分享用在遊戲中的影
03/10 10:44, 6F

03/10 10:44, 1年前 , 7F
03/10 10:44, 7F

03/10 23:14, 1年前 , 8F
中文的話可以考慮微軟的azure平臺,不過沒有太自由的mode
03/10 23:14, 8F

03/10 23:14, 1年前 , 9F
l。我想找有沒有人做類似SDwebui這種project可以訓練自己
03/10 23:14, 9F

03/10 23:14, 1年前 , 10F
model和生成語音的。
03/10 23:14, 10F
文章代碼(AID): #1a2YHpMR (AI_Art)