Re: [LLMs] Meta發布可數十種語言互譯的AI模型

看板AI_Art作者 (阿緯)時間10月前 (2023/08/26 16:36), 10月前編輯推噓0(000)
留言0則, 0人參與, 最新討論串1/1
Meta(fb)在github的seamless_communication裡面有提供Paper連結(內容超多101頁...) SeamlessM4T—Massively Multilingual & Multimodal Machine Translation https://dl.fbaipublicfiles.com/seamless/seamless_m4t_paper.pdf https://github.com/facebookresearch/seamless_communication Paper中用許多方法比較SeamlessM4T與OpenAI的Whisper 因挺有興趣所以手動用GPT-3.5翻譯 _________________ 摘要 要創建能夠幫助個人在任意兩種語言之間進行語音翻譯的「巴別魚(Babel Fish)」工具, 需要哪些條件?儘管基於文本的模型最近取得了突破,使機器翻譯的涵蓋範圍超過了200 種語言,但統一的語音到語音翻譯模型尚未取得類似的進展。更具體地說,傳統的語音到 語音翻譯系統依賴級聯系統,由多個子系統逐步執行翻譯,這使得可擴展且高性能的統一 語音翻譯系統難以實現。為了解決這些問題,我們介紹了「SeamlessM4T」—一個支援語 音到語音翻譯、語音到文本翻譯、文本到語音翻譯、文本到文本翻譯以及自動語音識別的 單一模型,可支援多達100種語言。為了構建這個模型,我們使用了100萬小時的開放式語 音音頻數據,通過w2v-BERT 2.0學習自我監督的語音表示。隨後,我們創建了一個多模態 語料庫,其中包含自動對齊的語音翻譯,被稱為「SeamlessAlign」。經過過濾並與人工 標記的數據和虛標記的數據相結合(總計406,000小時),我們開發出了第一個能夠進行 從英語到其他語言的語音和文本翻譯的多語言系統。在Fleurs數據集上,SeamlessM4T在 多種目標語言的翻譯中設立了新的標準,在直接的語音到文本翻譯中,BLEU指標比先前的 最新技術提高了20%。與強級聯模型相比,SeamlessM4T在語音到文本的英語翻譯質量方面 提高了1.3個BLEU點,在語音到語音的英語翻譯質量方面提高了2.6個ASR-BLEU點。在CVSS 數據集上,與兩階段級聯語音到語音翻譯模型相比,SeamlessM4T-Large的性能提高了58% 。對於語音到文本翻譯輸出進行的初步人工評估同樣取得了令人印象深刻的結果;對於從 英語翻譯而來的翻譯,對於24種評估語言,XSTS評分一直在4分(滿分5分)以上。對於從 其他語言翻譯成英語的方向,我們在24種語言中的7種中看到了顯著的改進,超過了 Whisper-Large-v2的基準。為了進一步評估我們的系統,我們開發了Blaser 2.0,該版本 在跨語音和文本的評估方面具有與前版本相似的準確性,當涉及質量估計時。在耐用性方 面經過測試,我們的系統在處理語音到文本任務中的背景噪音和講話者變化方面表現更好 (分別平均提高了38%和49%),相比當前最先進的模型。至關重要的是,我們對性別偏見 和添加毒性進行了評估以評估翻譯的安全性。與最先進的模型相比,我們報告在翻譯輸出 中添加的毒性減少了高達63%。最後,本工作中的所有貢獻——包括模型、推理代碼、通 過我們改進的建模工具包Fairseq2支援的微調配方,以及用於重新創建未過濾的470,000 小時SeamlessAlign數據的元數據——均已開源,可在下網址獲得。 https://github.com/facebookresearch/seamless_communication _________________ 目錄 1 引言 2 多模態翻譯的社會技術維度 2.1 為什麼在機器翻譯中優先考慮語音? 2.2 語音翻譯的現況 2.3 語言 3 SeamlessAlign:自動創建語音對齊數據 3.1 語音語言識別 3.2 規模化獲取原始音頻和文本數據 3.3 語音挖掘 3.4 相關工作 4 SeamlessM4T 模型 4.1 無監督語音預訓練 4.2 X2T:從語音到文本的翻譯和轉錄 4.3 語音到語音翻譯 4.4 SeamlessM4T 模型 4.5 分析和消融研究 4.6 相關工作 5 自動評估與人工評估 5.1 模態不可知的自動評估指標:Blaser 2.0 5.2 人工評估 5.3 自動穩健性(Robustness)評估 6 負責任的人工智慧 6.1 定義 6.2 毒性 6.3 偏見 6.4 限制 7 社會影響與結論 7.1 增強世界準備 7.2 未來的工作 A FAIRSEQ2 B 數據統計 C 模型卡(Model Card) - SeamlessM4T _________________ 1.引言 《銀河系漫遊指南》中的「巴別魚」、《星際爭霸戰》中的「通用翻譯機」以及《異世奇 人》中的「塔迪斯翻譯電路」都是同一概念的不同變體,這些計算設備賦予了人們在任意 兩種語言之間進行翻譯的能力。抛開其多元的起源,實現這樣的願景在社會上的需求從未 如此迫切。首先,日益互相聯繫的世界需要開發能夠在線上和離線上促進和簡化多語言交 流的技術。此外,移動設備的普及和全球的平台經濟為即時語音到語音翻譯(S2ST)提供 了契機,使其成為大多數人生活中的主要部分。 儘管語音在日常交流中至關重要,但今天的機器翻譯(MT)系統仍然以文本為中心。如果 存在語音支持,則通常被視為其基於文本的對應物的附屬品。雖然單一的單模型,如「 No Language Left Behind」(NLLB; [NLLB Team et al., 2022]),將文本到文本翻譯 (T2TT)的涵蓋範圍推至超過200種語言,但統一的S2ST模型在範圍或性能上遠未達到類 似的水平。這種基於模式的不平等可能有許多原因,但音頻數據的稀缺性和建模限制仍然 是關鍵障礙。從機器翻譯的角度來看,語音較難處理的挑戰本質上就是它包含了更多的信 息和表達成分,這也是它在傳達意圖並在交談者之間建立更強社會聯繫方面的優勢。 將巴別魚帶入技術實現的核心在於開發基礎的語音到語音翻譯(S2ST)系統。如今,現有 的這種類型的系統存在三個主要缺點。首先,它們往往專注於高資源語言,如英語、西班 牙語和法語,而忽略了許多低資源語言。其次,它們主要服務於從源語言到英語(X–eng )的翻譯,而不是相反(eng–X)。第三,大多數S2ST系統今天在很大程度上依賴級聯系 統,由多個子系統逐步執行翻譯,例如從自動語音識別(ASR)到T2TT,然後再到文本到 語音合成(TTS)在3階段系統中進行。試圖將這些多種能力統一在一個單一實體下的努力 ,已經導致了端到端語音翻譯系統的早期版本[Lavie et al., 1997; Jia et al., 2019b; Lee et al., 2022a]。然而,這些系統不及其級聯對應物的性能[Agarwal et al., 2023],後者更能夠利用大規模多語言組件(例如T2TT的NLLB或ASR的Whisper [Radford et al., 2022])和無監督或弱監督數據。 為了解決這些限制,我們引入了「SeamlessM4T」(大規模多語言和多模態機器翻譯), 這是一個統一的系統,支援ASR、T2TT、語音到文本翻譯(S2TT)、文本到語音翻譯( T2ST)以及S2ST(有關概述,請參見表1)。為了構建這個系統,我們使用了100萬小時的 開放式語音音頻數據,通過w2v-BERT 2.0學習了自我監督的語音表示。隨後,我們創建了 一個包含超過470,000小時自動對齊的語音翻譯的多模態語料庫,稱為「SeamlessAlign」 。然後,我們將這個語料庫的過濾子集與人工標記和虛標記的數據相結合,總計406,000 小時。借助這個匯編的數據集,我們開發出了第一個多任務系統,可以從100種語言翻譯 成英語(100-eng),從英語翻譯成35種語言(eng-35),在100-eng和eng-95之間進行 S2TT,為96種語言進行ASR,對於95-eng和eng-35進行zero-shot T2ST,以及在95-eng和 eng-95之間進行T2TT(有關概述,請參見表2)。 https://i.imgur.com/maEfid0.png
表格 1:本文中任務的符號表示。 我們發現,我們所釋出的兩個模型中的SeamlessM4T-Large,在翻譯成英語時(即改進了 20%),在Fleurs數據集上表現優於之前的最新技術(SOTA)端到端S2TT模型( AudioPaLM-2-8BAST [Rubenstein et al.,2023]),其BLEU分數優於4.2個BLEU點。與級 聯模型相比,SeamlessM4T-Large的翻譯準確性提高了超過2個BLEU點。當從英語翻譯時, SeamlessM4T-Large在CoVoST 2 [Wang et al.,2021c]上的BLEU分數比之前的SOTA( XLSR-2B-S2T [Babu et al.,2022])提高了2.8個BLEU點,在Fleurs數據集上與級聯系統 的性能相當。在S2ST任務中,SeamlessM4T-Large在Fleurs數據集上的ASR-BLEU分數優於 強級聯的3階段模型(ASR,T2TT和TTS),提高了2.6個ASR-BLEU點。在CVSS數據集上, SeamlessM4T-Large的表現遠遠優於一個2階段級聯模型(Whisper-Large-v2 + YourTTS [Casanova et al.,2022]),ASR-BLEU分數提高了8.5個點(提升了50%)。對於S2TT的 初步人工評估也顯示出類似令人印象深刻的結果。對於從英語翻譯而來的翻譯,24種評估 語言的XSTS分數始終在4分(滿分5分)以上;對於從其他語言翻譯成英語的方向,我們在 24種語言中的7種中看到了對Whisper-Large-v2基準的顯著改進。 此外,SeamlessM4T-Large在Fleurs數據集的ASR方面也優於Whisper-Large-v2 [Radford et al.,2022],在77種重疊語言中,平均單詞錯誤率(WER)減少了45%。在對Flores數 據集上的T2TT進行評估時,我們的模型在翻譯成英語時與NLLB-3.3B [NLLB Team et al. ,2022]的性能相匹配,在從英語翻譯時平均提高了1個chrF++點。為了進一步評估 SeamlessM4T在S2TT和S2ST方面的表現,我們開發了Blaser 2.0,這是一個針對文本或語 音翻譯的語言和模式不可知的評估指標。當涉及質量估計時,Blaser 2.0能夠在跨語音和 文本模式上實現與其前身BLASER [Chen et al.,2023a]相似的準確性。我們還通過在 Fleurs數據集上創建開放性的耐用性基準來評估模型對於背景噪音和講話者變化的耐用性 。就結果而言,SeamlessM4T-Large在面對背景噪音和講話者變化時比Whisper-Large-v2 更具耐用性,分別平均提高了38%和49%。 https://i.imgur.com/BdljdJ6.png
表格 2:一個最先進的基準模型和SeamlessM4T模型的列表。+語言覆蓋範圍是基於使用 監督標記數據或評估的Zero-shot語言和方向估計的。 關於負責任的人工智能,我們專注於添加的毒性和性別偏見的評估。平均而言,在不同模 式、數據集和翻譯方向之間,我們發現添加的毒性的佔比很低,介於0.11%到0.21%之間。 與最先進的模型相比,我們在所有情況下都顯著減少了添加的毒性(範圍從26%到63%不等 )。與Whisper-Largev2相比,S2TT方向的添加毒性減少最大。此外,我們還在多語言 HolisticBias數據集上對性別偏見進行了評估,發現SeamlessM4T在從中性術語進行翻譯 時過於概括為男性形式(平均偏好約為10%),而在性別變化大約3%的情況下表現出缺乏 穩健性。在這些情況下,SeamlessM4T實現了與最先進的模型相當的結果。我們記錄這些 效果,以鼓勵進一步的緩解努力。 為了推動語音翻譯領域的更深入研究並使我們的工作對社群開放,我們在 https://github.com/facebookresearch/seamless_communication上開源了以下內容: ‧SeamlessM4T模型,包括SeamlessM4T-Large(23億參數)和SeamlessM4T-Medium(12億參 數)的模型權重,以及由我們的新建模工具包Fairseq2支援的推理代碼和微調配方。 ‧創建對齊語音數據的工具,包括元數據以重新創建未過濾的470,000小時SeamlessAlign, 基於Stopes的流程用於創建類似SeamlessAlign的對齊,以及用於37種語言的語音編碼器 和200種語言的文本編碼器的Sonar。 ‧無需文本的S2ST自動評估模型Blaser 2.0,包括模型權重和推理腳本。 本文的其餘部分結構如下:第2節描述了多模態翻譯的社會技術維度,並說明了在機器翻 譯研究背景下處理語音的重要性。它還包括我們的工作涵蓋的語言列表和評估指標。第3 節討論了我們如何通過開發擴展的語音語言識別系統和對我們的數據挖掘過程至關重要的 新的多模態文本嵌入空間,來創建超過470,000小時的自動對齊語音翻譯語料庫。第4節詳 細介紹了我們設計的各種建模技術,用於訓練支援多種語言的多模態和多任務翻譯模型, 涵蓋了文本和語音的源語言和目標語言。第5節記錄了我們翻譯輸出的自動和人工評估, 以及我們模型在不同情境下的耐用性。第6節關注我們的負責任AI努力,我們對模型輸出 進行了偏見和毒性評估。最後,在第7節中,我們總結了我們的工作社會影響,並反思了 現有的挑戰和未來的可能性。 _________________ 2. 多模態翻譯的社會技術維度 2.1 為什麼在機器翻譯中優先考慮語音? 正如自然語言處理(NLP)和其他基於語言的研究領域中的大多數技術一樣,機器翻譯( MT)在易於記錄、存儲和傳播的模式中達到了更高的成熟度:文本。進一步說,數位文本 的豐富性使其成為NLP研究的主要候選項。相比之下,語音數據的相對稀缺性使得該領域 的研究變得次要。更具體地說,語音不僅僅是口語的文本 - 這兩種模式在語法、風格和 形態學方面可能存在差異[Plag et al.,1999]。在大多數情況下,語音可能也被認為是 一種更豐富的模式,具有文本無法匹敵的韻律和表達參數[Kraut et al.,1992]。語音和 文本在互動和社交程度上有所區別,語音將注意力集中在講話者或聽眾上,而文本則將焦 點放在消息的內容上[Kraut et al.,1992]。 語音與社交聯繫 研究表明,與基於文本的交流相比,通過語音進行的交流會在交談參與 者之間建立更強的社交聯繫。例如,在一項研究中,研究人員發現,包括語音(電話、視 頻通話和語音聊天)的交互與那些通過文本媒體進行交流的人相比,會在對話伙伴之間產 生更深的聯繫[Kumar and Epley,2021, 595]。與語音相比,帶有音量、語調和速度等語 用線索的文本通信被認為更加不親切。有趣的是,看到另一個人並不會讓人們感覺比只是 和他們的伴侶交談更有聯繫。在另一項研究中,聽到外群體成員大聲解釋他們的觀點使研 究參與者認為他們比閱讀他們觀點的解釋更富有思考性和情感溫暖[Schroeder et al., 2017]。在各種場景下,研究顯示語音在傳達個人特質方面似乎獨一無二,因此可以加強 交換方之間的聯繫。 包容性與可訪問性 語音不僅在關係角度上對交流至關重要,而且通常也是最實用和可訪 問的選擇。首先,聯合國教科文組織估計,全球有7.73億成年人(佔所有成年人的12.5% )沒有接受必要的教育,無法使用文本進行交流或獲取信息[Markelova,2021]。另一個 更依賴語音而不是文本的人群是視力有障礙或視覺受損的人。全球範圍內,約有4300萬人 屬於這一類別,另有2.95億人有中度至重度的視覺受損[GBD 2019 Blindness and Vision Impairment Collaborators,2021]。盡管語音助手、文本到語音系統和語音激活 技術在支持這些人完成日常任務方面起著重要作用,但他們對多語言基於語音的翻譯或交 流工具的訪問仍然有限。在聽覺內容量不斷增加(例如播客、有聲書、短片等)的世界中 ,這種社會技術差距的限制性可能會使他們失去可能有意義且豐富的經歷或交流。 腳本差異 除了這些因素外,基於文本的通信或翻譯受到腳本差異的進一步複雜化。例如 ,某些語言在地理政治邊界的兩側以不同的書寫方式進行書寫。例如,烏爾都語根據居住 地可以使用阿拉伯語或天城文書寫(即巴基斯坦或印度)。在這種情況下,翻譯成烏爾都 語的T2TT輸出對於那些所示的腳本不熟悉的人可能是不可讀的。生成語音輸出的S2ST則迴 避了這種多腳本困境。在另一些情況下,圍繞一種語言書寫系統的政治不穩定可能也促使 需要基於語音的翻譯。例如,在過去1000年中,烏茲別克語的書寫系統已經更改了五次。 盡管截至2021年2月,烏茲別克宣布將烏茲別克語的官方書寫系統從西里爾字母轉換為拉 丁字母表,但西里爾字母在該國仍被廣泛使用[Jung and Kim,2023]。對於書寫系統正在 極協商的語言,語音技術和翻譯系統可能在轉變發生時提供穩定的信息訪問方式。 https://i.imgur.com/tIJ4X6Y.png
表格 3:S2TT和S2ST的2階段和3階段串聯系統的選項。這些串聯將Whisper ASR模型 [Raftord et al.,2022]與NLLB的T2TT模型[NLLB Team et al.,2022]配對。 2.2 語音翻譯的現況 串聯系統 在近年統一語音翻譯模型出現之前,語音研究中受到的大部分關注都集中在串 聯方法上,通過鏈接執行不同任務的子系統,如ASR、T2TT和TTS [Lavie et al.,1997; Wahlster,2000; Nakamura et al.,2006]。例如,在3階段S2ST串聯場景中,語音輸入 首先通過ASR系統轉錄為文本,然後進行T2TT,最後使用TTS合成為語音(見表3)。串聯 系統的主要好處是它們可以利用在每個子系統相關領域取得的進展,例如最近釋放的大規 模多語言T2TT模型 [NLLB Team et al.,2022; Siddhant et al.,2022; Fan et al., 2020]和弱監督ASR模型 [Radford et al.,2022; Zhang et al.,2023a; Pratap et al. ,2023]。 儘管如此,串聯系統也有其限制。首先,涉及ASR和T2TT的2階段串聯S2TT系統的輸出質量 無法達到單一大規模T2TT模型可以實現的質量。這種性能下降凸顯了在不同模態之間轉移 和翻譯含義的挑戰,可以歸因於許多因素,包括:(1)ASR模型對非英語語言,尤其是低 資源語言的糟糕轉錄,(2)從ASR模型到T2TT模型和串聯中的其他後續模型的錯誤傳播的 可能性增加(錯誤的累積加劇性能),以及(3)這些單獨訓練的子系統之間的域不匹配 (例如,如果在使用在Wikipedia上訓練的ASR模型的情況下,與專為會話數據優化的T2TT 模型相結合,可能會導致T2TT階段的分布不匹配)。除了這些原因,串聯系統中對文本的 過分強調忽略了副語言特徵,可能不足以處理諸如專有名稱和名詞之類的元素 [Rubenstein et al.,2023]。 直接的S2TT模型 早期的端到端語音翻譯研究是以生成文本為輸出開始的 [Chan et al., 2016; Berard et al.,2016; Bérard et al.,2018]。自2019年多語言端到端S2TT模型 出現以來 [Gangi et al.,2019; Inaguma et al.,2019],S2TT已成為一個越來越受歡 迎的研究領域,今天許多現有模型都受到了開放多語言語音語料庫的影響,如MuST-C [Di Gangi et al.,2019]、EuroParl-ST [Iranzo-Sánchez et al.,2020]、CoVoST 2 [Wang et al.,2021c]和VoxPopuli [Wang et al.,2021b]。端到端模型今天取得了重大 進展,在幾個情況下與串聯模型在學術基準上取得了同等水平(例如,受限的數據、域內 設置、特定語言對等等) [Ansari et al.,2020; Potapczyk and Przybysz,2020b] 儘管近期的最先進的預訓練模型在語言覆蓋方面取得了快速進展,從Babu等人 [2022]的 128種語言到Pratap等人 [2023]的1400多種語言,它們只能將翻譯為英語,而不能反向翻 譯。另一個重要的模型,Google的通用語音模型 [Zhang et al.,2023a],在300多種語 言中進行了預訓練,可以對100多種語言進行ASR。從技術上講,一旦提供了監督數據, USM也可以適應在300多種涵蓋的語言中執行ASR和S2TT任務(但該模型是在僅涵蓋從21種 語言翻譯為英語的CoVoST 2上進行了微調和評估)。 OpenAI的Whisper [Radford et al.,2022]是另一個大規模模型,用於翻譯成英語,而不 是反向翻譯。作為一個多任務模型,Whisper展示了弱監督預訓練的規模化足以實現SOTA 的ASR和S2TT結果,無需自我監督和自我訓練技術。Whisper在680,000小時的數據上訓練 ,已經在82種語言中實現了Fleurs翻譯質量的SOTA結果。 結合基於文本的 [Anil et al.,2023] 和基於語音的語言模型 [Borsos et al.,2023] ,最近發布的AudioPaLM [Rubenstein et al.,2023] 是一個用於聯合文本和語音處理和 生成的大型語言模型。類似於USM,AudioPaLM僅評估101種Fleurs語言到英語的文本翻譯 輸出。在本文發表之時,AudioPaLM是當前的SOTA模型,在ASR和S2TT任務中表現優於 Whisper [Radford et al.,2022]。 直接的S2ST模型 除了文本輸出外,最近的語音翻譯研究還集中於構建能夠直接生成目標 語音表示(即,頻譜圖、離散單位等)的模型。在這個領域中,Translatotron [Jia et al.,2019b]成為了第一個直接的S2ST模型。然而,在質量方面,該模型在2階段串聯系統 之後落後很大。Translatotron-2 [Jia et al.,2022a]顯著改善了前輩的性能,並通過 引入兩遍解碼方法縮小了與串聯系統之間的差距。儘管Translatotron在訓練過程中依賴 於S2TT作為輔助任務,但目標頻譜圖在推理時是直接生成的。另一方面, Translatotron-2則依賴於音素的中間解碼輸出。 與Translatotron同步,Tjandra等人 [2019] 提出了基於離散語音表示的S2ST模型,這些 表示或單位是通過無監督術語發現和序列到序列模型學習從一種語言到另一種語言的單位 。相關地,Lee等人 [2022a]使用了HuBERT [Hsu et al.,2021],一種預訓練的語音表示 模型,來對語音進行編碼並學習目標單位。因此,S2ST被分解為語音到單位(S2U)和隨 後的單位到語音,並配有語音重合成器 [Polyak et al.,2021]。 關於S2ST系統的覆蓋率和評估 迄今為止,前述的支持文本和語音作為輸入和輸出的 AudioPaLM [Rubenstein et al.,2023]是當前的SOTA,適用於S2TT和S2ST。儘管該模型 的設計表明它可以在源和目標兩側支援多語種翻譯,但其性能僅報告了翻譯成英語的情況 。同樣地,儘管Whisper可以轉錄非英語語言,但它僅支援將S2TT翻譯成英語。為了總結 語音翻譯系統中當前的語言覆蓋範圍和相關任務,我們在表2中列出了文本和語音翻譯中 的SOTA模型列表。此語言覆蓋估計基於監督標記數據或評估的零樣本(zero-shot)語言和 方向。我們還在表4中提供了本文使用的ASR、T2TT、S2TT和S2ST評估指標的列表。對於 S2ST,我們的評估集中在翻譯的語義內容上。在本文的整個過程中,我們主要在以下數據 集上評估我們的模型: ‧ Flores-200 [NLLB Team et al.,2022]:一個用於200種語言的多對多多語種翻譯基 準數據集(我們在devtest上進行評估)。 ‧ Fleurs [Conneau et al.,2022]:一個在102種語言中進行機器翻譯的n對多語音和文 本數據集,建立在機器翻譯Fleurs-101基準數據集之上 [Goyal et al.,2022]。Fleurs 非常適合涉及語音和文本的幾個下游任務。我們在測試集上進行評估,除了在消融實驗中 我們在開發集上進行評估。 ‧ CoVoST 2 [Wang et al.,2021c]:一個大規模的多語種S2TT語料庫,涵蓋了從21種語 言翻譯成英語,以及從英語翻譯成15種語言。我們在測試集上進行評估。 ‧ CVSS [Jia et al.,2022b]:一個多對英語的語音到語音翻譯(S2ST)語料庫,涵蓋 了從21種語言翻譯成英語的句子級S2ST對。我們在CVSS-C上評估基於文本的語義準確性, 用於S2ST和T2ST任務。我們注意到評估數據中的一些樣本缺失(在21種語言中有8種:加 泰羅尼亞語、德語、愛沙尼亞語、法語、意大利語、蒙古語、波斯語和葡萄牙語)。 這項工作的整體目標. 鑑於上述所述的差距,我們的工作旨在以下方面推進語音翻譯: 1.創建一個統一的大型模型,可以處理涉及文本和語音翻譯的全部任務:S2ST、S2TT、 T2ST、T2TT和ASR。這為下一代設備內和按需的多模態翻譯奠定了重要的基礎,這些翻譯 可以從這個模型中獲得。 2.擴展語言覆蓋範圍,無論是支援的語言數量還是翻譯方向(即,不僅僅將翻譯為英語, 還包括從英語翻譯)。大約有兩打語言占世界口語人口的一半以上,這意味著相對較小的 一組語言(超過7000種語言中的一小部分)產生了極大的語言影響。然而,當語言技術主 要是為這個群體而開發時,一半世界人口的需求被忽視了。我們的努力旨在彌合使用高資 源和低資源語言的人之間的翻譯差距。 3.在整個工作流程中保持對系統的系統評估,以確保安全和穩健的性能。這使我們能夠理 解如何引導我們的努力,使當前和未來的貢獻在用戶人口統計方面更加公平和公正。 2.3 語言 如今,廣泛可接觸的語音翻譯模型根據所涉及的各種任務,涵蓋的源語言數量從21種 [Zhang et al., 2023a] 到113種 [Rubenstein et al., 2023] 不等。然而,這些現有的 基於語音的翻譯模型都無法同時支援T2TT。為了建立一個統一的、多模態的、多任務的模 型,可以處理語音和文本作為源輸入,我們將語音源語言目標設定為100種。 我們在表5中總結了關於每種支援語言的信息。以下提供有關表頭的進一步詳細信息。 代碼 我們使用三字母的ISO 639-3代碼來表示每種語言。 語言 對於同一種語言可能有多種稱呼方式;由於格式限制,只顯示其中一個版本。這些 語言名稱已經與Ethnologue [Lewis, 2009] 和Glottolog [Hammarström et al., 2022] 等主要語言信息平台進行了交叉參照。 語系和分組 我們根據Glottolog數據庫 [Hammarström et al., 2022] 提供每種語言的 語系信息。 書寫系統 我們使用ISO 15924代碼提供書寫系統的信息。 資源水平 我們根據S2TT翻譯成英語的可用主要數據量將語音資源水平分為高、中、低三 類(以小時為單位,如果x > 1000則為高,如果x ∈]500,1000]則為中,如果x ∈ [0,500]則為低)。 主要數據被定義為開源的S2TT和偽標記的ASR數據。如果缺少這些數據,在評估S2TT翻譯 成英語時,我們將該語言報告為零樣本(zero-shot)。 來源 我們指示源語言是處於語音(Sp)還是文本(Tx)模態,或者兩者兼有。 目標 我們指示目標語言是處於語音(Sp)還是文本(Tx)模態,或者兩者兼有。 https://i.imgur.com/Be4pl0q.png
表格 4:本文使用的自動評估和人工評估指標列表。 * https://github.com/openai/whisper/tree/main/whisper/normalizers + Popovic [2015] ‡ Papineni et al. [2002] https://i.imgur.com/y6nD7ZN.png
https://i.imgur.com/bDNswIn.png
表格 5:SeamlessM4T支援的語言。我們顯示語言代碼、名稱、家族、子分組和書寫系統 ,以及語音資源級別,以及該語言是否在語音和/或文本模態中支援作為來源或目標語言 。這裡的Zero-shot指的是以該語言作為來源的S2TT或S2ST任務。 _________________ 3.SeamlessAlign:自動創建語音對齊數據 開發一個像SeamlessM4T這樣的有效多語言和多模態翻譯系統需要豐富的資源,涵蓋多種 語言和模態。一些用於翻譯的人工標記資源是免費提供的,雖然通常僅限於一小部分語言 或非常特定的領域。著名的例子包括平行文本集合,如Europarl [Koehn, 2005] 和聯合 國語料庫 [Ziemski et al., 2016]。少數人工創建的集合也涉及語音模態,如CoVoST [Wang et al., 2020, 2021c] 和mTEDx [Salesky et al., 2021]。然而,目前沒有開放 數據集能夠達到像Whisper [Radford et al., 2022] 或USM [Zhang et al., 2023a] 這 樣的計畫中所使用的規模,這些計畫證明了它們能夠實現前所未有的性能。 平行數據挖掘作為使用封閉數據的替代方法,不僅在語言涵蓋範圍上具有優勢,而且在語 料庫大小上也有優勢。當今的主要方法是將來自不同語言和模態的句子編碼成共同的固定 大小的嵌入空間,並根據相似度指標找到平行實例。然後,通過對大型單語語料庫進行成 對比較,進行挖掘,相似度高於一定閾值的句子被視為互相翻譯 [Schwenk, 2018; Artetxe and Schwenk, 2019a]。這種方法首次使用了多語言的Laser空間 [Artetxe and Schwenk, 2019b]。然後使用了師生訓練方法,將這種方法擴展到了200種語言 [Heffernan et al., 2022; NLLB Team et al., 2022],並隨後擴展到語音模態 [Duquenne et al., 2021, 2023a]。 在本節中,我們將描述如何使用平行數據挖掘來創建SeamlessAlign:迄今為止最大的多 模態翻譯開放數據集,總計470,000小時。整體工作流程在圖1中有所概述,並基於 SpeechMatrix [Duquenne et al., 2023a]中使用的方法。從大型原始音頻集合開始,我 們將文件分成重疊的段落,並應用語音語言識別(LID)。在文本方面,我們使用了與 NLLB [NLLB Team et al., 2022]相同的句子分段數據集。然後,語音和文本語料庫被投 影到共同的嵌入空間中,其中進行挖掘以識別具有最佳分割的翻譯對。相對於原始的 SpeechMatrix流程,引入了幾個改進: ‧ 改進且擴展的語音語言識別(LID)模型, ‧ 一個新穎的多模態嵌入空間, ‧ 將涵蓋範圍從17種擴展到37種語言, ‧ 增加了原始音頻量,總計4百萬小時。 在當前版本中,挖掘的焦點是SeamlessM4T系統的37種目標語言。將在我們未來的工作版 本中探索擴展到所有100種語言。 3.1 語音語言識別 對於原始音頻數據進行語言識別(LID)是我們工作流程中的關鍵組成部分。在這個階段 錯誤地標記語音可能會阻止高質量的音頻片段進行對齊,甚至更糟的是,可能會導致生成 的配對數據集中添加噪音。這可能會對下游的翻譯系統性能產生不利影響。 https://i.imgur.com/sPI1hmq.png
圖1:語音處理的工作流程。 儘管有眾多現成的語言識別(LID)模型,但沒有一個能夠涵蓋我們目標的100種語言。因 此,我們訓練了自己的模型,採用了ECAPA-TDNN架構,該架構在[Desplanques et al., 2020]中被引入,並且在VoxLingua107 [Valk and Alumäe, 2021]上訓練了一個開源模型 。這個新模型增加了對多種新語言的支援,包括摩洛哥阿拉伯語、埃及阿拉伯語、中央庫 爾德語、西中央奧羅莫語、愛爾蘭語、伊博語、吉爾吉斯語、干達語、麥蒂利語、梅特語 、尼揚扎語、奧迪亞語、廣東話和祖魯語。 3.1.1 訓練 基線 我們首先從頭開始重新訓練了一個系統,使用 VoxLingua107 的數據來復制基線。 這個系統被稱為 VL107 基線,在 VoxLingua107 的開發集上,在第30個時期實現了5.25% 的分類錯誤率。相比之下,HuggingFace 上提供的開源模型,稱為 VL107 HF,在錯誤率 方面達到了7%。 實驗設置 在我們的訓練流程經過驗證後,我們最終訓練了我們自己的模型,進行了40個 時期的訓練。這需要在8個GPU上耗時約172小時。總共使用了17,000小時的語音,每種語 言平均約171小時,範圍從1到600小時不等。測試語料涵蓋我們感興趣的100種語言,由 FLEURS 測試集、VoxLingua107 開發集以及從 VAANI、IIITH [Kumar Vuddagiri et al., 2018] 和 KENCORPUS [Wanjawa et al., 2022] 提取的額外測試數據組成。 結果 所有模型在測試數據上的 F1 分數在表 6 中呈現。結果是針對100種 SeamlessM4T 語言和與 VoxLingua107 有79種共同的語言給出的。我們可以看到,對額外的語言進行訓 練略微降低了共同語言集的整體性能,這是接近語言數量較多的直接後果。例如,祖魯語 (zul)經常與尼揚扎語(nya)混淆,伊博語(ibo)與約魯巴語(yor)混淆,現代標準 阿拉伯語(arb)與摩洛哥阿拉伯語(ary)和埃及阿拉伯語(arz)混淆。我們的模型在 17種語言上改進了分類(F1 差異大於5%),平均增益為14.6%,不包括新涵蓋的語言,同 時在12種語言上降低了分類(平均損失9.8%)。 https://i.imgur.com/wcMrekJ.png
表 6: 考慮到的 LID 系統在所有 SeamlessM4T 語言和跨模型支援的語言交集上的 F1 微 平均和宏平均。對於不支援完整100範圍的模型,使用破折號表示。 3.1.2 過濾 雖然在挖掘的過程中獲取最大數量的數據很重要,但我們還必須確保 LID 標籤的高質量 。根據特定語言的可用數據量,過濾以保留高質量的數據可能是有用的。因此,我們根據 開發語料庫中正確和不正確分類的每種語言的 LID 分數的高斯分佈進行了估計。我們選 擇了每種語言的閾值,使得 p(正確|分數) > p(不正確|分數)。通過拒絕8%的數據,我們 能夠將 F1 值進一步提高近3%。 https://i.imgur.com/6i92YdJ.png
表 7: 使用和不使用過濾的 LID100 系統在100種語言的 F1 微平均和覆蓋率。 3.2 規模化獲取原始音頻和文本數據 文本預處理 在文本方面,我們完全依賴於 NLLB [NLLB 團隊等,2022] 中使用的相同數 據集。相同的數據來源、清理和過濾步驟在我們的 Stopes 庫中規模運行。 音頻預處理 我們首先從公開可用的網絡數據儲存庫中獲取了400萬小時的原始音頻。表 10 提供了每種語言的原始音頻量統計數據。在此收集中,約有100萬小時的音頻是英語的 。然後,我們進行了一系列預處理步驟來編輯和改善整體的音頻質量。首先,我們去除了 儲存庫中的音頻文件URL的重複內容,下載了音頻文件並重新取樣為16KHz。隨後,我們使 用專用的音頻事件檢測(AED)模型過濾了非語音數據。 音頻分割 為了進行 S2TT 或 S2ST 的挖掘,將音頻文件分割成較小的塊,使其能夠盡可 能地映射到自包含的句子,相當於文本語料庫中的句子,是可取的。然而,語音中的真正 語義分割是一個開放性的問題 - 暫停可能是信息的一個組成部分,並且在不同語言之間 可能自然地出現不同的方式。對於挖掘目的,無法預先判斷哪些特定的片段可以最大程度 地提高挖掘對的整體質量。 因此,我們採用了從 [Duquenne 等人,2021] 中繪製的過度分割方法(如圖 1 所示)。 首先,我們使用一個開源的語音活動檢測(VAD)模型 [Silero, 2021] 將音頻文件分割 成較短的片段。隨後,我們的語音 LID 模型被用於每個文件。最後,我們創建了每個段 的幾個可能重疊的分割,將最佳分割的選擇留給下一節中描述的挖掘算法。這種過度分割 策略大致將考慮的潛在片段數量增加了八倍。 3.3 語音挖掘 我們的挖掘過程的整體工作流程如圖 2 所示。首先,我們訓練了文本(第 3.3.1 部分) 和語音(第 3.3.2 部分)的編碼器。然後,我們使用這些編碼器將兩種模態投影到一個 聯合嵌入空間中。然後,我們對其他語言中的文本句子或語音片段進行挖掘,以創建大量 的 S2TT 和 S2ST 對。然後將這些語料與其他資源結合,以訓練 SeamlessM4T 模型。 3.3.1 Sonar 文本嵌入空間 架構和訓練設置 我們開發了一個新的句子嵌入空間,名為句子級多模態和語言無關表示 ,簡稱 Sonar。Sonar 在很大程度上優於以前的 Laser 空間。它遵循相同的兩步方法: https://i.imgur.com/3OZhEOU.png
圖2:Sonar編碼和挖掘過程的工作流程。 首先,我們訓練了一個文本嵌入空間,然後依賴於一種教師-學生訓練策略,將其擴展到 語音模態。與 Laser 類似,最初的文本 Sonar 空間使用編碼器-解碼器架構,但基於能 夠在 200 種語言之間進行翻譯的 NLLB-1.3B 模型,該模型能夠在 200 種語言之間進行 翻譯[NLLB 團隊等,2022]。我們用均值池化來替換中間表示(即,解碼器僅關注單個向 量)。此架構使用所有 NLLB 的 T2TT 訓練數據進行微調,我們探索了幾個訓練目標。詳 細的剔除研究可以在 Duquenne 等人的 [2023b] 中找到。這產生了一個強大的、極具多 語言性質的句子表示,可以解碼為 NLLB 項目的所有 200 種語言。圖 3 提供了 Sonar 架構的示意圖,表 8 概述了 Sonar 框架的翻譯評估。 https://i.imgur.com/d8yMJtK.png
表8:在200種NLLB語言和COMET支持的89種語言上的Flores devtest集上的平均性能:翻 譯spBLEU和COMET分數,自動編碼spBLEU。 https://i.imgur.com/4WgZTkn.png
圖3:SONAR架構。 挖掘評估 就純粹的翻譯性能而言,我們觀察到固定大小的表示瓶頸導致翻譯成英語( 35.2→32.7)和從英語翻譯出來(24.9→21.6)的 BLEU 分數分別下降了 7% 和 13%。這 是一個相當有趣的結果,考慮到使用注意力通常被認為是實現合理性能的必要條件。 在挖掘性能方面,我們依賴於多語言相似性搜索 xsim 指標,該指標衡量在嵌入空間中搜 索最接近的向量時,Flores 數據集中未正確對齊的句子百分比。改進版本 xsim++ [Chen 等人,2023b] 在目標端添加了具有挑戰性的英語句子。這兩個指標都是實際的 T2TT 挖掘任務的良好代理,同時計算速度更快。 如表 9 所總結的,Sonar 在其他流行的多語言句子表示,如 Laser3 [Heffernan 等人, 2022] 或 LaBSE [Feng 等人,2022] 上表現出色。 https://i.imgur.com/42PGBCj.png
表9:在所有200種Flores語言上的相似性搜索結果(錯誤率),以及限制在98種各模型都 在其上進行了訓練的語言的交集。 3.3.2 訓練語音編碼器 架構和訓練設置 作為第二步,並遵循 [Duquenne 等人,2021],新的 Sonar 文本嵌入空 間通過教師-學生訓練擴展到語音模態。在該工作中,通過採用預訓練的 XLS-R 模型的 BOS 輸出來獲得了固定大小的語音表示[Babu 等人,2022]。然後,對該模型進行微調, 以最大化這種匯總語音表示與相同語言(ASR 轉錄)或英語(語音翻譯)中的句子嵌入之 間的余弦損失。我們通過以下方式改進了這個初始配方: ‧ 使用 MSE 損失而不是余弦損失。這使我們能夠將 Sonar 文本解碼器用於語音輸入, ‧ 使用 w2v-BERT 2.0 語音前端代替 XLS-R。w2v-BERT 2.0 在 143 種語言上進行了優 化(有關詳細信息,請參見第 4.1 節), ‧ 注意力池化。我們實施了一個三層序列到序列模型,將 w2v-BERT 2.0 的可變長度序 列轉換為固定大小的向量,而不是使用常規的池化方法(即均值或最大池化), ‧ 僅在人工執行的 ASR 轉錄上進行訓練。我們收集了大多數語言的至少 100 小時的 ASR 轉錄(請參見表 10 的“train”欄),並將語音編碼器專門用於它們, ‧ 與 [Heffernan 等人,2022; NLLB 團隊等,2022] 一樣,我們通過語言家族(即日耳 曼語或印度語言)將語言分組,在一個語音編碼器中將它們一起訓練。對於未來的研究, 留下了考慮每種語言的聲學特性的替代語言分組方法。 https://i.imgur.com/VEaANtS.png
表 10: 語音編碼器和挖掘數據量的統計信息。Sen2Txx、Sxx2Ten 和 SxxSen 分別對應於 與外國文本配對的英語語音,與英文文本配對的外國語音,以及與英語語音配對的外國語 音。破折號表示未挖掘的方向。我們提供了用於挖掘的原始音頻數據量以及用於訓練語音 編碼器的人工提供的 ASR 轉錄量。使用 Fleurs 測試數據集對語音編碼器進行 S2TT BLEU 評估。我們的模型執行zero-shot S2TT。最後三列提供了挖掘數據量。 語音編碼器的評估 訓練過的語音編碼器將用於 S2TT 和 S2ST 挖掘,所得的成對數據將 被輸入到 SeamlessM4T 系統中(參見第 4 節)。因此,理想的評估將包括通過在端到端 循環中使用各種語音編碼器的不同迭代來測試它們:進行挖掘,然後在挖掘的數據上訓 練 S2TT 或 S2ST 轉譯系統,並可能比較不同閾值的 Sonar 分數。不幸的是,這是一個 需要大量計算的方法。 因此,考慮到 Sonar 嵌入空間附帶了文本解碼器,我們選擇在 S2TT 任務上評估個別語 音編碼器。即,如同 [Duquenne 等人,2022, 2023c],我們將外語語音嵌入解碼為英文 文本。結果在表 10 中彙總,列“X-eng BLEU”。為了比較,我們還提供了 Whisper-Large-v2 [Radford 等人,2022] 的性能。需要強調的是,Sonar 語音編碼器僅 在 ASR 轉錄上進行了訓練,而 Sonar 文本解碼器從未接觸過任何語音輸入。因此,報告 的結果對應於完全zero-shot語音翻譯。儘管處於zero-shot的情況下,Sonar 語音編碼器 在一些高資源語言(如德語、俄語或葡萄牙語)中出現了 BLEU 分數的差距,然而,我們 的語音編碼器的zero-shot語音翻譯在一些低資源語言方面優於 Whisper-Large-v2,特別 是對於斯瓦希里語和一些南亞語言,如孟加拉語、坎納達語、泰盧固語和泰米爾語。 3.3.3 語音挖掘 邊界設定 使用我們的 Stopes 數據處理庫 [Andrews 等人,2022] 進行了挖掘。整體處 理與 NLLB [NLLB 團隊等人,2022] 中開發的 T2TT 挖掘相同。我們進行了所謂的全局挖 掘,其中一種語言中的所有語音片段都與另一種語言中的所有語音片段進行比較。相反, 本地挖掘則嘗試利用可能包含許多平行片段的較長語音片段的知識。一個典型的例子是多 種語言的國際事件文檔。這種高層次的信息在大規模情況下很難獲取。 首先,計算所有語音片段和文本句子的嵌入。然後,使用 FAISS 庫 [Johnson 等人, 2019] 對它們進行索引,以便在 GPU 上進行高效的大規模相似性搜索。最後,檢索出雙 向的最近鄰居,並根據 [Artetxe 和 Schwenk,2019a] 中引入的公式計算邊界分數: https://i.imgur.com/RMyJrY7.png
其中,x 和 y 分別表示來源和目標句子,而 NNk(x) 表示 x 在另一種語言中的 k 個最 近鄰居。我們將 k 設置為 16。 在過去的工作中,基於 Laser 嵌入式的雙語挖掘使用了 1.06 的邊界分數閾值 [Schwenk 等人,2021; NLLB 團隊等人,2022]。然而,Sonar 空間顯示出不同的動態, 因此相應地調整了最優閾值。由於通過 S2TT 或 S2ST 訓練進行的完整端到端評估過於耗 費計算資源,我們在人工檢查後將新的閾值設置為 1.15。表 10 中報告的統計數據是基 於此閾值的。 挖掘數據集 我們對外語語音進行了與英文文本的挖掘(表 10 中的 Sxx2Ten 欄)以及與 英文語音的挖掘(表 10 中的 Sxx2Sen 欄)。鑑於我們龐大的原始英文語音數據(100 萬小時)和外語文本收集(通常超過 10 億句子),我們僅對某些語言執行了此操作( 表 10 中的 Sen2Txx 欄)。其他方向將保留供未來的工作。 除了馬耳他語,我們只能獲取少量的原始音頻,我們能夠對所有語言進行超過 100 小時 的語音對齊,使其與英文語音相符。與英文文本的對齊對大多數語言而言達到了一千小時 ,對六種語言(即德語、法語、西班牙語、日語、俄語和中文普通話)則超過了一萬小時 。總的來說,SeamlessAlign 包括 37 種語言和總共 470,000 小時的數據: ‧ 英文語音對非英文文本(Sen2Txx)- 約 200,000 小時 ‧ 非英文語音對英文文本(Sxx2Ten)- 約 240,000 小時 ‧ 非英文語音對英文語音(Sxx2Sen)- 約 29,000 小時 添加這麼大量的數據來訓練大規模多語言的 S2ST 翻譯系統對計算資源提出了重大挑戰。 如第 4 節所述,並非所有的數據都用於建模,而只使用了最高 Sonar 對齊分數的子集。 由於我們的挖掘數據可以支持許多不同的用例,我們將開源完整數據的元數據(即 Sonar 閾值高達 1.15),以讓社區重新構建 SeamlessAlign 並將其用於自己的目的。因 此,最優閾值可以根據任務進行調整,平衡數據集大小和對齊質量。我們的挖掘代碼也 在 Stopes 庫中開源。 3.4 相關工作 3.4.1 語音語言識別 對於口語語言識別,傳統上採用了兩階段的工作流程:在傳統的表示法(如從原始音頻信 號提取的 i-vector 或 x-vector)之上訓練了一個分類器 [Dehak 等人,2011; Snyder 等人,2018]。相同的想法在端到端、集成的神經結構中得到了重新審視 [Cai 等人, 2019; Miao 等人,2019; Wan 等人,2019]。這些方法通常在輸入音頻變短時效果不佳, 這對於涉及多個說話者輪流交談的語音錄音可能是一個問題。為了解決這個問題,新的方 法被開發出來。Lopez-Moreno 等人 [2014] 表明,一個簡單的前饋網絡在這個任務上可 以超越 i-vectors。更複雜的架構,如卷積神經網絡或雙向 LSTM,在捕獲語音輸入信息 方面更加高效 [Lozano-Diez 等人,2015; Fernando 等人,2017]。一些其他方法試圖通 過針對較長片段的模型來彌補差距,這些方法通常使用教師-學生訓練 [Shen 等人, 2018, 2019]。 近期的倡議旨在擴大語言覆蓋範圍,超越傳統上非常高資源的少數語言。在 [Desplanques 等人,2020] 中介紹的 ECAPA-TDNN 架構已被證明能夠區分 Voxlingua107 的 107 種語言 [Valk 和 Alumäe,2021]。XLS-R 預訓練模型 [Babu 等 人,2022] 也在相同的數據集上進行了語言識別任務的微調。Whisper-Largev2 是另一個 流行的模型,可以為 99 種語言執行此任務 [Radford 等人,2022]。最近,MMS 項目進 一步將語言支持擴展到 4,000 種口語語言 [Pratap 等人,2023]。 3.4.2 語音分割 為了實現類似句子的語音片段,一種常用的方法是基於語音活動檢測(VAD)的暫停分割 。這種方法在各種應用中得到了廣泛的應用,包括語音挖掘、自動語音識別(ASR)和語 音翻譯。在這項工作中,我們採用了 Duquenne 等人 [2021] 提出的過度分割策略,該策 略在獲得 VAD 分割的基礎上進行。雖然這種過度分割顯著提高了挖掘過程的召回率,但 也帶來了某些缺點。具體來說,它導致了片段數量的大幅增加(8 倍),在嵌入空間中引 入了噪音,並增加了挖掘過程的計算需求。基於暫停的片段可能不會與語義一致的句子對 齊;實際上,它們往往太短,因為說話者的暫停可能會超出句子邊界。因此,為了語音翻 譯,研究人員提出了更複雜的分割策略,有可能提供更高質量的語音翻譯結果。Gá llego 等人 [2021] 使用了預訓練的 wav2vec 2.0 來檢測語音片段,而不是使用 VAD。 Potapczyk 和 Przybysz [2020a] 提出了一種分治(DAC)算法,該算法在 VAD 最長的檢 測到的暫停之上進行迭代操作,直到所有片段都在最大片段長度參數以下。Gaido 等人 [2021] 通過混合方法進一步擴展了這一方法。SHAS [Tsiamas 等人,2022] 在頂部使用 wav2vec 2.0 上的分類器進行訓練,並使用手動分割的語料庫進行最佳分割。與 Potapczyk 和 Przybysz [2020a] 類似,它然後在網絡的分割概率上應用 DAC 算法,以 獲得最終的分割決策。這種方法在文字到語音翻譯任務中比簡單的基於暫停的分割和其他 基線方法取得了顯著的改進。這些分割方法對於語音挖掘可能是有前景的,為未來的研究 提供了令人興奮的方向。 3.4.3 多語言和多模態表示 有幾項研究探討了如何學習多語言句子表示。眾所周知的方法包括 Laser [Artetxe 和 Schwenk,2019b]、LaBSE [Feng 等人,2022],或者 [Yang 等人,2019; Ramesh 等人, 2022]。雖然 Laser 是通過 MT 翻譯目標進行訓練的,但與 Laser 嵌入空間兼容的解碼 器並不是免費提供的。據我們所知,Sonar 是第一個具有高效多語言解碼器的句子嵌入空 間。另一個研究方向是首先訓練一個英文句子表示(例如 sentence-BERT [Reimers 和 Gurevych,2019]),然後在第二步中使用教師-學生訓練將其擴展到更多語言 [Reimers 和 Gurevych,2020]。相同的方法被用來將 Laser 擴展到 200 種語言,稱為 Laser3 [Heffernan 等人,2022]。 學習無監督的語音表示是幾項工作的焦點,無論是涉及單語言 [Baevski 等人,2022] 還 是多語言語音 [Babu 等人,2022; Hsu 等人,2021; Chung 等人,2021]。聯合文本和語 音預訓練模型的例子包括 mSLAM [Bapna 等人,2022] 和 Mu2SLAM [Cheng 等人,2023] 。Duquenne 等人 [2021] 是第一個引入了固定大小的文本和語音表示的人,可以用於執 行多模態挖掘,隨後是 [Khurana 等人,2022]。 3.4.4 語音挖掘 Duquenne 等人 [2021] 提出了一個聯合文本/語音表示的概念驗證,可以用於執行文本/ 語音或語音/語音挖掘。在後續工作中,這種方法被用於將 VoxPopuli 語料庫中的 17 種 語言的語音進行對齊,形成了 SpeechMatrix 語料庫 [Duquenne 等人,2023a]。作者們 在所有 136 種可能的語言組合中對平行語音片段進行了挖掘,總共產生了 41.8 萬小時 的語音對語音對齊,其中約 4.6 萬小時與英語對齊。SpeechMatrix 是一個大型語料庫, 但其領域相對有限,因為 VoxPopuli 語料庫的原始音頻來自於歐洲議會演講。 SpeechMatrix 語料庫是免費提供的。Khurana 等人 [2022] 使用了一個稱為 Samu-Xlsr 的聯合文本/語音嵌入空間,在 CoVoST 2、MUST-C 和 MTEDx 語料庫中評估了文本和語音 檢索的召回率。 還有一些間接創建語音對語音語料庫的方法。一個研究方向是對在文本層面進行對齊的語 料庫進行語音合成(例如基於 CoVoST 2 語音到文本翻譯語料庫的 CVSS 語料庫 [Jia 等 人,2022b])。 _________________ 4.SeamlessM4T 模型 近年來,直接的語音到文本翻譯模型取得了顯著的進展 [Berard 等人,2016; Weiss 等 人,2017a; Di Gangi 等人,2019; Agarwal 等人,2023],並在特定情況下(例如受限 數據、領域內設置、特定語言對等等)在學術基準下實現了與串聯模型的相等。然而,隨 著大規模多語言翻譯模型 [NLLB Team 等人,2022; Siddhant 等人,2022; Fan 等人, 2020] 和弱監督的自動語音識別模型 [Radford 等人,2022; Zhang 等人,2023a; Pratap 等人,2023] 的出現,這些比較已經過時。簡單來說,直接模型現在在強大的串 聯模型面前明顯落後。 SeamlessM4T 的目標之一是在大規模多語言和多模態設置下,通過構建更強大的直接 X2T 模型(用於將文本和語音翻譯成文本),結合強大的語音表示學習模型和大規模多語 言 T2TT 模型,縮小直接模型和串聯模型在 S2TT 方面的差距。除了文本輸出,我們的第 二個目標基於最近的語音翻譯進展,這些進展強調了構建產生語音輸出的系統[Jia 等人 ,2019b; Lee 等人,2022a; Inaguma 等人,2023]。我們通過 UnitY [Inaguma 等人, 2023] 實現了語音到語音的翻譯,這是一種兩過程建模框架,首先生成文本,然後預測離 散的聲學單元。與串聯模型不同,UnitY 中的不同組件(參見圖 4)可以進行聯合優化。 上述方法緩解了串聯誤差傳播和領域不匹配的問題,同時依賴中間的語義表示來減輕多模 態源-目標映射的問題。用於合成語音的聲碼器是單獨訓練的(請參見第 4.3.1 節)。 圖 4 概述了 SeamlessM4T 模型,包括其四個構建模塊:(1) 大規模多語言 T2TT 模型 SeamlessM4T-NLLB,(2) w2v-BERT 2.0,一個利用無標記語音音頻數據的語音表示學習模 型,(3) T2U,一個文本到單元序列到序列模型,以及 (4) 多語言 HiFi-GAN 單元聲碼器 ,用於從單元合成語音。 SeamlessM4T 多任務 UnitY 模型整合了前三個構建模塊的組件,並在三個階段進行了微 調,從僅具有英文目標的 X2T 模型 (1,2) 開始,最終以能夠執行 T2TT、S2TT 和 S2ST 以及 ASR 的全功能多任務 UnitY (1,2,3) 系統結束。接下來,我們首先在第 4.1 節中 描述了無監督語音預訓練 (w2v-BERT 2.0)。然後在第 4.2 節中介紹了 X2T 模型,從數 據準備流程 (第 4.2.1 節) 開始。第 4.2.2 節描述了我們的多語言 T2TT 模型,第 4.2.3 節詳細介紹了語音編碼器和 T2TT 模型如何聯合進行微調,以實現具有多模態和多 任務功能的 X2T。接下來,我們將從聲學單元提取流程和將單元映射回語音波形的聲碼器 設計等方面,介紹 S2ST 任務,第 4.3.1 節。然後,在第 4.3.2 節中描述了 T2U 預訓 練。第 4.3.3 節最終概述了所有這些組件如何在第三和最後的微調階段中結合。我們在 第 4.4 節使用標準自動度量標準對模型進行了評估,並將其性能與最先進的語音翻譯模 型進行了比較。 https://i.imgur.com/gcOC7KF.png
圖 4:SeamlessM4T 概述。 (1) 顯示了在微調多任務 UnitY 時使用的預訓練模型。 (2) 概述了多任務 UnitY,其中包括其兩個編碼器、文本解碼器、T2U 編碼器-解碼器, 以及支持合成 S2ST 輸出語音的聲碼器。 4.1 無監督語音預訓練 語音識別和翻譯任務的標籤稀缺且昂貴,尤其對於資源有限的語言。僅有有限監督訓練資 源的情況下訓練語音翻譯模型是具有挑戰性的。因此,使用無標記語音音頻數據進行自我 監督預訓練是一種實際方法,可以減少模型訓練中對監督的需求。這種方法有助於在比沒 有預訓練的模型所需的標記資料更少的情況下實現相同的識別和翻譯質量。它還有助於在 相同數量的標記資料下推動模型性能的極限。最近並且公開可用的最先進的多語言語音預 訓練模型是 MMS [Pratap 等人,2023]。它通過額外的 55K 小時訓練數據擴展了其前身 XLS-R [Babu 等人,2022],並覆蓋了超過 1,300 種新語言(請參見表 11)。 https://i.imgur.com/YxxSo1L.png
表 11:最先進的 ASR 和 S2TT 模型中的多語言語音預訓練比較。+從具有語言信息的數 據部分估計而來。 除了 MMS,USM [Zhang 等人,2023a] 是一個專有的 SOTA 多語言語音預訓練模型,它利 用了最新的模型架構(使用 BEST-RQ [Chiu 等人,2022] 代替 wav2vec 2.0 [Baevski 等人,2020]),擁有最大規模的訓練數據(12M 小時),並覆蓋了超過 300 種語言。 w2v-BERT 2.0 採用 w2v-BERT [Chung 等人,2021],將對比學習和遮罩預測學習結合在 一起,並在兩種學習目標中通過額外的編碼本改進了 w2v-BERT。對比學習模塊用於學習 Gumbel 向量量化(GVQ)編碼本和文本化表示,這些表示被餵入後續的遮罩預測學習模塊 。後者通過一個不同的學習任務,直接預測 GVQ 編碼,而不是極化遮罩位置的正確和不 正確編碼的預測概率,來改進文本化表示。w2v-BERT 2.0 採用 Baevski 等人 [2020] 的 方法,使用兩個 GVQ 編碼本進行產品量化,而不是使用單一的 GVQ 編碼本。其對比學習 損失 Lc 與 w2v-BERT 相同,包括編碼本多樣性損失,以鼓勵編碼的均勻使用。與 w2v-BERT 類似,我們使用 GVQ 編碼本進行遮罩預測學習,並將相應的損失表示為 LmGVQ 。我們還使用隨機投影量化器 [Chiu 等人,2022](RPQ)創建了額外的遮罩預測任務, 將相應的損失表示為 LmRPQ。w2v-BERT 2.0 的整體訓練損失 L 定義如下: https://i.imgur.com/53BJAyR.png
其中,損失權重 wc、wmGVQ 和 wmRPQ 設置為 1.0、0.5 和 0.5。 我們遵循 SeamlessM4T-Large 中 w2v-BERT 2.0 預訓練語音編碼器的 w2v-BERT XL 架 構 [Chung 等人,2021],它具有 24 個 Conformer 層 [Gulati 等人,2020] 和約 600M 模型參數。w2v-BERT 2.0 模型在覆蓋超過 143 種語言的 100 萬小時開放語音音頻 數據上進行訓練。 4.2 X2T:從語音到文本的翻譯和轉錄 https://i.imgur.com/haAOdiV.png
圖 5:SeamlessM4T X2T 模型概述。 (1) 描述主要的兩個構建塊:w2v-BERT 2.0 和 SeamlessM4T-NLLB。 (2) 描述 X2T 模型的訓練。 在第一階段,模型在 X-eng 方向上進行訓練,第二階段,添加了 eng-X 方向。 我們多任務 UnitY 框架的核心是 X2T 模型,這是一個多編碼器序列到序列模型,其中包 括一個基於 Conformer 的語音編碼器 [Gulati 等人,2020] 用於語音輸入,另一個基 於 Transformer 的編碼器 [Vaswani 等人,2017] 用於文本輸入,兩者均與相同的文本 解碼器相結合。我們的 X2T 模型在將源語言的語音音頻與目標語言的文本進行配對的 S2TT 數據上進行訓練。 4.2.1 準備 X2T 數據 https://i.imgur.com/HDXPpVP.png
圖 6:用於訓練我們的 SeamlessM4T 模型的 ASR 和 X-eng S2TT 數據的統計信息。我們 在 ASR、S2TT 主要數據和挖掘數據之間以小時(對數刻度)顯示數據規模。語言按資源 水平升序排列。有關數值統計,請參見表 35。 處理人工標記數據 當使用人工標記數據時,我們從逐字逐句的轉錄中刪除了特殊標記, 如 <silence> 和 <no-speech>。我們還進行了長度過濾,以刪除超過 100 個子詞令牌的 最大文本長度的示例(基於下面所述的文本分詞器),以及文本與音頻長度比例偏差超過 每秒 5 個子詞的對。這樣做有助於在訓練時提高批處理效率,同時消除可能存在噪音或 不對齊的對。 偽標記 與任何序列到序列任務一樣,S2TT 的性能取決於高質量訓練數據的可用性。然而 ,與其 T2TT 或 ASR 對應物相比,人工標記的 S2TT 數據量稀缺。為了解決這種標記數 據不足的問題,我們採用了偽標記 [Jia 等人,2019a;Pino 等人,2020] 的方法,使用 多語言 T2TT 模型對 ASR 數據進行偽標記。在這種情況下,我們使用 NLLB-200-3.3B 生 成了由 NLLB Team 等人 [2022] 推薦的解碼選項生成了偽標記。此後,我們將人工標記 的數據和偽標記的數據稱為主要數據。 平行數據 挖掘即使有了偽標記的 ASR 數據,S2TT 數據的量與 T2TT 數據的規模相比微不 足道。例如,考慮英意方向,這是 T2TT 中高資源的配對之一,具有超過 128M 平行句子 ,但只有 200 萬對英文文本與意大利語音音頻配對用於 S2TT。平行數據挖掘(請參見 第 3 節中如何建立 SeamlessAlign)是我們採用的另一種策略,以收集更多的訓練數據 。然而,這種挖掘往往會產生噪音對齊,需要進行一些過濾。我們在每個 33 個 X-eng 方向和每個 29 個 eng-X 方向中使用前 400 小時的 SeamlessAlign(參見第 3 節), 基於 Sonar 對齊分數。這總共增加了 18.3K 小時的語音音頻。我們在第 4.5.3 節中展 示,這些挑選出的挖掘數據在性能提升和訓練計算成本之間取得了良好的平衡。 過濾 我們對主要和挖掘數據的結合數據進行了額外的過濾。遵循 NLLB Team 等人 [2022] 的方法,我們實施了一個毒性過濾器。這將刪除具有毒性不平衡的對(即,在源 和目標中檢測到的有毒項目數量之間的差異超過某個閾值時)。對於 S2TT 數據,轉錄被 用作計數有毒項目時的語音輸入的代理。我們將不平衡閾值設置為 1。此外,我們還應用 了長度過濾器。我們刪除了發音小於 0.1 秒或長於 50 秒的對。我們還刪除了文本長度 超過 250 個子詞(基於下面所述的分詞器)的對。最後,我們刪除了文本包含超過 20% 表情符號、超過 50% 標點符號或超過 50% 空格的對。 圖 6 展示了用於訓練 SeamlessM4T 模型的過濾 X-eng S2TT 數據的分布。根據每種語言 中的語音音頻總小時數,我們評估了其資源水平:超過 1000 小時的語言被認定為高資源 ,介於 500 和 1000 小時之間的語言被認定為中資源,少於 500 小時的語言被認定為低 資源。 訓練文本分詞器。 NLLB-200 [NLLB Team 等人,2022] 中使用的分詞器是使用 SentencePiece [Kudo 和 Richardson,2018] 通過 BPE 算法 [Gage,1994;Sennrich 等人,2016] 訓練的。這些多語言分詞器及其底層詞彙是通過從每種語言中採樣的數據進 行訓練的。由於採樣的人工成分和漢字書寫系統中更多獨特符號的數量要大得多,因此許 多重要的中文字符在原始 NLLB-200 詞彙中可能丟失。為了解決這個問題,我們強制將這 些字符納入,即使在取樣的 SentencePiece 訓練數據中可能不出現。為了決定要包含哪 些字符,我們參考了 MTSU 列表和從挖掘數據獲得的類似字符頻率列表,以選擇前 5000 個簡體中文字、繁體中文字和日語漢字字符。然後,只要它們在我們的訓練數據中至少出 現 15 次,我們就強制包含它們,以確保模型能夠學習如何嵌入這些令牌。 我們在 NLLB 數據 [NLLB Team 等人,2022] 上重新訓練了一個 256K 大小的 SentencePiece 詞彙表,用於 SeamlessM4T。由此產生的分詞器將 MTSU 前 5K 中文字符 的覆蓋率從 54% 提高到 84%。 4.2.2 訓練大規模多語言文本到文本翻譯模型 我們按照 NLLB Team 等人 [2022] 使用 Stopes [Andrews 等人,2022] 的相同數據準備 和訓練流程進行。由於語言覆蓋範圍較小(100種,而不是NLLB的200種語言),我們能夠 顯著減小模型的大小。儘管完整的 NLLB-200 模型具有混合專家結構,包含了 54.5B 參 數(稍後可以通過蒸餾減少),但我們選擇了 NLLB Team 等人 [2022] 中提出的較小的 架構之一,即 1.3B 的密集模型。我們將 NLLB-200 的訓練數據限制在了支援目標文本的 95種 SeamlessM4T 語言上。此外,我們還包括了超過 7500 萬對來自開源 T2TT 數據集 的雙語數據,這些數據在 NLLB Team 等人 [2022] 中未包含。這些數據涉及到現代標準 阿拉伯語(arb)、普通話(cmn)、法語(fra)、俄語(rus)和西班牙語(spa)。 https://i.imgur.com/NCwzMB9.png
表 12:95種支援語言上的平均 Flores devtest chrF++。 我們在表 12 中比較了 SeamlessM4T-NLLB 在 Flores 上的性能與大小相當的 NLLB 模型 在從英語(eng–X)翻譯到其他語言和從其他語言(X–eng)翻譯到英語時的性能。該模 型在性能上優於 NLLB-200 中的較小模型(1.3B 和 1.3B-distil),並與較大的 3.3B 模型性能相當。 4.2.3 多模態和多任務轉換為目標文本 在 SeamlessM4T 中,我們利用基礎模型,這些模型要麼在未標記數據上進行了預訓練( 用於語音編碼器預訓練的 w2v-BERT 2.0),要麼在受監督的高資源任務上進行了訓練( 用於 T2TT 的 NLLB 模型),以提高轉換任務(語音到文本和語音到語音)的質量。為了 融合這些預訓練的組件並通過多個多模態任務實現含義轉移,我們訓練了一個端到端模型 ,其中包括(a)一個語音編碼器(w2v-BERT 2.0),後綴有一個長度適配器,(b)文本 編碼器(NLLB 編碼器),以及(c)文本解碼器(NLLB 解碼器)。對於長度適配器,我 們使用了 M-adaptor [Zhao 等人,2022] 的修改版本,其中我們將 Q、K 和 V 的3個獨 立池化模塊替換為一個共享池化模塊,以提高效率。 模型進行了微調,以聯合優化以下目標函數: https://i.imgur.com/DvT0mCI.png
其中 x_text 和 x_speech 是源語言中的文本和語音,y_text 是目標語言中的目標文本 。我們另外優化了一個輔助目標函數,以令牌級別的知識蒸餾(LKD)形式進行,以進一 步將強大的 MT 模型的知識轉移到學生的語音翻譯任務(S2TT)上。 https://i.imgur.com/LP8pqXE.png
最終的損失是所有三個損失的加權和:L = αLS2TT + βLT2TT + γLKD,其中 α、β、 γ 是在開發數據上調整的標量超參數。當任務不適合數據三元組的設計時,我們將翻譯 任務替換為自編碼——例如,在 ASR 上,y_text 被替換為 x_text,此時教師分布來自 自編碼(p(.|x_text_<t , x_text))。 我們分兩個階段訓練了 X2T 模型。第一階段的目標是對受監督的英語 ASR 數據和翻譯為 英語的 S2TT 數據進行訓練。我們發現,這一步不僅有助於改善 X-eng 翻譯的質量,還 有助於 eng-X 翻譯的質量。事實上,我們假設讓模型專注於一個目標語言,同時微調多 語言語音表示,這樣可以防止干擾從目標方向傳播回來。在第二階段,我們將受監督的 eng-X S2TT 數據和非英語 ASR 數據添加到混合中。 4.3 語音到語音翻譯 (1) 預訓練模型 https://i.imgur.com/1jUkwNE.png
圖 7:SeamlessM4T 多任務 UnitY 模型概觀。(1)描述了在 X2T 之上的兩個額外的組 成部分:T2U 編碼器解碼器和單位語音合成器。(2)描述了 UnitY 模型的訓練。在階段 3中,模型在 S2ST 數據上進行訓練。 我們提出的語音到語音翻譯模型的關鍵是使用自我監督的離散聲學單元來表示目標語音, 從而將 S2ST 問題分解為語音到單位的翻譯(S2UT)步驟和單位到語音(U2S)轉換步驟 。對於 S2UT,SeamlessM4T 模型(如圖 4 所示)使用 UnitY 作為兩遍解碼框架,首先 生成文本,然後預測離散的聲學單元。與普通的 UnitY 模型 [Inaguma 等人,2023] 相 比,(1)從頭開始初始化的核心 S2TT 模型被替換為預訓練的 X2T 模型,用於聯合優 化 T2TT、S2TT 和 ASR,(2)淺層的 T2U 模型(在 Inaguma 等人 [2023] 中稱為 T2U 單位編碼器和第二遍單位解碼器)被更深的基於 Transformer 的編碼器解碼器模型所取 代,具有 6 個 Transformer 層,(3)T2U 模型也被預訓練在 T2U 任務上,而不是從頭 開始訓練。X2T 的預訓練提供了更強大的語音編碼器和更高質量的第一遍文本解碼器, 而 T2U 模型的縮放和預訓練使我們能夠更好地處理多語言單位生成而無需干擾。 4.3.1 準備 S2ST 數據 離散聲學單元 最近的研究通過使用自我監督的離散聲學單元作為目標,為構建直接語音翻 譯模型的方法提供了最佳翻譯性能[Tjandra等,2019; Lee等,2022a,b; Zhang等, 2022; Chen等,2023c]。我們從 XLS-R-1B [Babu等,2022] 的第35層中提取特徵,以 50Hz的幀速率獲得連續的語音表示。從 XLS-R 的連續表示空間到離散類別的映射是必要 的,以將目標語音映射到一系列離散的標記。我們從每種語言中隨機選取並編碼了10,000 個未標記的音頻樣本,經過這些表示的 k-means 算法來估算 K 個聚類中心 [Lakhotia等 ,2021; Polyak等,2021; Lee等,2022a]。這些中心類似於一個編碼簿,用於將一系列 XLS-R 語音表示映射到一系列中心索引或聲學單元。在不同的聚類數(K ∈ {1000,2000,5000,10000})下的實驗表明,使用來自 XLS-R-1B 第35層的特徵的 K=10000 可以實現最佳的語音重新合成 WER [Polyak等,2021]。 XLS-R 在語言覆蓋範圍上比現有的 HuBERT [Hsu等,2021] 模型更廣泛,我們發現在重疊 的語言上,它的語音重新合成性能與 HuBERT 相近。我們還嘗試了 w2v-BERT 2.0,但顯 示出較差的性能。這可以歸因於 w2v-BERT 訓練時使用對比和 MLM 目標,鼓勵模型僅學 習語義標記,而不是聲學標記。 使用 HiFi-GAN 合成多語言單位 根據 Gong 等人 [2023],我們建立了從學習的單位中進 行語音合成的多語言語音合成器。HiFi-GAN 語音合成器 [Kong等,2020] 配備了語言嵌 入,以建模語言特定的聲學信息。此外,為了減輕跨語言的干擾,在多語言訓練中使用語 言識別作為輔助損失。我們使用委託和公開可用的數據集,包括單說話者和多說話者的 TTS 數據集,對能夠將 S2UT 模型預測的離散單位轉換為波形的36種目標語言進行多語言 語音合成器的訓練。與單語言合成器相比,我們將持續時間預測器和語音語言識別(LID )分類器的嵌入維度翻倍,以達到1280。 https://i.imgur.com/aVC0h6r.png
圖8:在訓練SeamlessM4T模型的第三階段使用的S2ST數據統計。我們顯示主要和挖掘數據 之間的語音時長,語言按資源水平升序排序。有關數值統計,請參見表36。 使用文本到單位的偽標籤 由於並行語音到語音的訓練數據不足,這顯著限制了高質量 S2UT 模型的訓練。為了克服這種數據稀缺,常見的做法是使用 TTS 模型將文本從語音到 文本的數據集(參見第 4.2.1 節)轉換為合成語音[Jia 等人,2019b; Lee 等人, 2022a],然後再使用先前描述的單位提取流程將此合成語音轉換為單位。這種兩步單位提 取過程是一個緩慢的過程,而且在大規模上很難擴展,因為它依賴於 TTS 模型。對於所 有語言,尤其是對於低資源語言,很難找到高質量的現成 TTS 模型。建立可靠的單語言 或多語言內部 TTS 模型也不可擴展,因為在收集高質量的潔凈語音數據方面存在挑戰。 為了克服這些挑戰,我們避免了合成語音的需求,而是在所有 36 種目標語音語言上訓練 了多語言文本到單位(T2U)模型。這些模型可以直接將文本轉換為目標離散單位,並且 可以在現有的 ASR 數據集上進行訓練。多語言訓練受益於高資源語言和低資源語言之間 的跨語言轉移,從而也提高了偽標記數據的質量。為了從我們的配對數據中刪除離群樣本 ,我們基於每個文本標記的音頻生成秒數進行了過濾,並丟棄任何比率超過0.5的配對。 並行數據挖掘:SeamlessAlign 我們根據可用情況在每個語言方向上添加了多達 2500 小 時的從 SeamlessAlign 挖掘的語音到語音數據(參見第 3 節)。我們使用基於 XLSR 的 單位提取流程,從挖掘數據中提取目標語音的離散聲學單元。然後,通過部署內部 ASR 模型,基於目標語音生成文本轉錄,用於第一遍解碼器。 圖 8 顯示了用於訓練 SeamlessM4T 模型的所有 S2ST 數據在主要數據和挖掘數據之間的 分佈。 4.3.2 T2U 模型 T2U 模型是基於 Transformer 的編碼器解碼器模型,使用 ASR 數據中的對齊文本單位進 行訓練。我們為兩個目的訓練了 T2U 模型:(1)進行偽標籤(第 4.3.1 節)和(2)初 始化 UnitY 中的 T2U 組件。對於(1),我們訓練了一個具有 12 個編碼器和 12 個解 碼器層的模型。對於(2),我們訓練了一個較小的 T2U 模型,具有 6 個編碼器和 6 個 解碼器層。初始實驗顯示,雖然較小的 T2U 模型的質量較低於較大的模型,但在 UnitY 中將較小的 T2U 用較大的模型的標籤進行微調(即從更強的 T2U 中提取知識)可以彌補 差距,同時又具有參數效率。 4.3.3 第三階段的 S2ST 微調 在微調的最後階段,我們將多任務 UnitY 模型(參見圖 4)初始化為(1)預訓練的 X2T 模型和(2)預訓練的 T2U 模型,並在 X–eng 和 eng–X S2ST 轉譯數據的組合上 進行微調,總共 121K 小時(見圖 8 中的詳細內容)。我們凍結了對應於 X2T 模型的模 型權重,只微調了 T2U 組件。這是為了確保模型在先前微調階段的任務上的性能保持不 變。 4.4 SeamlessM4T 模型 在前幾節中介紹的所有組件的基礎上,我們在三個階段中訓練了 SeamlessM4TLarge 模型 。SeamlessM4T-Large 擁有 23 億參數,並在 T2TT 中進行微調,涵蓋了 95 種與英語配 對的語言,對 96 種語言的 ASR 進行微調,對 89 種與英語配對的 S2TT 進行微調,對 95 種方向的 S2ST 進行微調,包括轉換成英語和英語以外的 35 種目標語言。每個方向 的監督數據量詳見表 35 和表 36。這意味著,對於一些源語言,我們的模型在零樣本 (zero-shot)情況下進行評估,以達到表 2 中描述的 100-eng 的覆蓋範圍。 為了提供一個合理大小的模型,我們遵循相同的方法來訓練 SeamlessM4TMedium。該模型 的參數比 SeamlessM4T-Large 少了 57%,旨在成為一個可供微調、改進或進行分析的可 用測試平臺。SeamlessM4T-Medium 具有與 SeamlessM4T-Large 相同的覆蓋範圍,但基於 更小和更參數效率的組件進行構建(見圖 4)。我們預先訓練了一個具有 3 億參數的較 小 w2v-BERT 2.0,並使用 NLLB Team 等人 [2022] 的精煉模型(NLLB-600M-Distilled )初始化了多任務 UnitY 的 T2TT 模塊。在表 13 中比較了 SeamlessM4T-Large 和 SeamlessM4T-Medium。 https://i.imgur.com/1DYsiIo.png
表 13:SeamlessM4T 模型中使用的組成部分的參數數量。 *:包括長度適配器的參數。 我們在所有四個監督任務(T2TT、ASR、S2TT 和 S2ST)以及文本到語音翻譯(T2ST,也 稱為跨語言文本到語音合成[Zhang等,2023b])的零樣本(zero-shot)任務上評估了我們 的模型。為了生成文本假設,我們使用波束搜索(寬度 = 5)進行解碼。對於 T2TT,我 們使用 chrF++進行評分,對於 S2TT,我們使用 SacreBLEU(使用默認的 13a 分詞器和 字符級分詞器進行中文(cmn)、日語(jpn)、泰語(tha)、老撾語(lao)和緬甸語( mya)的分詞;請參見表 4 中的標誌)。對於 ASR,我們使用 WER 對規範化的轉錄和參 考進行評分,遵循 Radford 等人 [2022]。 在S2ST和T2ST推斷期間,我們進行了兩次通過束搜索解碼——從第一次解碼中選擇的最佳 假設被嵌入到文本解碼器中,並被送到T2U中搜索最佳的單位序列假設。我們在兩個搜索 中都使用了寬度為5的束搜索。我們使用ASR-BLEU [Lee等,2022a]對S2ST和T2ST的準確性 進行評估,其中eng–X方向使用Whisper-Large-v2作為基礎ASR模型,而X–eng方向使用 Whisper-Medium。我們將Whisper的解碼溫度設置為零,並使用貪婪解碼來確保ASR模型的 確定性行為。在計算BLEU分數之前,轉錄的假設以及參考文本都遵循Radford等人[2022] 的方法進行了正規化。 4.4.1 與串聯方法的比較 在 SeamlessM4T 和 Whisper 兩者支援的語言集合中,我們在表 14 中將我們的直接 S2TT 模型的性能與串聯模型進行了比較,即 Whisper ASR 模型和 NLLB T2TT 模型的組 合。在 X–eng 方向上,SeamlessM4T-Large 的性能優於具有不到 30 億參數的串聯模 型 2 個 BLEU 分,在 eng–X 方向上則優於 0.5 個 BLEU 分。我們還將表 14 中的比較 添加到了具有大型 NLLB-3.3B T2TT 模型的串聯模型。這些模型的參數超過了 40 億,只 在 eng–X 方向上優於 SeamlessM4T-Large。在 X–eng 方向上,SeamlessM4T-Large 在 平均方向上優於 Whisper-Large-v2 + NLLB-3.3B 約 1.3 個 BLEU 分。 表 15 比較了 SeamlessM4T-Large 和串聯模型之間的 S2ST。對於 S2ST,我們查看了兩 種串聯的選項:(1)三階段的 ASR、T2TT 和 TTS,以及(2)兩階段的 S2TT 和 TTS。 在 Fleurs X–eng 方向上,我們的 SeamlessM4T-Large 在 ASR-BLEU 分數上優於 2 階 段串聯模型 9 分。它還在 3 階段串聯模型(Whisper-Large-v2 + NLLB-3.3B + YourTTS )方面優於 2.6 個 ASR-BLEU 分。在 CVSS 上,SeamlessM4T-Large 在 2 階段串聯模型 (Whisper-Large-v2 + YourTTS)上超出了 14 個 ASR-BLEU 分。在 Fleurs eng–X 方 向上,SeamlessM4T-Large 在 32 個 X–eng 方向上的平均 ASR-BLEU 分數為 21.5,排 除了目標語言,其中 Whisper-Large-v2(用於 ASR-BLEU 的 ASR 模型)的 WER 高於 100。相比之下,中等大小模型(SeamlessM4T-Medium)在 S2ST eng–X 方向上的平均 ASR-BLEU 分數為 15.4。 4.4.2 多任務 X2T 結果 我們在表 16 中報告了 Fleurs 基準的 ASR 和 S2TT(X–eng 和 eng–X)任務,以及相 關的 T2TT(X–eng 和 eng–X)的 Flores 基準。我們還在 CoVoST 2 的評估測試集上 報告了結果(X–eng 和 eng–X)。SeamlessM4T 模型在 S2TT X–eng 方向上的表現優 於先前的直接 SOTA 模型(AudioPaLM-2 8B AST [Rubenstein 等,2023]),在 S2TT X –eng 方向上的 BLEU 分數上提高了 4.2 分(即提高了 20%)。在 CoVoST 2 eng–X 方 向上,SeamlessM4T-Large 比先前的 SOTA(XLS-R)提高了 2.8 個 BLEU 分。然而,在 X–eng 方向上,它在 BLEU 分數上落後於 AudioPaLM 3.7 個 BLEU 分。對於 ASR, SeamlessM4T 在重疊的 77 個支援語言上的表現超越了 Whisper [Radford 等,2022], WER 減少了 45%。我們還在 Fleurs-54 上對比了 MMS [Pratap 等,2023],這是 Fleurs 語言的一個子集,MMS 和 Whisper 都支援。SeamlessM4T-Large 在 CTC 方面的 變體上超過了 6% 的 WER,但在利用單語 n-gram 語言模型的變體方面則落後(WER 更 好 5%)。 https://i.imgur.com/cc7ssBN.png
表 14:Fleurs S2TT 上與串聯 ASR + T2TT 模型的比較 https://i.imgur.com/oo4J7sd.png
表 15:Fleurs 和 CVSS S2ST X–eng 上的 2/3 階段串聯模型的比較 在 T2TT 支援任務中,我們的 SeamlessM4T 模型在 X–eng 方向上與 NLLB-3.3B [NLLB Team 等,2022] 的性能相匹配,並在 eng–X 方向上提高了 1 chrF++ 分。為了進一步 了解 Fleurs S2TT X–eng 方向的改進來自於哪些方面,我們根據資源級別(請參見表 35 中的確切語言列表)將語言進行分類,並在表 17 中報告每個資源級別的平均 BLEU 分數。結果顯示,SeamlessM4T-Large 在從低資源語言翻譯方面顯著提高了質量,BLEU 分數提高了 +7.4(即比 AudioPaLM-2-8B-AST 提高了 40%)。我們還在低+列中對由 AudioPaLM-2-8B-AST 進行零樣本(zero-shot)評估的低資源方向進行了平均,+5 BLEU 的 增益表明這種改進超越了僅僅是監督,而應歸功於監督數據的質量和訓練方法。 https://i.imgur.com/SaHehxf.png
表 16:多任務 X2T 結果。SeamlessM4T-Large 在 X2T 任務(S2TT、ASR 和 T2TT)上的 表現,與 SOTA 直接翻譯模型進行了比較。對於 Fleurs S2TT X–eng,我們報告了 Whisper 支援的語言的平均 BLEU 分數。對於 Fleurs ASR,我們報告了 SeamlessM4T 和 Whisper 都支援的語言的平均標準化 WER。對於 MT,我們將 chrF++ 分數平均在 SeamlessM4T 支援的書面語言上。*:MMS 是基於 CTC 的,此版本使用 n-gram 語言模型 進行解碼。請注意,對於此比較中包含的所有外部模型,我們提取了他們各自論文中報告 的結果,並匹配了他們的評估和評分流程,以進行公平比較。12 https://i.imgur.com/wWuhzso.png
表 17:Fleurs S2TT X–eng 按資源級別劃分。在每個資源級別(高、中和低)中,我們 對所有 3 個模型都支援的語言進行了平均。在低+列中,我們排除了被 AudioPaLM-2-8B-AST 零樣本(zero-shot)評估的低資源語言。 https://i.imgur.com/XZWnLdQ.png
表 18:使用 spBLEU 和 Blaser 2.0 進行 S2TT 結果。我們在這裡報告了使用 spBLEU 和 Blaser 2.0 測量的 Whisper-Large-v2 和 SeamlessM4T-Large 的性能。請注意,與 從 Radford 等人 [2022] 複製的 BLEU 分數不同,spBLEU 和 Blaser 2.0 分數是基於我 們使用 https://github.com/openai/whisper 進行評估的,並使用推薦的解碼選項。 https://i.imgur.com/pAhBJTw.png
表 19:使用 ASR-BLEU 和 Blaser 2.0 進行 S2ST 結果。我們在這裡報告了 SeamlessM4T-Large 和 SeamlessM4T-Medium 在 ASR-BLEU 和 Blaser 2.0 測量下的性能 。 4.4.3 零樣本(zero-shot)語音到文本翻譯 我們在 T2ST 的相反任務上評估了 Fleurs S2TT。在表 20 中,我們報告了對 87 個 X– eng 方向(Fleurs 與 SeamlessM4T 文本編碼器支援的語言之間的重疊部分)的平均 ASR-BLEU 分數。我們還在 32 個 eng–X 方向上報告了平均 ASR-BLEU(排除孟加拉語、 泰盧固語和北烏茲別克語,WhisperLarge-v2 ASR WER 超過 100)。X–eng 平均 ASR-BLEU 高於 S2ST X–eng 的 ASR-BLEU(34.9 vs. 24.6),其中 eng–X 平均與 S2ST 相似(22.5 vs. 21.5)。此結果表明:(1)SeamlessM4T 在零樣本(zero-shot) T2ST 上的質量與監督任務相當;(2)非英語語音源是我們模型中最具挑戰性的輸入。 https://i.imgur.com/n8xAmwN.png
表 20:零樣本(zero-shot) Fleurs T2ST 我們報告了 SeamlessM4T-Large 在 Fleurs T2ST 上的平均 ASR-BLEU。 4.4.4 使用 spBLEU 和 Blaser 2.0 進行評估。 為了避免擴展使用字符級別分詞評估的特例語言集,我們使用 Flores-200 句子分詞分詞 器進行了 spBLEU 評估。表 18 報告了 Fleurs S2TT X–eng 和 eng–X 的 spBLEU 分數 。在同一表格中,我們還報告了 SeamlessM4T-Large 和 SeamlessM4T-Medium 的平均 Blaser 2.0 分數(有關 Blaser 2.0 的更多信息,請參見第 5.1 節)。由於 Blaser 2.0 是多模式的,我們還可以使用 Blaser 2.0 進行 S2ST 任務的評分。表 19 提供了 SeamlessM4T-Large 和 SeamlessM4T-Medium 在 S2ST X–eng 和 eng–X 方向上的平均 Blaser 2.0 分數。由於 Blaser 2.0 支援 83 種語言(包括英語),我們對 82 個 X– eng 方向進行平均。對於 eng–X,我們顯示了 35 種語言的平均值,然後排除了 3 種 WER 超過 100% 的語言。由於 Blaser 2.0 支援所有 35 種目標語言,分數更可靠,並且 不受 ASR 模型的噪聲影響(增加了 3 個方向時的 ASR-BLEU 分數的差異為 -1.7)。可 以在 https://github.com/facebookresearch/seamless_communication 找到所有評估方 向的完整結果和指標。 4.4.5 使用 spBLEU 評估 X–X 方向。 由於 SeamlessM4T 模型在來源和目標兩側都支援多種語言,我們可以以零樣本 (zero-shot)方式評估非英語中心的方向(標記為 X–X)。 https://i.imgur.com/yeQ05Ji.png
圖 9:S2TT Fleurs X–X 結果。我們評估來自 Fleurs 的 X–X 方向,並平均計算 spBLEU 分數。對於給定的目標文本語言,我們在 100 個來源語言上平均分數。 4.5 分析和消融研究 4.5.1 無監督語音預訓練 我們探索了各種技術來提升我們編碼器表示的質量,包括算法改進和預訓練數據縮放。 實驗設置 在我們的消融實驗中,我們旨在通過其在下游 S2TT 任務上的表現來評估 w2v-BERT 變體。所有預訓練的 w2v-BERT 語音編碼器都由約 6 億個參數組成的 24 個 Conformer 層 [Gulati 等,2020] 構成。每個語音編碼器都用於初始化一個 S2TT 模型 。文本解碼器使用了來自 NLLB-1.3B 的解碼器,這是一個包含 200 個語言的大型多語言 機器翻譯模型[NLLB Team 等,2022],有 13 億個參數。我們在對 67 種語言的英語語音 翻譯任務(X–eng S2TT)上對 S2TT 模型進行了微調。我們微調了所有語音編碼器參數 ,並且僅微調了文本解碼器中的 LayerNorm 和自注意力(LNA-D [Li 等,2021a])。通 過 4000 次熱身更新,我們的學習率增加到 3e-4,然後按照反平方根學習率計劃進行。 我們使用 32 個 GPU 進行訓練,每個 GPU 的批次大小為 960K 幀,每個模型進行 100K 次更新。我們報告了在 Fleurs [Conneau 等,2022] 的所有 101 個 X–eng 方向的測試 集上進行的 BLEU 分數(SacreBLEU [Post,2018])。鑑於我們的訓練數據覆蓋範圍,這 意味著其中 34 個方向被評估為零樣本(zero-shot)。 https://i.imgur.com/MuPhixO.png
表 21:w2v-BERT 變體和訓練數據縮放的消融評估。 在文本解碼器中的 LayerNorm 和自注意力(LNA-D [Li 等,2021a])。通過 4000 次熱 身更新,我們的學習率增加到 3e-4,然後按照反平方根學習率計劃進行。我們使用 32 個 GPU 進行訓練,每個 GPU 的批次大小為 960K 幀,每個模型進行 100K 次更新。我們 報告了在 Fleurs [Conneau 等,2022] 的所有 101 個 X–eng 方向的測試集上進行的 BLEU 分數(SacreBLEU [Post,2018])。鑑於我們的訓練數據覆蓋範圍,這意味著其中 34 個方向被評估為零樣本(zero-shot)。 結果 我們在表 21 中總結了我們的消融結果。我們可以看到,使用 2 個 GVQ 碼書的產 品量化優於使用單個 GVQ 碼書的普通量化(A vs. B)。縮放訓練數據可以帶來性能增益 (B vs. C)。添加額外的帶蒙版預測學習目標與 2 個 RPQ 碼書有助於提高性能(C vs. D)。 https://i.imgur.com/iMqV2WK.png
表 22:在 ASR、S2TT 和 S2ST 任務的消融數據集中的數據小時,如果適用,則在 eng– X 和 X–eng 之間進行了劃分。對於每個任務,我們報告了主要和挖掘之間的培訓數據小 時。默認情況下,S2TT 的挖掘數據在 X–eng 方向上被限制為 400 小時,在 eng–X 方 向上被限制為 200 小時。 4.5.2 多模態和多任務 X2T 消融數據集 為了在不同的多任務配方上進行迭代,我們構建了一個較小的多語言語音翻 譯基準,包括 14 種語言與英語配對。監督 S2TT 數據來自兩個來源:主要(開源或許可 證)和挖掘,而 ASR 數據則來自開源或許可證的數據集。我們在多任務微調中使用的 T2TT 數據僅限於偽標籤生成過程中生成的雙語對,即 ASR 數據集中的翻譯轉錄(參見 第 4.2.1 節)。有關消融數據集的詳細內容,請參見表 22。 實驗設置 我們對我們的消融數據集上的多語言翻譯模型進行微調,並使用不同的任務混 合。作為基線,我們僅在主要的 S2TT 數據(eng–X + X–eng)上進行了訓練,優化 L1 :僅 LS2TT。在固定數據的情況下,我們使用兩個其他目標進行了實驗:(L2)同時優 化 T2TT 和 S2TT(LS2TT + LT2TT)和(L3)具有附加的知識蒸餾目標,其中 T2TT 為教 師,S2TT 為學生。然後,我們分別添加了 ASR 數據和挖掘數據,並比較了在三種數據配 置下使用不同目標進行訓練的模型的性能。 我們使用我們的 w2v-BERT 2.0 語音編碼器和 SeamlessM4TNLLBT2TT 模型來初始化 X2T 模型。我們微調了所有語音編碼器和文本編碼器的參數,同時只微調了文本編碼器中的 LayerNorm 和自注意力(LNA [Li 等,2021b])。我們對所有模型進行了 100K 次更新( 對應於 5-7 個時代)。為了規範我們的模型,我們對語音編碼器應用了 LayerDrop( p=0.1),並進行了掩碼(p=0.1)。對於文本編碼器-解碼器,我們應用了正則化的丟失 (p = 0.1)。我們在開發數據上評估了最後一個檢查點,並對翻譯任務(包括 T2TT) 的 Fleurs 開發數據進行了 BLEU 分數評估,對於 ASR,則使用 Whisper 風格的正規化 WER 進行評估。 結果 在每個數據配置(D1、D2 或 D3)內,我們可以在表 23 中看到,將 T2TT 添加到 多任務損失中,如預期那樣,有助於提高 T2TT 的性能(在平均 D1,2,3 上增加 1.8 BLEU)。如果不添加這個損失,僅在 S2TT 上進行微調將導致對預訓練 T2TT 任務的災難 性遺忘(將 L1 與 L2 進行比較)。然而,S2TT 的準確性很少受到與 T2TT 的聯合訓練 影響。知識蒸餾被證明是充分利用與 T2TT 的聯合微調的必要要素。在添加知識蒸餾( L1 到 L3)之後,S2TT 的性能在平均 D1,2,3 上提高了 0.6 BLEU 分。 如果我們比較三種不同的數據配置,添加 ASR 數據對於支援 ASR 任務至關重要,因為將 其作為零樣本(zero-shot)評估導致錯誤率高出 3 倍。在自動編碼的情況下,T2TT 和輔 助知識蒸餾損失的聯合微調對於 ASR 數據沒有負面影響(參見第 4.2.3 節)。對於未對 齊的文本-文本數據,即對於無法為 T2TT 教授 S2TT 的數據,添加 S2TT 數據仍有助於 M3 任務混合中的 S2TT。然而,我們注意到,隨著添加更多的僅有語音數據(ASR 和挖掘 的 S2TT),没有對齊的文本-文本數據的準確性下降。 4.5.3 利用挖掘的語音-文本數據 實驗設置 我們對 S2TT 模型進行微調,使用越來越多來自 SeamlessAlign 的挖掘數據。 在主要 S2TT 數據之上,第一個模型中,我們分別添加了 200 小時的挖掘數據,第二個 模型中添加了 400 小時,最後一個模型中添加了 600 小時。SeamlessAlign 根據 Sonar 分數進行排序,我們選擇了排名前的配對,以達到所需的額外數據量。 https://i.imgur.com/Hhz6VUI.png
表 23:在三種不同數據配置下,使用不同任務目標進行訓練的模型的結果。结果報告在 Fleurs 開發數據上。 結果 表 24 報告了使用挖掘數據逐漸增加的模型的結果。在每個方向上,以最多 400 小時進行訓練的模型實現了最佳的平均 BLEU 分數。這表明,對 SeamlessAlign 進行一 些過濾(例如,基於 Sonar 相似度分數)可以在不增加訓練的計算成本的情況下,提高 模型翻譯的質量。 https://i.imgur.com/HQuo3lM.png
表 24:對挖掘數據使用的消融評估。結果報告在 Fleurs 開發數據上。 4.5.4 在 UnitY 中的 T2U 預訓練 實驗設置 類似於第 4.5.2 節中描述的消融數據集,我們使用偽標記的 S2ST 數據(eng –X + X–eng)構建了 S2ST 消融數據集,以微調多語言 UnitY 模型。在固定數據的情 況下,我們比較了微調 UnitY 時使用預訓練組件的兩種選擇。在第一種情況(M1)中, 我們使用其適配器初始化語音編碼器,並使用預先訓練的 X2T 模型初始化第一過程解碼 器。在第二種情況(M2)中,我們還使用預訓練的 T2U 模型初始化 UnitY 的 T2U。在這 兩種設置中,我們僅對 T2U 模型的權重進行了在 S2ST 數據上的微調。 結果 我們在 Fleurs 開發數據上對我們的模型進行了評估,並在表 25 中報告了 ASR-BLEU 分數。我們注意到,T2U 預訓練有助於 UnitY 的微調,因為它收斂更快(比 較 10K 次更新後的 ASR-BLEU 分數),因此更具計算效率。 4.5.5 利用挖掘的語音到語音數據 為了衡量在 UnitY 微調的第三階段中添加挖掘的 S2ST 數據的影響,我們將第 4.5.4 節 中的 M2 模型與遵循相同訓練程序的模型進行了比較,但使用了來自 SeamlessAlign 的 更多挖掘數據(請參閱表 22 中每個方向的額外數據量)。 結果 表 25 中的結果顯示,添加挖掘數據可以將 eng–X 的翻譯準確性提高 0.5 ASR-BLEU 分,但會將 X–eng 的翻譯準確性降低 0.2。然而,我們確實注意到語音生成 的質量稍有改善,因此將 SeamlessAlign 添加到最終模型的訓練中。 https://i.imgur.com/190QiOq.png
表 25:對 UnitY 的 T2U 預訓練和使用 S2ST 挖掘數據的消融評估。結果報告在 Fleurs 開發數據上。+ 80K 和 50K 分別對應於兩種不同數據設置中的 2 個時代。 4.6 相關研究 二次(Two-pass)序列生成 二次(Two-pass)解碼具有保持端到端優化能力的優勢,同時繼 承了串聯方法的好處。Xia 等 [2017] 和 Hu 等 [2020] 在找到更好輸出的過程中加入了 額外的搜索過程。Dalmia 等 [2021] 使用外部模塊(例如語言模型)對中間假設進行重 新排序。Zhao 等[2019] 在中間解碼器中注入特定信息,以將輸出偏向所需領域。 Sainath 等 [2019] 在生成最終輸出之前,將中間輸出提供給用戶,用於流式應用。二次 (Two-pass)方法使優化變得可行,並且可以得到更好的語音翻譯性能 [Sung 等,2019; Anastasopoulos 和 Chiang,2018]。 基於編解碼器的音頻建模 與從基於 SSL 的音頻表示模型中提取的聲學單位(例如本工作 中的 XLS-R)相反,量化的音頻編碼器的最新進展使大型自回歸語言模型和音頻數據的結 合成為可能。開源的 EnCodec [D’efossez 等,2022] 和專有的 SoundStream [Zeghidour 等,2022] 模型是量化音頻編碼器的廣泛已知示例。基於編解碼器的優點之 一是它們可以在不需要外部訓練語音合成器的情況下將其轉換回波形。 在語音翻譯研究中,VaLLE [Wang 等,2023a] 引入了基於 EnCodec 的音頻數據的條件自 回歸建模,以進行文本到語音合成。隨後的 VaLLE-X [Zhang 等,2023b] 在 VaLLE 的基 礎上進行了擴展,以擴展語言覆蓋範圍,並使用模型串聯實現語言翻譯。VIOLA [Wang 等 ,2023c] 隨後探討了僅有解碼器的基於編解碼器的語言模型在無串聯的情況下進行翻譯 的能力。 語音和文本的多模態和多任務 多模態和多任務在源端是多模態的,與使用二次 (two-pass)解碼的多任務學習是正交的,其中目標是為第二個任務提供從第一個任務解碼 器生成的更高層次的表示 [Anastasopoulos 和 Chiang,2018]。 通常,多任務學習的目標是通過利用相關任務的訓練信號中包含的領域特定信息來改善泛 化性能 [Caruana,1997; Vandenhende 等,2021]。與單一任務相比,多任務具有通過共 享互補信息或作為正則化器來提高性能的潛力。Maninis 等 [2019],Liu 等 [2019] 和 Pfeiffer 等 [2020] 引入了任務依賴的組件,以增強個別任務的性能。Weiss 等 [2017b] 探索了語音翻譯的不同多任務訓練策略,他們發現一對多策略,其中編碼器在語 音翻譯和 ASR 任務之間共享,更加有效。Bahar 等 [2019] 和 Tang 等 [2021] 比較了 不同的 S2TT 多任務策略,確認了多對一訓練的有效性,即 T2TT 和 S2TT 一起訓練,解 碼器在兩個任務之間共享。 近期的研究還通過學習多個模態的聯合表示,訓練多任務和多模態編碼器。其動機在於學 習的特徵將更豐富,跨模態任務可以從這種聯合訓練中受益。這些技術在音頻 [Chen 等 ,2022; Bapna 等,2022; Zhang 等,2023a; Rubenstein 等,2023]、視覺 [Chen 等, 2020; Gan 等,2020; Fu 等,2021] 以及音視覺 [Shi 等,2022; Anwar 等,2023] 領 域得到了探索。 _________________ 5.自動評估與人工評估 迄今為止,為了評估我們的模型,我們已經使用了每個特定任務的標準自動評估指標,如 表 4 所示。在本節中,對於 S2TT 和 S2ST 任務,我們超越了這些標準自動評估指標, 進行了額外的自動評估和人工評估,以進一步評估我們的貢獻。本節的自動評估反映了模 型在噪聲和領域方面的韌性。人工評估關注於保留說話者意圖以及生成音頻的主觀質量。 首先,我們介紹 Blaser 2.0,一種新的、模態不可知的評估指標,它可以對語音和文本 的質量進行估計。 5.1 模態不可知的自動評估指標:Blaser 2.0 描述 Blaser 2.0 是 BLASER 的新版本 [Chen 等,2023a],它同時適用於語音和文本模 態,因此是模態不可知的。與第一個版本一樣,我們的方法利用了輸入和輸出句子嵌入之 間的相似性。新版本使用 SONAR 嵌入(3.3.1),在語音模態下支持 83 種語言,在文本 模態下支持 200 種語言,並且可以擴展到將來的編碼器,用於共享相同嵌入空間的新語 言或模態。為了評估語音輸出(與基於 ASR 的指標不同),BLASER 的優點是無需文本。 更具體地說,在 Blaser 2.0 中,我們將源輸入、任何 S2ST、S2TT 或 T2TT 模型的翻譯 輸出,以及參考語音片段或文本轉換為 SONAR 嵌入向量(hsrc、hmt 和 href)。對於 Blaser 2.0 的監督版本,這些嵌入被組合起來,並輸入到一個小型、緊密的神經網絡中 ,該神經網絡為每個翻譯輸出預測 XSTS 分數。對於非監督版本,我們與 Chen 等 [2023a] 類似,使用源-翻譯和參考-翻譯余弦相似性的平均值。 此外,我們還訓練了一個稱為 Blaser 2.0-QE(質量估計)的無參考版本。Blaser 2.0-QE 是僅使用源和翻譯嵌入訓練的監督模型。它可以應用於缺少參考翻譯或參考翻譯 質量有問題的情況。 數據 Blaser 2.0 的監督版本是在 XSTS-標記數據(Licht 等 [2022])上訓練的,該數 據包括原始 BLASER(Chen 等 [2023a])中的相同的 S2ST 標記。額外的 S2ST、S2TT 和 T2ST 標記來自各種其他內部研究,包括 NLLB 人工評估 NLLB Team 等 [2022],而 T2TT 標記則來自 NLLB(NLLB Team 等 [2022])。我們過濾掉所有長度超過 30 秒的音 頻,因為 SONAR 編碼器沒有在長音頻上進行訓練。對於原始的 BLASER 數據,我們重新 使用了訓練/測試拆分。其他數據集是隨機拆分的,比例為 80/20,以便相同的源音頻或 文本始終進入同一分區。有關數據的詳細信息請參見表 26。 https://i.imgur.com/4xipRGr.png
表 26:Blaser 2.0 的數據:測試和訓練大小,系統和語言數量,無監督、監督和無參 考 Blaser 2.0 分數與 XSTS 測試子集標籤的斯皮爾曼相關性。 訓練 對於監督模型,架構與 BLASER 1.0 模型相同:一個 3 層感知器,其頂部帶有 tanh 激活(tanh activations),位於 6 個歸一化嵌入和它們的導數的串聯向量之上: [h_ref;h_mt;h_src ⊙ h_mt;|h_src - h_mt|;h_ref ⊙ h_mt;|h_ref - h_mt|]。 對於 QE 版本,我們使用相同的設置,但使用無參考的輸入: [h_src;h_mt;h_src ⊙ h_mt;|h_src - h_mt|]。 我們使用 BLASER 1.0 的訓練代碼,並進行了一些超參數的修改,以減輕過擬合:50% 的 隨機失活,0.1 的權重衰減,1024 的批次大小,並在訓練結束時對學習率進行全線性衰 減。為了補償增加的批次大小,我們進行了 50 而不是 20 個 epoch 的訓練。 結果 表 27 呈現了 BLASER 1.0 測試數據上無監督和監督 BLASER 的性能。無監督 2.0 模型稍微優於其前身。監督 v1.0 和 v2.0 模型與人類判斷的平均相關性相同。由於 Blaser 2.0 支持更多的語言,因此我們在評估中使用了這個模型。 https://i.imgur.com/1y8xXlu.png
表 27:無監督和監督 BLASER 模型與 BLASER 1.0 測試數據上的 XSTS 分數的皮爾森相 關性。 表 26 的最後三列呈現了 2.0 模型的預測與 XSTS 分數之間在所有數據分區中的相關性 。基於結果,監督模型在每個分區上的表現均優於無監督模型。無參考模型在大多數情況 下介於它們之間,但對於新的 S2ST 數據,其性能低於無監督模型。我們假設在這個子集 中,參考文本有時會與源文本不一致,這可能是由於語音分割或合成的錯誤,或者由於在 特定上下文中僅在非字面翻譯時才有意義。對一些樣本的手動檢查證實了這個假設,但 對 BLASER 模型中參考的作用的更多分析需要在未來進行。SeamlessM4T 模型的完整 Blaser 2.0 分數在表 18 中報告。此外,下一節 5.2 報告了 Blaser 2.0 分數與人工分 數之間的相關性。 5.2 人工評估 人工評估是評估我們系統質量的重要工具。首先,我們簡要描述該領域的相關工作,然後 詳細介紹整個人工評估過程,包括協議、數據和校準。 相關工作. 在科學界廣泛應用人工評估來進行機器翻譯。其中兩個最受歡迎的人工評估模 型在國際評估活動的框架內得以應用。WMT 會議 [Kocmi 等,2022] 要求參與者使用預定 義的協議評估翻譯系統的輸出,通常使用直接評估 [Graham 等,2013] 協議。除了這種 基於文本的評估外,IWSLT 評估活動還涵蓋了語音翻譯。作為示例,語音到語音軌道在四 個維度上評估語音輸出質量。第一個是翻譯質量,著重於捕捉意義,標註者將目標音頻排 名在 1 到 5 之間。其餘的維度包括自然度,包括聲音和發音,為了便於理解的清晰度和 聲音質量,其中考慮了噪音和其他藝術品。這些標準被用作均值意見分數(MOS)的替代 方案。 5.2.1 人工評估協議 與前面提到的相關工作類似,對於 S2TT 評估,我們使用了 XSTS 協議來評估翻譯質量。 我們將 S2ST 的結果推遲到以後的更新,但我們確實使用了兩個協議來評估 S2ST:翻譯 質量使用 XSTS,自然度使用 MOS。我們將 MOS 協議的討論推遲到以後的論文更新。 XSTS. XSTS [Licht 等,2022] 從語義保存的角度評估翻譯質量,以前已被用於評估 NLLB 模型 [NLLB Team 等,2022]。雖然 XSTS 最初是設計用於評估文本的,但該協議在 效果上是模態不可知的,我們僅需要進行小幅調整,以支援 S2ST 和 S2TT 任務。例如, 協議的 S2ST 和 S2TT 版本需要對標註者提供有關非語音標籤(例如 <laugh>)處理的額 外說明——標註者被指示忽略這些標籤——以及如何考慮暫停和非語音噪聲(他們被指示 也忽略這些)。在執行邏輯方面,我們與用於評估工作的供應商進行的對話顯示,對於標 註者來說,S2ST 翻譯的評估負擔似乎比 T2TT 更大(由於不能同時體驗源語音和目標語 音),因此進行得更慢。 XSTS 標註和校準過程. 在標註過程中,3 名標註者檢查了每對源目標語音(或語音文本 對)並使用 XSTS 協議評估了語義相似性。在進行標註之前,所有標註者都經過了一組單 語英語「練習」評估,並進行了評分說明。為了加速評估,每個語言對使用了超過 3 ( 最多 24) 名標註者;每個評估的句子對都會顯示給 3 名標註者,基本上是隨機分配的 ,並且在評估中夾雜了校準集項目。在 3 名標註者之間的評分值存在 2 或更多的分歧的 情況下,我們將再次對同一項目進行 2 名額外的標註者評估,從而將該項目的評估者得 分總數增加到 5。然後,對於相同音頻對的標註者的中位數分數被取用,以用於每個評估 句子對的中位數;中位數用於提高韌性。這個過程在 S2ST 和 S2TT 評估中都是相同的。 對於整體方向的分數,我們報告這個中位數分數的平均值(或某種聚合,比如中位數 XSTS 分數在特定系統的特定語言方向的所有評估項目中超過給定閾值的句子的比例)。 校準集項目接受相同的待遇,因此每個標註者池的句子對都有 1 個分數,並且使用在評 估特定語言方向的標註者組的校準集上的平均分數對語言級分數進行校準;校準集和方法 在下面進行描述。 為了實現模型質量的跨語言比較,生成了一個單語「跨語言校準集」[Licht 等,2022], 並將其包含在評估中,並使用先前建立的「調節校準」方法進行校準[Licht 等,2022; NLLB Team 等,2022]。發現校準過程可以減少語言級別的標註者偏見,並因此提高與自 動指標的相關性。運行具有已知分數的校準集或「黃金集」(即比例遠低於此處的 500 個項目的,例如 50–100 個項目)有助於確保標註質量,即使不打算進行語言間校準。 足夠「不合格」的標註者組可以被識別出來,並且可以排除其結果,或者可以進行額外的 培訓以改善其表現。 5.2.2 評估框架 數據集 人工評估使用 Fleurs 數據集的「測試」分區[Conneau et al.,2022]進行。 Fleurs 的「測試」分區提供了每種支援的語言(Fleurs 支援 102 種語言)的最多 350 個來自 FLORES-101 數據集[Goyal et al.,2022]的句子。每個句子最多有 3 個不同說 話者的錄音(取決於哪些錄音通過了質量審查),以及相關的 FLORES-101 文本。質量審 查的要求意味著每種語言可能不會為所有 350 個句子都有錄音,對於那些確實有錄音的 句子,並不一定存在所有三個說話者的錄音。 在對特定語言方向的翻譯系統進行評估時,我們將 Fleurs 數據過濾為一個子集,該子集 包含兩種語言中都有錄音的句子,以便每個語言對擁有一個共同的雙向評估集。我們這樣 做是為了確保 S2TT 和 S2ST 評估都使用相同的句子集。由於 Fleurs 的覆蓋範圍因語言 而異,因此評估集中存在的項目子集因語言而異,因此也因語言對而異;雖然大多數項目 在不同語言之間是共通的,但我們相信分數在很大程度上是可比較的,因為它們來自相同 的領域。 在將 Fleurs 準備用作人工參考集時,必須在源語言的不同閱讀者和目標語言中等效 Fleurs 項目的讀者之間進行配對。在可能的情況下,這些配對是為了匹配用戶性別(在 Fleurs 測試分區的整個過程中,約有 53% 的時間與英語配對的語言之間存在明顯差異) ,並且剩下的 47% 項目必須進行混合性別的配對。我們選擇至多對每個 Fleurs 句子進 行 2 次獨特的閱讀。 評估的語言方向、模式和系統 我們在表 28 中列出了使用每個協議進行評估的語言和模 式。 語言的選擇是通過平衡人類標註資源的可用性,捕捉大型人口的語言樣本,同時代表高資 源和中資源的語言混合。 對於 S2TT,我們對 SeamlessM4T-Large 和 Whisper-Large-v2 模型在 X–eng 方向上進 行了 22 種語言的 XSTS 評估,其中 SeamlessM4T-Large 模型的生成使用稍早版本的 fairseq(而不是 Fairseq2),但 S2TT 性能之間的平均 BLEU 差異小於 0.5。對於 eng –X,我們僅對相同的語言進行評估,但僅對 SeamlessM4T-Large 模型(使用 fairseq 生成)。此外,對於所有語言的人工參考系統(即 Fleurs 數據本身),我們也進行了評 估。 我們僅對 S2TT 進行了直接模型的評估,並計劃在未來的工作中將基準擴展到 2 階段級 聯系統,以包括 eng–X 的基準。對於 S2ST,由於在所有目標方向上運行單語 TTS 模型 涉及的復雜性,我們不評估 eng–X 的基準。然而,在未來,我們計劃使用 MMS-TTS Pratap 等系統建立此類基準;我們在本文的其他部分中使用了這些相同的系統,例如為 了將基於文本的負責任 AI 數據集擴展到語音(第 6.3.2 節)。 https://i.imgur.com/2MPBolf.png
1 SeamlessM4T-Large * 指的是使用 fairseq 進行生成的 SeamlessM4T-Large 模型,而 不是 Fairseq2,但 S2TT 的性能平均在兩者之間的 BLEU 值相差不超過 0.5。 2 孟加拉語、加泰羅尼亞語、荷蘭語、芬蘭語、法語、德語、印地語、印尼語、 意大利語、日語、韓語、普通話、現代標準阿拉伯語、葡萄牙語、羅馬尼亞語、俄語、西 班牙語、斯瓦希里語、泰語、土耳其語、烏爾都語、越南語 3 MOS 指的是均勻意見分數協議;更多細節將在後續更新中包含 S2ST 評估。 表 28:評估摘要:用於人工評估的語言、模式、模型和協議。括號中的模式和協議在本 文中未呈現,但將在後續的更新中分享。 5.2.3 初步人工評估結果 S2TT 任務的 XSTS 結果 我們使用 XSTS 協議(參見表 28)呈現了 S2TT 模式的結果。 圖 10 顯示了所有受評模型和語言(包括 X–eng 和 eng–X)的校準 XSTS 分數。我們 可以看到,在 X–eng 語言方向上,SeamlessM4T-Large 的品質對於所有 22 個受評語言 方向而言,都保持在 XSTS 分數 3 以上。在 eng–X 語言方向上,SeamlessM4T-Large 的品質對於所有 22 個受評語言方向而言,都保持在 XSTS 分數 4 以上。 值得注意的是,在 X–eng 方向上,我們可以看到對於斯瓦希里語(XSTS 改進接近 2.5 )和孟加拉語(XSTS 改進超過 1),SeamlessM4T-Large 在翻譯品質方面顯著優於 Whisper-Large-v2 基線。在 X–eng 方向上,SeamlessM4T-Large 在 22 個受評語言方 向中,有 7 個語言的品質顯著優於 Whisper-Large-v2,而有 8 個語言的品質下降;所 有品質下降都小於 0.5 的 XSTS,除了日語,其下降略大。 https://i.imgur.com/Zr7Ry36.png
表 29:所有 22 個受評語言的英語方向內外的整體平均 XSTS 人工評估結果。結果是針 對每個語言方向計算的(請參見表 30 以獲取完整的語言層級結果)。%3+ 和 %4+ 分別 指的是具有中位數分數等於或大於 3 和 4 的語言句子的百分比。 在對語言方向進行平均時,相對於 Whisper-Large-v2 基線,SeamlessM4T-Large 在 X– eng 方向上在平均 XSTS 分數和% 超過 XSTS 分數閾值 3 和 4 的句子方面表現出優越性 (請參見表 29)。 我們還注意到相對於 X–eng 方向,eng–X 方向通常表現較高。根據第 4.4.2 節中的自 動結果,我們觀察到在任務(S2TT、S2ST、T2TT 或 T2TT)中,一個方向相對於另一個方 向的較高表現取決於任務的不同。對於 S2TT 和 spBLEU 以及 Blaser 2.0(參見表 18) ,即使在不同的語言集中進行平均,eng–X 相對於 X–eng 的超越表現依然存在。我們 對此現象提出了一些可能的解釋。例如,語音編碼可能比語音或文本解碼更複雜。如果是 這種情況,英語語音編碼的更好表現可能有助於 eng–X 方向的更高表現。從數據上看, 一種合理的解釋可能是不同語言的 Fleurs 錄音的音質不同(例如,英語源句音質可能更 高,從而提高了 eng–X 的分數)。 5.2.4 限制 測試集限制 用於評估的 Fleurs [Conneau et al., 2022] 測試集存在一些限制,不同語 言對的評估將在稍微不同的句子集上進行評估。由於數據集的限制(最多包含 3 名說話 者)以及在人工評估方面的時間和成本考慮(我們每個句子最多評估兩名說話者),我們 每種語言的說話者集合缺乏多樣性,這可能會引入相對於具有更多說話者的測試集的偏差 。 每種語言的人工標註者樣本數有限 在我們的 XSTS 評估中,對於每個語言的每個句子, 我們只有最多 5 名(通常為 3 名)標註者的評估。相對較小的標註者樣本意味著必須考 慮標註者偏差的影響。我們嘗試通過以下方式來緩解這個問題:(1) 使用每個語言的每個 句子的中位數分數,以對抗極端值,(2) 使用自助取樣重新估計由於有限標註者而產生的 語言分數不確定性,(3) 使用跨語言校準集來近似並校正標註者偏差。 https://i.imgur.com/grkUDeb.png
圖 10:S2TT 模式的語言方向級別經過校準的平均 XSTS 分數。95% 自助取樣的 CI(置 信區間)通常在 ±0.12 之內。 https://i.imgur.com/7go5yPu.png
表 30:完整的校準 XSTS S2TT 結果;95% 自助取樣的 CI 寬度平均為 ±0.12。%3+ 和 %4+ 分別指的是一個語言中具有中位數分數等於或大於 3 和 4 的句子的百分比,不經過 校準(校準僅在語言層面上進行)。 https://i.imgur.com/geclLna.png
圖 11:模型對抗背景噪音的穩健性(Robustness)評估結果。我們在 X–eng 的 S2TT 和 ASR 上報告了 4 種語言(3 個語言家族)的平均測試 BLEU 和測試 WER,在 Fleurs 上 對低到高的輸入噪音水平(高到低的信噪比)進行測試。模擬的噪音來自 MUSAN [Snyder et al.,2015] 中的“noise”和“music”類別。 5.3 自動穩健性(Robustness)評估 我們評估模型對於現實世界語音輸入中的非語言干擾的穩健性(Robustness),包括背景噪 音和說話者變異。正如在其他幾個部分中所報告的,我們將我們的模型與 Whisper-Large-v2 進行比較。 5.3.1 對抗背景噪音的穩健性(Robustness) 相關工作 過去的研究[王等,2022;朱等,2022;拉德福德等,2022]在模擬的噪音音頻 上進行了不同背景噪音水平下的語音模型穩健性(Robustness)分析。然而,現有的基於模 擬的評估不僅受到噪音類型(例如,簡單的白噪音)、任務範圍(例如,僅 ASR)、語言 範圍(例如,僅英語)的限制,還受到基準數據的可復現性的限制。這需要一個開放且多 功能的基準來克服這些限制。 實驗框架 我們基於 Fleurs("有噪音的 Fleurs")建立了一個可復制的噪音穩健性 (Robustness)評估基準,該基準涵蓋 102 種語言、2 個語音任務(S2TT 和 ASR)以及各 種噪音類型(自然噪音和音樂)。為了創建模擬的有噪音音頻,我們從 MUSAN [Snyder et al., 2015] 中的“noise”和“music”類別中取樣音頻片段,並將它們與原始的 Fleurs 語音音頻混合,信噪比(SNR)分別為 10、5、0、-5、-10、-15 和 -20。我們通 過 BLEU-SNR 曲線(用於 S2TT)或 WER-SNR 曲線(用於 ASR)來比較模型,這些曲線展 示了當語音輸入的噪音水平增加(即 SNR 減小)時模型性能惡化的程度。無論是 SeamlessM4T-Large 還是 Whisper-Large-v2,它們在大多數高資源語言中都表現出色, 其中在嘈雜的語音設置中進行壓力測試更為必要且有信息價值。對於低資源語言來說,乾 淨的語音設置已經具有挑戰性,更不用說有噪音的語音設置了。因此,我們專注於 4 個 高資源語言(法語、西班牙語、現代標準阿拉伯語和俄語),來自 3 個不同語言家族, 對 SeamlessM4T-Large 和 Whisper-Large-v2 進行有關噪音穩健性(Robustness)的分析 。 結果 圖 11 顯示了 X–eng S2TT 和 ASR 在 Fleurs 上的平均測試 BLEU 和測試 WER, 這些測試在低到高的輸入噪音水平(高到低的 SNR)上進行(有噪音)。我們可以看到, SeamlessM4T-Large 的 BLEU-SNR 曲線始終在 Whisper-Large-v2 的上方。同樣, SeamlessM4T-Large 的 WER-SNR 曲線始終低於 Whisper-Large-v2 的曲線。這表明在嘈 雜的語音環境中,SeamlessM4T-Large 的穩健性(Robustness)優越性。在 X–eng S2TT 和 ASR 的各種噪音類型和噪音水平上,SeamlessM4T-Large 在平均上優於 Whisper-Large-v2,分別優於 33.3% 和 42.2%。 5.3.2 對抗說話者變異的穩健性(Robustness) 相關工作 預期 ASR 和 S2TT 系統能夠將與輸入內容無關的說話者變異效果最小化。先前 的研究[劉等,2022;Dheram 等,2022]研究了 ASR 系統對不同說話者子組(按種族、性 別、國家等分組)的公平性,這需要準確的說話者人口統計標籤[Hazirbas 等,2021; Porgali 等,2023]用於說話者分組和分組評分。然而,現有的 ASR 基準數據中很少有這 些標籤,限制了這種分析的應用。為了克服標籤稀缺性,Wang 等人[2020]提出了一組無 標籤指標,這些指標不依賴於說話者分組,用於分析說話者變異的影響。 實驗設置 我們遵循 Wang 等人[2020]的方法,通過計算句子級質量指標的平均組內均值 分數和平均組內變異係數來評估模型對於說話者變異的穩健性(Robustness)。我們將 BLEU 作為質量指標,改為使用 chrF,這在句子級別上具有更好的穩定性。這兩個穩健性 (Robustness)指標的計算不需要明確的說話者子組標籤。我們通過內容(轉錄文本)將評 估樣本和相應的句子級 chrF 分數分組,然後計算定義如下的平均組內均值分數 chrFMS 和平均組內變異係數 CoefVarMS: https://i.imgur.com/bhG6ixq.png
其中 G 是按內容(轉錄文本)分組的句子級 chrF 分數集合(分組為 G),而 G' = {g|g ∈ G,|g| > 1,Mean(g) > 0}。這兩個指標互補:chrFMS 提供了一個標準化的質量 指標,與傳統的語料庫級指標不同,它考慮了說話者變異,而 CoefVarMS 則提供了在說 話者變異下質量變異的標準化測量。為了對 SeamlessM4T-Large 和 Whisper-Large-v2 的穩健性(Robustness)進行分析,我們在 Fleurs 上進行了跨域評估,涵蓋了測試集中至 少有 40 個內容組的所有語言。 結果 表 31 顯示了 SeamlessM4T-Large 和 Whisper-Large-v2 在 Fleurs X–eng S2TT 和 ASR 測試集上的 chrFMS 和 CoefVarMS 分數。我們可以看到,在這 2 個任務中, SeamlessM4T-Large 在 CoefVarMS 上的表現平均優於 Whisper-Large-v2,超過 49.4%。 此外,SeamlessM4T-Large 在 chrFMS 上的表現平均優於 Whisper-Large-v2,超過 18.3%。這表明在處理說話者變異時,SeamlessM4T-Large 的穩健性(Robustness)更強。 https://i.imgur.com/s1yr7Lx.png
表 31:模型對抗說話者變異的評估結果。我們報告了 FleursX–engS2TT 和 ASR 測試集 上按組平均的 chrF(chrFMS)和 chrF 的平均組內變異係數(CoefVarMS)。 _________________ 6.負責任的人工智慧 為了符合我們對於負責任建立系統的期望,我們專注於評估附加的毒性和偏見。這兩個負 責任人工智慧的層面近來受到了顯著的科學關注(例如,[Kiritchenko et al., 2021; Bender et al., 2021; Costa-jussà, 2019])。此外,這些意外錯誤或翻譯失誤可能會 對使用者體驗造成不利影響。因此,對這些問題的持續關注對於我們系統的安全部署至關 重要。 除了這些層面,我們還關注公平性的概念。與穩健性(Robustness)的概念(如第5.3.2節 中的概念)相比,那裡的焦點是我們的系統性能是否受到說話者聲音質量的不同影響,這 裡的公平性更關注翻譯輸出的內容。公平的輸出不會偏向或偏向特定族群,並且往往會相 對公平地對待不同的群體。我們記錄這些評估的結果,以更好地指導緩解工作。 6.1 定義 我們首先詳細說明了我們如何定義由附加的毒性和性別偏見引起的錯誤。 毒性. 在他們對關鍵機器翻譯錯誤的分類中,[Sharou and Specia, 2022]將「毒性偏離 」定義為「在翻譯中可能因為錯誤的翻譯而激起對個人或群體(宗教、種族、性別等)的 仇恨、暴力、粗話或虐待的情況」,這「涵蓋了在翻譯中引入毒性的情況,當源文中不存 在時,將其刪除,當翻譯成不同(有毒或無毒)詞語時,或者根本不翻譯(即,毒性仍然 存在於源語言或音譯中)。」我們對於附加的毒性的定義稍微有所不同,不涵蓋源毒性內 容未翻譯或在翻譯中被刪除的情況。簡而言之,附加的毒性是在源發言中引入有毒元素。 性別偏見. 另一個與負責任的人工智能有關的錯誤涉及性別偏見的傳播和放大。在機器翻 譯中,當翻譯出現語言性別確定方面的錯誤時,儘管源內容中有足夠的性別線索讓系統能 夠推斷正確的性別形式,但也會觀察到性別偏見。為了說明這一現象,以下是句子(1) ,在這個句子中,沒有足夠的語言線索讓翻譯系統能夠決定在翻譯成語言中使用哪種性別 形式,尤其是當醫生一詞具有性別之分的時候。然而,句子(2)包含一個性別化的代詞 ,該代詞很可能具有醫生一詞作為其先行詞。 1.我感覺不太舒服,所以我預約了我的醫生。 2.我的醫生非常關心'她'的病人需求。 當系統將句子(2)翻譯成使用醫生一詞有不同性別形式的語言時,如果產生了錯誤的性 別形式,就會觀察到性別偏見。在翻譯類似句子(1)的表達時出現的單一錯誤並不足以 斷定模型存在性別偏見;這樣做需要一直觀察一種語言性別優於另一種語言性別的情況。 先前有人提出,性別偏見的可能來源之一是大型訓練和評估數據集中的性別代表不平衡, 例如 [Costa-jussà等,2022; Qian等,2022]。 6.2 毒性 警告:本節包含可能冒犯某些人的示例。 6.2.1 動機 背景 如上所述,附加毒性意味著在翻譯輸出中引入不在輸入中的毒性。這可以歸類為一 個關鍵錯誤;這可能會使使用者不信任翻譯系統。因此,量化我們的模型添加了多少毒性 是很重要的。我們還有興趣將添加毒性分析與人口偏見分析結合起來,以確定是否在某些 人口軸上生成了更多的添加毒性。 相關工作 雖然在語音毒性檢測方面的相關研究相當有限 [Iskhakova et al., 2020; Yousefi and Emmanouilidou, 2021],但基於文本的方法的毒性檢測在不同情境下已經被 廣泛探索。許多這些努力的例子可以在大規模評估中找到,例如 JigSaw 系列 Kaggle 比 賽或 WMT 關鍵錯誤檢測 [Specia et al., 2021]。最近,在 T2TT 的情況下,使用基於 單詞列表的檢測方法(例如 NLLB [NLLB Team et al., 2022])來擴大毒性檢測的推動, 進一步推動了對大規模毒性分析 [Costa-jussà et al., 2023] 和緩解策略 [Gilabert et al., 2023] 的研究。使用涵蓋不同人口軸的數據集可以進一步分析哪些人口軸對毒性 最敏感 [Costa-jussà et al., 2023]。到目前為止,涵蓋廣泛人口軸的數據集主要集中 在文本方面,需要更多關注語音(文本數據的一個示例是 HolisticBias [Smith et al., 2022])。 提出的方法 根據 ASR-BLEU 的靈感,本研究提出使用 ASR-ETOX 作為一種新的評估指標 ,在語音中檢測添加的毒性,並評估 SeamlessM4T 的 S2ST 功能的添加毒性。基本上, 這個指標遵循一個級聯框架,首先部署標準的 ASR 模塊(即,與 ASR-BLEU 中定義的相 同模塊,如表 4 所示),然後是毒性檢測模塊 ETOX [Costa-jussà et al., 2023],它 使用 Toxicity-200 單詞列表。對於 S2TT,翻譯輸出可以直接使用 ETOX 進行評估。在 這兩種情況(S2ST 和 S2TT)下,我們在發言/句子級別上測量添加毒性。我們首先計算 評估數據集中每個輸入和相應輸出的毒性檢測。然後進行比較,僅當輸出值超過輸入顯示 的值時,我們才將一個案例視為包含了添加毒性。 6.2.2 實驗框架 語言方向和模式 與前面在第5.2節中的人工評估框架類似,我們在 Fleurs 上評估了 S2ST 和 S2TT。與人工評估不同的是,我們擴展了毒性評估,涵蓋了我們提供翻譯的所有 語言,如表 5 所摘要。伊博語、緬甸語、尼泊爾語和阿薩姆語存在分段和毒性詞語列表 中的一致性問題。由於這些問題,這些語言往往會過度檢測毒性,我們將它們視為離群值 。因此,我們將它們從分析和結果中排除。 數據集 我們使用了兩個數據集來分析添加毒性。首先,我們使用 Fleurs 數據集,以更 好地對齊我們的人工評估工作以及本工作的其他評估組件。此外,我們還使用了僅包含英 文的 HolisticBias 框架 [Smith et al., 2022],在先前的研究中已經證明可以觸發真 正的添加毒性 [Costa-jussà et al., 2023]。HolisticBias 包含 26 個模板,涵蓋了 13 個人口軸上的 600 多個描述詞和 30 個名詞。該數據集包含超過 47.2 萬個英文句子 ,用於兩人對話的上下文中。通常,句子是通過結合句子模板(例如,“我是一個 [名詞 片語]。”),名詞(例如,家長)和描述詞(例如,殘疾人)來構建的。近 600 個描述 詞涵蓋了各種人口軸,包括能力、種族/族裔和性別/性別。名詞可能指示特定的性別(例 如,女人、男人)或避免性別參考(例如,孩子、小孩)。此外,句子模板允許描述詞/ 名詞片語的單數和複數形式。 在本研究中,我們通過使用來自 fairseq Sˆ2 的默認“en” transformer tts 模型來 將 HolisticBias 擴展到語音。它首先將輸入文本轉換為國際音標音素,然後將它們傳遞 給mel頻譜圖生成器transformer模型,最後將輸出餵給HiFi-Gan vocoder以創建波形。 模型 作為 S2TT X–eng 的基準系統,我們使用 Whisper-Large-v2 [Radford et al., 2022]。至於 S2ST X–eng,我們應用了 Casanova et al. [2022] 來從 Whisper-Large-v2 S2TT 的輸出中生成合成語音。對於 S2TT eng–X,我們使用了 Whisper-Large-v2 + NLLB-3.3B [NLLB Team et al., 2022] 的級聯系統。以下,我們報 告 SeamlessM4T-Large 的結果。 評估 我們使用 ETOX17 的 Github 實現。對於沒有空格的語言,我們在工具中使用 spm 分詞選項。對於 ASR,我們使用與 ASR-BLEU 相同的實現框架,如表 4 所報告。 6.2.3 結果 在 Fleurs 數據集上的自動毒性檢測 我們對 SeamlessM4T-Large 的輸出進行了 Fleurs 數據集上的評估。圖 12 展示了 X–eng 和 eng–X 方向的 S2TT 和 S2ST 的結果,顯示 了包含添加毒性的句子數量。當觀察每個句子中的添加毒性量時,少於 5% 的情況中每個 句子包含超過 1 個添加毒性標記。總體而言,Fleurs 數據集在語言、任務和翻譯方向之 間平均的添加毒性頻率相對較低,為 0.15%。 對於 X–eng 的 S2TT(圖 12 左),跨語言的添加毒性平均為 0.11%,有 27 對語言包 含一些添加毒性。對於 S2ST(圖 12 右),跨語言的添加毒性平均為 0.12%,有 35 對 語言包含添加毒性。 對於 eng–X 的 S2TT(圖 12 左),跨語言的添加毒性平均為 0.21%,有 32 對語言包 含添加毒性。對於 S2ST(圖 12 右),跨語言的添加毒性平均為 0.16%,有 16 對語言 包含添加毒性。不同模式之間的主要差異在於 eng–X 翻譯方向的 S2ST 中添加毒性的量 減少。我們將在本節稍後的 HolisticBias 數據集結果中對這種差異進行討論。 相比之下,對於 X–eng 的 S2TT,Whisper-Large-v2 的添加毒性在跨語言中平均為 0.31%,在 58 個語言中普遍存在。對於 Whisper-Large-v2 和 SeamlessM4T-Large 中重 疊的語言,後者的添加毒性減少了 63%。對於 X–eng 的 S2ST,Whisper-Large-v2 + YourTTS 的添加毒性在跨語言中平均為 0.27%,在 52 個語言中普遍存在。對於這個級 聯 S2ST 系統和 SeamlessM4T-Large 中重疊的語言,我們的毒性標記減少了 62%。對於 eng–X 的 S2TT,Whisper-Large-v2 + NLLB-3.3B 的級聯組合在語言中平均增加了 31% 的添加毒性,並且添加毒性在 39 個語言中普遍存在。對於重疊的語言, SeamlessM4T-Large 將這個數量減少了 26%。如第 4.2.1 節中所報告的對訓練數據中不 平衡毒性的過濾可能對這一改善有所貢獻。 HolisticBias 數據集上的自動毒性檢測 圖 13(左)顯示了在將 HolisticBias 從 eng –X 翻譯為其他語言時,S2TT 具有最高添加毒性的語言結果(請注意,HolisticBias 僅 提供英文)。在這裡,我們觀察到與 Fleurs 相比,S2TT 的添加毒性稍高,而 S2ST 的 添加毒性稍低。總體而言,HolisticBias 數據集的添加毒性在 S2TT 上為 0.19%,在 S2ST 上為 0.13%,在語言之間平均。對於 S2TT,有 84 個受到添加毒性影響的語言。在 觀察每個句子中的添加毒性量時,少於 0.003% 的輸出包含超過一個添加毒性標記。圖 14(左)顯示了在將 HolisticBias 數據集翻譯為其他語言時的 S2ST 語言結果。總共 有 34 個包含添加毒性的語言。 通過手動檢查,當比較在 S2TT 翻譯中檢測到的毒性詞語在 S2ST 中未被檢測到時,我們 觀察到毒性詞語類似但存在輕微差異。我們假設在毒性檢測之前使用 ASR 往往會導致偽 陰性,這解釋了從 S2TT 到 S2ST(從 0.19% 減少到 0.13%)的添加毒性減少的高幅度, 這也在 Fleurs 中發生(從 0.21% 減少到 0.16%)。例如,在英語到加泰隆尼亞語的情 況下,S2ST 輸出中的單詞 "merda" 通常寫作 "mereda",因此未被 ETOX 識別。這種類 型的例子突顯了基於黑名單標記的檢測存在的限制。 https://i.imgur.com/QgWed6U.png
圖 12:在 Fleurs 中的 S2TT(左)和 S2ST(右)的 X–eng 和 eng–X 的添加毒性。 該圖顯示了包含添加毒性的輸出數量,包括 SeamlessM4T-Large(藍色)以及在可用時 的 Whisper-Large-v2 和 Whisper-Large-v2 + YourTTS 系統(橙色)。 參照先前的工作 [Costa-jussà et al., 2023],我們對 HolisticBias 的軸進行毒性分 析,並在圖 13 和 14(右)中報告了結果。圖顯示了每個類別的毒性翻譯分佈以及它們 如何隨著語言而變化。我們可以看到,不同語言在毒性詞語的分佈方面在人口軸上有所不 同。對於大多數語言,一個軸上的毒性分佈與該軸的整體份額成比例。例如,體型( "body type")是體積最大的主要類別,佔數據集的 25%。這個類別也往往累積了較大數 量的毒性。然而,對於一些語言,毒性句子似乎高度集中在特定軸上,例如孟加拉語( 80% 的社會經濟地位)、尼揚賈語(66% 的特性)和吉爾吉斯語(94% 的文化)等。 https://i.imgur.com/OjKkaaB.png
圖 13:(左)在 HolisticBias 中 eng–X 的 S2TT 的添加毒性。顯示前 40 個語言。 所繪製的語言是添加毒性樣本數超過 500 個的部分,佔數據集的 0.1%。 (右)不同語 言在毒性詞語的分佈方面存在差異,具體取決於人口軸,有些語言的毒性主要集中在一個 或兩個軸上。 在 S2TT 和 S2ST 中毒性標記更多的類別包括“Nonce”(0.79% 和 0.46%)和“性取向 ”(0.62% 和 0.35%)。“Nonce”(無意義)類別在詞語方面有點異常,因為它們不特 定地參考任何人口群體。在添加毒性最少的類別中,S2TT 是年齡(0.37%),而 S2ST 是 政治意識形態。 6.2.4 毒性關鍵發現與貢獻 總結起來,我們的主要發現和貢獻包括:(1) 提出了一個用於規模化語言的語音毒性檢測 的指標(ASR-ETOX),(2) 顯示儘管添加毒性的程度和類型因語言和數據集而異,但我們 系統中的添加毒性相對較低(在模式、語言方向和數據集之間變化從 0.11% 到 0.21%) ,以及 (3) 我們與最新技術的評估顯示,在 Fleurs 中,SeamlessM4T-Large 能夠減少 跨模式和語言方向的毒性 51%,在 HolisticBias 中 eng–X 的 S2TT 中則減少了 34%。 6.3 偏見 6.3.1 動機 不平衡的訓練數據可能導致人口統計和代表性偏見,影響我們的模型及其生成的輸出。這 些偏見可能通過在特定情境中使用時持續地造成配置偏見,對用戶造成不良影響。近年來 ,機器翻譯領域在揭示[Prates et al., 2020]、評估[Stanovsky et al., 2019; Renduchintala et al., 2021; Costa-jussà et al., 2022; Bentivogli et al., 2020],甚至減輕許多此類偏見形式方面取得了顯著進展[Renduchintala and Williams, 2022]。然而,在這個研究領域還有很多工作要做。 https://i.imgur.com/aqknZIC.png
圖 14:(左)在 HolisticBias 中 eng–X 的 S2ST 的添加毒性。顯示所有目標語言。 (右)與 S2TT 類似,不同語言在根據人口軸的毒性詞語分佈方面存在差異,有些語言的 毒性主要由一個或兩個軸主導。 相關工作 多語言的 HolisticBias 數據集[Costa-jussà et al., 2023] 是對 HolisticBias 的擴展。它包含三種不同模式和 118 個描述詞的翻譯,可在 50 種不同語 言中使用。根據語言中是否存在性別屈折,每種語言都有一個或兩個參考。每個翻譯的句 子包括男性、中性,以及在適用情況下的女性版本。該數據集使得能夠量化跨人口統計方 面的性別偏見,並且在撰寫本文時,它具有最高的語言覆蓋率。先前的工作主要集中在文 本方面[Stanovsky et al., 2019; Renduchintala et al., 2021; Levy et al., 2021; Costa-jussà et al., 2022; Renduchintala and Williams, 2022],並且往往以英語為 中心,人口軸和多語言參考較少。對於語音模式的類似努力仍然不足[Costa-jussà et al., 2022; Bentivogli et al., 2020]。 貢獻。在這項工作中,我們使用了多語言的 HolisticBias 數據集及其語音擴展(在下一 節中描述)來比較 S2TT 和 S2ST 的性能。eng–X 方向允許在存在男性或女性參考的情 況下進行性能比較,而 X–eng 方向則能夠在改變性別屈折時進行翻譯的穩健性比較。例 如,英語到西班牙語的語言對通常是 "I’m a homemaker" 和相應的西班牙語翻譯 "Soy amo de casa" 和 "Soy ama de casa"。從英語翻譯成西班牙語時,我們可以測量系統是 否過於泛化到一個性別,而在另一個方向上,我們可以評估翻譯對性別屈折的穩健性。 6.3.2 偏見實驗框架 數據集:多語言 HolisticBias 的語音擴展 為了跨模式(S2ST 和 S2TT)比較性能,我 們首先通過使用 Pratap et al. [2023] 提供的 TTS 模型將多語言 HolisticBias 數據 集從文本擴展到語音。由於該 TTS 模型在正確生成數位的語音方面存在限制,我們手動 將每種語言的所有數位轉換為文字。例如,句子 "I have friends who are 50 years old." 被轉換為 "I have friends who are fifty years old."。在通過 TTS 處理後, 我們獲得了在 19 種語言中總共 325 個句子的合成語音。這些語言既被 MMS-TTS 支持, 也包含在多語言 HolisticBias 數據集中[Costa-jussà et al., 2023]。對於這些語言 的每一種(除了英語),我們生成了兩種語音,分別對應每組有性別的文本。 語言方向和模式 我們將這些生成的 TTS 數據用作 S2TT 和 S2ST 的輸入,以及 S2ST 的 參考。我們在兩個方向上進行翻譯 —— eng–X 和 X–eng。具體而言,在 X–eng 方向 上,我們翻譯了語音的男性和女性版本。值得注意的是,某些目標語言在 SeamlessM4T 的 S2ST 模型中不可用,因此我們只對 X–eng 方向的 S2ST 任務進行了 17 種語言的翻 譯。對於 eng–X 方向的 S2TT,我們在多語言 HolisticBias 數據集中包含了所有的語 言(n=25)。作為參考,我們實驗中使用的完整語言列表可以在表 32 中找到。 https://i.imgur.com/b1QC108.png
表 32:偏見評估實驗中的語言代碼列表,按任務和語言方向組織。 評估 就 S2TT 的評估指標而言,我們使用了表 4 中報告的 chrF,只是將 nw:2 更改為 nw:0。我們之所以使用 chrF 而不是 BLEU 作為質量評估指標,是因為 chrF 更適合處理 較短的語句,這更適合於多語言 HolisticBias 數據集的評估。該數據集相對較小(325 個語句),句子較短(平均每個語句 6 個單詞)[Costa-jussà et al., 2023]。在這種 情況下,我們認為 chrF 更適合進行比較[Ma et al., 2019],因為 BLEU 在未匹配足夠 長的 n-gram 時迅速下降。對於 S2ST,我們使用了 ASR-chrF 和本文提出的 Blaser 2.0 。值得注意的是,在評估 Blaser 2.0 時,我們只包含了 14 種語言(包括英語)的 eng –X 方向(生成的 TTS 數據與我們的 S2ST 模型中可用的語言之間的重疊)。此外,由 於 MMS-TTS 的生成不是確定性的,我們對 S2ST 和 S2TT 都重複進行了三次測量。然後 ,將最終的指標值進行平均,以確保評估的穩健性和準確性。 模型 我們使用了 SeamlessM4T-Large 模型和幾個不同的基準系統。對於 X–eng 的 S2TT,我們使用了 Whisper-Large-v2 [Radford et al., 2022]。至於 X–eng 的 S2ST ,我們使用 YourTTS [Casanova et al., 2022] 從 Whisper-Large-v2 S2TT 的輸出生成 合成語音。對於 eng–X 的 S2TT,我們使用了級聯系統:首先是來自 Whisper Large-v2 的 ASR [Radford et al., 2022],然後是通過 NLLB-3.3B [NLLB Team et al., 2022] 的 T2TT。對於 SeamlessM4T-Large 的 S2TT,我們將波束大小設定為十。對 於 SeamlessM4T-Large 的 S2ST,我們將波束大小分別設定為第一次通過解碼器和第二次 通過解碼器的五。至於基準系統,我們將波束大小設定為 NLLB-3.3B 的五,並對 Whisper-Large-v2 和 YourTTS 使用默認值。 6.3.3 偏見評估結果 本節專注於分析在使用中性輸入(eng–X)時的性別翻譯,以及在只有性別不同的輸入之 間的翻譯性能差距(X–eng)。 https://i.imgur.com/bCGUf5T.png
圖 15:左:eng–X 的 S2TT 使用英語語音作為源語音,使用 X 文本翻譯(男性或女性 )作為參考,男性和女性形式之間的 chrF 分數差異。右:eng–X 的 S2ST 使用英語語 音作為源語音,使用 X 文本翻譯(男性或女性)作為參考,男性和女性形式之間的 ASR-chrF 分數差異。 eng–X. 在我們的分析中,我們使用非英語語言的男性或女性人工翻譯作為參考。該分析 的源數據來自英語(eng)的多語言 HolisticBias 數據集,包括一系列帶有模棱兩可性 別的獨特句子。 https://i.imgur.com/DfTFjxK.png
圖 16:(左)使用男性或女性版本的文本合成的 X 語音作為參考,英文文本作為參考, 比較 X–eng S2TT 中男性和女性之間的 chrF 分數差異。(右)使用男性或女性版本的 文本合成的 X 語音作為參考,英文文本作為參考,比較 X–eng S2ST 中男性和女性之間 的 ASR-chrF 分數差異。 https://i.imgur.com/TK9GXlH.png
圖 17:(左)使用英文語音作為源語音,使用 X 文本翻譯(男性和女性)作為參考,使 用監督式 Blaser 2.0 評估男性和女性形式之間的 ASR-chrF 分數差異。這些結果是從三 次實驗中平均計算得出的。(右)使用男性或女性版本的文本合成的 X 語音作為參考, 英文文本作為參考,監督式 Blaser 2.0 的分數差異。 https://i.imgur.com/2w2OyET.png
表 33:按軸(跨描述符、模板和語言)的平均結果:S2TT 中的 chrF(頂部)和 S2ST 中的 ASR-chrF(底部)結果。列(從左到右):男性參考、女性參考、兩者之間的平均 值,測量總數(Count)和男性與女性之間的差異(Diff)。行根據 S2ST 和 S2TT 的平 均 chrF 分別按遞增順序排列。這些軸在 HolisticBias 中進行了定義 —— 詳情請參見 原文 [Smith et al., 2022] 的表 5。 圖 15 顯示了每個目標語言的結果,顯示了以下模式: ‧ 在 SeamlessM4T-Large 的 S2TT 中,除了泰語之外,所有語言的翻譯質量都下降,尤 其在像加泰羅尼亞語(chrF 分數差異達到 10.3),斯洛伐克語(10.1)和西班牙語( 10.0)等語言中尤為明顯。對於 Whisper-Large-v2 + NLLB-3.3B 的組合,所有語言的翻 譯質量都有所下降。最大的差異出現在加泰羅尼亞語(10.7)、西班牙語(10.3)和阿拉 伯語(10.2)。值得一提的是,偏見在語言之間的分布在 SeamlessM4T-Large 和 Whisper-Large-v2 + NLLB-3.3B 的組合之間是相似的,唯一的例外是泰語。 ‧ 在 S2ST 中,我們注意到與 S2TT 有類似的趨勢,即在評估女性參考時,所有語言( 除了泰語)的翻譯質量都降低。最大的差異出現在加泰羅尼亞語(ASR-chrF 分數差異達 到 10.7)、西班牙語(10.0)和斯洛伐克語(9.3)等語言中。 圖 17 的左側展示了通過 Blaser 2.0 進行自動語音評估的結果。我們觀察到在 ASR-chrF 指標中有類似的趨勢。在評估女性參考時,所有語言(除了泰語)的翻譯質量 平均下降了 0.02 個監督式 Blaser 2.0 分。有趣的是,對於法語的評估差異微不足道。 最大的差異出現在西班牙語(0.07)和德語(0.03)等語言中。 這些差異表明,當源語句中沒有性別信息時,模型更傾向於將翻譯轉換為目標語言中的男 性形式。值得注意的是,對於一些語言(如西班牙語或法語),復數男性形式與通用復數 形式無法區分。 X–eng。我們的主要目標是評估從帶有性別的句子開始,將其翻譯為英語的翻譯質量。因 此,我們旨在測量模型對性別偏見的穩健性以及其處理標記有語法性別的語言之間的翻譯 能力。圖 16 按源語言顯示了 SeamlessM4T-Large 和 Whisper-Large-v2 或 Whisper-Large-v2 + YourTTS 的結果。我們觀察到: ‧ 在 S2TT 中,大多數語言(SeamlessM4T-Large 中的 18 個中的 15 個, Whisper-Large-v2 中的 18 個中的 16 個)從男性參考進行翻譯時,性能更好。然而, 它們對不同語言有不同的偏見。SeamlessM4T-Large 中男性和女性形式之間最大的差異在 泰米爾語(6.4 chrF 分數差異)和烏爾都語(5.0)。另一方面,在 Whisper-Large-v2 中,男性和女性形式之間最大的差異在西班牙語(5.3)、烏爾都語(3.8)和俄羅斯語( 3.4)。 ‧ 在 S2ST 中,我們觀察到與 S2TT 中的結果相似。大多數語言(SeamlessM4T-Large 中的 18 個中的 14 個,Whisper-Large-v2 + YourTTS 中的 18 個中的 17 個)在從男 性案例進行翻譯時,模型質量大多更好。SeamlessM4T-Large 中男性和女性形式之間最顯 著的差異出現在泰米爾語(ASR-chrF 分數差異達到 6.3)和西班牙語(4.5)。在 Whisper-Large-v2 中,男性和女性形式之間的最大差異在西班牙語(4.9)、烏爾都語( 3.7)和烏克蘭語(3.5)。 圖 17 的右側通過 Blaser 2.0 展示了性能比較。與 ASR-chrF 中的發現一樣,翻譯質量 通常在從男性案例進行翻譯時有所改善,這在 SeamlessM4T-Large 和 Whisper-Large-v2 + YourTTS 中分別有 18 個語言中的 16 個和 18 個語言中的 15 個 。SeamlessM4T-Large 中最大的差異在泰米爾語(0.21 監督式 Blaser 2.0 分)、西班 牙語(0.12)和瑞典語(0.11)。對於 Whisper-Large-v2 + YourTTS,最大的差異在阿 拉伯語(0.14)、西班牙語(0.075)和泰米爾語(0.05)。 不同方向和模式的平均比較. 表格34呈現了每個性別的平均分數,並與相應的基線進行了 比較。Δ代表性別之間的相對變化,計算方式如下: https://i.imgur.com/0YljaKy.png
正如之前提到的,在 eng–X 中,我們評估從中性到性別化形式的翻譯,並觀察對一個性 別的過度概括,而在 X–eng 中,我們評估在僅在性別變化方面存在差異的內容的翻譯的 穩健性。專注於 SeamlessM4T-Large 的結果,我們注意到,除了 Blaser 2.0 的評估結 果外,男性和女性形式之間的性能差異在過度概括方面比在穩健性方面更加明顯。轉向性 能比較時,我們發現在過度概括方面,SeamlessM4T-Large 在 S2TT 方面略優於 Whisper-Large-v2 + NLLB-3.3B。至於與穩健性相關的結果,在 S2TT 方面, SeamlessM4T-Large 在 Whisper-Large-v2 中表現不如,但在 S2ST 方面,它在 Whisper-Large-v2 + YourTTS 中表現優於 Whisper-Large-v2。我們進一步注意到,在 ASR-chrF 方面,男性和女性之間的差距要大於 Blaser 2.0。這可能意味著 ASR(從 ASR-chrF 來的)增加了一些額外的偏見。 https://i.imgur.com/sOCCkyL.png
表 34:在過度概括(eng–X)和穩健性(X–eng)方面,模態和性別之間的平均分數和 與相應基線的比較。Δ 表示男性和女性之間的相對差異 (Δ = ω(M - F)/ω(min(M,F)),ω ∈{chrF,ASR-chrF,Blaser 2.0)。 人口統計分析 我們進行了與 Costa-jussà 等人 [2023] 類似的分析。表 33 顯示了在 多語言 HolisticBias 軸翻譯的句子級別上平均 chrF 或 ASR-chrF,跨描述符、模板、 語言和男性與女性參考進行了平均。在所有軸中,我們發現文化、體型、社會經濟階級和 宗教對於質量干擾最敏感。此外,當考慮到男性和女性參考之間的差異以及有效樣本的數 量時,我們觀察到 S2ST 和 S2TT 在能力、體型、宗教和特徵軸上表現出最高的偏見。這 些觀察結果與 Costa-jussà 等人 [2023] 對 T2TT 的研究結果相一致。 6.3.4 性別數據表示 基於我們的同步工作 [Muller 等人,2023],我們通過關注如何使用詞匹配來表示不同性 別,討論了幾個數據集的表示偏見。研究數據中性別表示的最接近的工作是 Choubey 等 人 [2021],作者在一個合成數據集中探討了這個研究問題。然而,作者並沒有分享用於 提取此表示的詞匯名詞的詳細信息。 HolisticBias [Smith 等人,2022] 提供了一個性別化名詞和代詞列表。我們依賴於這個 列表來追蹤我們的數據集中包含性別標記的句子數量。由於我們的分析僅限於英語,我們 使用 python 單詞邊界正則表達式(\b)進行詞邊界的分詞。作為詞匯術語,我們限制了 詞彙表,以使我們的方法適用於多種語言 [Muller 等人,2023]。該詞彙表包括:11 個 男性名詞;4 個男性代詞;10 個女性名詞和 4 個女性代詞。我們匹配單詞,因此我們報 告了數據集中單詞數量中的單詞數量。圖 18 總結了幾個英語評估和培訓數據集的性別表 示結果。結果顯示,大多數數據集中主要是男性表示。在 EuroParl、Fleurs 和 Flores 數據集中發現了極低的性別表示(即基於我們選定的詞匯表的性別詞匹配率低),然而, 這種低表示是使我們的方法適用於多種語言的折衷方案,正如我們所提到的。這種數據特 徵的可擴展性努力可能用於平衡數據集,以減輕性別偏見。 6.3.5 偏見主要發現 在本節中,我們對 S2TT 和 S2ST 的翻譯偏見進行了一系列全面的 評估。我們展示了以下結果:(1)在缺乏性別信息的情況下,SeamlessM4T-Large 對於 翻譯成男性形式有約 10% 的平均偏好(對於兩種模式);(2)使用女性形式作為源輸入 導致英文翻譯質量較男性對應物差,顯示對性別變化的穩健性不足約 3%;(3) SeamlessM4T-Large 的偏見結果與最先進的技術相當;(4)我們的性別表示分析揭示了 在分析的數據集中,男性詞彙的過度代表相對於女性詞彙。更重要的是,這些發現為在大 規模範圍內標準化語音翻譯的偏見評估鋪平了道路。 6.4 限制由於在這種多模態和極多語言環境中應用於添加毒性或性別不平衡檢測的基於模 型的技術不足,我們使用了已知限制的字符串匹配技術。首先,使用 ETOX 的毒性列表進 行添加毒性檢測與其他基於詞匯表的檢測技術共享相同的限制,這些限制在 NLLB 團隊等 人 [2022] 和 Costa-jussà 等人 [2023] 中已經詳細討論過。簡而言之,基於詞匯表的 檢測器的兩個主要限制是:(1)它們往往會過度檢測僅在特定上下文中有毒的術語,(2 )它們依賴於精確的分詞,這在不分詞或高度粘聚性語言中更難實現。在處理語音輸出時 ,使用 ASR 進行詞匹配之前的過程增加了一個錯誤來源,這往往會導致假陰性。這尤其 影響到 eng–X 的方向,因為對於非英語語言,ASR 的質量往往較低。 https://i.imgur.com/AtCdYPm.png
圖 18:英語評估數據集(EuroParl、Flores、Fleurs、CoVoST 2、LibriSpeech 和 MultilingualLibriSpeech)和培訓挖掘數據(SeamlessAlign)的性別表示。縱軸顯示男 性表示的百分比,橫軸顯示女性表示的百分比。 其次,使用名詞列表檢測大型數據集中的語言性別不平衡與之前提到的基於詞匯表的技術 的所有限制相同,再加上依賴於語言性別線索作為整體性別表示的代理的額外困難。事實 上,在所有標記性別的語言中,語言性別分配並不遵循相同的模式,特別是在涉及包括多 個性別的群體的包容性復數形式(即指涉包含多種性別的群體的復數形式)時。除了一般 的限制外,使用特定且有限的 30 個名詞(選擇以反映用於構建 HolisticBias 數據集的 名詞)並不能保證結果可以推廣到用於調查性別表示的所有其他名詞集合(例如職業名詞 )。 _________________ 7.社會影響與結論 人類的溝通是多感官的,我們從多種模式中獲取感知輸入,以動態方式處理信息 [Holler 和 Levinson,2019]。在多語境下,基於文本的機器翻譯的進步使得人們能夠在 語言能力有限的情況下進行交流和學習 [Lee,2023]。然而,儘管像 NLLB [NLLB Team et al.,2022] 這樣的基礎模型將 T2TT 推向了超過 200 種語言,但直接語音翻譯尚未 取得類似的進展。為了彌補這一差距,我們創建了一個大規模多語言和多模態的機器翻譯 系統,為下一代語音翻譯技術鋪平了道路。 通過使用新的數據和建模方法將 S2ST、S2TT、T2TT 和 ASR 結合到單一模型中,我們的 主要貢獻如下。首先,我們建立了一個與我們的語言覆蓋範圍相一致的新的 LID 模型, 並在新構思的多語言多模態句子嵌入空間 SONAR 的幫助下進行了語音挖掘,創建了超過 470,000 小時的自動對齊語音翻譯語料庫。通過融合四個構建塊,(1) SeamlessM4T-NLLB,一個大規模多語言 T2TT 模型,(2)w2v-BERT 2.0,一個在無標記 語音音頻數據上預訓練的語音表示學習模型,(3)T2U,一個文本到單元序列到序列模型 ,以及(4)HiFi-GAN,一個多語言合成語音的語音合成器,我們建立了一個統一的模型 ,涵蓋了從 100 種語言到英語(100-eng)的 S2ST,從英語到 35 種語言(eng-35), 以及 100-eng 和 eng-95 語言的 S2TT。值得注意的是,與之前在 S2ST 上的工作相比, 該工作主要為英語翻譯提供服務,而不是反之。SeamlessM4T 能夠從英語翻譯為 35 個方 向。在 S2TT 方面,SeamlessM4T 在 S2TT 翻譯中的 BLEU 分數比之前的最新技術提高 了 20%。對於 S2TT 輸出的初步人類評估顯示出類似令人印象深刻的結果;對於從英語翻 譯的情況下,24 種評估語言的 XSTS 分數一致都在 4 分(滿分 5 分)以上。對於進入 英語方向,我們在 24 種語言中的 7 種中看到了對 Whisper-Large-v2 基線的顯著改善 。然後,我們對模型進行了穩健性評估,揭示出在背景噪音和說話者變化方面, SeamlessM4T 比 [Radford 等人,2022] 更具穩健性。通過還包括添加毒性和性別偏見的 水平的結果,我們希望能夠激勵未來針對減緩努力的工作。 出於促進可訪問性的目的,我們將我們工作的所有貢獻都開源,包括我們模型的兩個尺寸 ,以確保即使是計算資源有限的研究人員也可以使用我們的工作。在下面的部分中,我們 將討論 SeamlessM4T 的潛在社會影響,重點關注其下游可能性。 7.1 增強世界準備 我們生活的世界從未如此緊密相連 - 全球互聯網、移動設備、通信平台和社交媒體的普 及使個人接觸到比以往更多的多語言內容 [Zuckerman,2008]。當前的社會秩序對人們的 「世界準備」[ACTFL,2023] 提出了要求,這是衡量一個人對多語世界能力的一個指標。 最初是在語言學習的背景下發展的,世界準備強調能夠在母語以外的語言中進行交流的重 要性,無論是出於工具性(即就業或學校)還是文化原因(即成為全球公民)。然而,儘 管我們認為語言習得應該仍然是提升一個人世界準備的關鍵機制,我們承認這樣做需要許 多人可能不具備的心智和物質資源。 SeamlessM4T 支持的下游應用可以通過在不同上下文中簡化多語言交流,實現隨需訪問的 世界準備。與 T2TT 為橋接多語言文本理解所取得的成就相似,SeamlessM4T 可能會對語 音產生相同的影響。研究表明,與母語相比,對於外語來說,語音的獲取更加有機,而不 是閱讀或寫作 [Liberman,1992],當涉及到外語時,這種趨勢是相反的。換句話說,在 外語背景下,語音通常被認為比閱讀或寫作更具挑戰性。SeamlessM4T 支持的應用可以作 為一種共同駕駛機制,在多語言對話中支持用戶並提高他們在以語音為主的交互中的信心 。隨著基於語音的界面(即語音助手、語音備忘錄、實時譯寫等)和聽覺內容(即播客、 有聲書、短片視頻等)在人們的生活中越來越普遍,SeamlessM4T 可能支持的下游應用可 以實現更多種多語言體驗,並以比基於文本的對應方法更自然和動態的方式實現。 從包容的角度來看,SeamlessM4T 對多模態的關注可能在增強有可訪問性需求的人以及語 言中包含多種書寫系統的人的世界準備方面產生重要影響(如在第 2 節中提到)。對於 缺乏閱讀或寫作技能的許多人來說,或者無法依賴視覺(即視障或視覺障礙者),語音輔 助技術對於他們的交流和保持聯繫是必不可少的 [Belekar 等人,2020]。翻譯語音的能 力不僅可以使這些群體更全面地訪問其母語以外的信息,而且還可以更好地適應其交流需 求。此外,認識到某些語言可能存在書寫差異,SeamlessM4T 提供了幫助克服多書寫系統 困境的功能。對於沒有標準化書寫系統的語言,對語音識別和翻譯的投資可能在防止危及 方面起到重要作用。我們希望我們的努力能夠有助於這一重要運動。 7.2 未來的工作 與大多數技術一樣,效益的分配會根據用戶的人口統計和社會情況而變化 [Wang 等人, 2023b]。雖然我們提出 SeamlessM4T 可以通過降低跨語言交流的障礙來增強世界準備, 但某些用戶可能比其他用戶更難以使用我們的工作。例如,像許多其他語音技術一樣, SeamlessM4T 的 ASR 表現可能會因性別、種族、口音或語言而有所不同 [Koenecke 等人 ,2020; Ngueajio 和 Washington,2022]。此外,當涉及翻譯俚語或專有名詞時,我們 系統的性能在高資源和低資源語言之間也可能不一致。 對於 S2ST 來說,另一個挑戰是語音依賴即時的接收和反饋,相比書面語言更是如此。換 句話說,演講者在判定輸出的質量或在實時對話中進行「編輯」的能力受到限制。在沒有 計劃和修訂的能力的情況下,使用反向翻譯或母語演講者的幫助,S2ST 在涉及錯譯或毒 性時可能會具有較高程度的互動風險。我們敦促使用 SeamlessM4T 進行微調或構建產品 的研究人員和開發人員,在設計功能時要深思熟慮,以幫助用戶克服這些潛在的障礙。另 外,我們認為,應該將由 SeamlessM4T 驅動的應用視為一種輔助翻譯的裝置,而不是取 代語言學習或可靠的人類口譯員的工具。在涉及法律或醫療決策的高風險情況下,這一提 醒尤其重要。 最後,語音不僅僅是口語文本 - 它涵蓋了一系列韻律(即節奏、重音和語調)和情感成 分,值得進一步研究 [Elbow,1985]。為了創建感覺有機和自然的 S2ST 系統,應該將更 多的研究方向定位於保留表達能力的輸出生成 [Trilla 和 Alias,2012]。此外,實現巴 別魚的完整理念需要更深入地投資於低延遲語音翻譯的研究。開發能夠實現流式傳輸(即 在呈現輸入句子時逐步進行翻譯)的系統可能會增加這些系統在工業或教育背景下的應 用 [Iranzo-Sánchez 等人,2022; Rybakov 等人,2022]。我們希望 SeamlessM4T 能夠 為這兩個研究領域開創新的可能性。 _________________ 謝辭 我們要向使這項工作成為可能的人表示衷心的感謝。感謝 Sergey Edunov 和 Angela Fan 幫助塑造項目的早期階段;感謝 Shruti Bhosale、Vedanuj Goswami、Fernando Hernandez 和 Yun Tang 幫助建立更好的模型;感謝 Mingda Chen 對 Blaser 1.0 的貢 獻;感謝 Kiryl Klyushkin 幫助打造更好的體驗;感謝 Artyom Kozhevnikov 對 Fairseq2 和 Sonar 推論的貢獻;感謝 Zhaoheng Ni 和 Xiaohui Zhang 進行音頻降噪模 型的基準測試;感謝 Neil Seejoor 和 Mark Duppenthaler 在設置演示方面的幫助;感 謝 Vedanuj Goswami、Samuel Hsia、Bilge Acun-Uyan 和 Carole-Jean Wu 幫助進行效 率優化;感謝 Belen Alastruey、Mohamed Anwar、Heng-Jui Chang、HyoJung Han、 Chao-Wei Huang、Hui Lu、Siqi Ouyang、Yifan Peng、Phillip Rust、Jiatong Shi、 Neha Verma、Sung-Lin Yeh 以及我們的所有實習生和研究員,他們為團隊帶來了活力和 坦誠的討論;感謝 Mike Clark、Lauren Cohen、Jennifer Pak、Harrison Rudolph 的指 導;感謝 Emily Astbury、Lydia Baillergeau、Dana Beaty、Jeffrey Bennett、Jon Carvill、Anne Davidson、Aiman Farooq、Ashley Gabriel、Gopika Jhala、 Christopher Johnson、Steph Miles、Ana Paula Kirschner Mofarrej、Raghu Nayani、 Alyssa Newcomb、Tamara Piksa、Michelle Restrepo、Noha Rizk、Adébissy Tharinger,他們幫助我們的研究觸及新的受眾;感謝 Geeta Chauhan、Ankit Gunapal、 Caleb Ho、Dinesh Kannappan、Apostolos Kokolis、Teng Li、Matthias Reso、Shubho Sengupta、Hamid Shojanazeri、Xinyuan Zhang 幫助我們獲得計算資源和基礎設施;感 謝 Emmanuel Dupoux 和 Eric Michael Smith 對論文的反饋;感謝 Chris Moghbel、 Manohar Paluri、Joelle Pineau、Laurens van der Maaten 和 Mary Williamson 繼續 支持這個項目。 _________________ References... _________________ A. FAIRSEQ2 FAIRSEQ2 是一個開源的序列建模元件庫,為研究人員和開發者提供了用於機器翻譯、語 言建模以及其他文本和音頻數據格式的序列生成任務的構建模塊。FAIRSEQ2 遵循 MIT 授 權,可在 GitHub 上找到,網址為 https://github.com/pytorch/fairseq2。FAIRSEQ2的 特點包括:(i) 領先業界的transformers及其組件(transformer層、嵌入層、層正規化 、注意力塊等)的實現;(ii) fairseq2.data - 可擴展的流水線 API,可以在流式方式 下進行文本和音頻數據的預處理、轉換、洗牌和分批處理,使得可以在多 TB 數據集上進 行訓練,無需額外的數據準備步驟或數據加載超時;(iii) 用於高效模型訓練的核心構建 組件(優化器、學習率調度器、損失實現);(iv) 用於優化推斷的序列生成器,配備增 量束搜索。 FAIRSEQ2 的建立秉承了其前身 FAIRSEQ [Ott et al., 2019] 的可擴展性原則。代碼的 庫結構使得組件的無縫插入變得輕鬆,包括一些最初在 FAIRSEQ 中編寫的組件。我們預 期在未來幾年內,我們和開源社區將持續為該庫添加新的組件。 FAIRSEQ2 的另一個指導原則是核心代碼與實驗性代碼的明確分離。原始的 FAIRSEQ 已成 為眾多研究想法的集散地。這些想法通常以 if-else 語句的形式添加,與核心功能混合 在一起。隨著時間的推移,此類 if-else 語句和相關的命令行選項不斷增加,每個選項 的支援都很有限,並且通常與其他選項微妙不兼容。為了防止這種情況,在 FAIRSEQ2 中 ,所有基本組件都是根據“依賴反轉”原則設計的,這使得可以輕鬆地將它們組合在一起 。現有的模型架構可以只需幾行代碼即可進行修改,無需複製/粘貼大量代碼,所有插件 和修改都作為獨立的組件存在,不會干擾父組件,也不會妨礙其他用戶對它們的訪問。較 大的努力(例如本文中描述的 UnitY 或 Sonar)將移入獨立的存儲庫,並將 FAIRSEQ2 用作依賴。 我們承認當今存在著各種深度學習模型的訓練和執行環境(從單個容器訓練通過按需的雲 計算服務,到在 exaFLOPS 超級計算機上運行的大型 LLMs 訓練作業,擁有數萬個 GPU; 從邊緣設備的非常有限的推斷能力,到 ASIC 上的加速推斷的強大性能)。為了滿足這些 環境的多樣化期望,FAIRSEQ2 已從將所有訓練、評估和推斷流程作為自包含的單一停站 的思想轉變為一組獨立的組件,這些組件可以在 FAIRSEQ2 之外使用和擴展。我們強調 與 PyTorch 和其他深度學習框架中現有替代方案的兼容性,遵循常見的 API 慣例,並繼 承相同的基類。這保證了來自不同來源的組件的輕鬆替換。用戶可以選擇多種用法場景: 從使用 FAIRSEQ2 實施完整流程,到在其項目中融合多個深度學習框架,甚至選擇單個塊 ,如高效實現的優化器。 B. 數據統計 我們在表 35 中提供了用於訓練 SeamlessM4T 的 X2T 模型的 ASR 和 S2TT 數據的統計 數據(以語音音頻的小時數表示)。同樣,我們在表 36 中提供了 S2ST 訓練數據的統計 數據。 https://i.imgur.com/bj2DhAk.png
表 35:用於訓練我們的 SeamlessM4T 模型的 ASR 和 S2TT 數據的統計數據。我們列出 了主要(P)即開源 S2TT 和偽標記 ASR 數據之間的語音小時數,以及挖掘(M)的數據 。對於每種語言,我們區分了從英語翻譯為該語言的 eng-X,以及翻譯為英語的 X-eng。 語音時數超過 1000 小時的語言被定義為高資源語言。時數在 500 小時到 1000 小時之 間的語言被稱為中資源語言,時數少於 500 小時的語言被稱為低資源語言。如果語言在 微調的 1+2 階段中沒有監督,則被視為零樣本(zero-shot)。 https://i.imgur.com/aqkANk7.png
表 36:用於訓練我們的 SeamlessM4T 模型的 S2ST 數據的統計數據。我們列出了語音時 數。對於每種語言,我們區分了從英語翻譯為該語言的 Eng-X,以及翻譯為英語的 X-Eng 。 C. 模型卡(Model Card) - SeamlessM4T 模型詳細信息 ‧ 開發模型的人或組織:由Meta AI Research開發 ‧ 模型日期:2023年8月22日 ‧ 模型版本:SeamlessM4T-Large和SeamlessM4T-Medium ‧ 模型類型:多任務UnitY,具有(a)Conformer語音編碼器,(b)Transformer文本編 碼器-解碼器和(c)Transformer編碼器-解碼器用於T2U。 –有關用於訓練SeamlessM4T-Large和SeamlessM4T-Medium的確切訓練算法和數據,請參 閱論文:Seamless Communication等人,SeamlessM4T—Massively Multilingual & Multimodal Machine Translation,Arxiv,2023 –授權:CC-BY-NC 4.0 b –如何發送有關該模型的問題或評論: https://github.com/facebookresearch/seamless_communication/issues 預期使用 ‧ 主要預期用途:SeamlessM4T-Large和SeamlessM4T-Medium主要用於語音和文本翻譯研 究的多語言和多模式翻譯模型。它允許: –ASR :96種語言的自動語音識別。 –S2ST:從100種源語音語言翻譯為35種目標語音語言的語音到語音翻譯。 –S2TT:從100種源語音語言翻譯為95種目標文本語言的語音到文本翻譯。 –T2ST:從95種源文本語言翻譯為35種目標語音語言的文本到語音翻譯。 –T2TT:從95種源文本語言翻譯為95種目標文本語言的文本到文本翻譯(MT)。 –TTS :36種語言的文本到語音合成。 有關如何使用這個模型的資訊可以在 seamless_communication 存儲庫中找到,還附有進 行微調的指南。 ‧ 主要預期用戶:主要用戶是研究人員和機器翻譯(語音和文本)研究社區。 ‧ 超出範圍的用例:SeamlessM4T是一個研究模型,不用於生產部署。SeamlessM4T是根 據通用領域數據訓練的,不適用於特定領域的輸入,例如醫療領域或法律領域。該模型不 適用於長文翻譯。該模型是根據短文本和語音輸入進行訓練的,因此翻譯較長序列可能會 導致質量下降。SeamlessM4T 的翻譯不能用作認證翻譯。 指標 ‧ 模型性能衡量標準:對於S2TT任務,使用SOTA模型在語音到文本翻譯中採用的BLEU指 標對SeamlessM4T模型進行評估。此外,該模型還在S2TT上使用spBLEU和Blaser 2.0進行 評估。對於S2ST,使用ASR-BLEU和Blaser 2.0進行評估。對於T2TT任務,我們使用chrF++ 衡量質量。對於ASR,我們報告WER的廣泛採用指標,文本按照Radford等人的正規化進行 規範化。此外,我們對SeamlessM4T-Large進行了XSTS協議的人工評估,並測量了其增加 的毒性、健壯性和偏見。有關詳細指標的完整列表,請參閱SeamlessM4T論文的表4。 評估數據 ‧ 數據集:在SeamlessM4T論文的第2.2節和第6節中描述的Fleurs、Flores、CoVoST 2和 CVSS、HolisticBias和Multilingual HolisticBias。 ‧ 動機:我們使用Fleurs,因為它提供了一個在102種語言中提供n路平行語音和文本數 據集,我們可以在多個任務上評估SeamlessM4T模型。 訓練數據 ‧ 我們使用了來自多個來源的平行多語言數據來訓練該模型。 倫理考慮 ‧ 在這項工作中,我們採取了一種反思性的方法來進行技術開發,以確保我們優先考慮 人類用戶,並減少可能轉移到他們身上的風險。儘管我們在整篇文章中都反思了我們的倫 理考慮,但以下是一些額外的重點。首先,此研究所選擇的許多語言都是低資源語言。儘 管質量翻譯可能會改善這些社區的教育和信息訪問,但這種訪問也可能會使數位素養水平 較低的群體更容易受到誤訊或在線詐騙的影響。如果惡意使用者將我們的工作用於不良活 動,這些情況可能會出現,我們認為這是一個非預期的用例。關於數據獲取,用於模型開 發的訓練數據是從網絡上的各種公開可用來源中採集的。儘管我們在數據清理方面投入了 大量精力,但可能無法完全消除個人身份信息。最後,儘管我們已經盡了最大的努力來優 化翻譯質量,但模型產生的誤譯可能仍然存在。儘管機會很低,但這可能對那些依賴這些 翻譯做出重要決策的人產生不利影響(特別是涉及健康和安全的決策)。 注意事項和建議 ‧ 限制:研究人員在研究應用中使用該模型時,應考慮實施額外的完整性緩解措施,以 應對“增加的毒性”。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.71.107.225 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1693038988.A.0E2.html ※ 編輯: avans (111.71.107.225 臺灣), 08/26/2023 16:42:58 ※ 編輯: avans (111.71.107.225 臺灣), 08/26/2023 17:29:59 ※ 編輯: avans (111.71.107.225 臺灣), 08/26/2023 20:15:59 ※ 編輯: avans (111.71.107.225 臺灣), 08/26/2023 20:54:00
文章代碼(AID): #1awRcC3Y (AI_Art)