作者查詢 / DaOppaiLoli

總覽項目: 發文 | 留言 | 暱稱
作者 DaOppaiLoli 在 PTT [ Soft_Job ] 看板的留言(推文), 共15則
限定看板:Soft_Job
首頁
上一頁
1
下一頁
尾頁
Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套
[ Soft_Job ]151 留言, 推噓總分: +53
作者: DrTech - 發表於 2023/10/09 14:53(8月前)
65FDaOppaiLoli: 台智雲那段我想提醒一下,一開始他們是用 BLOOM 17610/09 22:58
66FDaOppaiLoli: B 下去訓練,當時(推測是二月開始訓練) QLoRA 即10/09 22:58
67FDaOppaiLoli: 使還沒出來。雖然 BLOOM 架構與 Llama 架構差滿多的10/09 22:58
68FDaOppaiLoli: ,但我想 AFS 訓練千億級參數量模型的能力應該還是10/09 22:58
69FDaOppaiLoli: 有的。只是說台智雲這個系列的模型是閉源的,所以也10/09 22:58
70FDaOppaiLoli: 不會被大家拿來檢視與挑戰就是了。10/09 22:58
80FDaOppaiLoli: 那個應該是指說他們推出了 Llama2 繁中版,「另外」10/10 00:01
81FDaOppaiLoli: 還提供了 PEFT 訓練方法可供選擇,但是並沒有明確指10/10 00:01
82FDaOppaiLoli: 出這些繁中版的模型是使用 LoRA 訓練的。但我有朋友10/10 00:01
83FDaOppaiLoli: 用過 AFS Demo,當時 FFM 176B 也是 Full Fine-tuni10/10 00:01
84FDaOppaiLoli: ng,感覺沒什麼道理參數量少了反而倒退嚕。不過他們10/10 00:01
85FDaOppaiLoli: 是主打算力平台,模型的提供並不是真正的重點,只是10/10 00:01
86FDaOppaiLoli: 讓客戶有比較多選擇而已。10/10 00:01
87FDaOppaiLoli: 新聞稿參考10/10 00:01
88FDaOppaiLoli: https://tinyurl.com/2wzxxyx910/10 00:01
首頁
上一頁
1
下一頁
尾頁