作者查詢 / DaOppaiLoli

總覽項目：發文 | 留言 | 暱稱

作者 DaOppaiLoli 在 PTT [ Soft_Job ] 看板的留言(推文), 共15則

限定看板：Soft_Job

看板排序：

首頁

尾頁

[ Soft_Job ]151 留言, 推噓總分: +53

作者: DrTech - 發表於 2023/10/09 14:53(8月前)

65^F推DaOppaiLoli: 台智雲那段我想提醒一下，一開始他們是用 BLOOM 17610/09 22:58

66^F→DaOppaiLoli: B 下去訓練，當時（推測是二月開始訓練） QLoRA 即10/09 22:58

67^F→DaOppaiLoli: 使還沒出來。雖然 BLOOM 架構與 Llama 架構差滿多的10/09 22:58

68^F→DaOppaiLoli: ，但我想 AFS 訓練千億級參數量模型的能力應該還是10/09 22:58

69^F→DaOppaiLoli: 有的。只是說台智雲這個系列的模型是閉源的，所以也10/09 22:58

70^F→DaOppaiLoli: 不會被大家拿來檢視與挑戰就是了。10/09 22:58

80^F推DaOppaiLoli: 那個應該是指說他們推出了 Llama2 繁中版，「另外」10/10 00:01

81^F→DaOppaiLoli: 還提供了 PEFT 訓練方法可供選擇，但是並沒有明確指10/10 00:01

82^F→DaOppaiLoli: 出這些繁中版的模型是使用 LoRA 訓練的。但我有朋友10/10 00:01

83^F→DaOppaiLoli: 用過 AFS Demo，當時 FFM 176B 也是 Full Fine-tuni10/10 00:01

84^F→DaOppaiLoli: ng，感覺沒什麼道理參數量少了反而倒退嚕。不過他們10/10 00:01

85^F→DaOppaiLoli: 是主打算力平台，模型的提供並不是真正的重點，只是10/10 00:01

86^F→DaOppaiLoli: 讓客戶有比較多選擇而已。10/10 00:01

87^F→DaOppaiLoli: 新聞稿參考10/10 00:01

88^F→DaOppaiLoli: https://tinyurl.com/2wzxxyx910/10 00:01

首頁

尾頁