Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套
看板Soft_Job作者DrTech (竹科管理處網軍研發人員)時間1年前 (2023/10/09 06:53)推噓53(55推 2噓 94→)留言151則, 54人參與, 1年前最新討論串2/3 (看更多)
※ 引述《gaymay5566 (feeling很重要)》之銘言:
: 中央研究院詞庫小組(CKIP)
: 中研院資訊所、語言所於民國75年合作成立
: 前天釋出可以商用的繁中大型語言模型(LLM)
: CKIP-Llama-2-7b
: 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎
: 再補強繁體中文的處理能力
: 參數量達70億
: 模型可應用於各種領域
: 包括文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等
: 但實際測試後
: https://i.imgur.com/phwhfcl.png



: 測試網頁:https://reurl.cc/q0rbqn
: 拿這種東西出來交作業 太扯了吧
: 根本就是簡體直接轉繁體而已!
: 中研院資訊所耶 拿這種軟體來騙
: 更新:被發現後 悄悄地撤下來了
: https://i.imgur.com/sy7rLgt.png

小弟待的公司,非學術單位,
可能是台灣硬體計算資源稍微豐富的公司。
公司投入在買GPU 應該近億了。
自己也研究了幾個月 fine-tune 方法。
不過,還是沒足夠能力與資源訓練正常的LLM。
主要卡在三方面:
1.資料面,會卡什麼?:
並不是像版友們說的:繁體中文語料過少,
這根本不是一開始會遇到的問題。
光是 Common Crawl 真的有人去看繁體中文的量有多大嗎? 有人願意像Meta一樣去處理清洗資料後再去訓練嗎?
光是處理資料,所需的硬體採購,
大概要到一億新台幣來建置機房。
這還是稍微能用而已。
繁體中文資料難蒐集根本是假議題。
你的公司,沒錢買設備,沒資源
不願意讓你投幾億成本處理清洗資料才是事實。
我只看過中研院與聯發科之前的Bloom-zh-3B論文。光是他們這點就卡住了。
資料只能用玩具級的做法來做。
到處砍,到處刪CC的資料。
而且該論文也說了,自己只是 fine-tune別人的Bloomz 模型,不是從新訓練。
嗯,光是模型大小,1B1或3B的,聯發科語中研院就"沒有能力"重新訓練了好嗎。
看了 只fine-tune LLaMA-2-7B這種等級的模型。
大概也很容易說明了,硬體經費根本不足。
這種經費會卡到的不是繁體語料不足,
而是根本沒機器或資源給你清洗處理資料。
2. 訓練模型會先卡什麼?
目前,台灣任何一個單位,根本沒能力研發LLM模型架構。台智雲,中研院,或其他任何單位。
都是基於LLaMA2上去 fine-tune的。
所以模型都是 7B 13B 70B大小。
而是大概都是用QLORA或相關技術去 fine-tune的。這些都是open source直接去套而已,
完全沒有任何技術門檻。
(只有誰願意採購幾千萬硬體的門檻而已)
所有不拿大量通用資料,只 fine-tune少量資料
都有一個問題:
你可以over-fitting去嵌入所有你想要的模型輸出文字,但災難性遺忘所有通用知識。
同樣的,你可以控制模型永遠只輸出英文與繁體,只輸出台灣知識。但模型的通用性,絕對是差到不能用的。
所以台智雲,或中科院這種等級訓練出來的模型,通用型有待商確,可能問一些很基本的常識就掛了。
這不會先卡到中研院CKIP技術太差,
(我是非常敬佩CKIP這幾年的努力的)
會先卡到的是:
是否願意投個幾十億建立基礎訓練平台而已。
如果沒看到一個像樣的訓練平台,千張 A100這種等級的。
短視到只願意fine-tune
輸出少數大家想看的輸出,
當然永遠災難性遺忘通用能力。
永遠沒有一個可商用,可通用的機會。
當然也可以用雲計算租GPU,但是費用也不便宜,沒丟個幾億都是不夠的。
國家要給中研院幾個億去玩LLM,
會先被輿論幹翻吧。
3.人才面
台灣並沒有很多人在真正訓練/微調LLM。
你去看各種AI研討會,或所謂都LLM專家,幾乎都是在吹自己的prompt如何試錯。
在吹自己怎麼用OpenAI的API。
其實人才的建立,最先卡的也不是沒錢。
中國人,一堆只有幾萬元台幣的消費級顯卡的人,都在fine-tune LLM了,其實買個6萬台幣的電競筆電也能做很多事情了。但台灣就是沒這種風氣。
在台灣各種專業研討會,做prompt trick的人,比傻傻的在處理資料,training/fine-tune模型的人,紅很多。人才與風氣走偏了。
能用 prompt 就能獲得大量經費,成為專家,誰願意研發training/fine-tune技術。
結論:
小弟是很看好中研院的能力,可惜整個台灣AI風氣,與商業玩法,技術再強的人,大概都難以發揮。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.54.199 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1696834412.A.CAF.html
推
10/09 14:59,
1年前
, 1F
10/09 14:59, 1F
推
10/09 15:01,
1年前
, 2F
10/09 15:01, 2F
→
10/09 15:01,
1年前
, 3F
10/09 15:01, 3F
推
10/09 15:11,
1年前
, 4F
10/09 15:11, 4F
→
10/09 15:14,
1年前
, 5F
10/09 15:14, 5F
→
10/09 15:14,
1年前
, 6F
10/09 15:14, 6F
→
10/09 15:14,
1年前
, 7F
10/09 15:14, 7F
推
10/09 15:19,
1年前
, 8F
10/09 15:19, 8F
→
10/09 15:19,
1年前
, 9F
10/09 15:19, 9F
推
10/09 15:36,
1年前
, 10F
10/09 15:36, 10F
推
10/09 15:40,
1年前
, 11F
10/09 15:40, 11F
→
10/09 15:40,
1年前
, 12F
10/09 15:40, 12F
→
10/09 15:40,
1年前
, 13F
10/09 15:40, 13F
→
10/09 15:40,
1年前
, 14F
10/09 15:40, 14F
→
10/09 15:40,
1年前
, 15F
10/09 15:40, 15F
→
10/09 15:40,
1年前
, 16F
10/09 15:40, 16F
→
10/09 15:42,
1年前
, 17F
10/09 15:42, 17F
→
10/09 15:42,
1年前
, 18F
10/09 15:42, 18F
→
10/09 15:43,
1年前
, 19F
10/09 15:43, 19F
→
10/09 15:44,
1年前
, 20F
10/09 15:44, 20F
推
10/09 16:00,
1年前
, 21F
10/09 16:00, 21F
推
10/09 16:02,
1年前
, 22F
10/09 16:02, 22F
→
10/09 16:02,
1年前
, 23F
10/09 16:02, 23F
→
10/09 16:02,
1年前
, 24F
10/09 16:02, 24F
→
10/09 16:02,
1年前
, 25F
10/09 16:02, 25F
→
10/09 16:02,
1年前
, 26F
10/09 16:02, 26F
→
10/09 16:02,
1年前
, 27F
10/09 16:02, 27F
→
10/09 16:02,
1年前
, 28F
10/09 16:02, 28F
→
10/09 16:02,
1年前
, 29F
10/09 16:02, 29F
→
10/09 16:02,
1年前
, 30F
10/09 16:02, 30F
→
10/09 16:02,
1年前
, 31F
10/09 16:02, 31F
→
10/09 16:02,
1年前
, 32F
10/09 16:02, 32F
→
10/09 16:02,
1年前
, 33F
10/09 16:02, 33F
→
10/09 16:06,
1年前
, 34F
10/09 16:06, 34F
→
10/09 16:06,
1年前
, 35F
10/09 16:06, 35F
推
10/09 16:20,
1年前
, 36F
10/09 16:20, 36F
→
10/09 16:20,
1年前
, 37F
10/09 16:20, 37F
→
10/09 16:20,
1年前
, 38F
10/09 16:20, 38F
推
10/09 16:49,
1年前
, 39F
10/09 16:49, 39F
還有 72 則推文
推
10/10 12:06,
1年前
, 112F
10/10 12:06, 112F
推
10/10 12:11,
1年前
, 113F
10/10 12:11, 113F
推
10/10 12:32,
1年前
, 114F
10/10 12:32, 114F
→
10/10 16:24,
1年前
, 115F
10/10 16:24, 115F
→
10/10 16:24,
1年前
, 116F
10/10 16:24, 116F
→
10/10 16:24,
1年前
, 117F
10/10 16:24, 117F
推
10/10 16:48,
1年前
, 118F
10/10 16:48, 118F
→
10/10 16:48,
1年前
, 119F
10/10 16:48, 119F
推
10/10 19:03,
1年前
, 120F
10/10 19:03, 120F
→
10/10 19:20,
1年前
, 121F
10/10 19:20, 121F
→
10/10 19:20,
1年前
, 122F
10/10 19:20, 122F
推
10/10 21:12,
1年前
, 123F
10/10 21:12, 123F
→
10/10 21:12,
1年前
, 124F
10/10 21:12, 124F
推
10/10 22:13,
1年前
, 125F
10/10 22:13, 125F
→
10/10 22:13,
1年前
, 126F
10/10 22:13, 126F
→
10/10 22:13,
1年前
, 127F
10/10 22:13, 127F
推
10/10 23:27,
1年前
, 128F
10/10 23:27, 128F
→
10/10 23:31,
1年前
, 129F
10/10 23:31, 129F
推
10/11 06:26,
1年前
, 130F
10/11 06:26, 130F
→
10/11 06:26,
1年前
, 131F
10/11 06:26, 131F
→
10/11 06:40,
1年前
, 132F
10/11 06:40, 132F
推
10/11 07:45,
1年前
, 133F
10/11 07:45, 133F
推
10/11 10:21,
1年前
, 134F
10/11 10:21, 134F
推
10/11 10:31,
1年前
, 135F
10/11 10:31, 135F
→
10/11 10:31,
1年前
, 136F
10/11 10:31, 136F
推
10/11 13:16,
1年前
, 137F
10/11 13:16, 137F
→
10/11 13:19,
1年前
, 138F
10/11 13:19, 138F
→
10/11 13:19,
1年前
, 139F
10/11 13:19, 139F
推
10/11 13:41,
1年前
, 140F
10/11 13:41, 140F
→
10/11 14:36,
1年前
, 141F
10/11 14:36, 141F
→
10/11 14:37,
1年前
, 142F
10/11 14:37, 142F
→
10/11 14:38,
1年前
, 143F
10/11 14:38, 143F
→
10/11 14:38,
1年前
, 144F
10/11 14:38, 144F
推
10/11 15:45,
1年前
, 145F
10/11 15:45, 145F
→
10/11 15:45,
1年前
, 146F
10/11 15:45, 146F
推
10/11 16:21,
1年前
, 147F
10/11 16:21, 147F
推
10/12 10:03,
1年前
, 148F
10/12 10:03, 148F
推
10/12 12:39,
1年前
, 149F
10/12 12:39, 149F
→
10/12 12:40,
1年前
, 150F
10/12 12:40, 150F
推
10/14 00:15,
1年前
, 151F
10/14 00:15, 151F
討論串 (同標題文章)