Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套

看板Soft_Job作者DrTech (竹科管理處網軍研發人員)時間1年前 (2023/10/09 06:53)推噓53(55推 2噓 94→)

留言151則, 54人參與, 1年前最新討論串2/3 (看更多)

※ 引述《gaymay5566 (feeling很重要)》之銘言： : 中央研究院詞庫小組（CKIP） : 中研院資訊所、語言所於民國75年合作成立 : 前天釋出可以商用的繁中大型語言模型(LLM) : CKIP-Llama-2-7b : 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎 : 再補強繁體中文的處理能力 : 參數量達70億 : 模型可應用於各種領域 : 包括文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等 : 但實際測試後 : https://i.imgur.com/phwhfcl.png

: https://i.imgur.com/O1P6HpS.png

: https://i.imgur.com/cMnCbI8.png

: 測試網頁：https://reurl.cc/q0rbqn : 拿這種東西出來交作業太扯了吧 : 根本就是簡體直接轉繁體而已！ : 中研院資訊所耶拿這種軟體來騙 : 更新：被發現後悄悄地撤下來了 : https://i.imgur.com/sy7rLgt.png

小弟待的公司，非學術單位，可能是台灣硬體計算資源稍微豐富的公司。公司投入在買GPU 應該近億了。自己也研究了幾個月 fine-tune 方法。不過，還是沒足夠能力與資源訓練正常的LLM。主要卡在三方面： 1.資料面，會卡什麼？：並不是像版友們說的：繁體中文語料過少，這根本不是一開始會遇到的問題。光是 Common Crawl 真的有人去看繁體中文的量有多大嗎？有人願意像Meta一樣去處理清洗資料後再去訓練嗎？光是處理資料，所需的硬體採購，大概要到一億新台幣來建置機房。這還是稍微能用而已。繁體中文資料難蒐集根本是假議題。你的公司，沒錢買設備，沒資源不願意讓你投幾億成本處理清洗資料才是事實。我只看過中研院與聯發科之前的Bloom-zh-3B論文。光是他們這點就卡住了。資料只能用玩具級的做法來做。到處砍，到處刪CC的資料。而且該論文也說了，自己只是 fine-tune別人的Bloomz 模型，不是從新訓練。嗯，光是模型大小，1B1或3B的，聯發科語中研院就"沒有能力"重新訓練了好嗎。看了只fine-tune LLaMA-2-7B這種等級的模型。大概也很容易說明了，硬體經費根本不足。這種經費會卡到的不是繁體語料不足，而是根本沒機器或資源給你清洗處理資料。 2. 訓練模型會先卡什麼？目前，台灣任何一個單位，根本沒能力研發LLM模型架構。台智雲，中研院，或其他任何單位。都是基於LLaMA2上去 fine-tune的。所以模型都是 7B 13B 70B大小。而是大概都是用QLORA或相關技術去 fine-tune的。這些都是open source直接去套而已，完全沒有任何技術門檻。 (只有誰願意採購幾千萬硬體的門檻而已) 所有不拿大量通用資料，只 fine-tune少量資料都有一個問題：你可以over-fitting去嵌入所有你想要的模型輸出文字，但災難性遺忘所有通用知識。同樣的，你可以控制模型永遠只輸出英文與繁體，只輸出台灣知識。但模型的通用性，絕對是差到不能用的。所以台智雲，或中科院這種等級訓練出來的模型，通用型有待商確，可能問一些很基本的常識就掛了。這不會先卡到中研院CKIP技術太差， (我是非常敬佩CKIP這幾年的努力的) 會先卡到的是：是否願意投個幾十億建立基礎訓練平台而已。如果沒看到一個像樣的訓練平台，千張 A100這種等級的。短視到只願意fine-tune 輸出少數大家想看的輸出，當然永遠災難性遺忘通用能力。永遠沒有一個可商用，可通用的機會。當然也可以用雲計算租GPU，但是費用也不便宜，沒丟個幾億都是不夠的。國家要給中研院幾個億去玩LLM，會先被輿論幹翻吧。 3.人才面台灣並沒有很多人在真正訓練/微調LLM。你去看各種AI研討會，或所謂都LLM專家，幾乎都是在吹自己的prompt如何試錯。在吹自己怎麼用OpenAI的API。其實人才的建立，最先卡的也不是沒錢。中國人，一堆只有幾萬元台幣的消費級顯卡的人，都在fine-tune LLM了，其實買個6萬台幣的電競筆電也能做很多事情了。但台灣就是沒這種風氣。在台灣各種專業研討會，做prompt trick的人，比傻傻的在處理資料，training/fine-tune模型的人，紅很多。人才與風氣走偏了。能用 prompt 就能獲得大量經費，成為專家，誰願意研發training/fine-tune技術。結論：小弟是很看好中研院的能力，可惜整個台灣AI風氣，與商業玩法，技術再強的人，大概都難以發揮。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.54.199 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1696834412.A.CAF.html

推