Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套

看板Soft_Job作者 (竹科管理處網軍研發人員)時間6月前 (2023/10/09 14:53), 編輯推噓53(55294)
留言151則, 54人參與, 6月前最新討論串2/3 (看更多)
※ 引述《gaymay5566 (feeling很重要)》之銘言: : 中央研究院詞庫小組(CKIP) : 中研院資訊所、語言所於民國75年合作成立 : 前天釋出可以商用的繁中大型語言模型(LLM) : CKIP-Llama-2-7b : 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎 : 再補強繁體中文的處理能力 : 參數量達70億 : 模型可應用於各種領域 : 包括文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等 : 但實際測試後 : https://i.imgur.com/phwhfcl.png
: https://i.imgur.com/O1P6HpS.png
: https://i.imgur.com/cMnCbI8.png
: 測試網頁:https://reurl.cc/q0rbqn : 拿這種東西出來交作業 太扯了吧 : 根本就是簡體直接轉繁體而已! : 中研院資訊所耶 拿這種軟體來騙 : 更新:被發現後 悄悄地撤下來了 : https://i.imgur.com/sy7rLgt.png
小弟待的公司,非學術單位, 可能是台灣硬體計算資源稍微豐富的公司。 公司投入在買GPU 應該近億了。 自己也研究了幾個月 fine-tune 方法。 不過,還是沒足夠能力與資源訓練正常的LLM。 主要卡在三方面: 1.資料面,會卡什麼?: 並不是像版友們說的:繁體中文語料過少, 這根本不是一開始會遇到的問題。 光是 Common Crawl 真的有人去看繁體中文的量有多大嗎? 有人願意像Meta一樣去處理清洗資料後再去訓練嗎? 光是處理資料,所需的硬體採購, 大概要到一億新台幣來建置機房。 這還是稍微能用而已。 繁體中文資料難蒐集根本是假議題。 你的公司,沒錢買設備,沒資源 不願意讓你投幾億成本處理清洗資料才是事實。 我只看過中研院與聯發科之前的Bloom-zh-3B論文。光是他們這點就卡住了。 資料只能用玩具級的做法來做。 到處砍,到處刪CC的資料。 而且該論文也說了,自己只是 fine-tune別人的Bloomz 模型,不是從新訓練。 嗯,光是模型大小,1B1或3B的,聯發科語中研院就"沒有能力"重新訓練了好嗎。 看了 只fine-tune LLaMA-2-7B這種等級的模型。 大概也很容易說明了,硬體經費根本不足。 這種經費會卡到的不是繁體語料不足, 而是根本沒機器或資源給你清洗處理資料。 2. 訓練模型會先卡什麼? 目前,台灣任何一個單位,根本沒能力研發LLM模型架構。台智雲,中研院,或其他任何單位。 都是基於LLaMA2上去 fine-tune的。 所以模型都是 7B 13B 70B大小。 而是大概都是用QLORA或相關技術去 fine-tune的。這些都是open source直接去套而已, 完全沒有任何技術門檻。 (只有誰願意採購幾千萬硬體的門檻而已) 所有不拿大量通用資料,只 fine-tune少量資料 都有一個問題: 你可以over-fitting去嵌入所有你想要的模型輸出文字,但災難性遺忘所有通用知識。 同樣的,你可以控制模型永遠只輸出英文與繁體,只輸出台灣知識。但模型的通用性,絕對是差到不能用的。 所以台智雲,或中科院這種等級訓練出來的模型,通用型有待商確,可能問一些很基本的常識就掛了。 這不會先卡到中研院CKIP技術太差, (我是非常敬佩CKIP這幾年的努力的) 會先卡到的是: 是否願意投個幾十億建立基礎訓練平台而已。 如果沒看到一個像樣的訓練平台,千張 A100這種等級的。 短視到只願意fine-tune 輸出少數大家想看的輸出, 當然永遠災難性遺忘通用能力。 永遠沒有一個可商用,可通用的機會。 當然也可以用雲計算租GPU,但是費用也不便宜,沒丟個幾億都是不夠的。 國家要給中研院幾個億去玩LLM, 會先被輿論幹翻吧。 3.人才面 台灣並沒有很多人在真正訓練/微調LLM。 你去看各種AI研討會,或所謂都LLM專家,幾乎都是在吹自己的prompt如何試錯。 在吹自己怎麼用OpenAI的API。 其實人才的建立,最先卡的也不是沒錢。 中國人,一堆只有幾萬元台幣的消費級顯卡的人,都在fine-tune LLM了,其實買個6萬台幣的電競筆電也能做很多事情了。但台灣就是沒這種風氣。 在台灣各種專業研討會,做prompt trick的人,比傻傻的在處理資料,training/fine-tune模型的人,紅很多。人才與風氣走偏了。 能用 prompt 就能獲得大量經費,成為專家,誰願意研發training/fine-tune技術。 結論: 小弟是很看好中研院的能力,可惜整個台灣AI風氣,與商業玩法,技術再強的人,大概都難以發揮。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.54.199 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1696834412.A.CAF.html

10/09 14:59, 6月前 , 1F
數發部那兩百多億真的不知道在衝三小用的
10/09 14:59, 1F

10/09 15:01, 6月前 , 2F
都可以花十幾億弄個不能用的球場了 我們國家很有錢的
10/09 15:01, 2F

10/09 15:01, 6月前 , 3F
黨要不要而已
10/09 15:01, 3F

10/09 15:11, 6月前 , 4F
10/09 15:11, 4F

10/09 15:14, 6月前 , 5F
不同預算直接比跟算營養午餐那套有啥差別,問題在
10/09 15:14, 5F

10/09 15:14, 6月前 , 6F
好多公司上層都在吹自家有微調大模型的能力,結果
10/09 15:14, 6F

10/09 15:14, 6月前 , 7F
給的機器少得可憐,再怎麼厲害的人也無能為力
10/09 15:14, 7F

10/09 15:19, 6月前 , 8F
如果能理解"給多少資源做出來就是多少能力"還好,
10/09 15:19, 8F

10/09 15:19, 6月前 , 9F
怕的是你做出來老闆叫你跟OpenAI的大模型比
10/09 15:19, 9F

10/09 15:36, 6月前 , 10F
推~
10/09 15:36, 10F

10/09 15:40, 6月前 , 11F
很多公司房營收獲利來源就跟鬼島政府一樣短視近利,
10/09 15:40, 11F

10/09 15:40, 6月前 , 12F
僅靠擁護某些人的利益卻想藉由搶/死他人來獲益,對這
10/09 15:40, 12F

10/09 15:40, 6月前 , 13F
類人而言能做的僅次於一樣的無能及可悲。這年頭各種
10/09 15:40, 13F

10/09 15:40, 6月前 , 14F
事情及衝突其實已經跟所有人告誡,從各面向觀之,只
10/09 15:40, 14F

10/09 15:40, 6月前 , 15F
想賺自己的那些終究會葬送在自己的手裡,並且把整體
10/09 15:40, 15F

10/09 15:40, 6月前 , 16F
環境弄成一攤死水
10/09 15:40, 16F

10/09 15:42, 6月前 , 17F
出張嘴短視近利靠混及騙來的不代表你多厲害,反而還
10/09 15:42, 17F

10/09 15:42, 6月前 , 18F
會有更多產業內外的人們,因你(這類人)在位而被害
10/09 15:42, 18F

10/09 15:43, 6月前 , 19F
@抱歉SE鍵盤太小打錯字是 公司方*
10/09 15:43, 19F

10/09 15:44, 6月前 , 20F
那還不如不要無腦就跟著做下去更好
10/09 15:44, 20F

10/09 16:00, 6月前 , 21F
台灣公司一堆稱有ai單位,也沒做出什麼東西嗎
10/09 16:00, 21F

10/09 16:02, 6月前 , 22F
我原醫藥產業各式台外商政商及其各式職司就更不用提
10/09 16:02, 22F

10/09 16:02, 6月前 , 23F
,那種情況比科技業能有準則判定立馬有成效數據孰優
10/09 16:02, 23F

10/09 16:02, 6月前 , 24F
孰劣更明顯,而且動輒國際及國家資源獨寡占上兆耗費
10/09 16:02, 24F

10/09 16:02, 6月前 , 25F
而言資源偷拐搶騙比科技業跟軟工還誇張的可怕,目前
10/09 16:02, 25F

10/09 16:02, 6月前 , 26F
我原產業得志又得利的小人們佔多數,拿他們沒辦法而
10/09 16:02, 26F

10/09 16:02, 6月前 , 27F
且他們各式所為還不會被評判攻擊的這麼明顯,反過來
10/09 16:02, 27F

10/09 16:02, 6月前 , 28F
其他人還會被這些人評判,錯誤方變成對的那一方,對
10/09 16:02, 28F

10/09 16:02, 6月前 , 29F
的變成錯誤方還要被要求檢討自己來證明這些人沒問題
10/09 16:02, 29F

10/09 16:02, 6月前 , 30F
,更莫名奇妙,中研院現在那個生醫園區及我原產業那
10/09 16:02, 30F

10/09 16:02, 6月前 , 31F
些人們,以後挖台灣的錢更是會用比這還誇張的莫名奇
10/09 16:02, 31F

10/09 16:02, 6月前 , 32F
妙手腕,這模型看起來跟我原產業的人們相比真的小太
10/09 16:02, 32F

10/09 16:02, 6月前 , 33F
10/09 16:02, 33F

10/09 16:06, 6月前 , 34F
台灣永遠只有第一波玩的到,後面要玩資本的永遠跟
10/09 16:06, 34F

10/09 16:06, 6月前 , 35F
不上
10/09 16:06, 35F

10/09 16:20, 6月前 , 36F
資本跟國力蠻有關的,如果台灣自己又再內鬥內耗,這
10/09 16:20, 36F

10/09 16:20, 6月前 , 37F
塊輸別人(尤其是對比歐美而言,他們的國力本來就很
10/09 16:20, 37F

10/09 16:20, 6月前 , 38F
夠用)真的是正常
10/09 16:20, 38F

10/09 16:49, 6月前 , 39F
10/09 16:49, 39F
還有 72 則推文
10/10 12:06, 6月前 , 112F
有錢但是不分你啊
10/10 12:06, 112F

10/10 12:11, 6月前 , 113F
推說明 AI基礎建設就是砸錢 政府有沒有決心去推很重要
10/10 12:11, 113F

10/10 12:32, 6月前 , 114F
現在的政府不用想了吧,國家從上到下都在短視近利
10/10 12:32, 114F

10/10 16:24, 6月前 , 115F
不用幻想文組法律系當頭的政府有啥撈快錢之外的目標惹
10/10 16:24, 115F

10/10 16:24, 6月前 , 116F
啦 經濟部還想補助中小ic設計商先進製成總經費8億 是
10/10 16:24, 116F

10/10 16:24, 6月前 , 117F
要笑死人 老人只能玩蓋蚊子館撈錢啦
10/10 16:24, 117F

10/10 16:48, 6月前 , 118F
推分析,另真的不管錢投在哪裡就是會有帳號冒出來罵翻,
10/10 16:48, 118F

10/10 16:48, 6月前 , 119F
看推文就知道
10/10 16:48, 119F

10/10 19:03, 6月前 , 120F
每次提到「政府」就有人來亂酸...好好討論不行嗎
10/10 19:03, 120F

10/10 19:20, 6月前 , 121F
好好面對現實不行嗎 為什麼會有人講政府又不是無中生
10/10 19:20, 121F

10/10 19:20, 6月前 , 122F
10/10 19:20, 122F

10/10 21:12, 6月前 , 123F
clean data需要億級硬體設備可以分享一下原因嗎
10/10 21:12, 123F

10/10 21:12, 6月前 , 124F
是後處理的資料存儲問題嗎
10/10 21:12, 124F

10/10 22:13, 6月前 , 125F
在公司內很難說服主管像中國那樣做資料集和開源模型
10/10 22:13, 125F

10/10 22:13, 6月前 , 126F
,然後別人一推出新模型就開始瞎緊張,完全沒有長期
10/10 22:13, 126F

10/10 22:13, 6月前 , 127F
規劃的能力
10/10 22:13, 127F

10/10 23:27, 6月前 , 128F
對岸有國產搜尋引擎或問答平台 比較容易累積資料
10/10 23:27, 128F

10/10 23:31, 6月前 , 129F
台灣的玩法應該是不會重頭弄 只能外包請人做資料審查
10/10 23:31, 129F

10/11 06:26, 6月前 , 130F
蛋塔一樣,外面紅啥,政府就跟著喊,然後補助一堆學院,
10/11 06:26, 130F

10/11 06:26, 6月前 , 131F
大量產出紙上作業的人
10/11 06:26, 131F

10/11 06:40, 6月前 , 132F
看xx部 台灣不缺你說的這點小錢 用在哪而已
10/11 06:40, 132F

10/11 07:45, 6月前 , 133F
這很台灣
10/11 07:45, 133F

10/11 10:21, 6月前 , 134F
推分析 鬼島有鬼島的玩法
10/11 10:21, 134F

10/11 10:31, 6月前 , 135F
200億拿去點麵線、裝潢、出國考察也不願意投資未來最重要
10/11 10:31, 135F

10/11 10:31, 6月前 , 136F
的AI,這就是鬼島玩法
10/11 10:31, 136F

10/11 13:16, 6月前 , 137F
不同意樓上。原Po第二點就有提到
10/11 13:16, 137F

10/11 13:19, 6月前 , 138F
是否跳進這個燒錢的軍備競賽而排擠其他項目,才是真的
10/11 13:19, 138F

10/11 13:19, 6月前 , 139F
命題
10/11 13:19, 139F

10/11 13:41, 6月前 , 140F
所以有人說得出兩百多億具體端了什麼成果嗎
10/11 13:41, 140F

10/11 14:36, 6月前 , 141F
真的很難想像 台灣本土LLM 能賺到甚麼錢
10/11 14:36, 141F

10/11 14:37, 6月前 , 142F
對岸不會用 歐美日也不會想用 只能島內自己用
10/11 14:37, 142F

10/11 14:38, 6月前 , 143F
這樣講起來 200億拿去點麵線 至少能讓肚子吃飽 是還比較
10/11 14:38, 143F

10/11 14:38, 6月前 , 144F
實在
10/11 14:38, 144F

10/11 15:45, 6月前 , 145F
實在個雕,點麵線已經有現成的外送app,你做一樣定位的東
10/11 15:45, 145F

10/11 15:45, 6月前 , 146F
西幹嘛
10/11 15:45, 146F

10/11 16:21, 6月前 , 147F
點外送不是就有現成app了?
10/11 16:21, 147F

10/12 10:03, 6月前 , 148F
就是因為有現成的他們才想做啊XD
10/12 10:03, 148F

10/12 12:39, 6月前 , 149F
推推 之前碩班做相關研究 後來因硬體資源不足就乖乖去業界
10/12 12:39, 149F

10/12 12:40, 6月前 , 150F
學術單位做研究本來就是針對某環節進行優化改善而已
10/12 12:40, 150F

10/14 00:15, 6月前 , 151F
同意,問題是真的有商業價值嗎?
10/14 00:15, 151F
文章代碼(AID): #1b8wDiol (Soft_Job)
討論串 (同標題文章)
文章代碼(AID): #1b8wDiol (Soft_Job)