Re: [問卦] 中研院自己做的大型語言模型怎麼了?

看板Gossiping作者 (charlesgg)時間6月前 (2023/10/09 14:34), 6月前編輯推噓55(58349)
留言110則, 69人參與, 6月前最新討論串6/7 (看更多)
※ 引述《messi5566 (虹粉)》之銘言: : 中研院最近發布了他們自己開發的LLM : 說是在處理繁體中文的任務上表現優異 : 可是小妹看了一下跑出來的成果 : https://i.imgur.com/I1zNnIa.png
: https://i.imgur.com/BJIxJY6.png
: 請問繁體中文的任務內容是把簡體翻譯過來嗎 : 詳細資料在這裡 : https://huggingface.co/spaces/ckiplab/CKIP-Llama-2-7b-chat 阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預 訓練或微調的數據源跟一些微調小細節而已。 然後大家想知道這個模型是不是本土完全從零開始可以從hugging face上的模型config跟 作者說的訓練數據源來看細節藏在魔鬼裡。 首先,依據新聞阿肥看了一下數據是用dolly-15k跟COIG-PC然後用opencc 轉繁體訓練, 理論上原生的meta llama 2的vocabulary size是32000,然後當前對岸開源的簡中llama 2 vocabulary size 是 55296,CKIP開源的那個看起來是65000。 理論上如果是完全從英文的llama 2 預訓練依照這兩個數據集詞彙詞典大小不會那麼大的 ,所以這邊推測有可能這個模型原始就不是從原生llama 2開始的。 此外,這兩個數據集都是簡中數據集,中研院不知道哪個阿天以為只要opencc 簡轉繁就 可以訓練,完全無視繁中的用詞跟簡中用詞的差異。更天的是拿C-Eval這個簡中評測集做 評測,根本是拿明朝的劍斬清朝的官。 當前政府一堆研究單位早就落後中國不止一輪了,人家中國四五年前就砸哈工大幾億人民 幣再做簡中數據集了。 那個時候阿肥就一直再說台灣想做自己的AI一定要先從數據中心、數據工程開始,建立屬 於台灣自己的數據集,結果過了幾年中研院依然是畫大餅的單位,年初阿肥參加過幾個會 議聽到中研院再那邊高喊要要做自己的LLM,阿肥還以為中研院自己秘密建立了一套數據 中心,想必一定砸大錢,結果竟然是拿對岸的數據訓練,也不知道哪個天才研究員覺得只 要簡轉繁AI就會自己講台灣用語。 唉~ 這邊註一下: Vocabulary size是指當前LLM再預訓練會先把文字依據數據集切分成對應大小AI自己學會 的Token,詞會儲存起來對應成ID,AI模型其實真正預測的是這個詞表的ID最後再轉換回 人類有辦法閱讀的中文或英文字。 C-Eval是中國清華北大釋出來的評測集,簡單理解就是AI輸出的文字跟人類的回答有多接 近,他會做一些規範劃分成20-30個領域看看AI究竟有沒有學會到文字裡面的文化或是專 業領域知識。 以上 阿肥自己目前也在幫公司做繁中的語言模型,目前阿肥因為繁中數據有限所以 阿肥都是盡可能把模型縮限在小範圍超過分佈就拒絕回答,敢這樣做到那麼通用還不是拿 自己的 大量數據集來訓練,我感覺CKIP可能要有大地震了。 呵呵…. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.10.46.126 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1696833266.A.EC8.html

10/09 14:35, 6月前 , 1F
中研院有說是從Atom-7b微調喔
10/09 14:35, 1F
Atom-7b就是對岸業餘人士拿Chinese llama調出來的,你怎麼會覺得沒有簡中的數據分佈 ?

10/09 14:36, 6月前 , 2F
Opencc不是有簡中轉繁中用法的功能嗎
10/09 14:36, 2F

10/09 14:36, 6月前 , 3F
?還是那個不夠準確
10/09 14:36, 3F
OpenCC很多用語還真的就不會轉,像公交車就直接簡轉繁變繁體的公交車,你要額外增加 詞彙他才會轉,但他的做法就是遇到同樣的詞就取代,像港語的的士你直接把他加進去就 全部把你文字裡面的「的士」轉成計程車。。

10/09 14:37, 6月前 , 4F
基本上現在要訓練公司內部用的
10/09 14:37, 4F

10/09 14:37, 6月前 , 5F
Llm也有點苦惱 中文資源都是對岸 用語也是
10/09 14:37, 5F

10/09 14:37, 6月前 , 6F
講的你比杜奕瑾還厲害 好了啦
10/09 14:37, 6F
呵呵 ※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 14:44:21

10/09 14:38, 6月前 , 7F
台灣就沒模型沒算力沒資料,三無怎麼打
10/09 14:38, 7F

10/09 14:38, 6月前 , 8F
台灣又浪費了幾年時間了
10/09 14:38, 8F

10/09 14:39, 6月前 , 9F
這個id被創世神勾勾再中共同路人那邊
10/09 14:39, 9F

10/09 14:40, 6月前 , 10F
所以說三無就放推 那養中研院幹嘛 關
10/09 14:40, 10F

10/09 14:40, 6月前 , 11F
,你準備好被肉搜了沒?
10/09 14:40, 11F

10/09 14:40, 6月前 , 12F
一關好了 浪費稅金
10/09 14:40, 12F

10/09 14:41, 6月前 , 13F
不是有姓杜的AI大神? 快出來拯救世界
10/09 14:41, 13F

10/09 14:41, 6月前 , 14F
好奇自己餵資料養數據庫,成本很高嗎?
10/09 14:41, 14F
要建自己的data pipeline跟data center啊!有些專業領域數據就要用買的,撈回來的文 字資料一定有很多雜訊跟給電腦識別的tag要清,每一個都是成本,然後最後有了pretrai n data後當前的LLM 模型還需要Instruction data也就是標準的人類口語QA跟引導模型的 句子來調,最後想要更好一定要做偏好模型來產生弱標籤做清理人類惡意輸入的雜訊,你 覺得維護成本低嗎?

10/09 14:42, 6月前 , 15F
可以拿近8年中央政府新聞稿訓練啊..
10/09 14:42, 15F

10/09 14:43, 6月前 , 16F
怎麼會沒資料.繁體資料可多著呢..
10/09 14:43, 16F

10/09 14:43, 6月前 , 17F
綠共塔綠班政府~只會大內宣而已~
10/09 14:43, 17F

10/09 14:43, 6月前 , 18F
專門騙台灣智障人民就夠了
10/09 14:43, 18F

10/09 14:44, 6月前 , 19F
各部會公開資訊也能用. 只是要不要做啦
10/09 14:44, 19F

10/09 14:47, 6月前 , 20F
講中文好嗎
10/09 14:47, 20F

10/09 14:48, 6月前 , 21F
這麼閹割的東西就會被靠北上新聞了,怎麼
10/09 14:48, 21F

10/09 14:48, 6月前 , 22F
覺得上面會給資源燒錢做數據集笑死
10/09 14:48, 22F

10/09 14:49, 6月前 , 23F
竟敢說台灣落後對岸,你完惹
10/09 14:49, 23F

10/09 14:52, 6月前 , 24F
國科會那邊也是一堆畫餅廢物「創造具台
10/09 14:52, 24F

10/09 14:52, 6月前 , 25F
灣特色的chatGPT」
10/09 14:52, 25F

10/09 14:54, 6月前 , 26F
翻譯台灣應該全面使用支語
10/09 14:54, 26F
※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 15:01:18

10/09 14:57, 6月前 , 27F
這方案主管全部槍斃阿
10/09 14:57, 27F

10/09 14:59, 6月前 , 28F
民進黨又不台獨,用一下簡中還好吧
10/09 14:59, 28F

10/09 14:59, 6月前 , 29F
成本巨大,中研院最好是知識圖譜做好就套小
10/09 14:59, 29F

10/09 14:59, 6月前 , 30F
範圍,出通用一看就不可能
10/09 14:59, 30F

10/09 15:01, 6月前 , 31F
逆變器什麼的都買支那,愛台灣就對了
10/09 15:01, 31F

10/09 15:01, 6月前 , 32F
連收集資料都懶得做,這還叫做研究單位
10/09 15:01, 32F

10/09 15:02, 6月前 , 33F
看這個案子開多少錢啊。錢不夠就偷
10/09 15:02, 33F

10/09 15:06, 6月前 , 34F
數位部/國科會/中研院/工研院都有預算
10/09 15:06, 34F
還有 38 則推文
還有 1 段內文
10/09 16:25, 6月前 , 73F
中研院這次壞了自己名聲
10/09 16:25, 73F

10/09 16:25, 6月前 , 74F
林北文組,看不懂
10/09 16:25, 74F

10/09 16:29, 6月前 , 75F
資料清洗比訓練還要累多了,有在fin
10/09 16:29, 75F

10/09 16:29, 6月前 , 76F
etune的應該都有感覺
10/09 16:29, 76F
其實現在大家在玩得RLHF或是Instruction無非就是一種資料清洗/資料增強/資料正規化 ,光是弄得好模型就夠漲好幾個百分點了,比去想什麼fashion的模型架構還有用。OpenA I自己底下也一堆合作公司再弄資料清洗跟弱標籤才締造一個chatGPT。

10/09 16:33, 6月前 , 77F
專業推 雖然看不懂
10/09 16:33, 77F

10/09 16:37, 6月前 , 78F
AI就美中大戰,台灣乖乖做代工就好
10/09 16:37, 78F

10/09 16:40, 6月前 , 79F
研究單位的話,說不定有人是中國來的,
10/09 16:40, 79F

10/09 16:40, 6月前 , 80F
覺得只是簡轉繁沒關係
10/09 16:40, 80F

10/09 16:45, 6月前 , 81F
等等 講這些前有想過党不喜歡聰明的孩子嗎?
10/09 16:45, 81F

10/09 16:50, 6月前 , 82F
那我這邊有一筆社群網站的繁中資料,我記
10/09 16:50, 82F

10/09 16:50, 6月前 , 83F
得是兩三百萬筆,是不是就變得蠻值錢的
10/09 16:50, 83F

10/09 16:54, 6月前 , 84F
台灣只會喊大數據,其他沒了
10/09 16:54, 84F

10/09 16:56, 6月前 , 85F
中國那邊資料的確多,尤其知識型的
10/09 16:56, 85F

10/09 17:02, 6月前 , 86F
中研院要不要把一些大餅計畫砍一砍 集
10/09 17:02, 86F

10/09 17:02, 6月前 , 87F
中火力在重要的計畫比較實在
10/09 17:02, 87F

10/09 17:10, 6月前 , 88F
養黨工不用錢?養側翼不用錢?養圖文畫
10/09 17:10, 88F

10/09 17:10, 6月前 , 89F
家跟YTBer?別拿中國不用養這些狗的標
10/09 17:10, 89F

10/09 17:10, 6月前 , 90F
準來看台灣
10/09 17:10, 90F

10/09 17:13, 6月前 , 91F
上面又不懂技術,只押著你急著做出東西
10/09 17:13, 91F

10/09 17:14, 6月前 , 92F
大內宣,下面就只能拿現成的改改交交差
10/09 17:14, 92F

10/09 17:14, 6月前 , 93F
10/09 17:14, 93F

10/09 17:30, 6月前 , 94F
我宣佈以後臺灣都叫公交車
10/09 17:30, 94F

10/09 17:44, 6月前 , 95F
就做出來看起來像騙騙不懂的
10/09 17:44, 95F

10/09 17:46, 6月前 , 96F
數位部?跟這個會有關聯嗎?
10/09 17:46, 96F

10/09 17:50, 6月前 , 97F
台灣人做東西的調調就這樣,講求一個快
10/09 17:50, 97F
※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 18:06:38

10/09 18:04, 6月前 , 98F
雖然兩邊用語有越來越接近 但還是有差別啊
10/09 18:04, 98F

10/09 18:15, 6月前 , 99F
不就是懶到剩抄,抄到一字不變的,
10/09 18:15, 99F

10/09 18:16, 6月前 , 100F
不合格學生?中研院?你有在做事?
10/09 18:16, 100F

10/09 19:00, 6月前 , 101F
推專業
10/09 19:00, 101F

10/09 19:02, 6月前 , 102F
這篇專業 推一個
10/09 19:02, 102F

10/09 19:04, 6月前 , 103F
不想花錢花時間花人力就只能抄阿 抄抄抄
10/09 19:04, 103F

10/09 20:50, 6月前 , 104F
中研院的水準怎麼這幾年低落成這樣
10/09 20:50, 104F

10/09 21:31, 6月前 , 105F
推專業
10/09 21:31, 105F

10/09 23:25, 6月前 , 106F
中研院不清楚,不過國科會(舊)確實是
10/09 23:25, 106F

10/09 23:25, 6月前 , 107F
畫大餅專門
10/09 23:25, 107F

10/09 23:29, 6月前 , 108F
推認真回覆…有在關注的深感認同
10/09 23:29, 108F

10/09 23:52, 6月前 , 109F
看就知道沒錢弄出來交差的東西
10/09 23:52, 109F

10/10 03:08, 6月前 , 110F
台灣沒人會花錢做基礎的啦
10/10 03:08, 110F
文章代碼(AID): #1b8vxox8 (Gossiping)
討論串 (同標題文章)
文章代碼(AID): #1b8vxox8 (Gossiping)