Re: [問卦] 中研院自己做的大型語言模型怎麼了?
※ 引述《messi5566 (虹粉)》之銘言:
: 中研院最近發布了他們自己開發的LLM
: 說是在處理繁體中文的任務上表現優異
: 可是小妹看了一下跑出來的成果
: https://i.imgur.com/I1zNnIa.png
: 請問繁體中文的任務內容是把簡體翻譯過來嗎
: 詳細資料在這裡
: https://huggingface.co/spaces/ckiplab/CKIP-Llama-2-7b-chat
阿肥外商碼農阿肥啦!
昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還
可以進去,但現在已經進不去了。
這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較
早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預
訓練或微調的數據源跟一些微調小細節而已。
然後大家想知道這個模型是不是本土完全從零開始可以從hugging face上的模型config跟
作者說的訓練數據源來看細節藏在魔鬼裡。
首先,依據新聞阿肥看了一下數據是用dolly-15k跟COIG-PC然後用opencc 轉繁體訓練,
理論上原生的meta llama 2的vocabulary size是32000,然後當前對岸開源的簡中llama
2 vocabulary size 是 55296,CKIP開源的那個看起來是65000。
理論上如果是完全從英文的llama 2 預訓練依照這兩個數據集詞彙詞典大小不會那麼大的
,所以這邊推測有可能這個模型原始就不是從原生llama 2開始的。
此外,這兩個數據集都是簡中數據集,中研院不知道哪個阿天以為只要opencc 簡轉繁就
可以訓練,完全無視繁中的用詞跟簡中用詞的差異。更天的是拿C-Eval這個簡中評測集做
評測,根本是拿明朝的劍斬清朝的官。
當前政府一堆研究單位早就落後中國不止一輪了,人家中國四五年前就砸哈工大幾億人民
幣再做簡中數據集了。
那個時候阿肥就一直再說台灣想做自己的AI一定要先從數據中心、數據工程開始,建立屬
於台灣自己的數據集,結果過了幾年中研院依然是畫大餅的單位,年初阿肥參加過幾個會
議聽到中研院再那邊高喊要要做自己的LLM,阿肥還以為中研院自己秘密建立了一套數據
中心,想必一定砸大錢,結果竟然是拿對岸的數據訓練,也不知道哪個天才研究員覺得只
要簡轉繁AI就會自己講台灣用語。
唉~
這邊註一下:
Vocabulary size是指當前LLM再預訓練會先把文字依據數據集切分成對應大小AI自己學會
的Token,詞會儲存起來對應成ID,AI模型其實真正預測的是這個詞表的ID最後再轉換回
人類有辦法閱讀的中文或英文字。
C-Eval是中國清華北大釋出來的評測集,簡單理解就是AI輸出的文字跟人類的回答有多接
近,他會做一些規範劃分成20-30個領域看看AI究竟有沒有學會到文字裡面的文化或是專
業領域知識。
以上
阿肥自己目前也在幫公司做繁中的語言模型,目前阿肥因為繁中數據有限所以
阿肥都是盡可能把模型縮限在小範圍超過分佈就拒絕回答,敢這樣做到那麼通用還不是拿
自己的
大量數據集來訓練,我感覺CKIP可能要有大地震了。
呵呵….
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.10.46.126 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1696833266.A.EC8.html
推
10/09 14:35,
6月前
, 1F
10/09 14:35, 1F
Atom-7b就是對岸業餘人士拿Chinese llama調出來的,你怎麼會覺得沒有簡中的數據分佈
?
推
10/09 14:36,
6月前
, 2F
10/09 14:36, 2F
→
10/09 14:36,
6月前
, 3F
10/09 14:36, 3F
OpenCC很多用語還真的就不會轉,像公交車就直接簡轉繁變繁體的公交車,你要額外增加
詞彙他才會轉,但他的做法就是遇到同樣的詞就取代,像港語的的士你直接把他加進去就
全部把你文字裡面的「的士」轉成計程車。。
推
10/09 14:37,
6月前
, 4F
10/09 14:37, 4F
→
10/09 14:37,
6月前
, 5F
10/09 14:37, 5F
推
10/09 14:37,
6月前
, 6F
10/09 14:37, 6F
呵呵
※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 14:44:21
推
10/09 14:38,
6月前
, 7F
10/09 14:38, 7F
推
10/09 14:38,
6月前
, 8F
10/09 14:38, 8F
推
10/09 14:39,
6月前
, 9F
10/09 14:39, 9F
推
10/09 14:40,
6月前
, 10F
10/09 14:40, 10F
→
10/09 14:40,
6月前
, 11F
10/09 14:40, 11F
→
10/09 14:40,
6月前
, 12F
10/09 14:40, 12F
推
10/09 14:41,
6月前
, 13F
10/09 14:41, 13F
推
10/09 14:41,
6月前
, 14F
10/09 14:41, 14F
要建自己的data pipeline跟data center啊!有些專業領域數據就要用買的,撈回來的文
字資料一定有很多雜訊跟給電腦識別的tag要清,每一個都是成本,然後最後有了pretrai
n data後當前的LLM 模型還需要Instruction data也就是標準的人類口語QA跟引導模型的
句子來調,最後想要更好一定要做偏好模型來產生弱標籤做清理人類惡意輸入的雜訊,你
覺得維護成本低嗎?
→
10/09 14:42,
6月前
, 15F
10/09 14:42, 15F
→
10/09 14:43,
6月前
, 16F
10/09 14:43, 16F
推
10/09 14:43,
6月前
, 17F
10/09 14:43, 17F
→
10/09 14:43,
6月前
, 18F
10/09 14:43, 18F
→
10/09 14:44,
6月前
, 19F
10/09 14:44, 19F
→
10/09 14:47,
6月前
, 20F
10/09 14:47, 20F
推
10/09 14:48,
6月前
, 21F
10/09 14:48, 21F
→
10/09 14:48,
6月前
, 22F
10/09 14:48, 22F
推
10/09 14:49,
6月前
, 23F
10/09 14:49, 23F
推
10/09 14:52,
6月前
, 24F
10/09 14:52, 24F
→
10/09 14:52,
6月前
, 25F
10/09 14:52, 25F
推
10/09 14:54,
6月前
, 26F
10/09 14:54, 26F
※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 15:01:18
推
10/09 14:57,
6月前
, 27F
10/09 14:57, 27F
推
10/09 14:59,
6月前
, 28F
10/09 14:59, 28F
推
10/09 14:59,
6月前
, 29F
10/09 14:59, 29F
→
10/09 14:59,
6月前
, 30F
10/09 14:59, 30F
推
10/09 15:01,
6月前
, 31F
10/09 15:01, 31F
推
10/09 15:01,
6月前
, 32F
10/09 15:01, 32F
→
10/09 15:02,
6月前
, 33F
10/09 15:02, 33F
→
10/09 15:06,
6月前
, 34F
10/09 15:06, 34F
還有 38 則推文
還有 1 段內文
→
10/09 16:25,
6月前
, 73F
10/09 16:25, 73F
推
10/09 16:25,
6月前
, 74F
10/09 16:25, 74F
推
10/09 16:29,
6月前
, 75F
10/09 16:29, 75F
→
10/09 16:29,
6月前
, 76F
10/09 16:29, 76F
其實現在大家在玩得RLHF或是Instruction無非就是一種資料清洗/資料增強/資料正規化
,光是弄得好模型就夠漲好幾個百分點了,比去想什麼fashion的模型架構還有用。OpenA
I自己底下也一堆合作公司再弄資料清洗跟弱標籤才締造一個chatGPT。
推
10/09 16:33,
6月前
, 77F
10/09 16:33, 77F
推
10/09 16:37,
6月前
, 78F
10/09 16:37, 78F
→
10/09 16:40,
6月前
, 79F
10/09 16:40, 79F
→
10/09 16:40,
6月前
, 80F
10/09 16:40, 80F
→
10/09 16:45,
6月前
, 81F
10/09 16:45, 81F
推
10/09 16:50,
6月前
, 82F
10/09 16:50, 82F
→
10/09 16:50,
6月前
, 83F
10/09 16:50, 83F
推
10/09 16:54,
6月前
, 84F
10/09 16:54, 84F
→
10/09 16:56,
6月前
, 85F
10/09 16:56, 85F
→
10/09 17:02,
6月前
, 86F
10/09 17:02, 86F
→
10/09 17:02,
6月前
, 87F
10/09 17:02, 87F
噓
10/09 17:10,
6月前
, 88F
10/09 17:10, 88F
→
10/09 17:10,
6月前
, 89F
10/09 17:10, 89F
→
10/09 17:10,
6月前
, 90F
10/09 17:10, 90F
推
10/09 17:13,
6月前
, 91F
10/09 17:13, 91F
→
10/09 17:14,
6月前
, 92F
10/09 17:14, 92F
→
10/09 17:14,
6月前
, 93F
10/09 17:14, 93F
推
10/09 17:30,
6月前
, 94F
10/09 17:30, 94F
推
10/09 17:44,
6月前
, 95F
10/09 17:44, 95F
→
10/09 17:46,
6月前
, 96F
10/09 17:46, 96F
推
10/09 17:50,
6月前
, 97F
10/09 17:50, 97F
※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 18:06:38
→
10/09 18:04,
6月前
, 98F
10/09 18:04, 98F
噓
10/09 18:15,
6月前
, 99F
10/09 18:15, 99F
→
10/09 18:16,
6月前
, 100F
10/09 18:16, 100F
推
10/09 19:00,
6月前
, 101F
10/09 19:00, 101F
推
10/09 19:02,
6月前
, 102F
10/09 19:02, 102F
推
10/09 19:04,
6月前
, 103F
10/09 19:04, 103F
推
10/09 20:50,
6月前
, 104F
10/09 20:50, 104F
推
10/09 21:31,
6月前
, 105F
10/09 21:31, 105F
→
10/09 23:25,
6月前
, 106F
10/09 23:25, 106F
→
10/09 23:25,
6月前
, 107F
10/09 23:25, 107F
推
10/09 23:29,
6月前
, 108F
10/09 23:29, 108F
推
10/09 23:52,
6月前
, 109F
10/09 23:52, 109F
推
10/10 03:08,
6月前
, 110F
10/10 03:08, 110F
討論串 (同標題文章)