Re: [問卦] 中研院自己做的大型語言模型怎麼了？

看板Gossiping作者sxy67230 (charlesgg)時間6月前 (2023/10/09 14:34)推噓55(58推 3噓 49→)

留言110則, 69人參與討論串6/7 (看更多)

※ 引述《messi5566 (虹粉)》之銘言： : 中研院最近發布了他們自己開發的LLM : 說是在處理繁體中文的任務上表現優異 : 可是小妹看了一下跑出來的成果 : https://i.imgur.com/I1zNnIa.png

: 請問繁體中文的任務內容是把簡體翻譯過來嗎 : 詳細資料在這裡 : https://huggingface.co/spaces/ckiplab/CKIP-Llama-2-7b-chat 阿肥外商碼農阿肥啦！昨天晚上都在跟獵人直播來不及趕上大型翻車現場，這邊中午看hugging face hub還可以進去，但現在已經進不去了。這邊阿肥就直接說，基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較早期做的自己完全從零訓練的語言模型外，大家都是從meta 的llama魔改的，差別在於預訓練或微調的數據源跟一些微調小細節而已。然後大家想知道這個模型是不是本土完全從零開始可以從hugging face上的模型config跟作者說的訓練數據源來看細節藏在魔鬼裡。首先，依據新聞阿肥看了一下數據是用dolly-15k跟COIG-PC然後用opencc 轉繁體訓練，理論上原生的meta llama 2的vocabulary size是32000，然後當前對岸開源的簡中llama 2 vocabulary size 是 55296，CKIP開源的那個看起來是65000。理論上如果是完全從英文的llama 2 預訓練依照這兩個數據集詞彙詞典大小不會那麼大的，所以這邊推測有可能這個模型原始就不是從原生llama 2開始的。此外，這兩個數據集都是簡中數據集，中研院不知道哪個阿天以為只要opencc 簡轉繁就可以訓練，完全無視繁中的用詞跟簡中用詞的差異。更天的是拿C-Eval這個簡中評測集做評測，根本是拿明朝的劍斬清朝的官。當前政府一堆研究單位早就落後中國不止一輪了，人家中國四五年前就砸哈工大幾億人民幣再做簡中數據集了。那個時候阿肥就一直再說台灣想做自己的AI一定要先從數據中心、數據工程開始，建立屬於台灣自己的數據集，結果過了幾年中研院依然是畫大餅的單位，年初阿肥參加過幾個會議聽到中研院再那邊高喊要要做自己的LLM，阿肥還以為中研院自己秘密建立了一套數據中心，想必一定砸大錢，結果竟然是拿對岸的數據訓練，也不知道哪個天才研究員覺得只要簡轉繁AI就會自己講台灣用語。唉～這邊註一下： Vocabulary size是指當前LLM再預訓練會先把文字依據數據集切分成對應大小AI自己學會的Token，詞會儲存起來對應成ID，AI模型其實真正預測的是這個詞表的ID最後再轉換回人類有辦法閱讀的中文或英文字。 C-Eval是中國清華北大釋出來的評測集，簡單理解就是AI輸出的文字跟人類的回答有多接近，他會做一些規範劃分成20-30個領域看看AI究竟有沒有學會到文字裡面的文化或是專業領域知識。以上阿肥自己目前也在幫公司做繁中的語言模型，目前阿肥因為繁中數據有限所以阿肥都是盡可能把模型縮限在小範圍超過分佈就拒絕回答，敢這樣做到那麼通用還不是拿自己的大量數據集來訓練，我感覺CKIP可能要有大地震了。呵呵…. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.10.46.126 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1696833266.A.EC8.html

推

derekhsu

10/09 14:35, 6月前 , 1^F

10/09 14:35, 1^F

Atom-7b就是對岸業餘人士拿Chinese llama調出來的，你怎麼會覺得沒有簡中的數據分佈？

推

andy00andy

10/09 14:36, 6月前 , 2^F

10/09 14:36, 2^F

→

andy00andy

10/09 14:36, 6月前 , 3^F

10/09 14:36, 3^F

OpenCC很多用語還真的就不會轉，像公交車就直接簡轉繁變繁體的公交車，你要額外增加詞彙他才會轉，但他的做法就是遇到同樣的詞就取代，像港語的的士你直接把他加進去就全部把你文字裡面的「的士」轉成計程車。。

推

dhccc

10/09 14:37, 6月前 , 4^F

10/09 14:37, 4^F

→

dhccc

10/09 14:37, 6月前 , 5^F

10/09 14:37, 5^F

推

renna038766

10/09 14:37, 6月前 , 6^F

10/09 14:37, 6^F

呵呵 ※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 14:44:21

推

derekhsu

10/09 14:38, 6月前 , 7^F

10/09 14:38, 7^F

推

firose

10/09 14:38, 6月前 , 8^F

10/09 14:38, 8^F

推

salamender

10/09 14:39, 6月前 , 9^F

10/09 14:39, 9^F

推

f12sd2e2aa

10/09 14:40, 6月前 , 10^F

10/09 14:40, 10^F

→

salamender

10/09 14:40, 6月前 , 11^F

10/09 14:40, 11^F

→

f12sd2e2aa

10/09 14:40, 6月前 , 12^F

10/09 14:40, 12^F

推

iopzu3lv0

10/09 14:41, 6月前 , 13^F

10/09 14:41, 13^F

推

stlinman

10/09 14:41, 6月前 , 14^F

10/09 14:41, 14^F

要建自己的data pipeline跟data center啊！有些專業領域數據就要用買的，撈回來的文字資料一定有很多雜訊跟給電腦識別的tag要清，每一個都是成本，然後最後有了pretrai n data後當前的LLM 模型還需要Instruction data也就是標準的人類口語QA跟引導模型的句子來調，最後想要更好一定要做偏好模型來產生弱標籤做清理人類惡意輸入的雜訊，你覺得維護成本低嗎？

→

yesonline

10/09 14:42, 6月前 , 15^F

10/09 14:42, 15^F

→

yesonline

10/09 14:43, 6月前 , 16^F

10/09 14:43, 16^F

推

s900527

10/09 14:43, 6月前 , 17^F

10/09 14:43, 17^F

→

s900527

10/09 14:43, 6月前 , 18^F

10/09 14:43, 18^F

→

yesonline

10/09 14:44, 6月前 , 19^F

10/09 14:44, 19^F

→

enthpzd

10/09 14:47, 6月前 , 20^F

10/09 14:47, 20^F

推

afking

10/09 14:48, 6月前 , 21^F

10/09 14:48, 21^F

→

afking

10/09 14:48, 6月前 , 22^F

10/09 14:48, 22^F

推

zweihander99

10/09 14:49, 6月前 , 23^F

10/09 14:49, 23^F

推

Caroney

10/09 14:52, 6月前 , 24^F

10/09 14:52, 24^F

→

Caroney

10/09 14:52, 6月前 , 25^F

10/09 14:52, 25^F

推

lonelyQQ

10/09 14:54, 6月前 , 26^F

10/09 14:54, 26^F

※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 15:01:18

推

depo

10/09 14:57, 6月前 , 27^F

10/09 14:57, 27^F

推

greg7575

10/09 14:59, 6月前 , 28^F

10/09 14:59, 28^F

推

ks454

10/09 14:59, 6月前 , 29^F

10/09 14:59, 29^F

→

ks454

10/09 14:59, 6月前 , 30^F

10/09 14:59, 30^F

推

greg7575

10/09 15:01, 6月前 , 31^F

10/09 15:01, 31^F

推

gamete

10/09 15:01, 6月前 , 32^F

10/09 15:01, 32^F

→

greg7575

10/09 15:02, 6月前 , 33^F

10/09 15:02, 33^F

→

yesonline

10/09 15:06, 6月前 , 34^F

10/09 15:06, 34^F

還有 38 則推文

還有 1 段內文

→

Spurious

10/09 16:25, 6月前 , 73^F

10/09 16:25, 73^F

推

spring719

10/09 16:25, 6月前 , 74^F

10/09 16:25, 74^F

推

richard88502

10/09 16:29, 6月前 , 75^F

10/09 16:29, 75^F

→

richard88502

10/09 16:29, 6月前 , 76^F

10/09 16:29, 76^F

其實現在大家在玩得RLHF或是Instruction無非就是一種資料清洗/資料增強/資料正規化，光是弄得好模型就夠漲好幾個百分點了，比去想什麼fashion的模型架構還有用。OpenA I自己底下也一堆合作公司再弄資料清洗跟弱標籤才締造一個chatGPT。

推

teariceooo

10/09 16:33, 6月前 , 77^F

10/09 16:33, 77^F

推

mcgrady12336

10/09 16:37, 6月前 , 78^F

10/09 16:37, 78^F

→

ralfbrian

10/09 16:40, 6月前 , 79^F

10/09 16:40, 79^F

→

ralfbrian

10/09 16:40, 6月前 , 80^F

10/09 16:40, 80^F

→

azure

10/09 16:45, 6月前 , 81^F

10/09 16:45, 81^F

推

aj1234

10/09 16:50, 6月前 , 82^F

10/09 16:50, 82^F

→

aj1234

10/09 16:50, 6月前 , 83^F

10/09 16:50, 83^F

推

leterg

10/09 16:54, 6月前 , 84^F

10/09 16:54, 84^F

→

leterg

10/09 16:56, 6月前 , 85^F

10/09 16:56, 85^F

→

s90002442

10/09 17:02, 6月前 , 86^F

10/09 17:02, 86^F

→

s90002442

10/09 17:02, 6月前 , 87^F

10/09 17:02, 87^F

噓

DA3921999

10/09 17:10, 6月前 , 88^F

10/09 17:10, 88^F

→

DA3921999

10/09 17:10, 6月前 , 89^F

10/09 17:10, 89^F

→

DA3921999

10/09 17:10, 6月前 , 90^F

10/09 17:10, 90^F

推

lunatich

10/09 17:13, 6月前 , 91^F

10/09 17:13, 91^F

→

lunatich

10/09 17:14, 6月前 , 92^F

10/09 17:14, 92^F

→

lunatich

10/09 17:14, 6月前 , 93^F

10/09 17:14, 93^F

推

amethystboy

10/09 17:30, 6月前 , 94^F

10/09 17:30, 94^F

推

jeson711

10/09 17:44, 6月前 , 95^F

10/09 17:44, 95^F

→

modernpkman

10/09 17:46, 6月前 , 96^F

10/09 17:46, 96^F

推

StarCat76

10/09 17:50, 6月前 , 97^F

10/09 17:50, 97^F

※ 編輯: sxy67230 (101.10.46.126 臺灣), 10/09/2023 18:06:38

→

haver

10/09 18:04, 6月前 , 98^F

10/09 18:04, 98^F

噓

soy915221

10/09 18:15, 6月前 , 99^F

10/09 18:15, 99^F

→

soy915221

10/09 18:16, 6月前 , 100^F

10/09 18:16, 100^F

推

monnom

10/09 19:00, 6月前 , 101^F

10/09 19:00, 101^F

推

shi21

10/09 19:02, 6月前 , 102^F

10/09 19:02, 102^F

推

germun

10/09 19:04, 6月前 , 103^F

10/09 19:04, 103^F

推

ericleft

10/09 20:50, 6月前 , 104^F

10/09 20:50, 104^F

推

rick917

10/09 21:31, 6月前 , 105^F

10/09 21:31, 105^F

→

iMElLoN

10/09 23:25, 6月前 , 106^F

10/09 23:25, 106^F

→

iMElLoN

10/09 23:25, 6月前 , 107^F

10/09 23:25, 107^F

推

dlshao

10/09 23:29, 6月前 , 108^F

10/09 23:29, 108^F

推

asmiocv

10/09 23:52, 6月前 , 109^F

10/09 23:52, 109^F

推

photoswimmer

10/10 03:08, 6月前 , 110^F

10/10 03:08, 110^F

‣ 返回看板[ Gossiping ] 綜合

‣ 更多 sxy67230 的文章

文章代碼(AID): #1b8vxox8 (Gossiping)

討論串 (同標題文章)

本文引述了以下文章的的內容：

問卦

152

275

[問卦] 中研院自己做的大型語言模型怎麼了？中研院自己做的大型語言模型怎麼了？

messi5566

6月前, 10/09

完整討論串 (本文為第 6 之 7 篇)：

排序：最舊先 | 最新先 | 留言數

問卦

152

275

[問卦] 中研院自己做的大型語言模型怎麼了？中研院自己做的大型語言模型怎麼了？

messi5566

6月前, 10/09

問卦

103

Re: [問卦] 中研院自己做的大型語言模型怎麼了？ Re: 中研院自己做的大型語言模型怎麼了？

medama

6月前, 10/09

問卦

-1

Re: [問卦] 中研院自己做的大型語言模型怎麼了？ Re: 中研院自己做的大型語言模型怎麼了？

afking

6月前, 10/09

問卦

Re: [問卦] 中研院自己做的大型語言模型怎麼了？ Re: 中研院自己做的大型語言模型怎麼了？

Tamsi

6月前, 10/09

問卦

-4

Re: [問卦] 中研院自己做的大型語言模型怎麼了？ Re: 中研院自己做的大型語言模型怎麼了？

psw

6月前, 10/09

問卦

110

Re: [問卦] 中研院自己做的大型語言模型怎麼了？ Re: 中研院自己做的大型語言模型怎麼了？

sxy67230

6月前, 10/09

問卦

-1

Re: [問卦] 中研院自己做的大型語言模型怎麼了？ Re: 中研院自己做的大型語言模型怎麼了？

analiya

6月前, 10/09

在新視窗開啟完整討論串 (共7篇)

‣ 返回看板[ Gossiping ] 綜合

‣ 更多 sxy67230 的文章

文章代碼(AID): #1b8vxox8 (Gossiping)