Re: [爆卦] 中央研究院詞庫小組大型語言模型

看板Gossiping作者gaymay5566 (feeling很重要)時間7月前 (2023/10/09 13:30)推噓22(23推 1噓 17→)

留言41則, 32人參與討論串8/12 (看更多)

※ 引述《derekhsu (浪人47之華麗的天下無雙)》之銘言： : 對於LLM只有這一點認知程度的話，最好不要就這樣出來帶風向會比較好，不然先去 : 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM，不同LLM之間又有什麼差異。 : 第一個錯誤的認知是認為LLM就應該要提供正確的答案，事實上LLM是一個機率模型， : 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個，它不是資 : 料庫，所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。 : 第二個錯誤的認知是把所有的LLM都當成是同一個等級，好像只要A不如B那A就不行，是 : 垃圾。以這個案例來說，它是Llama-2-7b跟Atom-7b模型，前面的Llama-2模型是代表它 : 是META出的Llama模型第二代(可商用)，而7b則是說它的參數是70億個，不要以為70億 : 個參數很多，70億參數以LLM來說只能說是非常小的，所以答出一切亂七八糟的答案非 : 常正常，在7b之上，還有13b跟70b的模型參數量。 : 7b的模型實務上如果沒有經過finetune然後針對小範圍的特定任務，基本上就是玩具而 : 已。 : 第三，就是對於台灣的能力有誤會，做AI大概分為三個要素，模型/資料/算力。在大語言 : 模型方面，台灣三個都弱，模型用開源的即便是台智雲，也是用開源模型。資料方面， : 繁體中文本來就在中文領域本來就是弱項(中文已經很弱了，繁體中文更弱)，算力方面， : 台灣有算力從頭到尾訓練LLM的不是說沒有，但跟OpenAI, META都還是非常非常遙遠的距離 : ，所以能做作finetune就不錯了。 : 這是原生llama-2的試玩網址(記得把模型調到7b來比較) : https://www.llama2.ai/ : 好，回歸重點，中研院在網站上就已經說過了 : #### : 以商用開源模型Llama-2-7b以及Atom-7b為基礎，再補強繁體中文的處理能力 : #### : 好，剛剛我說了Llam2-2-7b，那Atom-7b我剛剛沒有提到，這是什麼東西? : Atom-7b就是https://github.com/FlagAlpha/Llama2-Chinese : 這個就是中國訓練出來的大語言模型，Atom-7b : 中研院從頭到尾都沒有隱藏這件事，它就是基於中國訓練的Atom-7b然後再用繁體中文去 : finetune出來的模型啊。 : 從頭到尾中研院就沒有隱藏這件事，完全不知道前面好像發現什麼新大陸一樣。看到這篇真的龜懶趴火語氣還真的他媽的大啊敢嗆鄉民去上LLM課程啊誰不知道LLM的正確率一定會有誤差？現在的問題是我國最高學術研究機構中央研究院直接拿對岸LLM套且直接用opencc大量將簡體資料轉繁體資料！這很嚴重啊第一你今天是私人公司就算了大家笑一笑就好但中研院是什麼等級？是直接隸屬總統府的政府機構！結果你他媽的拿台灣人民納稅錢騙台灣人經費然後抄中國LLM交差還語氣很大跟我們說完全沒藏啊！第二這垃圾模型標榜「商用」所以是很多個人、學校、企業會接觸到的直接暴露這麼多中國資訊你確定會沒問題？政府成立數發部、強調資訊安全是在玩假的嗎？第三台灣沒算力、沒資料、沒模型這大家都知道大家也沒在急一步一步踏實地做嘛！但這種為了求大眾關注吸引投資騙取經費的偷吃步手法才是被鄉民真正唾棄的原因無關政治 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.234.77.82 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1696829419.A.A35.html

→

engineer1

10/09 13:31, 7月前 , 1^F

10/09 13:31, 1^F

推

omfg5487

10/09 13:31, 7月前 , 2^F

10/09 13:31, 2^F

推

fireghhan

10/09 13:32, 7月前 , 3^F

10/09 13:32, 3^F