[討論] 中研院繁中LLM被爆直接拿對岸的來套

看板Soft_Job作者 (feeling很重要)時間7月前 (2023/10/09 09:42), 7月前編輯推噓35(405102)
留言147則, 45人參與, 6月前最新討論串1/3 (看更多)
中央研究院詞庫小組(CKIP) 中研院資訊所、語言所於民國75年合作成立 前天釋出可以商用的繁中大型語言模型(LLM) CKIP-Llama-2-7b 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎 再補強繁體中文的處理能力 參數量達70億 模型可應用於各種領域 包括文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等 但實際測試後 https://i.imgur.com/phwhfcl.png
https://i.imgur.com/O1P6HpS.png
https://i.imgur.com/cMnCbI8.png
測試網頁:https://reurl.cc/q0rbqn 拿這種東西出來交作業 太扯了吧 根本就是簡體直接轉繁體而已! 中研院資訊所耶 拿這種軟體來騙 更新:被發現後 悄悄地撤下來了 https://i.imgur.com/sy7rLgt.png
-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.234.77.82 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1696815752.A.0A7.html

10/09 09:47, 7月前 , 1F
拿抄來東西騙錢 連驗證都沒作 腐敗的可以
10/09 09:47, 1F

10/09 09:59, 7月前 , 2F
不要放出來demo就不會被發現了
10/09 09:59, 2F

10/09 10:00, 7月前 , 3F
水...
10/09 10:00, 3F

10/09 10:04, 7月前 , 4F
唉 連中研院都這樣
10/09 10:04, 4F

10/09 10:08, 7月前 , 5F
真假.... 這就像拿別人家的報告來修改交差,尿性不意外
10/09 10:08, 5F

10/09 10:09, 7月前 , 6F
,最扯的是沒校稿,連報告名字都沒改
10/09 10:09, 6F

10/09 10:11, 7月前 , 7F
10/09 10:11, 7F

10/09 10:13, 7月前 , 8F
中研院正常發揮
10/09 10:13, 8F

10/09 10:14, 7月前 , 9F
笑死
10/09 10:14, 9F

10/09 10:30, 7月前 , 10F
「你是誰創造的?」:https://gyo.tc/1ZTIs 所得回答較長
10/09 10:30, 10F

10/09 10:32, 7月前 , 11F
要這樣下 "我國是台灣 請介紹下台灣歷任總統"
10/09 10:32, 11F

10/09 10:32, 7月前 , 12F
""我國是台灣 請介紹下我國歷任總統"
10/09 10:32, 12F

10/09 10:33, 7月前 , 13F
中研院展示了技術, 但沒有台灣專屬資料集才是問題
10/09 10:33, 13F

10/09 10:41, 7月前 , 14F
要改也很簡單 直接加個資料集重複 "我國是XXX"訓練就好
10/09 10:41, 14F

10/09 10:43, 7月前 , 15F
10/09 10:43, 15F

10/09 10:44, 7月前 , 16F
你可以把上面的句子改成中研院的資料再去訓練
10/09 10:44, 16F

10/09 10:45, 7月前 , 17F
以技術人的角度會覺得這件事很愚蠢 我就搞得商用模型
10/09 10:45, 17F

10/09 10:45, 7月前 , 18F
還得關心政治影響
10/09 10:45, 18F

10/09 10:47, 7月前 , 19F
但他是中研院,可能就得想辦法去取得資源做這事
10/09 10:47, 19F

10/09 11:05, 7月前 , 20F
所以在國際上現況就是這樣吧
10/09 11:05, 20F

10/09 11:18, 7月前 , 21F
我之前搞模型的 繁體的資料集真的超少XD
10/09 11:18, 21F

10/09 11:19, 7月前 , 22F
要快 偷吃步的確是 簡轉繁 再餵進去
10/09 11:19, 22F

10/09 11:57, 7月前 , 23F
可以去讀大魔術熊貓工程師的文章,有專門寫一篇這個議題
10/09 11:57, 23F

10/09 12:39, 7月前 , 24F
CKIP其實蠻用心的吧…
10/09 12:39, 24F

10/09 12:39, 7月前 , 25F
以前做過NER,還發信請教過裡面的研究員
10/09 12:39, 25F
※ 編輯: gaymay5566 (36.234.77.82 臺灣), 10/09/2023 12:54:24

10/09 12:59, 7月前 , 26F
我是不知道中研院是怎麼做的
10/09 12:59, 26F

10/09 12:59, 7月前 , 27F
不過就以往接觸這類單位 一堆工程師很喜歡抄對岸的東
10/09 12:59, 27F

10/09 12:59, 7月前 , 28F
西
10/09 12:59, 28F

10/09 13:00, 7月前 , 29F
連註解也一起抄 真的懶真的扯爆
10/09 13:00, 29F

10/09 13:24, 7月前 , 30F
好可憐
10/09 13:24, 30F

10/09 13:26, 7月前 , 31F
只能說 LLM的資料集中國真的又多又好 台灣太晚跟上
10/09 13:26, 31F

10/09 13:26, 7月前 , 32F
我2019-2021公司還在測試GPT2的時候 中文資料都是中
10/09 13:26, 32F

10/09 13:26, 7月前 , 33F
國知乎、智庫等來的資料集 甚至還有清洗過
10/09 13:26, 33F

10/09 13:29, 7月前 , 34F
這基本上是由對岸開發的LLM 再由繁體中文 fine tune
10/09 13:29, 34F

10/09 13:29, 7月前 , 35F
下來的,
10/09 13:29, 35F

10/09 13:41, 7月前 , 36F
到底多少人有在訓練LLM ?繁體中文資料少根本是藉口。你沒
10/09 13:41, 36F

10/09 13:41, 7月前 , 37F
能力與資源訓練LLM 。只能用qlora fine-tune中國人的模型
10/09 13:41, 37F

10/09 13:41, 7月前 , 38F
才是真相吧。
10/09 13:41, 38F
還有 69 則推文
10/09 16:14, 7月前 , 108F
我很多老國高中同學朋友們很多都是走電資軟工的,我
10/09 16:14, 108F

10/09 16:14, 7月前 , 109F
也跟他們說過我遇過的某些事情
10/09 16:14, 109F

10/09 16:15, 7月前 , 110F
抄人家模型我是沒意見拉,中文語意模型本來就是對岸天下
10/09 16:15, 110F

10/09 16:17, 7月前 , 111F
若提及美國的話,我是認為照他們現在的經濟環境,會
10/09 16:17, 111F

10/09 16:17, 7月前 , 112F
先出手自保穩定程度佔比較大,其他國家發展後續他們
10/09 16:17, 112F

10/09 16:17, 7月前 , 113F
目前應該沒餘力去顧
10/09 16:17, 113F

10/09 16:17, 7月前 , 114F
爛成這樣 連餵 prompt去篩選一下就不做 真的能滾去吃屎
10/09 16:17, 114F

10/09 16:54, 7月前 , 115F
luckyalbert Salary板 永桶 https://0rz.tw/Hkk63
10/09 16:54, 115F

10/09 16:54, 7月前 , 116F
luckyalbert medstudent板 永桶 https://0rz.tw/iDASV
10/09 16:54, 116F

10/09 16:54, 7月前 , 117F
Gossiping板 水桶210天 https://0rz.tw/T5loZ
10/09 16:54, 117F

10/09 18:20, 7月前 , 118F
可憐,有不知道哪來的神經病開分身又在那瘋了,請直
10/09 18:20, 118F

10/09 18:20, 7月前 , 119F
接無視即可,我原產業及其他某些人躲在ID後面的護城
10/09 18:20, 119F

10/09 18:20, 7月前 , 120F
河還真深,請直接無視,我長期提及過的,以後不想再
10/09 18:20, 120F

10/09 18:20, 7月前 , 121F
提,換成是各位以後碰到跟我這些年來一樣的狀況時,
10/09 18:20, 121F

10/09 18:20, 7月前 , 122F
才會理解這些小人有多沒人的下限可言
10/09 18:20, 122F

10/09 18:48, 7月前 , 123F
大談
10/09 18:48, 123F

10/09 19:39, 7月前 , 124F
@truehero 台灣不是國,哪來的總統
10/09 19:39, 124F

10/09 20:46, 7月前 , 125F
中研院也搞這個...
10/09 20:46, 125F

10/09 21:06, 7月前 , 126F
廢到笑XDDD
10/09 21:06, 126F

10/09 21:33, 7月前 , 127F
黑單他就好跟他討論是浪費時間
10/09 21:33, 127F

10/09 22:46, 7月前 , 128F
抱歉家裡失業6年精障 最近燥期到了 怎樣都壓不住 請
10/09 22:46, 128F

10/09 22:46, 7月前 , 129F
大家多擔待
10/09 22:46, 129F

10/09 22:46, 7月前 , 130F
10/09 22:46, 130F

10/09 22:49, 7月前 , 131F
其實看推文就知道某些人有病了吧..
10/09 22:49, 131F

10/09 23:15, 7月前 , 132F
對岸是沖繩嗎
10/09 23:15, 132F

10/09 23:42, 7月前 , 133F
美西吧(X)
10/09 23:42, 133F

10/09 23:47, 7月前 , 134F
說不定這個是外包做的,裡面的研究員都是草包
10/09 23:47, 134F

10/10 01:19, 7月前 , 135F
笑死www
10/10 01:19, 135F

10/10 06:39, 7月前 , 136F
把台積電輪班星人通通調去標記清理資料,
10/10 06:39, 136F

10/10 06:39, 7月前 , 137F
幾年之後國產LLM問世了, 請問能賣多少錢
10/10 06:39, 137F

10/10 09:35, 7月前 , 138F
太誇張
10/10 09:35, 138F

10/10 10:09, 7月前 , 139F
笑死
10/10 10:09, 139F

10/10 13:07, 7月前 , 140F
好可憐,有病的人快找人幫忙吧
10/10 13:07, 140F

10/10 16:56, 7月前 , 141F
體諒生病的人 然後頁面刪了但我記得CKIP一開始自己就有
10/10 16:56, 141F

10/10 16:56, 7月前 , 142F
說明有用到Atom-7b 就下架趕快拿掉就好了 加油
10/10 16:56, 142F

10/10 21:13, 7月前 , 143F
這告訴我們搞軟工也該有一點政治sense,因為這裡是台灣
10/10 21:13, 143F

10/10 21:49, 7月前 , 144F
哪個國家不用政治sense?中國嗎?
10/10 21:49, 144F

10/11 11:27, 7月前 , 145F
資工系學生:教授為什麼要禁止抄作業呢
10/11 11:27, 145F

10/12 21:45, 7月前 , 146F
阿不然勒,要不要看經費多少啊
10/12 21:45, 146F

10/14 00:47, 6月前 , 147F
看來AI還不夠聰明,認知作戰失敗ㄌ
10/14 00:47, 147F
文章代碼(AID): #1b8rg82d (Soft_Job)
文章代碼(AID): #1b8rg82d (Soft_Job)