[新聞] 繁中資料量落後簡中 不利台AI語言模型

看板Tech_Job作者 (Speculative Male)時間2年前 (2023/11/05 20:18), 編輯推噓29(4011109)
留言160則, 61人參與, 2年前最新討論串1/1
https://ec.ltn.com.tw/article/paper/1613748 繁中資料量落後簡中 不利台AI語言模型 2023/11/05 05:30 https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/119.jpg
國科會推動台版生成式AI,結合產官學研開發「TAIDE」,耗時4個月推出初階成果,投入 70億個參數量,幫AI上繁體中文課,前在自動摘要、翻譯文本、寫信、寫文章等都有不錯 表現。(資料照,記者吳柏軒攝) 國科會發展台版可信任AI對話引擎TAIDE 防堵中國偏見論述 https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/120.jpg
國科會今年6月發表「可信任人工智慧對話引擎」(TAIDE)7B模型。國科會主委吳政忠( 左)表示,TAIDE是「打地基」,未來將提供公私部門加值應用,並守住台灣擁有的珍貴 繁體中文語料。(中央社資料照) 〔記者歐宇祥/台北報導〕近年中國影視創作、短影音平台大舉跨境滲透台灣,時而引發 對台認知作戰的疑慮,且台灣發展生成式AI(人工智慧)等技術也須留意資料準確性、以 免生出不當答案。AI領域專家坦言,目前繁體中文資料量遠少於簡體中文,加上台灣網路 社群的知識性分享風氣相對不盛,對我國開發AI大型語言模型相當不利。 台算力、資料資源相對有限 ChatGPT帶動AI軍備競賽,我國政府是由國科會發展「可信任人工智慧對話引擎」(TAIDE )計畫,產官學各自前進;不過發展AI燒錢,台灣算力、資料等資源都相對有限,研究單 位資金更緊缺,日前研究經費僅約三十萬的中研院AI語言模型,因出現中國觀點的回應, 引起軒然大波。 中研院資通安全專題中心執行長李育杰指出,生成式AI需要大量文本資料用做訓練、再運 用機器運算進行「接龍」、產出內容,受資料集影響大;而中研院爭議是源自於使用的 Llama 2模型,因含有中國資料集、易產生相應觀點答案,加上中企、研究單位大力投入 AI研發,都凸顯台灣需要自己的大型語言模型。 台灣人工智慧協會理事黃逸華分析,目前開發AI模型可將簡中資料轉換成繁中,或將簡中 資料剃除,但繁中資料量相對較少,可能使AI模型較容易出現幻覺(Hallucinations;即 無法作答的空白,可能以虛構來填補答案),或功能會較為侷限,且此問題是十數年積累 、短期難解,若使用PTT等平台資料,處理成本又高。 李育杰也認為,PTT、Dcard等台灣本土社群的用語生命週期短,加上資料雜亂可能蘊含謾 罵、火星文,品質不一定好,若要用在AI大型語言模型訓練需再經處理;即使都以繁中資 料訓練,AI仍可能生成不如預期的答案,以現行技術無法一○○%掌控規則與結果,只能 盡量隔絕不希望AI學習的資料與內容。 -- 沒說小乘大乘上座部佛教馬哈希尊者《具戒經講記》拆穿佛教大乘經典的騙局 上座部佛教明昆《南傳菩薩道》真釋迦牟尼佛的菩薩成佛之道 大乘菩薩成佛之道 妙法蓮華經 華嚴經 心經 金剛經 楞伽經 梵網經菩薩戒 圓覺經 楞嚴經大乘假佛經 阿彌陀佛 藥師佛大乘假觀世音 文殊 普賢 維摩詰 龍樹 地藏王大乘假菩薩 https://www.ptt.cc/bbs/soul/M.1523979060.A.68C.html 上座部佛教目犍連子帝須那先偽經大乘十方諸佛 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.230.165.15 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1699186695.A.5A6.html

11/05 20:50, 2年前 , 1F
還不都中文 有差?
11/05 20:50, 1F

11/05 20:55, 2年前 , 2F
上次不是被抓包套皮中國的系統
11/05 20:55, 2F

11/05 20:58, 2年前 , 3F
我不會說沒差,但既然簡中有優勢,就還是需要多參
11/05 20:58, 3F

11/05 20:58, 2年前 , 4F
考求自己進步,不能為反而反
11/05 20:58, 4F

11/05 21:03, 2年前 , 5F
除了政治話題外有什麼資料是繁中有簡中沒有的
11/05 21:03, 5F

11/05 21:08, 2年前 , 6F
繁轉簡沒啥問題 簡轉繁很多字會轉不過來
11/05 21:08, 6F

11/05 21:10, 2年前 , 7F
這原本就是一個政治操作原本就只有2000多萬人口的產
11/05 21:10, 7F

11/05 21:10, 2年前 , 8F
出要怎麼會多過13億人口的產出你可以說這是一個與愛
11/05 21:10, 8F

11/05 21:10, 2年前 , 9F
發展的困境也可以說他根本就不是一個問題這個問題會
11/05 21:10, 9F

11/05 21:10, 2年前 , 10F
產生完全是因為你選擇使用這樣的方向發展而不是使用
11/05 21:10, 10F

11/05 21:10, 2年前 , 11F
一個量少質精的方向發展會遇到這種問題根本就是遲早
11/05 21:10, 11F

11/05 21:11, 2年前 , 12F
的事別把大家都當白癡耍
11/05 21:11, 12F

11/05 21:12, 2年前 , 13F
聰明的鄉民應該要去追溯這則新聞到底是誰出的還有誰
11/05 21:12, 13F

11/05 21:12, 2年前 , 14F
決策這些東西發展的方向自然就會水落石出!
11/05 21:12, 14F

11/05 21:35, 2年前 , 15F
自由時報…呵呵,不演了?
11/05 21:35, 15F

11/05 21:36, 2年前 , 16F
AI本身就大數據 能贏我才覺得有鬼吧
11/05 21:36, 16F

11/05 22:06, 2年前 , 17F
都抄的當然落後
11/05 22:06, 17F

11/05 22:21, 2年前 , 18F
自己不累積啊 先出錢翻譯國外文件
11/05 22:21, 18F

11/05 22:26, 2年前 , 19F
乾脆繁轉英還比較有用
11/05 22:26, 19F

11/05 22:33, 2年前 , 20F
中國連 stackoverflow 都翻成簡體了
11/05 22:33, 20F

11/05 22:46, 2年前 , 21F
等一下,中研院不是已經切割說是「個人研究」嗎?
11/05 22:46, 21F

11/05 22:46, 2年前 , 22F
結果現在又開始出來說沾光?
11/05 22:46, 22F

11/05 22:53, 2年前 , 23F
簡中資源量一直都是屌打繁中....
11/05 22:53, 23F

11/05 22:54, 2年前 , 24F
台灣是全世界最鄙視翻譯的地方
11/05 22:54, 24F

11/05 23:19, 2年前 , 25F
當然有差,簡中LLM弄出來的用詞就是對岸的。
11/05 23:19, 25F

11/05 23:33, 2年前 , 26F
不是簡中是屌打繁中,但這樣世界各地其他國家怎麼辦
11/05 23:33, 26F

11/05 23:33, 2年前 , 27F
又不是被屌打就做不出來
11/05 23:33, 27F

11/05 23:41, 2年前 , 28F
理由伯
11/05 23:41, 28F

11/05 23:45, 2年前 , 29F
科技業不烙個英文單字就弱了
11/05 23:45, 29F

11/05 23:50, 2年前 , 30F
新聞現在都用水平了 沒在用水準 早就被統一
11/05 23:50, 30F

11/05 23:50, 2年前 , 31F
還不如花錢讓全國人民英語能力提升
11/05 23:50, 31F

11/05 23:51, 2年前 , 32F
連用詞都慢慢被同化 直接用簡轉繁訓練算了
11/05 23:51, 32F

11/05 23:56, 2年前 , 33F
上次還聽到新聞說「質量」....聽了搖頭
11/05 23:56, 33F

11/05 23:58, 2年前 , 34F
放棄吧,台灣不可能搞這個
11/05 23:58, 34F

11/06 00:17, 2年前 , 35F
所以數位部還在搞麵線嗎?
11/06 00:17, 35F

11/06 00:17, 2年前 , 36F
哦 要合理化直接爽抄中國又爽拿台灣經費了
11/06 00:17, 36F

11/06 00:19, 2年前 , 37F
就是找個藉口要錢啦,然後花了大錢又做一個垃圾出
11/06 00:19, 37F

11/06 00:19, 2年前 , 38F
11/06 00:19, 38F

11/06 00:23, 2年前 , 39F
繁中資料集也只是ChatGPT的一點點而已
11/06 00:23, 39F
還有 81 則推文
11/06 21:35, 2年前 , 121F
好高騖遠 自不量力
11/06 21:35, 121F

11/07 08:50, 2年前 , 122F
不會改作台語AI嗎
11/07 08:50, 122F

11/07 09:28, 2年前 , 123F
直到2000年代初期繁中資料量都還是贏的w
11/07 09:28, 123F

11/07 10:02, 2年前 , 124F
亞洲四小龍概念?
11/07 10:02, 124F

11/07 10:03, 2年前 , 125F
不要緣木求魚好嗎?
11/07 10:03, 125F

11/07 10:06, 2年前 , 126F
重點是應該發展適合台灣的技術吧
11/07 10:06, 126F

11/07 10:06, 2年前 , 127F
要引入別人的資料會不會有智財相關問題?
11/07 10:06, 127F

11/07 10:07, 2年前 , 128F
這種東西早該知道的到底是誰在搞?
11/07 10:07, 128F

11/07 10:08, 2年前 , 129F
有種問題叫作明知故問!
11/07 10:08, 129F

11/07 10:09, 2年前 , 130F
30歲以下基本被洗腦的差不多了
11/07 10:09, 130F

11/07 10:14, 2年前 , 131F
全世界華語國家及地區只有塔綠斑島還在用繁體
11/07 10:14, 131F

11/07 10:15, 2年前 , 132F
連香港現在都越來越多人用簡體字,台灣還要鎖島多久
11/07 10:15, 132F

11/07 10:16, 2年前 , 133F
就是沒有中心思想的才會慢慢被赤化
11/07 10:16, 133F

11/07 10:18, 2年前 , 134F
因為你根本就不知道學正體中文的意義在哪
11/07 10:18, 134F

11/07 10:20, 2年前 , 135F
你知道英國皇室菜單上用的是法文嗎?
11/07 10:20, 135F

11/07 10:20, 2年前 , 136F
歐洲學界都要學拉丁文這件事知多少?
11/07 10:20, 136F

11/07 10:21, 2年前 , 137F
繁中都學不完了更何況小篆
11/07 10:21, 137F

11/07 10:23, 2年前 , 138F
隨便講幾條就夠你查到昏頭
11/07 10:23, 138F

11/07 10:30, 2年前 , 139F
早說了他們花數百億美金建構的東西根本不堪一擊
11/07 10:30, 139F

11/07 10:36, 2年前 , 140F
教你用殘體只是方便管理而已你以為是什麼?
11/07 10:36, 140F

11/07 10:37, 2年前 , 141F
你懂法文嗎? 你懂拉丁文嗎?
11/07 10:37, 141F

11/07 10:38, 2年前 , 142F
雖然不該在工人版講這個但千萬別以為你看到的
11/07 10:38, 142F

11/07 10:38, 2年前 , 143F
就是趨勢
11/07 10:38, 143F

11/07 10:39, 2年前 , 144F
很多道理不是每個人都需要懂的
11/07 10:39, 144F

11/07 10:39, 2年前 , 145F
不要再積非成是了
11/07 10:39, 145F

11/07 10:55, 2年前 , 146F
現在即便念到碩士也只代表那個學位的專業而已,不代
11/07 10:55, 146F

11/07 10:55, 2年前 , 147F
表他文化水平!這就是西化的結果分工越來越細當你的
11/07 10:55, 147F

11/07 10:55, 2年前 , 148F
工作是個輪子就永遠看不到方向盤在幹嘛只能照著命令
11/07 10:55, 148F

11/07 10:55, 2年前 , 149F
做!
11/07 10:55, 149F

11/07 13:34, 2年前 , 150F
我說就是正體字和殘體字,正體字是寶藏,我們要珍惜
11/07 13:34, 150F

11/07 13:35, 2年前 , 151F
沒有什麼繁體簡體,就是正體和殘體啦
11/07 13:35, 151F

11/07 18:34, 2年前 , 152F
是不是跟能不能是兩回事,就算同樣繁體資料,如果
11/07 18:34, 152F

11/07 18:35, 2年前 , 153F
同樣繁體用戶加起來,可能香港也會覺得台灣資料太多
11/07 18:35, 153F

11/07 18:35, 2年前 , 154F
、簡中資料庫馬來華人也不一定同意訓練出來的結果
11/07 18:35, 154F

11/07 18:37, 2年前 , 155F
至於把簡體字當進步的可能是他們的腦容量有差到這幾
11/07 18:37, 155F

11/07 18:38, 2年前 , 156F
KB吧,對這些腦容量有限的也不適宜講太多爆他們腦。
11/07 18:38, 156F

11/07 18:39, 2年前 , 157F
否則整天抄襲拼音文字科技的應該趕快完成他們未完成
11/07 18:39, 157F

11/07 18:40, 2年前 , 158F
的中文拉丁化夢想吧。
11/07 18:40, 158F

11/07 21:33, 2年前 , 159F
連基本翻譯都不會了還要訓練其他參數?
11/07 21:33, 159F

11/07 22:14, 2年前 , 160F
人口基數就在那邊
11/07 22:14, 160F
文章代碼(AID): #1bHuW7Mc (Tech_Job)