Re: [新聞] 聯發科AI平台MediaTek DaVinci「達哥」亮相!打造最強繁中AI語言模型
原文恕刪
小弟剛好最近有跟到一些台灣LLM的發展,可以補充一下關於模型的部分。聯發科的研究
單位聯發創新基地,做語言模型有一段時間了,之前有一版Breeze-7B模型,發佈了一篇
技術論文放在arxiv:
https://arxiv.org/pdf/2403.02712.pdf
論文提到這個模型是從mistral-7B 繼續訓練而成,花了7000小時的H100,灌了650GB的da
ta。如果有一半是中文,325GB,也灌了超過1000億漢字(3bytes=1word),其實很多了啦
。
然後Breexe是從Mixtral訓練而成,是更大一級的模型,論文好像還沒出,但很多公司都
有不同大小的模型,做法應該不會差太多(?)。最近有開放API試用:
https://huggingface.co/MediaTek-Research/Breexe-8x7B-Instruct-v0_1
跟ChatGPT的比較,最重要的點應該是,像Breeze-7B這種已經開源的模型,對能架伺服器
的公司來說,是用越多越賺;跟token收費的ChatGPT 用越多越貴截然不同。Breexe不知
道會不會開源就是了。
達哥的部分,沒有親自用過,但有認識的人用過。基本上就是平台,然後有一些功能,像
是讀pdf等等。就把AI推廣給更多人的東西,應該是不錯啦。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.166.35.85 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1712752740.A.F57.html
推
04/10 20:42,
3周前
, 1F
04/10 20:42, 1F
→
04/10 20:43,
3周前
, 2F
04/10 20:43, 2F
推
04/10 20:43,
3周前
, 3F
04/10 20:43, 3F
推
04/10 20:48,
3周前
, 4F
04/10 20:48, 4F
推
04/10 20:50,
3周前
, 5F
04/10 20:50, 5F
推
04/10 20:52,
3周前
, 6F
04/10 20:52, 6F
→
04/10 20:52,
3周前
, 7F
04/10 20:52, 7F
→
04/10 20:53,
3周前
, 8F
04/10 20:53, 8F
→
04/10 20:54,
3周前
, 9F
04/10 20:54, 9F
噓
04/10 21:00,
3周前
, 10F
04/10 21:00, 10F
推
04/10 21:05,
3周前
, 11F
04/10 21:05, 11F
→
04/10 21:06,
3周前
, 12F
04/10 21:06, 12F
推
04/10 21:08,
3周前
, 13F
04/10 21:08, 13F
推
04/10 21:15,
3周前
, 14F
04/10 21:15, 14F
推
04/10 21:21,
3周前
, 15F
04/10 21:21, 15F
→
04/10 21:21,
3周前
, 16F
04/10 21:21, 16F
推
04/10 21:29,
3周前
, 17F
04/10 21:29, 17F
→
04/10 21:29,
3周前
, 18F
04/10 21:29, 18F
→
04/10 21:30,
3周前
, 19F
04/10 21:30, 19F
推
04/10 21:35,
3周前
, 20F
04/10 21:35, 20F
→
04/10 21:35,
3周前
, 21F
04/10 21:35, 21F
推
04/10 21:56,
3周前
, 22F
04/10 21:56, 22F
推
04/10 22:00,
3周前
, 23F
04/10 22:00, 23F
→
04/10 22:00,
3周前
, 24F
04/10 22:00, 24F
推
04/10 22:04,
3周前
, 25F
04/10 22:04, 25F
推
04/10 22:05,
3周前
, 26F
04/10 22:05, 26F
推
04/10 22:41,
3周前
, 27F
04/10 22:41, 27F
推
04/10 23:06,
3周前
, 28F
04/10 23:06, 28F
推
04/11 00:29,
3周前
, 29F
04/11 00:29, 29F
推
04/11 01:19,
3周前
, 30F
04/11 01:19, 30F
→
04/11 07:22,
3周前
, 31F
04/11 07:22, 31F
討論串 (同標題文章)
以下文章回應了本文:
完整討論串 (本文為第 2 之 3 篇):