[LLMs] Embedding 與 Vector DataBase QA
有人對這塊有研究或有興趣的嗎?
我目前在摸Llamaindex跟Langchain,有想分享想討論都很歡迎,
主旨都是在討論怎麼讓語言模型根據事實資料庫做回應。
如果覺得這樣講很抽象,提供一份文件參考:
https://reurl.cc/lDL47Y
是我用GPT翻譯OpenAI官方Github文件的其中一篇,大家可以閱讀看看。
節錄-
為何搜尋比微調更好
GPT可以以兩種方式學習知識:
透過模型權重(即,在訓練集上微調模型)
透過模型輸入(即,將知識插入到輸入訊息中)
雖然微調可能看起來是更自然的選擇——畢竟,透過數據訓練是GPT學習所有其他知識的
方式——但我們通常不建議將它作為教導模型知識的方式。微調更適合教授專門的任務或
風格,對於事實記憶的可靠性較差。
作為類比,模型權重就像長期記憶。當你微調一個模型時,就像是為一周後的考試做準備
。當考試到來時,模型可能會忘記細節,或錯誤記憶它從未讀過的事實。
相比之下,訊息輸入就像短期記憶。當你將知識插入到一條訊息中時,就像是帶著筆記參
加開卷考試。有了筆記在手,模型更可能得出正確的答案。
相對於微調,文本搜尋的一個缺點是每個模型都受到它一次能讀多少文本的限制:
模型 最大文本長度
gpt-3.5-turbo 4,096 tokens (~5頁)
gpt-4 8,192 tokens (~10頁)
gpt-4-32k 32,768 tokens (~40頁)
延續這個類比,你可以將模型想像成一個學生,儘管可能有書架上的教科書可供參考,但
他一次只能看幾頁筆記。
因此,為了建立一個能夠利用大量文本回答問題的系統,我們建議使用搜尋-問答的方法。
--
AI_Art AI藝術與創作板 歡迎各方前來討論AIGC創作與相關議題!
AI情報屋營業中
噗浪:https://www.plurk.com/Zaious
IG :https://www.instagram.com/zaious.design/
日曆:https://zaious.notion.site/zaious/22c0024eceed4bdc88588b8db41e6ec4
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.250.61.231 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1684914563.A.70B.html
推
05/24 16:12,
11月前
, 1F
05/24 16:12, 1F
→
05/24 18:03,
11月前
, 2F
05/24 18:03, 2F
→
05/24 18:20,
11月前
, 3F
05/24 18:20, 3F
→
05/24 18:20,
11月前
, 4F
05/24 18:20, 4F
→
05/24 18:20,
11月前
, 5F
05/24 18:20, 5F
→
05/24 18:21,
11月前
, 6F
05/24 18:21, 6F
→
05/24 18:21,
11月前
, 7F
05/24 18:21, 7F
→
05/24 18:22,
11月前
, 8F
05/24 18:22, 8F
→
05/24 18:22,
11月前
, 9F
05/24 18:22, 9F
→
05/24 18:22,
11月前
, 10F
05/24 18:22, 10F
→
05/24 18:22,
11月前
, 11F
05/24 18:22, 11F
→
05/24 18:23,
11月前
, 12F
05/24 18:23, 12F
→
05/24 18:23,
11月前
, 13F
05/24 18:23, 13F
推
05/24 18:58,
11月前
, 14F
05/24 18:58, 14F
→
05/24 19:00,
11月前
, 15F
05/24 19:00, 15F
→
05/24 19:00,
11月前
, 16F
05/24 19:00, 16F
→
05/25 10:52,
11月前
, 17F
05/25 10:52, 17F
推
05/25 12:13,
11月前
, 18F
05/25 12:13, 18F
→
05/25 12:13,
11月前
, 19F
05/25 12:13, 19F
推
05/25 12:37,
11月前
, 20F
05/25 12:37, 20F
→
05/25 12:37,
11月前
, 21F
05/25 12:37, 21F
→
05/25 12:59,
11月前
, 22F
05/25 12:59, 22F