[LLMs] Embedding 與 Vector DataBase QA

看板AI_Art作者ZMTL (Zaious.)時間11月前 (2023/05/24 15:49)推噓4(4推 0噓 18→)

留言22則, 5人參與討論串1/1

有人對這塊有研究或有興趣的嗎？我目前在摸Llamaindex跟Langchain，有想分享想討論都很歡迎，主旨都是在討論怎麼讓語言模型根據事實資料庫做回應。如果覺得這樣講很抽象，提供一份文件參考： https://reurl.cc/lDL47Y 是我用GPT翻譯OpenAI官方Github文件的其中一篇，大家可以閱讀看看。節錄- 為何搜尋比微調更好 GPT可以以兩種方式學習知識：透過模型權重（即，在訓練集上微調模型）透過模型輸入（即，將知識插入到輸入訊息中）雖然微調可能看起來是更自然的選擇——畢竟，透過數據訓練是GPT學習所有其他知識的方式——但我們通常不建議將它作為教導模型知識的方式。微調更適合教授專門的任務或風格，對於事實記憶的可靠性較差。作為類比，模型權重就像長期記憶。當你微調一個模型時，就像是為一周後的考試做準備。當考試到來時，模型可能會忘記細節，或錯誤記憶它從未讀過的事實。相比之下，訊息輸入就像短期記憶。當你將知識插入到一條訊息中時，就像是帶著筆記參加開卷考試。有了筆記在手，模型更可能得出正確的答案。相對於微調，文本搜尋的一個缺點是每個模型都受到它一次能讀多少文本的限制：模型最大文本長度 gpt-3.5-turbo 4,096 tokens (~5頁) gpt-4 8,192 tokens (~10頁) gpt-4-32k 32,768 tokens (~40頁) 延續這個類比，你可以將模型想像成一個學生，儘管可能有書架上的教科書可供參考，但他一次只能看幾頁筆記。因此，為了建立一個能夠利用大量文本回答問題的系統，我們建議使用搜尋-問答的方法。 -- AI_Art AI藝術與創作板歡迎各方前來討論AIGC創作與相關議題！ AI情報屋營業中噗浪：https://www.plurk.com/Zaious IG ：https://www.instagram.com/zaious.design/ 日曆：https://zaious.notion.site/zaious/22c0024eceed4bdc88588b8db41e6ec4 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.250.61.231 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1684914563.A.70B.html

推

teds

05/24 16:12, 11月前 , 1^F

05/24 16:12, 1^F

→

reader2714

05/24 18:03, 11月前 , 2^F

05/24 18:03, 2^F

→

ZMTL

05/24 18:20, 11月前 , 3^F

05/24 18:20, 3^F