[新聞] Sora到底懂不懂物理世界?一場腦力激盪正在AI圈大佬間展開

看板Tech_Job作者 (j)時間2月前 (2024/02/23 14:05), 2月前編輯推噓18(24695)
留言125則, 41人參與, 2月前最新討論串1/1
Sora到底懂不懂物理世界? 一場腦力激盪正在AI圈大佬間展開 https://www.linkresearcher.com/information/933841f9-c37c-4e66-91fc-f152567bf3bb 機器之心報道 編輯:張倩、杜偉 Sora 到底是不是實體引擎甚至是世界模型? 圖靈獎得主Yann LeCun、Keras 之父 Francois Chollet 等人正在深入探討。 最近幾天,OpenAI 發布的影片生成模型Sora 成了全世界關注的焦點。 和以往只能產生幾秒鐘影片的模型不同,Sora 把生成影片的長度一下子拉長到60 秒。 而且,它不僅能了解使用者在Prompt 中提出的要求,還能get 到人、物在物理世界中的 存在方式。 以經典的「海盜船在咖啡杯中纏鬥」為例。 為了讓生成效果看起來逼真,Sora 需要克服 以下幾個物理困難: 規模和比例的適應:將海盜船縮小到能夠在咖啡杯中纏鬥的尺寸,同時保持它們的細節和 結構,是一個挑戰。 AI 需要理解和調整這些物件在現實生活中的相對尺寸,使得場景在 視覺上顯得合理; 流體動力學:咖啡杯中的液體會對海盜船的移動產生影響。 AI 模型需要模擬液體動力學 的效果,包括波浪、濺水和船隻移動時液體的流動,這在計算上是複雜的; 光線和陰影的處理:為了讓場景看起來真實,AI 需要精確地模擬光線如何照射在這個小型 場景中,包括咖啡的反光、船隻的陰影,以及可能的透光效果; 動畫和運動的真實性:海盜船的運動需要符合真實世界的物理規律,即使它們被縮小到咖啡 杯中。 這意味著AI 需要考慮到重力、浮力、碰撞以及船體結構在動態環境中的行為。 雖然生成效果還有些瑕疵,但我們能明顯感覺到,Sora 似乎是懂一些「物理」的。 英偉 達高級研究科學家Jim Fan 甚至斷言,「Sora 是一個數據驅動的實體引擎」,「是可學 習的模擬器,或『世界模型』」。 部分研究者同意這樣的觀點,但也有不少人反對。 Yann LeCun:產生影片的過程與基於世界模型的因果預測完全不同 圖靈獎得主Yann LeCun 率先亮明觀點。 在他看來,僅僅根據prompt 生成逼真影片並不 能代表一個模型理解了物理世界,生成影片的過程與基於世界模型的因果預測完全不同。 他接著講到,模型生成逼真影片的空間非常大,影片產生系統只需要產生一個合理的範例 就算成功。 不過對於一個真實影片而言,其合理的後續延續空間卻非常小,產生這些延 續的代表性片段,特別是在特定行動條件下,任務難度更大。 此外產生影片的後續內容 不僅成本高昂,實際上也毫無意義。 因此,Yann LeCun 認為,更理想的做法是產生影片後續內容的抽象表達,並消除與我們 可能所採取動作無關的場景中的細節。 當然,他藉此又PR 了一波JEPA(Joint Embedding Predictive Architecture,聯合嵌入 預測架構),認為上述做法正是它的核心思想。 JEPA 不是生成式的,而是在表示空間中 進行預測。 與重建像素的生成式架構(如變分自編碼器)、掩碼自編碼器、去噪自編碼 器相比,聯合嵌入架構(如Meta 前幾天推出的AI 視訊模型V-JEPA)可以產生更優秀的視 覺輸入表達。 https://twitter.com/ylecun/status/1758740106955952191 François Chollet:只讓AI 看視頻學不成世界模型 Keras 之父François Chollet 則闡述了更細緻的觀點。 他認為,像Sora 這樣的視訊生 成模型確實嵌入了「物理模型」,但問題是:這個物理模型是否準確? 它能否泛化到新 的情況,也就是那些不只是訓練資料插值的情況? Chollet 強調,這些問題至關重要,因為它們決定了生成影像的應用範圍—— 僅限於媒 體生產,還是可以用作現實世界的可靠模擬。 Chollet 透過海盜船在咖啡杯中纏鬥的例子,討論了模型能否準確反映水的行為等物理現 象,或者只是創造了一種幻想拼貼。 在這裡,他指出模型目前更傾向於後者,即依賴資 料插值和潛空間拼貼來產生影像,而不是真實的物理模擬。 有人將這種行為類比為人類 做夢,認為Sora 其實只是達到了人類做夢的水平,但是邏輯能力依然不行。 Chollet 指出,透過機器學習模型擬合大量資料點後形成的高維曲線(大曲線)在預測物 理世界方面是存在局限的。 在特定條件下,大數據驅動的模型能夠有效捕捉並模擬現實 世界的某些複雜動態,例如預測天氣、模擬風洞實驗等。 但這種方法在理解和泛化到新 情況時存在局限性。 模型的預測能力依賴其訓練資料的範圍和質量,對於那些超出訓練 資料分佈的新情況,模型可能無法準確預測。 所以,Chollet 認為,不能簡單地透過擬合大量資料(如遊戲引擎渲染的影像或影片)來 期望得到一個能夠泛化到現實世界所有可能情況的模型。 這是因為現實世界的複雜性和 多樣性遠遠超過任何模型能夠透過有限數據學習到的。 田淵棟:學習物理需要主動學習或策略強化學習 針對Jim Fan 的觀點,一些研究者提出了更激進的反駁,認為Sora 並不是學到了物理, 只是看起來像是學到了罷了,就像幾年前的煙霧模擬一樣。 也有人覺得,Sora 不過是對 2D 像素的操縱。 https://twitter.com/IntuitMachine/status/1758845715709632873 當然,Jim Fan 對「Sora 沒有在學習物理,而只是操縱2D 像素」這一說法進行了一系列 反駁。 他認為,這種觀點忽略了模型在處理複雜資料時所展現的深層能力。 就像批評 GPT-4 不是學習編碼,只是隨機挑選字串一樣,這種批評沒有認識到Transformer 模型在 處理整數序列(代表文本的token ID)時所表現出的複雜理解和生成能力。 https://twitter.com/DrJimFan/status/1758549500585808071 對此,Google研究科學家Kevin P Murphy 表示,他不確定最大化像素的可能性是否足以 促使模型可靠地學到精確的物理,而不是看似合理的動態視覺紋理呢? 是否需要MDL( Minimum description length,最小描述長度)呢? https://twitter.com/sirbayes/status/1759101992516112864 同時,知名AI 學者、Meta AI 研究科學家田淵棟也認為,關於Sora 是否有潛力學到精確 的物理學(當然現在還沒有),背後的關鍵問題是:為什麼像「預測下一個token」或“ 重建」這樣簡單的思路會產生如此豐富的表示法? 他表示,損失函數如何被激發的並不重要,損失函數的設計動機(無論多麼哲學化或複雜 )並不直接決定模型能否學到更好的表示。 事實上,複雜的損失函數可能與看起來很簡 單的損失函數實際上產生了類似的效果。 最後他稱,為了更好地理解事物,我們確實需要揭開Transformers 的黑盒子,檢查給定 反向傳播的訓練動態,以及如何學習隱藏的特徵結構,並探索如何進一步改進學習過程 。 https://twitter.com/tydsh/status/1759293967420805473 田淵棟也表示,如果想要學習精確的物理,他敢打賭需要主動學習或策略強化學習(無論 如何稱呼它)來探索物理的精細結構(例如物體之間的相互作用、硬接觸)。 https://twitter.com/tydsh/status/1759389064648888395 其他觀點:Sora 被認為是「數據驅動的實體引擎」太荒謬 除了眾多AI 圈大佬之外,也有一些專業性的觀點開始反駁Sora 懂物理引擎這個說法。 例如下面這位推特部落客,他認為OpenAI 是數據驅動的物理引擎這一觀點是荒謬愚蠢的 , 就好像收集了行星運動的數據並將它們餵給一個預測行星位置的模型,然後就得出此 模型內部實現了廣義相對論的結論。 https://twitter.com/ChombaBupe/status/1759226186075390033 他稱,愛因斯坦花了很多年時間才推導出了重力理論的方程式。 如果有人認為隨機梯度 下降(SGD)+ 反向傳播僅憑輸入輸出對就能理解一切,並在模型訓練中解決問題,那麼 這個人對於機器學習的理解是有問題的,對機器學習的工作方式了解也不夠。 愛因斯坦在理論推導中對現實做出了許多假設,例如光速恆定、時空是靈活的結構,然後 推導出了微分方程,其解揭示了黑洞、重力波等重大發現。 可以說,愛因斯坦利用因果 推理將不同的概念連結了起來。 但是,SGD + 反向傳播並不是這樣,它們只是將資訊壓縮到模型權重中,並不會進行推理 ,只是更新並轉向實現具有最低誤差的參數配置。 他認為,機器學習(ML)中的統計學習過程可能會顯然低誤差“盆地”,即無法探索不同 的概念, 因為一旦陷入這些低誤差“盆地”或局部最小值就無法重新開始。 因此,SGD + 反向傳播發現了看似有效但卻很容易崩潰的、脆弱的解決方案捷徑。 這就 是為什麼深度學習系統不可靠且實際訓練起來很難,你必須在現實中不斷更新和訓練它們 ,這就很麻煩。 梯度下降的工作原理就像一隻蒼蠅尋找氣味源一樣,即蒼蠅跟隨空氣中的化學濃度向下移 動,從而引導它導向氣味源。 但如果僅依賴這種方式,就很容易迷路或陷入困境。 在機器學習中,模型的可調式參數就像蒼蠅,訓練資料就像氣味源,目標函數測量的誤差 就像氣味。 而調整模型權重的目的是朝著氣味源(這裡是低誤差,相當於更濃的氣味) 移動。 最後,他得出結論,如果認為機器學習模型僅僅透過訓練行星運動的影片就能在內部學到 廣義相對論,那就更荒謬了。 這是對機器學習原理的嚴重誤解。 此外,有網友指出Sora 影片範例充滿了物理錯誤,例如一群小狗在雪中玩鬧的場景就很 糟糕,大塊雪的運動就完全違反了重力(是否真如此,有待判斷)。 https://twitter.com/MikeRiverso/status/1759271107373219888 Sora 到底懂不懂物理? 將來會不會懂? 「預測下一個token」是不是通往AGI 的一個方 向? 我們期待各路研究者進行進一步驗證。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.192.157.241 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1708668347.A.B3A.html ※ 編輯: jackliao1990 (123.192.157.241 臺灣), 02/23/2024 14:06:07

02/23 14:24, 2月前 , 1F
直接講結論 當然不懂
02/23 14:24, 1F

02/23 14:25, 2月前 , 2F
把lecun的解釋看看就懂了
02/23 14:25, 2F

02/23 14:26, 2月前 , 3F
世界模型不可能以這種方式建構
02/23 14:26, 3F

02/23 14:27, 2月前 , 4F
要是哪天真的暴力破解 一堆遊戲3d engine的公司就
02/23 14:27, 4F

02/23 14:27, 2月前 , 5F
丸子
02/23 14:27, 5F

02/23 14:31, 2月前 , 6F
蒼井空是世界的
02/23 14:31, 6F

02/23 14:50, 2月前 , 7F
如果真的可以train出一個懂物理模型的model是不是
02/23 14:50, 7F

02/23 14:50, 2月前 , 8F
代表了他的loss function 就隱含了夠正確的物理模
02/23 14:50, 8F

02/23 14:50, 2月前 , 9F
型?
02/23 14:50, 9F

02/23 14:53, 2月前 , 10F
首先你要先定義甚麼是懂物理模型的model
02/23 14:53, 10F

02/23 14:53, 2月前 , 11F
人類對物理世界的了解連1%都不到 你要怎麼參照?
02/23 14:53, 11F

02/23 14:54, 2月前 , 12F
拿來做動畫不懂也沒差
02/23 14:54, 12F

02/23 14:54, 2月前 , 13F
人類都不懂世界了,期待人類訓練的AI懂?
02/23 14:54, 13F

02/23 15:23, 2月前 , 14F
人類物理學家終將滅亡
02/23 15:23, 14F

02/23 15:36, 2月前 , 15F
原理還是看SIGGRAPH的論文比較有啟發
02/23 15:36, 15F

02/23 15:46, 2月前 , 16F
現在一定還不懂 但遲早的事
02/23 15:46, 16F

02/23 15:47, 2月前 , 17F
應該還是現在的物理引擎產生各種訓練資料(AI輔助)
02/23 15:47, 17F

02/23 15:47, 2月前 , 18F
然後再用這些資料拿去訓練
02/23 15:47, 18F

02/23 16:06, 2月前 , 19F
他都能當你物理老師了還不董物理嗎
02/23 16:06, 19F

02/23 16:23, 2月前 , 20F
沒學過物理的人可以畫出其他人看起來合理的湖水
02/23 16:23, 20F

02/23 16:27, 2月前 , 21F
要先定義什麼是懂,現在的神經網路有人有中文房間問
02/23 16:27, 21F

02/23 16:27, 2月前 , 22F
題,像樓上的LLM給出物理教學,究竟只是這些權重預
02/23 16:27, 22F

02/23 16:27, 2月前 , 23F
測這個prompt和先前的token應該放出下一個token機率
02/23 16:27, 23F

02/23 16:27, 2月前 , 24F
最高的恰巧會讓人類以為他懂物理,還是他真的懂物理
02/23 16:27, 24F

02/23 16:27, 2月前 , 25F
從預測失敗的例子大概就知道他根本什麼都不懂,只是
02/23 16:27, 25F

02/23 16:27, 2月前 , 26F
近期可能的模仿人類而已
02/23 16:27, 26F

02/23 16:27, 2月前 , 27F
其實這類AI本質上跟芙莉蓮的魔族(人形的魔物)一樣
02/23 16:27, 27F

02/23 16:27, 2月前 , 28F
,本身不是人類也不在乎要不要用人類的方式去弄懂世
02/23 16:27, 28F

02/23 16:27, 2月前 , 29F
界,只是像鸚鵡一樣知道講某些話會有讓人類以為他們
02/23 16:27, 29F

02/23 16:27, 2月前 , 30F
懂的效果而已
02/23 16:27, 30F

02/23 16:27, 2月前 , 31F
跟之前對LLM暈船的研究員一樣,模型只是在吐出你想
02/23 16:27, 31F

02/23 16:27, 2月前 , 32F
聽的話而已,如果你覺得他有意識那他就會吐會讓你覺
02/23 16:27, 32F

02/23 16:27, 2月前 , 33F
得他有意識的output
02/23 16:27, 33F

02/23 16:27, 2月前 , 34F
他並不需要真的有意識,只要讓你認為他有意識就能讓
02/23 16:27, 34F

02/23 16:27, 2月前 , 35F
你設定的loss function happy了
02/23 16:27, 35F

02/23 16:34, 2月前 , 36F
這類模型就是盡其所能的唬爛,講錯的時候唬得跟真的
02/23 16:34, 36F

02/23 16:34, 2月前 , 37F
一樣
02/23 16:34, 37F

02/23 16:34, 2月前 , 38F
但其實講對的時候對模型而言它何嘗不也只是在唬爛?
02/23 16:34, 38F

02/23 16:34, 2月前 , 39F
它根本不知道自己講的對不對,只知道生這些token可
02/23 16:34, 39F
還有 46 則推文
02/24 00:54, 2月前 , 86F
某半桶水又在亂講AI了 顆顆 Alignment是通往了解
02/24 00:54, 86F

02/24 00:55, 2月前 , 87F
世界模型方法 所以LLM的Reasoning變很重要
02/24 00:55, 87F

02/24 00:55, 2月前 , 88F
透過alingment text和影像latent space才能結合
02/24 00:55, 88F

02/24 00:56, 2月前 , 89F
所以Lecunn才會認為embeding(alignment)是拆解因果
02/24 00:56, 89F

02/24 00:57, 2月前 , 90F
演言之啦diffusion會無腦產生影像 你需要用reasonin
02/24 00:57, 90F

02/24 00:57, 2月前 , 91F
去控制它產生方式 所以LLM才能引導diffusion
02/24 00:57, 91F

02/24 01:00, 2月前 , 92F

02/24 01:01, 2月前 , 93F
所以說sora會跟LLM有相關 在我們這行不能算錯
02/24 01:01, 93F

02/24 01:03, 2月前 , 94F
Dall-E 3+ChatGPT就是這樣用法
02/24 01:03, 94F

02/24 01:03, 2月前 , 95F
你去看dalle架構是透過CLIP (Text-Img Alginment)
02/24 01:03, 95F

02/24 01:06, 2月前 , 96F
當然你也可以手動給text去guide diffusion來取代LLM
02/24 01:06, 96F

02/24 01:06, 2月前 , 97F
每張每張的去產生影片 只是這樣太花時間
02/24 01:06, 97F

02/24 01:06, 2月前 , 98F
如果學得到精確的物理關係,拿去做機器人會比作影片
02/24 01:06, 98F

02/24 01:07, 2月前 , 99F
來得有價值吧
02/24 01:07, 99F

02/24 01:08, 2月前 , 100F
樓上 所以現在大家都在追求世界模型解法啊
02/24 01:08, 100F

02/24 01:11, 2月前 , 101F
現在有些reasoningLLM和CLIP拿去做在機器人上
02/24 01:11, 101F

02/24 01:12, 2月前 , 102F
所以造就了LLMAgent這個方向
02/24 01:12, 102F

02/24 01:51, 2月前 , 103F
先說結論,目前Navier-Stokes流體是無解的,甚至我
02/24 01:51, 103F

02/24 01:51, 2月前 , 104F
們用AI也只是玩個皮毛罷了!
02/24 01:51, 104F

02/24 03:48, 2月前 , 105F
我好像看得懂他們在說什麼 慘了
02/24 03:48, 105F

02/24 03:48, 2月前 , 106F
真不應該,這不是我現在應該要會的
02/24 03:48, 106F

02/24 04:51, 2月前 , 107F
就娛樂來講,夠用了啦
02/24 04:51, 107F

02/24 09:50, 2月前 , 108F
時間, 才推出多久?
02/24 09:50, 108F

02/24 09:52, 2月前 , 109F
現在問題可能會是未來ai是98%人類知識的頂端!你必
02/24 09:52, 109F

02/24 09:52, 2月前 , 110F
須不斷證明自己的知識是有巨大價值的不然就無法得到
02/24 09:52, 110F

02/24 09:52, 2月前 , 111F
2%人類知識探索的資格!未來只要是ai能回答的問題基
02/24 09:52, 111F

02/24 09:52, 2月前 , 112F
本上大家認知水平都差不多!即便他跟本不理解也可以
02/24 09:52, 112F

02/24 09:52, 2月前 , 113F
用ai代替!你們正把世界變成這樣!
02/24 09:52, 113F

02/24 11:49, 2月前 , 114F
讓sora破幾次薩爾達應該就學得會了
02/24 11:49, 114F

02/24 12:49, 2月前 , 115F
如果可行以後科學理論說不定都用巨量資料跟算力來解
02/24 12:49, 115F

02/24 16:25, 2月前 , 116F
結論 歐印AI
02/24 16:25, 116F

02/24 20:17, 2月前 , 117F
一堆人在那邊講幾%幾%,看得我好躁
02/24 20:17, 117F

02/24 20:26, 2月前 , 118F
很多人還沒有搞清楚狀況!當你失去獨立思考的能力時
02/24 20:26, 118F

02/24 20:26, 2月前 , 119F
,你就很容易回到封建時代!你認為很正常合理的事情
02/24 20:26, 119F

02/24 20:26, 2月前 , 120F
其實只是你的認知被侷限在缺乏突破性思考的框架裡!
02/24 20:26, 120F

02/24 20:26, 2月前 , 121F
講個淺顯易懂的就是什麼公司掛上了科技兩個字不論他
02/24 20:26, 121F

02/24 20:26, 2月前 , 122F
技術含量有多少看起來都好像很厲害,什麼科系前面都
02/24 20:26, 122F

02/24 20:26, 2月前 , 123F
要掛一個科學看起來好像很厲害,什麼人頭銜掛個工程
02/24 20:26, 123F

02/24 20:26, 2月前 , 124F
師看起來好像很厲害!很多事情當你不具備相關領域的
02/24 20:26, 124F

02/24 20:26, 2月前 , 125F
專業時是不容易跨出那個框架!
02/24 20:26, 125F
文章代碼(AID): #1bs3Mxiw (Tech_Job)