[新聞] 首個AI程式師造假被抓，Devin再次「震撼」矽谷！扒皮詳解附上

看板Tech_Job作者jackliao1990 (j)時間2周前 (2024/04/15 12:54)推噓10(21推 11噓 25→)

留言57則, 39人參與討論串1/2 (看更多)

首個AI程式師造假被抓，Devin再次「震撼」矽谷！扒皮詳解附上 https://www.qbitai.com/2024/04/135315.html 衡宇人類只需36分鐘就能搞定的工作首個AI程式師，演示視頻大幅度造假??? 不久之前震撼矽谷的Devin，再度震撼矽谷——但這次是被打假。事情是這樣的：油管程式師博主Internet of Bugs（以下簡稱光頭哥）對Devin的視頻進行了逐幀分析，逐一舉證說明瞭Devin並不如演示中那般神奇。甚至有“自己現寫bug然後當場修復”的騷操作。其它「罪證」，包括但不限於：號稱能解決任何Upwork任務，但演示中解決的問題並不是prompt要解決的那一個，做無用功; 看起來在修復bug，實際上修復的bug人類程式師根本就不會犯; 沒有意識到簡單兩步就能解決問題，花裡胡哨一頓操作，其實是自己把任務搞複雜了; 修改代碼的水準一言難盡。此外，光頭哥花了半個多小時，把Devin演示視頻中的upwork任務完成了一遍——而Devin 完成任務可能用時6個多小時。啊這這這，真是好、大、一、口、瓜！要知道，其背後公司Cognition AI手握10塊IOI金牌的活招牌，還在推出Devin當月宣佈成功融資2100萬美金。推特和YC上已經吵翻天了，讓這件事的討論度高居不下。我請問呢？真的很討厭演示造假，讓demo看起來輕鬆達到意料之外的技術進步。還有人表示自己很受傷，再也不會相信各種冒出來的創業公司的東西了。 emmmm...... 我還是把期待值全部留給OpenAI、Anthropic、DeepMind、FAIR這些公司和機構吧。完整詳情，一起接著往下看。 35年從業者逐幀驗證此次出來聲張正義的光頭哥，從事軟體行業已經35年。他首先聲明自己的立場：我並不反對高科技，但我確實反對過度炒作。他自己也經常使用GitHub Copilot、ChatGPT、LIama2、Stable Diffusion。事實上，在Devin剛推出時候，他就反對過「世界上第一個AI軟體工程師」這一說法。此次則主要針對的是一些更為具體的說法。比如之前Devin號稱能夠靠處理upwork任務來賺錢的。但在真正的演示中Devin並沒有做到這一點。不信？沒關係，光頭哥帶著逐幀的證據來了。總結如下： Devin所處理的任務並非隨機，而是精心挑選; 與客戶實際需求有很大的出入; 實際操作過程，數次自己創造bug然後再修復; 很多毫無意義的操作，相當於幾十年前在C語言中才用的方法; ？？？首先，來到了演示視頻的2.936秒處，在螢幕左上角有顯示他們搜索過這個內容。因此，這不是所謂「隨機」選擇的任務。 https://www.qbitai.com/wp-content/uploads/replace/8ae7a7a5c79570dd8a38d11398f14359.png

再來看客戶給到的具體需求。真正需求為“我想要利用這個庫來進行推理。你需要提供詳細的操作指南。我不想討論完成這項工作預計需要的時間。 ” 但給到Devin的需求卻是：我希望利用這個模型在這個庫中進行推理。請自己弄明白。最後視頻末尾出現的Devin生成報告中，也沒有提及客戶實際需要的內容。那麼，這份工作的最終交付成果應該包括什麼呢？但Devin實際做了什麼？ Devin第一次真正的嘗試，是它修改了一個名為requirements.txt檔，其中規定了代碼所依賴的庫版本。視頻中提到它正在更新代碼，但實際上更像是修改配置檔。然後根據需求，需要Devin能建立自己的推理能力，並僅需使用樣例數據即可。但實際專案要比這個複雜得多。結果很快，Devin就遇到了第一個命令行錯誤——打開圖像失敗、檔未找到、無此檔或目錄等。但在光頭哥實際復現時並沒有出現，結果研究發現，代碼倉庫壓根就不存在這個檔。這相當於Devin自己創建了個bug，然後再修復bug。在接下來的操作中，Devin經歷了很多次這樣的“自建自修”。不能說十分有用，只能說完全沒有必要。接下來，再來看看代碼庫中這樣一個readme檔。正如視頻所展示的那樣，readme檔清晰地說明了該檔的功能和用法。在頁面右側，甚至還有一個小按鈕，點擊它就可以複製整條命令，然後粘貼到命令行視窗中，按下回車即可運行。但Devin完全沒能理解，而又是自創了個專案。而寫的那段從緩衝區讀取數據的代碼十分糟糕。於是光頭哥發出了靈魂拷問：這不就是幾十年前在C語言等中才用的方法嗎??? 這種做法顯然已經過時，正常人用Python誰還會再寫這個代碼。這種代碼很難調試，它邏輯複雜，難以理解，很容易出現細微的錯誤。此外，代碼庫中還存在一個真正的錯誤，但Devin既沒有發現也沒有修復。然後光頭哥用谷歌搜索，按照GitHub 上一條相關評論修改了代碼，只花了1分07秒，問題就解決了。最終光頭哥總共花了35分55秒複現了Devin的工作，而Devin實際花了多長時間呢？如果細看視頻Demo，就會發現Devin處理工作前後有6個小時20分鐘的間隔。視頻的前部分顯示的是3月9日下午3：25 的時間戳，但後半部分卻顯示的是當天晚上9： 41。 https://www.qbitai.com/wp-content/uploads/replace/d296e9d1a995799c610756ddee0de6d5.png

而逐幀細看就有會發現一些奇怪且毫無意義的操作。比如head -N 5 results.json | tail -N 5這個命令，它表示取這個JSON 檔的前五行，然後再取這些行的最後五行。正確的做法應該是“head-5 results.json”。那個-N 是多餘的。只要說 -5 就可以，不需要那些多餘的東西。最後光頭哥銳評，AI現在生成的內容有很多都十分愚蠢，反倒會讓事情變得更為複雜。當看到它的任務清單時，會覺得：哇，Devin做了很多事情。但實際上可能並非如此。網友：至少掌握了看起來很忙的技巧對於此次Devin造假翻車，不少網友對現階段AI產品炒作嗤之以鼻。我真的很討厭現在演示造假變得如此正常化甚至還列出了三大炒作典範：Devin、rabbit、Humane。也有網友調侃：Devin至少掌握了看起來很忙的技巧。嗯？打工人有被內涵到。不過也有一些支持的網友，比如這位沃頓商學院的教授Ethan Mollick。他聲稱自己有早期訪問權，在體驗中發現真的很有趣。他認為現在將Agent視作“炒作”為時尚早，未來幾個月Agent的能力將十分強大。號稱“世界首個完全自主的AI軟體工程師” 有意思的是，演示造假事件爆出來的時間，距離Cognition AI推出Devin僅過去了一個月。咱們一起來回顧一下。一個月前的3月13日，Cognition AI在推特上介紹了自家推出的Devin，並稱其為“世界上首個AI軟體工程師”。只需一句指令，它可端到端地處理整個開發專案。主創介紹，Devin在長程推理和規劃上面下了很大功夫，可以規劃和執行需要數千個決策才能完成的複雜軟體工程任務。具體來說有6大功能：端到端構建和部署程式，可以解決的不只是代碼問題，還包括與之相關的整個工作流; 自主查找並修復bug; 訓練和微調自己的AI模型; 修復開源庫; 為成熟的生產庫做貢獻; 超強學習能力，即時補足知識和能力短板。 Devin完整技術報告中顯示，在SWE-bench基準測試中，無需人類輔助，Devin可解決 13.86%的問題 ——這個數據看起來不高，但其實已經超過了此前所有AI大模型的成績。目前數一數二的GPT-4，在同個測試中的成績只有1.74%，且必須配備一個人類，提示它要處理哪些檔。當時的Devin團隊一副沒在怕的樣子。雖然沒開放公測，但陸陸續續給出了一些內測名額。在互聯網上搜索一番，發現上手體驗過的人給的買家秀反饋是這樣的：熱衷AI的沃頓商學院教授Ethan Molick試過後，認為其新穎的即時交互方式是最值得關注的。他要求Devin開發一個解釋「創業公司融資中的股權稀釋」的網站，隨後透露，AI還無法在沒有任何幫助的情況下，自主且無差錯地完成這項工作。。但也有人直接表示，體驗過後確實是有被震撼到。巧的是，截圖中的這個首批內測體驗者Bubna哥，是AI基礎設施創業公司Modal Labs的CTO 。後來他和Devin還聯手搞了個新聞。 Devin用自家老闆的賬號，潛入Modal Labs的工作群，和Bubna哥一番交流過後，根據回復調整了代碼方案，解決了一個技術問題。 https://www.qbitai.com/wp-content/uploads/replace/2177b410aec6073bb83de4ba7c07ea79.png

△圖中的發言人背後其實是Devin 當然，除了看上去哄哄的技術，Devin還鍍了一層光環，那就是背後公司Cognition，雖然是個小初創，但在招人資訊中明晃晃寫著：我們團隊手裡握著10塊IOI金牌呢~ 技術演示和團隊背景都吸睛Max，直接給Devin的傳播力度添磚加瓦。也正是因為對Devin的關注，代碼生成領域在過去一段時間里進展是突飛猛進。暫時無法在飛書文檔外展示此內容比如，GitHub三萬Star專案MetaGPT就上新了「開源版Devin」，名為數據解釋器（Data Interpreter）：阿裡Qwen成員Binyan Hui等人開啟了OpenDevin專案，一個月過去已經在GitHub攬星 21.5k; 普林斯頓那邊動作更快，用GPT-4打造了開源SWE-agent，開箱即用，可修復GitHub存儲庫中真實bug。在25%的SWE-bench測試集上，它實現了與Devin演示視頻中相似的準確度—— 解決了 12.29%的問題。還有各個大廠也開始入駐自己的AI程式師...... One More Thing 結果現在發生這件事兒，怎麼說呢...... 往好了想，真是救大命了，所有的程式師們都要鬆口氣了，還好還好，AI暫時還無法端到端端走我的飯碗。往壞了想，真是要了命了，這麼一個備受關注的明星專案居然是個只能活在視頻里的demo 。難道世界真的是個巨大的草台班子??? 參考連結： [1]https://twitter.com/oran_ge/status/1778968102610546762?s=46&t=S65Q3TssMnzcxLETGqaDFQ [2] https://twitter.com/0interestrates/status/1779268441226256500 [3]https://news.ycombinator.com/item?id=40008109 [4] https://www.youtube.com/watch?v=tNmgmwEtoWE

-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.87.176.211 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1713156852.A.647.html ※ 編輯: jackliao1990 (219.87.176.211 臺灣), 04/15/2024 13:01:42

噓

joefaq

04/15 13:39, 2周前 , 1^F

04/15 13:39, 1^F

→

qwas65166516

04/15 13:39, 2周前 , 2^F

04/15 13:39, 2^F

推

abccbaandy

04/15 13:47, 2周前 , 3^F

04/15 13:47, 3^F

→

abccbaandy

04/15 13:48, 2周前 , 4^F

04/15 13:48, 4^F

噓

CCWck

04/15 13:57, 2周前 , 5^F

04/15 13:57, 5^F

推

nipage16

04/15 14:19, 2周前 , 6^F

04/15 14:19, 6^F

→

s1612316

04/15 14:24, 2周前 , 7^F

04/15 14:24, 7^F

推

mooto

04/15 14:27, 2周前 , 8^F

04/15 14:27, 8^F

→

mooto

04/15 14:27, 2周前 , 9^F

04/15 14:27, 9^F

推

fr75

04/15 14:31, 2周前 , 10^F

04/15 14:31, 10^F

→

samm3320

04/15 14:35, 2周前 , 11^F

04/15 14:35, 11^F

→

samm3320

04/15 14:35, 2周前 , 12^F

04/15 14:35, 12^F

推

steak5566

04/15 15:03, 2周前 , 13^F

04/15 15:03, 13^F

推

TSMCfabXX

04/15 15:04, 2周前 , 14^F

04/15 15:04, 14^F

推

abbei

04/15 15:27, 2周前 , 15^F

04/15 15:27, 15^F

噓

lulu2630

04/15 15:52, 2周前 , 16^F

04/15 15:52, 16^F

推

Aquarius126

04/15 15:56, 2周前 , 17^F

04/15 15:56, 17^F

→

Aquarius126

04/15 15:56, 2周前 , 18^F

04/15 15:56, 18^F

噓

illya65536

04/15 16:13, 2周前 , 19^F

04/15 16:13, 19^F

噓

kriswu8021

04/15 16:40, 2周前 , 20^F

04/15 16:40, 20^F

→

yunf

04/15 17:28, 2周前 , 21^F

04/15 17:28, 21^F

→

yunf

04/15 17:28, 2周前 , 22^F

04/15 17:28, 22^F

→

yunf

04/15 17:28, 2周前 , 23^F

04/15 17:28, 23^F

→

yunf

04/15 17:32, 2周前 , 24^F

04/15 17:32, 24^F

推

xam

04/15 17:33, 2周前 , 25^F

04/15 17:33, 25^F

→

xam

04/15 17:33, 2周前 , 26^F

04/15 17:33, 26^F

→

x61s

04/15 17:48, 2周前 , 27^F

04/15 17:48, 27^F

推

steak5566

04/15 18:06, 2周前 , 28^F

04/15 18:06, 28^F

推

Lowpapa

04/15 18:06, 2周前 , 29^F

04/15 18:06, 29^F

推

abc7360393

04/15 18:32, 2周前 , 30^F

04/15 18:32, 30^F

→

abc7360393

04/15 18:32, 2周前 , 31^F

04/15 18:32, 31^F

→

abc7360393

04/15 18:32, 2周前 , 32^F

04/15 18:32, 32^F

推

xfaw4d35t

04/15 18:33, 2周前 , 33^F

04/15 18:33, 33^F

推

SHANGOYANYI

04/15 19:04, 2周前 , 34^F

04/15 19:04, 34^F

推

thomasgili

04/15 19:10, 2周前 , 35^F

04/15 19:10, 35^F

→

h79718j06

04/15 19:11, 2周前 , 36^F

04/15 19:11, 36^F

推

yudofu

04/15 19:15, 2周前 , 37^F

04/15 19:15, 37^F

→

yudofu

04/15 19:16, 2周前 , 38^F

04/15 19:16, 38^F

噓

revivalist

04/15 19:44, 2周前 , 39^F

04/15 19:44, 39^F

噓

k20057

04/15 21:39, 2周前 , 40^F

04/15 21:39, 40^F

推

forfan

04/15 22:17, 2周前 , 41^F

04/15 22:17, 41^F

→

forfan

04/15 22:17, 2周前 , 42^F

04/15 22:17, 42^F

噓

luweber88

04/15 22:22, 2周前 , 43^F

04/15 22:22, 43^F

推

Csongs

04/16 04:38, 2周前 , 44^F

04/16 04:38, 44^F

→

Csongs

04/16 04:38, 2周前 , 45^F

04/16 04:38, 45^F

推

justaID

04/16 05:27, 2周前 , 46^F

04/16 05:27, 46^F

→

justaID

04/16 05:27, 2周前 , 47^F

04/16 05:27, 47^F

→

justaID

04/16 05:27, 2周前 , 48^F

04/16 05:27, 48^F

噓

wiisonjacky

04/16 07:44, 2周前 , 49^F

04/16 07:44, 49^F

噓

qoo60606

04/16 08:07, 2周前 , 50^F

04/16 08:07, 50^F

→

LearnRPG

04/16 08:31, 2周前 , 51^F

04/16 08:31, 51^F

→

shooter555

04/16 10:58, 2周前 , 52^F

04/16 10:58, 52^F

推

twolight

04/16 19:53, 2周前 , 53^F

04/16 19:53, 53^F

→

twolight

04/16 19:53, 2周前 , 54^F

04/16 19:53, 54^F

推

reich3

04/17 11:52, 1周前 , 55^F

04/17 11:52, 55^F

→

reich3

04/17 11:54, 1周前 , 56^F

04/17 11:54, 56^F

噓

jack70134

04/18 00:00, 1周前 , 57^F

04/18 00:00, 57^F

‣ 返回看板[ Tech_Job ] 工作

‣ 更多 jackliao1990 的文章

文章代碼(AID): #1c7BBqP7 (Tech_Job)

討論串 (同標題文章)

完整討論串 (本文為第 1 之 2 篇)：

排序：最舊先 | 最新先 | 留言數

新聞

[新聞] 首個AI程式師造假被抓，Devin再次「震撼首個AI程式師造假被抓，Devin再次「震撼

jackliao1990

2周前, 04/15

新聞

Re: [新聞] 首個AI程式師造假被抓，Devin再次「震撼 Re: 首個AI程式師造假被抓，Devin再次「震撼

a9202507

2周前, 04/15

在新視窗開啟完整討論串 (共2篇)

‣ 返回看板[ Tech_Job ] 工作

‣ 更多 jackliao1990 的文章

文章代碼(AID): #1c7BBqP7 (Tech_Job)