[新聞] 我的領導馬斯克：痛恨開會，不要非技術中層，推崇裁員

看板Tech_Job作者jackliao1990 (j)時間1年前 (2024/03/30 21:24)推噓10(11推 1噓 8→)

留言20則, 13人參與討論串1/1

我的領導馬斯克：痛恨開會，不要非技術中層，推崇裁員 https://www.qbitai.com/2024/03/131964.html 魚羊 AI大神卡帕西最新分享馬斯克稱得上是個「魔鬼老闆」這事兒，已經出了名了。現在，他的老部下卡帕西（Andrej Karpathy）又在最新訪談中「錘」了他一把（doge）：我不得不懇求他允許我招人。他（馬斯克）總是默認要裁掉員工。喜歡裁人之外，在這場紅杉組織的AI Ascent活動上，卡帕西也揭露了更多馬斯克管理公司的細節：痛恨開會、拒絕躺平、比起跟VP更喜歡直接和工程師聊工作… 另外，他也聊了不少大傢伙關心的大模型話題，包括：法學碩士作業系統規模重要嗎？年輕的新創公司要如何與OpenAI競爭？更多細節，以下奉上文字版分享~ （Claude 3亦有貢獻）大語言模型是新時代的CPU Q ：安德烈，非常感謝你今天加入我們。 OpenAI最初的辦公室就在我們舊金山辦公室的對面，當時你們很多人都擠在一起。除了在巧克力工廠樓上工作，實現了威利旺卡的夢想，在這裡工作還有哪些令你難忘的時刻？卡帕西：是的，OpenAI最初的辦公室就在那裡，如果不算Greg的公寓的話。我們在那裡待了大概兩年，樓下就是巧克力工廠，味道一直很香。那時團隊大概有10-20 多人。我們在那裡度過了一段非常有趣的時光。老黃在GTC大會上提到的，他把第一台DGX超級電腦送到OpenAI的事，就發生在那裡。 Q ：安德烈其實是不需要介紹的，不過我還是想提一下他的背景。他師從Geoffrey Hinton和李飛飛，最早因為在史丹佛大學開設的深度學習課程成名。 2015年他共同創辦了OpenAI。 2017年，他被馬斯克挖走了。大家可能不太記得當時的情況了：特斯拉經歷了6任Autopilot負責人，每個人都只做了6 個月。我記得安德烈接手這個職位時，我還祝他好運來著。沒多久，他就回到了OpenAI。而現在他擁有完全的自由，可以想做什麼就做什麼。所以我們很期待聽他今天分享的見解。我最欣賞安德烈的地方在於，他是一位令人著迷的未來主義思想家，他是堅定的樂觀主義者，同時他也是一位非常務實的建造者。今天他會和我們分享一些關於這些方面的見解。首先，即便在7年前，AGI看起來也是一個在我們有生之年幾乎不可能實現的目標。而現在它似乎已經在望了。你對未來10年有什麼看法？卡帕西：你說的沒錯。幾年前，AGI的路徑還很不明朗，還處於非常學術化的探討階段。但現在已經很清楚了，大家都在努力填補這片空白。優化工作正在如火如荼地進行中。大致來說，每個人都在努力建立「大模型作業系統（LLM OS）」。我喜歡把它比作一個作業系統。你要準備好各種外圍設備，然後把它們連接到一個新的 CPU上。這些週邊設備包括文字、圖像、音訊等各種模態。 CPU就是語言模型本身。它還將與我們已經建造的所有Software 1.0基礎設施相連。我認為大家都在努力建構這樣一個東西，然後把它定製成適用於各個經濟領域的產品。總的來說，發展方向就是我們可以調整這些相對獨立的agent，為它們分配高層次的任務，讓它們專門從事各種工作。這將非常有趣和令人興奮。而且不只一個agent，會有很多agent。想像一下那會是什麼樣子？ Q ：如果未來真的如你所說，那我們現在該如何調整自己的生活方式？卡帕西：我不知道。我想我們必須努力去建構它，去影響它，確保它是正向的。總之就是盡量讓結果變好。 Q ：既然你現在是一個自由人，我想提一個顯著的問題，那就是OpenAI正在主導整個生態。今天在座的大多數人都是創業者，他們試圖開闢一些小眾市場，並祈禱OpenAI不會在一夜之間把他們打垮。你認為其中還有機會嗎？ OpenAI會在哪些領域繼續佔主導地位？卡帕西：我的總體印像是，OpenAI正在努力建立LLM作業系統。正如我們今天早些時候聽到的，OpenAI正試圖開發一個平台。在此基礎上，你可以在不同的垂直領域建立不同的公司。作業系統的類比其實很有意思，因為像Windows這樣的作業系統，也自帶一些預設的應用程序，例如瀏覽器。所以我認為，OpenAI或其他公司可能也會推出一些預設的應用，但這並不意味著你不能在上面運行不同的瀏覽器，你可以在他們的基礎之上運行不同的agent。會有一些預設應用，但也可能會有一個充滿活力的生態系統，有各種各樣的應用，針對具體場景進行了微調。我很喜歡用早期的iPhone應用程式來類比。這些應用程式一開始都有點像開玩笑，需要時間來發展。我想我們現在正在經歷同樣的事情。人們正在努力弄清楚這個東西擅長什麼？不擅長什麼？我如何使用它？如何程式設計？如何調試？如何讓它執行實際任務？需要什麼樣的監督？因為它相當自主，但不完全自主的。所以監督應該是什麼樣的呢？評估應該是什麼樣的？有很多事情需要思考，需要理解。我認為需要一些時間來弄清楚如何與這種新的基礎設施合作。所以我認為在未來幾年我們會看到這一點。 Q ：現在大語言模型的競賽正在如火如荼地進行，有OpenAI、Anthropic、Mistral、 Llama、Gemini，還有整個開源模型生態系統，以及大量的小模型。你如何預見生態系未來的發展？卡帕西：是的，所以我再次強調，作業系統的類比很有意思。我們有Windows、macOS這樣閉源的系統，也有開源的Linux。我認為大模型可能也會是這樣的格局。我們稱呼這些模型的時候也要小心，你列舉的許多模型，像是Llama、Mistral等，我不認為它們是真正的開源。這就像是把一個作業系統的二進位檔案扔出來，你可以使用它，但不是完全有用。確實有一些我認為是完全開源的語言模型，它們完整地發布了編譯「作業系統」所需的全部基礎設施，從資料收集到模型訓練。這比只拿到模型權重肯定要好得多，因為你可以微調模型。但我認為有一個微妙的問題，就是你不能完全微調模型，因為你微調得越多，它在其他所有任務上的表現就會越差。所以如果你想增加某種能力而不影響其他能力，實際上可能需要混合先前的資料集分佈和新的資料集分佈來進行訓練。如果只給你模型權重，你其實做不到這一點。你需要訓練循環，需要資料集等。所以你在使用這些模型時實際上是受限的。它們肯定是有幫助的，但我們可能需要更好的術語對其進行描述。開放權重模型、開源模型，還有專有模型，生態系統可能會是這樣的。而且很可能會與我們今天的生態系統非常相似。規模是最主要決定因素 Q ：我想問的另一個問題，就是規模。簡單來說，規模似乎是最重要的。數據規模、算力規模。因此，大型研究實驗室、大型科技巨頭今天擁有巨大的優勢。你對此有何看法？規模就是一切嗎？如果不是，還有什麼重要的？卡帕西：我認為規模絕對是第一位的。其中有一些細節確實需要處理好。我認為資料集的準備工作也很重要，要讓資料非常好、非常乾淨，這可以讓運算效率提升。但我認為規模將是主要的決定因素，是第一主成分，當然你還需要把其他很多事情做好。如果沒有規模，那你根本無法訓練這些大模型。如果你只做微調之類的工作，可能不需要那麼大的規模，但我們還沒有真正看到這一點完全實現。 Q ：你能詳細說說除了規模之外，你認為還有哪些重要因素嗎，可能優先順序低一些？卡帕西：首先，你不能只訓練這些模型。如果你只是提供資金和規模，實際上訓練這些模型仍然非常困難。部分原因是基礎設施太新了，還在開發中，還不完善。但在這種規模上訓練模型是極為困難的，是一個非常複雜的分散式最佳化問題。這方面的人才目前其實相當稀缺。這基本上是一個瘋狂的事情，模型在成千上萬個GPU上運行，在不同的時間點隨機失敗。監控這個過程，讓它運作起來，實際上是極其困難的挑戰。直到最近，GPU才像預期的那樣能處理1萬個GPU的工作負載。所以我認為很多基礎設施在這種壓力下都在吱吱作響，我們需要解決這個問題。現在，如果你只是給某人一大筆錢或大量的GPU，我不確定他們是否能直接生產出大模型，這就是為什麼不僅僅是規模的問題。你實際上需要大量的專業知識，包括基礎設施方面、演算法方面，以及數據方面，要非常謹慎。 Q ：生態系統發展得如此之快，一年前我們認為存在的一些挑戰，現在也越來越多地解決。幻覺、上下文視窗、多模態能力、推理速度越來越快、成本越來越低。現在還有哪些語言模型研究的挑戰讓你夜不能寐？你認為有哪些問題夠緊迫，但也是可以解決的？卡帕西：我認為在演算法方面，我想了很多的一個問題是擴散模型和自迴歸模型之間的明顯差異。它們都是表示機率分佈的方法。事實證明，不同的模態顯然適合其中之一。我認為可能有一些空間來統一它們，或以某種方式將它們聯繫起來。我想指出的另一件事是，運行大模型的基礎設施的內在效率。我的大腦耗電量大概是20 瓦。老黃在GTC上剛剛談到了他們要建造的大型超級計算機，數字都是兆瓦級的。所以也許你不需要那麼多能量來運行一個大腦。我不知道具體需要多少，但我認為可以肯定地說，在運行這些模型的效率方面，我們還可以1000倍到100萬倍地提升。我認為部分原因是當前的電腦根本不適合這個工作負載。英偉達的GPU朝著這個方向邁出了很好的一步，因為你需要極高的並行性。我們實際上並不關心以某種方式依賴資料的順序計算。我們只是需要在許多不同的陣列元素上執行相同的演算法。所以我認為第一個是調整電腦架構以適應新的資料工作流程，第二是推動我們目前看到有改進的東西。第一個可能是精度。我們看到精準度從最初的64位雙精度下降到現在的4、5、6位，甚至根據你所讀的論文不同，可能是1.5到8位。所以我認為精準度是控制這個問題的一個很大的槓桿。第二個當然是稀疏性。事實上，大模型中的許多參數都是零，或是接近零。所以如果你能以某種方式利用這一點，比如說讓稀疏矩陣乘法變得更有效率，那就太好了。這方面有一些有前景的研究。另外還有一些有趣的想法，例如奇異值分解(SVD)，看看是否可以將其分解成更小的矩陣，然後重新組合。例如只計算前向傳播，不做反向傳播，訓練一個較小的模型來預測較大模型的輸出。所以我認為，從根本上講，要解決兩個問題：一個是建立更合適的硬體。另一個是找到更好的演算法，在保持效能的同時提高效率。我認為這兩方面都還有很大的探索空間。從能源效率的角度來看，如果我們能縮小與大腦的差距，那將是一個巨大的進步。這可能意味著我們每個人都可以負擔得起一個模型，或在我們的設備上運行一個模型，而不需要連接到雲端。馬斯克“在管理世界上最大的創業公司” Q ：好的，我們換個話題。你曾與這個時代的許多偉人並肩工作過，OpenAI的Sam、Greg 及其他團隊成員，還有馬斯克。在座有多少人聽過關於美國賽艇隊和日本賽艇隊的笑話？這是個有趣的故事。馬斯克分享過這個笑話，我認為它反映了他在打造企業文化和團隊方面的許多理念。故事中有兩支隊伍，日本隊有4名劃手和1名舵手，美國隊有4名舵手和1名劃手。有人猜得出當美國隊輸了後他們會怎麼做嗎？大聲說出來。完全正確，他們會開除那個劃手。馬斯克分享這個例子，我認為是在闡述他對於僱用合適的人才、打造合適團隊的看法。透過與這些不可思議的領導者的密切合作，你學到了什麼？卡帕西：我想說馬斯克管理公司的方式非常獨特。我覺得人們並沒有真正意識到它有多特別。即便是聽別人講，你也很難完全理解。我覺得這很難用語言描述。我甚至都不知道從何說起。但這確實是一種非常獨特、與眾不同的方式。用我的話來說，他正在管理全球最大的新創公司。我覺得我現在也很難描述清楚，這可能需要更長時間來思考和總結。不過首先，他喜歡由強大且技術含量高的小團隊來組成公司。在其他公司，發展的過程中團隊規模往往會變大。而馬斯克則總是反對團隊過度擴張。為了招募員工，我必須做很多努力。我必須懇求祂允許我招人。另外，大公司通常很難擺脫績效不佳的員工。而馬斯克則更願意主動裁人。事實上，為了留住一些員工，我不得不據理力爭，因為他總是默認裁掉他們。所以第一點就是，維持一支實力強勁、技術過硬的小團隊。絕對不要有那種非技術型的中階管理。這是最重要的一點。第二點則是他如何營造工作氛圍，以及走進辦公室時給人的感覺。他希望工作環境充滿活力。人們四處走動，思考問題，專注於令人興奮的事物。他們或是在白板上寫寫畫畫，或是在電腦前敲程式碼。他不喜歡一潭死水，不喜歡辦公室裡沒有生機。他也不喜歡冗長的會議，總是鼓勵人們在會議毫無意義時果斷離場。你真的能看到，如果你對會議毫無貢獻也沒有收穫，那就可以直接走人，他非常支持這一點。我想這在其他公司是很難見到的。所以我認為營造正向的工作氛圍是他灌輸的第二個重要理念。也許這其中還包括，當公司變大後，往往會過度照顧員工。而在他的公司不會如此。公司的文化就是你要拿出百分之百的專業能力，工作節奏和強度都很高。我想最後一點或許是最獨特、最有趣也最不尋常的，就是他與團隊如此緊密地連結在一起。通常一個公司的CEO是一個遙不可及的人，管理著5層下屬，只和副總裁溝通，副總裁再和他們的下屬主管溝通，主管再和經理層溝通，你只能和直屬上司對話。但馬斯克經營公司的方式完全不同。他會親自來到辦公室，直接與工程師交談。我們開會時，會議室裡經常是50個人和馬斯克面對面，他直接跟工程師對話。他不想只是和副總裁、主管們說話。通常一個CEO會把99%的時間花在和副總裁溝通上，而他可能有50%的時間在和工程師溝通。所以如果團隊規模小且高效，那麼工程師和程式碼就是最可信的資訊來源。他們掌握第一手的真相。馬斯克要直接和工程師交流，以了解實際情況，並討論如何改進。所以我想說，他與團隊聯繫緊密，而不是遙不可及，這一點非常獨特。此外，他在公司內部行使權力的方式也不同尋常。例如如果他與工程師交談，了解到一些阻礙專案進度的問題。例如工程師說，“我沒有足夠的GPU來運行程式”，他會記在心裡。如果他兩次聽到類似的抱怨，他就會說：“好，這是個問題。那現在的時間表是什麼？什麼時候能解決？” 如果得不到滿意的答复，他會說，“我要和GPU集群的負責人談談”，然後有人就會打電話給那個負責人，他會直截了當地說：“現在就把集群容量翻一倍。從明天開始每天向我匯報進展，直到集群規模擴大一倍。” 對方可能會推脫說還要經過採購流程，需要6個月之類的。這時馬斯克就會皺起眉頭，說：「好，我要跟黃仁勳談談。」然後他就會直接剷除計畫障礙。所以我認為大家並沒有真正意識到他是如何深度參與各項工作，掃清障礙，施加影響力的。老實說，離開這樣的環境去一家普通公司，你真的會想念這些獨特的地方。影片連結： https://www.youtube.com/watch?v=c3b-JASoPi0