Re: [問卦] 有沒有AMD的八卦

看板Gossiping作者 (麥子)時間15年前 (2009/07/31 02:19), 編輯推噓262(2620196)
留言458則, 177人參與, 最新討論串1/3 (看更多)
※ 引述《SkyElder (不可有一絲惡念)》之銘言: : AMD最近真的是被打假的 多核心同時脈效能都輸30%左右 : 應該不是說最近 : 應該說兩年有了 : 更久以前AMD的同時脈效能是領先INTEL的 也就是說如果同樣是跑2G : AMD效能硬是比較快 所以他才出了一堆類似 型號是3500結果實際時脈只跑2.2G : 玩這種把戲 就是宣稱自己的2.2G可以跑得跟INTEL的3.5G一樣快 : 事實上是沒有一樣快 可是也差不多了 intel 在 p2~p4 的時期,應該都還算是在衝 clock rate , 要把 clock rate 衝上去的方法就是讓每一個 pipeline stage 更短, 當然相對地,做完一件事的時間需求一樣, pipeline 的深度就會變深。 透過這樣的方式,可以很漂亮地讓 clock rate 衝上去。 當時的市場看到 clock rate 就爽了,爽大家就買,效能進步其實未必很大。 pipeline 當然是增加 instruction level parallelism 的好方法, 至少課本都是這樣教的,適當地去切 pipeline 其實表現也都不錯。 不過 intel 把這個觀念玩到極致,或者說是有點過頭了。 一般課本會教的大概是 5~6 stage 的 pipeline , intel 切到後來大概切到 20~30 個 stage 。 如果程式的 instruction 之間真的都是 independent , 那麼 20~30 stage 的 pipeline 效能應該會還滿不錯的。 但是因為一些 data/control dependency , 導致前後的 instruction 其實要互等, pipeline 執行常常在 stall 。 切了一堆 stage ,但大家都在 idle ,對效能根本沒幫助。 更慘的是,這些在 idle 的 unit 還是很認真地在等工作, 所以繼續在耗電,這種爛方法搞到後來就是出現像 pentium D 這種, 又吃電又熱跑起來又不怎麼快的 cpu 。 intel 自己也知道這樣不行了, 因為這樣搞下去 power 都快要比 cpu 還要貴了。 所以才換個方向,走向 pipeline 比較不那麼深的設計方式。 早年 amd 用的策略就是跟 intel 不一樣,沒有強加 pipeline stage 。 所以才會有所謂「同時脈」比較快,但基本上同時脈沒什麼意義, 時脈本來就是看你在一個 cycle 要做多少事來決定的。 intel cpu 一個 cycle 做的事比較少,所以要用比較多的 cycle 才做完。 amd 則反過來。但基本上做完一件事所需要的時間差不了太多。 真正決勝的點還是每一個 function unit 本身的設計, 不過這些東西使用者是看不到的。 : CPU要快除了時脈以外 最重要的就是內部的構造與技術 時脈並不是關鍵 : 但近來INTEL出了新核心(從core 2技術開始) 用了新技術 把整個局勢扭轉過來了 : 也就是說 同時脈下 效能會贏AMD 30%左右 : 又 INTEL製程比較先進 比如INTEL 是45奈米但AMD只有65奈米 : 45奈米在相同時脈下 比65奈米省電1/3 當然溫度也低 : 速度也會增快(因為電路間隙縮短傳遞更快) 其實前陣子 core/core2 把 amd 搞得很慘的原因除了製程, 還有很重要的是 intel 有把兩個 die 放在同一個 package 裡面的能力。 也就是所謂的非原生雙核心/四核心。當出 amd 在廣告上面嗆 intel 不是原生四核。 不過就是因為不是原生四核,所以四核需要的是兩個小 die 不是一個大 die , die 的成本和面積平方成正比,拆開來作就便宜多了。 再加上非原生四核的缺點主要是差在 core-to-core 的溝通上面。 不過一來是實際使用平行程式的使用者不多,未必感受得到差異。 二來是,管理作得好一點,差別也沒有真的太多。 而可憐的 amd 因為沒有這種技術,所以硬要一次作四核, 在製造過程中要保證一整個大的 die 都是好的,成本就上去了。 賣得貴又跑得沒快多少,誰要跟你買。 XD 有人說 amd 搞三核心就是為了壓低售價,只壞掉一個核心的還是可以拿來賣。 不過我沒有去看過 spec ,不知道是不是真的這樣搞。 因為那麼產品連我的好奇心都沒挑起來。 : AMD最近完全是靠顯示卡在撐 : AMD(ATI)的顯示卡蠻威的 : 雖然我用INETL的四核 但我買AMD的顯示卡 : ATI的顯卡最近很威 具有高CP值與高畫質 把Geforce整個打趴了 事實上再過一陣子, amd 可能都還是得要靠 gpu 來撐。 依照目前 gpgpu (general purpose gpu)的發展來看, 獨佔鰲頭的應該是 nvidia 的 cuda 。 但是 cuda 架構有一個很大的缺陷,因為 cuda 在運算的時候, 資料和程式都必須要放在 gpu 的記憶體裡面,雖然 size 也是問題, 但不是最大的問題。最大的問題在於這些程式和資料, 必須要先從 main memory 搬到 gpu memory 上面。 而算完之後,還要從 gpu memory 再搬回 main memory 。 很多不是真的計算量很大的程式,搬的時間就比算的時間還久。 這種程式用 cuda 不會有加速的效果。 因此可能的方向應該是要讓 gpu 也可以存取 main memory 。 早先的 intel system 是把 memory controller 放在 north bridge 上面, 可行的作法是把 gpu 也放在 north bridge 上面。 以前內建顯卡有的就這樣做,然後扣掉一點 main memory 的大小。 如果這塊不是被「切出去」,而是共享。 那麼就可以讓 gpu 不用花額外的時間去「搬」資料。 但是 intel 不太可能讓 nvidia 染指自家的 north bridge , 不管是專利或是介面, nvidia 作為 intel 主要對手之一,合作是要很小心的。 而現在這個可能性又更小了,因為從 core i7 之後, memory controller 已經做在 cpu 裡面。 事實上先這樣做的是 amd ,但這只是設計的決策不同, intel cpu 現在才有這個需求,所以現在才作這種整合。 那麼 intel cpu 更不可能跟 nvidia gpu 做在一起。 所以 intel 只能期待自己的 gpgpu 可以跟上 nvidia 跟 ati 。 那東西的名字是 larrabee ,但現在看起來跟一般的 cpu 還差得遠。 (詳細的資料可以查 wikipedia 或 google 一下, 很有趣的是它是一個用 x86 instruction set 的 gpu) 而 amd 的好處是有了 ati 的技術,可以把 cpu/gpu 做在同一塊 die 上。 cpu 輸 intel 一點, gpu 跟 nvidia 不相上下或再好一點。 透過可以 share main memory ,省去資料搬移的時間, 會讓 gpgpu 的應用更有吸引力, overhead 變少, performance 就出來了。 相較於 nvidia 提出 cuda 的架構, amd/intel 之後應該會 follow OpenCL 的規範。 不過目前還不是很具體,但希望未來是有一個統一 cpu/gpu 的 programming model 。 也就是寫一份程式,自動會把工作分散到 cpu/gpu 讓它們協同工作, 以達到更好的效能。 至少在這一塊未來的發展上面, amd/ati 是很值得期待的, 現在就看看 intel 在 gpu/gpgpu 這一塊要拿出什麼來應對。 在 gpp (general purpose processor) 上面 intel 已經超強了, amd 快要不足以被當作對手。不過在 gpu/gpgpu 上面還很嫩。 amd 這塊如果能加緊腳步應該還滿有機會的,不過目前看起來有點.... 該怎麼說呢? 口號喊了一兩年,東西卻沒做出來半個,讓人滿擔心的。 (不過 intel 的 larrabee 也是喊了好一陣子,效能一直長不太出來。 XD 補一下好了,講錯就請糾正。這些東西在頭腦裡都揪成一沱了... -- 活著的目的是為主活 然後為主死 死亡的目的是為主死 然後為主活 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 60.248.178.71

07/31 02:20, , 1F
計組計結魂!!
07/31 02:20, 1F

07/31 02:21, , 2F
其實clock rate衝高系統反而容易掛 現在主戰場是分工合作
07/31 02:21, 2F
我不太確定你說的容易掛指的是哪個部份。如果單純是同一種架構, clock rate 高的確可能會因為 technology variation 造成訊號錯誤的情況。 降頻一下,等訊號穩定再讀就沒問題了。 :) 分工合作的部份我猜你是說用特殊的指令集或 function unit 來加速。 這部份也是做得.... 我個人覺得有點過火了 XD MMX/SSE/SSE2 之後來有一個什麼來著的... 忘了。 雖然都是 x86 ,但多出來的東西,舊的機器可是一概不支援的。

07/31 02:22, , 3F
太專業 看無
07/31 02:22, 3F

07/31 02:23, , 4F
原來clock rate跟pipeline有關聯.....................
07/31 02:23, 4F

07/31 02:23, , 5F
半吊子鄉民:你幹嘛講話不用中文好好講 要夾一堆英文?
07/31 02:23, 5F

07/31 02:24, , 6F
專業推
07/31 02:24, 6F

07/31 02:24, , 7F
8核心! INTEL:我多你八核心
07/31 02:24, 7F

07/31 02:24, , 8F
用中文講 五樓也是看不懂
07/31 02:24, 8F

07/31 02:24, , 9F
好我看懂一個 時脈 這樣可以了可以了吧
07/31 02:24, 9F

07/31 02:24, , 10F
他用的英文還可以啦,只是北橋用英文會比較好?
07/31 02:24, 10F
抱歉,也許用北橋講就好了。 :)

07/31 02:24, , 11F
推一下 這篇應該要給M
07/31 02:24, 11F

07/31 02:25, , 12F
你會不會太猛了啊??? 連GPU你都能投頭是道 拜服啊
07/31 02:25, 12F

07/31 02:25, , 13F
專業推
07/31 02:25, 13F

07/31 02:26, , 14F
推啊~接下來就是整合cpu和gpu在同一塊上了吧
07/31 02:26, 14F

07/31 02:26, , 15F
越跑越快越跑越吃電 以後玩遊戲耗電量跟煮火鍋一樣了
07/31 02:26, 15F
要記得買電扇...

07/31 02:27, , 16F
cpu整合gpu……有應用再說吧,m$不支援api的話,就沒用了
07/31 02:27, 16F
已經有應用了阿。可以到 nvidia 的網站上面找 CUDA 。 如果你有 8400 以上的板子就有支援,可以跑跑它的 demo 程式。 (當然要裝一些 nvidia 提供的軟體) 會比用 cpu 跑快非常非常多。 而且開發介面也可以跟 vs 整合在一起, m$ 沒道理去擋這東西, 對他們一點壞處也沒有。 :) ※ 編輯: sitos 來自: 60.248.178.71 (07/31 02:31)

07/31 02:27, , 17F
不太懂時脈跟管線深度有什麼關係 時脈不是震盪器給的嗎
07/31 02:27, 17F
時脈的極限是來自於一個邏輯電路的訊號多久穩定到可以被讀出來, 而訊號穩定取決於線路的長度還有一些設計相關的參數, 我不是做 EDA 的,所以細節不是非常清楚。 用一個過度簡化(不真實)的講法來講,假設你要做的事情有五件事, 每一件事要做一秒,你五件事永遠要一起做,你就是要花五秒才能做完一件事。 而且因為五件事都一定要一起做,所以同時也只能做其中的某一件。 如果你可以把五件事拆開給五個人做,每一個人做一件事,就只需要一秒。 第一個人做完,就把事情交接給第二個人,他又可以再去做另一件事。 而這時候,我們可以把交接想像成一個檢查點,也就是一個時脈週期。 所以,事情拆得越散,做完「一件」需要的時間就越短,時脈就可以越高。 大致上的概念是這樣子,實作上當然還有很多其它需要考量的問題。 英文用少一點會比較好嗎 :)

07/31 02:28, , 18F
底層達人出沒請小心
07/31 02:28, 18F

07/31 02:28, , 19F
八卦就是要有這種水準的文章才high啊~~~ XDDDDDDD
07/31 02:28, 19F

07/31 02:28, , 20F
4850的GPU已經夠拿來煮火鍋了...(X的,現在房間超熱的)
07/31 02:28, 20F

07/31 02:29, , 21F
看完了 還是看的懂耶 呵呵
07/31 02:29, 21F

07/31 02:29, , 22F
GPU->CPU山寨板 比CPU威 還可以煮火鍋
07/31 02:29, 22F

07/31 02:30, , 23F
22台i7+GTX275 開下去冷氣會滴水
07/31 02:30, 23F

07/31 02:30, , 24F
下次整篇英文才不會被酸
07/31 02:30, 24F

07/31 02:30, , 25F
I 怎麼都 watch 不懂...
07/31 02:30, 25F

07/31 02:30, , 26F
很多東西翻成中文反而會更不順
07/31 02:30, 26F

07/31 02:30, , 27F
07/31 02:30, 27F

07/31 02:30, , 28F
酸的人可以把這篇的英文都翻成中文試試看......
07/31 02:30, 28F

07/31 02:31, , 29F
白算盤
07/31 02:31, 29F

07/31 02:31, , 30F
GPU有自己的核心,記憶體跟板子,但是還不能宣佈獨立
07/31 02:31, 30F
※ 編輯: sitos 來自: 60.248.178.71 (07/31 02:35)

07/31 02:32, , 31F
推 autoupdate:用中文講 五樓也是看不懂
07/31 02:32, 31F

07/31 02:32, , 32F
只能推了 囧">
07/31 02:32, 32F

07/31 02:32, , 33F
趕快推 不然人家以為你看不懂!!!!!!!!!!!!!!!!!!!!
07/31 02:32, 33F
還有 386 則推文
還有 25 段內文
07/31 16:45, , 420F
幾乎是朝向把GPP+GPGPU的概念整合
07/31 16:45, 420F

07/31 17:15, , 421F
中英文夾雜 昏了
07/31 17:15, 421F

07/31 17:21, , 422F
推啊!
07/31 17:21, 422F

07/31 18:43, , 423F
一半一上看不懂...囧
07/31 18:43, 423F

07/31 18:43, , 424F
我對 CUDA 沒興趣,H.264 的實作殘廢又跛腳。
07/31 18:43, 424F

07/31 18:43, , 425F
以上
07/31 18:43, 425F

07/31 18:44, , 426F
這種中英夾雜是好的,看過全中文專利真的是會昏倒。
07/31 18:44, 426F

07/31 18:52, , 427F
一年沒碰書我竟然還看的懂 XD 資工魂~~
07/31 18:52, 427F

07/31 19:23, , 428F
好文!推一個
07/31 19:23, 428F

07/31 20:15, , 429F
縮短pipeline,增加 paralism數,目前看來這個策略是正確的
07/31 20:15, 429F

07/31 20:26, , 430F
GOOD
07/31 20:26, 430F

07/31 20:28, , 431F
資工的看不懂這篇該打屁股XD
07/31 20:28, 431F

07/31 21:39, , 432F
快推 不然別人說我看不懂
07/31 21:39, 432F

07/31 22:24, , 433F
今天買了245~
07/31 22:24, 433F

08/01 09:44, , 434F
太專業了~看不太懂~不過還是推
08/01 09:44, 434F

08/01 10:03, , 435F
推 DDR2:今天買了245~
08/01 10:03, 435F

08/01 11:45, , 436F
借轉
08/01 11:45, 436F
philipwen:轉錄至看板 PDA 08/01 11:46

08/01 12:01, , 437F
CELL的問題是tool chain和CUDA相比還是太不友善
08/01 12:01, 437F

08/01 12:02, , 438F
另外它裡面每個SPE裡面都有個別的DMU可以作data moving
08/01 12:02, 438F

08/01 12:03, , 439F
好處當然是彈性較高 但缺點是programmer必須很清楚CELL的架
08/01 12:03, 439F

08/01 12:03, , 440F
構才能做很好的performance tuning 而CUDA這部分已經幫你做
08/01 12:03, 440F

08/01 12:04, , 441F
掉了
08/01 12:04, 441F

08/01 13:20, , 442F
08/01 13:20, 442F

08/01 14:03, , 443F
根本就是 IBM 的人不會寫 library 才會這麼麻煩。
08/01 14:03, 443F

08/01 15:52, , 444F
太專業了,看不太懂。
08/01 15:52, 444F

08/01 17:02, , 445F
Cell的問題就是parallel programming對一般programmer來說
08/01 17:02, 445F

08/01 17:02, , 446F
都還只是剛起步而已 對稱架構的processor都搞不太定了
08/01 17:02, 446F

08/01 17:03, , 447F
還搞出以現在來看都還蠻前衛的multi-core processor XD
08/01 17:03, 447F

08/01 17:04, , 448F
然後當初IBM跟本等於沒寫library阿 XDD
08/01 17:04, 448F

08/01 17:07, , 449F
如果Cell是專用processor倒也還好
08/01 17:07, 449F

08/01 17:08, , 450F
問題是設計之初這應該是顆泛用的processor才對阿 (爆)
08/01 17:08, 450F

08/01 21:17, , 451F
原PO是強者計算機結構博士候選人! 太強了
08/01 21:17, 451F

08/01 22:13, , 452F
推 真的很棒 就是看這種文才會長知識 謝謝大大
08/01 22:13, 452F

08/02 01:01, , 453F
Cell你要用專用processor也可以 他那顆MPU是power pc 算夠力
08/02 01:01, 453F

08/02 01:02, , 454F
SPE和GPU的腳色依樣 本來就不是拿來作general processor
08/02 01:02, 454F

08/11 12:09, , 455F
太專業了,幫推
08/11 12:09, 455F

01/09 19:15, , 456F
看不懂
01/09 19:15, 456F

04/14 00:36, , 457F
看得懂給推!!! 非計組應該很難懂XD
04/14 00:36, 457F

07/18 10:03, , 458F
OBOV
07/18 10:03, 458F
文章代碼(AID): #1ASUGtSV (Gossiping)
文章代碼(AID): #1ASUGtSV (Gossiping)