[轉錄]Re: [問卦] 有沒有AMD的八卦

看板PDA作者 (匈牙利=Hungary)時間14年前 (2009/08/01 11:46), 編輯推噓2(200)
留言2則, 2人參與, 最新討論串1/2 (看更多)
※ [本文轉錄自 Gossiping 看板] 作者: sitos (麥子) 看板: Gossiping 標題: Re: [問卦] 有沒有AMD的八卦 時間: Fri Jul 31 02:19:33 2009 ※ 引述《SkyElder (不可有一絲惡念)》之銘言: : AMD最近真的是被打假的 多核心同時脈效能都輸30%左右 : 應該不是說最近 : 應該說兩年有了 : 更久以前AMD的同時脈效能是領先INTEL的 也就是說如果同樣是跑2G : AMD效能硬是比較快 所以他才出了一堆類似 型號是3500結果實際時脈只跑2.2G : 玩這種把戲 就是宣稱自己的2.2G可以跑得跟INTEL的3.5G一樣快 : 事實上是沒有一樣快 可是也差不多了 intel 在 p2~p4 的時期,應該都還算是在衝 clock rate , 要把 clock rate 衝上去的方法就是讓每一個 pipeline stage 更短, 當然相對地,做完一件事的時間需求一樣, pipeline 的深度就會變深。 透過這樣的方式,可以很漂亮地讓 clock rate 衝上去。 當時的市場看到 clock rate 就爽了,爽大家就買,效能進步其實未必很大。 pipeline 當然是增加 instruction level parallelism 的好方法, 至少課本都是這樣教的,適當地去切 pipeline 其實表現也都不錯。 不過 intel 把這個觀念玩到極致,或者說是有點過頭了。 一般課本會教的大概是 5~6 stage 的 pipeline , intel 切到後來大概切到 20~30 個 stage 。 如果程式的 instruction 之間真的都是 independent , 那麼 20~30 stage 的 pipeline 效能應該會還滿不錯的。 但是因為一些 data/control dependency , 導致前後的 instruction 其實要互等, pipeline 執行常常在 stall 。 切了一堆 stage ,但大家都在 idle ,對效能根本沒幫助。 更慘的是,這些在 idle 的 unit 還是很認真地在等工作, 所以繼續在耗電,這種爛方法搞到後來就是出現像 pentium D 這種, 又吃電又熱跑起來又不怎麼快的 cpu 。 intel 自己也知道這樣不行了, 因為這樣搞下去 power 都快要比 cpu 還要貴了。 所以才換個方向,走向 pipeline 比較不那麼深的設計方式。 早年 amd 用的策略就是跟 intel 不一樣,沒有強加 pipeline stage 。 所以才會有所謂「同時脈」比較快,但基本上同時脈沒什麼意義, 時脈本來就是看你在一個 cycle 要做多少事來決定的。 intel cpu 一個 cycle 做的事比較少,所以要用比較多的 cycle 才做完。 amd 則反過來。但基本上做完一件事所需要的時間差不了太多。 真正決勝的點還是每一個 function unit 本身的設計, 不過這些東西使用者是看不到的。 : CPU要快除了時脈以外 最重要的就是內部的構造與技術 時脈並不是關鍵 : 但近來INTEL出了新核心(從core 2技術開始) 用了新技術 把整個局勢扭轉過來了 : 也就是說 同時脈下 效能會贏AMD 30%左右 : 又 INTEL製程比較先進 比如INTEL 是45奈米但AMD只有65奈米 : 45奈米在相同時脈下 比65奈米省電1/3 當然溫度也低 : 速度也會增快(因為電路間隙縮短傳遞更快) 其實前陣子 core/core2 把 amd 搞得很慘的原因除了製程, 還有很重要的是 intel 有把兩個 die 放在同一個 package 裡面的能力。 也就是所謂的非原生雙核心/四核心。當出 amd 在廣告上面嗆 intel 不是原生四核。 不過就是因為不是原生四核,所以四核需要的是兩個小 die 不是一個大 die , die 的成本和面積平方成正比,拆開來作就便宜多了。 再加上非原生四核的缺點主要是差在 core-to-core 的溝通上面。 不過一來是實際使用平行程式的使用者不多,未必感受得到差異。 二來是,管理作得好一點,差別也沒有真的太多。 而可憐的 amd 因為沒有這種技術,所以硬要一次作四核, 在製造過程中要保證一整個大的 die 都是好的,成本就上去了。 賣得貴又跑得沒快多少,誰要跟你買。 XD 有人說 amd 搞三核心就是為了壓低售價,只壞掉一個核心的還是可以拿來賣。 不過我沒有去看過 spec ,不知道是不是真的這樣搞。 因為那麼產品連我的好奇心都沒挑起來。 : AMD最近完全是靠顯示卡在撐 : AMD(ATI)的顯示卡蠻威的 : 雖然我用INETL的四核 但我買AMD的顯示卡 : ATI的顯卡最近很威 具有高CP值與高畫質 把Geforce整個打趴了 事實上再過一陣子, amd 可能都還是得要靠 gpu 來撐。 依照目前 gpgpu (general purpose gpu)的發展來看, 獨佔鰲頭的應該是 nvidia 的 cuda 。 但是 cuda 架構有一個很大的缺陷,因為 cuda 在運算的時候, 資料和程式都必須要放在 gpu 的記憶體裡面,雖然 size 也是問題, 但不是最大的問題。最大的問題在於這些程式和資料, 必須要先從 main memory 搬到 gpu memory 上面。 而算完之後,還要從 gpu memory 再搬回 main memory 。 很多不是真的計算量很大的程式,搬的時間就比算的時間還久。 這種程式用 cuda 不會有加速的效果。 因此可能的方向應該是要讓 gpu 也可以存取 main memory 。 早先的 intel system 是把 memory controller 放在 north bridge 上面, 可行的作法是把 gpu 也放在 north bridge 上面。 以前內建顯卡有的就這樣做,然後扣掉一點 main memory 的大小。 如果這塊不是被「切出去」,而是共享。 那麼就可以讓 gpu 不用花額外的時間去「搬」資料。 但是 intel 不太可能讓 nvidia 染指自家的 north bridge , 不管是專利或是介面, nvidia 作為 intel 主要對手之一,合作是要很小心的。 而現在這個可能性又更小了,因為從 core i7 之後, memory controller 已經做在 cpu 裡面。 事實上先這樣做的是 amd ,但這只是設計的決策不同, intel cpu 現在才有這個需求,所以現在才作這種整合。 那麼 intel cpu 更不可能跟 nvidia gpu 做在一起。 所以 intel 只能期待自己的 gpgpu 可以跟上 nvidia 跟 ati 。 那東西的名字是 larrabee ,但現在看起來跟一般的 cpu 還差得遠。 (詳細的資料可以查 wikipedia 或 google 一下, 很有趣的是它是一個用 x86 instruction set 的 gpu) 而 amd 的好處是有了 ati 的技術,可以把 cpu/gpu 做在同一塊 die 上。 cpu 輸 intel 一點, gpu 跟 nvidia 不相上下或再好一點。 透過可以 share main memory ,省去資料搬移的時間, 會讓 gpgpu 的應用更有吸引力, overhead 變少, performance 就出來了。 相較於 nvidia 提出 cuda 的架構, amd/intel 之後應該會 follow OpenCL 的規範。 不過目前還不是很具體,但希望未來是有一個統一 cpu/gpu 的 programming model 。 也就是寫一份程式,自動會把工作分散到 cpu/gpu 讓它們協同工作, 以達到更好的效能。 至少在這一塊未來的發展上面, amd/ati 是很值得期待的, 現在就看看 intel 在 gpu/gpgpu 這一塊要拿出什麼來應對。 在 gpp (general purpose processor) 上面 intel 已經超強了, amd 快要不足以被當作對手。不過在 gpu/gpgpu 上面還很嫩。 amd 這塊如果能加緊腳步應該還滿有機會的,不過目前看起來有點.... 該怎麼說呢? 口號喊了一兩年,東西卻沒做出來半個,讓人滿擔心的。 (不過 intel 的 larrabee 也是喊了好一陣子,效能一直長不太出來。 XD 補一下好了,講錯就請糾正。這些東西在頭腦裡都揪成一沱了... -- 活著的目的是為主活 然後為主死 死亡的目的是為主死 然後為主活 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 60.248.178.71

07/31 02:20,
計組計結魂!!
07/31 02:20

07/31 02:21,
其實clock rate衝高系統反而容易掛 現在主戰場是分工合作
07/31 02:21
我不太確定你說的容易掛指的是哪個部份。如果單純是同一種架構, clock rate 高的確可能會因為 technology variation 造成訊號錯誤的情況。 降頻一下,等訊號穩定再讀就沒問題了。 :) 分工合作的部份我猜你是說用特殊的指令集或 function unit 來加速。 這部份也是做得.... 我個人覺得有點過火了 XD MMX/SSE/SSE2 之後來有一個什麼來著的... 忘了。 雖然都是 x86 ,但多出來的東西,舊的機器可是一概不支援的。

07/31 02:22,
太專業 看無
07/31 02:22

07/31 02:23,
原來clock rate跟pipeline有關聯.....................
07/31 02:23

07/31 02:23,
半吊子鄉民:你幹嘛講話不用中文好好講 要夾一堆英文?
07/31 02:23

07/31 02:24,
專業推
07/31 02:24

07/31 02:24,
8核心! INTEL:我多你八核心
07/31 02:24

07/31 02:24,
用中文講 五樓也是看不懂
07/31 02:24

07/31 02:24,
好我看懂一個 時脈 這樣可以了可以了吧
07/31 02:24

07/31 02:24,
他用的英文還可以啦,只是北橋用英文會比較好?
07/31 02:24
抱歉,也許用北橋講就好了。 :)

07/31 02:24,
推一下 這篇應該要給M
07/31 02:24

07/31 02:25,
你會不會太猛了啊??? 連GPU你都能投頭是道 拜服啊
07/31 02:25

07/31 02:25,
專業推
07/31 02:25

07/31 02:26,
推啊~接下來就是整合cpu和gpu在同一塊上了吧
07/31 02:26

07/31 02:26,
越跑越快越跑越吃電 以後玩遊戲耗電量跟煮火鍋一樣了
07/31 02:26
要記得買電扇...

07/31 02:27,
cpu整合gpu……有應用再說吧,m$不支援api的話,就沒用了
07/31 02:27
已經有應用了阿。可以到 nvidia 的網站上面找 CUDA 。 如果你有 8400 以上的板子就有支援,可以跑跑它的 demo 程式。 (當然要裝一些 nvidia 提供的軟體) 會比用 cpu 跑快非常非常多。 而且開發介面也可以跟 vs 整合在一起, m$ 沒道理去擋這東西, 對他們一點壞處也沒有。 :) ※ 編輯: sitos 來自: 60.248.178.71 (07/31 02:31)

07/31 02:27,
不太懂時脈跟管線深度有什麼關係 時脈不是震盪器給的嗎
07/31 02:27
時脈的極限是來自於一個邏輯電路的訊號多久穩定到可以被讀出來, 而訊號穩定取決於線路的長度還有一些設計相關的參數, 我不是做 EDA 的,所以細節不是非常清楚。 用一個過度簡化(不真實)的講法來講,假設你要做的事情有五件事, 每一件事要做一秒,你五件事永遠要一起做,你就是要花五秒才能做完一件事。 而且因為五件事都一定要一起做,所以同時也只能做其中的某一件。 如果你可以把五件事拆開給五個人做,每一個人做一件事,就只需要一秒。 第一個人做完,就把事情交接給第二個人,他又可以再去做另一件事。 而這時候,我們可以把交接想像成一個檢查點,也就是一個時脈週期。 所以,事情拆得越散,做完「一件」需要的時間就越短,時脈就可以越高。 大致上的概念是這樣子,實作上當然還有很多其它需要考量的問題。 英文用少一點會比較好嗎 :)

07/31 02:28,
底層達人出沒請小心
07/31 02:28

07/31 02:28,
八卦就是要有這種水準的文章才high啊~~~ XDDDDDDD
07/31 02:28

07/31 02:28,
4850的GPU已經夠拿來煮火鍋了...(X的,現在房間超熱的)
07/31 02:28

07/31 02:29,
看完了 還是看的懂耶 呵呵
07/31 02:29

07/31 02:29,
GPU->CPU山寨板 比CPU威 還可以煮火鍋
07/31 02:29

07/31 02:30,
22台i7+GTX275 開下去冷氣會滴水
07/31 02:30

07/31 02:30,
下次整篇英文才不會被酸
07/31 02:30

07/31 02:30,
I 怎麼都 watch 不懂...
07/31 02:30

07/31 02:30,
很多東西翻成中文反而會更不順
07/31 02:30

07/31 02:30,
07/31 02:30

07/31 02:30,
酸的人可以把這篇的英文都翻成中文試試看......
07/31 02:30

07/31 02:31,
白算盤
07/31 02:31

07/31 02:31,
GPU有自己的核心,記憶體跟板子,但是還不能宣佈獨立
07/31 02:31
※ 編輯: sitos 來自: 60.248.178.71 (07/31 02:35)

07/31 02:32,
推 autoupdate:用中文講 五樓也是看不懂
07/31 02:32

07/31 02:32,
只能推了 囧">
07/31 02:32

07/31 02:32,
趕快推 不然人家以為你看不懂!!!!!!!!!!!!!!!!!!!!
07/31 02:32
還有 368 則推文
還有 23 段內文
07/31 13:07,
雖然不是看不懂,但是真的沒必要打一堆英文衝專業度
07/31 13:07

07/31 13:08,
打英文又不會比打中文快速,何必呢?
07/31 13:08
因為平常在打跟計算機結構相關的東西的時候,已經很少用中文在打了。 而且腦袋裡面第一時間浮現出來的也是英文的名詞,不是中文的名詞。 要轉成中文還需要花一點時間去想,才知道對應的詞是什麼。 其實這裡面寫的東西也沒多專業,用英文單純只是貪個方便而已。 看大家覺得這麼痛苦,下一次中英文都標出來好了。

07/31 13:14,
計組魂啦!!
07/31 13:14

07/31 13:38,
快推~不然別人以為我們看不懂~
07/31 13:38

07/31 13:55,
07/31 13:55
※ 編輯: sitos 來自: 140.112.31.132 (07/31 14:00)

07/31 14:55,
看不懂耶 囧rz
07/31 14:55

07/31 15:37,
反正沒錢預算不夠都用不到 $$$$$$$$$$$$$$$$$$$$$$$$$$$$
07/31 15:37

07/31 15:48,
我個人會賭OpenCL, 不想試cuda..不過M$不想加入OpenCL..
07/31 15:48

07/31 16:22,
老實說我看不懂..
07/31 16:22

07/31 16:33,
clock rate一直都跟pipeline有關
07/31 16:33

07/31 16:34,
在northwood之後 prescott更是深化到40 (沒記錯的話)
07/31 16:34

07/31 16:35,
因為分支預測錯誤上升 在低時脈反而會在效能上有更大下降
07/31 16:35

07/31 16:36,
prescott在超過3.8G的效能可以狂電northwood
07/31 16:36

07/31 16:36,
問題卻又無法解決clock攀升後造成的問題(本文內有提到)
07/31 16:36

07/31 16:37,
更正 prescott pipeline 31 stages
07/31 16:37

07/31 16:43,
另外 在Processor部分各家都有爭論 但PC上用的GPP使用指令集
07/31 16:43

07/31 16:43,
目前是被過去給綁死了 包含設計概念
07/31 16:43

07/31 16:44,
Cell使用的PPE+SPE概念其實是一個相對前衛的processor
07/31 16:44

07/31 16:45,
幾乎是朝向把GPP+GPGPU的概念整合
07/31 16:45

07/31 17:15,
中英文夾雜 昏了
07/31 17:15

07/31 17:21,
推啊!
07/31 17:21

07/31 18:43,
一半一上看不懂...囧
07/31 18:43

07/31 18:43,
我對 CUDA 沒興趣,H.264 的實作殘廢又跛腳。
07/31 18:43

07/31 18:43,
以上
07/31 18:43

07/31 18:44,
這種中英夾雜是好的,看過全中文專利真的是會昏倒。
07/31 18:44

07/31 18:52,
一年沒碰書我竟然還看的懂 XD 資工魂~~
07/31 18:52

07/31 19:23,
好文!推一個
07/31 19:23

07/31 20:15,
縮短pipeline,增加 paralism數,目前看來這個策略是正確的
07/31 20:15

07/31 20:26,
GOOD
07/31 20:26

07/31 20:28,
資工的看不懂這篇該打屁股XD
07/31 20:28

07/31 21:39,
快推 不然別人說我看不懂
07/31 21:39

07/31 22:24,
今天買了245~
07/31 22:24

08/01 09:44,
太專業了~看不太懂~不過還是推
08/01 09:44

08/01 10:03,
推 DDR2:今天買了245~
08/01 10:03

08/01 11:45,
借轉
08/01 11:45
-- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.228.171.251

08/01 12:34, , 1F
太專業了
08/01 12:34, 1F

08/02 08:31, , 2F
專業文 推!!!
08/02 08:31, 2F
文章代碼(AID): #1ASxfzKX (PDA)
文章代碼(AID): #1ASxfzKX (PDA)