效能實測,洋垃圾跑得贏最新家用處理器嗎?洋垃圾戰記(5)

ADVERTISEMENT

歲月不饒人,效能擂台不吃香

整體而言,Xeon E5-2650 v2無論在時脈、IPC(Instructions per cycle,每周期指令)、指令集相容性(僅支援AVX而不支援AVX2)都落後於這次參賽的其他處理器,可以預期在單核效能將敬陪末座。

不過這台洋垃圾透過雙路處理器的方式,拼湊出16個實體核心,則是參賽選手中最高的規格,所以多核心效能表現是否能逆轉勝,才是這場比賽的重點。

在測試項目的挑選上,筆者將專注於處理器的部分,而略過與顯示效能有關的測試,其原因除了可以預期洋垃圾的顯示效能真的跟垃圾一樣之外,在實際操作過程中它甚至無法執行Cinebench R15的OpenGL測試。話說回來看其他對手霸凌僅搭載32MB顯示記憶體的Matrox G200eh顯示卡,好像也沒什麼意義。

效能擂台的精彩賽況,就請各位看倌拖板凳、拿雞排,慢慢觀賞下列的圖表與賽評。

Matrox G200eh顯示卡連Cinebench R15的OpenGL測試都無法正常執行,大家就饒過它吧。

在熱身賽部分,先拿舊版Cinebench R15小試一下2路Xeon E5-2650 v2與Xeon E3-1231 v3,可以看到彼此因架構與時脈差距,造成Xeon E3-1231 v3單核心效能領先65.91%,而多核心部分則由具有4倍實體核心數量的2路Xeon E5-2650 v2領先186.47%,打不贏就用圍毆的就對啦!

Cinebench R23有趣的部分是能直接與Arm架構的Apple M1進行效能比較。參考Anandtech測試結果, M1的單核心效能為1522分,遠高於這2顆x86老將,4大+4小核心的效能為7833分,16個實體核心的2路Xeon E5-2650 v2一樣透過圍毆的方式獲勝。(謎之音:有種來比一下電力效率或裸晶面積效率啊,這是核動力航空母艦戰鬥群 V.S. 舢舨的戰爭啊XD)

▲透過實際操作錄影可以看到其實2路Xeon E5-2650 v2的實力並沒有完全發揮出來,在第2顆處理器的執行緒占用率只有50%左右,導致多核心效能無法完全發揮。

回到正歸賽場,2路Xeon E5-2650 v2以16核32緒的陣仗差不多能與6核12緒的Ryzen 5 5600X打成平手,可以看到這7年來x86處理器效能還是有長足進步。

POV-Ray光線追蹤效能測試的趨勢與前者相同,也能看到在單核心的成績部分,Ryzen 5 5600X的表現大約是Xeon E5-2650 v2的3倍。

2路Xeon E5-2650 v2在X264與X265轉檔測試中吃足了虧,表現甚至沒有超過Xeon E3-1231 v3的1倍。

細查其原因,可以發現測試工具並無對2路處理器最佳化,因此只能用到1組NUMA節點(後詳),造成只使用其中1個處理器而導致效能低落。

SiSoftware Sandra多媒體處理器測試包含多種字串、整數、長整數、i128以及半精度、單精度、雙精度、四精度、浮點數等資料型態的運算,能夠反映處理器的多媒體效能,2路Xeon E5-2650 v2大約緊能追平Zen 2架構的Ryzen R5 3600X。

洋垃圾戰記(5):效能實測,洋垃圾跑得贏最新家用處理器嗎?

洋垃圾戰記(5):效能實測,洋垃圾跑得贏最新家用處理器嗎?

科學分析測試會執行許多常見的科學相關演算法,或許是透過指令集加速的空間比較小,所以2路Xeon E5-2650 v2有機會亂拳打死老師傅,在這個項目拔得頭籌。

影響處理測試則會使用卷積模糊/銳化、邊緣檢測、降噪、油畫/擴散/大理石紋特效等負載衡量效能,最新的Core i9-10900K或是Ryzen 5 5600X、Ryzen 9 5900X都能輕鬆取勝。

多內核效率是考驗處理器核心之間資料傳輸的效能,成績深受共享L2、L3等快取記得憶體影響。2路Xeon E5-2650 v2透過20MB+20MB L3快取記得憶體取得不少優勢。

整體處理器得分為各測試的幾何平均數,沒想到2路Xeon E5-2650 v2居然能追平Core i9-10900K與Ryzen 5 5600X,雖然沒有什麼實際參考價值,但也只能說「老歸老,拿來跑分還真有效」(感冒藥廣告詞聲調!?)。

最後看看記憶體頻寬,2路Xeon E5-2650 v2透過SiSoftware Sandra Memory測試量測的頻寬為52.25GB/s,已經超越4通道DDR3-1066的理論值(8533MB/s x 4 = 33.33GB/s),推測是測試軟體同時向2組NUMA節點傳送資料,所以吞吐量為2組4通道記憶體的總合。補充說明一下,Core i9-10900K測試平台使用雙通道DDR4-2400記憶體配置,但因不明原因效能表現甚至比Xeon E3-1231 v3的雙通道DDR3-1600差。而其餘4組Ryzen測試平台都是使用雙通道DDR4-4000配置。

不過在記憶體延遲的測試方面,2路Xeon E5-2650 v2的表現就不是那麼好了。

筆者再透過AIDA64驗證2路Xeon E5-2650 v2的記憶體頻寬得到差不多的數據。假設測得的數據為2組4通道記憶體吞吐量的總合,那將成績除以2之後,也有將近30.09~32.23GB/s的頻寬表現,有正常發揮4通道的優勢。AIDA64測得的記憶體延遲則為87ns。

爬文之後發現我的推測果然沒錯,AIDA64開發者在官方論壇中說明,多路處理器確實會讓測試成績倍增,所以2路處理器搭配4通道記憶體,能夠發揮等效8通道的成績,但這成績並無法真實反映實際運作中的記憶體頻寬。

補充資料:NUMA(Non-Uniform Memory Access,非統一記憶體存取架構)節點
簡單地說,NUMA節點就是把SMP(Symmetric Multiprocessing,對稱多處理)的單元細切,每個節點有獨立的記憶體子系統。以本文的洋垃圾為例,單一處理器與其週邊的4組記憶體通道構成1個NUMA節點,而整台伺服器共有2個NUMA節點。
若系統存取的資料為於同一NUMA節點,那麼會因為節點中只有4通道記憶體,而不會有等效8通道的效能。
若存取的資料位於多個不同NUMA,則需要透過QPI等匯流排進行跨處理器資料傳輸,因此還要考慮傳輸耗損與QPI瓶頸,而不會是單純疊加,也無法發揮等效8通道的效能,因此上述記憶體測試成績只能說是「看爽的」,而無法真實反映實際運作情況。

做個簡單的總結,隨著IPC效能與時脈的提升,當代處理器單一核心的效能大約能達到Xeon E5-2650 v2的3倍,因此6核心的處理器就能超越2路Xeon E5-2650 v2共有16核心的表現,若考慮Ryzen R5 5600X的預設TDP只有65W,2路Xeon E5-2650 v2的總合高達190W,當代處理器電力效率也是大幅領先,可真是歲月不饒人,當年叱吒風雲的洋垃圾也要變成貨真價實的垃圾了。

而另一個有趣的題外話,則是可以從這個測試結果看出Intel祖傳工藝的進化,2013年推出的Xeon E5-2650 v2採用22nm節點製程,隨著Intel於2015年的Broadwell微架構進入14nm節點製程後,到2020年推出的Core i9-10900K都是採用「同款但不同師父」的14nm節點製程,隨著設計與電晶體結構的改善,仍能讓Core i9-10900K的單核心效能達到洋垃圾的3倍左右,可見不斷最佳化的祖傳工藝還是有所進步。不過認真地說,Intel在製程工藝上還是有所長進,雖有提升電晶體密度但沒有改變命名方式,所以有點吃了悶虧,詳細解說可以參考筆者先前撰寫的《 半導體製程怎麼命名比較好?Intel:遵照摩爾定律走就對了》一文。

在看完了可能具有一點娛樂性,但沒有什麼實質功用的效能測試後,可以發現洋垃圾雖然有著核心數的優勢,但在整體效能表現上並不吃香,於是筆者最後想到可以「揮霍」多核心數的使用情境……拿來跑Android模擬器。

 

繼續閱讀 – 退役伺服器處理器改造的家用主機,跑得動幾個Android模擬器?洋垃圾戰記(6)

回到全文目錄

使用 Facebook 留言

發表回應

謹慎發言,尊重彼此。按此展開留言規則