Written by J. Moellenkamp
on January 12, 2007
Reading time: 3 minutes
English

Benchmarking ist Bullshit ... schon richtig ...

Ich nutze mein Blog mal als Erwiderung zu Benchmarking Bullshit: Zum Spamproblem, sag mir mal ungefaehr, wann du gepostet hast, dann guck ich mal ins Logfile. Akismet ist manchmal etwas rigoros. Ich ueberführ deinen Kommentar dann ins Blog. Zur Sache: Ja, die Konkurrenz kommt ein Jahr, nachdem wir die erste T2000 rausgebracht haben, so langsam ran …. ist ja auch zu erwarten. Deswegen steht ja auch Niagara II bevor. Was die Benutzung von fully buffered angeht: Sagen wirs mal so, ich gehe davon aus, das wir auf die Leistung gerechnet, weniger bis gleich viel verbrauchen werden. Wenn die Maschine doppelt so viel leistet, und doppelt so viel Strom verbraucht, dann bekomme ich aus einem bestimmten Quantum Energie trotzdem die gleiche Leistung. Ich kann zu den genaueren Parametern noch nicht viel öffentlich sagen, aber ich sehe auf der Basis der mir bekannten Dinge keinen Grund zu sagen, das mit fully buffered die Strategie aufgehoben wird. Nur so viel, Niagara2 ist kein Sprung um 10 oder 20 Prozent … das wird wesentlich mehr.

Benchmark fuer die PowerEdge 8-CoreMaschine findet sich hier
Der Strombedarf der bei T2000 angegeben ist, korrespondiert mit einer 32 GB Ausstattung. Die Vergleichssysteme sind sowohl bei der 8 Core Fusi als auch bei der 8 Core Dell Maschine jeweils 32 GB, wie man den entsprechenden Diclosures entnehmen kann.
Die Fusi-Maschine liegt in der Tat bei ueber 18000 SpecWebs. Die Dell Maschine liegt in der Tat auch ueber den SpecWeb angaben. Nur irgendwas stimmt hier nicht. Paul Murphy hat am 13 Dezember dazu treffend angemerkt:

The configuration issues aren't the only things that raise questions here. For example, the Sun machine recorded no validation errors versus 346 for the Dell (and 513 for the Fujitsu). More interestingly, the Sun machine's results are consistent across the three iterations allowed for each of the three benchmark components. On the banking test, for example, the Sun machine produced composite scores of 32157.5, 33290.2, and 33203.8 for a high - low difference of only 133 - 0.03%
In contrast both Xeon results, that for the Dell 2950 and that for the comparable Fujitsu, show enormous variation. Thus Dell's three banking runs produced scores of 40,333.6, 23,989.6, and 23,710.9 for a variation of 16,623 - 70% of the last two; Similarly, the eight core Fujitsu records scores of 68,659.4, 23,375.7, and 22,908.3 for a variation of 45,701 - very nearly twice the average (23,495) of all four low scores!

Mir ist es vollständig klar, das es irgendwann maschinen gibt, die im Benchmark schneller als eine T2000 sind, die Frage ist aber für welchen Einsatz von Energie und Geld. Insbesondere für den Geldeinsatz ist der oben angesprochene Kommentar von Paul eine sehr interessante Lektüre.

Was den Unterschied zwischen der Dell-Maschine und der HP-Maschine angeht (380G5), die trotz nominell ähnlicher Konfiguration erhebliche Unterschiede geben: Klar ist das möglich. Interessant ist, Banking und ecommerce sind identisch, nur bei der Supportanwendung faellt die HP-Maschine deutlich zurück. Da Support ein sehr I/O beziehungsweise netzwerklastiger Teil ist und keine SSL-Transaktionen beinhaltet, steht zu vermuten das der wegfallende nivelierende Faktor Prozessorleistung fuer die SSL-Verschluesselung den weg auf systemische oder konfigurationstechnische Probleme öffnet. Worauf ich aber eigentlich hinaus wollte mit dem Hinweis auf den Benchmark ist das Skalierungsproblem der Intelplattform. “Buy four cores, get performance of one” ist nicht wirklich berauschend. Benchmarks sind in der Tat so gut wie immer Bullshit, aber sie öffnen interessante Einblicke, wenn man sie miteinander in Verbindung setzt.

← → Top