19. International Supercomputer Conference 2004 in Heidelberg
Im Gegensatz zu früheren ISC-Veranstaltungen war auf dem diesjährigen europäischen Part der Konferenz in Deutschland exorbitant Neues nicht zu vermelden. Traditionsgemäß findet Teil Zwei im November in den USA - 2004 in Pittsburgh - statt. Internationale Sponsoren (18), darunter dieses Jahr Chip-Designer AMD als Main-Sponsor, die Zahl der Aussteller (49) sowie 438 Konferenzteilnehmer aus 24 Ländern unterstreichen die hohe Wertschätzung für das exzellente Niveau der Konferenz. In den letzten zwei Jahren diskutierte Trends hinterließen deutliche Spuren in der parallel zum Kongress veröffentlichten 23. Top 500-Liste der weltweit schnellsten Supercomputer. Diesmal bestimmten eher auch Themen wie Konsolidierung und Reifeprozesse die Diskussion der Experten. Doch sollen sich für das kommende Jahr bereits erhebliche Änderungen abzeichnen.
Supercomputer-Rechnen in Deutschland: Hier ist ein mit 1.024 AMD Opteron-Chips in einer Blade-Architektur konfiguriertes Cluster mit 2,083 TeraFlops (TF - Billionen = 10 hoch 15 Operationen/s) das fünftschnellste System. Es erreicht auf der Rangliste der Top 500 Supercomputer Platz 74, direkt hinter einer beim Deutschen Wetterdienst in Hamburg installierten IBM SP-Maschine auf Basis von Power3-Prozessoren mit 2,106 TF. Das auf ALICEnext (Advanced Linux Cluster Engine, next Generation) getaufte System wurde - zeitgleich mit der Veröffentlichung des neuen Top 500-Rankings - an der Bergischen Universität in Wuppertal installiert. Den ersten Platz aber nehme es im akademischen Vergleich nicht nur der deutschen, sondern auch der europäischen Universitäten ein, verkündet eine hauseigene Meldung.
Diese Position könnte allerdings spätestens ab Anfang 2006 obsolet werden. Dann wird ein von Hewlett-Packard zusammen mit Intel am Scientific Supercomputing Center (SSC) des Rechenzentrums der TU Karlsruhe gebautes Itanium 2-Cluster diese Position für sich in Anspruch nehmen. Es geht mit dann insgesamt 1.200 Prozessoren in 340 Knoten, 7,2 Tera-Bytes (TB) Hauptspeicher auf einem speziell für große Linux-Cluster konzipierten Lustre Shared-File-System - Endausbau 30 TB - so richtig zur Sache und soll elf TF Leistung erbringen. Nach heutiger Lesart würde dies Rang Fünf der aktuellen Top 500-Liste bedeuten. Noch aber hält darin auf Platz 21 ein IBM Regatta-System am Forschungszentrum Jülich durch 5,568 TF die deutsche Position Eins.
Mit diesem Beispiel sollen nicht unbedingt deutsche Installationen besonderes heraus gehoben werden. An ihm lassen sich jedoch einige der richtungs-bestimmenden Trends der Branche gut exemplifizieren. Längst kann gelten, dass Supercomputing als standardmäßiges Werkzeug praktisch die dritte Dimension neben Theorie und der Simulation in F&E (Forschung und Entwicklung) bildet. In Deutschland sind hier dabei aber eher negative Trends fest zu stellen: Die Zahl installierter Supercomputer nimmt ab und die Distanz in der Leistungsqualifikation im Vergleich mit anderen Ländern vergrößert sich, bedauerte der ISC-Präsident Professor Hans Meuer aus Mannheim. Dazu passt, dass Großbritannien mit 36 Supercomputer-Installationen inzwischen Deutschland mit 34 Stück überholt hat.
HPC: Business-Lösungen und (offene) Software-Fragen
High Performance Computing (HPC) ist aber nicht nur gleich zu setzen mit Hardware, auch wenn insgesamt der Leistungshunger in akademischen und industriellen F&E-Einrichtungen nach wie vor ungestillt ist. Die bisher überwiegend hier im technischen Bereich eingesetzten HPC-Systeme wandern jedoch auch mehr und mehr in den kommerziellen Bereich, speziell den Finanz-Sektor ein. So diskutierte Technik-Prominenz aus dem Haus der Walldorfer SAP auf einem vorderen Platz der Konferenz-Agenda die Frage SAP Business Solutions and Supercomputing - Vision or Reality? Die Antwort ergab, kaum anders zu erwarten: Auch ERP-Systeme müssen sich künftig mit HPC-Anforderungen auseinander setzen. Ebenfalls steht ein weiterer Software-Fakt fest: Unangefochten ist Linux inzwischen tonangebend das Supercomputer-(Cluster-)Betriebssystem - mit weiter steigender Bedeutung.
Die Tendenz - und gleichzeitig eine Problematik - der vielfachen Leistungssteigerung markierte einer der momentan wohl bedeutendsten IT-Architekten: Steve Wallach, heute Cheftechniker von Chiaro Networks, einem jüngst gegründeten Hersteller von Hochleistungs-Routern und einst Mitgründer/Leiter Entwicklung der Convex Computer Corporation, macht sich in seiner ISC-Keynote The Search for the Softron - Will be able to develop Software for Petaflop/s Computing? auf die Suche nach neuen Prinzipien der künftigen Software-Entwicklung. Hier werde immer noch gearbeitet wie vor 20 Jahren. Daher fordert er unter Softron, einem Spaßnamen, Ingenieursdisziplin mit physikalischen Gesetzen und mathematische Gleichungen Vergleichbarem in die Software-Erstellung einzuführen. Nur so sei, auf PetaFlop/s als Sprung um drei Zehnerpotenzen auf Billiarden Operationen pro Sekunde hin bezogen, diese Spitzenmarke computer-technisch realisierbar.
Ebenfalls eine Software-Debatte, wurde in Heidelberg kontrovers über die aktuellen versus mögliche neue und/oder andere Methoden der Messung der Performance-Boliden diskutiert. Dutzende dieser Programme dafür wurden meist im akademischen Umfeld entwickelt. Doch alle kranken am gleichen, grundlegenden Problem: Sie messen kaum mehr als nur einen Aspekt der Computer-Performance - und je nach Prozessortyp - diese auch noch unkorrekt. Allerdings lassen sich - was durchaus praktiziert wird - Messergebnisse ganz speziell auf hohe Peak-Leistungen tunen, indem die Systeme entsprechend optimiert werden.
Doch auch ohne Manipulationen dieser Art driften die Werte einer theoretisch erreichbaren Maximalleistung und die tatsächlich in einer Applikation realisierbaren Messdaten auseinander. Dies liegt einfach in der Natur der Sache, wenn - zur allgemeinen Vergleichbarkeit - Systeme über einen Linpack-Kamm geschoren werden. Anwendern bietet dies freilich wenig verlässliche Daten für die Wahl eines Supercomputers mit zur Bearbeitung definierter Problemstellungen spezifisch geeigneter Architektur. Eine exakte Analyse sollte eben diese unterschiedlichen HPC-Architekturen und auch die daraus resultierenden weder von Nutzer- noch unter Anwendungsaspekten gleichartigen Leistungsanforderungen berücksichtigen. So äußern sich Anbieter wie Intel und AMD hoch zufrieden über Messergebnisse, Hersteller wie Cray und auch IBM melden aber Bedenken an.
Mit dem derzeit dominanten Linpack-Benchmark - einer Suite zur Bestimmung der Rate von Floating-Point Operationen pro Sekunde bei der Ausführung linearer Gleichungen - lassen sich kaum alle Aspekte divergierender applikationsnaher Verarbeitungsleistungen gleichgewichtig erfassen. Doch ein Argument verschafft Linpack einen fast uneinholbaren Vorsprung, argumentiert Erich Strohmaier, Mitautor der Top 500-Liste und Supercomputer-Experte am Lawrence National Livermore Laboratory (LNLL) in Berkeley. Er brachte 2000, gefolgt 2003 vom Co-Autor der Top 500-Liste Jack Dongarra, bereits Ergänzungen zu Linpack in die Test-Suite ein. Wir haben mit den Benchmarks Daten gesammelt über mehr als 30 Jahre und haben sie damit praktisch zu allen jemals gebauten Rechnern vorliegen, weist er auf die Kontinuität der Messreihen hin.
Serienweise Highlights
Doch nun zurück zu harten Fakten: Von der Diskussion - offensichtlich - unbeeindruckt schlagen sich die in der Liste geführten Systeme immer häufiger und schneller um. Das beste Indiz dafür ist die geradezu explosiv steigende Rate der für eine Aufnahme notwendigen Leistung im Eingangssegment: Sie schnellte über 54 Prozent über den Wert hoch, der noch vor sechs Monaten eine Notierung in der US-Novemberliste sicherte. So sind einmal mehr Superlative notwendig, um die dieses Jahr wieder erreichten Rekorde zu beschreiben: Um überhaupt einen der ersten zehn Plätze zu erreichen, war schon eine Linpack-Perfomance von über acht TF notwendig. Noch vor einem Jahr reichten dafür etwa vier TF aus. Auf einem mittleren Platz Sechs reihte sich hier, seit langem einmal wieder, ein in Europa genutztes System ein. IBM lieferte das mit 2.112 Power4+ CPUs einen Wert von 8,955 TF leistende p690-System an das in Großbritannien beheimatete European Centre for Medium Range Weather Forecast.
Richtig für Donnerhall sorgte aber das Thunder Cluster am LNLL mit 4.096 Intel-Chips der mit 1,4 GHz getakteten Intel Itanium 2 Tiger 4-Klasse (Code-Name: Madison). In nur fünf Monaten installiert, sprang es durch 19,94 TF unmittelbar auf Platz Zwei der Top 500-Liste. Der Chip-Krösus kann auch mit seinem sonstigen Abschneiden durchaus zufrieden sein: Auf vier der ersten zehn Ränge finden sich auf seinen Prozessoren basierende Cluster-Systeme, darunter als Direktlandung auf Platz Sieben ein Xeon-basierter Cluster von Fujitsu. In der aktuellen 23. Liste wurden insgesamt sogar sechs Top Ten-Ränge durch solche Systeme besetzt, die auf Anhieb in den Stand des Hochadels der Number Cruncher gelangten. Nur seinen Platz Eins dort verteidigte - noch einmal - im dritten Jahr der NEC Earth Simulator mit knapp 36 TF.
Für das LNLL sind zwei andere Überflieger konzipiert. Obwohl nur als Testsysteme bezeichnet, landeten IBM-Computer direkt auf Rang Vier (11,68 TF) und Acht (8,655 TF): erste Bestandteile des vom IT-Primus für die Protein-Forschung geplanten Blue Gene/L-Supercomputers. Mit seiner Fertigstellung könne er als sicherer Anwärter auf den Thron gelten und bereits nächstes Jahr den Earth Simulator ablösen, spekuliert Professor Meuer. Da diese Rennen jedoch oft genug dem Wettlauf von Hase und Igel ähneln, bleiben Überraschungen sicher nicht aus. 2004 zählte dazu der chinesische Dawning 4000A am Shanghai Supercomputer Centre, der - ebenfalls ein Durchstarter - direkt Platz Zehn besetzte. Es ist mit einem Wert von 8,061 TF das höchstrangige AMD-System: 2.560 Opteron-CPUs verhalfen ihm unter die Weltelite. Dawning überrundete auch nur ganz knapp das mit 8,05 TF auf Platz 11 positionierte, mit 2.816 AMD-Prozessoren der mit zwei GHz-getakteten Opteron-Reihe ausgerüstete Cluster am Los Alamos National Laboratory.
Menetekel neuer Trends
Gerade in diesen Verschiebungen auf den ersten Rängen zeichnet sich ein Paradigmenwechsel in der Supercomputer-Landschaft ab, der für manchen überraschend sein mag. Bestimmten bislang Standards und generell verfügbare Standardkomponenten die Konfiguration gerade beim stürmisch wachsenden Anteil der Cluster, so ist nun eine Rückkehr zu proprietären Lösungsansätzen unverkennbar. Dass dies nicht notwendig Vector-Computing heißen muss, mit dem noch 25 Systeme auf der Liste reüssieren, belegen die Blue Gene/L-Beispiele von IBM - und auch von Supercomputer-Pionier Cray. Noch haben Cluster-Supercomputer auf Basis von PC-CPUs in der Top 500-Liste aber - gegen 123 MPP-Computer (Massivly Parallel Processing) - mit 291 Systemen die deutliche Mehrheit. Insgesamt dürften weltweit sogar, nach aktuellen Schätzungen von IDC-Marktforschern, sogar 90 Prozent aller Cluster auf x86-kompatiblen 32- wie 64-Bit-Architekturen basieren.
Mit Chips aus seinem Fertigungsprogramm von - nach Intel-Angaben - 57 Prozent oder 286 Systemen aller in der Top 500-Liste geführten Cluster-Computer hat sich Intel hier innerhalb nur weniger Jahr an die Spitze katapultiert, darunter die bisher weniger erfolgreichen Itaniums. Sie schafften nun in der zweiten Generation einen signifikanten Sprung - von 2003 nur 19 unter 500 - auf jetzt immerhin 61 damit konfigurierte Systeme. Dem gegenüber nehmen sich die aktuell 34 Opteron-basierten 64-Bit Systeme bescheiden aus, auch wenn damit der AMD-Bestand eine Versiebenfachung erreichte, wie der Hersteller vermeldet.
Den Itanium-Prozessoren wird eine dramatische Steigerung zuteil, erwartet denn auch der Product Line Manager David C. Harper bei Intels EMP High Performance Computing: Der originäre 64-Bit Itanium wird erheblich schneller werden und entsprechend auch an Power zunehmen. Dies wird ihn zur Hochleistungs-CPU für HPC-Systeme prädestinieren. Die Itanium-Architektur wird deutliche Performance-Vorteile gegenüber Chips aufweisen, denen die 64-Bit-Funktionalität durch auf 32-Bit aufgesetzte Erweiterungen erst eingeimpft wurde, grenzt Intels HPC-Experte - auch gegen Architekturen der hauseigenen Reihen - ab.
Ein Ende des Prozesses - Einsatz von Standard-Komponenten - ist derzeit nicht abzusehen. Gleichwohl wird er aber von den neuen Entwicklungslinien nicht unberührt bleiben. Daher könnte sich möglicherweise der bisherige Höhenflug abschwächen. Denn nun sind vermehrt wieder Spezialtechniken im Kommen, genauer: Spezialtechnik, bei der durchaus aber auch Standardelemente Verwendung finden. Dafür ist die Architektur des IBM Blue Gene/L mit den Prototypen des herstellereigenen, mit 0,5 GHz getakteten PowerPC 440-Chips nur ein Hinweis. Auch der Auftritt der einstigen Supercomputer-Legende Cray weist in eine vergleichbare Richtung. Im O-Ton der Vizepräsidentin Marketing und Strategische Planung Lori C. Kaiser aus Seattle hörte sich dies so an: In einem Jahr ist bei Cray alles Linux, und in zwei Jahren läuft Linux auf allen anderen Maschinen. Damit ausgestattet wird Cray den aus der Übernahme der kanadische Octigabay Systems Corp., Vancouver, stammenden XD1 als interessantestes Angebot liefern.
Dass Cray dabei auf dem bescheiden als Entry-Level System - beginnend unter 100.000 Dollar - bezeichneten XD1-Computer derzeit vorrangig die Suse-Distribution nutzt, hat auch Novell-Gründe. Noch einmal dazu Lori Kaiser: Bei Novell finden wir ein fundamentales Verständnis für offene Systeme. Red Hat soll dennoch nicht grundsätzlich - trotz konkurrierender Entwicklung im Bereich Management-Software - ausgeschlossen bleiben.
Weitere Pfeile im Köcher und eigentlich neue Linien der Cray-Entwicklung finden sich in einem noch 2004 an die Sandia Laboratorien zu liefernden MPP-Systems: Sinnig als Red Storm benannt, soll das auf AMD Opterons basierende Cluster dann an die 40 TF leisten. Verknüpft sind die CPUs über ein 60 Nanosekunden schnelles und 100 TB/s Daten transportierendes Cray-Interconnect-System, eine Art Crossbar.
Single Systems Image, Job Scheduling und Accounting sowie eigenentwickelte Software für das System-Management sollen dem System echtes altes Supercomputer-Feeling verpassen. Hier denkt der Anbieter die Supercomputer-Welt in Zusammenarbeit mit dem Department of Energy's Oak Ridge National Laboratory (ORNL) bereits weiter: Ein 2006 bereits 100, möglicherweise 2007 auch schon 250 TF ereichendes System startet den Angriff auf die Grenze in den Petaflop-Bereich hinein. Bescheiden fällt da eine Bestellung des Höchstleistungs-Rechenzentrums der Universität Stuttgart (HLRS) aus: Wiederum Opteron-basiert sollen hier 128 Dual-Prozessorkerne als Leistungs-Lastesel fungieren und dort mit einem TF Leistung eine betagtere Cray T3E ablösen.
HPC-Impressionen
Der generelle Leistungssprung zeigt sich vielleicht eher noch an der von 130 auf 242 - und damit fast auf die Hälfte der gesamten Liste - gestiegenen Anzahl von Systemen, deren Leistung mit einem TF angegeben wird. Unterstrichen wird dies durch einen Blick auf den aktuellen Platz 500: Das hier platzierte IBM SP-System mit immer noch 624 GF/s Linkpack-Leistung stand vor sechs Monaten noch im Mittelfeld auf Platz 242. Die Autoren der Liste konstatieren hier denn auch ein rekordverdächtiges Ergebnis in der mittlerweile elf-jährigen Geschichte der Top 500-Liste. Wie nah die - beim Einzelsystem noch um Potenzen entfernte - Petaflop-Grenze generell gerückt scheint, suggeriert die Leistung der gesamten Top 500-Systeme: In der Addition 813 TF nähern sich diesem Level bereits an. In der Praxis wurde von der DARPA in Zusammenarbeit mit mehreren Anbietern bereits ein auf Petaflop-Computing zielendes Projekt angestoßen.
Doch ist die Supercomputerwelt immer noch - aus Sicht der beteiligten Prozessorfamilien - recht bunt. IBM ist mit seinen Power-Architekturen 72 Mal, HP als nächster Wettbewerber mit 57 Maschinen vertreten. Die ebenfalls heute zu HP gehörenden Alpha-basierten Rechner sind auf eine Zahl von 16 zurück gefallen und werden eher über kurz oder lang nicht mehr in der Liste erscheinen. Cray und NEC sind beide mit je neun Systemen aufgeführt, während ihr japanischer Mitbewerber Hitachi sechs Rechner aufweist. Mit je drei Konfigurationen haben es die MIPS-Grafikspezialisten und Sun Microsystems mit Sparc-CPUs noch unter die Top 500 geschafft.
Wenn Steve Wallach den japanischen Earth Simulator als Wake-up-Call für die amerikanische Computer-Industrie ironisierte - mit Reminiszenz an den Vorsprung des russischen Sputniks im Weltall - galt dies für einen eher als Randbemerkung gemeinten Nebensatz von ISC-Präsident Meuer nicht: Microsoft Windows basierende Server-Farmen machten erste Gehversuche im Supercomputing. Tatsächlich findet sich ein derartiges System am Research Center der Cornell University in Ithaka im amerikanischen Bundesstaat New York. Hier werkeln 64 mit je vier 500 MHz schnellen Pentium III bestückte Dell Power Edge-Server mit einem Speicher von vier GB RAM unter der Enterprise Edition aus Redmont. Mit 47 GF schaffte es das System - 2000 - auf Platz 381 der Top 500-Liste.
Links