Die unglaubliche und weltweit ständig wachsende Fülle von Fachartikeln, Patenten und anderen Nachrichtenquellen (wie z.B. Blogs) ruft sozusagen nach einem automatischen Lesen und Auswerten. So enthält die Literaturreferenzdatenbank PubMed (
http://www.ncbi.nlm.nih.gov/pubmed/) derzeit mehr als 20 Millionen Einträge auf dem biologisch-pharmakologischen Gebiet. Hier stößt die menschliche Fähigkeit, sich einen schnellen Überblick zu verschaffen, an ihre Grenzen. Die Idee dieses Projektes ist, Verfahren zu entwickeln, das bestehende Wissen in unstrukturierten Quellen schnell und effizient für neue Fragestellungen nutzbar zu machen.
Die Herausforderung in diesem Projekt ist die volle Breite der Quellen-Formate: Texte und Bilder, Spalten und Bildunterschriften, Tabellen und Diagramme, Kolumnen und Blogs, die alle automatisch, aber mit Sinn und Fachverstand interpretiert werden sollen. Deshalb werden neue Methoden der rechnerunterstützten Informationsextraktion benötigt, um Wissenschaftlern relevante Information in kompakter und strukturierter Form zur Verfügung zu stellen, welches über reine Stichwortsuchen hinausgeht.
Beitrag der scapos AG:
Die Entwicklung von paralleler Software erfolgt heute hauptsächlich basierend auf dem MPI Standard, der 1994 etabliert wurde und seither die Entwicklung dominiert hat. Bei der Anpassung von paralleler Software an die aktuelle Hardwareentwicklung, die im Wesentlichen von höheren Core-Zahlen pro CPU und heterogenen Systemen dominiert wird, zeigen sich wesentliche Schwächen von MPI, die einer Skalierbarkeit von Anwendungen auf heterogenen Multicore-Systemen entgegen stehen. Verursacht durch die Hardware-Entwicklung und der Zielsetzung einer Skalierbarkeit zu immer höheren CPU-Zahlen ergeben sich neue Anforderungen an Programmiermodelle in Bezug auf ein flexibles Threadmodell, asynchrone Kommunikation sowie den Umgang mit Speichersubsystemen unterschiedlicher Bandbreite und Latenz. Diese auch als „Multicore Challenge“ betitelte Herausforderung an die Softwareindustrie stimuliert die Entwicklung neuer Programmiermodelle und Programmiersprachen und führt zu neuen Herausforderungen an die mathematische Modellierung, die Algorithmen sowie deren Umsetzung in Software.
Der PGAS (Partitioned Global Address Space) Ansatz bietet dem Entwickler dabei einen abstrakten gemeinsamen Adressraum, der die Programmierung erleichtert. Gleichzeitig bietet dieser Ansatz Datenlokalität, ein Thread-basiertes Programmiermodell und ein asynchrones Kommunikationsmodell. Ziel des GASPI Projektes ist es aus dem PGAS-API des Fraunhofer ITWM ein für die breite HPC-Community geeignetes Programmierwerkzeug zu entwickeln und durch die Definition eines Standards eine verlässliche Basis für zukünftige Entwicklungen zu schaffen. Weiterhin soll eine Implementierung des Standards als hochportable OpenSource-Bibliothek erfolgen. Der Standard wird auch Schnittstellen zur Performance Analyse definieren, wofür im Projekt Werkzeuge entwickelt werden. Die Evaluierung der Bibliotheken erfolgt durch die parallele Neuimplementierung industrieller Anwendungen bis zur Produktionsreife.
Beitrag der scapos AG: