Die Rockstars alleine machen nicht die Show

Die Rockstars alleine machen nicht die Show - Golem Karrierewelt

Der Rockstar alleine macht nicht die Show (hier: Keith Richards). (Bild: REUTERS/Robert Galbraith)

Von Mario Meir-Huber

Data Scientists gelten als Rockstars, der Job als Data Engineer ist eher unbeliebt - zu Unrecht.

Data Science wird oft als "sexiest Job of the 21st century" bezeichnet. Im Silicon Valley werden Data Scientists beinahe wie Rockstars behandelt: Sie werden von vielen Firmen gesucht, überdurchschnittlich gut bezahlt und mit enormen Boni ausgestattet. Ihre Gehälter sind so enorm wie das Selbstvertrauen der Bewerber. Kaum jemand fordert hierzulande unter 100.000 Euro Jahresgehalt, selbst wenn kaum bis gar keine Joberfahrung vorhanden ist - im Silicon Valley betragen die Gehaltsforderungen oftmals ein Vielfaches.

Data Engineers hingegen müssen sich tagtäglich mit Datenbanken, fehlerhaften Daten-Pipelines und Job-Abstürzen herumärgern. Für Quereinsteiger in die Datenthematik hört sich das vermutlich frustrierend an und man hat auch nicht so häufig Erfolgsgeschichten wie die Rockstars der Daten zu erzählen. Entsprechend entscheiden sich viele lieber für den Job als Data Scientist, wie ich auch als Hiring Manager immer wieder erlebe.

Doch ohne Data Engineers ist eine sinnvolle Auswertung und Aufbereitung von Daten nicht möglich. Ohne sie gibt es keine Show.

Eine Symbiose

Beide Berufsgruppen sind extrem begehrt, denn Daten sind so wertvoll, dass sie immer wieder als Öl der Digitalisierung bezeichnet werden, was manche sogar noch für untertrieben halten.

Obwohl beide Disziplinen sehr ähnlich sind, gibt es bedeutende Unterschiede. Zum Auswerten und Aufbereiten der Daten braucht man beide - eine Symbiose zwischen den Berufen, denn Data Engineers stellen die Daten für die Data Scientists bereit. Da die erste Aufgabe des Bereitstellens der Daten sehr arbeitsintensiv ist, ist es oftmals sogar ein 1:1-Verhältnis - man braucht also pro Data Scientist auch einen Data Engineer.

Data Scientists haben Erfolgsstorys

Im Umfeld von Data Science wird der eigentliche Mehrwert generiert: Algorithmen für Vorhersagen werden programmiert. Hierbei kann es sich um Nutzerverhalten, Kaufpräferenzen oder Optimierungen für Maschinen im IoT-Bereich handeln. Kurzum: alles, was Spaß macht und wovon man auf Meetups erzählen kann.

Der Mehrwert für das Unternehmen lässt sich genau nachweisen - etwa ein Upselling von Kunden (bedeutet, dass ein Kunden Zusatzprodukte gekauft haben) oder andere spannende Einblicke im IoT-Bereich (zum Beispiel: die Produktionskapazität wurde durch Data Science um 5 Prozent gesteigert).

Das wird auch finanziell belohnt, oftmals mit Aktienpaketen, die nach einer gewissen Zeit in den Besitz der Data Scientists übergehen. Im Silicon Valley hat sich daher bereits der Ausdruck "Rest and Vest" etabliert. Das bedeutet in etwa, dass man solange eine ruhige Kugel schiebt, bis man die Aktien erhält und dann zum nächsten Unternehmen weiterzieht.

Was Data Scientists können müssen

Data Scientists sind Personen mit starkem mathematischen und/oder statistischen Hintergrundwissen, oftmals mit Wissen über Softwareentwicklung kombiniert. Ferner sollten sie sich mit Deep Learning auskennen.

Dazu gibt es eine Vielzahl an Tools, welche eingesetzt werden. Alle diese Tools aufzuzählen würde hier den Rahmen sprengen. Die wichtigsten sind Jupyter als Notebook-Tool, PyCharms für die Python-Entwicklung oder R-Studio. Ebenso kommen verschiedene Visualisierungstools wie etwa MatPlotLib zum Einsatz.

Die Programmiersprache R war ursprünglich die beliebteste Programmiersprache der Data Scientists. In den letzten Jahren hat sich aber Python immer stärker durchgesetzt, was auch der Kollaboration mit den Data Engineers geschuldet ist. Wer Data Scientist werden will, kann das studieren: Entsprechende Studiengänge gibt es an etlichen Universitäten, auch in Deutschland.

Data Engineers: ein unterschätzter Beruf

Den Data Engineers geht es primär um die Bereitstellung und Aufbereitung der Daten. Hierbei ist die zentrale Fragestellung, wie Daten von einem datenproduzierenden in ein analytisches System kommen. Datenproduzierende Systeme sind typischerweise Frontend-Systeme wie CRM-Systeme oder auch Daten von einer Maschine.

Diese Systeme speichern nur den Ist-Zustand ab und kennen oftmals keine Historie. Daher extrahiert man die Daten vom Quellsystem und transformiert sie in ein Zielsystem. Dort werden sie häufig mit anderen Daten verschnitten, in andere Formate gebracht und im Anschluss gespeichert. Hierbei spricht man von der Datentransformation. Der gesamte Prozess wird als ETL bezeichnet: Extract, Transform und Load.

Arbeit hinter den Kulissen

Diese Aufgaben sind sehr technisch und passieren oft hinter den Kulissen. Data Scientists verwenden dann diese Daten und bauen darauf analytische Modelle und auch Visualisierungen. Von Geschäftsabteilungen im Unternehmen wird dann oftmals nur der letzte Prozessschritt wahrgenommen; was Data Engineers machen, wird als gegeben angenommen.

Tolle Geschichten lassen sich über diese Arbeit kaum erzählen, dafür ist sie durchaus nervig. Als Data Engineer sitzt man an den Systemen direkt dran und muss sicherstellen, dass sie funktionieren. Da Daten oft durch verteilte Systeme verarbeitet werden, sind Fehler vorprogrammiert. So muss ein Data Engineer sicherstellen, dass alle datenproduzierenden Systeme im Unternehmen diese auch fehlerfrei in die Datenverarbeitungssysteme transformieren. Datenqualitätsprobleme werden nicht selten auf die Data Engineers geschoben, da diese auch die Daten aus den produzierenden Systemen laden und im Nachgang transformieren.

Meist mangelt es daher an Data Engineers und so muss diese Aufgabe oftmals von den Data Scientists durchgeführt werden. Viele Data Scientists behaupten, dass 80 bis 90 Prozent ihrer Aufgabe das Aufbereiten der Daten sei, wohingegen ihre eigentliche Arbeit nur den Rest ausmache. Dabei sind sie als Mathematiker üblicherweise für die Aufbereitung der Daten viel weniger qualifiziert als Data Engineers.

Was man als Data Engineer können muss

Data Engineers haben oftmals eine IT-Ausbildung und kommen aus der Softwareentwicklung. Für die Entwicklung der Daten-Pipelines kommt meist Python oder Java zum Einsatz. Es gibt eine Vielzahl an Softwarelösungen, welche ein Data Engineer bedient. Meist jedoch sind es klassische RDBMS-Systeme (SQL-Datenbanken) und verteilte Systeme wie Hadoop oder Spark.

Je nach Stand der Cloudifizierung kommen dann die Datenplattformen der jeweiligen Cloud-Anbieter zum Einsatz. Die wichtigsten Cloud-Anbieter im Datenbereich sind Amazon Web Services, Microsoft und Google. Wichtig ist auch umfangreiches Wissen über Automatisierungstools und über Infrastruktur. Letztendlich sollte man für den Job gute Nerven mitbringen.

Karrieren im Datenbereich

Data Scientists arbeiten häufig in der jeweiligen Fachabteilung eines Unternehmens (etwa im Marketing oder in der Netzwerkplanung eines Telekommunikationsunternehmens), während die Data Engineers oft in den IT-Abteilungen arbeiten.

Als Data Scientist wird man innerhalb der Fachabteilung aufsteigen, während man sich als Data Engineer irgendwann zum Data Architect weiterentwickelt. Diese Rolle habe ich bis dato nicht beschrieben, da sie wesentlich seltener zu finden ist. Hierbei handelt es sich um eine sehr erfahrene Person, welche die komplexen Zusammenhänge der datenproduzierenden und -verarbeitenden System versteht. Als Data Architect ist sie meist den Fachabteilungen sehr viel näher als die Data Engineers.

Ferner kann man auch zwischen beiden Jobrollen wechseln, da es wechselseitige Vorteile bietet. Kennt ein Data Scientist beispielsweise die Tools und Arbeitsweisen aus dem Data Engineering, dann bringt das in der täglichen Arbeit wesentliche Vorteile. Durch besseres Wissen in beiden Domänen kann man die Daten besser aufbereiten. Zum Beispiel kann ein Data Engineer ein anderes, besser zu analysierendes Datenformat wählen, wenn über die zukünftige Verwendung der Daten mehr Klarheit besteht.

Was sagt der Jobmarkt?

Ich habe schon mehrere Bewerbungsrunden als Hiring Manager begleitet, war also derjenige, der Personen einstellt. Hierbei wurde sowohl Data Engineers als auch Data Scientists gesucht. Die Bewerbungsrunden waren unabhängig voneinander.

Bei den Bewerbungsrunden für die Data Scientists bekamen wir sehr viele und sehr interessante Bewerbungen. Die Rollen waren jeweils für Wien gesucht, also inklusive Umzug. BewerberInnen waren zahlenmäßig aus der Region am häufigsten, es gab aber auch einige aus der EU und den USA (sogar ein Data Scientist von Facebook war dabei). Wir hatten vier Positionen zu besetzen, wobei wir 15 BewerberInnen hatten - aus Unternehmenssicht eine sehr gute Ausgangslage.

Wir starteten eine Data Science Challenge, wobei die BewerberInnen einen uns sehr gut bekannten Datensatz analysieren mussten. So bekamen wir genauere Einblicke in die Fähigkeiten der jeweiligen Personen - sowohl für das Data-Science-Know-how als auch für die Zusammenarbeit mit uns. Danach hatten wir die Qual der Wahl aus vielen sehr guten BewerberInnen.

Data Engineers sind schwer zu finden

Anders sah es mit der anderen Jobrolle aus. Wann immer Data Engineers ausgeschrieben waren, so waren meist wenige bis gar keine BewerberInnen vorhanden. Meist mussten Headhunter engagiert werden. Kurioserweise waren einige Profile der Data Scientists relevant für die Data-Engineering-Positionen. Sie hatten sich dafür aber nicht beworben. Die BewerberInnen sagen dazu oft, dass sie Data Science als wesentlich attraktiver empfinden.

Diese Erfahrung spiegelt den Jobmarkt offenbar ganz gut wider, wie wir passenderweise mit ein paar Daten belegen wollen: Die Golem.de-Jobsuche liefert für Data Engineers derzeit 92 offene Positionen, für Data Scientists 123, also deutlich mehr.

Firmen suchen häufig lieber Data Scientists, obwohl sie eigentlich Data Engineers brauchen. Oftmals erzählen gut bezahlte Berater den Vorständen, dass man für die Digitalisierung Data Scientist brauche - dann werden diese Stellen genehmigt. Aber keiner erzählt etwas über die Data Engineers. Berater sind nicht für die operative Implementierung zuständig und transportieren daher nur die Informationen ans Management, welche gut zu verkaufen sind. Hierbei ist der Data Scientist in der öffentlichen Wahrnehmung besser gestellt, ein Data Engineer würde zu viel Erklärungsaufwand benötigen.

Wichtig ist bei den Zahlen aus der Golem.de-Jobsuche der Vergleich Angebot vs. Nachfrage. Es gibt wesentlich weniger Angebot an Data Engineers bei etwa gleich hoher Nachfrage. Geben wir "Data Scientist" bei LinkedIn ein und filtern für "Deutschland". Das Ergebnis: Rund 20.000 Personen tragen diese Jobbezeichnung. Bei "Data Engineer" sieht es anders aus: Nur 6.700 Personen nennen sich so. Das ist ein Verhältnis von beinahe 1:3, wohingegen beim Angebot das Verhältnis nur 1:1,33 ist.

Natürlich ist das eine sehr einfache Suche; es wurde nicht analysiert, ob tatsächlich alle 20.000 Profile Data Scientists sind. Eine weitere wichtige Metrik wäre die durchschnittliche Verweildauer in einem Unternehmen - je länger diese ist, desto schwieriger wird es, Leute abzuwerben.

Data Engineers werden sexy

Man kann jedoch konstatieren: Beide Jobs sind sehr attraktiv, die Karriere als Data Engineer ist aber einfacher - und unbeliebter. Wenn man Data Scientist als den "sexiest Job" des 21. Jahrhunderts bezeichnet, so ist Data Engineer der wohl am meisten unterschätzte Job des 21. Jahrhunderts.

Doch Data Scientists benötigen Data Engineers. Erstere sind ganz klar jene Rockstars, denen (derzeit) alle zujubeln. Data Engineers sind die Organisatoren im Hintergrund, die sich um die Bühnentechnik, den reibungslosen Ablauf der Show und die Sicherheit des Ganzen kümmern.

Der Beruf des Data Engineers wird aber auch losgelöst vom Data Scientist an Bedeutung gewinnen. Vieles im AI-Bereich wird durch immer umfangreichere Softwarebibliotheken automatisiert - und die Data Engineers sind die Automatisierer.

Dadurch wird sich mittel- bis langfristig das Kräfteverhältnis weiter zugunsten der Data Engineers verschieben. Viele Tätigkeiten, die heute noch von Data Scientists erledigt werden, könnten in absehbarer Zeit von AI Engineers erledigt werden - welche wiederum eher einen Hintergrund in der Softwareentwicklung haben.Mario Meir-Huber leitet die Datenabteilung bei dem Versicherungskonzern UNIQA. Neben seinem Job beschäftigt er sich schon viele Jahre mit dem Datenthema und ist ein Keynote-Speaker auf internationalen Veranstaltungen und Buchautor. Er ist über Linkedin oder Twitter zu finden und hat ein eigenes Blog über Daten.