Data Science: Informationen aus Daten fischen

Data Science: Informationen aus Daten fischen | Golem Karrierewelt

Wissen aus Daten zu extrahieren steht immer mehr im Fokus. Dabei wurde vor 20 Jahren noch diskutiert, was Data Science eigentlich ausmacht.

Nach modernem Verständnis ist Data Science ein interdisziplinäres Wissenschaftsfeld. Statistik, Mathematik und Informationstechnologie werden verwendet, um mit wissenschaftlichen Methoden anhand von Prozessen und Systemen aus Daten Wissen zu gewinnen. Mithilfe von Wahrscheinlichkeitsmodellen aus dem Machine Learning (ML), aber auch mit statistischem Lernen, der Mustererkennung und der Prognostik werden Systeme programmiert, die aus strukturierten oder unstrukturierten Datenmengen Erkenntnisse, Muster und Schlüsse extrahieren. Und auch wenn Data Science sich ziemlich gut als Datenwissenschaft übersetzen ließe, findet das deutsche Wort kaum Anwendung.

Wichtig ist auch, dass bei der Data Science die Betonung auf Science liegt. Viele sehen zuerst nur Data, und daher gleich die praktische Anwendung der Wissenschaft im Vordergrund. Jeff Leek, Data Scientist und Professor an der Johns Hopkins Bloomberg School of Public Health in Baltimore versuchte, diese einseitige Fokussierung in seinem Beitrag  Das Schlüsselwort in Data Science ist nicht Data, es ist Science zu bremsen. Der “Hype um die Größe der gesammelten Daten –  relativ oder absolut – wird in die zweite Kategorie von Hype eingespeist – Hype um Tools. Die Leute warfen (Begriffe wie) EC2, Hadoop und Pig herum und führten riesige Debatten über Python gegen R”, schreibt Leek darin.

Doch Streit um Namen und Definitionen, das ist nichts Neues. Nicht in der Data Science, aber auch nicht in der Informatik. Die Begriffsfindung und Festlegung, was sich dahinter verbirgt, läuft selten geradlinig ab.

 “Wichtig ist auch, dass bei der Data Science die Betonung auf Science liegt.”

Historisches rund um Data Science

Das, was man heute unter Data Science versteht, begann vor mehr als 50 Jahren. Der Statistiker John Turkey, bekannt für den Fast-Fourier-Transformationsalgorithmus, beschrieb 1962 die Anfänge der modernen Data Science, damals allerdings unter dem Begriff Data Analysis. Der Begriff Data Science hingegen war zu der Zeit auch schon belegt: Der Däne Peter Naur, Mitnamensgeber für die Backus-Naur-Form (BNF-Notation), hatte 1960 Date Science als Ersatz für den Begriff Computer Science vorgeschlagen. Vielleicht auch, weil Computer Science als Begriff unter anderem angefangen hatte, bei der Transformation in verschiedene Sprachen unterschiedliche Wege einzuschlagen, so auch im Deutschen. Die Computer Science ist im Deutschen die Informatik, genauso wie es im Französischen die “L’informatique” ist. Im englischsprachigen Raum dagegen gibt es auch die sogenannten Informatics. Dahinter verbirgt sich eine Ausrichtung auf das Umfeld in den späteren Jobs. Informatics ist dabei allerdings ein echter Oberbegriff, der Spezialisierungen wie Wirtschaftsinformatik, Bioinformatik und Sportinformatik zusammenfasst.

Doch auch wenn Naur noch in der ersten Hälfte der 1980er-Jahre immer wieder gerne von Data Science sprach, entwickelte sich in der zweiten Hälfte des Jahrzehnts eine weitere Bedeutung für den Begriff Data Science. Chien-Fu Jeff Wu, der in den Jahren zuvor als Statistiker mit wichtigen Beiträgen zum Erwartungs-Maximierungs-Algorithmus bekannt wurde, schlug 1985 vor, die Statistik in Data Science umzubenennen, weil es ein viel treffenderer Begriff sei. Im Jahr 1998 schlug Hayashi Chikio vor, Data Science als interdisziplinäres Konzept rund um Datendesign, Datensammeln und Datenanalyse zu sehen, während die restliche Welt Begriffe wie Knowledge Discovery und Data Mining für das Fischen nach Informationen in Daten verwendete.

Moderne Data Science im 21. Jahrhundert

data science golem Akademie

Das moderne Verständnis von Data Science wurde 2001 von William S. Cleveland in seinem Paper Data Science: Ein Aktionsplan zur Erweiterung der technischen Gebiete des Bereichs Statistik im Wissenschaftsjournal The International Statistical Review veröffentlicht. Und dabei ist es bisher auch geblieben. Auch wenn manche den Begriff Data Science noch immer als Buzzword sehen, gibt es doch keinen besseren Begriff von der Wissenschaft hinter den Methoden, die sich um die Gewinnung von Daten dreht. Und so ist Data Science, auch wenn es noch immer keine feststehende, international allgemein akzeptierte Definition gibt, dennoch ein wichtiges Forschungsfeld, zu dem es mittlerweile bereits viele Studiengänge zum Bachelor oder Master, aber auch Doktoratsstudiengänge gibt.

 “Auch wenn Data Science noch als Buzzword gesehen wird ist es der beste Begriff um die Methode zu beschreiben.”

Der Beruf eines Data Scientists besteht darin, aus großen Datenmengen Informationen zu generieren, die zur Entscheidungsfindung in Unternehmen beitragen  – auf wissenschaftlich fundierten Wegen und statistisch geprüft. In Zeiten der immer weiter steigenden Datenmengen wird dies immer wichtiger, denn niemand kann ein solches Datenaufkommen in einem Excel-Sheet übersichtlich verwalten. Das Stichwort Big Data kommt dann doch wieder ins Spiel – denn auch wenn die wissenschaftliche Herangehensweise im Vordergrund steht, so sind es doch die Daten, mit  denen gearbeitet wird. Aus der wissenschaftlichen Herangehensweise aber wird daraus eben mehr als bloß raten und hoffen. Letzteres wäre auch kein gutes Prinzip für die Branche der datengetriebenen Unternehmen, die im Jahr 2020 immerhin einen kollektiven Wert von 1,2 Billionen Dollar hatten.

Data Scientists brechen Big Data auf verwendbare Informationen herunter, oft auch gleich visualisiert. Und wer sind diese Datenexperten? Sie sind eine gesunde Mischung aus Informatiker, Datenbankexperte, Programmierer, Domänenexperte, Bibliothekar, Archivar und Software Engineer.

Beliebte Fachgebiete in der Golem Akademie