Keine Data Science ohne Data Governance

Rund 250 Data Scientists haben sich zwei Tage lang über ihre Erfahrungen mit Daten ausgetauscht. Dabei waren sich alle einig: Data Governance ist eine unverzichtbare Voraussetzung.

Auf dem Data Festival, das vom 16. bis 18. April 2018 erstmals in München stattfand, drehte sich alles um Daten. Im Fokus standen die Themen Data Science & Machine Learning, Data Engineering & Architecture, Data Visualization & Analytics, Fast Data, Infrastructure, Databases sowie Agile Development.

“Garbage in – garbage out” – eine alte und auch auf dieser Veranstaltung oft zitierte Weisheit, denn der größte Feind von guten Analytics-Ergebnissen ist schlechte Datenqualität. Dazu zählen nicht vollständige und nicht aktuelle Daten, aber auch inkonsistente und nicht aussagekräftige Informationen, sowie inhaltlich inkorrekte Daten. In Datenbereichen, wo ein fachliches Datenqualitätsmanagement etabliert ist, kann man auch mit Data Science-Initiativen beginnen.

Da Data Scientists in den wenigsten Fällen auch die branchen- oder fachspezifischen Inhalte beherrschen, wird es immer wichtiger, dass es semantische Informationen über die Daten gibt. Denn wenn ein Data Scientist neu in ein Unternehmen kommt, dann bringt er das methodische und technologische Knowhow mit, nicht aber die Fachlichkeit. Dafür muss es ausreichend Metadaten geben, die aktuell, gepflegt und zugänglich sind.