Data-Science-Lifecycle: Data-Science-Projekte erfolgreich durchf√ľhren

14.12.2022

< Zur√ľck zur √úbersicht

Anhand des Data-Science-Lifecycle und eines Beispiels* zur Entwicklung eines Vorhersagemodells zur Gewichtsver√§nderung bei Milchk√ľhen nach der Kalbung, zeigen wir Ihnen in dieser Publikation, wie Data-Science-Projekte erfolgreich durchgef√ľhrt werden k√∂nnen.

Sie fragen sich nun bestimmt zu Recht, wie Data Science mit dem Bereich der Milchproduktion zusammenhängt. Das ist ganz einfach erklärt. Denn Milchviehbetriebe haben im Prinzip dasselbe Ziel wie Dienstleistungsunternehmen: sie möchten effektiv, effizient und rentabel sein. Dementsprechend gibt es auch ähnliche Problemstellungen, die im Bereich Data Science mit Daten gelöst werden können. Im Folgenden gehen wir hierauf näher ein.

Themen√ľberblick:

  1. √Ąhnlichkeiten zwischen Dienstleistungsunternehmen und Milchviehbetrieben
  2. Analysemethoden zum Erreichen der Ziele
  3. Data-Science-Lifecycle – 7 Projektphasen
  4. Best Practice: Erläuterung vom Data Science Lifecycle anhand eines Beispiel-Projektes
  5. Fazit

*Quellenangabe: Dettmann, F.; Warner, D.; Buitenhuis, B.; Kargo, M.; Kjeldsen, A.M.H.; Nielsen, N.H.; Lefebvre, D.M.; Santschi, D.E. Fatty Acid Profiles from Routine Milk Recording as a Decision Tool for Body Weight Change of Dairy Cows after Calving. Animals 2020, 10, 1958. https://doi.org/10.3390/ani10111958

√Ąhnlichkeiten zwischen Dienstleistungsunternehmen und Milchviehbetrieben

Wenn man Unternehmen im Allgemeinen und Milchviehbetriebe im Speziellen vergleicht, identifiziert man schnell √ľbergeordnete und gemeinsame Ziele, n√§mlich die der Umsatz- und Ertragssteigerung bzw. der Kostensenkung. Unternehmen erreichen diese Ziele, indem Sie Produkte oder eben Dienstleistungen an Kunden verkaufen und die Kundenbed√ľrfnisse befriedigen. Im Gegensatz dazu verkaufen Milchviehbetriebe ihr Rohprodukt ‚Äď in dem Fall die Milch ‚Äď √ľberwiegend zur Weiterverarbeitung an Molkereien. Um dieses Rohprodukt zu erhalten, m√ľssen sie die Bed√ľrfnisse der Milchk√ľhe befriedigen.

Analysemethoden zum Erreichen der Ziele

Im Dienstleistungssektor sind die Analysemethoden um CRM, CEM und Customer Analytics weitestgehend bekannt. Man versucht also √ľber die Daten, welche ein Kunde hinterl√§sst, m√∂glichst viele Informationen zu bekommen. Der Milchviehbetrieb hat hier andere Analysemethoden, die aber auch auf Daten wie zum Beispiel zum Tier selbst, zu dessen Leistung und Gesundheit, basieren. Solche Daten werden dann im so genannten Herdenmanagement hinterlegt.

Data-Science-Lifecycle: Data-Science-Projekte erfolgreich durchf√ľhren

 

Data-Science-Lifecycle ‚Äď 7 Projektphasen

In jedem Data-Science-Projekt gibt es gewisse Problemstellungen, welche anhand von Daten gel√∂st werden wollen. Die meisten solcher Projekte haben einen √§hnlichen Arbeitsablauf, welcher genutzt werden kann, um das jeweilige Projekt in Phasen aufzuteilen, die es typischerweise durchl√§uft. Hierbei steht an oberster Stelle das √ľbergeordnete Ziel, die jeweilige Problemstellung zu l√∂sen.

Grundsätzlich wird der Data-Science-Lifecycle in sieben Phasen unterteilt: Business Understanding, Data Mining, Data Cleaning, Data Exploration, Feature Engineering, Predictive Modeling und Data Visualization. Im Folgenden wird auf die einzelnen Phasen näher eingegangen:

  1. Business Understanding

Der Ausgangspunkt vom Data-Science-Lifecycle ist die erste Phase ‚Äď das Business Understanding. Denn es ist entscheidend, dass die Problemstellung verstanden wird und die richtigen Fragen an Stakeholder gestellt werden, um letztendlich die richtigen Datens√§tze zu erhalten. Zudem muss auch √ľberpr√ľft werden, dass die Daten korrekt sind und aussagekr√§ftige Erkenntnisse aus den Daten gesch√∂pft werden k√∂nnen. Mit einem guten Business Understanding kann dann das Ziel des Projektes sowie die Variablen, die vorhergesagt werden sollen, identifiziert und definiert werden.

  1. Data Mining

Aufbauend auf dem Business Understanding folgt Schritt zwei ‚Äď das Data Mining. In dieser Phase werden die ben√∂tigten Daten gesammelt. Entweder liegen diese bereits vor und sie k√∂nnen aus bestehenden Datenquellen abgefragt werden, oder die Daten m√ľssen zun√§chst erfasst werden.

Tipp/Hinweis: Sollten die Daten erst erfasst werden m√ľssen, sollte unbedingt die n√∂tige Zeit hierf√ľr eingeplant werden. Manchmal kann es Wochen und Monate dauern, bis alle relevanten Daten zusammengetragen sind!

  1. Data Cleaning

Nachdem alle relevanten Daten vorliegen, folgt Schritt drei ‚Äď das Data Cleaning. Hier werden die Daten genauer unter die Lupe genommen, bereinigt und f√ľr weitere Analysen vorbereitet. Das Bereinigen bedeutet im Wesentlichen das Entfernen von Diskrepanzen also beispielsweise fehlende, falsche oder nicht ben√∂tigte Werte herauszunehmen. Im Gro√üen und Ganzen wird hierbei also sortiert und strukturiert.

  1. Data Exploration

Anschlie√üend folgt Schritt vier ‚Äď die Data Exploration. Hierbei werden h√§ufig die Datenstatistiken wie Mittel-, Medial- und Extremwerte berechnet, um die Verteilung der Daten besser nachzuvollziehen. In diesem Schritt k√∂nnen bereits erste Visualisierungen vorgenommen werden. Beispielsweise Diagramme wie Histogramme, Punkt- oder Liniendiagramme. Letzteres hilft dabei, die Daten besser zu verstehen, aber auch, um vielleicht versteckte Muster zu erkennen, welche eine zus√§tzliche Information geben. Zum Beispiel Saisonalit√§ten, die vorher nicht bekannt waren.

Wissenswert: Diese ersten Schritte im Data-Science-Lifecycle (1 bis 4) nehmen 70 bis 90 Prozent der Projektzeit in Anspruch. Und das ist sehr wichtig, denn hier wird geschaut, ob die Daten, die vorhanden sind, tatsächlich repräsentativ sind und qualitativ so hochwertig, dass das vorangestellte Ziel erreicht werden kann.

  1. Feature Engineering

Mit den aus den ersten Schritten gewonnenen Erkenntnissen wird dann in Schritt f√ľnf gestartet ‚Äď Feature Engineering. Hier werden die Rohdaten so aufbereitet, dass sie sofort in Machine Learning Algorithmen verarbeitet werden k√∂nnen. H√§ufige Faktoren hierbei sind beispielsweise das Transformieren von Variablen, die Berechnung von Interaktionen oder die Erstellung von ‚ÄěDummy-Variablen‚Äú. Dieser Schritt hat das Ziel, gegen√ľber den Rohdaten einen Mehrwert zu schaffen. Die Herausforderung hierbei ist jedoch, dass keine unn√∂tigen Daten verarbeitet werden, aber wichtige Daten ebenso nicht verloren gehen.

  1. Predictive Modeling

Sind alle Rohdaten verarbeitet, folgt Schritt sechs ‚Äď das Predictive Modeling. Hier werden die Machine Learning Algorithmen angewendet, um ein passendes Datenmodell zu erstellen. Basierend auf dem vorliegenden Problem, die Daten, welche gesammelt wurden, sowie dem definierten Ziel, gibt es verschiedene Arten von Algorithmen. Beispielsweise logistische und lineare Regressionen, Clustering-Methoden etc. Nachdem das Datenmodell in dieser Phase aufgesetzt wurde, wird die Performance evaluiert. Daf√ľr wird das Modell auf bisher unbekannte Testdaten angewendet und √ľber entsprechende Metriken wird dann die Performance sowie die Genauigkeit des Modells bestimmt, angepasst und verbessert.

  1. Data Visualization

Ist ein Datenmodell aufgebaut, folgt der letzte Schritt ‚Äď die Datenvisualisierung. Hier werden die Ergebnisse des Projektes mithilfe von Grafiken aber auch Storytelling dargestellt und den Stakeholdern vorgestellt.

Wichtig: Die Stakeholder haben nicht immer einen technischen Hintergrund. Es sollte versucht werden, die Ergebnisse und Visualisierungen möglichst klar, einfach und nachvollziehbar darzustellen.

 

Generell l√§sst sich sagen, dass der Data-Science-Lifecycle kein linearer Prozess ist. Unter Umst√§nden m√ľssen demnach bestimmte Schritte iterativ ausgef√ľhrt werden, um bestm√∂gliche Ergebnisse zu erzielen. Beispielsweise kann es vorkommen, dass in Schritt 4 der Data Exploration festgestellt wird, dass zu wenig Daten vorhanden sind. Demnach m√ľsste an dieser Stelle in Schritt 2 zur√ľckgesprungen werden, um mehr Daten zu sammeln.

 

Best Practice: Erläuterung des Data-Science-Lifecycles anhand eines Beispiel-Projektes

Um das Vorhersagemodell zur Gewichtsver√§nderung bei Milchk√ľhen nach der Kalbung aufzubauen, wurden alle sieben Schritte des Data-Science-Lifecycles durchgearbeitet.

  1. Business Understanding

Im ersten Schritt, dem Business Understanding, wurden folgende Fakten aufgelistet:

  • Generell ist es so, dass S√§ugetiere nach der Geburt K√∂rperreserven mobilisieren, um die Milchproduktion aufrecht zu erhalten. Das hei√üt, dass in dieser Phase die Energieaufnahme kleiner als die Energieabgabe ist und somit eine negative Energiebilanz herrscht.
  • Wenn aber eine √ľberm√§√üige Mobilisierung von K√∂rperreserven stattfindet, kann es f√ľr das Tier hinsichtlich Gesundheit und Fruchtbarkeit problematisch werden.

Das Ziel des Projektes war es, Milchk√ľhe zu identifizieren, bei denen nach der Kalbung ein zu hoher Verlust am K√∂rpergewicht zu erwarten ist. Denn wenn S√§ugetiere zu viel K√∂rpergewicht verlieren, kann der Stoffwechsel entgleisen. Und es ist besser die Entgleisung des Stoffwechsels zu verhindern, als diese wieder einzuloten.

Das Problem in der Praxis ist jedoch, dass eine routinem√§√üige und genaue Gewichtsmessung von Milchk√ľhen schwierig ist.

Demnach wurde als √ľbergeordnetes Ziel die Vorhersage zur Sch√§tzung der Gewichtsver√§nderung gesetzt.

Wie kann dieses Ziel erreicht werden bzw. was heißt Mobilisierung von Körperreserven?

Die Mobilisierung von K√∂rperreserven bedeutet, dass K√∂rperfette mobilisiert werden. Daher wurde sich der Aufbau von Fetten zun√§chst nochmal hervorgerufen und Informationen zusammengetragen. Fette bestehen aus Triglyceriden (Glycerin und drei Fetts√§uren) und sind auch ein Bestandteil der Milch. Daher kann das Fett sowie Fetts√§uren in dieser gemessen werden. Doch wo kommen die Fetts√§uren eigentlich her? Auf der einen Seite gibt es die ‚Äěde novo‚Äú-Fetts√§uren, welche im Euter synthetisiert werden. Auf der anderen Seite gibt es ‚Äěpreformed‚Äú-Fetts√§uren, welche √ľberwiegend aus den K√∂rperfettreserven kommen. Dar√ľber hinaus gibt es die ‚Äěmixed‚Äú-Fetts√§uren, die sowohl direkt im Euter synthetisiert werden als auch direkt aus den K√∂rperfettreserven stammen k√∂nnen.

Aus diesen Erkenntnissen entstand die Idee, die Vorhersage der Gewichtsveränderung anhand des Milchfettsäureprofils zu erstellen.

  1. Data Mining

Bei diesem Projekt lagen bereits Datens√§tze vor. Der erste Datensatz, die Milchanalysedaten, stammten aus der Milchkontrolle. Dabei werden die Milch sowie die Milchfetts√§uren √ľber Infrarotspektroskopie analysiert.

Der zweite Datensatz, die Gewichtsdaten, stammten aus einer Kooperation mit einem Melktechnik-Hersteller, wobei die Gewichte aus automatischen Melksystemen mit integriertem Wiegebogen gezogen wurden. Im Schnitt entstanden somit 2,5 Gewichtsmessungen pro Tag und pro Kuh.

Folgende beiden Datensätze haben sich daraus ergeben:

Data Science Projekte erfolgreich durchf√ľhren_3

  1. Data Cleaning

In dieser Phase, dem Data Cleaning, wurden die Daten genauer unter die Lupe genommen und bereinigt. Bei den Milchanalysedaten wurde beispielsweise eine Entfernung von Beobachtung mit fehlenden Werten, abnormale Beobachtungen in den Milchfettsäurewerten sowie Daten der Laktationszahl größer als 3 und der Laktationstage kleiner als 5 sowie größer als 305 Tage vorgenommen.

Definition ‚ÄěLaktation‚Äú & ‚ÄěLaktationstage‚Äú: Eine Laktation bedeutet, dass die Kuh ein Kalb bekommen hat. Das hei√üt, sie kalbt und startet dann in die Milchproduktion also in die erste Laktation. Nachdem sie das zweite Kalb bekommen hat, startet sie in die zweite Laktation etc. (Im Projekt wurde die Laktationszahl auf 3 begrenzt, weil hierzu die meisten Daten vorlagen.) Die Laktationstage sind die ‚ÄěTage in Milch pro Laktation‚Äú.

Im Hinblick auf die Gewichtsdaten wurde eine Entfernung von Beobachtungen mit abnormalen Beobachtungen in den Gewichten sowie ebenfalls der Laktationszahl größer als 3 und der Laktationstage kleiner als 5 und größer als 305 Tage vorgenommen.

  1. Data Exploration

Hier wurde geschaut, ob die Daten repr√§sentativ sind, ob sie das darstellen, was zun√§chst im Business Understanding definiert wurde. Au√üerdem wurde gepr√ľft, ob vielleicht sogar neue, unbekannte Muster der Daten vorhanden sind. Die Datenstatistik wurde ausgewertet, indem der Mittelwert, die Standardabweichung sowie Minimum und Maximum errechnet wurden. Letzteres galt beispielsweise f√ľr die Milch an sich, f√ľr den Fett- oder Proteinanteil oder f√ľr die Fetts√§uregruppen und Gewichte.

Die ersten Daten ‚Äď beispielsweise zu den Gewichten ‚Äď wurden in Diagramme √ľbertragen. Hier kam unter anderem heraus, dass die K√ľhe den Tiefstand des Gewichtsverlusts ca. am 30. Laktationstag erreichen und anschlie√üend 60 bis 100 Tage ben√∂tigen, um das Ursprungsgewicht wieder zu erreichen.

  1. Feature Engineering

Die Basis des Projektes, n√§mlich mit dem Modell die K√∂rpergewichtsver√§nderung hervorzusagen, war an dieser Stelle noch nicht abgeschlossen bzw. erreicht. Denn die Daten boten nur die jeweiligen Gewichte der K√ľhe und noch keinen Aufschluss √ľber dessen Ver√§nderungen. Deshalb mussten letztere errechnet werden. Dies geschah, indem das K√∂rpergewicht von Tag X minus das K√∂rpergewichtes des Vortages errechnet wurde und anschlie√üend nochmal durch das Gewicht des Vortages genommen wurde. Somit entstand eine relative t√§gliche K√∂rpergewichtsver√§nderung in Gramm pro Kilo K√∂rpergewicht. Der Grund f√ľr diese Berechnung war, dass eine standardisierte Metrik √ľber alle K√ľhe hinweg erstellt werden sollte.

Die Ergebnisse wurden erneut in Diagramme gegossen. Anschließend wurden die beiden Datensätze miteinander verschmolzen (englisch: Datamerge). Dies geschah anhand der Tiernummer sowie anhand des jeweiligen Datums. Die Datensätze zur Milchanalyse lagen allerdings monatlich vor, während die Daten zur Gewichtsveränderung täglich vorlagen.

Die zentrale Frage lautete also: Welche und wie viele K√∂rpergewichtsver√§nderungen werden durch das Milchfetts√§ureprofil am Tag der Milchanalyse eigentlich repr√§sentiert? Wie schnell √§ndert sich das Milchfetts√§ureprofil, wenn eine ver√§nderte Energieversorgung vorliegt? Hierf√ľr lagen noch keine Studien vor. Also wurde mit einer Professorin gesprochen, die ihr Feedback hierzu gegeben hat, auf dessen Basis Annahmen getroffen werden konnten.

Damit wurde ein finaler Datensatz entworfen:

Data Science Projekte erfolgreich durchf√ľhren_4

  1. Predictive Modelling

In der sechsten Phase, dem Predictive Modelling, wurde dann eine Variablenselektion anhand einer Principle Component Analysis (PCA) durchgef√ľhrt. Das Ziel hierbei war es, die wichtigsten Variablen f√ľr das Datenmodell zu erhalten. Im n√§chsten Schritt wurden die Variablen normalisiert, denn sie lagen in unterschiedlichen Einheiten wie beispielsweise ‚ÄěGramm‚Äú und ‚ÄěKilogramm‚Äú vor. Im dritten Schritt wurde sich dann f√ľr das Vorhersagemodell des ‚ÄěRandom Forest Algorithm‚Äú entschieden. Denn dieser kann mit einer Vielzahl von linearen und nicht-linearen Beziehungen zwischen Variablen und einem hochdimensionalen Datensatz mit entsprechender Komplexit√§t umgehen.

Exkurs: Was ist der Random Forest Algorithm? Dieser Algorithmus basiert auf mehreren Entscheidungsb√§umen. Daf√ľr wird der gesamte Datensatz in mehrere kleine Datens√§tze aufgeteilt. An solche kleinen Stichproben werden Entscheidungsb√§ume angepasst. Dabei verwenden diese Entscheidungsb√§ume auch nicht immer alle Variablen, sondern eine Teilanzahl. Von dieser Teilanzahl wird schlussendlich ein finales Ergebnis erstellt.

Im Projekt wurden die Datens√§tze nun also gesplittet und in ein Trainings- sowie einen Testdatensatz aufgeteilt. Hierbei wurden 80% in das Trainieren des Modells verwendet und 20% der Daten als Testdatensatz zur Seite gelegt. Es konnte allerdings nicht alles dem Zufall √ľberlassen werden, denn es gab beim Projekt einen Einzeltier- sowie einen Herdeneffekt. Hier gibt es beispielweise Unterschiede in der F√ľtterung oder Haltung, was sich nat√ľrlich auf das Gewicht der Milchk√ľhe auswirkt. Daher erfolgte die Datensplittung zum einen nach den Einzeltieren und zum anderen nach der Herde.

Außerdem wurde der Trainingsdatensatz anhand der 10-fachen Kreuzvalidierung erneut in weitere zehn kleinere Datensätze gesplittet. Nachdem das Modell aufgebaut wurde, wurde es außerdem an sieben verschiedenen Metriken evaluiert und die Performance gemessen.

  1. Data Visualization

In der letzten Phase des Data-Science-Lifecycles wurde explizit bei diesem Projekt ein wissenschaftliches Paper erstellt. Die Ergebnisse wurden demnach in speziellen Grafiken aufbereitet.

Zu den ersten drei Variablen mit dem h√∂chsten Einfluss auf das Modell z√§hlen die kurzkettigen Fetts√§uren (‚Äěde novo‚Äú), die C18:0-Fetts√§uren und die einfach-unges√§ttigten Fetts√§uren (beide ‚Äěpreformed‚Äú). Hierf√ľr wurde dementsprechend eine weitere Ergebnis-Grafik erstellt. Tiere mit einer negativen K√∂rpergewichtsver√§nderung haben tendenziell niedrigere Werte in kurzkettigen Fetts√§uren und h√∂here Werte in der C18:0- und den einfach-unges√§ttigten Fetts√§uren. Dies spiegelt die Annahme aus dem Business Understanding wider. Es werden K√∂rperreserven mobilisiert, um zu versuchen die negative Energie auszugleichen.

In einem weiteren Schritt wurden die beobachteten Gewichtsveränderungen mit denen aus dem Random Forest Modell vorhergesagten Gewichtsveränderungen in Bezug gesetzt. Die vorhergesagten Veränderungen unterschieden sich nicht signifikant von den beobachteten, was beweist, dass das Modell generell in der Lage ist, die Gewichtsveränderungen vorherzusagen.

Das letzte Ergebnis bezieht sich auf die Messung der Performance des Modells anhand der zur√ľckgelegten Testdaten. Hier wurden die einzelnen Metriken aufgelistet und nach den Stratifikationen ‚ÄěEinzeltier‚Äú sowie ‚ÄěHerde‚Äú unterteilt. Die Performance des Testdatensatzes verliert allerdings im Gegensatz zu den Kreuzvalidierungs-Datens√§tzen an Performance. Das Modell eignet sich in der modellierten Form also noch nicht unbedingt f√ľr einen praktischen Einsatz.

Wissenswert: Man sollte sich also Gedanken machen, warum der Testdatensatz nicht so gut performt. Woran kann das liegen und was kann hierbei noch optimiert werden?

 

 

 

Fazit

Der Data-Science-Lifecycle hilft dabei, Projekte ‚Äď egal wie exotisch und speziell diese sind ‚Äď in ihren einzelnen Entwicklungsphasen zu strukturieren. Dies unterst√ľtzt bei der Planung einzelner Arbeitsschritte sowie bei der zeitlichen Umsetzung des Projektes. Des Weiteren ist der Data Science Lifecycle sehr n√ľtzlich in Bezug auf die Fokussierung und dient dazu, einen √ľbersichtlichen Fahrplan zu haben.

Falls Sie mehr aus Ihren Daten machen m√∂chten oder Unterst√ľtzung bei einem Data Science Projekt ben√∂tigen, z√∂gern Sie bitte nicht, uns anzusprechen. Die CINTELLIC Consulting Group verf√ľgt √ľber jahrelange Erfahrung in den Bereichen Data Science, Data Mining und Big Data Analytics.

 

 

Dieser Text kann kostenfrei als Publikation heruntergeladen werden:

PDF jetzt herunterladen
Cintellic_Best-Practice-Data-Science-Lifecycle
CINTELLIC Consulting - Social Media