Data Science-Prozess: Datenforschung

Artificial Intelligence

,

Data Intelligence

Data Science-Prozess: Datenforschung

Roberto Verdelli | May 11, 2020

Die Datenforschung ist der am meisten auf den Menschen ausgerichtete Schritt des datenwissenschaftlichen Prozesses: als solcher ist sie am einfachsten zu verstehen, aber auch am einfachsten zu missverstehen. Hinter geradlinigen Zahlen und auffälligen bunten Diagrammen verbergen sich einige Fallen.

Aber fangen wir von vorne an.

Data Science Process: Data Exploration

Datenforschung - aka, Datenwissenschaft für den Menschen 

Laut Wikipedia ist die Datenforschung ein Ansatz, der der anfänglichen Datenanalyse ähnelt, wobei ein Datenanalytiker die visuelle Exploration verwendet, um zu verstehen, was sich in einem Datensatz befindet und welche Eigenschaften die Daten haben.

Schauen wir uns diese Definition genauer an.

Die Datenforschung ist ein Ansatz, der der anfänglichen Datenanalyse ähnlich ist: Eigentlich ist es die anfängliche Datenanalyse. Die Forschung kommt vor jeder statistischen Analyse und jedem Modell für maschinelles Lernen. Dies ist entscheidend, um eine heimtückische Gefahr zu vermeiden: zusammenfassende Indikatoren, wie Mittelwert und Standardabweichung. Das Simpson'sche Paradoxon ist ein bekanntes Beispiel, das zeigt, wie oberflächlich und irreführend globale Indikatoren sein können. Es ist natürlich ein akademisches Beispiel, aber etwas Ähnliches kann auch in der realen Welt passieren, wie Sie gleich sehen werden.

Datenforschung geschieht, wenn ein Datenanalytiker die visuelle Forschung verwendet, um zu verstehen, was in einem Datensatz enthalten ist: Natürlich ist es komplexer als dies. Stellen Sie sich vor, Sie lesen eine riesige Tabelle mit Tausenden von Zeilen und Dutzenden von Spalten, die voller Zahlen ist. Sie untersuchen die Daten visuell, aber es gibt keine Möglichkeit, Einsichten zu gewinnen. Das liegt daran, dass wir nicht darauf ausgelegt sind, riesige Zahlentabellen zu durchforsten. Wir sind großartig darin, die Welt in Bezug auf Formen, Dimensionen und Farben zu lesen. Und genau das ist es, was die Datenvisualisierung ermöglicht; einmal in Linien, Punkte und Winkel übersetzt, sind Zahlen viel leichter zu lesen.

Leider kommt hier eine zweite Gefahr hinzu: falsch gestaltete oder verfängliche Diagramme. Manchmal hindert die falsche Visualisierung die Datenwissenschaftler daran, den richtigen Einblick zu erhalten oder die richtigen Informationen weiterzugeben. Eine Sammlung großartiger Beispiele wurde von Sarah Leo von The Economist veröffentlicht.

Die Datenforschung zielt darauf ab, die Eigenschaften der Daten zu untersuchen. Um genauer zu sein, hat sie zwei Hauptziele:

  • Hervorhebung von Merkmalen einzelner Variablen
  • Aufdecken von Mustern und Beziehungen zwischen Variablen
Beide Ziele sind von größter Bedeutung, da sie die nachfolgende eingehende Analyse leiten. Mehr als Worte, eine echte Fallstudie kann helfen, diese Behauptung zu beweisen und die Fallen der Datenforschung aufzuzeigen.

Eine Fallstudie: Temperatur und Strombelastung 

Wir werden einen öffentlichen Datensatz über die griechische Stromlast und Lufttemperatur verwenden. Die verfügbaren Daten decken 4 Jahre mit stündlicher Granularität ab; der Einfachheit halber werden wir nur das Jahr 2007 berücksichtigen. Nehmen wir an, wir entwickeln Algorithmen zur Leistungsprognose, und wir sind daran interessiert zu verstehen, ob die Temperatur vorteilhaft sein könnte.

Nach entsprechender Vorverarbeitung sehen die Daten wie folgt aus:Data Exploration Case Study - Temperature and Power Load

Ein erster Versuch könnte die Berechnung der Pearson'schen linearen Korrelation sein:

Data Exploration Case Study - Pearson's linear correlation
Wir erhalten eine traurige 0,42. Wir mögen versucht sein, die Temperatur zu vernachlässigen und weiterzumachen, aber wir sind uns der Gefahr bewusst, die sich im zusammenfassenden Indikator verbirgt. Daher führen wir eine angemessene visuelle Analyse durch:

Data Exploration Case Study - Charts save us from drawing wrong conclusions

Jetzt können wir sehen, dass es eine klare Beziehung gibt, aber sie ist nicht linear, so dass eine lineare Korrelation nicht wirksam sein kann, um das Muster hervorzuheben. Ein geeignetes prädiktives Modell kann es jedoch. Das Diagramm bewahrte uns davor, eine sehr falsche Schlussfolgerung zu ziehen, und gab uns einen guten Hinweis zur Verbesserung unserer Modelle. Allerdings verbirgt dasselbe Diagramm etwas. Wenn Sie genau hinsehen, bemerken Sie vielleicht etwas Merkwürdiges im linken Teil, so als gäbe es zwei verschiedene Punktwolken. Lassen Sie uns die Darstellung ein wenig verändern:

Data Exploration Case Study - Charts with color scale can make patterns more evident

Das Verhältnis zwischen Stromlast und Temperatur ändert sich mit der Stunde des Tages. Dies ist ein weiterer nützlicher Anhaltspunkt für die Entwicklung effektiver Modelle, aber er war hinter einem schlechten Diagramm verborgen. Allein das Hinzufügen der Tageszeit in Form einer Farbskala machte das Muster sichtbar.

Fazit

Wir haben gezeigt, wie die Datenforschung in der realen Welt für jedes datenwissenschaftliche Projekt entscheidend ist. So einfach es auch erscheinen mag, sie verbirgt heimtückische Fallstricke, die die Datenwissenschaftler daran hindern können, die richtigen Erkenntnisse zu enthüllen. Insbesondere die Fallstudie hat uns einige Tipps gegeben:

  • Ziehen Sie keine Schlussfolgerungen auf der Grundlage zusammenfassender Indikatoren
  • Achten Sie auf Ihre Diagramme: Das falsche kann Sie täuschen, während das richtige Ihnen wichtige Hinweise geben kann.
  • Seien Sie menschlich: Hören Sie auf Ihre Intuition und untersuchen Sie jedes Mal, wenn Sie das Gefühl haben, dass etwas seltsam ist

 

Möchten Sie mehr erfahren?

Sind Sie bereit, eine datengesteuerte Strategie für Ihre Geschäftsabläufe zu entwickeln? Informieren Sie sich über unsere Dienstleistungen und Lösungen für Datenintelligenz.

MEHR ERFAHREN

Abonnieren!