DATA SCIENCE-PROZESS: DAS PROBLEM-STATEMENT

Artificial Intelligence

,

Data Intelligence

DATA SCIENCE-PROZESS: DAS PROBLEM-STATEMENT

Manuel Ángel García | Mär 09, 2020

Heute ist Data Science fast überall präsent.

Es kommt recht häufig vor, dass wir eine Webseite besuchen und Produkte empfohlen bekommen, die von anderen Benutzern gekauft wurden. Oder wie oft haben Sie Phrasen gegoogelt, die automatisch vervollständigt wurden?

Aber wissen wir wirklich, worum es bei Data Science und Big Data geht? Verstehen wir, was es bedeutet? Und wissen wir allgemein, wie man sich einem Machine-Learning-Projekt stellt?

In unserem vorherigen Blog "Data Science: ein neuer Ansatz für Problem Solving und Geschäftsstrategien" haben wir die Schlüsselbegriffe und den Prozess für die Einführung von Data Science in Unternehmen vorgestellt. Nun werden wir die Schlüsselfragen des Data Science-Prozesses und die Vorgehensweise in den einzelnen Phasen beschreiben. In diesem Beitrag werden wir erklären, wie man die Voraussetzungen für ein datenwissenschaftliches Projekt schafft.

Common challenges of new Data Science Projects

Typische Herausforderungen eines Data-Science-Projektes 

Geschäftsprozesse sind analytische Objekte mit ständig wachsender Komplexität. Die zu analysierenden Informationen stammen aus unterschiedlichen Datenquellen in unterschiedlichen Formaten, die möglichst schnell analysiert werden müssen.

Welchen Herausforderungen sehen wir uns gegenüber, wenn wir ein Data-Science-Projekt in unseren Unternehmen in Produktion bringen? Es gibt keine konkrete Antwort, da jeder Fall anders ist (und als solcher behandelt werden sollte) - aber wir können einige der häufigsten hervorheben.

Fehlende Kenntnisse und spezialisierte Profile, bereits vorhandene Organisationen und technologische Architekturen, die meist für traditionelle BI-Projekte konzipiert sind, Datenmengen und -vielfalt sind nicht das, was Unternehmen zu verwalten gewohnt sind, Echtzeit-Datenstreaming ist für viele ein Markenthema.

All diese Herausforderungen sind hauptsächlich technischer Natur, aber die wohl wichtigste Herausforderung, die es zu bewältigen gilt, ist die Fähigkeit, den Geschäftsfaktor zu identifizieren, der sich direkt auf die Gewinn- und Verlustrechnung des Unternehmens auswirkt, indem er die Einnahmen erhöht und die Kosten reduziert. Die effektivste Art und Weise, dem Unternehmen ein Data-Science-Projekt zu verkaufen, besteht darin, zu zeigen, welche Art von Geschäftsproblemen es löst und welche Auswirkungen es auf die Unternehmensergebnisse haben wird.

In diesem Szenario ist es klar, dass der Ansatz, den wir bei Data-Science-Projekten berücksichtigen müssen, nicht derselbe sein kann, den wir bei traditionellen Data-Warehousing- oder Business-Intelligence-Projekten gewohnt sind.

Aus unserer Sicht ist das Wichtigste bei der Annäherung an diese Art von Projekten, dass man sich einfallsreich verhält. Wir stehen vor neuen Problemen, die mit traditionellen Ansätzen nicht gelöst werden können, daher müssen wir diesen Projekten mit einer unvoreingenommenen Denkweise begegnen.

Die am häufigsten verwendeten Methoden für Advanced Analytics-Projekte beginnen mit einem Schritt namens Problem Statement oder Problem Shaping. Dabei handelt es sich um einen Prozess, in dem wir das Problem, das wir lösen wollen, und den geschäftlichen Nutzen, den wir erzielen wollen, identifizieren. Dies unterscheidet sich deutlich von klassischen BI-Projekten, bei denen das Geschäftsproblem bereits im Voraus bekannt ist.

Wie kann man das machen? Wir müssen in der Lage sein, uns viele Fragen zu stellen, vor allem aber: die richtigen Fragen.

Die Goldene Regel für die Definition eines Projektziels besteht darin, Fragen zu stellen und zu verfeinern, die relevant, spezifisch und eindeutig sind; "Wie kann ich meinen Gewinn steigern?" ist keine gute Frage für eine Machine-Learning-Lösung, "welches Auto in meiner Flotte wird zuerst ausfallen?" oder "Wie viel Energie wird meine Produktionsanlage im nächsten Quartal verbrauchen?" sind stärkere Beispiele für "richtige" Fragen.

If we want data to work for us, we must be able to ask the right questions

Wenn wir wollen, dass Daten für uns arbeiten, müssen wir in der Lage sein, die richtigen Fragen zu stellen. Einmal formuliert, können die Daten großartige Perspektiven und gute Vorhersagen liefern und viel Wissen offenbaren.

Darüber hinaus ist die Problemformulierung ein typischer "autogenerativer" Prozess; ähnlich wie beim Brainstorming bringen gute innovative Fragen das Team leicht dazu, zusätzliche intelligente Fragen zu produzieren, wobei das Querdenken ein wertvolles Soft Skill in dieser Projektphase ist.

Ein weiterer wichtiger Aspekt ist die Fähigkeit, die durch die Daten gegebenen Ergebnisse weiterzugeben. Menschen haben natürlich voreingenommene Meinungen, die sich auf ihre Wahrnehmung der Ergebnisse auswirken; wir müssen den effektivsten Weg finden, um die "Geschichte" über die Daten zu erzählen; dies ist ein höchst relevanter Schritt für den Erfolg eines Projekts.

Gibt es Tools, die beim Problem Statement helfen können?

Problem Statement ist ein Schritt im Data-Science-Prozess, der mehr von den Soft Skills (im Gegensatz zu technologischen oder Hard Skills) abhängt. Da es jedoch auf Fragen und Daten basiert, manchmal auf einer Menge von Daten, ist es vorteilhaft, ein Datenanalyse-Werkzeug zu haben... (große Datenanalysen können und sollten nicht mit Excel gemacht werden!)

In dieser Projektphase ist ein Schlüsselfaktor die Zusammenarbeit zwischen Datenwissenschaftlern und Geschäftsanwendern, die letztendlich diejenigen mit dem breitesten Geschäftswissen sind und daher den Weg zum Erfolg bestimmen. Unserer Erfahrung nach wird diese Zusammenarbeit durch Datenvisualisierungstools wesentlich erleichtert.

Datenvisualisierungstools wie Qlik oder Tableau haben in der Regel die Möglichkeit, direkt auf verschiedene Arten von strukturierten und unstrukturierten Datenquellen zuzugreifen, so dass sie auf Rohdaten angewendet werden können und äußerst effektiv bei der Identifizierung von Trends, Anomalien, Ausreißern in analysierten Daten mit einem Produktivitätsniveau sind, das mit einem klassischen tabellarischen Ansatz nicht vergleichbar ist.

Wie wir bereits gesagt haben, müssen wir uns vor Augen halten, dass ein Data-Science-Projekt definitiv ein Geschäftsprojekt ist, so dass es immer auf die Erzielung von Ergebnissen ausgerichtet sein muss, die sich auf das Geschäft konzentrieren, und eine globale Vision haben muss, die auf die Geschäftsstrategie abgestimmt ist.

Traditionelle BI-Projekte waren in der Regel auf langfristige Ziele ausgerichtet, so dass der Kunde die Ergebnisse oft erst nach dem vollständigen Abschluss sah; dies führte in vielen Fällen zu Abweichungen, sowohl in Bezug auf die Kosten als auch auf den Umfang. Projekte des maschinellen Lernens müssen kurzfristige Ziele setzen und über einen agilen Ansatz verwaltet werden. Die Schleife zwischen Geschäftsfragen, Hypothesen und Datenbeweisen muss kontinuierlich sein, neue Erkenntnisse müssen genutzt werden, um nachfolgende Projektwellen und Ergebnisse, auch wenn sie nur teilweise vorliegen, voranzutreiben und zu verbessern, und sie müssen mit den Geschäftsleuten geteilt werden, um ihr Engagement stets auf hohem Niveau zu halten.

In der Erfahrung von Techedge haben wir die Verwendung von Notizbüchern (Jupiter ist das bekannteste, aber es gibt noch viele andere) als ein effektives Werkzeug gefunden, um Geschäftsanwendern zu erklären, was technische Mitarbeiter tun, was die Daten uns sagen und welche Ergebnisse durch die Anwendung von Modellen und Algorithmen erzielt wurden - im Wesentlichen die Schaffung einer Art "gemeinsamer Basis", auf der wir technische Informationen und Geschäftskonzepte mischen können, um die wichtige Projektausrichtung aufrechtzuerhalten.

Zum Abschluss und zur Zusammenfassung des Artikels: Für ein gutes Problem Statement muss man neugierig, smart und IMMER KREATIV sein!

 

Möchten Sie mehr erfahren?

Sind Sie bereit, eine datengesteuerte Strategie für Ihre Geschäftsabläufe zu entwickeln? Informieren Sie sich über unsere Dienstleistungen und Lösungen für Datenintelligenz.

MEHR ERFAHREN

Abonnieren!