DATA SCIENCE-PROZESS: ROHDATENSAMMLUNG

Artificial Intelligence

,

Data Intelligence

DATA SCIENCE-PROZESS: ROHDATENSAMMLUNG

Stefano Oddone | Mär 19, 2020

Da Daten der Eckpfeiler jeder Analysetätigkeit sind, müssen wir einen relevanten Teil unserer Zeit in das Verständnis dieser Daten investieren. In diesem Beitrag werde ich mich speziell darauf konzentrieren, wo sie zu finden sind, welche Techniken und Werkzeuge am nützlichsten sind und, was noch wichtiger ist, welche Fähigkeiten vorhanden sein müssen, um in diesem wichtigen Schritt des Data-Science-Prozesses erfolgreich zu sein.

Datentypen und Datenquellen

Es gibt so viele Attribute, die zur Klassifizierung von Daten verwendet werden könnten: meiner Meinung nach ist intern/extern eines der relevantesten . Unternehmen tendieren dazu, viel Wert auf ihre internen Daten zu legen, weil sie verfügbar, scheinbar billig und zudem als "die Wahrheit" angesehen werden; da ich die Aufgabe habe, diesen Post kurz zu halten, werde ich es vermeiden, auf die letzte Aussage einzugehen. Ich möchte Sie jedoch darauf aufmerksam machen, dass die überwiegende Mehrheit der Daten über das von Ihnen geführte Unternehmen außerhalb Ihrer Firewall produziert wird: Marktdaten, Daten von Wettbewerbern, Kundendaten, Daten von Interessenten, Analystenberichte, Verbraucher-Blogs, Foren für Endbenutzer, Tweets - wenn sie zusammen verwendet werden, ergeben sie zwangsläufig ein klareres, deutlicheres und nützlicheres Bild des Gesamtszenarios, als es jede interne Quelle je könnte.

Wenn Sie mir nun zugestehen, dass externe Daten nützlich sein könnten, um Ihr eigenes Geschäft zu verstehen, müssen Sie den Unterschied zwischen öffentlichen und privaten Daten berücksichtigen. Wenn Daten öffentlich sind, haben alle Ihre Konkurrenten die gleiche Möglichkeit, sie zur Verbesserung der Analyse zu nutzen; was einen Unterschied machen könnte, ist, wie Sie sich entscheiden, sie zu nutzen. Wenn Sie mir und einem Meisterkoch dieselben Zutaten und Rezepte zur Verfügung stellen, kann ich Ihnen versichern, dass das Endergebnis sehr unterschiedlich ausfallen wird; der Wettbewerbsvorteil liegt eindeutig in der unterschiedlichen Fähigkeit, dieselben Zutaten zu verwerten.

Auf der anderen Seite, wenn Sie Dinge wissen, die Ihre Konkurrenten ignorieren, ist dies ein potenzieller Wettbewerbsvorteil (ich sage "potenziell" in Bezug auf das, was ich oben gesagt habe). Aber, wie man sagt, "Wissen ist Macht", also können wir davon ausgehen, dass Sie sich umso besser entscheiden, je mehr Sie wissen. 

Private Daten (z.B. persönliches Einkaufsverhalten, Positionsverfolgung, Service-Abonnements...) haben einige kleine Nebenwirkungen: Sie müssen dafür bezahlen (ich schließe aus, dass ich Hacker in meiner Leser-Community habe), sie sind komplexer zu aktualisieren und zu pflegen. Außerdem ist ihre zukünftige Verfügbarkeit nicht immer sicher, so dass sie für eine zeitliche Analyse nützlich sein könnten, aber es könnte riskant sein, sie in eine langfristige Datenstrategie einzufügen. Ah, fast hätte ich es vergessen: Private Daten stellen in der Regel ein Datenschutzproblem dar, bitte halten Sie Ihre Rechtsabteilung von Anfang an mit an Bord.

Datenerfassungstools

Die Datenerfassung ist ein wichtiger Schritt jeder Data Analytics-Reise. Glücklicherweise gibt es viele hilfreiche Tools, um diese Aufgabe effizient zu bewältigen, von typischen ETL- oder ELT-Tools wie Oracle Data Integrator, IBM DataStage, Microsoft DTS bis hin zu Cloud-orientierten Datenintegrationstools wie Talend oder Azure Data Factory. Wir bei Techedge sind kompetent und erfahren im Abfragen, Filtern, Bereinigen, Transformieren und schließlich im Speichern von Daten - sowohl für kleine Data Marts als auch für große Data Lakes.

Bei den Echtzeit-Datenströmen ist es ganz anders - es bleibt keine Zeit, sie zu transformieren. Anders als bei Batch-Datenströmen werden die Datenqualitätsaufgaben besser als "Rauschunterdrückungs"-Aktivitäten beschrieben, und die verwendeten Technologien sind sehr spezifisch: Kafka, Azure Event Hubs, AWS Kinesis, Google Cloud Dataflow sind Ihre besten Freunde, um diese Art von Aufgaben erledigen zu lassen.

Wenn Sie Daten von Websites und Blogs (Web-Scraping) benötigen, kann die Verwendung von Web-Tools wie Mozenda oder Octoparse vorteilhaft sein, und wenn Sie sehr spezielle Bedürfnisse haben (wie die Extraktion von E-Mail-Adressen, Bildern oder Telefonnummern), ist es einfach, spezielle Tools für Ihre Aufgaben zu finden.  

Nachdem ich nun die erfolgreichsten Datenintegrationslösungen erwähnt habe, kann ich ein kleines Geheimnis verraten: All diese Technologien sind großartig, sehr hilfreich, um die Produktivität, Zuverlässigkeit und Rückverfolgbarkeit zu erhöhen... aber wenn man "in Eile" sein sollte (und das passiert manchmal), bedenken Sie bitte, dass ein erfahrener Code-Master im "Tasmanian Devil Mode" überraschend schnell und effizient Python-, Java- oder Scala-Code erzeugen kann, der Ihre Datenquellen, egal welcher Art, reibungslos aufnimmt.

Lassen Sie uns zusammenfassen: "Es leben die marktführenden Plattformen und Out-of-the-box-Dienste... im Reiche der Coding Knights"    

Erforderliche Fähigkeiten

Ja, wir befinden uns in der Cloud-Ära, in der die meisten Daten unstrukturiert sind und in Text, Bildern, Videos und Clickstreams vorliegen (es ist ein relativ kurzer Zeitraum, in dem wir Fakten in Zeilen und Spalten anordnen, wenn man bedenkt, dass die Sumerer bereits 4000 v. Chr. für die Erfindung der Schriftsprache anerkannt wurden), aber für mich ist SQL und die Relationale Datenbanktheorie immer noch ein Muss - es ist ein grundlegendes Wissen, das jeder Dateningenieur haben muss. Sie werden in die innovativsten und glänzendsten Datenintegrationstechnologien investieren, aber es wird die alte und weise strukturierte Abfragesprache sein, die Sie mit seinem gutmütigen und beruhigenden Lächeln anschaut.

Wenn Sie mehr zu diesem Thema erfahren möchten, vergessen Sie nicht, einen Blick auf den vorherigen Blog über das Problem-Statement im Data-Science-Prozess zu werfen.

 

Möchten Sie mehr erfahren?

Sind Sie bereit, eine datengesteuerte Strategie für Ihre Geschäftsabläufe zu entwickeln? Informieren Sie sich über unsere Dienstleistungen und Lösungen für Datenintelligenz.

MEHR ERFAHREN

Abonnieren!