Wege durch den Datendschungel

Erfolgreiches Datamining

Der Hype um Big Data hat vergessen machen, das aus der täglichen Arbeit die Nutzung einer Suchmaschine nicht mehr wegzudenken ist. Wir recherchieren Sachverhalte, Personen, Innovationen oder wir Shoppen elektronisch. Suche und Datenanalyse sind ein wichtiger Teil unseres Alltags geworden. Unsere Erwartungen an die Qualität der Suchergebnisse sind hoch. 

Der technische und inhaltliche Aufwand zur Erzielung guter Suchergebnisse durch die Suchmaschinenbetreiber ist beträchtlich. Innerhalb eines Unternehmens ist es oft nicht möglich vergleichbare Ergebnisse mit eigenen Mitteln zu erzielen. Die Gründe dafür sind oft nicht technischer Natur. Unstrukturiert erfasste Daten sind ein wesentliches Hemmnis bei der Verwertung von Informationen in Suchmaschinen. Für die maschinelle Entscheidungsunterstützung sind derartige Informationen in der Regel wertlos. 

"Unzureichende Datenqualität, macht eine Nachnutzung von Unternehmenswissen unmöglich!"

Systeme die zur Entscheidungsunterstützung eingesetzt werden sollen, müssen eine hohe Datenqualität aufweisen. Die Nutzerversprechen von Big Data und Künstlicher Intelligenz sind nur auf Basis einer hohen Datenqualität erfüllbar.

Ist es schon bei technischen Daten schwierig ein konsistentes Datenschema aufzubauen, wird dies bei unstrukturierten externen Daten ein fast unmögliches Unterfangen.

Mithilfe von maschinellem Lernen sollen bisher unbekannte Muster in großen Datenbeständen erkennbar werden.

Muster können nur auf Mustern erkannt werden. Wahllos und unstrukturiert erzeugt Daten sind für eine Mustererkennnug wertlos.

 

Assoziationsregeln

Assoziationsregeln beschreiben Korrelationen zwischen gemeinsam auftretenden Dingen. Der Zweck einer Assoziationsanalyse besteht darin, Elemente einer Menge, wie z. B. einzelne Artikel eines Warenkorbs zu ermitteln, die das Auftreten anderer Artikel innerhalb einer Transaktion implizieren. Eine solcherart aufgedeckte Beziehung zwischen zwei oder mehr Artikeln kann dann als Regel der Form „Wenn Item(menge) A, dann Item(menge) B“ bzw. A → B dargestellt werden.

Ein typisches Anwendungsfeld sind die Zusammenhänge beim Einkauf, die sogenannte Warenkorbanalyse. Ein Beispiel: Bei 80 Prozent der Einkäufe, in denen Nudeln gekauft werden, werden auch Tomaten gekauft. Beide Produkte kommen in 8 Prozent der Einkäufe vor. Diese Erkenntnisse können im Crossmarketing genutzt werden, um weitere Produkte wie z.B. Olivenöl oder Paprika zu bewerben.
Die Vorraussetzung für Assoziationsregeln ist Domainenwissen.

Auch Suchverläufe kann man mit Assoziationsregeln analysieren. Dadurch entstehen beispielsweise Aussagen wie: Wenn ein Nutzer Bücher über Programmiersprachen wie z.B. "Java" sucht, kauft er mit großer Wahrscheinlichkeit auch Bücher über andere Programmiersprachen..

Predictive Analytics

Im Gegensatz zur Assoziationsregel, werden bei der predictive Analytics anhand gewonenen der Daten Vorhersagemodelle für die Zukunft erstellt. In der Statistik bezeichnet man als Prognosemodell oder Vorhersagemodell ein Modell, das den durch das Regressionsverfahren ermittelten funktionalen Zusammenhang verwendet, um eine Prognose der abhängigen Variablen zu liefern. Wenn zusätzliche x-Werte ohne zugehörigen y-Wert vorliegen, dann kann das angepasste Modell zur Vorhersage des Wertes von y verwendet werden.

Interessante sind predivtiv Analytics für Marketing oder Wartungsaufgaben von Maschinen. Nach dem Erwerb eines Produktes oder einer Maschine werden Vorhersagen über Wartungsintervalle oder Verbrauchsmaterialien anhand der getätigten Käufe ermittelt.

Im Data Mining werden verschiedene Modelle für die jeweiligen Aufgaben eingesetzt. Wir unterstützen sie bei der Auswahl und Bewertung der Modelle die oft auf komplexen Algorithmen beruhen, sodas sie für Anwender oft nicht verständlich sind.