Term:

Erfolgreiches Datamining

Der Hype um Big Data hat vergessen machen, das aus der täglichen Arbeit die Nutzung einer Suchmaschine nicht mehr wegzudenken ist. Wir recherchieren Sachverhalte, Personen, Innovationen oder wir Shoppen elektronisch. Suche und Datenanalyse sind ein wichtiger Teil unseres Alltags geworden. Unsere Erwartungen an die Qualität der Suchergebnisse sind hoch. 

Der technische und inhaltliche Aufwand zur Erzielung guter Suchergebnisse durch die Suchmaschinenbetreiber ist beträchtlich. Innerhalb eines Unternehmens ist es oft nicht möglich vergleichbare Ergebnisse mit eigenen Mitteln zu erzielen. Die Gründe dafür sind oft nicht technischer Natur. Unstrukturiert erfasste Daten sind ein wesentliches Hemmnis bei der Verwertung von Informationen in Suchmaschinen. Für die maschinelle Entscheidungsunterstützung sind derartige Informationen in der Regel wertlos. 

"Unzureichende Datenqualität, macht eine Nachnutzung von Unternehmenswissen mühevoll!"

Systeme die zur Entscheidungsunterstützung eingesetzt werden sollen, müssen eine hohe Datenqualität aufweisen. Die Nutzerversprechen von Big Data und Künstlicher Intelligenz sind nur auf Basis einer hohen Datenqualität erfüllbar.

Ist es schon bei technischen Daten schwierig ein konsistentes Datenschema aufzubauen, wird dies bei unstrukturierten externen Daten ein fast unmögliches Unterfangen.

Mithilfe von maschinellem Lernen sollen bisher unbekannte Muster in großen Datenbeständen erkennbar werden.

Um Muster erkennen zu können müssen Mustern vorhanden sein. Unstrukturiert erzeugt Daten wie sie z.B. in Mails oder in Fotos sind für eine Mustererkennung oft von geringem Wert. Mehr Informationen dazu lesen sie in unserem Blog.
Das Erkennen von Mustern hat in einer komplexen Welt große Vorteile. Wenn die Zahl der Einflussgrößen, explosionsartig zunimmt, reicht die Lebenszeit eines Menschen nicht mehr aus, um diese Datenbestände sinnvoll analysieren zu können. Um wirklich große Datenbestände analysieren zu können müssen jedoch wichtige technische Vorraussetzungen erfüllt werden.

Nicht ohne Grund kommen die wesentlichen und grundlegenden Technologien für Big Data von einem Unternehmen mit den unbestritten größten Datenmengen. MapReduce ist ein von Google eingeführtes Programmiermodell für nebenläufige Berechnungen über (mehrere Petabyte) große Datenmengen auf Computerclustern. Unter anderem basiert das von der Apache Foundation betreute Framework Hadoop auf dem MapReduce-Algorithmus. Weitere Produkte wie Hbase (eine einfache Datenbank zur Verwaltung extrem großer Datenmengen) und Hive (ein ursprünglich von Facebook entwickeltes Projekt mit Data-Warehouse-Funktionalität) setzen auf Hadoop auf.