Wege durch den Datendschungel

Successful data mining

The hype about Big Data has made us forget that the use of a search engine has become an indispensable part of our daily work. We research facts, people, innovations or we shop electronically. Search and data analysis have become a regular part of our everyday lives. Our expectations of the quality of the results are high. 

The technical and content effort to achieve the results is through the major providers is huge. Inside a company it is often not possible to achieve comparable results. The reasons for this are often not of a technical nature. Unstructured gathered data are an essential barrier for the use of information in search engines. This kind of information is often worthless for automatic decision support. 

"Insufficient data quality makes a re-use of company knowledge impossible!


Systems that are to be used for decision support must have a high data quality. The promised benefits of Big Data and Artificial Intelligence can only be achieved with high data quality.

If it is already difficult to establish a consistent data schema for technical data, this becomes an almost impossible undertaking for unstructured external data.

Machine learning will be used to identify previously unknown patterns in large databases.
Patterns can only be recognized on patterns. Randomly and unstructuredly generated data are meaningless for pattern recognition.

Assoziationsregeln

Assoziationsregeln beschreiben Korrelationen zwischen gemeinsam auftretenden Dingen. Der Zweck einer Assoziationsanalyse besteht darin, Elemente einer Menge, wie z. B. einzelne Artikel eines Warenkorbs zu ermitteln, die das Auftreten anderer Artikel innerhalb einer Transaktion implizieren. Eine solcherart aufgedeckte Beziehung zwischen zwei oder mehr Artikeln kann dann als Regel der Form „Wenn Item(menge) A, dann Item(menge) B“ bzw. A → B dargestellt werden.

Ein typisches Anwendungsfeld sind die Zusammenhänge beim Einkauf, die sogenannte Warenkorbanalyse. Ein Beispiel: Bei 80 Prozent der Einkäufe, in denen Nudeln gekauft werden, werden auch Tomaten gekauft. Beide Produkte kommen in 8 Prozent der Einkäufe vor. Diese Erkenntnisse können im Crossmarketing genutzt werden, um weitere Produkte wie z.B. Olivenöl oder Paprika zu bewerben.
Die Vorraussetzung für Assoziationsregeln ist Domainenwissen.

Auch Suchverläufe kann man mit Assoziationsregeln analysieren. Dadurch entstehen beispielsweise Aussagen wie: Wenn ein Nutzer Bücher über Programmiersprachen wie z.B. "Java" sucht, kauft er mit großer Wahrscheinlichkeit auch Bücher über andere Programmiersprachen..

Predictive Analytics

Im Gegensatz zur Assoziationsregel, werden bei der predictive Analytics anhand gewonenen der Daten Vorhersagemodelle für die Zukunft erstellt. In der Statistik bezeichnet man als Prognosemodell oder Vorhersagemodell ein Modell, das den durch das Regressionsverfahren ermittelten funktionalen Zusammenhang verwendet, um eine Prognose der abhängigen Variablen zu liefern. Wenn zusätzliche x-Werte ohne zugehörigen y-Wert vorliegen, dann kann das angepasste Modell zur Vorhersage des Wertes von y verwendet werden.

Interessante sind predivtiv Analytics für Marketing oder Wartungsaufgaben von Maschinen. Nach dem Erwerb eines Produktes oder einer Maschine werden Vorhersagen über Wartungsintervalle oder Verbrauchsmaterialien anhand der getätigten Käufe ermittelt.

Im Data Mining werden verschiedene Modelle für die jeweiligen Aufgaben eingesetzt. Wir unterstützen sie bei der Auswahl und Bewertung der Modelle die oft auf komplexen Algorithmen beruhen, sodas sie für Anwender oft nicht verständlich sind.