Mustererkennung benötigt Muster

Erfolgreiches Datamining

Der Hype um Big Data hat vergessen machen, das aus der täglichen Arbeit die Nutzung einer Suchmaschine nicht mehr wegzudenken ist. Wir recherchieren Sachverhalte, Personen, Innovationen oder wir Shoppen elektronisch. Suche und Datenanalyse sind ein wichtiger Teil unseres Alltags geworden. Unsere Erwartungen an die Qualität der Suchergebnisse sind hoch. 

Der technische und inhaltliche Aufwand zur Erzielung guter Suchergebnisse durch die Suchmaschinenbetreiber ist beträchtlich. Innerhalb eines Unternehmens ist es oft nicht möglich vergleichbare Ergebnisse mit eigenen Mitteln zu erzielen. Die Gründe dafür sind oft nicht technischer Natur. Unstrukturiert erfasste Daten sind ein wesentliches Hemmnis bei der Verwertung von Informationen in Suchmaschinen. Für die maschinelle Entscheidungsunterstützung sind derartige Informationen in der Regel wertlos. 

"Unzureichende Datenqualität, macht eine Nachnutzung von Unternehmenswissen mühevoll!"

Systeme die zur Entscheidungsunterstützung eingesetzt werden sollen, müssen eine hohe Datenqualität aufweisen. Die Nutzerversprechen von Big Data und Künstlicher Intelligenz sind nur auf Basis einer hohen Datenqualität erfüllbar.

Ist es schon bei technischen Daten schwierig ein konsistentes Datenschema aufzubauen, wird dies bei unstrukturierten externen Daten ein fast unmögliches Unterfangen.

Mithilfe von maschinellem Lernen sollen bisher unbekannte Muster in großen Datenbeständen erkennbar werden.

Um Muster erkennen zu können müssen Mustern vorhanden sein. Unstrukturiert erzeugt Daten wie sie z.B. in Mails oder in Fotos sind für eine Mustererkennung oft von geringem Wert. Mehr Informationen dazu lesen sie in unserem Blog.
Das Erkennen von Mustern hat in einer komplexen Welt große Vorteile. Wenn die Zahl der Einflussgrößen, explosionsartig zunimmt, reicht die Lebenszeit eines Menschen nicht mehr aus, um diese Datenbestände sinnvoll analysieren zu können. Um wirklich große Datenbestände analysieren zu können müssen jedoch wichtige technische Vorraussetzungen erfüllt werden.

Nicht ohne Grund kommen die wesentlichen und grundlegenden Technologien für Big Data von einem Unternehmen mit den unbestritten größten Datenmengen. MapReduce ist ein von Google eingeführtes Programmiermodell für nebenläufige Berechnungen über (mehrere Petabyte) große Datenmengen auf Computerclustern. Unter anderem basiert das von der Apache Foundation betreute Framework Hadoop auf dem MapReduce-Algorithmus. Weitere Produkte wie Hbase (eine einfache Datenbank zur Verwaltung extrem großer Datenmengen) und Hive (ein ursprünglich von Facebook entwickeltes Projekt mit Data-Warehouse-Funktionalität) setzen auf Hadoop auf.

Maschinelle Unterstützung bei der Daterfassung

Die Aufgabe besteht darin bereits bei der Datenerfassung für eine hohe Qualität zu sorgen.

Mitarbeiter sollen bei der Erfassung von Informationen bestmöglich unterstützt werden. Die Unterstützung erfolgt dabei durch ein Natural Language Processing (NLP) gestütztes Vorschlagssystem. Der vom Autor eingegebene Text wird analysiert d.h. in seine Satzbestandteile zerlegt und gegen eine Ontologie gemapped.   
Diese Ontologie beschreibt einen Wissensbereich (knowledge domain) mit Hilfe einer standardisierenden Terminologie sowie Beziehungen und ggf. Ableitungsregeln zwischen den dort definierten Begriffen. Das gemeinsame Vokabular ist in der Regel in Form einer Taxonomie gegeben, die als Ausgangselemente (modelling primitives) Klassen, Relationen, Funktionen und Axiome enthält.

Im Fall unseres Forschungsvorhabens Simple Anno wurde eine zahnmedizinische Ontologie entwickelt. Als Taxonomie kam das vom Kooperationspartner Quintessenz Publishing entwickelte GlodMed zum Einsatz. 

 

Assoziationsregeln

Assoziationsregeln beschreiben Korrelationen zwischen gemeinsam auftretenden Dingen. Der Zweck einer Assoziationsanalyse besteht darin, Elemente einer Menge, wie z. B. einzelne Artikel eines Warenkorbs zu ermitteln, die das Auftreten anderer Artikel innerhalb einer Transaktion implizieren. Eine solcherart aufgedeckte Beziehung zwischen zwei oder mehr Artikeln kann dann als Regel der Form „Wenn Item(menge) A, dann Item(menge) B“ bzw. A → B dargestellt werden.

Ein typisches Anwendungsfeld sind die Zusammenhänge beim Einkauf, die sogenannte Warenkorbanalyse. Ein Beispiel: Bei 80 Prozent der Einkäufe, in denen Nudeln gekauft werden, werden auch Tomaten gekauft. Beide Produkte kommen in 8 Prozent der Einkäufe vor. Diese Erkenntnisse können im Crossmarketing genutzt werden, um weitere Produkte wie z.B. Olivenöl oder Paprika zu bewerben.
Die Vorraussetzung für Assoziationsregeln ist Domainenwissen.

Auch Suchverläufe kann man mit Assoziationsregeln analysieren. Dadurch entstehen beispielsweise Aussagen wie: Wenn ein Nutzer Bücher über Programmiersprachen wie z.B. "Java" sucht, kauft er mit großer Wahrscheinlichkeit auch Bücher über andere Programmiersprachen..

Predictive Analytics

Im Gegensatz zur Assoziationsregel, werden bei der predictive Analytics anhand gewonenen der Daten Vorhersagemodelle für die Zukunft erstellt. In der Statistik bezeichnet man als Prognosemodell oder Vorhersagemodell ein Modell, das den durch das Regressionsverfahren ermittelten funktionalen Zusammenhang verwendet, um eine Prognose der abhängigen Variablen zu liefern. Wenn zusätzliche x-Werte ohne zugehörigen y-Wert vorliegen, dann kann das angepasste Modell zur Vorhersage des Wertes von y verwendet werden.

Interessante sind predivtiv Analytics für Marketing oder Wartungsaufgaben von Maschinen. Nach dem Erwerb eines Produktes oder einer Maschine werden Vorhersagen über Wartungsintervalle oder Verbrauchsmaterialien anhand der getätigten Käufe ermittelt.

Im Data Mining werden verschiedene Modelle für die jeweiligen Aufgaben eingesetzt. Wir unterstützen sie bei der Auswahl und Bewertung der Modelle die oft auf komplexen Algorithmen beruhen, sodas sie für Anwender oft nicht verständlich sind.

 

Recherchieren, Wissen und Lernen

Searchengine

[j]search is a semantic search engine and DRM for the Single Point of Entry to everybody's personal Knowledge-Space in Dental Medicine. [j]search searches the web for content, especially scientific content, day by day and has interfaces to paid scientific content of several publishers. It finds relations between knowledge objects and combines them to an individual knowledge-space, based on the demand of every user. Content sources of [j]search are sorted in realms, that can be composed depending on the demant of the users of a website. Together with the “Relevancer” engine, a personalized profile for the user is generated. [j]search comes along with a powerful DRM that provides information about prices of paid content and performs a comparison with the individual subscriptions and rights of every user.

 

Product Highlights

  • interfaces to paid content of several publishers
  • interface to open source databases
  • integratable in websites and platforms
  • powerful backend for DRM
  • admin friendly UI for content curation
  • user friendly UI for faceted search
  • variable query types
  • ranked searching - best results return first

 

Integration in third-party applications

In addition to existing plug-and-play components for Liferay, which perform a wide variety of tasks as complete applications, customer specific applications can be developed with the help of [j]search on the basis of powerful Java or Python based interfaces. [j]search provides several high-level integration libraries (full featured Java and Python APIs) and a powerful REST API that allows a caller to extract features from passed content.

JSON, REST and SOAP

 

[j]search can be integrated in almost every website or platform via JSON, REST and SOAP interfaces. [j]search supports a virtually infinite type of custom metadata fields. [j]search has a broad range of metadata attributes, which enables the user to narrow the results according to its needs, e.g. based on attributes like the document type.

Using the [j]search search engine, several functionalities have been developed that work in the open source portal liferay, one of the most used portal technologies worldwide. For liferay portal, two [j]search portlets are available with the following functions and features. Similar functions and portlets could be integrated also in other systems.

MoreLikeThese (This)

Delivers information about similar documents. If termVectors are not stored, MoreLikeThese will generate terms from stored fields for example from Simple Anno. This method returns similar documents for each document in the response set.

Author/Expert Support

[j]search supports enhanced author support along multiple author databases. Information about authors will be aggregated and stored by [j]search. Currently there are more than 1.2 million scientific author and expert records available.

Distributed Search

[j]search - index can be split into multiple shards.

[j]search can query and merge results across those shards. This kind of decomposition of an index allows distributed storage on different servers and server locations. Indexes can be hosted on data storage in different places. Unlike traditional centralized search engines, work such as crawling, data mining, indexing, and query processing is distributed among several peers in a decentralized manner where there is no single point of control and no single point of failure.