SCHEMA Blog

Corporate Blog der SCHEMA GmbH

Intelligente Informationen mit Machine Learning und dem SCHEMA Content Delivery Server

Hinterlasse einen Kommentar

Intelligente Informationen sind derzeit das große Thema bei vielen Firmen, die ihren Kunden oder Mitarbeitern Inhalte effizient und situativ bereitstellen möchten, z.B. mit einem Content-Delivery-Portal wie dem SCHEMA Content Delivery Server.

Dem entgegen steht jedoch oft ein hoher manueller Aufwand für die Anreicherung der Inhalte mit Metadaten. In diesem Beitrag sollen Möglichkeiten gezeigt werden, wie mit Hilfe von Machine Learning und Web Hooks eine nahtlose Automatisierung und Integration dieses Prozesses realisiert werden kann.

Intelligente Informationen und effizientes Content Delivery

Intelligente Informationen – damit werden in der Regel modularisierte und mit (klassifizierenden) Metadaten angereicherte Texteinheiten bezeichnet, die neuartige Zugriffsmöglichkeiten abseits des Dokumentenkontexts ermöglichen. Das ist wichtig, denn durch die Verbreitung von Smartphones und Tablets ändert sich auch die geeignete Darstellung von Content, weg von klassischen Dokumenten, hin zu kompakten, geschlossenen Modulen. Zusätzlich steigt die Erwartungshaltung von Benutzern, Informationen möglichst individuell und kontextsensitiv zur Verfügung gestellt zu bekommen.

Die Filterung der Informationen erfolgt in einem Content-Delivery-Portal (CDP) entweder automatisch über das Profil des Anwenders oder manuell, indem z.B. bestimmte Facetten ausgewählt werden können, die eine Suchabfrage weiter eingrenzen. Dieses Vorgehen, das auch bei großen Online-Shopping-Portalen eingesetzt wird, ist mittlerweile zu einer intuitiven Art geworden, durch große Inhaltsmengen zu navigieren.

 

Abbildung 1 Filterung intelligenter Informationen (Jan Oevermann / ICMS GmbH)

 

Grundlage für diese passgerechte Informationsfilterung sind Klassifikationen, z.B. nach PI-Class®. Dabei handelt es sich um eine von Prof. Dr. Wolfgang Ziegler entwickelte Methode, die für die Klassifikation von Modulen verwendet werden kann. PI-Klassifikationen werden als Taxonomien definiert und können systemunabhängig eingesetzt werden. Intrinsische Klassifikationen kategorisieren eindeutig die Informationsart des Inhalts (Informationsklasse) und verknüpfen ihn mit den beschriebenen Produktkomponenten (Produktklasse). Extrinsische Klassifikationen ergänzen die Methode um die vorgesehene (auch mehrfache) Verwendung des Contents für Produktmodelle und Dokumenttypen. Alle diese Klassifikationsmerkmale können als die beschriebenen Facetten in einem CDP anwendbar gemacht werden.

Automatisierte Klassifikation durch Machine Learning

Als „Machine Learning“ (dt.: maschinelles Lernen) bezeichnet man im Allgemeinen Verfahren, die auf Basis von Erfahrung neues Wissen generieren. Dabei werden Lerndaten verwendet, um Muster und Gesetzmäßigkeiten zu erkennen, welche dann auf Daten angewendet werden können, die dem System nicht bekannt sind (sog. Lerntransfer). Wird dem System während der Lernphase mitgeteilt, welche Ergebnisse für die jeweiligen Daten erwartet werden, spricht man von „Überwachtem Lernen“, zu dem auch die automatisierte Klassifizierung gezählt wird. Im Allgemeinen sind Machine-Learning-Verfahren eine Unterform der Künstlichen Intelligenz (KI).

Da die meisten Inhalte einer Technischen Dokumentation weiterhin textbasiert sind, ist besonders die maschinelle Textklassifizierung interessant. Maßgeschneiderte Verfahren zur automatisierten Vergabe von intrinsischen PI-Klassifikationen für Module aus dem Bereich der Technischen Kommunikation sind Gegenstand aktueller Forschung, können aber schon heute eingesetzt werden und z.B. Redakteure bei der Aufbereitung unterstützen. Ein Werkzeug dafür ist die Software fastclass, die auf die automatisierte Vergabe von Klassifikationsschemata aus der Technischen Dokumentation spezialisiert ist.

 

Nahtlose Integration in den SCHEMA CDS mit WebHooks

 

Abbildung 2 Schematischer Prozess mit WebHook (Jan Oevermann / ICMS GmbH)

 

Um den „magischen“ Import-Prozess zu realisieren, werden sog. WebHooks eingesetzt. Dabei handelt es sich um ein Verfahren zur Maschine-Maschine-Kommunikation. In der Regel teilt ein Server A einem Server B dabei mit, dass ein bestimmtes Ereignis eingetreten ist, worauf Server B dann eine Aktion auslösen kann. Im SCHEMA CDS wird ein solcher WebHook für das Ereignis „Paket hochgeladen“ registriert. Tritt das Ereignis ein, wird ein Connector angesprochen, der die automatisierte Klassifizierung der hochgeladenen Inhalte veranlasst und den Prozess steuert (siehe Abbildung). Der Nutzer sieht lediglich, dass nach dem Import nun die Möglichkeit besteht, die hochgeladenen Inhalte über Facetten zu filtern.

Die ehemals „dummen“ Inhalte wurden durch Machine Learning zu intelligenten Informationen!

 

Jan Oevermann, Studium Technische Redaktion sowie Kommunikation und Medienmanagement an der Hochschule Karlsruhe. Doktorand im Bereich Machine Learning an der Universität Bremen. Tätig als Consultant bei ICMS und Mitglied der tekom-AG Information 4.0.

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

w

Verbinde mit %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.