Citation link: http://dx.doi.org/10.25819/ubsi/10255
Files in This Item:
File Description SizeFormat
Dissertation_Zenkert_Johannes.pdf18.74 MBAdobe PDFThumbnail
View/Open
Dokument Type: Doctoral Thesis
metadata.dc.title: Multidimensional Knowledge Representation through Integrative Text Mining
Title addition: a knowledge base framework for extracted information from text
Other Titles: Mehrdimensionale Wissensrepräsentation mittels Integrativem Text Mining
Authors: Zenkert, Johannes  
Institute: Institut für Wissensbasierte Systeme und Wissensmanagement 
Free keywords: Knowledge Representation, Integrative Text Mining, Visualization, Information Extraction
Dewey Decimal Classification: 004 Informatik
GHBS-Clases: TVUC
TVVK
TUH
Issue Date: 2022
Publish Date: 2023
Abstract: 
Natural language processing and text mining methods can be used to identify and extract valuable information from unstructured texts. Methodically extracted data provide helpful results but can be difficult to interpret in their individuality and cannot be used directly as knowledge. Cognitively, we as humans are able to process unstructured data, such as natural language in text form, filter out extracted information, classify it semantically, or interpret it. Computer systems cannot do this without help because it requires meaningful processing and combination of the data and information. Knowledge-based approaches attempt to solve this problem by providing appropriate representations for data and information and, by implementing them as expert systems, offer the possibility of reaching conclusions through inference using the knowledge base.
A methodology for structuring and representing acquired information, which can lead to the transformation of data and information from text to knowledge, is conceptualized, implemented, and evaluated in case studies in this dissertation.
The developed approach is called Multidimensional Knowledge Representation (MKR), since the results of different analysis dimensions are combined into a common representation structure by applying individual single text mining approaches, so-called pipelines. The results of text analysis and facets of knowledge acquisition are stored multi-dimensional in a document-oriented database, which can serve as the basis for a knowledge base in knowledge-based applications.
Current systems and tools for text mining are mostly one-dimensional in their application and focus on a specific evaluation in the analysis. They usually provide insights for a previously defined question, which is methodically investigated within the text data as a linear process. In this context, the various perspectives and interpretations of the pipelines can be described as individual analysis dimensions. From the text information can be extracted, for example, after the pre-processing of the text, the named entities, the present topic, contained semantic relations or the sentiment.
The methods of knowledge extraction, such as named entity recognition, topic detection or sentiment analysis are mostly applied individualized by trained methods and deliver a result that
is finally interpreted. If the respective analysis question changes, the modified pipeline is often executed again in current state-of-the-art approaches. The core idea of MKR in contrast to current approaches is the support of multi-perspective questions by providing dimensional analysis results in the knowledge base. For example, complex questions such as the sentiment over time about a selected entity in a topic area can be answered efficiently by providing and accessing relevant data in the knowledge base.
In addition to the theoretical foundations of the dissertation project, which lead to the conceptualization and modeling of MKR, the implementation as KB:mkr Knowledge Base Maker is presented. Using specially created text corpora in German and English language, the representation structure is evaluated in an exploratory and case-based manner in various application and project examples in academic and industrial contexts.

Mit Natural Language Processing und Text Mining Methoden lassen sich wertvolle Informationen aus unstrukturierten Texten identifizieren und extrahieren. Methodisch gewonnene Daten liefern hilfreiche Ergebnisse, können jedoch in ihrer Individualität schwer interpretiert und nicht unmittelbar als Wissen eingesetzt werden. Kognitiv sind wir als Menschen in der Lage, unstrukturierte Daten, wie natürliche Sprache in Textform, zu verarbeiten, gewonnene Informationen herauszufiltern, semantisch einzuordnen oder zu interpretieren. Computersysteme können dies nicht ohne Hilfe, denn es bedarf einer sinnvollen Verarbeitung und Kombination der Daten und Informationen.
Wissensbasierte Ansätze versuchen dieses Problem durch geeignete Repräsentationsformen für Daten und Informationen zu lösen und bieten durch die Implementierung als Expertensysteme die Möglichkeit, Schlussfolgerungen mithilfe der Wissensbasis zu erzielen. Eine Methodik zur Strukturierung und Repräsentation von gewonnenen Informationen, die zu der Transformation von Daten und Informationen aus Text hin zu Wissen führen kann, wird im Rahmen dieser Dissertation konzeptualisiert, implementiert und in Fallbeispielen evaluiert.
Der entwickelte Ansatz wird als Multidimensional Knowledge Representation (MKR) bezeichnet, da die Ergebnisse verschiedener Analysedimensionen durch die Anwendung individueller einzelner Text Mining Ansätze, sogenannte Pipelines, zu einer gemeinsamen Repräsentationsstruktur zusammengeführt werden. Gespeichert werden die Ergebnisse der Textanalyse und Facetten der Wissensakquisition mehrdimensional in einer Dokumenten-orientierten Datenbank, die als Grundlage für eine Wissensbasis in wissensbasierten Anwendungen dienen kann.
Aktuelle Text Mining Werkzeuge und Tools sind meistens eindimensional in der Anwendung und fokussieren sich auf eine bestimmte Auswertung eines Sachverhalts. Sie liefern meist Erkenntnisse zu einer vorher definierten Fragestellung, die methodisch innerhalb der Textdaten als linear ablaufender Prozess untersucht wird. Als individuelle Analysedimensionen können in diesem Zusammenhang die verschiedenen Perspektiven und Interpretationen der Pipelines bezeichnet werden.
Aus den Textinformationen können beispielsweise nach der Vorverarbeitung des Texts, die genannten Entitäten, das vorliegende Thema, enthaltene semantische Relationen oder das Sentiment extrahiert werden.
Die Methoden der Wissensextraktion, wie beispielsweise die Named Entity Recognition, Topic Detection oder Sentiment Analysis werden meistens individualisiert durch trainierte Methoden angewendet und liefern ein Ergebnis, das schließlich interpretiert wird. Verändert sich die jeweilige Fragestellung, findet im Stand der Technik eine erneute Durchführung der modifizierten Pipeline statt. Kernidee der MKR, im Gegensatz zu aktuellen Ansätzen, ist hierbei die Unterstützung von mehrperspektivischen Fragestellungen durch Bereitstellung dimensionaler Analyseergebnisse in der Wissensbasis. So können beispielsweise komplexe Fragestellungen wie des Sentiments über einen Zeitverlauf zu einer ausgewählten Entität in einem Themengebiet durch Bereitstellung und Zugriff auf relevante Daten in der Wissensbasis effizient beantwortet werden.
Neben den theoretischen Grundlagen des Dissertationsvorhabens, die zur Konzeptualisierung und Modellierung der MKR führen, wird die Implementierung als KB:mkr Knowledge Base Maker vorgestellt. Anhand von eigens erstellten Textkorpora in deutscher und englischer Sprache wird die Repräsentationsstruktur explorativ und fallbasiert in verschiedenen Anwendungs- und Projektbeispielen im akademischen und industriellen Kontext evaluiert.
DOI: http://dx.doi.org/10.25819/ubsi/10255
URN: urn:nbn:de:hbz:467-24487
URI: https://dspace.ub.uni-siegen.de/handle/ubsi/2448
Appears in Collections:Hochschulschriften

This item is protected by original copyright

Show full item record

Page view(s)

441
checked on Nov 19, 2024

Download(s)

137
checked on Nov 19, 2024

Google ScholarTM

Check

Altmetric


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.