RL

Professorship for Evolutionary Data Management

Professors

Address

Martensstraße 391058 Erlangen

Contact

Prof. Dr. Richard Lenz is holder of the Professorship for Evolutionary Data Management and professor at our chair since 2007. From May 2020 to March 2021 he provisionally headed the Chair of Computer Science 6. Since October 2022 he has been again provisionally heading the chair, until a new chairholder is appointed.

Research

  • Evolutionary Information Systems
  • Healthcare Information Systems
  • Data Quality and Data Integration
  • Document and Workflow Management
  • Research Data Management

  • Adaptive Data Quality Management for Evolutionary Data Clouds

    (Third Party Funds Single)

    Term: 01/01/2023 – 01/01/2026
    Funding source: Siemens AG
    We propose to investigate the following research questions:- Which characteristics enable a data quality framework to best identify and cluster the most relevant data quality problems in arbitrary business data landscapes?- Can we capture the knowledge about typical data quality concerns and possible solutions in a knowledge graph in order to infer potential solutions in any given case?- How can the data quality metrics in such a framework be designed in general to align well with fitness for use in different business contexts?To address these questions we will investigate the types of data quality problems that occur in such an environment. We will also investigate and compare possible methods to systematically detect and monitor such data quality problems. We will conceptualize a framework for data quality monitoring based on an extensible metadata schema for data quality concerns.We will extract and classify relevant generalizable data quality problems. Furthermore, we will examine the limitations of such a framework regarding transferability to different IT landscapes. We will develop a set of tools and methods which solve the data quality reporting problem independently from the specific environment. We will evaluate our proposed framework and adaptation strategy through a proof-of-concept implementation.
  • Data Driven Relationship Discovery in Large Time Series Datasets

    (Third Party Funds Single)

    Term: 01/04/2022 – 31/03/2025
    Funding source: Siemens AG
    Modern complex systems, such as power plants or other industrial structures, combined with the rise of IoT and Industry 4.0, produce thousands of time series measuring different aspects within these systems. As time series measure the state of these complex systems, the correct identification and integration of these time series are key to enabling advanced analytics and further optimization. As acquiring contextual information about each time series and their relations is currently a time-consuming and error-prone manual process, techniques to support or even automate this process are in high demand. While there are different available metadata formats, such as Brick, this metadata often is not available for all data sources and is not commonly used for all systems. Integrating time series at scale requires efficient algorithms and robust concepts that can deal with the heterogeneity and high volume of time series from different domains.
    Additional Applications and Outcomes:
    Changepoynt Python PackageChangepoint correlation heavily relies on suitable changepoint detection algorithms, many of which were implemented from research papers within a pip-installable package “changepoynt” (https://changepoynt.de). Changepoint detection, a critical task in time series analysis, identifies abrupt shifts or transitions in data patterns, offering insights into underlying phenomena. Developed with flexibility and scalability in mind, “changepoynt” integrates a range of state-of-the-art methods for changepoint detection, empowering researchers across domains to efficiently analyze and interpret their data.
    CATCH: Contextual Anomaly Tracking with Changepoint DetectionTogether with a research partner from the industry, we basically use the inverse of our idea of relationship discovery to detect contextual anomalies. The hypothesis of the project states that signals, which should have relations (e.g. Input-Output measurements of a dynamical system), behave anomalously if they stop showing simultaneous changes. In contrast to classical anomaly detection methods, change point anomaly (the comparison of multiple changepoint signals) is mainly targeted at contextual anomalies, where two signals are measuring the same component, and consequentially should change at similar times when the plant changes operational status. In case the signals change separately, a contextual anomaly occurs.  While the methods are available in theory, the project is necessary to test the applicability, feasibility, and correct parametrization of the methods for selected use cases. A demonstrator for a two-dimensional case can be found under https://anomaly.changescore.de/ and for the multi-dimensional case under https://heatmap.changescore.de/.
  • Processing Heterogeneous Assets and Resources to discover Ontologies and Semantics

    (Own Funds)

    Term: since 01/06/2019
    Der Zweck des Semantic Web ist es, den weltweiten Zugang zum Wissen der Menschheit in maschinenverarbeitbarer Form zu ermöglichen. Ein großes Hindernis dabei ist, dass Wissen oft entweder inkohärent repräsentiert oder gar nicht externalisiert und nur in den Köpfen von Menschen vorhanden ist. Der Aufbau eines Wissensgraphen und die manuelle Erstellung und Fortschreibung einer Ontologie durch einen Domänenexperten ist eine mühsame Arbeit, die einen großen initialen Aufwand erfordert, bis das Ergebnis verwendet werden kann. Infolgedessen wird vieles Wissen dem Semantic Web oft nie zur Verfügung gestellt werden. Ziel dieser Doktorarbeit ist die Entwicklung eines neuen Ansatzes zum Aufbau von Ontologien aus implizitem Benutzerwissen, das in verschiedenen Artefakten wie Anfrageprotokollen oder Nutzerverhalten verborgen ist.
  • Schema Inference and Machine Learning

    (Own Funds)

    Term: 01/08/2018 – 30/09/2021
    Within the framework of the project SIML (Schema Inference and Machine Learning), unstructured and semi-structured data are to be used to generate information from which a partial conceptual schema can be derived. Methods of topological data analysis (TDA) are used in combination with machine learning techniques to automate this as far as possible. In particular, we are interested in a stable, persistent form of natural data when using unsupervised learning methods. As a core concept, functional dependencies after data processing are to be investigated, with the help of which a suitable schema can then be defined. There are parallels and differences for time series and persistent data, which are also to be worked out.

    The motivation of the work is to prove that schemata have a natural geometric structure in the form of a simplicial complex which can be investigated or made visible by topological methods.

  • Sprechaktbasiertes Fallmanagement

    (Own Funds)

    Term: 01/01/2015 – 30/09/2018
    Fallmanagementsysteme unterstützen Interaktionen zwischen kooperierenden Benutzern typischerweise, indem gemeinsam zu verwendende Dokumente in einem gemeinsamen Repositorium vorgehalten werden. Im vorliegenden Projekt wird untersucht, ob und wie diese Interaktionen durch Klassifikation als Sprechakte besser unterstützt werden können. Die Sprechakt-Theorie beschreibt die pragmatischen Aspekte kommunikativen Handelns. Dabei werden Äußerungen je nach der pragmatischen Intention des Sprechers in verschiedene Typen von Sprechakten unterteilt, z.B. Fragen, Versprechen, Aufforderungen etc. Diese Intention ist dem Sprecher wohl bewusst, nicht jedoch den Fallmanagementsystemen, die ihn bei seiner Tätigkeit unterstützen sollen.Im Rahmen des Projekts wird erforscht, wie genau die Intention explizit gemacht werden kann, ohne damit den Dokumentationsaufwand substantiell zu erhöhen. Gelingt dies, können aus den getätigten Sprechakten Inferenzen abgeleitet werden, z.B. um an die Erfüllung von Versprechen zu erinnern, Fehler zu vermeiden und fallspezifisch bekannte Kommunikationsmuster zu unterstützen.Um den konkreten Bedarf an Sprechaktunterstützung bewerten zu können, sollen die Anforderungen von Wissensarbeitern verschiedener Domänen sowie aktueller ACM-Systeme und Groupware analysiert werden (ACM = Adaptive Case Management). Basierend auf diesen Anforderungen soll eine Architektur für ein sprechaktbasiertes ACM-System entworfen werden.
  • Open and Collaborative Query-Driven Analytics

    (Own Funds)

    Term: 01/11/2013 – 31/08/2024
    Mehr und mehr Unternehmen sammeln möglichst alle anfallenden Daten in sogenannten “Data Lakes”. Obwohl die Daten damit prinzipiell für beliebige Analysen zur Verfügung stehen, bleibt es dennoch unerlässlich für die Analyse, ein Verständnis für die Bedeutung und die Verknüpfungsoptionen der Daten zu entwickeln. Analysten, die diese Arbeit bereits geleistet haben, formulieren Anfragen, in denen solches Wissen implizit enthalten ist. Wenn dieses Wissen jedoch nicht mit anderen geteilt wird, bleiben mögliche Synergien ungenutzt und das Verständnis der Daten im “Data Lake” wird erschwert. Wir extrahieren automatisiert Teile dieses Wissens aus analytischen Anfragen, um es in aufbereiteter Form für nachfolgende Analysen nutzen zu können. Datenanalysten werden dadurch schneller auf relevante Datenquellen aufmerksam und die Datenintegration wird erleichtert.
  • Data quality and innovative capability of medical products

    (Third Party Funds Group – Sub project)

    Overall project: Spitzencluster Medical Valley, Verbund Horizontale Innovationen zur Produkt- und Prozessoptimierung
    Term: 01/11/2011 – 31/12/2013
    Funding source: BMBF / Spitzencluster
    Die Integration von Medizinprodukten in die realen Abläufe und Arbeitsprozesse einer Produktivumgebung ist sowohl für Hersteller wie auch Betreiber eine schwierige, zeit- und kostenintensive Aufgabe. Trotz Standardisierung von DICOM und HL7 bereitet die Integration von Softwarekomponenten und Medizinprodukten in ein Krankenhausinformationssystem wegen fehlender geeigneter Validierungsumgebungen immer noch einen erheblichen Aufwand. Gegenstand des Projekts ist die Erstellung einer generischen Testumgebung für Medizinprodukte und einer Methodik zur systematischen Generierung geeigneter Testdaten. Wissenschaftliches Ziel ist die Verbesserung der Methoden zur Integration von datenverarbeitenden Komponenten in den spezifischen Kontext eines Informationssystems. Darüber hinaus ist ein wichtiges Ziel die Erarbeitung von Methoden zur Optimierung der Datenqualität in Informationssystemen aber auch zum Umgang mit Daten minderer Qualität. Mit Hilfe von Modellen der Zielumgebung soll das Anforderungsprofil an neu zu entwickelnden Komponenten verbessert werden. Die Integrierbarkeit der Komponenten soll insbesondere dadurch verbessert werden, dass aus den Modellen bessere, realitätsnähere Testdaten abgeleitet werden können. Gleichzeitig sollen die Modelle helfen, unzureichende Datenqualität in der Zielumgebung frühzeitig zu erkennen, um die Integration gezielt vorbereiten zu können.
  • DQ-Step – Verbesserung der Datenqualität bei AREVA NP / Abteilung NEM-G

    (Third Party Funds Single)

    Term: 15/01/2009 – 15/02/2012
    Funding source: Industrie
    Der Einsatz IT-gestützter Prozesse im Kraftwerksbau in den Bereichen Engineering, Procurement and Construction (EPC) nimmt immer mehr zu, wodurch derQualität der Daten in den IMS (Information Management Systems) immer mehr Bedeutung zukommt. Unter IMS werden in diesem Zusammenhang im Wesentlichen die Software-Produkte Vantage Plant Engineering (VPE), Vantage Plant Design (VPD)und Vantage Project Resource Management (VPRM) sowie die angrenzenden Tools(z.B. MOM, PIS, DM, etc.) verstanden. Die genannten Information-Management-Systeme (IMS) stehen vor einer Reihe von Herausforderungen: Die Datenvolumina steigen, die Integration der Werkzeuge ist nicht optimiert und systembedingt heterogen. Die Qualität der Deliverables (Dokumente, Stücklisten, Zeichnungen usw.) wird oft manuell sichergestellt, wobei z.T. Korrekturen und Ergänzungen nicht sofort an die Quellen zurückgeführt, sondern nur im Dokument vorgenommen werden. Datenquellen sind teilweise redundant vorhanden, Datenströme bzw. -flüsse nicht eindeutig definiert und angewendet. Das Forschungsprojekt soll zu einer Reihe von Techniken und Maßnahmen führen, die zu einer Verbesserung der Datenqualität beitragen. Konkret sollen dazu die im Rahmen der IMS-Datenverarbeitung bei AREVA relevanten Merkmale der Datenqualität sowie entsprechende messbare Qualitätsindikatoren bestimmt werden. Zur nachhaltigen Optimierung der Datenqualität soll eine Systemarchitektur erarbeitet werden, die auf der Basis dieser Qualitätsindikatoren eine Kontrolle der Datenqualität ermöglicht. Grundsätzlich wird angestrebt, qualitätssichernde Maßnahmen so früh und automatisiert wie möglich im Prozess der Datenerhebung zu etablieren. Das Forschungsprojekt soll neben den spezifischen Lösungsansätzen für die gegebene Situation bei AREVAzugleich auch Erkenntnisse liefern, die darüber hinaus Bedeutung haben und auf andere Bereiche übertragen werden können. Hierbei ist auch dir Frage zu klären, wie man optimalerweise Standard-Software ertüchtigen kann, um nachhaltig die Qualität der Daten zu verbessern. Die Untersuchungen sollen auch die weltweite Nutzung der IMS-Tools berücksichtigen.

Publications

2025

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

2000

1999

1997

1996

1995

1994

1993

Teaching

Jobs

  • Member of board of management of the Department of Computer Science
  • Member of the Studienkommission Informatik
  • Member of the Studienkommission IT-Sicherheit
  • Member of the Masterzulassungskommission Medizintechnik
  • Member of the Prüfungsausschuss Data Science
  • Deputy Speaker of the board of management of CDI (Competence Unit for Research Data and Information)
  • Member of Zertifikatskommission Medizinische Informatik