Zitierlink: http://dx.doi.org/10.25819/ubsi/10537
Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat
Dissertation_Droege_Hannah.pdf9.69 MBAdobe PDFMiniaturbild
Öffnen/Anzeigen
Dokumentart: Doctoral Thesis
Titel: On the confluence of machine learning and model-based energy minimization methods for computer vision
Sonstiger Titel: Über das Zusammenwirken von maschinellem Lernen und modellbasierten Energieminimierungsmethoden für Computer Vision
AutorInn(en): Dröge, Hannah 
Institut: Department Elektrotechnik - Informatik 
Schlagwörter: Computer vision, Machine learning, Energy minimization, Computer Vision, Maschinelles Lernen, Energieminimierung
DDC-Sachgruppe: 004 Informatik
GHBS-Notation: TVUC
TUH
Erscheinungsjahr: 2024
Publikationsjahr: 2024
Zusammenfassung: 
Deep learning has achieved great success in the field of computer vision across a wide range of applications. However, learning-based methods still have several limitations, particularly in terms of interpretability and guarantees. In contrast, traditional model-based computer vision techniques, built on explicit models that are derived from our understanding of the specific problem domain, offer a different and interpretable approach on addressing these challenges.
In this work, we analyze and further develop hybrid approaches that combine model-based and learning-based methods in computer vision, introducing four different approaches. We analyze the capabilities of both model-based and learning-based methods, discuss the value of deep learning for underdetermined problems, present an extended approach to incorporate learning directly into the optimization process, and address problems where the challenge lies in the intrinsic formulation of the problem itself. Thereby we deal with different application areas in the field of computer vision. We start with studying segmentation problems on a single image, given only user input in the form of drawn scribbles in the color images, and analyze the performance of learning-based methods to incorporate the scribble information, compared to a cleverly designed model-based approach. Further, we address reconstruction problems, focusing on underdetermined computed tomography reconstructions of lung scans. We integrate a learning-based regularizer into the reconstruction process and explore the space of possible data-consistent reconstructions corresponding to various degrees of pathological malignancy. Also, to integrate neural networks into model-based approaches, we build on recent studies, which aim to learn iterative descent directions for minimizing model-based cost functions. By applying Moreau-Yosida regularization, we introduce a method that avoids the need for differentiability. This is a significant improvement over previous approaches, that are limited to continuously differentiable cost functions. For solving matching and assignment problems, we introduce an approach that approximates large permutation matrices and reduces computation and memory costs by non-linear low-rank matrix factorization. We experimentally demonstrate its performance across various model- and learning-based methods.

Deep Learning hat im Bereich der ''Computer Vision'' für eine Vielzahl von Anwendungen große Erfolge erzielt. Allerdings weisen lernbasierte Methoden noch einige Einschränkungen auf, insbesondere in Bezug auf Interpretierbarkeit und Garantien. Im Gegensatz dazu bieten traditionelle, modellbasierte Techniken der ''Computer Vision'', die auf expliziten Modellen basieren und aus unserem Verständnis des spezifischen Problembereichs abgeleitet sind, einen anderen und interpretierbaren Ansatz, um diese Herausforderungen anzugehen.
In dieser Arbeit analysieren und entwickeln wir hybride Ansätze weiter, die modellbasierte und lernbasierte Computer-Vision-Methoden kombinieren und stellen hierzu vier verschiedene Ansätze vor. Wir analysieren die Fähigkeiten sowohl modellbasierter als auch lernbasierter Methoden, diskutieren den Nutzen von Deep Learning bei unterbestimmten Problemen, präsentieren einen erweiterten Ansatz zur direkten Integration des Lernens in den Optimierungsprozess und befassen uns mit Problemen, in denen die Herausforderung in der intrinsischen Formulierung des Problems selber liegt. Dabei beschäftigen wir uns mit verschiedenen Anwendungsbereichen im Bereich der ''Computer Vision''. Wir beginnen mit der Untersuchung von Segmentierungsproblemen auf einzelnen Bildern, die ausschließlich Benutzereingaben in Form von auf den Farbbildern gezeichneten Markierungen erhalten, und vergleichen die Leistung von lernbasierten Methoden zur Einbeziehung der Markierungen mit einem durchdachten modellbasierten Ansatz. Außerdem befassen wir uns mit Rekonstruktionsproblemen, insbesondere mit unterbestimmten Computertomographie-Rekonstruktionen von Lungenscans. Wir integrieren einen lernbasierten Regularisierer in den Rekonstruktionsprozess und erkunden den Raum möglicher, datenkonsistenter Rekonstruktionen, die verschiedenen Graden von pathologischer Bösartigkeit entsprechen. Um neuronale Netze in modellbasierte Ansätze zu integrieren, stützen wir uns auf aktuelle Studien, die die iterativen Abstiegsrichtungen zum Minimieren modellbasierter Kostenfunktionen erlernen. Durch die Anwendung der Moreau-Yosida-Regularisierung führen wir eine Methode ein, die die Notwendigkeit der Differenzierbarkeit umgeht. Dies ist ein bedeutender Fortschritt gegenüber früheren Ansätzen, die auf stetig differenzierbare Kostenfunktionen beschränkt sind. Zur Lösung von Matching- und Zuordnungsproblemen stellen wir einen Ansatz vor, der große Permutationsmatrizen approximiert und die Rechen- und Speicherkosten durch nichtlineare Matrixfaktorisierung mit niedrigem Rang reduziert. Wir demonstrieren experimentell die Leistungsfähigkeit dieses Ansatzes in verschiedenen modell- und lernbasierten Methoden.
DOI: http://dx.doi.org/10.25819/ubsi/10537
URN: urn:nbn:de:hbz:467-27511
URI: https://dspace.ub.uni-siegen.de/handle/ubsi/2751
Lizenz: http://creativecommons.org/licenses/by/4.0/
Enthalten in den Sammlungen:Hochschulschriften

Diese Ressource ist urheberrechtlich geschützt.

Zur Langanzeige

Seitenansichten

351
checked on 27.12.2024

Download(s)

113
checked on 27.12.2024

Google ScholarTM

Prüfe

Prüfe


Diese Ressource wurde unter folgender Copyright-Bestimmung veröffentlicht: Lizenz von Creative Commons Creative Commons