Optimizing the latent space of deep generative models

Saseendran, Amrutha

Citation link: http://dx.doi.org/10.25819/ubsi/10472

DC Field	Value	Language
dc.contributor.author	Saseendran, Amrutha	-
dc.date.accessioned	2024-02-28T12:56:41Z	-
dc.date.available	2024-02-28T12:56:41Z	-
dc.date.issued	2023	de
dc.description.abstract	Deep generative models are powerful machine learning models used to model high-dimensional complex data distributions. The rich and semantically expressive latent representations learned by these models are used for various downstream applications in computer vision and natural language processing. It is evident that the effectiveness of the generative techniques highly depends on the quality of the learned representations. Hence in this dissertation, we focus on improving the desirable properties of the learned latent space of two popular deep generative models, Generative Adversarial Networks (GANs) and Variational Autoencoders (VAEs). Specifically, we focus on properties such as generalizability, ontrollability, smoothness, and adversarial robustness. In the first technical contribution we present in this work, we focus on improving the controllability of latent representations in GANs to generate high-quality images. To be precise, we propose a method to control the content of the generated images solely based on the defined number of objects from multiple classes and introduce a state-of-the-art conditioned adversarial network. We also introduce a real-world count-based dataset called CityCount to validate our results in challenging scenarios. Next, we explore the learned representations of VAEs and some of the practical limitations associated with them. To this end, we propose a simple, novel, and end-to-end trainable deterministic autoencoding method that efficiently structures the latent space of the model during training and leverages the capacity of expressive multimodal latent distributions. We demonstrate the potential of the proposed method for modeling both continuous and discrete data structures. Finally, we investigate the adversarial robustness of the learned representations in VAEs. One of the major limitations in existing robust VAE models is the trade-off between the quality of image generation and the robustness achieved. We show that the learned representations in the proposed regularized deterministic autoencoders with a comparatively cheap adversarial learning scheme exhibit superior robustness to adversarial attacks without compromising the quality of image generation.	en
dc.description.abstract	Tiefe generative Modelle sind leistungsstarke maschinelle Lernmodelle, die zur Modellierung hochdimensionaler komplexer Datenverteilungen verwendet werden. Die reichhaltigen und semantisch aussagekräftigen latenten Repräsentationen, die von diesen Modellen erlernt werden, werden für verschiedene Anwendungen in der Computer Vision und der Verarbeitung natürlicher Sprache verwendet. Es ist offensichtlich, dass die Effektivität der generativen Techniken in hohem Maße von der Qualität der erlernten Repräsentationen abhängt. Daher konzentrieren wir uns in dieser Dissertation auf die Verbesserung der Eigenschaften des erlernten latenten Raums von zwei weit verbreiteten tiefen generativen Modellen, Generative Adversarial Networks (GANs) und Variational Autoencoders (VAEs). Insbesondere konzentrieren wir uns auf Eigenschaften wie Generalisierungsfähigkeit, Kontrollierbarkeit, Glattheit und Widerstandsfähigkeit gegenüber widrigen Umständen. Im ersten technischen Beitrag, den wir in dieser Arbeit vorstellen, konzentrieren wir uns auf die Verbesserung der Kontrollierbarkeit latenter Darstellungen in GANs, um qualitativ hochwertige Bilder zu erzeugen. Um genau zu sein, schlagen wir eine Methode vor, um den Inhalt der generierten Bilder allein auf der Grundlage der definierten Anzahl von Objekten aus mehreren Klassen zu kontrollieren, und führen ein modernes konditioniertes adversarisches Netzwerk ein. Außerdem stellen wir einen realen zählbasierten Datensatz namens CityCount vor, um unsere Ergebnisse in anspruchsvollen Szenarien zu validieren. Als nächstes untersuchen wir die erlernten Darstellungen von VAEs und einige der damit verbundenen praktischen Einschränkungen. Zu diesem Zweck schlagen wir eine einfache, neuartige und durchgängig trainierbare deterministische Autocodierungsmethode vor, die den latenten Raum des Modells während des Trainings effizient strukturiert und die Kapazität ausdrucksstarker multimodaler latenter Verteilungen nutzt. Wir demonstrieren das Potenzial der vorgeschlagenen Methode für die Modellierung sowohl kontinuierlicher als auch diskreter Datenstrukturen. Schließlich untersuchen wir die Robustheit der erlernten Repräsentationen in VAEs gegenüber nachteiligen Einflüssen. Eine der größten Einschränkungen bei bestehenden robusten VAE-Modellen ist der Kompromiss zwischen der Qualität der Bilderzeugung und der erreichten Robustheit. Wir zeigen, dass die gelernten Repräsentationen in den vorgeschlagenen regularisierten deterministischen Autoencodern mit einem vergleichsweise billigen adversarischen Lernschema eine überlegene Robustheit gegenüber adversarischen Angriffen aufweisen, ohne die Qualität der Bilderzeugung zu beeinträchtigen.	de
dc.identifier.doi	http://dx.doi.org/10.25819/ubsi/10472	-
dc.identifier.uri	https://dspace.ub.uni-siegen.de/handle/ubsi/2684	-
dc.identifier.urn	urn:nbn:de:hbz:467-26841	-
dc.language.iso	en	de
dc.subject.ddc	004 Informatik	de
dc.subject.other	Generative models	en
dc.subject.other	Representation learning	en
dc.subject.other	Generative Adversarial Network	en
dc.subject.other	Variational Autoencoder	en
dc.subject.other	Adversarial robustness	en
dc.subject.other	Generative Modelle	de
dc.subject.other	Repräsentatives Lernen	de
dc.subject.other	Generatives Adversariales Netzwerk	de
dc.subject.other	Variierender Autoencoder	de
dc.subject.other	Adversarielle Robustheit	de
dc.title	Optimizing the latent space of deep generative models	en
dc.title.alternative	Optimierung des latenten Raums von tiefen generativen Modellen	de
dc.type	Doctoral Thesis	de
item.fulltext	With Fulltext	-
ubsi.contributor.referee	Keuper, Margret	-
ubsi.date.accepted	2023-12-06	-
ubsi.fodasi.data	true	*
ubsi.organisation.granting	Universität Siegen	-
ubsi.origin.dspace5	1	-
ubsi.publication.affiliation	Department Elektrotechnik - Informatik	de
ubsi.subject.ghbs	TVUC	de
ubsi.subject.ghbs	TVVC	de
ubsi.subject.ghbs	TUH	de
Appears in Collections:	Hochschulschriften

Files in This Item:

File	Description	Size	Format
Dissertation_Saseendran_Amrutha.pdf		13.42 MB	Adobe PDF	View/Open

This item is protected by original copyright

View License

Show simple item record

Page view(s)

355

checked on Dec 26, 2024

Download(s)

116

checked on Dec 26, 2024

Google Scholar^TM

Check

Opus Siegen

Files in This Item:

Page view(s)

Download(s)

Google Scholar^TM

Altmetric

Opus Siegen

Files in This Item:

Page view(s)

Download(s)

Google ScholarTM

Altmetric

Google Scholar^TM