Throughout this thesis, we embrace the Bayesian mixture models setting, harnessing their flexibility and adaptability to address a range of challenging research questions concerning data clustering. This manuscript is a collection of three projects. The first two projects are dedicated to the use of Bayesian Nonparametric (BNP) methods. In the concluding project, we focus on a parametric setting, and provide a novel methodological framework to investigate specific research inquiries arising in topic modeling. The manuscript addresses distinct research questions, each approached through the lens of Bayesian methodology. In Chapter 2, we tackle the challenge of simultaneous clustering of users and items within datasets riddled with missing information, a common occurrence in data from social platforms. We propose an innovative co-clustering method that accommodates informative censoring, providing a robust solution for handling missing data and extracting valuable insights. Chapter 3 shifts the focus towards modeling the evolution of data partitions over time, exploring dynamic changepoint detection using temporal random partition models. This approach captures evolving partition structures while effectively detecting changepoints, contributing significantly to the field of temporal modeling with random partitions. In the final chapter, we introduce a novel model based on distributions defined on the simplex to address the intriguing question of whether such distributions can capture various forms of dependence among topics in a corpus of textual documents. Our investigation leads us to the definition of a model characterized by positive correlation across topics, highlighting the versatility and applicability of simplex-based distributions in modeling complicated relationships within textual datasets. In summary, this thesis aims at providing a thoughtful perspective on Bayesian mixture models and their applications, while also presenting innovative solutions to various research questions, demonstrating the breadth and depth of Bayesian methodology in tackling complex data analysis problems.

In questa tesi, adottiamo il setting di modelli di mistura bayesiani, sfruttando la loro flessibilità e adattabilità per affrontare una serie di domande di ricerca che sono challenging e che riguardano il clustering dei dati. Questo manoscritto è una raccolta di tre progetti. I primi due progetti sono dedicati all'utilizzo dei metodi bayesiani non parametrici (BNP). Nel progetto conclusivo, ci concentriamo su un contesto parametrico e forniamo un nuovo quadro metodologico per indagare specifiche domande di ricerca che emergono nell’area del topic modelling. Il manoscritto affronta domande di ricerca distinte, ciascuna affrontata attraverso la lente della metodologia bayesiana. Nel Capitolo 2 affrontiamo la sfida del clustering simultaneo di utenti ed items all'interno di dataset contenenti informazioni mancanti, come spesso accade da dati provenienti dalle piattaforme social. Proponiamo un metodo innovativo di co-clustering che consente di avere censura informativa, fornendo una soluzione solida per la gestione dei dati mancanti e l'estrazione di informazioni dai dati. Il Capitolo 3 sposta l'attenzione verso la modellazione dell'evoluzione delle partizioni dei dati nel tempo, esplorando il rilevamento dinamico di changepoint utilizzando random partition model. Questo approccio cattura l'evoluzione delle strutture di partizione rilevando al tempo stesso in modo efficace i changepoint, contribuendo in modo significativo al campo dei modelli per partizioni con dipendenza temporale. Nel capitolo finale, introduciamo un nuovo modello basato su distribuzioni definite sul simplesso per affrontare il problema se tali distribuzioni possano catturare varie forme di dipendenza tra argomenti in un corpus di documenti testuali. La nostra indagine ci porta alla definizione di un modello caratterizzato da correlazione positiva tra topic, evidenziando la versatilità e l'applicabilità delle distribuzioni basate sul simplesso nel modellare relazioni complesse all'interno di set di dati testuali. In sintesi, questa tesi mira a fornire una prospettiva ponderata sui modelli di mistura bayesiana e sulle loro applicazioni, presentando anche soluzioni innovative a varie domande di ricerca, dimostrando l'ampiezza e la profondità della metodologia bayesiana nell'affrontare problemi complessi di analisi dei dati.

(2024). Innovative approaches to Bayesian Clustering Methods: parametric and nonparametric perspectives. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2024).

Innovative approaches to Bayesian Clustering Methods: parametric and nonparametric perspectives

GIAMPINO, ALICE
2024

Abstract

Throughout this thesis, we embrace the Bayesian mixture models setting, harnessing their flexibility and adaptability to address a range of challenging research questions concerning data clustering. This manuscript is a collection of three projects. The first two projects are dedicated to the use of Bayesian Nonparametric (BNP) methods. In the concluding project, we focus on a parametric setting, and provide a novel methodological framework to investigate specific research inquiries arising in topic modeling. The manuscript addresses distinct research questions, each approached through the lens of Bayesian methodology. In Chapter 2, we tackle the challenge of simultaneous clustering of users and items within datasets riddled with missing information, a common occurrence in data from social platforms. We propose an innovative co-clustering method that accommodates informative censoring, providing a robust solution for handling missing data and extracting valuable insights. Chapter 3 shifts the focus towards modeling the evolution of data partitions over time, exploring dynamic changepoint detection using temporal random partition models. This approach captures evolving partition structures while effectively detecting changepoints, contributing significantly to the field of temporal modeling with random partitions. In the final chapter, we introduce a novel model based on distributions defined on the simplex to address the intriguing question of whether such distributions can capture various forms of dependence among topics in a corpus of textual documents. Our investigation leads us to the definition of a model characterized by positive correlation across topics, highlighting the versatility and applicability of simplex-based distributions in modeling complicated relationships within textual datasets. In summary, this thesis aims at providing a thoughtful perspective on Bayesian mixture models and their applications, while also presenting innovative solutions to various research questions, demonstrating the breadth and depth of Bayesian methodology in tackling complex data analysis problems.
NIPOTI, BERNARDO
MIGLIORATI, SONIA
Modelli mistura; Dirichlet process; Co-clustering; Changepoint; Topic modeling
Mixture models; Dirichlet process; Co-clustering; Changepoint; Topic modeling
SECS-S/01 - STATISTICA
English
28-feb-2024
35
2022/2023
open
(2024). Innovative approaches to Bayesian Clustering Methods: parametric and nonparametric perspectives. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2024).
File in questo prodotto:
File Dimensione Formato  
phd_unimib_790347.pdf

accesso aperto

Descrizione: Tesi di Giampino Alice - 790347
Tipologia di allegato: Doctoral thesis
Dimensione 2.91 MB
Formato Adobe PDF
2.91 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10281/461718
Citazioni
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
Social impact