A family of Flexible mixture distributions for constrained data

Ascari, R

Some kind of data are defined on unusual mathematical spaces instead of classical ones as the D-dimensional real space. For instance, compositional data belong to the D-dimensional simplex, defined as the space of positive vectors subject to a unit-sum constraint (i.e. proportions). Note that compositional data are prevalent in many disciplines (e.g. geology, medicine, economics, psychology, environmetrics, etc.), therefore their proper treatment is a relevant issue. The Dirichlet is one of the most known distribution defined on the simplex. Although it has several mathematical properties, in many real applications it does not fit the data well, due to its extreme forms of simplicial independence or stiffness in modeling cluster structure and the covariance matrix. Moreover, the Dirichlet distribution allows only one finite mode. The purpose of this thesis is to compare some distributions proposed in the literature in order to overcome these drawbacks. In particular, the main aspects of the Additive-Logistic Normal (proposed by Aitchison in his complete methodology in 1986) and the Flexibile Dirichlet (FD, proposed by Ongaro and Migliorati in 2013) distributions are recalled. The FD has a particular finite mixture structure (with Dirichlet components) that allows for multimodality and a more flexibile modelization of the covariance matrix. In particular, the covariance between distinct elements of a FD-distributed vector are negative; this is coherent with the unit-sum constraint imposed by the simplex, but in some applications such a covariance may be positive. For this reason, a new generalization of both the Dirichlet and the FD distributions has been proposed in some conferences: the Extended Flexible Dirichlet. This distribution can be obtained normalizing a particular basis Y = (Y_1, …, Y_D), where Y_r = W_r + X_r * U_r, r = 1,… , D. W_r ~ Gamma(alpha_r, beta) are independent random variables, U_r ~ Gamma(tau_r, beta) are independent of each other and independent of each W_r and Z = (Z_1, …, Z_D) is a further independent random variable distributed according to a Multinomial (1, p). Then X = Y/(Y_1 + … + Y_D) ~ EFD(alpha, tau, p). The EFD preserves a finite mixture structure as the FD, but it exhibits some relevant advantages over the FD, such as a more flexible cluster structure and a (even strong) positive dependence for some pairs of variables. In this work, some theoretical and computational aspects related to this model have been completed. In particular, it is possible to obtain Maximum Likelihood estimates through the EM algorithm that is a very precise procedure to find maximizers but it depends heavily on its starting point. For this reason, a simulation study aimed at selecting the best initialization procedure among three proposed have been set up. A very important and significant part of this thesis regards the proposal of a new extension of the Flexible Dirichlet. Both the FD and the EFD distributions allow for a number k < D of possible modes. Even this new model, called Double Flexible Dirichlet (DFD), has a finite mixture structure, but D*(D+1)/2 modes (one for each cluster implied by the mixture structure) are possible. Even this model allows for also positive correlation among two distinct elements of the composition, despite the unit-sum constraint. A lot of theoretical properties have been proved as well as computational aspects have been handled through the R software. The main drawback of this model is the high number of parameters to be estimated. This penalizes the DFD model when one compares it with other models through some criterion like AIC and BIC. Moreover, the DFD assumes that the D*(D+1)/2 clusters are located in a very rigid scheme. The presented models have been compared through simulation studies and analyzing two datasets: the olive oil data from the R package "pdfcluster" and a dataset regarding the results of the 2018 Italian general election.

Alcune classi di dati sono definite su spazi matematici diversi dal classico spazio reale a D dimensioni. Ad esempio, i dati composizionali sono contenuti nel simplesso, cioè lo spazio dei vettori positivi con componenti che sommano all’unità. Questi dati si possono trovare in molti campi (geologia, medicina, economia, psicologia, etc.) e quindi la definizione di una qualche metodologia atta alla loro analisi è necessaria. La distribuzione più famosa definita sul simplesso è la Dirichlet. Nonostante essa abbia numerose proprietà matematiche, in molte applicazioni reali essa non si adatta molto bene ai dati a causa del rigido schema di indipendenze supposto dal modello e/o dalla rigidità imposta sulla parametrizzazione della matrice di varianze e covarianze. Inoltre, la Dirichlet permette di avere al più una moda finita. Lo scopo di questa tesi è quello di confrontare alcune distribuzioni definite in letteratura per superare gli svantaggi derivanti dalla Dirichlet. Nello specifico, sono stati richiamati gli aspetti principali della Additive Logistic-Normal (ALN, proposta da Aitchison nel 1986) e della Flexible Dirichlet (FD, proposta da Ongaro e Migliorati nel 2013). La FD può essere definita come un modello mistura con componenti distribuite secondo una Dirichlet e che quindi consente una maggiore flessibilità (ad esempio nella struttura della matrice di varianze e covarianze e nel permettere più mode finite). Le covarianze tra elementi distinti di un vettore distribuito secondo una FD sono negative. Nonostante questo sia coerente con il vincolo di somma a 1 imposto dal simplesso, spesso nei dati reali le covarianze di dati composizionali possono essere positive. Per questa ragione, in alcune conferenze è stata proposta una nuova distribuzione che generalizza la FD (e, di conseguenza, la Dirichlet): l’Extended Flexible Dirichlet (EFD). Questa distribuzione può essere ottenuta normalizzando una particolare base Y = (Y_1, …, Y_D), dove Y_r = W_r + X_r * U_r, r = 1,… , D. I vettori W=(W_1, …, W_D), U=(U_1, …, U_D) e Z=(Z_1, …, Z_D) sono congiuntamente indipendenti. Inoltre, W_r ~ Gamma(alpha_r, beta) sono variabili casuali indipendenti, U_r ~ Gamma(tau_r, beta) sono indipendenti tra loro e Z = (Z_1, …, Z_D) è distribuita secondo una Multinomial (1, p). Quindi, X = Y/(Y_1 + … + Y_D) ~ EFD(alpha, tau, p). Anche la EFD può essere espressa come un modello mistura e ha dei vantaggi rispetto alla FD: i cluster (derivanti dalla definizione di componenti della mistura) possono essere allocati in maniera più flessibile nel simplesso e inoltre le correlazioni possono assumere anche valori positivi tendenti all’unità. In questo lavoro sono stati completati alcuni aspetti teorici e computazionali. In particolare, è possibile ottenere stime di Massima Verosimiglianza per mezzo dell’algoritmo EM, il quale è molto preciso nel trovare il punto di massimo ma è sensibile al valore iniziale fornitogli. Per questo motivo è stato impostato uno studio di simulazione allo scopo di selezionare la miglior procedura di inizializzazione tra tre proposte. Il cuore di questa tesi riguarda la proposta di una nuova estensione della FD. È da notare che sia la FD che la EFD consentono di avere al più k<D mode. Nonostante il modello proposto, chiamato Double Flexible Dirichlet (DFD) abbia anch’esso natura di mistura, esso può avere fino a D*(D+1)/2 mode finite. Questo modello consente di avere correlazioni positivi come la EFD, nonostante abbia una struttura diversa. Sono state dimostrate molte proprietà teoriche e allo stesso tempo gli aspetti computazionali sono stati implementati in R. I modelli fin qui presentati (Dirichlet, ALN, FD, EFD and DFD) sono stati confrontati mediante simulazioni e due applicazioni. Infine, un modello composto per dati di conteggi è stato introdotto, mostrando alcune sue proprietà.

(2019). A family of Flexible mixture distributions for constrained data. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2019).