In a robust approach to model fitting for the cluster weighted model, many choices are to be made by the statistician: specifying the shape of the clusters in the explanatory variables, assuming (or not) equal variance for the errors in the regression lines, and setting hyper-parameter values for the robust estimation to be protected from outliers and contamination. The most delicate hyper-parameter to specify is perhaps the percentage of trimming, or the amount of data to be excluded from the estimate, to ensure reliable inference. In this work we introduce diagnostic tools to help the professional, or the scientist who needs to group the data, to make an educated choice about this hyper-parameter, after a first exploration of the resulting model space.
Nella stima robusta di un cluster weighted model, lo statistico deve fare molte scelte: specificare la forma dei cluster nelle variabili esplicative, assumere (o meno) varianza uguale per gli errori nelle linee di regressione e impostare i valori degli iper-parametri per la stima robusta, per evitare la distorsione generata da valori anomali e contaminazione. L’iper-parametro più delicato da specificare è la percentuale di trimming, ovvero la quantità di dati da escludere nella stima per garantirne l’affidabilità. In questo lavoro introduciamo specifici strumenti diagnostici per aiutare il professionista, o lo scienziato che ha bisogno di classificare i dati, a compiere una scelta ragionata a riguardo di tale iper-parametro, anche in base ad una prima esplorazione dello spazio delle soluzioni.
Cappozzo, A., Greselin, F. (2021). Monitoring tools for Cluster Weighted Robust Models. In C. Perna, N. Salvati, F. Schirripa Spagnolo (a cura di), Short papers SIS 2021 (pp. 1245-1250). Pearson.
Monitoring tools for Cluster Weighted Robust Models
Cappozzo Andrea;GRESELIN Francesca
2021
Abstract
In a robust approach to model fitting for the cluster weighted model, many choices are to be made by the statistician: specifying the shape of the clusters in the explanatory variables, assuming (or not) equal variance for the errors in the regression lines, and setting hyper-parameter values for the robust estimation to be protected from outliers and contamination. The most delicate hyper-parameter to specify is perhaps the percentage of trimming, or the amount of data to be excluded from the estimate, to ensure reliable inference. In this work we introduce diagnostic tools to help the professional, or the scientist who needs to group the data, to make an educated choice about this hyper-parameter, after a first exploration of the resulting model space.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.