Nell’odierna epoca digitale, le piattaforme online costituiscono uno dei mezzi principali utilizzati dalle persone per cercare informazioni relative alla propria salute. Nonostante il web sia un vasto repository di conoscenze in tale ambito, è affetto dal problema dalla proliferazione e diffusione di disinformazione sanitaria (health misinformation). Questo problema può portare a gravi ripercussioni per la salute pubblica, poiché gli individui possono assumere decisioni basate su informazioni fuorvianti o palesemente false. Questa tesi di dottorato propone quindi tecniche per la mitigazione della disinformazione sanitaria online, affrontando in particolare i problemi della sua identificazione, del reperimento di informazione affidabile e della spiegabilità (explainability) degli algoritmi proposti. Il lavoro di ricerca è iniziato concentrandosi sull’idendificazione della dinsinformazione sanitaria, definendo un modello basato su aspetti topologici, contenutistici e contestuali delle pagine web. Sfruttando un lessico medico specializzato, il modello ha creato rappresentazioni embedded delle pagine. Il modello ha quindi la capacità di considerare, oltre ad altre feature lessicali, anche gli URL incorporati, che si sono rivelati strumentali nello task di classificazione. Le valutazioni comparative hanno dimostrato la superiorità del modello rispetto alle tecniche tradizionali di machine learning. Inoltre, l'inclusione di una rappresentazione pre-addestrata specifica del dominio ha notevolmente amplificato l'efficacia del modello. Si è poi sviluppato il modello Vec4Cred, la cui caratteristica principale è quella di integrare rappresentazioni embedded da parti del discorso e parole chiave delle pagine collegate. I risultati sperimentali hanno confermato la bontà del modello nell'identificare la disinformazione sulla salute online, sottolineando la sua adattabilità ed efficacia. Il reperimento di informazioni sanitarie veritiere costituisce un’altra fase di questo lavoro di ricerca. Varie metodologie sono state investigate, portando allo sviluppo di una strategia di retrieval non supervisionato. Questa soluzione ha considerato informazioni sanitarie contenute in articoli scientifici da confrontare con le informazioni disponibili online, assicurando in questo modo che le informazioni recuperate fossero non solo contestualmente rilevanti, ma anche saldamente ancorate a una validazione scientifica. La nostra ricerca ha anche proposto un modello di re-ranking basato sull’uso di Transformer che sfrutta tecniche di Passage Retrieval. Il principio di base si fonda sull’estrazione dei passaggi testuali più pertinenti di un documento, garantendo così la rilevanza tematica e la veridicità delle informazioni rispetto a tali passaggi. I risultati sperimentali hanno dimostrato la superiorità del modello proposto rispetto a soluzioni di re-ranking convenzionali. La sfida alla disinformazione tuttavia riguarda anche la spiegabilità degli algoritmi. È fondamentale che le persone possano capire il perchè dei risultati che hanno ottenuto, attraverso tecniche di explainability. In quest’ambito, la nostra ricerca ha fatto progressi nel garantire che i risultati di ricerca, soprattutto nel contesto della cosiddetta Consumer Health Search (CHS), fossero non solo accurati, ma anche spiegabili. Considerando al contempo tecniche avanzate di retrieval, rappresentazione testuale e Named Entity Recognition (NER), i nostri modelli sono in grado di rappresentare le informazioni relative alla veridicità dell’informazione sanitaria con un buon livello di chiarezza. È possibile affermare ciò in quanto le soluzioni proposte sono state sottoposte a valutazioni rigorose, anche attraverso l’utilizzo di studi incentrati sull'utente per raccogliere feedback e perfezionare tali metodologie.

In today’s digital age, online platforms serve as a primary conduit for individuals seeking health-related information. While the web provides a vast repository of health knowledge, it has simultaneously birthed a daunting challenge: the proliferation of online health misinformation. This malady, when unchecked, poses serious repercussions for public health, as individuals, often untrained in medical nuances, make health decisions based on misleading or outright false information. Addressing this pressing concern, my thesis delves deep into understanding and mitigating the challenge of Online Health Misinformation, exploring avenues of detection, retrieval, and explainability. Our research journey began with a focus on the detection of health misinformation, by utilizing structural, content, and context-aware strategies. This new model was uniquely poised to assess the truthfulness of online health content. By exploiting a specialized medical lexicon, the model crafted embedded representations of web pages, thereby comprehending subtle nuances associated with health misinformation. The innovation lay in the model’s capability to also consider URLs embedded within these pages, which proved instrumental in the classification effort. Moreover, the strategic inclusion of a domain-specific pre-trained representation considerably amplified the model’s efficiency. In the subsequent phase, we built upon these foundational findings to birth the Vec4Cred model - an advanced approach tailored explicitly for detecting health misinformation online. Vec4Cred was underscored by a multi-layered framework, focusing on embedding representations of various web page attributes. The model’s prowess lay in its capacity to seamlessly integrate embedding representations from parts-of-speech tags and keywords from linked pages. Forward-looking, the model beckons enhancement through advanced contextual embedding methodologies, thereby continually refining its accuracy in misinformation detection. Yet, merely detecting misinformation is not the panacea; the retrieval of truthful health information is equally paramount and constitutes the next step of our work. This technique distinctively juxtaposed online health narratives with scholarly articles, ensuring the retrieved information was not only contextually relevant but also firmly anchored in scientific validation. Our contributions in the realm of Consumer Health Search (CHS) further extended the boundaries of relevance assessment. By integrating multidimensional relevance, we ensured that retrieval outputs were not only topically aligned but also truthful. In light of challenges observed in existing IR literature, our research also proposed a Transformer-based re-ranking model that exploited Passage Retrieval techniques. The central tenet was to extract the most pertinent passage of a document, thus ensuring topical relevance and information truthfulness. Empirical results resonated with our hypothesis, establishing the model’s supremacy over conventional re-ranking solutions. The challenge of misinformation, however, is not just about detection and retrieval. In an era where trust in online information is eroding, explainability becomes a cornerstone. Here, our research made strides in ensuring that search results, especially within the CHS context, were not only accurate but also explainable. By weaving together advanced textual retrieval, representation techniques, and Named Entity Recognition, our models presented health information with a layer of clarity. Importantly, we subjected our approaches to rigorous evaluations, leveraging user-centric studies to glean feedback and refine our methodologies.

(2024). Addressing the Challenge of Online Health Misinformation: Detection, Retrieval, and Explainability. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2024).

Addressing the Challenge of Online Health Misinformation: Detection, Retrieval, and Explainability

UPADHYAY, RISHABH GYANENDRA
2024

Abstract

Nell’odierna epoca digitale, le piattaforme online costituiscono uno dei mezzi principali utilizzati dalle persone per cercare informazioni relative alla propria salute. Nonostante il web sia un vasto repository di conoscenze in tale ambito, è affetto dal problema dalla proliferazione e diffusione di disinformazione sanitaria (health misinformation). Questo problema può portare a gravi ripercussioni per la salute pubblica, poiché gli individui possono assumere decisioni basate su informazioni fuorvianti o palesemente false. Questa tesi di dottorato propone quindi tecniche per la mitigazione della disinformazione sanitaria online, affrontando in particolare i problemi della sua identificazione, del reperimento di informazione affidabile e della spiegabilità (explainability) degli algoritmi proposti. Il lavoro di ricerca è iniziato concentrandosi sull’idendificazione della dinsinformazione sanitaria, definendo un modello basato su aspetti topologici, contenutistici e contestuali delle pagine web. Sfruttando un lessico medico specializzato, il modello ha creato rappresentazioni embedded delle pagine. Il modello ha quindi la capacità di considerare, oltre ad altre feature lessicali, anche gli URL incorporati, che si sono rivelati strumentali nello task di classificazione. Le valutazioni comparative hanno dimostrato la superiorità del modello rispetto alle tecniche tradizionali di machine learning. Inoltre, l'inclusione di una rappresentazione pre-addestrata specifica del dominio ha notevolmente amplificato l'efficacia del modello. Si è poi sviluppato il modello Vec4Cred, la cui caratteristica principale è quella di integrare rappresentazioni embedded da parti del discorso e parole chiave delle pagine collegate. I risultati sperimentali hanno confermato la bontà del modello nell'identificare la disinformazione sulla salute online, sottolineando la sua adattabilità ed efficacia. Il reperimento di informazioni sanitarie veritiere costituisce un’altra fase di questo lavoro di ricerca. Varie metodologie sono state investigate, portando allo sviluppo di una strategia di retrieval non supervisionato. Questa soluzione ha considerato informazioni sanitarie contenute in articoli scientifici da confrontare con le informazioni disponibili online, assicurando in questo modo che le informazioni recuperate fossero non solo contestualmente rilevanti, ma anche saldamente ancorate a una validazione scientifica. La nostra ricerca ha anche proposto un modello di re-ranking basato sull’uso di Transformer che sfrutta tecniche di Passage Retrieval. Il principio di base si fonda sull’estrazione dei passaggi testuali più pertinenti di un documento, garantendo così la rilevanza tematica e la veridicità delle informazioni rispetto a tali passaggi. I risultati sperimentali hanno dimostrato la superiorità del modello proposto rispetto a soluzioni di re-ranking convenzionali. La sfida alla disinformazione tuttavia riguarda anche la spiegabilità degli algoritmi. È fondamentale che le persone possano capire il perchè dei risultati che hanno ottenuto, attraverso tecniche di explainability. In quest’ambito, la nostra ricerca ha fatto progressi nel garantire che i risultati di ricerca, soprattutto nel contesto della cosiddetta Consumer Health Search (CHS), fossero non solo accurati, ma anche spiegabili. Considerando al contempo tecniche avanzate di retrieval, rappresentazione testuale e Named Entity Recognition (NER), i nostri modelli sono in grado di rappresentare le informazioni relative alla veridicità dell’informazione sanitaria con un buon livello di chiarezza. È possibile affermare ciò in quanto le soluzioni proposte sono state sottoposte a valutazioni rigorose, anche attraverso l’utilizzo di studi incentrati sull'utente per raccogliere feedback e perfezionare tali metodologie.
VIVIANI, MARCO
Consumer Health; Health Misinformatio; Information Retrieva; Credibility; NLP
Consumer Health; Health Misinformatio; Information Retrieva; Credibility; NLP
INF/01 - INFORMATICA
English
28-feb-2024
36
2022/2023
open
(2024). Addressing the Challenge of Online Health Misinformation: Detection, Retrieval, and Explainability. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2024).
File in questo prodotto:
File Dimensione Formato  
phd_unimib_865291.pdf

accesso aperto

Descrizione: Addressing the Challenge of Online Health Misinformation: Detection, Retrieval, and Explainability
Tipologia di allegato: Doctoral thesis
Dimensione 1.9 MB
Formato Adobe PDF
1.9 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10281/465160
Citazioni
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
Social impact