Come possiamo informarci tramite notizie attendibili: come affrontare la crisi ‘disinfodemica’
Supervised machine learning vs deep learning architecture
Tratto dall’articolo originale in Inglese “How we can source reliable news: tackling the ‘disinfodemic’ crisis” pubblicato in data: 29 Aprile 2020
Una delle recenti tendenze esasperate dalla diffusione di Internet e dei social media in particolare è la più ampia diffusione delle notizie false. Il 15 aprile 2020 un rapporto del gruppo no profit Avaaz, che ha definito Facebook “epicentro della disinformazione sul coronavirus”, ha citato numerosi post contenenti consigli sanitari pericolosi e false cure. L’azienda ha respinto questa accusa, dicendo di aver rimosso una grande quantità di notizie false nelle ultime settimane. Ha citato statistiche che suggeriscono che le etichette di avvertimento hanno un effetto reale (vedi immagine sopra).
Le Nazioni Unite hanno recentemente scritto sul loro portale di notizie (UN News) che informazioni inaffidabili e false si stanno diffondendo in tutto il mondo a tal punto che alcuni commentatori fanno ora riferimento alla nuova valanga di disinformazione che ha accompagnato la pandemia COVID-19 come “disinfodemica”. Le notizie false sono presenti su una vasta gamma di argomenti: “Non sembra esserci alcuna area esente in relazione alla crisi del COVID-19, che va dall’origine del coronavirus, alla prevenzione non provata e alle ‘cure’, e che comprende risposte da parte di governi, aziende, celebrità e altri”.
Anche quando le notizie false non sono così conseguenti come spesso si teme, è meglio essere in grado di individuarle. Ci sono vari modi per individuare le informazioni false che circolano sul web. Una possibilità, ad esempio, è quella di interrogare la fonte. La fonte è infatti un valido punto di partenza: molti pezzi di successo di notizie false che circolano su WhatsApp su Covid-19, scrive Hugo Mercier sul Guardian, iniziano con “Un amico che ha uno zio a Wuhan” o “Un amico il cui padre lavora al Centro per il controllo delle malattie”.
Valutare e rivedere le fonti di un grande bacino di notizie e informazioni può tuttavia essere un compito ridondante e travolgente. Per questo motivo c’è una crescente pressione verso gli editori online e i mezzi di comunicazione per trovare soluzioni automatizzate in tempo reale che identifichino notizie affidabili. La nuovissima tecnologia di Connexun cerca semplicemente di reperire notizie affidabili.
Connexun ha innanzitutto vagliato ed esaminato attentamente l’elenco delle fonti. Piuttosto che concentrarsi semplicemente sul numero totale di fonti analizzate, la qualità e l’affidabilità delle fonti sono un principio centrale della nostra tecnologia. La selezione a mano e l’esame della qualità del contenuto dei mezzi di informazione è stato un primo passo verso lo sviluppo di un solido pool di fonti. La qualità del contenuto degli editori online sotto esame è infatti centrale per il valore fornito dal nostro motore di news intelligence.
In secondo luogo, la sua tecnologia di clustering e le sue classifiche danno visibilità alle notizie pubblicate dai media e dalle fonti online di diversi Paesi, e forse anche discutendo lo stesso argomento in lingue diverse. È infatti altamente improbabile che notizie false vengano pubblicate da fonti diverse, in paesi e lingue diverse. I nostri cluster includono infatti notizie provenienti da fonti diverse, appartenenti a una vasta gamma di paesi, in idiomi distinti.
Tradizionalmente le notizie false possono essere riconosciute con metodi di natural language processing che utilizzano l’apprendimento automatico supervisionato. Questo approccio richiede la formazione di un campione etichettato come umano di notizie reali e false su argomenti simili per meglio evidenziare le chiare distinzioni tra di loro. L’obiettivo principale è quello di trovare caratteristiche utili e di vettorizzarle per differenziare le notizie false da quelle reali. I modelli Bag-of-words e Term Frequency-Inverse Document Frequency (TF-IDF) sono comunemente usati nella classificazione delle notizie, dove la frequenza di occorrenza di ogni parola o frase (n-grammi) è usata come caratteristica per addestrare un classificatore. Un presupposto è che le notizie false abbiano una combinazione e una frequenza di parole specifiche. Ad esempio, le notizie reali usano il verbo “detto” più spesso di quelle false, perché nella maggior parte delle pubblicazioni giornalistiche reali le fonti sono citate direttamente come “il Presidente del Consiglio dei Ministri italiano ha detto […]”.
Per quanto riguarda Naive Bayes, i classificatori random forest, la macchina di supporto-vettore (SVM) è impiegata. Normalmente la precisione di questi modelli è inferiore al 90%. L’accuratezza mostra la percentuale di casi di Vero positivo (notizie false etichettate dall’uomo che sono state ricostruite dal modello come false) e Vero negativo (notizie reali etichettate dall’uomo che sono state ricostruite dal modello come reali) tra il totale delle osservazioni.
Una tecnica più avanzata è quella di rilevare le notizie false utilizzando, ad esempio, l’architettura Deep Learning: Memoria a breve termine lunga (LSTM) che è una sottoclasse della rete neurale ricorrente (RNNN), delle reti neurali convoluzionali (CNN) e del modello linguistico basato sul BERT. Tutti questi modelli forniscono un livello di precisione superiore al 90%. Il più convincente è il BERT, creato da Google, che è un modello composto da diversi blocchi di trasformatori e codificatori sovrapposti. Il BERT è già pre-formato su un grande corpus di testo (libri, archivi di notizie, Wikipedia) in modo che l’utente effettui una messa a punto per adattare il modello a un compito specifico. I classificatori di notizie false con un modello basato sul BERT potrebbero raggiungere un livello di precisione del 97% o superiore.
Per maggiori informazioni sulle nostre news api o sui nostri news feed, seguiteci su Linkedin o Twitter, oppure contattateci all’indirizzo aldo.visibelli@connexun.com