Home » Blog » Giornalismo » Le sfide dell’intelligenza artificiale nel giornalismo investigativo

Le sfide dell’intelligenza artificiale nel giornalismo investigativo

Esploriamo le principali sfide che i giornalisti investigativi devono affrontare quando utilizzano l'intelligenza artificiale, tra cui precisione, parzialità, spiegabilità e risorse, e come possono essere superate con competenza e attenzione.

Intelligenza artificiale e giornalismo - Foto AI

L’integrazione dell’intelligenza artificiale (IA) nelle indagini giornalistiche sta aprendo nuove strade per scoprire e raccontare storie di grande impatto. Tuttavia, come ogni potente strumento, comporta anche sfide significative che richiedono una profonda comprensione e una gestione attenta. In questo articolo approfondito, esamineremo le principali sfide legate all’utilizzo dell’IA nel giornalismo investigativo, concentrandoci su questioni cruciali come l’accuratezza dei modelli, la parzialità e l’equità, la spiegabilità e l’interpretabilità, oltre alle risorse e alle competenze necessarie.

La praticità: risorse, competenze e infrastrutture

Una delle prime sfide che i giornalisti investigativi devono affrontare quando si avvicinano all’IA è la praticità. L’implementazione di tecnologie come l’apprendimento automatico richiede una combinazione specifica di competenze, tempo e risorse, nonché la disponibilità di dati di alta qualità e in quantità sufficiente per addestrare i modelli in modo efficace.

Molte testate giornalistiche hanno optato per esternalizzare parte o l’intero processo di sviluppo di progetti IA, o per stringere partnership con parti terze. Il New York Times, ad esempio, ha utilizzato una piattaforma di rilevamento oggetti di terze parti per la sua indagine sulle crateri di bombe a Gaza, in parte a causa dell’enorme potenza di calcolo richiesta per elaborare le immagini satellitari.

Sicurezza delle informazioni, copyright e protezione dei dati

L’utilizzo di strumenti di terze parti come Google Pinpoint, Cloud Document AI e Gemini o ChatGPT, solleva questioni relative all’indipendenza, al potere e, nel caso in cui vengano immesse informazioni editoriali, alla sicurezza delle informazioni, al copyright, alla privacy e alla protezione dei dati. Molte linee guida aziendali, infatti, vietano esplicitamente l’inserimento di informazioni riservate, segreti commerciali o dati personali in questi strumenti.

Accuratezza: addestramento dei modelli e supervisione umana

La qualità e la quantità dei dati utilizzati per addestrare i modelli di IA hanno un impatto diretto sulla qualità dei risultati ottenuti, un principio riassunto nel mantra “Spazzatura dentro, spazzatura fuori” (GIGO). Questo include la classificazione dei dati di addestramento: nell’indagine “Missing in Chicago“, premiata con il Pulitzer, è stato utilizzato uno strumento di apprendimento automatico chiamato Judy per classificare i record di cattiva condotta della polizia della città, contribuendo a identificare 54 accuse relative a persone scomparse in soli quattro anni. Cruciale, tuttavia, è stato il fatto che i dati di addestramento per lo strumento sono stati creati da 200 volontari della comunità, che hanno etichettato manualmente i record.

Il raggiungimento di un’accuratezza del 100% in un modello è raro,  anzi, un’accuratezza estremamente elevata può essere un segno di “overfitting” ovvero quando un modello si adatta troppo ai suoi dati di addestramento e quindi si comporta male quando viene testato su altri dati. Un modello “overfittato” è spesso diventato troppo complesso, forse perché è stato sovra-addestrato e/o perché il “rumore” irrilevante nei dati sta plasmando l’algoritmo.

D’altra parte, un modello “underfittato” si comporta male sia sui dati di addestramento che sui dati di test, spesso a causa di un modello troppo semplice basato su pochi dati e/o su un addestramento insufficiente. Un algoritmo di successo non sarà né l’uno né l’altro.

Ingegneria delle caratteristiche e supervisione umana

L’ingegneria delle caratteristiche (feature engineering) dovrà essere regolata per modellare l’accuratezza di qualsiasi modello di apprendimento automatico: questo comporta la scelta o l’estrazione degli aspetti dei dati che il modello utilizzerà. Alcune caratteristiche potrebbero dover essere estratte dai dati esistenti, come la conversione o la suddivisione dei dati di testo in dati categorici, o l’utilizzo di due cifre dai dati per calcolare una nuova terza misura. La conoscenza specialistica del campo può essere fondamentale per scegliere le caratteristiche più rilevanti.

Di conseguenza, la supervisione umana è fondamentale per un uso accurato dell’IA, ed è un tema ricorrente sia nelle linee guida delle organizzazioni di notizie sull’utilizzo dell’IA, sia nelle preoccupazioni espresse dai giornalisti stessi.

Interpretabilità e spiegabilità

L’opacità coinvolta nelle decisioni automatizzate può anche presentare problemi per spiegare o addirittura comprendere i risultati dei modelli di IA. Queste due qualità, spiegabilità e interpretabilità, sono separate: un modello potrebbe essere spiegabile (è possibile spiegare cosa fa e perché arriva a un determinato output) ma non interpretabile (non si sa come lo fa).

L’interpretabilità e la spiegabilità possono determinare la scelta della tecnologia: molte indagini optano per un algoritmo “albero delle decisioni” o “foresta casuale” rispetto agli approcci più potenti delle “reti neurali” o del “deep learning” a causa dell’interpretabilità (hanno anche bisogno di meno dati).

Una delle indagini di ProPublica sulle email politiche, ad esempio, ha utilizzato un algoritmo basato su alberi decisionali “perché producono un albero leggibile dall’uomo di partizioni dei dati”, e un articolo del Financial Times che analizzava quanto le caratteristiche dei singoli elettori si correlassero con il comportamento di voto ha utilizzato questo approccio come base per visualizzare una serie di modelli ramificati, con accuratezze che vanno dal 56 al 72 percento.

Diversità, imparzialità ed equità

La tendenza dell’IA verso la parzialità e la mancanza di diversità è spesso al centro del reporting sulla responsabilità algoritmica, ma rappresenta anche una sfida per i reporter che utilizzano la tecnologia stessa. Le categorie di parzialità identificate includono:

  • Etichettatura parziale
  • Caratteristiche parziali (note anche come “curation bias”)
  • Un obiettivo parziale
  • Parzialità di omologazione (dove l’output di un modello viene utilizzato per modelli futuri)
  • Parzialità attiva (dove i dati vengono inventati, ad esempio false notizie)
  • Decisioni impreviste delle macchine (dove la mancanza di contesto porta a “risposte insostenibili”)

La parzialità è anche una considerazione quando si raccolgono dati – le minoranze sono tipicamente sottorappresentate nei set di dati, portando a una parzialità di selezione e a una minore accuratezza in relazione a quei gruppi – e nei test (se un modello non viene testato con input diversi o monitorato per la parzialità).

I grandi modelli linguistici, ad esempio, hanno prestazioni molto peggiori per quanto riguarda le lingue non inglesi e i contesti non occidentali, poiché questi rappresentano una parte molto più piccola sia dei dati di addestramento che dei test, così come il materiale scritto da donne.

Conclusioni

Ciò che colpisce da questa esplorazione dell’IA nel giornalismo investigativo è sia l’ampia gamma di tecnologie utilizzate, sia i modi in cui queste sono state impiegate. E questo non include la vasta gamma di modi in cui i giornalisti investigativi stanno utilizzando gli strumenti di IA generativa in particolare per compiti più di routine, come la generazione di idee e la ricerca, la pianificazione, il feedback editoriale, la pubblicazione e la distribuzione.

Mentre ci sono una serie di sfide per le organizzazioni di notizie che utilizzano l’IA nelle indagini, dall’accuratezza e dall’equità alle risorse e alla spiegabilità, un’area che richiede ulteriori ricerche è l’impatto più sottile sul processo di lavoro – e il nuovo lavoro creato accanto alle efficienze: il lavoro di trovare strumenti IA specifici e imparare a utilizzarli; la suddivisione dei compiti in fasi adatte all’IA o la preparazione del materiale per gli strumenti IA; la scrittura efficace di prompt; la modifica e il controllo dei risultati.

Questo ampio raggio di applicazioni e contesti suggerisce che l’idea di “giornalismo assistito dall’intelligenza artificiale” finirà per essere considerata un termine troppo vago per essere utile – proprio come “computer assisted reporting” è stato visto come datato e ridondante all’inizio di questo secolo. Con l’aumentare dell’alfabetizzazione in questo campo, la ricerca e la discussione dell’industria potrebbero ruotare attorno a termini e campi più specifici: “giornalismo basato sull’apprendimento automatico”, ad esempio, o “indagare con l’NLP” – o “GPT personalizzati nelle indagini visive”. Dobbiamo aspettarci una comprensione più profonda e critica dell’intelligenza artificiale in generale, man mano che il potere dell’IA viene meglio scrutinato in tutti gli aspetti della nostra vita – un processo in cui i giornalisti svolgeranno un ruolo centrale.Imposta immagine in evidenza

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Torna in alto