Cos'è il rumore?

Tag: Pregiudizio, Prenota, Daniel Kahneman, Statistiche, Varianza, Vasant Dhar

Potremmo avere un senso ragionevole di cosa sia il "rumore" come alcuni fenomeni staticamente casuali che si verificano in Natura. Ma come può essere definita - e compresa - questa stessa caratteristica nel contesto dell'elaborazione di giudizi, come nel comportamento umano, nel processo decisionale aziendale, nella medicina, nella legge e nei sistemi di intelligenza artificiale?

Commenti

By Vasant Dhar, Ricercatore di intelligenza artificiale, professore alla NYU Stern School of Business.

Se due criminali ricevono condanne a tre anni e sette anni quando dovrebbero essere condannati entrambi a cinque, la differenza è dovuta al rumore. La media di tre e sette è infatti cinque, ma ovviamente giustizia non è stata fatta! Mi ricorda la battuta sui tre statistici a caccia: il primo supera di un piede, il secondo supera di un piede e il terzo dice: "Preso!" In pratica errori di questo genere non si annullano ma si sommano, con spiacevoli ripercussioni.

Rumore: un difetto nel giudizio umano Di Daniel Kahneman, Cass R. Sunstein e Olivier Sibony.
Pubblicato il 05.18.2021, Little, Brown Spark, 464 pagine.

Il rumore mina credibilità e fiducia. La sentenza di un imputato non dovrebbe dipendere dal giudice a cui viene assegnato il caso, eppure lo fa. Ogni volta che giudici diversi prendono decisioni diverse su dati identici, c'è rumore nel sistema. Il risultato inoltre non dovrebbe dipendere dall'umore del giudice o dal tempo, eppure sì, il che rappresenta l'incoerenza di un singolo giudice. Queste due forme di rumore si applicano a tutte le aree della nostra vita che coinvolgono il giudizio umano: giustizia, salute, custodia dei bambini, immigrazione, assunzione, brevetti, previsioni, assicurazioni e altro ancora. Il giudizio umano è invariabilmente tormentato dal rumore.

È anche tipicamente "di parte". Esempi di parzialità sarebbero un giudice che concede la libertà vigilata al cinque percento dei casi rispetto a un altro giudice che la concede al 95 percento degli stessi casi. In altre parole, una tendenza alla clemenza o alla severità è un pregiudizio. La discriminazione sulla base della razza o del genere è un altro esempio di pregiudizio.

Notoriamente Lord Kelvin ha scritto che per capire qualcosa, devi essere in grado di misurarlo. In Rumore, gli accademici Daniel Kahneman, Cass Sunstein e Olivier Sibony sintetizzano un'ampia letteratura esistente sul processo decisionale umano e algoritmico per fare esattamente questo: forniscono misurazioni nitide ed esempi di errore, suddividendoli in rumore e bias. Mentre il pregiudizio ha dominato i titoli, con accuse di pregiudizi razziali nel sistema di giustizia penale - accentuati dalla nostra determinazione a riconoscere e adeguare secoli di discriminazione razziale - gli autori mostrano perché il rumore è in genere un problema molto più grande.

Ma come si misura l'errore? Gli autori sottolineano che bias e rumore sono fonti indipendenti di errore. Possono essere pensati come "ortogonali". La matematica è facile e consiste nell'utilizzare il teorema di Pitagora, che i lettori potrebbero ricordare dalle lezioni di geometria delle scuole superiori. Dal momento che gli errori possono essere positivi e negativi, come nel tiro dell'anatra, non possiamo semplicemente fare una media e chiamarla un giorno. Invece, di solito li eleviamo al quadrato per primi: l'errore complessivo è uguale a bias al quadrato più rumore al quadrato. Pensa a un triangolo rettangolo, con i lati ortogonali che rappresentano bias e rumore, quest'ultimo tipicamente più lungo e l'ipotenusa che rappresenta la loro combinazione.

Gli autori suddividono il rumore in "rumore di livello" e "rumore di modello" utilizzando il teorema di Pitagora. Il rumore di livello, che deriva dal bias, misura la variabilità del livello medio dei giudizi dei diversi giudici. Il pattern noise nasce dalla variabilità nelle risposte di un singolo giudice a casi particolari, vale a dire quando pesano pesantemente un pezzo di dati in un caso che va contro il loro schema decisionale generale. Ad esempio, un giudice molto indulgente potrebbe essere estremamente severo nei confronti dei recidivi, mentre un altro potrebbe essere duro nei confronti di coloro che depredano gli anziani. Mentre alcuni potrebbero obiettare che questo non è rumore, ma la nostra capacità di personalizzare il giudizio in base alle specifiche di un caso, il punto più ampio è che aggiunge incertezza, rumore, al risultato della decisione.

Gli autori sostengono in modo convincente che il rumore di fondo è pervasivo nel giudizio umano e di solito molto più alto, più rumoroso, del rumore di livello. Il rumore degli schemi nasce, ad esempio, nelle decisioni dei medici sull'ammissione delle persone per il ricovero ospedaliero, nella sottoscrizione di assicurazioni, nelle decisioni delle aziende su chi assumere, nel sistema giudiziario, nelle decisioni su quali programmi televisivi produrre e quali investimenti fare. Nasce dal nostro desiderio di considerare le sfumature individuali di un caso quando deviamo dal nostro schema generale come individui.

Non dovrebbe sorprenderci che il rumore di pattern si scomponga ulteriormente in due fonti indipendenti: "rumore di pattern stabile" e "rumore occasionale". Il rumore stabile risulta da un giudice che valuta i criteri in un caso in modo diverso da un altro giudice a causa di differenze come la personalità, mentre il rumore occasionale deriva dall'umore, dal tempo e da altri fattori che dipendono da quando viene presa una decisione.

Ecco una scomposizione pittorica completa dell'errore complessivo, indicato qui come errore quadratico medio (MSE), in bias e rumore, e una scomposizione del rumore in rumore di livello, rumore di pattern stabile e rumore occasionale:

Fonte: gli autori.

Rumore presenta anche ragioni psicologiche per perché sorge il rumore. Questo è utile per considerare come possiamo abbassarlo o eliminarlo. Dovremmo sostituire questi sistemi rumorosi con macchine? Dovremmo semplicemente prendere molti giudizi umani e fare una media quando possibile, magari sostituendo il giudizio individuale con la media del gruppo? La pluralità di opinioni porta a risultati migliori?

Non così in fretta, avvertono gli autori. Mentre i gruppi potrebbero essere utili quando si fa la media dei giudizi indipendenti o nell'esporre più punti di vista indipendenti, il processo decisionale di gruppo è afflitto da altre fonti di rumore. Abbiamo tutti vissuto incontri in cui la prima persona che ha parlato ha influenzato l'esito finale. I gruppi sono anche soggetti a pressioni sociali, con persone che vogliono essere giocatori di squadra, che possono portare a ampie disparità tra i gruppi che guardano alla stessa situazione e quindi alla polarizzazione.

Quindi, dovremmo rinunciare agli umani e addestrare le macchine a prendere invece decisioni migliori e senza rumore? La complessità e la variabilità umane, qualcosa che generalmente celebriamo come intrinsecamente umana e positiva, è una responsabilità quando si tratta di prendere decisioni?

Gli autori non sono ancora disposti a rinunciare agli umani. Indicano la prova che alcuni umani sono migliori decisori di altri. Migliore "igiene decisionale", in cui le persone seguono sistematicamente un ben definito processi, possono portare a risultati migliori e più coerenti, affermano. Indicano la ricerca previsionale dello scienziato politico Philip Tetlock e dei suoi colleghi [1], suggerendo che gli esseri umani che sono impegnati nell'auto-miglioramento, non troppo sicuri delle proprie convinzioni e aperti all'autocritica e alle opinioni alternative tendono ad essere migliori previsori. Selezionare e aggregare questi umani "superiori" in un insieme può produrre decisioni migliori di quelle degli individui.

La raccomandazione più attuabile per manager e decisori politici è una "verifica del rumore" progettata per rivelare le aree di incoerenza più evidenti delle loro organizzazioni. Mentre esistono casi poco rumorosi in cui tutti coloro che hanno una formazione professionale raggiungono la stessa conclusione, il fatto è che quelli importanti sono soggetti a un'elevata varianza decisionale. Eppure, nella maggior parte delle organizzazioni, a causa della rigidità delle routine e dei limiti di tempo, i giudizi non possono mai essere valutati rispetto a un valore vero, per non parlare di un altro esperto. Questo è un grosso errore.

In pratica, sospetto che i controlli sul rumore saranno molto più impegnativi in alcuni campi, come la giustizia, che in altri, come le assicurazioni. È più facile determinare se due richieste di assicurazione sono uguali rispetto a due reati. Sebbene gli autori riconoscano gli impedimenti organizzativi nel condurre audit sul rumore, sono meno completi nel riconoscere le realtà pratiche del confronto dei dati tra domini.

Questo libro non è solo per professionisti. Dovrebbe anche cambiare il modo in cui gli individui valutano il loro processo decisionale e le interazioni quotidiane. Mi ha fatto riconoscere il mio potenziale di incoerenza nella valutazione, per esempio. Mi ha indotto a cercare di migliorare il modo in cui ho classificato i 120 progetti nella mia lezione di Systematic Investing alla NYU durante il weekend del Memorial Day, anche se non senza costi in termini di tempo e fatica. Ho valutato due volte ogni progetto per ridurre il mio "rumore occasionale" (poiché ho un gran numero di studenti, ho pensato che non avrei ricordato il mio voto precedente, che dovrebbe fornire un certo grado di indipendenza ai due giudizi). Ho anche messo in servizio il mio selezionatore nel tentativo di ridurre il rumore del modello e scavare più a fondo nei casi ad alta varianza.

Gli autori presentano anche prove convincenti che anche i modelli meccanicistici semplici di solito fanno meglio dei migliori umani. Dato un input, i modelli prenderanno sempre la stessa decisione. Mentre potrebbero rimanere sconcertati dai cosiddetti "casi limite", che potremmo immaginare trarrebbero beneficio da una comprensione umana messa a punto delle sfumature o del contesto, tendono comunque a spiegare la variabilità dei singoli casi meglio degli umani. E man mano che saranno disponibili più dati, consentendo modelli di intelligenza artificiale più complessi con maggiore precisione e meno distorsioni, il caso per le macchine sugli esseri umani diventerà ancora più convincente. Dopotutto, la qualità e la coerenza sono il fondamento dell'equità, che desideriamo nei nostri sistemi, in particolare quelli che operano su larga scala.

Tuttavia, nonostante le prove, gli autori ritengono che gli algoritmi non siano un sostituto universale del giudizio umano. “Universale” è una condizione forte, anzi un uomo di paglia: la vera domanda è quando o in quali condizioni dovremmo sostituire gli esseri umani con le macchine, e quando e come dovremmo aumentarli. Ci lascia con l'allettante domanda su quali saranno i ruoli futuri degli umani e delle macchine nella società quando le macchine diventeranno più intelligenti e più capaci di audirsi mentre gli umani rimarranno relativamente statici nelle loro capacità. Sospetto che la natura del problema, che include la pressione dei tempi in cui vengono prese le decisioni e le conseguenze degli errori, avrà un impatto importante su tali decisioni.

Il modo in cui dividiamo e vinciamo i nostri problemi insieme alle macchine intelligenti sarà la domanda più importante in futuro, e gli autori non hanno risposta. Una posizione popolare sostenuta dal campione di scacchi Garry Kasparov postula che gli esseri umani più le macchine siano migliori delle macchine in termini di qualità decisionale. Forse questa credenza è popolare perché mantiene gli esseri umani in "controllo". Probabilmente è un pio desiderio.

Ad esempio, imporre il giudizio umano su un buon modello algoritmico nei mercati dei capitali peggiora le prestazioni. Gli esseri umani tendono a imporre giudizi causali eccessivamente semplicistici come: “La Fed alzerà i tassi domani, causando la svendita delle obbligazioni, quindi la decisione della macchina di acquistare obbligazioni deve essere sbagliata. Farei il contrario". Gli umani non considerano la miriade di altri fattori che entrano nella macchina, che non ha la capacità introspettiva di spiegarsi in termini semplici che gli umani possono digerire.

La necessità del controllo umano mina anche i nostri sistemi giudiziari e sanitari. Gli esseri umani sentono di essere maggiormente in grado di spiegare l'unicità di un individuo in questi contesti. E noi, l'individuo in questione, che siamo un paziente o un imputato, non vogliamo essere trattati come ingranaggi di una macchina impersonale. Ma stiamo pagando un prezzo pesante: i nostri attuali sistemi di giudizio trattano ogni caso come un possibile caso limite, che richiede un'attenzione umana che è già in deficit.

La domanda che ci si pone oggi è come conciliare il nostro bisogno di unicità con il nostro desiderio di coerenza e decisioni di qualità superiore. Questa è una domanda che il libro pone implicitamente ma, ancora una volta, non risponde. Ed è forse la domanda più importante di tutte.

Se dobbiamo accettare il processo decisionale basato sulla macchina, una questione di "quando" e non di "se", la sfida consiste nel discriminare tra i casi limite reali e il resto e nel riservare l'attenzione umana per quando è veramente necessario. Questo è un problema difficile, ma non c'è modo di evitarlo. Ho scritto sul motivo per cui il COVID-19 è stato un buon esempio di caso limite nei mercati dei capitali [2], ma è stato molto difficile riconoscerlo come tale nella foga del momento nello stesso modo in cui è difficile - e nervoso - wracking: per un pilota decidere che il pilota automatico è probabilmente diventato inaffidabile ed è ora di prendere il controllo. In linea di principio, una macchina dovrebbero sapere quando è al limite delle sue capacità, vale a dire in una situazione limite, e consentire a un essere umano di subentrare con grazia. Una strumentazione più numerosa e migliore qui porterebbe a decisioni globali migliori da parte di uomini e macchine.

Anche gli scienziati dei dati e gli esperti di intelligenza artificiale che hanno familiarità con il rumore, in genere sotto forma di "termine di errore" nei modelli predittivi, dovrebbero leggere questo libro. Fornirà loro un apprezzamento più sfumato dei modelli di rumore nei dati di addestramento e dei suoi impatti sulle proprietà dei modelli appresi dalla macchina. Ad esempio, problemi con una minore prevedibilità implicano un rumore maggiore nei dati di addestramento; ciò significa una maggiore incertezza sul comportamento nel caso peggiore dei modelli di IA predittivi e sui costi di errore associati, e quindi finisce per determinare l'affidabilità dei sistemi di IA.

Una cosa è certa. Rumore cambierà il modo in cui pensiamo al processo decisionale umano e il modo in cui decidiamo di ospitare le macchine. La posta in gioco è grande e il libro tempestivo.

[1] Tetlock, P. e Gardner, D., Superforecasting: l'arte e la scienza della previsione, Libri di Broadway, 2015.

[2] Dhar, V., “Algoritmi nelle crisi: quando il contesto conta, " Medio, April 2020.

Originale. Ripubblicato con il permesso.

Bio: Vasant Dhar è un professore e la Stern School of Business e il Center for Data Science e Co-Director of Graduate Studies, PhD Program, Center for Data Science. La ricerca di Dhar risponde alla seguente domanda: quando ci affidiamo ai sistemi di intelligenza artificiale per il processo decisionale? Sintonizzati sul suo podcast su Brave New World.

Correlato:

= Post precedente

Post successivo =>

Le migliori storie degli ultimi 30 giorni

Più popolare
La differenza tra data scientist e ingegneri ML 3 motivi per cui dovresti usare modelli di regressione lineare invece di reti neurali Domande e risposte per le interviste più comuni sulla scienza dei dati Alternative open source di GitHub Copilot Consigli per l'apprendimento della scienza dei dati dal direttore della ricerca di Google

La maggior parte in comune
La differenza tra data scientist e ingegneri ML Come interrogare il tuo dataframe Panda Perché e come dovresti imparare la "scienza dei dati produttivi"? Non solo per il deep learning: come le GPU accelerano la scienza dei dati e l'analisi dei dati Scrivere la tua prima applicazione Python distribuita con Ray