Was ist Lärm?

Stichworte: Befangenheit, Buchung, Daniel Kahneman, Statistiken, Unterschied, Vasant Dhar

Wir könnten ein vernünftiges Gespür dafür haben, was „Rauschen“ ist, da einige statisch zufällige Phänomene in der Natur vorkommen. Aber wie kann diese Eigenschaft im Kontext von Urteilen definiert – und verstanden – werden, beispielsweise in Bezug auf menschliches Verhalten, Unternehmensentscheidungen, Medizin, Recht und KI-Systeme?

Bemerkungen

By Vasant Dhar, KI-Forscher, Professor an der NYU Stern School of Business.

Wenn zwei Schwerverbrecher zu drei Jahren und sieben Jahren verurteilt werden, obwohl beide zu fünf Jahren verurteilt werden sollten, ist der Unterschied auf Lärm zurückzuführen. Der Durchschnitt von drei und sieben ist zwar fünf, aber der Gerechtigkeit wurde ganz offensichtlich nicht Genüge getan! Es erinnert mich an den Witz über die drei Statistiker auf der Jagd: Der erste überschwingt um einen Fuß, der zweite um einen Fuß unterschwingt und der dritte sagt: „Hat ihn!“ In der Praxis heben sich Fehler dieser Art nicht auf, sondern summieren sich mit bedauerlichen Folgen.

Lärm: Ein Fehler im menschlichen Urteil Von Daniel Kahneman, Cass R. Sunstein und Olivier Sibony.
Veröffentlicht am 05.18.2021, Little, Brown Spark, 464 Seiten.

Lärm untergräbt Glaubwürdigkeit und Vertrauen. Die Verurteilung eines Angeklagten sollte nicht davon abhängen, welchem Richter der Fall gerade zugewiesen wird, und doch tut er es. Immer wenn unterschiedliche Richter unterschiedliche Entscheidungen über identische Daten treffen, gibt es Rauschen im System. Das Ergebnis sollte auch nicht von der Stimmung des Richters oder dem Wetter abhängen, und doch tut es das, was die Inkonsistenz eines einzelnen Richters darstellt. Diese beiden Arten von Lärm gelten für alle Bereiche unseres Lebens, die menschliches Urteilsvermögen erfordern: Justiz, Gesundheit, Sorgerecht, Einwanderung, Einstellung, Patente, Prognosen, Versicherungen und mehr. Das menschliche Urteilsvermögen wird ausnahmslos durch Lärm verdorben.

Es ist auch typischerweise "voreingenommen". Beispiele für Befangenheit wären, dass ein Richter in fünf Prozent der Fälle Bewährung gewährt, während ein anderer Richter in 95 Prozent der gleichen Fälle Bewährung gewährt. Mit anderen Worten, eine Tendenz zu Nachsicht oder Stringenz ist eine Voreingenommenheit. Diskriminierung aufgrund von Rasse oder Geschlecht ist ein weiteres Beispiel für Voreingenommenheit.

Lord Kelvin hat bekanntlich geschrieben, dass man, um etwas zu verstehen, in der Lage sein muss, es zu messen. In Lärm, synthetisieren die Akademiker Daniel Kahneman, Cass Sunstein und Olivier Sibony eine umfangreiche vorhandene Literatur über menschliche und algorithmische Entscheidungsfindung, um genau das zu tun: Sie liefern klare Messungen und Fehlerbeispiele und brechen sie in Rauschen und Verzerrungen auf. Während Vorurteile die Schlagzeilen dominierten, zeigen die Autoren mit Vorwürfen über rassistische Vorurteile im Strafjustizsystem – unterstrichen durch unsere Entschlossenheit, jahrhundertelange Rassendiskriminierung anzuerkennen und anzupassen – die Autoren zeigen, warum Lärm in der Regel ein viel größeres Problem ist.

Aber wie messen wir Fehler? Die Autoren weisen darauf hin, dass Verzerrungen und Rauschen unabhängige Fehlerquellen sind. Sie können als „orthogonal“ betrachtet werden. Die Mathematik ist einfach und läuft auf die Verwendung des Satzes des Pythagoras hinaus, an den sich die Leser vielleicht aus dem Geometrieunterricht der High School erinnern. Da Fehler positiv und negativ sein können, wie beim Entenshooting, können wir sie nicht einfach mitteln und abschließen. Stattdessen quadrieren wir sie normalerweise zuerst: Der Gesamtfehler ist gleich dem Quadrat des Bias plus dem Quadrat des Rauschens. Stellen Sie sich ein rechtwinkliges Dreieck vor, wobei die orthogonalen Seiten Bias und Rauschen darstellen, wobei letzteres typischerweise länger ist und die Hypotenuse ihre Kombination darstellt.

Die Autoren zerlegen das Rauschen nach dem Satz des Pythagoras in „Pegelrauschen“ und „Musterrauschen“. Pegelrauschen, das aus Verzerrungen entsteht, misst die Variabilität des durchschnittlichen Pegels der Urteile verschiedener Richter. Musterrauschen entsteht aus der Variabilität in den Antworten eines einzelnen Richters auf bestimmte Fälle, nämlich wenn sie ein Datenelement in einem Fall stark gewichten, das ihrem Gesamtentscheidungsmuster zuwiderläuft. Zum Beispiel könnte ein sehr nachsichtiger Richter Rückfälligen gegenüber extrem streng sein, während ein anderer gegenüber denen, die Beute auf ältere Menschen machen, hart sein könnte. Während einige argumentieren mögen, dass dies kein Lärm ist, sondern unsere Fähigkeit, die Beurteilung an die Besonderheiten eines Falles anzupassen, ist der größere Punkt, dass es Unsicherheit – Lärm – zum Entscheidungsergebnis hinzufügt.

Die Autoren argumentieren überzeugend, dass Musterrauschen das menschliche Urteilsvermögen durchdringt und normalerweise viel höher – lauter – als Pegelrauschen ist. Musterrauschen entsteht zum Beispiel bei der Entscheidung von Ärzten über die Aufnahme von Personen ins Krankenhaus, bei der Versicherungsprüfung, bei der Personalentscheidung von Unternehmen, in der Justiz, bei Entscheidungen darüber, welche Fernsehsendungen produziert werden und welche Investitionen getätigt werden müssen machen. Es entsteht aus unserem Wunsch, die individuellen Nuancen eines Falles zu berücksichtigen, wenn wir als Individuen von unserem Gesamtmuster abweichen.

Es sollte uns nicht überraschen, dass Musterrauschen weiter in zwei unabhängige Quellen zerfällt: „stabiles Musterrauschen“ und „Gelegenheitsrauschen“. Stabiles Musterrauschen ergibt sich aus der Gewichtung der Kriterien eines Richters in einem Fall, der sich aufgrund von Unterschieden wie der Persönlichkeit von einem anderen Richter unterscheidet, während gelegentliches Rauschen aus Stimmung, Wetter und anderen Faktoren resultiert, die von abhängen wann eine Entscheidung wird getroffen.

Hier ist eine vollständige bildliche Zerlegung des Gesamtfehlers, hier als Mean Squared Error (MSE) bezeichnet, in Bias und Rauschen und eine Aufschlüsselung des Rauschens in Pegelrauschen, stabiles Musterrauschen und Gelegenheitsrauschen:

Quelle: die Autoren.

Lärm präsentiert auch psychologische Gründe für warum Geräusch entsteht. Dies ist nützlich, um zu überlegen, wie wir es senken oder eliminieren können. Sollten wir diese lauten Systeme durch Maschinen ersetzen? Sollten wir einfach viele menschliche Urteile nehmen und wenn möglich einen Durchschnitt bilden, vielleicht das individuelle Urteil durch den Durchschnitt der Gruppe ersetzen? Führt Meinungsvielfalt zu besseren Ergebnissen?

Nicht so schnell, warnen Sie die Autoren. Während Gruppen nützlich sein können, wenn unabhängige Urteile gemittelt werden oder mehrere unabhängige Standpunkte offengelegt werden, wird die Entscheidungsfindung in Gruppen von anderen Störquellen geplagt. Wir alle haben Meetings erlebt, bei denen die erste Person, die sprach, das Endergebnis beeinflusste. Gruppen sind auch einem sozialen Druck ausgesetzt, der Teamplayer sein möchte, was zu großen Disparitäten zwischen Gruppen mit der gleichen Situation und damit zu Polarisierung führen kann.

Sollten wir also den Menschen aufgeben und stattdessen Maschinen trainieren, um bessere und geräuschlose Entscheidungen zu treffen? Ist die menschliche Komplexität und Variabilität – etwas, das wir im Allgemeinen als inhärent menschlich und positiv feiern – eine Belastung für die Entscheidungsfindung?

Die Autoren wollen den Menschen noch nicht aufgeben. Sie weisen darauf hin, dass manche Menschen bessere Entscheidungsträger sind als andere. Bessere „Entscheidungshygiene“, bei der Menschen systematisch einem klar definierten Prozessdefinierung, zu besseren und konsistenteren Ergebnissen führen können, behaupten sie. Sie verweisen auf Prognoseforschungen des Politikwissenschaftlers Philip Tetlock und seiner Kollegen [1], die darauf hindeuten, dass Menschen, die sich der Selbstverbesserung verschrieben haben, nicht zu selbstsicher in ihren Überzeugungen und offen für Selbstkritik und alternative Ansichten sind, tendenziell bessere Prognostiker sind. Die Auswahl und Zusammenfassung dieser „überlegenen“ Menschen zu einem Ensemble kann zu besseren Entscheidungen führen als die der Individuen.

Die am besten umsetzbare Empfehlung für Manager und politische Entscheidungsträger ist ein „Lärmaudit“, das darauf abzielt, die ungeheuerlichsten Inkonsistenzen ihrer Organisationen aufzudecken. Es gibt zwar geräuscharme Fälle, in denen alle mit Berufsausbildung zum gleichen Ergebnis kommen, Fakt ist jedoch, dass die wichtigen Fälle anfällig für eine hohe Entscheidungsvarianz sind. Und doch werden Urteile in den meisten Organisationen aufgrund der Starrheit der Routinen und der zeitlichen Begrenzung niemals anhand eines wahren Wertes bewertet, geschweige denn von einem anderen Experten überprüft. Das ist ein großer Fehler.

In der Praxis vermute ich, dass Lärmaudits in einigen Bereichen, wie der Justiz, viel schwieriger sein werden als in anderen, wie der Versicherung. Es ist einfacher festzustellen, ob zwei Versicherungsanträge im Vergleich zu zwei Straftaten gleich sind. Während die Autoren die organisatorischen Hindernisse bei der Durchführung von Lärmaudits anerkennen, erkennen sie die praktischen Realitäten des Vergleichs von Daten über Domänengrenzen hinweg weniger umfassend.

Dieses Buch ist nicht nur für Profis. Es sollte auch die Art und Weise verändern, wie Einzelpersonen ihre täglichen Entscheidungen und Interaktionen bewerten. Dadurch erkannte ich beispielsweise mein eigenes Potenzial für Inkonsistenzen bei der Benotung an. Das hat mich dazu bewogen, die Bewertung der 120 Projekte in meinem Kurs für Systematic Investing an der NYU am Memorial Day-Wochenende zu versuchen und zu verbessern, wenn auch nicht ohne Kosten in Bezug auf Zeit und Mühe. Ich benotete jedes Projekt zweimal, um meinen „Gelegenheitslärm“ zu reduzieren (da ich eine große Anzahl von Schülern habe, ging ich davon aus, dass ich mich nicht an meine vorherige Note erinnern würde, was den beiden Urteilen eine gewisse Unabhängigkeit verleihen sollte). Ich habe auch meinen Grader in Betrieb genommen, um das Musterrauschen zu reduzieren und tiefer in Fälle mit hoher Varianz einzutauchen.

Die Autoren präsentieren auch überzeugende Beweise dafür, dass selbst einfache mechanistische Modelle normalerweise besser abschneiden als die besten Menschen. Bei einer Eingabe treffen Modelle immer die gleiche Entscheidung. Während sie von sogenannten „Randfällen“ verwirrt sein könnten, von denen wir uns vorstellen können, dass sie von einem fein abgestimmten menschlichen Verständnis von Nuancen oder Kontext profitieren würden, neigen sie immer noch dazu, die Variabilität einzelner Fälle besser zu berücksichtigen als Menschen. Und da mehr Daten verfügbar werden, die komplexere KI-Modelle mit höherer Genauigkeit und weniger Verzerrung ermöglichen, wird die Argumentation für Maschinen gegenüber Menschen noch zwingender. Schließlich sind Qualität und Beständigkeit die Grundlage der Fairness, die wir uns in unseren Systemen wünschen, insbesondere in solchen, die in großem Maßstab funktionieren.

Trotz der Beweise sind die Autoren jedoch der Meinung, dass Algorithmen kein universeller Ersatz für menschliches Urteilsvermögen sind. „Universal“ ist eine starke Bedingung und tatsächlich ein Strohmann: Die eigentliche Frage ist wann oder unter welchen Bedingungen wir Menschen durch Maschinen ersetzen und wann und wie wir sie ergänzen sollten. Es stellt uns die verlockende Frage, welche Rolle Mensch und Maschine in Zukunft in der Gesellschaft spielen werden, wenn Maschinen intelligenter und in der Lage sind, sich selbst zu auditieren, während Menschen in ihren Fähigkeiten relativ statisch bleiben. Ich vermute, dass die Art des Problems, zu dem auch der Zeitdruck, unter dem Entscheidungen getroffen werden, sowie die Folgen von Fehlern, einen großen Einfluss auf solche Entscheidungen haben wird.

Wie wir gemeinsam mit intelligenten Maschinen unsere Probleme aufteilen und bewältigen, wird die wichtigste Frage der Zukunft sein, die von den Autoren unbeantwortet bleibt. Eine populäre Position, die von Schachweltmeister Garry Kasparov unterstützt wird, besagt, dass Menschen plus Maschinen in Bezug auf die Entscheidungsqualität besser sind als Maschinen. Vielleicht ist dieser Glaube populär, weil er den Menschen die „Kontrolle“ hält. Es ist wahrscheinlich Wunschdenken.

Wird beispielsweise einem guten algorithmischen Modell auf den Kapitalmärkten ein menschliches Urteilsvermögen auferlegt, verschlechtert sich die Performance. Menschen neigen dazu, allzu vereinfachte kausale Urteile zu erzwingen, wie zum Beispiel: „Die Fed wird morgen die Zinsen erhöhen, was dazu führt, dass Anleihen verkauft werden, daher muss die Entscheidung der Maschine, Anleihen zu kaufen, falsch sein. Ich würde das Gegenteil tun." Menschen berücksichtigen nicht die unzähligen anderen Faktoren, die in die Maschine einfließen, der die introspektive Fähigkeit fehlt, sich in einfachen Worten zu erklären, die Menschen verdauen können.

Die Notwendigkeit menschlicher Kontrolle untergräbt auch unsere Justiz- und Gesundheitssysteme. Menschen haben das Gefühl, dass sie die Einzigartigkeit eines Individuums in diesen Kontexten besser berücksichtigen können. Und wir als Betroffener, ob Patient oder Angeklagter, wollen nicht wie Zahnräder in einer unpersönlichen Maschine behandelt werden. Aber wir zahlen einen hohen Preis: Unsere heutigen Urteilssysteme behandeln alles, Fall als möglicher Randfall, der menschliche Aufmerksamkeit erfordert, die bereits defizitär ist.

Die Frage, die uns heute stellt, ist, wie wir unser Bedürfnis nach Einzigartigkeit mit unserem Wunsch nach Beständigkeit und qualitativ hochwertigeren Entscheidungen in Einklang bringen. Dies ist eine Frage, die das Buch implizit stellt, aber wiederum nicht beantwortet. Und es ist vielleicht die wichtigste Frage von allen.

Wenn wir die maschinenbasierte Entscheidungsfindung akzeptieren – eine Frage des „Wann“ und nicht des „Oben“ – liegt die Herausforderung darin, zwischen den wirklichen Randfällen und dem Rest zu unterscheiden und die menschliche Aufmerksamkeit für den Fall zu reservieren, in dem sie wirklich benötigt wird. Dies ist ein schwieriges Problem, aber es führt kein Weg daran vorbei. Ich habe darüber geschrieben, warum COVID-19 ein gutes Beispiel für einen Grenzfall an den Kapitalmärkten war [2], aber es war sehr schwierig, es im Eifer des Gefechts so zu erkennen, wie es schwierig – und nervenaufreibend – ist. erschütternd – für einen Piloten, der entscheidet, dass der Autopilot möglicherweise nicht mehr vertrauenswürdig ist und es an der Zeit ist, die Kontrolle zu übernehmen. Im Prinzip eine Maschine sollte wissen, wann es am Rande seiner Leistungsfähigkeit ist, nämlich in einer Grenzsituation, und ermöglichen es einem Menschen, anmutig zu übernehmen. Mehr und bessere Instrumentierung würde hier zu besseren Gesamtentscheidungen von Mensch und Maschine führen.

Datenwissenschaftler und KI-Leute, die mit Rauschen vertraut sind – typischerweise in Form eines „Fehlerbegriffs“ in Vorhersagemodellen – sollten dieses Buch ebenfalls lesen. Es wird ihnen eine differenziertere Einschätzung der Geräuschmuster in ihren Trainingsdaten und deren Auswirkungen auf die Eigenschaften von Modellen ermöglichen, die von der Maschine gelernt werden. Probleme mit geringerer Vorhersagbarkeit implizieren beispielsweise ein höheres Rauschen in den Trainingsdaten; Dies bedeutet eine größere Unsicherheit über das Worst-Case-Verhalten prädiktiver KI-Modelle und die damit verbundenen Fehlerkosten und bestimmt damit letztendlich die Vertrauenswürdigkeit von KI-Systemen.

Eine Sache ist sicher. Lärm wird unsere Denkweise über die menschliche Entscheidungsfindung und die Art und Weise, wie wir Maschinen unterbringen, verändern. Es steht viel auf dem Spiel, und das Buch ist aktuell.

[1] Tetlock, P. und Gardner, D., Superforecasting: Die Kunst und Wissenschaft der Vorhersage, Broadway-Bücher, 2015.

[2] Dhar, V., “Algorithmen in Krisen: Wenn der Kontext zählt" MediumApril 2020.

Original. Mit Genehmigung erneut veröffentlicht.

Bio: Vasant Dhar ist Professor an der Stern School of Business und dem Center for Data Science und Co-Director of Graduate Studies, PhD Program, Center for Data Science. Dhars Forschung befasst sich mit der folgenden Frage: Wann vertrauen wir KI-Systemen bei der Entscheidungsfindung? Schalte seinen Podcast ein unter Brave New World.

Related: