Что такое шум?

Теги: Смещение, онлайн бронирование, Дэниел Канеман, Показатели, дисперсия, Васант Дхар

Мы могли бы иметь разумное представление о том, что такое «шум» как некоторые статически случайные явления, происходящие в Природе. Но как можно определить и понять эту же характеристику в контексте вынесения суждений, например, в отношении человеческого поведения, принятия корпоративных решений, медицины, права и систем искусственного интеллекта?

Комментарии

By Васант Дхар, Исследователь искусственного интеллекта, профессор NYU Stern School of Business.

Если двух преступников приговорили к трем и семи годам лишения свободы, тогда как им обоим следует приговорить к пяти годам, разница объясняется шумом. Среднее число трех и семи действительно равно пяти, но совершенно очевидно, что справедливость не восторжествовала! Это напоминает мне анекдот про трех статистиков на охоте: первый промахивается на ногу, второй промахивается на ногу, а третий говорит: «Попался!» На практике ошибки такого рода не сводятся на нет, а накапливаются с прискорбными последствиями.

Шум: изъян в человеческом суждении Авторы: Даниэль Канеман, Касс Р. Санстейн и Оливье Сибони.
Опубликовано 05.18.2021, Little, Brown Spark, 464 стр.

Шум подрывает авторитет и доверие. Приговор подсудимому не должен зависеть от того, к какому судье будет передано дело, и все же это так. Когда разные судьи принимают разные решения по идентичным данным, в системе возникает шум. Результат также не должен зависеть от настроения судьи или погоды, и тем не менее он зависит, что свидетельствует о непоследовательности единоличного судьи. Эти две формы шума применимы ко всем сферам нашей жизни, связанным с человеческим суждением: правосудие, здоровье, опека над детьми, иммиграция, найм, патенты, прогнозирование, страхование и многое другое. Человеческое суждение неизменно омрачается шумом.

Это также обычно «предвзято». Примерами предвзятости могут служить судья, разрешающий условно-досрочное освобождение в пяти процентах дел, по сравнению с другим судьей, разрешающим условно-досрочное освобождение в 95 процентах тех же дел. Другими словами, склонность к снисходительности или строгости - это предубеждение. Дискриминация по признаку расы или пола - еще один пример предвзятости.

Как известно, лорд Кельвин написал, что для того, чтобы что-то понять, нужно уметь это измерить. В Шумученые Даниэль Канеман, Касс Санстейн и Оливье Сибони синтезируют обширную существующую литературу по человеческому и алгоритмическому процессу принятия решений, чтобы сделать именно это: они предоставляют четкие измерения и примеры ошибок, разбивая их на шум и смещение. Несмотря на то, что в заголовках преобладает предвзятость, с утверждениями о расовых предубеждениях в системе уголовного правосудия - подчеркнутыми нашей решимостью признать и приспособиться к многовековой расовой дискриминации - авторы показывают, почему шум, как правило, является гораздо более серьезной проблемой.

Но как измерить ошибку? Авторы отмечают, что систематическая ошибка и шум являются независимыми источниками ошибок. Их можно рассматривать как «ортогональные». Математика проста и сводится к использованию теоремы Пифагора, которую читатели могут помнить по урокам геометрии в средней школе. Поскольку ошибки могут быть как положительными, так и отрицательными, как в случае с утиной охотой, мы не можем просто усреднить их и положить конец. Вместо этого мы обычно сначала возводим их в квадрат: общая ошибка равна квадрату смещения плюс квадрат шума. Представьте себе прямоугольный треугольник, в котором ортогональные стороны представляют смещение и шум, последний обычно длиннее, а гипотенуза представляет их комбинацию.

Авторы разбивают шум на «уровень шума» и «структурный шум», используя теорему Пифагора. Уровень шума, возникающий из-за предвзятости, измеряет разброс среднего уровня оценок разных судей. Структурный шум возникает из-за вариабельности ответов одного судьи на конкретные дела, а именно, когда они сильно взвешивают часть данных в деле, которое противоречит их общей схеме принятия решений. Например, очень снисходительный судья может быть чрезвычайно суров по отношению к рецидивистам, а другой - к тем, кто охотится на пожилых людей. Хотя некоторые могут возразить, что это не шум, а наша способность адаптировать суждение к специфике случая, более важным моментом является то, что он добавляет неопределенность - шум - к результату решения.

Авторы убедительно доказывают, что шаблонный шум широко распространен в человеческом суждении и обычно намного выше - шумнее - чем уровень шума. Шаблонный шум возникает, например, при принятии врачами решений о том, следует ли принимать людей для госпитализации, при страховании, при решениях компаний о том, кого нанимать, в системе правосудия, при решениях о том, какие телешоу выпускать и какие инвестиции направить. делать. Это возникает из-за нашего желания учитывать индивидуальные нюансы случая, когда мы отклоняемся от нашей общей модели как личности.

Нас не должно удивлять, что структурный шум далее распадается на два независимых источника: «стабильный структурный шум» и «случайный шум». Стабильный паттерн шума возникает в результате того, что судья оценивает критерии по делу, отличные от критериев другого судьи, из-за таких различий, как личность, тогда как случайный шум возникает из-за настроения, погоды и других факторов, которые зависят от когда решение принято.

Вот полное графическое разложение общей ошибки, называемой здесь среднеквадратической ошибкой (MSE), на смещение и шум, а также разбивку шума на шум уровня, стабильный структурный шум и случайный шум:

Источник: авторы.

Шум также представляет психологические причины зачем возникает шум. Это полезно для размышлений о том, как мы можем снизить или исключить его. Должны ли мы заменить эти шумные системы машинами? Должны ли мы просто брать множество человеческих суждений и усреднять их, когда это возможно, возможно, заменяя индивидуальное суждение средним для группы? Приводит ли множественность взглядов к лучшим результатам?

Не так быстро, предупреждают авторы. Хотя группы могут быть полезны при усреднении независимых суждений или при выявлении нескольких независимых точек зрения, групповое принятие решений затруднено другими источниками шума. У всех нас были встречи, на которых первый, кто выступил, влиял на конечный результат. Группы также подвержены социальному давлению, когда люди хотят работать в команде, что может привести к большим различиям между группами, которые смотрят на одну и ту же ситуацию, и, как следствие, к поляризации.

Итак, должны ли мы отказаться от людей и вместо этого обучать машины принимать лучшие и бесшумные решения? Является ли человеческая сложность и изменчивость - то, что мы обычно отмечаем как изначально человеческое и позитивное, - препятствием для принятия решений?

Авторы пока не хотят отказываться от людей. Они указывают на доказательства того, что одни люди принимают решения лучше, чем другие. Лучшая «гигиена принятия решений», когда люди систематически следуют четко определенной процессОни утверждают, что могут привести к лучшим и более стабильным результатам. Они ссылаются на прогнозируемое исследование политолога Филипа Тетлока и его коллег [1], предполагающего, что люди, которые стремятся к самосовершенствованию, не слишком уверены в своих убеждениях, а также открыты для самокритики и альтернативных взглядов, как правило, лучше прогнозируют. Выбор и объединение этих «превосходных» людей в ансамбль может привести к лучшим решениям, чем решения отдельных людей.

Самая действенная рекомендация для менеджеров и лиц, определяющих политику, - это «шумовой аудит», призванный выявить наиболее вопиющие области несогласованности их организаций. Хотя случаи с низким уровнем шума, когда каждый, имеющий профессиональную подготовку, приходят к одному и тому же выводу, действительно существуют, факт остается фактом: наиболее важные из них склонны к высокой дисперсии решений. И все же в большинстве организаций из-за жесткости распорядка и ограничений по времени суждения никогда не могут быть сопоставлены с истинными ценностями, не говоря уже о проверке другим экспертом. Это большая ошибка.

На практике я подозреваю, что аудит шума будет намного сложнее в некоторых областях, например, в правосудии, чем в других, например в страховании. Легче определить, являются ли два заявления на страхование одинаковыми по сравнению с двумя преступлениями. Хотя авторы признают организационные препятствия для проведения аудитов шума, они менее всесторонне осознают практические реалии сравнения данных по различным областям.

Эта книга не только для профессионалов. Это также должно изменить способ оценки людьми своего повседневного принятия решений и взаимодействия. Например, это заставило меня признать свой собственный потенциал непоследовательности в выставлении оценок. Это побудило меня попытаться улучшить свою оценку 120 проектов в моем классе систематического инвестирования в Нью-Йоркском университете за выходные, посвященные Дню памяти, хотя и не без затрат с точки зрения времени и усилий. Я оценивал каждый проект дважды, чтобы уменьшить свой «случайный шум» (поскольку у меня много учеников, я предположил, что не запомню свою предыдущую оценку, что должно обеспечить некоторую степень независимости двух оценок). Я также задействовал свой грейдер, пытаясь уменьшить шаблонный шум и глубже изучить случаи с высокой дисперсией.

Авторы также представляют убедительные доказательства того, что даже простые механистические модели обычно работают лучше, чем лучшие люди. При наличии входных данных модели всегда принимают одно и то же решение. Хотя они могут быть сбиты с толку так называемыми «крайними случаями», которые, как мы можем предположить, выиграют от тонко настроенного человеческого понимания нюансов или контекста, они по-прежнему склонны учитывать изменчивость отдельных случаев лучше, чем люди. И по мере того, как становится доступным больше данных, позволяющих создавать более сложные модели искусственного интеллекта с более высокой точностью и меньшей предвзятостью, аргументы в пользу машины над людьми станут еще более убедительными. В конце концов, качество и последовательность - это основа справедливости, которой мы стремимся в наших системах, особенно в тех, которые работают в большом масштабе.

Однако, несмотря на доказательства, авторы считают, что алгоритмы не являются универсальной заменой человеческого суждения. «Универсал» - это сильное условие, и на самом деле соломинка: настоящий вопрос в том, когда или при каких условиях мы должны заменять людей машинами, и когда и как мы должны их улучшать. Это оставляет нас с мучительным вопросом о том, какими будут будущие роли людей и машин в обществе по мере того, как машины станут умнее и более способными к самопроверке, в то время как люди останутся относительно статичными в своих способностях. Я подозреваю, что характер проблемы, которая включает в себя нехватку времени, в которой принимаются решения, а также последствия ошибок, будет иметь большое влияние на такие решения.

Как мы разделяем и преодолеваем наши проблемы вместе с интеллектуальными машинами, будет самым важным вопросом в будущем, и авторы не дают на него ответа. Популярная позиция, которую поддерживает чемпион по шахматам Гарри Каспаров, утверждает, что люди плюс машины лучше машин с точки зрения качества решений. Возможно, это убеждение популярно, потому что оно держит людей «под контролем». Вероятно, это принятие желаемого за действительное.

Например, наложение человеческого суждения на хорошую алгоритмическую модель на рынках капитала ухудшает производительность. Люди склонны выносить слишком упрощенные причинные суждения, например: «Завтра ФРС поднимет ставки, что приведет к распродаже облигаций, поэтому решение машины о покупке облигаций должно быть неправильным. Я бы сделал наоборот ». Люди не принимают во внимание мириады других факторов, влияющих на работу машины, которой не хватает интроспективной способности объяснять себя простыми терминами, которые люди могут переварить.

Необходимость человеческого контроля также подрывает наши системы правосудия и здравоохранения. Люди чувствуют, что они лучше способны объяснить уникальность человека в этих условиях. И мы, рассматриваемые индивиды, будь мы пациенты или обвиняемые, не хотим, чтобы с нами обращались как с винтиками в безличной машине. Но мы платим высокую цену: наши современные системы суждения учитывают каждую случай как возможный крайний случай, требующий человеческого внимания, которого уже недостаточно.

Сегодня перед нами встает вопрос, как согласовать нашу потребность в уникальности с нашим стремлением к последовательности и более качественным решениям. Это вопрос, который неявно задается в книге, но, опять же, не дает ответа. И это, пожалуй, самый важный вопрос из всех.

Если мы согласны принимать решения на основе машин - вопрос «когда», а не «если», - задача состоит в том, чтобы отличить реальные крайние случаи от остальных и зарезервировать человеческое внимание на тот момент, когда оно действительно необходимо. Это сложная проблема, но от нее никуда не деться. Я писал о том, почему COVID-19 был хорошим примером крайнего случая на рынках капитала [2], но было очень трудно распознать его как таковой в пылу сиюминутного момента, так же, как это сложно - и нервно - ужасно - пилот решил, что автопилот, возможно, стал ненадежным, и пришло время взять управление в свои руки. В принципе машина должен знать, когда он находится на пределе своих возможностей, а именно в крайних случаях, и позволять человеку изящно взять на себя управление. Больше и более качественных приборов здесь привело бы к лучшим общим решениям людей и машин.

Специалисты по обработке данных и специалисты по искусственному интеллекту, знакомые с шумом - обычно в форме «ошибочного термина» в прогнозных моделях, - также должны прочитать эту книгу. Это предоставит им более тонкую оценку шаблонов шума в их обучающих данных и его влияния на свойства моделей, которые изучает машина. Например, проблемы с более низкой предсказуемостью подразумевают более высокий шум в обучающих данных; это означает большую неопределенность в отношении наихудшего поведения прогнозных моделей искусственного интеллекта и связанных с этим затрат на ошибку, и, таким образом, в конечном итоге определяет надежность систем искусственного интеллекта.

Одно можно сказать наверняка. Шум изменит то, как мы думаем о принятии решений людьми и как мы решаем приспособить машины. Ставки большие, а книга своевременная.

[1] Тетлок, П., Гарднер, Д., Суперпрогнозирование: искусство и наука прогнозирования, Бродвейские книги, 2015.

[2] Дхар, В. «Алгоритмы в кризисных ситуациях: когда имеет значение контекст" Medium, Апрель 2020.

Оригинал, Перемещено с разрешения.

Bio: Васант Дхар является профессором Школы бизнеса Стерна и Центра науки о данных и содиректором аспирантуры, программы PhD, Центр науки о данных. Исследование Дхара направлено на следующий вопрос: когда мы доверяем принятие решений системам ИИ? Подключайтесь к его подкасту на Дивный новый мир.

Связанный: