Нет надежного способа обнаружить текст, сгенерированный ИИ, вздыхает Боффинс

Переиздано Платоном

Читают: 0

Популярность словесного салата, подготовленного большими языковыми моделями (LLM), такими как ChatGPT от OpenAI, Bard от Google и LLaMa от Meta, побудила ученых искать способы обнаружения машинно-генерируемого текста.

К сожалению, существующие схемы обнаружения могут быть не намного лучше, чем подбрасывание монеты, что повышает вероятность того, что нам суждено проглотить статистически составленную копию как следствие потребления онлайн-контента.

Пять ученых-компьютерщиков из Мэрилендского университета в США — Вину Санкар Садасиван, Аунон Кумар, Шрирам Баласубраманиан, Венсяо Ван и Сохейл Фейзи — недавно занялись обнаружением текста, сгенерированного моделями больших языков.

Их выводы, подробно изложенные в статье под названием Можно ли надежно обнаружить текст, сгенерированный ИИ?, можно предсказать, используя закон заголовков Беттериджа: на любой заголовок, оканчивающийся знаком вопроса, можно ответить словом «нет».

Ссылаясь несколько подразумеваемый детекторы из текста, сгенерированного LLM, ученые отмечают: «В этой статье мы теоретически и эмпирически показываем, что эти современные детекторы не могут надежно обнаруживать выходные данные LLM в практических сценариях».

Таким образом, обнаружение выхода LLM, например CAPTCHA головоломки [PDF], похоже, обречены на провал, поскольку модели машинного обучения продолжают совершенствоваться и становятся способными имитировать человеческий результат.

Специалисты утверждают, что нерегулируемое использование этих моделей, которые сейчас интегрируются в широко используемые приложения от крупных технологических компаний — может привести к нежелательным последствиям, таким как изощренный спам, манипулятивные фейковые новости, неточное резюме документов и плагиат.

Получается просто перефразируя текстовый вывод LLM — то, что можно сделать с помощью программа замены слов – часто бывает достаточно, чтобы избежать обнаружения. Это может ухудшить точность детектора с базовых 97 процентов до 80-57 процентов — не намного лучше, чем подбрасывание монеты.

«Экспериментально мы показываем, что атаки с перефразированием, когда легкий перефразировщик применяется поверх генеративной текстовой модели, могут сломать целый ряд детекторов, включая те, которые используют схемы водяных знаков, а также детекторы на основе нейронных сетей и нулевой выстрел. классификаторы», — объяснили исследователи в своей статье.

В электронном письме Регистр, Сохейл Фейзи, доцент кафедры компьютерных наук в UMD College Park и один из соавторов статьи, объяснил: «Проблема текстовых водяных знаков заключается в том, что они игнорируют сложную природу распространения текста. Предположим, что следующее предложение S, содержащее дезинформацию, сгенерировано моделью ИИ, и оно «помечено водяным знаком», что означает, что оно содержит некоторые скрытые подписи, чтобы мы могли обнаружить, что это сгенерировано ИИ».

S: Всемирная организация здравоохранения сделала шокирующее заявление о том, что вакцина неэффективна, поскольку не защищает людей от заражения, а значит, бесполезна.

«На самом деле это было сгенерировано моделью большого языка OPT-1.3B с водяными знаками», — сказал Фейзи. «Теперь рассмотрим перефразированную версию приведенного выше предложения:»

По данным Всемирной организации здравоохранения, вакцина бесполезна, потому что она не предотвращает заражение людей.

«Он содержит ту же дезинформацию, но метод водяных знаков не обнаруживает ее», — сказал Фейзи.

«Этот пример указывает на фундаментальную проблему текстовых водяных знаков: если алгоритм водяных знаков обнаружит все другие предложения с тем же значением, что и предложение, сгенерированное ИИ, то у него будет большая ошибка первого рода: он обнаружит много предложений, написанных человеком. как сгенерированные ИИ; потенциально выдвигая множество ложных обвинений в плагиате».

«С другой стороны, — добавил Фейзи, — если алгоритм водяных знаков ограничен только текстом, сгенерированным ИИ, то простая атака перефразирования, как мы показали в нашей статье, может стереть подписи водяных знаков, а это означает, что он может создать большой шрифт. -II ошибка. Мы показали, что в практических сценариях невозможно одновременно иметь низкие ошибки I и II рода».

И обращение применения перефразирования к заданному текстовому образцу на самом деле не помогает.

«Предположим, что обратное перефразирование возможно», — сказал Вину Санкар Садасиван, докторант компьютерных наук в UMD College Park и один из авторов статьи, в электронном письме на адрес Регистр. «В этом есть серьезная проблема для обнаружения. Детектор должен пытаться перефразировать только в том случае, если предложение действительно сгенерировано ИИ. В противном случае обратное перефразирование может привести к ложному распознаванию человеческого текста как созданного ИИ».

Садасиван сказал, что существует множество вариантов того, как можно перефразировать предложение, поэтому невозможно обратить процесс вспять, особенно если вы не знаете источник исходного текста.

Он объяснил, что наносить водяные знаки на текст сложнее, чем на изображения. Для облегчения обнаружения требуется вывод работ по определенному образцу, незаметному для людей.

«Эти шаблоны можно легко удалить с помощью перефразирующих атак, которые мы предлагаем в нашей статье», — сказал Садасиван. «Если это не так, очень вероятно, что текст, написанный человеком, ошибочно определяется детектором на основе водяных знаков как водяной знак».

Наши результаты указывают на невозможность проблем с обнаружением текста, создаваемых ИИ, в практических сценариях.

Становится хуже. Ученые описывают «результат теоретической невозможности, указывающий на то, что для достаточно хорошей языковой модели даже самый лучший детектор может работать лишь незначительно лучше, чем случайный классификатор».

На вопрос, есть ли путь к более надежному методу обнаружения текста, сгенерированного LLM, Фейзи ответил, что его нет.

«Наши результаты указывают на невозможность проблем с обнаружением текста, создаваемых ИИ, в практических сценариях», — пояснил Фейзи. «Поэтому короткий ответ, к сожалению, нет».

Авторы также отмечают, что LLM, защищенные схемами водяных знаков, могут быть уязвимы для спуфинговых атак, с помощью которых злоумышленники могут вывести подписи водяных знаков и добавить их в сгенерированный текст, чтобы ложно обвинить человека, публикующего этот текст, в плагиате или спамере.

«Я думаю, нам нужно научиться жить с тем фактом, что мы никогда не сможем достоверно сказать, написан ли текст человеком или искусственным интеллектом», — сказал Фейзи. «Вместо этого потенциально мы можем проверить «источник» текста с помощью другой информации. Например, многие социальные платформы начинают широко проверять учетные записи. Это может затруднить распространение дезинформации, созданной ИИ». ®