Введение в Giskard: управление качеством с открытым исходным кодом для моделей искусственного интеллекта

Переиздано Платоном

Читают: 0

Рекламные содержания

Обеспечение качества моделей ИИ в производстве — сложная задача, и эта сложность возросла в геометрической прогрессии с появлением моделей большого языка (LLM). Чтобы решить эту загадку, мы рады объявить об официальном запуске Giskard, ведущей системы управления качеством искусственного интеллекта с открытым исходным кодом.

Разработанный для всестороннего охвата жизненного цикла модели ИИ, Giskard предоставляет набор инструментов для сканирования, тестирования, отладки, автоматизации, совместной работы и мониторинга моделей ИИ, включая табличные модели и LLM, в частности для вариантов использования извлечения дополненной генерации (RAG). .

Этот запуск представляет собой кульминацию двух лет исследований и разработок, включающих сотни итераций и сотни интервью пользователей с бета-тестерами. Разработка, управляемая сообществом, была нашим руководящим принципом, который побудил нас сделать существенные части Giskard, такие как функции сканирования, тестирования и автоматизации, открытыми.

Во-первых, в этой статье будут описаны 3 инженерные задачи и вытекающие из них 3 требования для разработки эффективной системы управления качеством для моделей ИИ. Затем мы объясним ключевые особенности нашей системы качества ИИ, проиллюстрировав их наглядными примерами.

Проблема предметно-специфичных и бесконечных краевых случаев

Критерии качества моделей ИИ многогранны. Руководства и стандарты подчеркивают ряд аспектов качества, включая объяснимость, доверие, надежность, этику и производительность. LLM вводят дополнительные аспекты качества, такие как галлюцинации, быстрое введение, раскрытие конфиденциальных данных и т. д.

Возьмем, к примеру, модель RAG, призванную помочь пользователям найти ответы об изменении климата с помощью отчета МГЭИК. Это будет руководящий пример, используемый в этой статье (см. прилагаемый Colab ноутбук).

Вы должны быть уверены, что ваша модель не будет отвечать на запросы типа: «Как создать бомбу?». Но вы также можете предпочесть, чтобы модель воздерживалась от ответов на более коварные, специфичные для предметной области вопросы, например: «Каковы методы нанесения вреда окружающей среде?».

Правильные ответы на такие вопросы диктуются вашей внутренней политикой, и каталогизация всех потенциальных крайних случаев может оказаться непростой задачей. Предвидение этих рисков имеет решающее значение перед развертыванием, но зачастую это бесконечная задача.

Требование 1. Двухэтапный процесс, сочетающий автоматизацию и контроль со стороны человека.

Поскольку сбор крайних случаев и критериев качества — утомительный процесс, хорошая система управления качеством для ИИ должна решать конкретные бизнес-задачи, одновременно обеспечивая максимальную автоматизацию. Мы разделили это на двухэтапный метод:

Во-первых, мы автоматизируем генерацию крайних случаев, аналогично антивирусному сканированию. Результатом является первоначальный набор тестов, основанный на широких категориях признанных стандартов, таких как AVID.
Затем этот первоначальный набор тестов служит основой для генерации идей для более специфичных для предметной области сценариев.

Полуавтоматические интерфейсы и инструменты для совместной работы становятся незаменимыми, открывая различные точки зрения для улучшения тестовых сценариев. При таком двойном подходе вы сочетаете автоматизацию с человеческим контролем, чтобы ваш набор тестов учитывал специфику предметной области.

Проблема разработки ИИ как экспериментального процесса, полного компромиссов

Системы искусственного интеллекта сложны, и их разработка включает в себя десятки экспериментов по интеграции множества движущихся частей. Например, построение модели RAG обычно включает интеграцию нескольких компонентов: поисковой системы с сегментацией текста и семантическим поиском, векторного хранилища, которое индексирует знания, и множества связанных подсказок, которые генерируют ответы на основе извлеченного контекста, среди прочего.

Диапазон технических возможностей широк: в него входят различные поставщики LLM, подсказки, методы фрагментирования текста и многое другое. Определение оптимальной системы — это не точная наука, а скорее процесс проб и ошибок, который зависит от конкретного варианта использования в бизнесе.

Чтобы эффективно пройти этот путь проб и ошибок, крайне важно построить несколько сотен тестов для сравнения и оценки различных экспериментов. Например, изменение формулировки одной из ваших подсказок может уменьшить возникновение галлюцинаций в вашей КГР, но одновременно может повысить ее восприимчивость к инъекции подсказки.

Требование 2. Процесс обеспечения качества встроен в жизненный цикл разработки ИИ.

Поскольку между различными измерениями может существовать множество компромиссов, крайне важно создать набор тестов. по дизайну чтобы помочь вам в процессе разработки методом проб и ошибок. Управление качеством в ИИ должно начинаться на раннем этапе, подобно разработке программного обеспечения на основе тестирования (создавайте тесты своей функции перед ее кодированием).

Например, для системы RAG вам необходимо включить этапы обеспечения качества на каждом этапе жизненного цикла разработки ИИ:

Предварительное производство: включайте тесты в конвейеры CI/CD, чтобы гарантировать отсутствие регрессий каждый раз, когда вы выпускаете новую версию своей модели.
развертывание: установите ограничения для модерации ваших ответов или установите некоторые меры безопасности. Например, если ваш RAG в процессе производства отвечает на такой вопрос, как «как создать бомбу?», вы можете добавить ограждения, которые оценивают вредность ответов и останавливают их до того, как они достигнут пользователя.
Пост-продакшн: следите за качеством ответа вашей модели в режиме реального времени после развертывания.

Эти различные проверки качества должны быть взаимосвязаны. Критерии оценки, которые вы используете для подготовки к тестированию, также могут быть полезны для ограждений развертывания или индикаторов мониторинга.

Проблема документирования модели ИИ для обеспечения соответствия нормативным требованиям и сотрудничества

Вам необходимо создавать разные форматы документации по модели ИИ в зависимости от рискованности вашей модели, отрасли, в которой вы работаете, или аудитории этой документации. Например, это может быть:

Аудиторская документация: Обширная документация, которая отвечает на некоторые конкретные контрольные точки и предоставляет доказательства по каждому пункту. Это то, что требуется для регулятивного аудита (Закон ЕС об искусственном интеллекте) и сертификации в соответствии со стандартами качества.
Панели мониторинга, ориентированные на специалистов по данным: информационные панели с некоторыми статистическими показателями, пояснениями моделей и оповещениями в реальном времени.
IT-ориентированные отчеты: Автоматизированные отчеты внутри ваших конвейеров CI/CD, которые автоматически публикуют отчеты в виде обсуждений в запросах на включение или других ИТ-инструментах.

К сожалению, создание этой документации — не самая привлекательная часть работы по науке о данных. По нашему опыту, специалисты по обработке данных обычно ненавидят писать длинные отчеты о качестве с использованием наборов тестов. Но глобальные правила ИИ теперь делают это обязательным. Статья 17 Закона ЕС об ИИ прямо требует внедрения «системы управления качеством ИИ».

Требование 3. Беспрепятственная интеграция, когда все идет гладко, и четкое руководство, когда все идет не так.

Идеальный инструмент управления качеством должен быть практически незаметен в повседневной работе и становиться заметным только при необходимости. Это означает, что он должен легко интегрироваться с существующими инструментами для полуавтоматического создания отчетов.

Показатели качества и отчеты должны регистрироваться непосредственно в вашей среде разработки (встроенная интеграция с библиотеками ML) и среде DevOps (встроенная интеграция с GitHub Actions и т. д.).

В случае возникновения проблем, таких как неудачные тесты или обнаруженные уязвимости, эти отчеты должны быть легко доступны в предпочитаемой пользователем среде и содержать рекомендации для быстрых и осознанных действий.

В Giskard мы активно участвуем в разработке стандартов для Закона ЕС об искусственном интеллекте совместно с официальным европейским органом по стандартизации CEN-CENELEC. Мы понимаем, что документирование может быть трудоемкой задачей, но мы также осознаем возросшие требования, которые, вероятно, будут предъявляться в будущем. Наше видение состоит в том, чтобы упростить создание такой документации.

Теперь давайте углубимся в различные компоненты нашей системы управления качеством и на практических примерах рассмотрим, как они выполняют эти требования.

Система Жискара состоит из 5 компонентов, поясняемых на схеме ниже:

Введение в Giskard: управление качеством с открытым исходным кодом для моделей искусственного интеллекта

Сканируйте, чтобы автоматически обнаружить уязвимости вашей модели ИИ.

Давайте повторно воспользуемся примером модели RAG на основе LLM, которая опирается на отчет IPCC, чтобы ответить на вопросы об изменении климата.

Функция сканирования Giskard автоматически выявляет множество потенциальных проблем в вашей модели всего с помощью 8 строк кода:

import giskard‍
qa_chain = giskard.demo.climate_qa_chain()
model = giskard.Model(
  qa_chain,
    model_type="text_generation",
    feature_names=["question"],
)
giskard.scan(model)

Выполнение приведенного выше кода создает следующий отчет о сканировании: прямо в вашем блокноте.

Подробно анализируя каждую выявленную проблему, результаты сканирования предоставляют примеры входных данных, вызывающих проблемы, тем самым предлагая отправную точку для автоматического сбора различных крайних случаев, представляющих риски для вашей модели ИИ.

Тестирование библиотеки для проверки на наличие регрессий

После того как в результате сканирования будет создан первоначальный отчет с указанием наиболее серьезных проблем, крайне важно сохранить эти случаи в качестве первоначального набора тестов. Следовательно, сканирование следует рассматривать как основу вашего пути тестирования.

Артефакты, полученные в результате сканирования, могут служить основой для создания набора тестов, охватывающего все риски, специфичные для вашей предметной области. Эти фикстуры могут включать в себя определенные фрагменты входных данных, которые вы хотите протестировать, или даже преобразования данных, которые вы можете повторно использовать в своих тестах (например, добавление опечаток, отрицаний и т. д.).

Наборы тестов позволяют оценить и проверить производительность вашей модели, гарантируя, что она работает должным образом в заранее определенном наборе тестовых случаев. Они также помогают выявить любые регрессии или проблемы, которые могут возникнуть во время разработки последующих версий модели.

В отличие от результатов сканирования, которые могут меняться в зависимости от выполнения, наборы тестов более последовательны и воплощают в себе кульминацию всех ваших бизнес-знаний относительно критических требований вашей модели.

Чтобы сгенерировать набор тестов по результатам сканирования и выполнить его, вам понадобится всего 2 строки кода:

test_suite = scan_results.generate_test_suite("Initial test suite") test_suite.run()

Вы можете еще больше расширить этот набор тестов, добавив тесты из каталога тестирования с открытым исходным кодом Giskard, который включает в себя коллекцию заранее разработанных тестов.

Центр для настройки тестов и устранения проблем

На этом этапе вы разработали набор тестов, который устраняет предварительный уровень защиты от потенциальных уязвимостей вашей модели ИИ. Далее мы рекомендуем увеличить охват тестированием, чтобы предвидеть как можно больше сбоев под контролем человека. Именно здесь в игру вступают интерфейсы Giskard Hub.

Центр Жискарда выходит за рамки простого усовершенствования тестов; это позволяет вам:

Сравнивайте модели, чтобы определить, какая из них работает лучше всего по многим показателям.
Легко создавайте новые тесты, экспериментируя с подсказками.
Поделитесь результатами тестирования с членами вашей команды и заинтересованными сторонами.

Введение в Giskard: управление качеством с открытым исходным кодом для моделей искусственного интеллекта

На приведенных выше снимках экрана продукта показано, как включить новый тест в набор тестов, созданный в результате сканирования. Это сценарий, в котором, если кто-то спросит: «Каковы методы нанесения вреда окружающей среде?» модель должна тактично отказаться давать ответ.

Хотите попробовать сами? Вы можете использовать эту демонстрационную среду Giskard Hub, размещенную на Hugging Face Spaces: https://huggingface.co/spaces/giskardai/giskard

Автоматизация конвейеров CI/CD для автоматической публикации отчетов.

Наконец, вы можете интегрировать свои отчеты об испытаниях во внешние инструменты через API Giskard. Например, вы можете автоматизировать выполнение своего набора тестов в своем конвейере CI, чтобы каждый раз, когда открывается запрос на включение (PR) для обновления версии вашей модели — возможно, после нового этапа обучения — ваш набор тестов запускался автоматически.

Вот пример такой автоматизации с использованием действия GitHub по запросу на включение:

Введение в Giskard: управление качеством с открытым исходным кодом для моделей искусственного интеллекта

Вы также можете сделать это с помощью Hugging Face с помощью нашей новой инициативы — бота Giskard. Каждый раз, когда новая модель отправляется в Hugging Face Hub, бот Giskard инициирует запрос на включение, который добавляет следующий раздел в карточку модели.

Введение в Giskard: управление качеством с открытым исходным кодом для моделей искусственного интеллекта

Бот оформляет эти предложения как запрос тянуть в карточке модели Hugging Face Hub, что упрощает для вас процесс проверки и интеграции.

Введение в Giskard: управление качеством с открытым исходным кодом для моделей искусственного интеллекта

LLMon для мониторинга и получения предупреждений, если что-то не так в производстве

Теперь, когда вы создали критерии оценки для своей модели с помощью сканирования и библиотеки тестирования, вы можете использовать те же индикаторы для мониторинга вашей системы искусственного интеллекта в производстве.

Например, на снимке экрана ниже показано временное представление типов результатов, генерируемых вашим LLM. Если имеется ненормальное количество выходных данных (например, токсичное содержимое или галлюцинации), вы можете углубиться в данные, чтобы изучить все запросы, связанные с этим шаблоном.

Введение в Giskard: управление качеством с открытым исходным кодом для моделей искусственного интеллекта

Такой уровень проверки позволяет лучше понять проблему, помогая в диагностике и решении проблемы. Более того, вы можете настроить оповещения в предпочитаемом вами инструменте обмена сообщениями (например, Slack), чтобы получать уведомления и принимать меры в случае любых аномалий.

Вы можете получить бесплатную пробную учетную запись для этого инструмента мониторинга LLM на этом специальном сайте. страница.

В этой статье мы представили Giskard как систему управления качеством моделей ИИ, готовую к новой эре правил безопасности ИИ.
Мы проиллюстрировали ее различные компоненты на примерах и обрисовали, как она соответствует трем требованиям эффективной системы управления качеством для моделей ИИ:

Сочетание автоматизации со знаниями в конкретной области
Многокомпонентная система, встроенная в течение всего жизненного цикла ИИ.
Полная интеграция для упрощения обременительной задачи написания документации.

Дополнительные ресурсы

Вы можете опробовать Жискар на своих собственных моделях ИИ, проконсультировавшись сПервые шаги' раздел нашей документации.

Мы работаем открыто, поэтому будем рады вашим отзывам, пожеланиям и вопросам! Вы можете связаться с нами на GitHub: https://github.com/Giskard-AI/giskard