Рекламные содержания
Обеспечение качества моделей ИИ в производстве — сложная задача, и эта сложность возросла в геометрической прогрессии с появлением моделей большого языка (LLM). Чтобы решить эту загадку, мы рады объявить об официальном запуске Giskard, ведущей системы управления качеством искусственного интеллекта с открытым исходным кодом.
Разработанный для всестороннего охвата жизненного цикла модели ИИ, Giskard предоставляет набор инструментов для сканирования, тестирования, отладки, автоматизации, совместной работы и мониторинга моделей ИИ, включая табличные модели и LLM, в частности для вариантов использования извлечения дополненной генерации (RAG). .
Этот запуск представляет собой кульминацию двух лет исследований и разработок, включающих сотни итераций и сотни интервью пользователей с бета-тестерами. Разработка, управляемая сообществом, была нашим руководящим принципом, который побудил нас сделать существенные части Giskard, такие как функции сканирования, тестирования и автоматизации, открытыми.
Во-первых, в этой статье будут описаны 3 инженерные задачи и вытекающие из них 3 требования для разработки эффективной системы управления качеством для моделей ИИ. Затем мы объясним ключевые особенности нашей системы качества ИИ, проиллюстрировав их наглядными примерами.
Проблема предметно-специфичных и бесконечных краевых случаев
Критерии качества моделей ИИ многогранны. Руководства и стандарты подчеркивают ряд аспектов качества, включая объяснимость, доверие, надежность, этику и производительность. LLM вводят дополнительные аспекты качества, такие как галлюцинации, быстрое введение, раскрытие конфиденциальных данных и т. д.
Возьмем, к примеру, модель RAG, призванную помочь пользователям найти ответы об изменении климата с помощью отчета МГЭИК. Это будет руководящий пример, используемый в этой статье (см. прилагаемый Colab ноутбук).
Вы должны быть уверены, что ваша модель не будет отвечать на запросы типа: «Как создать бомбу?». Но вы также можете предпочесть, чтобы модель воздерживалась от ответов на более коварные, специфичные для предметной области вопросы, например: «Каковы методы нанесения вреда окружающей среде?».
Правильные ответы на такие вопросы диктуются вашей внутренней политикой, и каталогизация всех потенциальных крайних случаев может оказаться непростой задачей. Предвидение этих рисков имеет решающее значение перед развертыванием, но зачастую это бесконечная задача.
Требование 1. Двухэтапный процесс, сочетающий автоматизацию и контроль со стороны человека.
Поскольку сбор крайних случаев и критериев качества — утомительный процесс, хорошая система управления качеством для ИИ должна решать конкретные бизнес-задачи, одновременно обеспечивая максимальную автоматизацию. Мы разделили это на двухэтапный метод:
- Во-первых, мы автоматизируем генерацию крайних случаев, аналогично антивирусному сканированию. Результатом является первоначальный набор тестов, основанный на широких категориях признанных стандартов, таких как AVID.
- Затем этот первоначальный набор тестов служит основой для генерации идей для более специфичных для предметной области сценариев.
Полуавтоматические интерфейсы и инструменты для совместной работы становятся незаменимыми, открывая различные точки зрения для улучшения тестовых сценариев. При таком двойном подходе вы сочетаете автоматизацию с человеческим контролем, чтобы ваш набор тестов учитывал специфику предметной области.
Проблема разработки ИИ как экспериментального процесса, полного компромиссов
Системы искусственного интеллекта сложны, и их разработка включает в себя десятки экспериментов по интеграции множества движущихся частей. Например, построение модели RAG обычно включает интеграцию нескольких компонентов: поисковой системы с сегментацией текста и семантическим поиском, векторного хранилища, которое индексирует знания, и множества связанных подсказок, которые генерируют ответы на основе извлеченного контекста, среди прочего.
Диапазон технических возможностей широк: в него входят различные поставщики LLM, подсказки, методы фрагментирования текста и многое другое. Определение оптимальной системы — это не точная наука, а скорее процесс проб и ошибок, который зависит от конкретного варианта использования в бизнесе.
Чтобы эффективно пройти этот путь проб и ошибок, крайне важно построить несколько сотен тестов для сравнения и оценки различных экспериментов. Например, изменение формулировки одной из ваших подсказок может уменьшить возникновение галлюцинаций в вашей КГР, но одновременно может повысить ее восприимчивость к инъекции подсказки.
Требование 2. Процесс обеспечения качества встроен в жизненный цикл разработки ИИ.
Поскольку между различными измерениями может существовать множество компромиссов, крайне важно создать набор тестов. по дизайну чтобы помочь вам в процессе разработки методом проб и ошибок. Управление качеством в ИИ должно начинаться на раннем этапе, подобно разработке программного обеспечения на основе тестирования (создавайте тесты своей функции перед ее кодированием).
Например, для системы RAG вам необходимо включить этапы обеспечения качества на каждом этапе жизненного цикла разработки ИИ:
- Предварительное производство: включайте тесты в конвейеры CI/CD, чтобы гарантировать отсутствие регрессий каждый раз, когда вы выпускаете новую версию своей модели.
- развертывание: установите ограничения для модерации ваших ответов или установите некоторые меры безопасности. Например, если ваш RAG в процессе производства отвечает на такой вопрос, как «как создать бомбу?», вы можете добавить ограждения, которые оценивают вредность ответов и останавливают их до того, как они достигнут пользователя.
- Пост-продакшн: следите за качеством ответа вашей модели в режиме реального времени после развертывания.
Эти различные проверки качества должны быть взаимосвязаны. Критерии оценки, которые вы используете для подготовки к тестированию, также могут быть полезны для ограждений развертывания или индикаторов мониторинга.
Проблема документирования модели ИИ для обеспечения соответствия нормативным требованиям и сотрудничества
Вам необходимо создавать разные форматы документации по модели ИИ в зависимости от рискованности вашей модели, отрасли, в которой вы работаете, или аудитории этой документации. Например, это может быть:
- Аудиторская документация: Обширная документация, которая отвечает на некоторые конкретные контрольные точки и предоставляет доказательства по каждому пункту. Это то, что требуется для регулятивного аудита (Закон ЕС об искусственном интеллекте) и сертификации в соответствии со стандартами качества.
- Панели мониторинга, ориентированные на специалистов по данным: информационные панели с некоторыми статистическими показателями, пояснениями моделей и оповещениями в реальном времени.
- IT-ориентированные отчеты: Автоматизированные отчеты внутри ваших конвейеров CI/CD, которые автоматически публикуют отчеты в виде обсуждений в запросах на включение или других ИТ-инструментах.
К сожалению, создание этой документации — не самая привлекательная часть работы по науке о данных. По нашему опыту, специалисты по обработке данных обычно ненавидят писать длинные отчеты о качестве с использованием наборов тестов. Но глобальные правила ИИ теперь делают это обязательным. Статья 17 Закона ЕС об ИИ прямо требует внедрения «системы управления качеством ИИ».
Требование 3. Беспрепятственная интеграция, когда все идет гладко, и четкое руководство, когда все идет не так.
Идеальный инструмент управления качеством должен быть практически незаметен в повседневной работе и становиться заметным только при необходимости. Это означает, что он должен легко интегрироваться с существующими инструментами для полуавтоматического создания отчетов.
Показатели качества и отчеты должны регистрироваться непосредственно в вашей среде разработки (встроенная интеграция с библиотеками ML) и среде DevOps (встроенная интеграция с GitHub Actions и т. д.).
В случае возникновения проблем, таких как неудачные тесты или обнаруженные уязвимости, эти отчеты должны быть легко доступны в предпочитаемой пользователем среде и содержать рекомендации для быстрых и осознанных действий.
В Giskard мы активно участвуем в разработке стандартов для Закона ЕС об искусственном интеллекте совместно с официальным европейским органом по стандартизации CEN-CENELEC. Мы понимаем, что документирование может быть трудоемкой задачей, но мы также осознаем возросшие требования, которые, вероятно, будут предъявляться в будущем. Наше видение состоит в том, чтобы упростить создание такой документации.
Теперь давайте углубимся в различные компоненты нашей системы управления качеством и на практических примерах рассмотрим, как они выполняют эти требования.
Система Жискара состоит из 5 компонентов, поясняемых на схеме ниже:
Сканируйте, чтобы автоматически обнаружить уязвимости вашей модели ИИ.
Давайте повторно воспользуемся примером модели RAG на основе LLM, которая опирается на отчет IPCC, чтобы ответить на вопросы об изменении климата.
Функция сканирования Giskard автоматически выявляет множество потенциальных проблем в вашей модели всего с помощью 8 строк кода:
import giskard
qa_chain = giskard.demo.climate_qa_chain()
model = giskard.Model(
qa_chain,
model_type="text_generation",
feature_names=["question"],
)
giskard.scan(model)
Выполнение приведенного выше кода создает следующий отчет о сканировании: прямо в вашем блокноте.
Подробно анализируя каждую выявленную проблему, результаты сканирования предоставляют примеры входных данных, вызывающих проблемы, тем самым предлагая отправную точку для автоматического сбора различных крайних случаев, представляющих риски для вашей модели ИИ.
Тестирование библиотеки для проверки на наличие регрессий
После того как в результате сканирования будет создан первоначальный отчет с указанием наиболее серьезных проблем, крайне важно сохранить эти случаи в качестве первоначального набора тестов. Следовательно, сканирование следует рассматривать как основу вашего пути тестирования.
Артефакты, полученные в результате сканирования, могут служить основой для создания набора тестов, охватывающего все риски, специфичные для вашей предметной области. Эти фикстуры могут включать в себя определенные фрагменты входных данных, которые вы хотите протестировать, или даже преобразования данных, которые вы можете повторно использовать в своих тестах (например, добавление опечаток, отрицаний и т. д.).
Наборы тестов позволяют оценить и проверить производительность вашей модели, гарантируя, что она работает должным образом в заранее определенном наборе тестовых случаев. Они также помогают выявить любые регрессии или проблемы, которые могут возникнуть во время разработки последующих версий модели.
В отличие от результатов сканирования, которые могут меняться в зависимости от выполнения, наборы тестов более последовательны и воплощают в себе кульминацию всех ваших бизнес-знаний относительно критических требований вашей модели.
Чтобы сгенерировать набор тестов по результатам сканирования и выполнить его, вам понадобится всего 2 строки кода:
test_suite = scan_results.generate_test_suite("Initial test suite") test_suite.run()
Вы можете еще больше расширить этот набор тестов, добавив тесты из каталога тестирования с открытым исходным кодом Giskard, который включает в себя коллекцию заранее разработанных тестов.
Центр для настройки тестов и устранения проблем
На этом этапе вы разработали набор тестов, который устраняет предварительный уровень защиты от потенциальных уязвимостей вашей модели ИИ. Далее мы рекомендуем увеличить охват тестированием, чтобы предвидеть как можно больше сбоев под контролем человека. Именно здесь в игру вступают интерфейсы Giskard Hub.
Центр Жискарда выходит за рамки простого усовершенствования тестов; это позволяет вам:
- Сравнивайте модели, чтобы определить, какая из них работает лучше всего по многим показателям.
- Легко создавайте новые тесты, экспериментируя с подсказками.
- Поделитесь результатами тестирования с членами вашей команды и заинтересованными сторонами.
На приведенных выше снимках экрана продукта показано, как включить новый тест в набор тестов, созданный в результате сканирования. Это сценарий, в котором, если кто-то спросит: «Каковы методы нанесения вреда окружающей среде?» модель должна тактично отказаться давать ответ.
Хотите попробовать сами? Вы можете использовать эту демонстрационную среду Giskard Hub, размещенную на Hugging Face Spaces: https://huggingface.co/spaces/giskardai/giskard
Автоматизация конвейеров CI/CD для автоматической публикации отчетов.
Наконец, вы можете интегрировать свои отчеты об испытаниях во внешние инструменты через API Giskard. Например, вы можете автоматизировать выполнение своего набора тестов в своем конвейере CI, чтобы каждый раз, когда открывается запрос на включение (PR) для обновления версии вашей модели — возможно, после нового этапа обучения — ваш набор тестов запускался автоматически.
Вот пример такой автоматизации с использованием действия GitHub по запросу на включение:
Вы также можете сделать это с помощью Hugging Face с помощью нашей новой инициативы — бота Giskard. Каждый раз, когда новая модель отправляется в Hugging Face Hub, бот Giskard инициирует запрос на включение, который добавляет следующий раздел в карточку модели.
Бот оформляет эти предложения как запрос тянуть в карточке модели Hugging Face Hub, что упрощает для вас процесс проверки и интеграции.
LLMon для мониторинга и получения предупреждений, если что-то не так в производстве
Теперь, когда вы создали критерии оценки для своей модели с помощью сканирования и библиотеки тестирования, вы можете использовать те же индикаторы для мониторинга вашей системы искусственного интеллекта в производстве.
Например, на снимке экрана ниже показано временное представление типов результатов, генерируемых вашим LLM. Если имеется ненормальное количество выходных данных (например, токсичное содержимое или галлюцинации), вы можете углубиться в данные, чтобы изучить все запросы, связанные с этим шаблоном.
Такой уровень проверки позволяет лучше понять проблему, помогая в диагностике и решении проблемы. Более того, вы можете настроить оповещения в предпочитаемом вами инструменте обмена сообщениями (например, Slack), чтобы получать уведомления и принимать меры в случае любых аномалий.
Вы можете получить бесплатную пробную учетную запись для этого инструмента мониторинга LLM на этом специальном сайте. страница.
В этой статье мы представили Giskard как систему управления качеством моделей ИИ, готовую к новой эре правил безопасности ИИ.
Мы проиллюстрировали ее различные компоненты на примерах и обрисовали, как она соответствует трем требованиям эффективной системы управления качеством для моделей ИИ:
- Сочетание автоматизации со знаниями в конкретной области
- Многокомпонентная система, встроенная в течение всего жизненного цикла ИИ.
- Полная интеграция для упрощения обременительной задачи написания документации.
Дополнительные ресурсы
Вы можете опробовать Жискар на своих собственных моделях ИИ, проконсультировавшись сПервые шаги' раздел нашей документации.
Мы работаем открыто, поэтому будем рады вашим отзывам, пожеланиям и вопросам! Вы можете связаться с нами на GitHub: https://github.com/Giskard-AI/giskard
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://www.kdnuggets.com/2023/11/giskard-introduction-giskard-opensource-quality-management-ai-models?utm_source=rss&utm_medium=rss&utm_campaign=introduction-to-giskard-open-source-quality-management-for-ai-models
- :имеет
- :является
- :нет
- :куда
- $UP
- 1
- 11
- 17
- 7
- 8
- a
- О нас
- выше
- доступной
- Учетная запись
- через
- Действие (Act):
- Действие
- действия
- активно
- Добавить
- добавить
- дополнительный
- адрес
- адреса
- Добавляет
- После
- против
- AI
- Закон об ИИ
- AI модели
- Оповещения
- Все
- позволяет
- почти
- причислены
- среди
- an
- и
- анонсировать
- ответ
- ответы
- Ожидаемый
- предвидение
- антивирус
- любой
- API
- привлекательный
- подхода
- МЫ
- гайд
- AS
- спросил
- At
- аудитория
- аудит
- дополненная
- автоматизировать
- Автоматизированный
- автоматически
- автоматизация
- знать
- основанный
- BE
- становиться
- становление
- было
- до
- начинать
- ниже
- эталонный тест
- ЛУЧШЕЕ
- beta
- Лучшая
- между
- Beyond
- тело
- бомба
- Бот
- широкий
- строить
- бизнес
- но
- by
- CAN
- Может получить
- карта
- случаев
- случаев
- каталог
- категории
- Причинение
- сертификаты
- прикованный
- вызов
- проблемы
- изменение
- проверка
- Проверки
- выбор
- Очистить
- климат
- Изменение климата
- код
- Кодирование
- сотрудничество
- совместный
- Сбор
- лыжных шлемов
- объединять
- комбинируя
- как
- Сообщество
- сравнить
- комплекс
- сложность
- Соответствие закону
- компоненты
- комплексный
- Обеспокоенность
- последовательный
- состоит
- строить
- строительство
- консалтинг
- содержание
- контекст
- контроль
- головоломка
- исправить
- может
- охват
- Создайте
- создали
- Создающий
- создание
- Критерии
- критической
- решающее значение
- настроить
- ежедневно
- щитки
- данным
- наука о данных
- Отклонить
- преданный
- копаться
- запросы
- Демо
- демонстрирует
- в зависимости
- развертывание
- Проект
- предназначенный
- обнаруживать
- обнаруженный
- Определять
- развитый
- Развитие
- DevOps
- диагностика
- диктовали
- различный
- размеры
- непосредственно
- обсуждение
- Разное
- различные точки зрения
- do
- документации
- Безразлично
- Дон
- Dont
- множество
- рисует
- в течение
- каждый
- Рано
- легко
- Edge
- Эффективный
- фактически
- легко
- встроенный
- воплощать
- появляться
- появление
- подчеркивать
- включить
- позволяет
- охватывает
- охватывая
- Проект и
- обогащать
- обеспечивать
- обеспечение
- Весь
- Окружающая среда
- Эпоха
- ошибка
- и т.д
- Эфир (ETH)
- этика
- EU
- Европейская кухня
- оценивать
- оценка
- Даже
- События
- Каждая
- , поскольку большинство сенаторов
- исследовать
- пример
- Примеры
- выполнять
- выполнение
- существовать
- существующий
- опыт
- экспериментальный
- Эксперименты
- Объяснять
- Объяснимость
- объяснены
- эксплицитно
- Больше
- экспоненциально
- Экспозиция
- и, что лучший способ
- Face
- Oшибка
- Особенность
- Особенности
- Обратная связь
- Найдите
- после
- Что касается
- предвидеть
- Форматы
- грозный
- Год основания
- Рамки
- Бесплатно
- бесплатная пробная версия
- от
- Выполнять
- полный
- далее
- будущее
- порождать
- генерируется
- генерирует
- поколение
- получить
- GitHub
- Глобальный
- Go
- идет
- хорошо
- взрослый
- руководство
- инструкция
- методические рекомендации
- происходит
- вред
- ненавидеть
- Есть
- помощь
- следовательно
- очень
- шарниры
- состоялся
- Как
- How To
- HTML
- HTTPS
- хаб
- человек
- Людей
- сто
- Сотни
- идеальный
- идеи
- идентифицированный
- идентифицирует
- идентифицирующий
- if
- осуществлять
- наложенный
- in
- включают
- включает в себя
- В том числе
- включать
- Увеличение
- расширились
- повышение
- Индексы
- индикаторы
- промышленность
- сообщил
- начальный
- Посвященные
- Инициатива
- вход
- затраты
- внутри
- пример
- интегрировать
- интегрированный
- Интегрируется
- Интегрируя
- интеграции.
- интерфейсы
- в нашей внутренней среде,
- Интервью
- в
- вводить
- выпустили
- введение
- Введение
- невидимый
- манящий
- вовлеченный
- включает в себя
- вопрос
- вопросы
- IT
- итерации
- ЕГО
- работа
- путешествие
- КДнаггетс
- Основные
- знания
- язык
- большой
- запуск
- слой
- ведущий
- позволять
- уровень
- библиотеки
- Библиотека
- Жизненный цикл
- такое как
- Вероятно
- линий
- связанный
- Войти
- сделать
- Создание
- управление
- система управления
- обязательный
- многих
- максимизации
- Май..
- означает
- Участники
- просто
- обмен сообщениями
- метод
- методы
- Метрика
- может быть
- ML
- модель
- Модели
- умеренному
- монитор
- Мониторинг
- БОЛЕЕ
- Более того
- самых
- перемещение
- многогранный
- с разными
- должен
- родной
- Откройте
- Необходимость
- необходимый
- Новые
- следующий
- сейчас
- номер
- вхождение
- of
- предлагают
- предлагающий
- Официальный представитель в Грузии
- .
- on
- ONE
- только
- открытый
- с открытым исходным кодом
- открытый
- работает
- Операционный отдел
- оптимальный
- Опции
- or
- Другое
- Другое
- наши
- внешний
- Результат
- контур
- изложенные
- выходы
- собственный
- часть
- особый
- части
- шаблон
- производительность
- выполняет
- перспективы
- трубопровод
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Играть
- Точка
- пунктов
- политика
- возможное
- потенциал
- pr
- практическое
- предпочитать
- привилегированный
- предварительный
- премьер-министр
- принцип
- Предварительный
- Проблема
- процесс
- производит
- Произведенный
- Продукт
- Производство
- видный
- защиту
- обеспечивать
- поставщики
- приводит
- публиковать
- Push
- толкнул
- положил
- Запросы
- вопрос
- Вопросы
- R & D
- ассортимент
- скорее
- достигать
- доходит до
- готовый
- реальные
- реального времени
- признавать
- признанный
- рекомендовать
- рекомендаций
- уменьшить
- совершенствовать
- рафинирование
- рассматривать
- по
- правила
- правила
- регуляторы
- Соответствие нормативным требованиям
- отчету
- Отчеты
- представляет
- запросить
- Запросы
- обязательный
- Требования
- исследованиям
- Постановления
- уважение
- Реагируйте
- ответы
- в результате
- Итоги
- снова использовать
- обзоре
- рисках,
- прочность
- Run
- s
- защитные меры
- Сохранность
- правила техники безопасности
- то же
- Сохранить
- сканирование
- сканирование
- сценарий
- Сценарии
- Наука
- Ученые
- скриншоты
- рассмотрение
- бесшовные
- Поиск
- Раздел
- сегментация
- чувствительный
- служить
- служит
- набор
- несколько
- должен
- значительный
- слабина
- плавно
- So
- Software
- разработка программного обеспечения
- РЕШАТЬ
- некоторые
- Кто-то
- удалось
- Источник
- пространства
- конкретный
- Этап
- заинтересованных сторон
- стандартизация
- стандартов
- Начало
- статистический
- Шаги
- Stop
- диск
- упорядочить
- упорядочение
- последующее
- существенный
- такие
- suite
- надзор
- Убедитесь
- восприимчивость
- SWIFT
- система
- системы
- T
- взять
- осязаемый
- Сложность задачи
- команда
- Члены команды
- Технический
- тестXNUMX
- Тестеры
- Тестирование
- тестов
- текст
- который
- Ассоциация
- их
- тогда
- Там.
- Эти
- они
- вещи
- этой
- взволнованный
- Через
- по всему
- Таким образом
- время
- в
- инструментом
- инструменты
- Обучение
- преобразований
- суд
- Доверие
- стараться
- Типы
- типично
- понимание
- К сожалению
- Обновление ПО
- us
- использование
- прецедент
- используемый
- Информация о пользователе
- пользователей
- через
- обычно
- Проверка
- ценный
- различный
- меняться
- Ve
- версия
- версии
- с помощью
- Вид
- видение
- Уязвимости
- хотеть
- we
- приветствуя
- Что
- Что такое
- когда
- когда бы ни
- который
- в то время как
- будете
- в
- работает
- бы
- письмо
- Неправильно
- лет
- еще
- являетесь
- ВАШЕ
- себя
- зефирнет