Концепции, которые вы должны знать перед тем, как заняться трансформерами

КДнаггетс

Концепции, которые вы должны знать перед тем, как заняться трансформерами

Big DataОтметка времени: 13 января 2023 г., 12:00

Исходный узел: 1894868

Переиздано Платоном

Читают: 0

Нейронные сети обучаются с помощью чисел, поэтому каждое слово будет сопоставлено с векторами, представляющими конкретное слово. Слой внедрения можно рассматривать как таблицу поиска, которая хранит вложения слов и извлекает их с помощью индексов.

Понятия, которые вы должны знать, прежде чем приступить к работе с Transformer

Слова, имеющие одинаковое значение, будут близки с точки зрения евклидова расстояния/косинусного сходства. например, в приведенном ниже представлении слова «суббота», «воскресенье» и «понедельник» связаны с одним и тем же понятием, поэтому мы можем видеть, что слова получаются похожими.

Понятия, которые вы должны знать, прежде чем приступить к работе с Transformer

Определение позиции слова, Зачем нам нужно определять позицию слова? поскольку кодер-трансформер не имеет повторения, как рекуррентные нейронные сети, мы должны добавить некоторую информацию о позициях во входные вложения. Это делается с помощью позиционного кодирования. Авторы статьи использовали следующие функции для моделирования положения слова.

Понятия, которые вы должны знать, прежде чем приступить к работе с Transformer

Мы попытаемся объяснить позиционное кодирование.

Понятия, которые вы должны знать, прежде чем приступить к работе с Transformer

Здесь «pos» относится к положению «слова» в последовательности. P0 относится к позиции встраивания первого слова; «d» означает размер встраивания слова/токена. В этом примере d=5. Наконец, «i» относится к каждому из 5 отдельных размеров вложения (т. е. 0, 1,2,3,4, XNUMX, XNUMX, XNUMX).

если «i» варьируется в приведенном выше уравнении, вы получите набор кривых с различными частотами. Считывание значений встраивания положения на разных частотах, дающее разные значения при разных размерах вложения для P0 и P4.

Понятия, которые вы должны знать, прежде чем приступить к работе с Transformer

В этом запрос, Q представляет собой векторное слово, ключи К все остальные слова в предложении, и значение В представляет собой вектор слова.

Целью внимания является вычисление важности ключевого термина по сравнению с термином запроса, относящимся к тому же человеку/предмету или понятию.

В нашем случае V равно Q.

Механизм внимания дает нам важность слова в предложении.

Понятия, которые вы должны знать, прежде чем приступить к работе с Transformer

Когда мы вычисляем нормализованное скалярное произведение между запросом и ключами, мы получаем тензор, который представляет относительную важность каждого другого слова для запроса.

Понятия, которые вы должны знать, прежде чем приступить к работе с Transformer

При вычислении скалярного произведения между Q и KT мы пытаемся оценить, как выровнены векторы (то есть слова между запросом и ключами), и вернуть вес для каждого слова в предложении.

Затем мы нормализуем результат, возведенный в квадрат d_k, и функция softmax упорядочивает термины и изменяет их масштаб между 0 и 1.

Наконец, мы умножаем результат (т. е. веса) на значение (т. е. все слова), чтобы уменьшить важность нерелевантных слов и сосредоточиться только на самых важных словах.

Выходной вектор многоголового внимания добавляется к исходному позиционному входному вложению. Это называется остаточным соединением/пропускным соединением. Выход остаточного соединения проходит нормализацию уровня. Нормализованный остаточный вывод передается через сеть точечной прямой связи для дальнейшей обработки.

Понятия, которые вы должны знать, прежде чем приступить к работе с Transformer

Маска представляет собой матрицу того же размера, что и оценки внимания, заполненные значениями нулей и отрицательных бесконечных величин.

Понятия, которые вы должны знать, прежде чем приступить к работе с Transformer

Причина использования маски заключается в том, что как только вы берете softmax замаскированных оценок, отрицательные бесконечности становятся равными нулю, оставляя нулевые оценки внимания для будущих токенов.

Это говорит модели не обращать внимания на эти слова.

Цель функции softmax — получить действительные числа (положительные и отрицательные) и превратить их в положительные числа, сумма которых равна 1.

Понятия, которые вы должны знать, прежде чем приступить к работе с Transformer

Равикумар Надувин занят созданием и пониманием задач НЛП с использованием PyTorch.

Оригинал, Перемещено с разрешения.

Больше на этой теме

SEO-контент и PR-распределение. Получите усиление сегодня.
Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
Источник: https://www.kdnuggets.com/2023/01/concepts-know-getting-transformer.html?utm_source=rss&utm_medium=rss&utm_campaign=concepts-you-should-know-before-getting-into-transformer

Отметка времени: 13 января 2023

Больше от КДнаггетс

Я создал приложение с искусственным интеллектом за 3 дня - KDnuggets

Я создал приложение с искусственным интеллектом за 3 дня — KDnuggets

Исходный кластер:

КДнаггетс

Исходный узел: 2196805

Отметка времени: Август 4, 2023

4 способа получения пассивного дохода с помощью ChatGPT

4 способа получения пассивного дохода с помощью ChatGPT

Исходный кластер:

КДнаггетс

Исходный узел: 2005045

Отметка времени: 10 Марта, 2023

Полная коллекция из 50 бесплатных курсов для освоения науки о данных - KDnuggets

Полная коллекция из 50 бесплатных курсов для освоения науки о данных – KDnuggets

Исходный кластер:

КДнаггетс

Исходный узел: 2551893

Отметка времени: 19 Апрель, 2024

Максимизируйте производительность в приложениях Edge AI – KDnuggets

Исходный кластер:

КДнаггетс

Исходный узел: 2311504

Отметка времени: 5 октября, 2023

5 бесплатных курсов по освоению математики для науки о данных - KDnuggets

5 бесплатных курсов по освоению математики для науки о данных – KDnuggets

Исходный кластер:

КДнаггетс

Исходный узел: 2548156

Отметка времени: 15 Апрель, 2024

Магистр науки о данных за год: полное руководство по доступному самостоятельному обучению - KDnuggets

Магистр науки о данных за год: полное руководство по доступному самостоятельному обучению – KDnuggets

Исходный кластер:

КДнаггетс

Исходный узел: 2507185

Отметка времени: 7 Марта, 2024

8 Альтернатива ChatGPT и Bard с открытым исходным кодом

8 Альтернатива ChatGPT и Bard с открытым исходным кодом

Исходный кластер:

КДнаггетс

Исходный узел: 2050235

Отметка времени: 6 Апрель, 2023

Глубокое обучение с R — KDnuggets

Глубокое обучение с R — KDnuggets

Исходный кластер:

КДнаггетс

Исходный узел: 2114895

Отметка времени: 30 мая 2023

5 бесплатных платформ для создания мощного портфолио в области науки о данных – KDnuggets

Исходный кластер:

КДнаггетс

Исходный узел: 2309815

Отметка времени: 5 октября, 2023

7 лучших инструментов для отслеживания экспериментов по машинному обучению

7 лучших инструментов для отслеживания экспериментов по машинному обучению

Исходный кластер:

КДнаггетс

Исходный узел: 1980665

Отметка времени: 20 февраля, 2023

Тонкая настройка языковых моделей OpenAI с зашумленными данными

Исходный кластер:

КДнаггетс

Исходный узел: 2077011

Отметка времени: 28 Апрель, 2023

Наиболее распространенные вопросы и ответы на собеседовании по науке о данных

Исходный кластер:

КДнаггетс

Исходный узел: 1860815

Отметка времени: Август 5, 2021