Концепції, які слід знати, перш ніж почати Трансформери

KDnuggets

Концепції, які слід знати, перш ніж почати Трансформери

Великий данихМітка часу: 13 січня 2023 р. 12:00

Вихідний вузол: 1894868

Перевидано Платоном

читають: 0

Нейронні мережі навчаються за допомогою чисел, тому кожне слово буде зіставлено з векторами для представлення певного слова. Рівень вбудовування можна розглядати як таблицю пошуку, яка зберігає вбудовування слів і отримує їх за допомогою індексів.

Концепції, які ви повинні знати, перш ніж потрапити в Transformer

Слова, які мають однакове значення, будуть близькими з точки зору подібності евклідової відстані/косинуса. наприклад, у наведеному нижче слові «субота», «неділя» та «понеділок» пов’язані з тим самим поняттям, тому ми бачимо, що слова подібні.

Концепції, які ви повинні знати, перш ніж потрапити в Transformer

Визначення позиції слова. Чому нам потрібно визначати позицію слова? оскільки трансформаторний кодер не має повторюваності, як рекурентні нейронні мережі, ми повинні додати деяку інформацію про позиції у вхідні вбудовані дані. Це робиться за допомогою позиційного кодування. Автори статті використали наступні функції для моделювання позиції слова.

Концепції, які ви повинні знати, перш ніж потрапити в Transformer

Ми спробуємо пояснити позиційне кодування.

Концепції, які ви повинні знати, перш ніж потрапити в Transformer

Тут «pos» відноситься до позиції «слова» в послідовності. P0 відноситься до вбудовування позиції першого слова; «d» означає розмір вбудованого слова/токена. У цьому прикладі d=5. Нарешті, «i» відноситься до кожного з 5 окремих вимірів вбудовування (тобто 0, 1,2,3,4, XNUMX, XNUMX, XNUMX)

якщо «i» змінюватися у рівнянні вище, ви отримаєте купу кривих із різними частотами. Зчитування значень вбудовування позиції на різних частотах, надання різних значень при різних розмірах вбудовування для P0 і P4.

Концепції, які ви повинні знати, перш ніж потрапити в Transformer

В цьому запит, Q представляє векторне слово, the ключі К всі інші слова в реченні, і значення V представляє вектор слова.

Мета звернення уваги полягає в тому, щоб обчислити важливість ключового терміна порівняно з терміном запиту, пов’язаним з тією самою особою/реччю чи поняттям.

У нашому випадку V дорівнює Q.

Механізм уваги дає нам значення слова в реченні.

Концепції, які ви повинні знати, перш ніж потрапити в Transformer

Коли ми обчислюємо нормалізований скалярний добуток між запитом і ключами, ми отримуємо тензор, який представляє відносну важливість кожного слова для запиту.

Концепції, які ви повинні знати, перш ніж потрапити в Transformer

Під час обчислення скалярного добутку між Q і KT ми намагаємося оцінити, як вирівнюються вектори (тобто слова між запитом і ключами) і повертаємо вагу для кожного слова в реченні.

Потім ми нормалізуємо результат d_k у квадраті, а функція softmax упорядковує доданки та масштабує їх між 0 і 1.

Нарешті, ми множимо результат (тобто ваги) на значення (тобто всі слова), щоб зменшити важливість нерелевантних слів і зосередитися лише на найважливіших словах.

Багатонаправлений вектор виведення уваги додається до оригінального позиційного введення. Це називається залишковим з’єднанням/пропущеним з’єднанням. Вихід залишкового з'єднання проходить через нормалізацію рівня. Нормований залишковий вихід пропускається через поточкову мережу прямого зв’язку для подальшої обробки.

Концепції, які ви повинні знати, перш ніж потрапити в Transformer

Маска — це матриця такого ж розміру, що й показники уваги, заповнена значеннями 0 і нескінченністю.

Концепції, які ви повинні знати, перш ніж потрапити в Transformer

Причина маски полягає в тому, що як тільки ви берете softmax замаскованих балів, негативні нескінченності стають нульовими, залишаючи нульові оцінки уваги для майбутніх токенів.

Це говорить моделі не зосереджуватися на цих словах.

Метою функції softmax є отримання дійсних чисел (додатних і від’ємних) і перетворення їх на додатні числа, сума яких дорівнює 1.

Концепції, які ви повинні знати, перш ніж потрапити в Transformer

Равікумар Надувін зайнятий створенням і розумінням завдань НЛП за допомогою PyTorch.

Оригінал. Повідомлено з дозволу.

Більше на цю тему

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
джерело: https://www.kdnuggets.com/2023/01/concepts-know-getting-transformer.html?utm_source=rss&utm_medium=rss&utm_campaign=concepts-you-should-know-before-getting-into-transformer

Часова мітка: Січень 13, 2023

Більше від KDnuggets

LangChain + Streamlit + Llama: перенесення розмовного штучного інтелекту на вашу локальну машину - KDnuggets

LangChain + Streamlit + Llama: перенесення розмовного штучного інтелекту на вашу локальну машину – KDnuggets

Кластер джерел:

Вихідний вузол: 2218810

Часова мітка: Серпень 17, 2023

Як ефективно використовувати Pandas GroupBy

Як ефективно використовувати Pandas GroupBy

Кластер джерел:

Вихідний вузол: 1940505

Часова мітка: Січень 30, 2023

Літня інформаційна сесія MS Business Analytics 2024 року в університеті Цинциннаті - KDnuggets

Літня інформаційна сесія MS Business Analytics 2024 Університету Цинциннаті – KDnuggets

Кластер джерел:

Вихідний вузол: 2475268

Часова мітка: Лютий 9, 2024

Новини KDnuggets, 26 квітня: Чотири ефективні підходи до аналізу даних • Аналіз зарплат спеціаліста з даних

Кластер джерел:

Вихідний вузол: 2078267

Часова мітка: Квітень 26, 2023

Автоматизуйте нудні речі за допомогою ChatGPT і Python

Автоматизуйте нудні речі за допомогою ChatGPT і Python

Кластер джерел:

Вихідний вузол: 2035815

Часова мітка: Березень 28, 2023

8 мов програмування для вивчення даних у 2023 році – KDnuggets

Кластер джерел:

Вихідний вузол: 2187600

Часова мітка: Липень 27, 2023

Новини KDnuggets, 9 серпня: Забудьте про ChatGPT, цей новий помічник зі штучним інтелектом випереджає ліги • 7 кроків до освоєння методів очищення та попередньої обробки даних - KDnuggets

Новини KDnuggets, 9 серпня: Забудьте про ChatGPT, цей новий помічник зі штучним інтелектом випереджає ліги • 7 кроків до освоєння методів очищення та попередньої обробки даних – KDnuggets

Кластер джерел:

Вихідний вузол: 2204176

Часова мітка: Серпень 9, 2023

Електронна книга: Вивчайте науку про дані за допомогою R – завантажити безкоштовно

Кластер джерел:

Вихідний вузол: 1866205

Часова мітка: Вересень 7, 2021

Аналіз геопросторових даних за допомогою Geemap - KDnuggets

Аналіз геопросторових даних за допомогою Geemap – KDnuggets

Кластер джерел:

Вихідний вузол: 2546922

Часова мітка: Квітень 15, 2024

Безкоштовний курс розробки надійності сайту від Google + Uplimit - KDnuggets

Безкоштовний курс з розробки надійності сайту від Google + Uplimit – KDnuggets

Кластер джерел:

Вихідний вузол: 2500031

Часова мітка: Лютий 29, 2024

Стабільна дифузія: базова інтуїція за генеративним ШІ – KDnuggets

Кластер джерел:

Вихідний вузол: 2152419

Часова мітка: Червень 29, 2023

Сховища даних проти озер даних проти вітрин даних: потрібна допомога у прийнятті рішення? - KDnuggets

Сховища даних проти озер даних проти вітрин даних: потрібна допомога у прийнятті рішення? – KDnuggets

Кластер джерел:

Вихідний вузол: 2357320

Часова мітка: Жовтень 30, 2023