Conceptos que debe saber antes de ingresar a los transformadores

nuggets

Conceptos que debe saber antes de ingresar a los transformadores

Big DataSello de tiempo: 13 de enero de 2023 12:00 p.m.

Nodo de origen: 1894868

Reeditado por Platón

seguidores: 0

Las redes neuronales aprenden a través de números, por lo que cada palabra se asignará a vectores para representar una palabra en particular. La capa de incrustación se puede considerar como una tabla de búsqueda que almacena incrustaciones de palabras y las recupera mediante índices.

Conceptos que debes saber antes de entrar en Transformer

Las palabras que tienen el mismo significado estarán cerca en términos de distancia euclidiana/similitud de coseno. por ejemplo, en la siguiente representación de palabras, "sábado", "domingo" y "lunes" están asociados con el mismo concepto, por lo que podemos ver que las palabras están resultando similares.

Conceptos que debes saber antes de entrar en Transformer

La determinación de la posición de la palabra, ¿Por qué necesitamos determinar la posición de la palabra? Debido a que el codificador del transformador no tiene recurrencia como las redes neuronales recurrentes, debemos agregar información sobre las posiciones en las incrustaciones de entrada. Esto se hace usando codificación posicional. Los autores del artículo utilizaron las siguientes funciones para modelar la posición de una palabra.

Conceptos que debes saber antes de entrar en Transformer

Intentaremos explicar la codificación posicional.

Conceptos que debes saber antes de entrar en Transformer

Aquí “pos” se refiere a la posición de la “palabra” en la secuencia. P0 se refiere a la posición de incrustación de la primera palabra; "d" significa el tamaño de la incrustación de palabra/token. En este ejemplo d=5. Finalmente, "i" se refiere a cada una de las 5 dimensiones individuales de la incrustación (es decir, 0, 1,2,3,4)

si "i" varía en la ecuación anterior, obtendrá un montón de curvas con frecuencias variables. Lectura de los valores de incrustación de posición frente a diferentes frecuencias, dando diferentes valores en diferentes dimensiones de incrustación para P0 y P4.

Conceptos que debes saber antes de entrar en Transformer

En este consulta, q representa una palabra vectorial, la teclas k son todas las demás palabras en la oración, y valor V representa el vector de la palabra.

El propósito de la atención es calcular la importancia del término clave en comparación con el término de consulta relacionado con la misma persona/cosa o concepto.

En nuestro caso, V es igual a Q.

El mecanismo de atención nos da la importancia de la palabra en una oración.

Conceptos que debes saber antes de entrar en Transformer

Cuando calculamos el producto escalar normalizado entre la consulta y las claves, obtenemos un tensor que representa la importancia relativa de cada palabra para la consulta.

Conceptos que debes saber antes de entrar en Transformer

Al calcular el producto escalar entre Q y KT, tratamos de estimar cómo se alinean los vectores (es decir, las palabras entre la consulta y las claves) y devolvemos un peso para cada palabra de la oración.

Luego, normalizamos el resultado al cuadrado de d_k y la función softmax regulariza los términos y los reescala entre 0 y 1.

Finalmente, multiplicamos el resultado (es decir, pesos) por el valor (es decir, todas las palabras) para reducir la importancia de las palabras no relevantes y centrarnos solo en las palabras más importantes.

El vector de salida de atención de múltiples cabezas se agrega a la incrustación de entrada posicional original. Esto se denomina conexión residual/conexión de salto. La salida de la conexión residual pasa por la normalización de capas. La salida residual normalizada se pasa a través de una red de alimentación directa puntual para su posterior procesamiento.

Conceptos que debes saber antes de entrar en Transformer

La máscara es una matriz del mismo tamaño que las puntuaciones de atención llenas de valores de 0 e infinitos negativos.

Conceptos que debes saber antes de entrar en Transformer

El motivo de la máscara es que una vez que toma el softmax de las puntuaciones enmascaradas, los infinitos negativos se vuelven cero, dejando cero puntuaciones de atención para tokens futuros.

Esto le dice al modelo que no se centre en esas palabras.

El propósito de la función softmax es tomar números reales (positivos y negativos) y convertirlos en números positivos que suman 1.

Conceptos que debes saber antes de entrar en Transformer

Ravikumar Naduvin está ocupado construyendo y comprendiendo tareas de PNL usando PyTorch.

Original. Publicado de nuevo con permiso.

Más sobre este tema

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
Platoblockchain. Inteligencia del Metaverso Web3. Conocimiento amplificado. Accede Aquí.
Fuente: https://www.kdnuggets.com/2023/01/concepts-know-getting-transformer.html?utm_source=rss&utm_medium=rss&utm_campaign=concepts-you-should-know-before-getting-into-transformer

Sello de tiempo: Enero 13, 2023

Mas de nuggets

Creé una aplicación de IA en 3 días - KDnuggets

Creé una aplicación de IA en 3 días – KDnuggets

Clúster de origen:

Nodo de origen: 2196805

Sello de tiempo: 4 de Agosto, 2023

4 Maneras de Generar Ingresos Pasivos Usando ChatGPT

4 Maneras de Generar Ingresos Pasivos Usando ChatGPT

Clúster de origen:

Nodo de origen: 2005045

Sello de tiempo: 10 de marzo, 2023

Colección definitiva de 50 cursos gratuitos para dominar la ciencia de datos - KDnuggets

Colección definitiva de 50 cursos gratuitos para dominar la ciencia de datos – KDnuggets

Clúster de origen:

Nodo de origen: 2551893

Sello de tiempo: Apr 19, 2024

Maximice el rendimiento en aplicaciones Edge AI – KDnuggets

Clúster de origen:

Nodo de origen: 2311504

Sello de tiempo: 5 de octubre de 2023

5 cursos gratuitos para dominar las matemáticas para la ciencia de datos - KDnuggets

5 cursos gratuitos para dominar las matemáticas para la ciencia de datos – KDnuggets

Clúster de origen:

Nodo de origen: 2548156

Sello de tiempo: Apr 15, 2024

Domine la ciencia de datos en un año: la guía definitiva para un aprendizaje asequible y a su propio ritmo - KDnuggets

Domine la ciencia de datos en un año: la guía definitiva para un aprendizaje asequible y a su propio ritmo – KDnuggets

Clúster de origen:

Nodo de origen: 2507185

Sello de tiempo: 7 de marzo, 2024

8 alternativas de código abierto a ChatGPT y Bard

8 alternativas de código abierto a ChatGPT y Bard

Clúster de origen:

Nodo de origen: 2050235

Sello de tiempo: Apr 6, 2023

Aprendizaje profundo con R - KDnuggets

Aprendizaje profundo con R – KDnuggets

Clúster de origen:

Nodo de origen: 2114895

Sello de tiempo: 30 de mayo de 2023

5 plataformas gratuitas para crear una cartera sólida de ciencia de datos – KDnuggets

Clúster de origen:

Nodo de origen: 2309815

Sello de tiempo: 5 de octubre de 2023

Las 7 mejores herramientas para el seguimiento de experimentos de aprendizaje automático

Las 7 mejores herramientas para el seguimiento de experimentos de aprendizaje automático

Clúster de origen:

Nodo de origen: 1980665

Sello de tiempo: 20 de febrero de 2023

Ajuste fino de los modelos de lenguaje OpenAI con datos etiquetados ruidosamente

Clúster de origen:

Nodo de origen: 2077011

Sello de tiempo: Apr 28, 2023

Preguntas y respuestas más comunes de entrevistas sobre ciencia de datos

Clúster de origen:

Nodo de origen: 1860815

Sello de tiempo: 5 de Agosto, 2021