Conceitos que você deve saber antes de entrar em Transformers

KDnuggetsGenericName

Conceitos que você deve saber antes de entrar em Transformers

Big DataCarimbo de hora: 13 de janeiro de 2023, 12h00

Nó Fonte: 1894868

Republicado por Platão

seguidores: 0

As redes neurais aprendem por meio de números, então cada palavra será mapeada em vetores para representar uma palavra específica. A camada de incorporação pode ser considerada uma tabela de pesquisa que armazena embeddings de palavras e os recupera usando índices.

Conceitos que você deve saber antes de entrar no Transformer

Palavras que têm o mesmo significado serão próximas em termos de distância euclidiana/similaridade de cosseno. por exemplo, na representação da palavra abaixo, “sábado”, “domingo” e “segunda-feira” está associado ao mesmo conceito, portanto podemos ver que as palavras resultam semelhantes.

Conceitos que você deve saber antes de entrar no Transformer

A determinação da posição da palavra, por que precisamos determinar a posição da palavra? como o codificador do transformador não tem recorrência como as redes neurais recorrentes, devemos adicionar algumas informações sobre as posições nos embeddings de entrada. Isso é feito usando codificação posicional. Os autores do artigo usaram as seguintes funções para modelar a posição de uma palavra.

Conceitos que você deve saber antes de entrar no Transformer

Tentaremos explicar a codificação posicional.

Conceitos que você deve saber antes de entrar no Transformer

Aqui “pos” refere-se à posição da “palavra” na sequência. P0 refere-se à incorporação de posição da primeira palavra; “d” significa o tamanho da incorporação de palavra/token. Neste exemplo d=5. Finalmente, “i” refere-se a cada uma das 5 dimensões individuais da incorporação (ou seja, 0, 1,2,3,4)

se “i” variar na equação acima, você obterá um monte de curvas com frequências variadas. Lendo os valores de incorporação de posição em relação a diferentes frequências, fornecendo valores diferentes em diferentes dimensões de incorporação para P0 e P4.

Conceitos que você deve saber antes de entrar no Transformer

Neste curso consulta, Q representa uma palavra vetorial, o teclas K são todas as outras palavras na frase, e valor V representa o vetor da palavra.

O objetivo da atenção é calcular a importância do termo-chave em comparação com o termo de consulta relacionado à mesma pessoa/coisa ou conceito.

No nosso caso, V é igual a Q.

O mecanismo de atenção nos dá a importância da palavra em uma frase.

Conceitos que você deve saber antes de entrar no Transformer

Quando calculamos o produto escalar normalizado entre a consulta e as chaves, obtemos um tensor que representa a importância relativa de cada uma das outras palavras para a consulta.

Conceitos que você deve saber antes de entrar no Transformer

Ao calcular o produto escalar entre Q e KT, tentamos estimar como os vetores (ou seja, palavras entre a consulta e as chaves) estão alinhados e retornam um peso para cada palavra na frase.

Em seguida, normalizamos o resultado ao quadrado de d_k e a função softmax regulariza os termos e os redimensiona entre 0 e 1.

Finalmente, multiplicamos o resultado (ou seja, pesos) pelo valor (ou seja, todas as palavras) para reduzir a importância das palavras não relevantes e focar apenas nas palavras mais importantes.

O vetor de saída de atenção com múltiplas cabeças é adicionado à incorporação de entrada posicional original. Isso é chamado de conexão residual/conexão de salto. A saída da conexão residual passa pela normalização da camada. A saída residual normalizada é passada através de uma rede feed-forward pontual para processamento adicional.

Conceitos que você deve saber antes de entrar no Transformer

A máscara é uma matriz do mesmo tamanho das pontuações de atenção preenchida com valores 0 e infinitos negativos.

Conceitos que você deve saber antes de entrar no Transformer

A razão para a máscara é que, uma vez obtido o softmax das pontuações mascaradas, os infinitos negativos chegam a zero, deixando zero pontuações de atenção para tokens futuros.

Isso diz ao modelo para não colocar foco nessas palavras.

O objetivo da função softmax é pegar números reais (positivos e negativos) e transformá-los em números positivos que somam 1.

Conceitos que você deve saber antes de entrar no Transformer

Ravikumar Naduvin está ocupado construindo e compreendendo tarefas de PNL usando PyTorch.

Óptimo estado. Original. Republicado com permissão.

Mais sobre este tópico

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
Fonte: https://www.kdnuggets.com/2023/01/concepts-know-getting-transformer.html?utm_source=rss&utm_medium=rss&utm_campaign=concepts-you-should-know-before-getting-into-transformer

Carimbo de hora: 13 de janeiro de 2023

Mais de KDnuggetsGenericName

Principais postagens de 10 a 16 de abril: AutoGPT: tudo o que você precisa saber

Grupo de origem:

KDnuggetsGenericName

Nó Fonte: 2062031

Carimbo de hora: 17 de abril, 2023

Como aceitar o exame de certificação profissional de cientista de dados - KDnuggets

Como aceitar o exame de certificação profissional de cientista de dados - KDnuggets

Grupo de origem:

KDnuggetsGenericName

Nó Fonte: 2235811

Carimbo de hora: 25 Agosto , 2023

Principais cursos gratuitos em modelos de linguagem grandes

Grupo de origem:

KDnuggetsGenericName

Nó Fonte: 1998435

Carimbo de hora: 7 de março de 2023

Entrevista do 30º aniversário do KDnuggets com o fundador Gregory Piatetsky-Shapiro - KDnuggets

Entrevista do 30º aniversário do KDnuggets com o fundador Gregory Piatetsky-Shapiro – KDnuggets

Grupo de origem:

KDnuggetsGenericName

Nó Fonte: 2246727

Carimbo de hora: 1 de setembro de 2023

20 projetos de aprendizado de máquina que farão você ser contratado

Grupo de origem:

KDnuggetsGenericName

Nó Fonte: 1092193

Carimbo de hora: 22 de setembro de 2021

Conjuntos de dados de código aberto para visão computacional

Grupo de origem:

KDnuggetsGenericName

Nó Fonte: 1864917

Carimbo de hora: 18 Agosto , 2021

Álgebra Linear Essencial para Ciência de Dados e Aprendizado de Máquina

Grupo de origem:

KDnuggetsGenericName

Nó Fonte: 1852280

Carimbo de hora: 10 de maio de 2021

ether-eth-trading-volume-growth-dwarfed-bitcoins-btc-no-primeiro-semestre-de-2021.jpg

10 erros de treinamento do modelo de aprendizado de máquina

Grupo de origem:

KDnuggetsGenericName

Nó Fonte: 1859065

Carimbo de hora: Julho 30, 2021

Detalhes do GPT-4 vazaram! - KDnuggets

Detalhes do GPT-4 vazaram! – KDnuggets

Grupo de origem:

KDnuggetsGenericName

Nó Fonte: 2177564

Carimbo de hora: Julho 19, 2023

Folha de referências de métodos mágicos do Jupyter Notebook - KDnuggets

Folha de referências de métodos mágicos do Jupyter Notebook - KDnuggets

Grupo de origem:

KDnuggetsGenericName

Nó Fonte: 2482198

Carimbo de hora: 15 fevereiro de 2024

Esqueça PIP, Conda e requisitos.txt! Em vez disso, use poesia e agradeça-me mais tarde - KDnuggets

Esqueça PIP, Conda e requisitos.txt! Em vez disso, use poesia e agradeça-me mais tarde - KDnuggets

Grupo de origem:

KDnuggetsGenericName

Nó Fonte: 2182174

Carimbo de hora: Julho 20, 2023

Aprenda a projetar, medir e implementar testes A/B confiáveis com o especialista líder em experimentação Ronny Kohavi (ex-Amazon, Airbnb, Microsoft)

Aprenda a projetar, medir e implementar testes A/B confiáveis com o especialista líder em experimentação Ronny Kohavi (ex-Amazon, Airbnb, Microsoft)

Grupo de origem:

KDnuggetsGenericName

Nó Fonte: 1927772

Carimbo de hora: 24 de janeiro de 2023