Recomendações poderosas e pesquisa usando um gráfico de conhecimento da IMDb

Republicado por Platão

seguidores: 0

Esta série de três partes demonstra como usar redes neurais gráficas (GNNs) e Amazon Netuno para gerar recomendações de filmes usando o IMDb e Box Office Mojo Filmes/TV/OTT pacote de dados licenciáveis, que fornece uma ampla variedade de metadados de entretenimento, incluindo mais de 1 bilhão de classificações de usuários; créditos para mais de 11 milhões de membros do elenco e da equipe; 9 milhões de títulos de filmes, TV e entretenimento; e dados de relatórios de bilheteria global de mais de 60 países. Muitos clientes de mídia e entretenimento da AWS licenciam dados IMDb por meio de Troca de dados da AWS para melhorar a descoberta de conteúdo e aumentar o envolvimento e a retenção do cliente.

In Parte 1, discutimos as aplicações de GNNs e como transformar e preparar nossos dados IMDb para consulta. Nesta postagem, discutimos o processo de uso do Neptune para gerar incorporações usadas para conduzir nossa pesquisa fora do catálogo na Parte 3 . Nós também passamos por cima Amazon Netuno ML, o recurso de aprendizado de máquina (ML) do Neptune e o código que usamos em nosso processo de desenvolvimento. Na Parte 3, mostramos como aplicar nossas incorporações de gráfico de conhecimento a um caso de uso de pesquisa fora do catálogo.

Visão geral da solução

Grandes conjuntos de dados conectados geralmente contêm informações valiosas que podem ser difíceis de extrair usando consultas baseadas apenas na intuição humana. As técnicas de ML podem ajudar a encontrar correlações ocultas em gráficos com bilhões de relacionamentos. Essas correlações podem ser úteis para recomendar produtos, prever o valor do crédito, identificar fraudes e muitos outros casos de uso.

O Neptune ML torna possível construir e treinar modelos úteis de ML em grandes gráficos em horas, em vez de semanas. Para conseguir isso, o Neptune ML usa a tecnologia GNN desenvolvida por Amazon Sage Maker e os votos de Biblioteca de gráficos profundos (DGL) (qual é de código aberto). GNNs são um campo emergente na inteligência artificial (por exemplo, veja Uma pesquisa abrangente sobre redes neurais gráficas). Para obter um tutorial prático sobre como usar GNNs com o DGL, consulte Aprendendo redes neurais gráficas com Deep Graph Library.

Neste post, mostramos como usar o Neptune em nosso pipeline para gerar embeddings.

O diagrama a seguir descreve o fluxo geral de dados IMDb desde o download até a geração de incorporação.

Utilizamos os seguintes serviços da AWS para implementar a solução:

Nesta postagem, orientamos você pelas seguintes etapas de alto nível:

Configurar variáveis de ambiente
Crie um trabalho de exportação.
Crie um trabalho de processamento de dados.
Envie um trabalho de treinamento.
Baixar incorporações.

Código para comandos Neptune ML

Usamos os seguintes comandos como parte da implementação desta solução:

%%neptune_ml export start
%%neptune_ml export status
%neptune_ml training start
%neptune_ml training status

Usamos neptune_ml export para verificar o status ou iniciar um processo de exportação do Neptune ML e neptune_ml training para iniciar e verificar o status de um trabalho de treinamento do modelo Neptune ML.

Para obter mais informações sobre esses e outros comandos, consulte Usando as mágicas da bancada de trabalho Neptune em seus notebooks.

Pré-requisitos

Para acompanhar este post, você deve ter o seguinte:

An Conta da AWS
Familiaridade com SageMaker, Amazon S3 e AWS CloudFormation
Dados do gráfico carregados no cluster Neptune (consulte Parte 1 para mais informações)

Configurar variáveis de ambiente

Antes de começarmos, você precisará configurar seu ambiente definindo as seguintes variáveis: s3_bucket_uri e processed_folder. s3_bucket_uri é o nome do bucket usado na Parte 1 e processed_folder é o local do Amazon S3 para a saída do trabalho de exportação.

# name of s3 bucket
s3_bucket_uri = "<s3-bucket-name>" # the s3 location you want to store results
processed_folder = f"s3://{s3_bucket_uri}/experiments/neptune-export/"

Criar um trabalho de exportação

Na Parte 1, criamos um notebook SageMaker e um serviço de exportação para exportar nossos dados do cluster de banco de dados Neptune para o Amazon S3 no formato necessário.

Agora que nossos dados foram carregados e o serviço de exportação criado, precisamos criar um trabalho de exportação e iniciá-lo. Para fazer isso, usamos NeptuneExportApiUri e crie parâmetros para o trabalho de exportação. No código a seguir, usamos as variáveis expo e export_params. Conjunto expo para o seu NeptuneExportApiUri valor, que você pode encontrar no Saídas guia da pilha do CloudFormation. Para export_params, usamos o endpoint de seu cluster Neptune e fornecemos o valor para outputS3path, que é o local do Amazon S3 para a saída do trabalho de exportação.

expo = <NEPTUNE-EXPORT-URI>
export_params={ "command": "export-pg", "params": { "endpoint": neptune_ml.get_host(),
            "profile": "neptune_ml",
            "cloneCluster": True
             }, "outputS3Path": processed_folder, "additionalParams": {
        "neptune_ml": {
          "version": "v2.0"
         }
      }, "jobSize": "medium"}

Para enviar o trabalho de exportação, use o seguinte comando:

%%neptune_ml export start --export-url {expo} --export-iam --store-to export_results --wait-timeout 1000000                                                              
${export_params}

Para verificar o status do trabalho de exportação, use o seguinte comando:

%neptune_ml export status --export-url {expo} --export-iam --job-id {export_results['jobId']} --store-to export_results

Após a conclusão do trabalho, defina o processed_folder variável para fornecer a localização do Amazon S3 dos resultados processados:

export_results['processed_location']= processed_folder

Criar um trabalho de processamento de dados

Agora que a exportação está concluída, criamos um trabalho de processamento de dados para preparar os dados para o processo de treinamento do Neptune ML. Isso pode ser feito de algumas maneiras diferentes. Para esta etapa, você pode alterar o job_name e modelType variáveis, mas todos os outros parâmetros devem permanecer os mesmos. A parte principal deste código é o modelType parâmetro, que podem ser modelos de grafos heterogêneos (heterogeneous) ou gráficos de conhecimento (kge).

O trabalho de exportação também inclui training-data-configuration.json. Use este arquivo para adicionar ou remover quaisquer nós ou bordas que você não deseja fornecer para treinamento (por exemplo, se você deseja prever o link entre dois nós, pode remover esse link neste arquivo de configuração). Para esta postagem do blog, usamos o arquivo de configuração original. Para informações adicionais, consulte Editando um arquivo de configuração de treinamento.

Crie seu trabalho de processamento de dados com o seguinte código:

job_name = neptune_ml.get_training_job_name("link-pred")
processing_params = f"""--config-file-name training-data-configuration.json --job-id {job_name}-DP --s3-input-uri {export_results['outputS3Uri']} --s3-processed-uri {export_results['processed_location']} --model-type kge --instance-type ml.m5.2xlarge """ %neptune_ml dataprocessing start --store-to processing_results {processing_params}

Para verificar o status do trabalho de exportação, use o seguinte comando:

%neptune_ml dataprocessing status --job-id {processing_results['id']} --store-to processing_results

Enviar um trabalho de treinamento

Após a conclusão do trabalho de processamento, podemos começar nosso trabalho de treinamento, onde criamos nossos embeddings. Recomendamos um tipo de instância de ml.m5.24xlarge, mas você pode alterá-lo para atender às suas necessidades de computação. Veja o seguinte código:

dp_id = processing_results['id']
training_job_name = dp_id + "training"
training_job_name = "".join(training_job_name.split("-")) training_params=f"--job-id train-{training_job_name} --data-processing-id {dp_id} --instance-type ml.m5.24xlarge --s3-output-uri s3://{str(s3_bucket_uri)}/training/{training_job_name}/" %neptune_ml training start --store-to training_results {training_params} print(training_results)

Imprimimos a variável training_results para obter o ID do trabalho de treinamento. Use o seguinte comando para verificar o status do seu trabalho:

%neptune_ml training status --job-id {training_results['id']} --store-to training_status_results

Baixar incorporações

Após a conclusão do trabalho de treinamento, a última etapa é fazer o download das incorporações brutas. As etapas a seguir mostram como baixar embeddings criados usando KGE (você pode usar o mesmo processo para RGCN).

No código a seguir, usamos neptune_ml.get_mapping() e get_embeddings() para baixar o arquivo de mapeamento (mapping.info) e o arquivo raw embeddings (entity.npy). Em seguida, precisamos mapear as incorporações apropriadas para seus IDs correspondentes.

neptune_ml.get_embeddings(training_status_results["id"])                                            
neptune_ml.get_mapping(training_status_results["id"])                                               
                                                                                        
f = open('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/mapping.info',  "rb")                                                                                   
mapping = pickle.load(f)                                                                
                                                                                        
node2id = mapping['node2id']                                                            
localid2globalid = mapping['node2gid']                                                  
data = np.load('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/embeddings/entity.npy')                                                                           
                                                                                          
embd_to_sum = mapping["node2id"]                                                        
full = len(list(embd_to_sum["movie"].keys()))                                                                                                                                    
ITEM_ID = []                                                                            
KEY = []                                                                                
VALUE = []                                                                              
for ii in tqdm(range(full)):                                                         
node_id = list(embd_to_sum["movie"].keys())[ii]
index = localid2globalid['movie'][node2id['movie'][node_id]]
embedding = data[index]
ITEM_ID += [node_id]*embedding.shape[0]
KEY += [i for i in range(embedding.shape[0])]
VALUE += list(embedding)
                                                                       
meta_df = pd.DataFrame({"ITEM_ID": ITEM_ID, "KEY": KEY, "VALUE":VALUE})
meta_df.to_csv('new_embeddings.csv')

Para baixar RGCNs, siga o mesmo processo com um novo nome de trabalho de treinamento processando os dados com o parâmetro modelType definido como heterogeneous, treinando seu modelo com o parâmetro modelName definido como rgcn Vejo SUA PARTICIPAÇÃO FAZ A DIFERENÇA para mais detalhes. Feito isso, ligue para o get_mapping e get_embeddings funções para baixar seu novo mapeamento.info e entidade.npy arquivos. Depois de ter os arquivos de entidade e mapeamento, o processo para criar o arquivo CSV é idêntico.

Por fim, faça upload de suas incorporações para o local desejado do Amazon S3:

s3_destination = "s3://"+s3_bucket_uri+"/embeddings/"+"new_embeddings.csv" !aws s3 cp new_embeddings.csv {s3_destination}

Certifique-se de lembrar este local S3, você precisará usá-lo na Parte 3.

limpar

Quando terminar de usar a solução, certifique-se de limpar todos os recursos para evitar cobranças contínuas.

Conclusão

Nesta postagem, discutimos como usar o Neptune ML para treinar incorporações GNN a partir de dados IMDb.

Algumas aplicações relacionadas de incorporações de gráfico de conhecimento são conceitos como pesquisa fora do catálogo, recomendações de conteúdo, publicidade direcionada, previsão de links ausentes, pesquisa geral e análise de coorte. A pesquisa fora do catálogo é o processo de pesquisa de conteúdo que não pertence a você e de localização ou recomendação de conteúdo que esteja em seu catálogo que seja o mais próximo possível do que o usuário pesquisou. Nós nos aprofundamos na pesquisa fora do catálogo na Parte 3.

Sobre os autores

Mateus Rodes é um cientista de dados que trabalha no laboratório de soluções do Amazon ML. Ele é especialista na construção de pipelines de Machine Learning que envolvem conceitos como Processamento de Linguagem Natural e Visão Computacional.

Divya Bhargavi é cientista de dados e líder vertical de mídia e entretenimento no Amazon ML Solutions Lab, onde resolve problemas de negócios de alto valor para clientes da AWS usando Machine Learning. Ela trabalha com compreensão de imagem/vídeo, sistemas de recomendação de gráfico de conhecimento, casos de uso de publicidade preditiva.

Gaurav Rele é cientista de dados no Amazon ML Solution Lab, onde trabalha com clientes da AWS em diferentes setores para acelerar o uso de aprendizado de máquina e serviços de nuvem da AWS para resolver seus desafios de negócios.

Karan Sindwani é cientista de dados no Amazon ML Solutions Lab, onde cria e implanta modelos de aprendizado profundo. Ele é especialista na área de visão computacional. Nas horas vagas, gosta de fazer caminhadas.

Soji Adeshina é um cientista aplicado na AWS, onde desenvolve modelos baseados em redes neurais de grafos para aprendizado de máquina em tarefas de grafos com aplicativos para fraude e abuso, grafos de conhecimento, sistemas de recomendação e ciências biológicas. Nas horas vagas gosta de ler e cozinhar.

Vidya Sagar Ravipati é gerente do Amazon ML Solutions Lab, onde aproveita sua vasta experiência em sistemas distribuídos de grande escala e sua paixão por aprendizado de máquina para ajudar os clientes da AWS em diferentes verticais do setor a acelerar a adoção de IA e nuvem.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
Fonte: https://aws.amazon.com/blogs/machine-learning/part-2-power-recommendations-and-search-using-an-imdb-knowledge-graph/

Carimbo de hora: 20 de dezembro de 2022

Carimbo de hora: 9 de março de 2022

Republicado por Platão

Novas melhorias de desempenho na biblioteca paralela de modelos do Amazon SageMaker

Preparar dados do Databricks para machine learning usando o Amazon SageMaker Data Wrangler

Apresentando Fortuna: uma biblioteca para quantificação de incertezas

Amazon SageMaker Automatic Model Tuning agora oferece suporte a três novos critérios de conclusão para otimização de hiperparâmetros

Preveja preços de imóveis residenciais no ImmoScout24 com o Amazon SageMaker

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta