IMDb 지식 그래프를 사용한 강력한 권장 사항 및 검색

플라톤에 의해 재발행

팔로워 : 0

세 부분으로 구성된 이 시리즈는 GNN(그래프 신경망)을 사용하는 방법과 아마존 해왕성 를 사용하여 영화 추천을 생성합니다. IMDb 및 Box Office Mojo 영화/TV/OTT 1억 명 이상의 사용자 등급을 포함하여 광범위한 엔터테인먼트 메타데이터를 제공하는 라이선스 데이터 패키지 11만 명 이상의 출연진 및 제작진을 위한 크레딧; 9만 개의 영화, TV 및 엔터테인먼트 타이틀; 60개국 이상의 글로벌 박스오피스 보고 데이터. 많은 AWS 미디어 및 엔터테인먼트 고객이 다음을 통해 IMDb 데이터에 라이선스를 부여합니다. AWS 데이터 교환 콘텐츠 검색을 개선하고 고객 참여 및 유지율을 높입니다.

In 파트 1, 우리는 GNN의 적용과 쿼리를 위해 IMDb 데이터를 변환하고 준비하는 방법에 대해 논의했습니다. 이 게시물에서는 Neptune을 사용하여 3부에서 카탈로그 외부 검색을 수행하는 데 사용되는 임베딩을 생성하는 프로세스에 대해 설명합니다. 우리도 넘어간다 아마존 넵튠 ML, Neptune의 기계 학습(ML) 기능, 개발 프로세스에서 사용하는 코드입니다. 3부에서는 지식 그래프 임베딩을 카탈로그 외부 검색 사용 사례에 적용하는 방법을 살펴봅니다.

솔루션 개요

대규모 연결된 데이터 세트에는 인간의 직관만을 기반으로 하는 쿼리를 사용하여 추출하기 어려울 수 있는 귀중한 정보가 포함되어 있는 경우가 많습니다. ML 기술은 수십억 개의 관계가 있는 그래프에서 숨겨진 상관 관계를 찾는 데 도움이 될 수 있습니다. 이러한 상관 관계는 제품 추천, 신용 가치 예측, 사기 식별 및 기타 여러 사용 사례에 도움이 될 수 있습니다.

Neptune ML을 사용하면 몇 주가 아닌 몇 시간 만에 대규모 그래프에서 유용한 ML 모델을 구축하고 교육할 수 있습니다. 이를 달성하기 위해 Neptune ML은 아마존 세이지 메이커 그리고 딥 그래프 라이브러리 (DGL) (이것은 오픈 소스). GNN은 인공 지능의 새로운 분야입니다(예를 들어 다음을 참조하십시오. 그래프 신경망에 대한 종합적인 조사). DGL과 함께 GNN을 사용하는 방법에 대한 실습 자습서는 다음을 참조하십시오. Deep Graph Library로 그래프 신경망 학습.

이 게시물에서는 파이프라인에서 Neptune을 사용하여 임베딩을 생성하는 방법을 보여줍니다.

다음 다이어그램은 다운로드에서 임베딩 생성까지의 IMDb 데이터의 전반적인 흐름을 보여줍니다.

다음 AWS 서비스를 사용하여 솔루션을 구현합니다.

이 게시물에서는 다음과 같은 높은 수준의 단계를 안내합니다.

환경 변수 설정
내보내기 작업을 만듭니다.
데이터 처리 작업을 만듭니다.
학습 작업을 제출합니다.
임베딩을 다운로드합니다.

Neptune ML 명령용 코드

이 솔루션 구현의 일부로 다음 명령을 사용합니다.

%%neptune_ml export start
%%neptune_ml export status
%neptune_ml training start
%neptune_ml training status

우리는 사용 neptune_ml export 상태를 확인하거나 Neptune ML 내보내기 프로세스를 시작하고 neptune_ml training Neptune ML 모델 학습 작업의 상태를 시작하고 확인합니다.

이러한 명령 및 기타 명령에 대한 자세한 내용은 다음을 참조하십시오. 노트북에서 Neptune 워크벤치 매직 사용.

사전 조건

이 게시물을 따라하려면 다음이 있어야 합니다.

An AWS 계정
SageMaker, Amazon S3 및 AWS CloudFormation에 익숙함
Neptune 클러스터에 로드된 그래프 데이터(참조 파트 1 자세한 내용은)

환경 변수 설정

시작하기 전에 다음 변수를 설정하여 환경을 설정해야 합니다. s3_bucket_uri 과 processed_folder. s3_bucket_uri 1부에서 사용된 버킷의 이름이고 processed_folder 내보내기 작업의 출력에 대한 Amazon S3 위치입니다.

# name of s3 bucket
s3_bucket_uri = "<s3-bucket-name>" # the s3 location you want to store results
processed_folder = f"s3://{s3_bucket_uri}/experiments/neptune-export/"

내보내기 작업 만들기

1부에서는 필요한 형식으로 Neptune DB 클러스터에서 Amazon S3로 데이터를 내보내는 SageMaker 노트북 및 내보내기 서비스를 생성했습니다.

이제 데이터가 로드되고 내보내기 서비스가 생성되었으므로 내보내기 작업을 생성하여 시작해야 합니다. 이를 위해 우리는 NeptuneExportApiUri 내보내기 작업에 대한 매개변수를 생성합니다. 다음 코드에서는 변수를 사용합니다. expo 과 export_params. 세트 expo 너의 ~에게 NeptuneExportApiUri 에서 찾을 수 있는 값 출력 CloudFormation 스택의 탭. 을 위한 export_params, Neptune 클러스터의 엔드포인트를 사용하고 다음에 대한 값을 제공합니다. outputS3path, 내보내기 작업의 출력에 대한 Amazon S3 위치입니다.

expo = <NEPTUNE-EXPORT-URI>
export_params={ "command": "export-pg", "params": { "endpoint": neptune_ml.get_host(),
            "profile": "neptune_ml",
            "cloneCluster": True
             }, "outputS3Path": processed_folder, "additionalParams": {
        "neptune_ml": {
          "version": "v2.0"
         }
      }, "jobSize": "medium"}

내보내기 작업을 제출하려면 다음 명령을 사용하십시오.

%%neptune_ml export start --export-url {expo} --export-iam --store-to export_results --wait-timeout 1000000                                                              
${export_params}

내보내기 작업의 상태를 확인하려면 다음 명령을 사용하십시오.

%neptune_ml export status --export-url {expo} --export-iam --job-id {export_results['jobId']} --store-to export_results

작업이 완료되면 다음을 설정합니다. processed_folder 처리된 결과의 Amazon S3 위치를 제공하는 변수:

export_results['processed_location']= processed_folder

데이터 처리 작업 만들기

이제 내보내기가 완료되었으므로 Neptune ML 학습 프로세스를 위한 데이터를 준비하기 위한 데이터 처리 작업을 생성합니다. 이는 몇 가지 다른 방법으로 수행할 수 있습니다. 이 단계에서는 다음을 변경할 수 있습니다. job_name 과 modelType 변수가 있지만 다른 모든 매개변수는 동일하게 유지되어야 합니다. 이 코드의 주요 부분은 modelType 이기종 그래프 모델(heterogeneous) 또는 지식 그래프(kge).

내보내기 작업에는 다음도 포함됩니다. training-data-configuration.json. 이 파일을 사용하여 교육에 제공하지 않으려는 노드 또는 에지를 추가하거나 제거합니다(예를 들어 두 노드 사이의 링크를 예측하려는 경우 이 구성 파일에서 해당 링크를 제거할 수 있음). 이 블로그 게시물에서는 원본 구성 파일을 사용합니다. 추가 정보는 다음을 참조하십시오. 교육 구성 파일 편집.

다음 코드를 사용하여 데이터 처리 작업을 만듭니다.

job_name = neptune_ml.get_training_job_name("link-pred")
processing_params = f"""--config-file-name training-data-configuration.json --job-id {job_name}-DP --s3-input-uri {export_results['outputS3Uri']} --s3-processed-uri {export_results['processed_location']} --model-type kge --instance-type ml.m5.2xlarge """ %neptune_ml dataprocessing start --store-to processing_results {processing_params}

내보내기 작업의 상태를 확인하려면 다음 명령을 사용하십시오.

%neptune_ml dataprocessing status --job-id {processing_results['id']} --store-to processing_results

학습 작업 제출

처리 작업이 완료되면 임베딩을 생성하는 훈련 작업을 시작할 수 있습니다. ml.m5.24xlarge 인스턴스 유형을 권장하지만 컴퓨팅 요구 사항에 맞게 변경할 수 있습니다. 다음 코드를 참조하십시오.

dp_id = processing_results['id']
training_job_name = dp_id + "training"
training_job_name = "".join(training_job_name.split("-")) training_params=f"--job-id train-{training_job_name} --data-processing-id {dp_id} --instance-type ml.m5.24xlarge --s3-output-uri s3://{str(s3_bucket_uri)}/training/{training_job_name}/" %neptune_ml training start --store-to training_results {training_params} print(training_results)

학습 작업의 ID를 얻기 위해 training_results 변수를 인쇄합니다. 다음 명령을 사용하여 작업 상태를 확인하십시오.

%neptune_ml training status --job-id {training_results['id']} --store-to training_status_results

임베딩 다운로드

학습 작업이 완료된 후 마지막 단계는 원시 임베딩을 다운로드하는 것입니다. 다음 단계는 KGE를 사용하여 생성된 임베딩을 다운로드하는 방법을 보여줍니다(RGCN에 대해 동일한 프로세스를 사용할 수 있음).

다음 코드에서 우리는 neptune_ml.get_mapping() 과 get_embeddings() 매핑 파일을 다운로드하려면(mapping.info) 및 원시 임베딩 파일(entity.npy). 그런 다음 적절한 임베딩을 해당 ID에 매핑해야 합니다.

neptune_ml.get_embeddings(training_status_results["id"])                                            
neptune_ml.get_mapping(training_status_results["id"])                                               
                                                                                        
f = open('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/mapping.info',  "rb")                                                                                   
mapping = pickle.load(f)                                                                
                                                                                        
node2id = mapping['node2id']                                                            
localid2globalid = mapping['node2gid']                                                  
data = np.load('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/embeddings/entity.npy')                                                                           
                                                                                          
embd_to_sum = mapping["node2id"]                                                        
full = len(list(embd_to_sum["movie"].keys()))                                                                                                                                    
ITEM_ID = []                                                                            
KEY = []                                                                                
VALUE = []                                                                              
for ii in tqdm(range(full)):                                                         
node_id = list(embd_to_sum["movie"].keys())[ii]
index = localid2globalid['movie'][node2id['movie'][node_id]]
embedding = data[index]
ITEM_ID += [node_id]*embedding.shape[0]
KEY += [i for i in range(embedding.shape[0])]
VALUE += list(embedding)
                                                                       
meta_df = pd.DataFrame({"ITEM_ID": ITEM_ID, "KEY": KEY, "VALUE":VALUE})
meta_df.to_csv('new_embeddings.csv')

RGCN을 다운로드하려면 modelType 매개변수를 heterogeneous그런 다음 modelName 매개변수를 다음으로 설정하여 모델을 교육합니다. rgcn 참조 여기에서 지금 확인해 보세요. 자세한 사항은. 완료되면 다음을 호출합니다. get_mapping 과 get_embeddings 새로운 다운로드 기능 매핑.정보 과 엔터티.npy 파일. 엔터티 및 매핑 파일이 있으면 CSV 파일을 만드는 프로세스는 동일합니다.

마지막으로 임베딩을 원하는 Amazon S3 위치에 업로드합니다.

s3_destination = "s3://"+s3_bucket_uri+"/embeddings/"+"new_embeddings.csv" !aws s3 cp new_embeddings.csv {s3_destination}

이 S3 위치를 기억하고 있는지 확인하고 파트 3에서 사용해야 합니다.

정리

솔루션 사용을 마치면 요금이 계속 부과되지 않도록 모든 리소스를 정리해야 합니다.

결론

이 게시물에서는 Neptune ML을 사용하여 IMDb 데이터에서 GNN 임베딩을 교육하는 방법에 대해 논의했습니다.

지식 그래프 임베딩의 일부 관련 응용 프로그램은 카탈로그 외부 검색, 콘텐츠 추천, 대상 광고, 누락된 링크 예측, 일반 검색 및 코호트 분석과 같은 개념입니다. 카탈로그 외부 검색은 소유하지 않은 콘텐츠를 검색하고 사용자가 검색한 것과 최대한 유사한 카탈로그에 있는 콘텐츠를 찾거나 추천하는 프로세스입니다. 3부에서 카탈로그 외부 검색에 대해 자세히 알아봅니다.

저자에 관하여

매튜 로즈 Amazon ML Solutions Lab에서 근무하는 데이터 과학자입니다. 그는 자연어 처리 및 컴퓨터 비전과 같은 개념을 포함하는 기계 학습 파이프라인 구축을 전문으로 합니다.

디비 아 바르 가비 Amazon ML Solutions Lab의 데이터 과학자이자 미디어 및 엔터테인먼트 수직 책임자로서 기계 학습을 사용하여 AWS 고객의 고부가가치 비즈니스 문제를 해결합니다. 그녀는 이미지/비디오 이해, 지식 그래프 추천 시스템, 예측 광고 사용 사례에 대해 작업합니다.

가우라프 렐 Amazon ML Solution Lab의 데이터 과학자로, 다양한 업종에서 AWS 고객과 협력하여 비즈니스 과제를 해결하기 위해 기계 학습 및 AWS 클라우드 서비스 사용을 가속화합니다.

카란 신드 와니 Amazon ML Solutions Lab의 데이터 과학자로 딥 러닝 모델을 구축하고 배포합니다. 그는 컴퓨터 비전 분야를 전문으로 합니다. 여가 시간에는 하이킹을 즐깁니다.

아데시나 소지 AWS의 응용 과학자로서 사기 및 남용, 지식 그래프, 추천 시스템 및 생명 과학에 대한 애플리케이션을 사용하여 그래프 작업에 대한 기계 학습을 위한 그래프 신경망 기반 모델을 개발합니다. 여가 시간에는 독서와 요리를 즐깁니다.

비 디아 사가르 라비 파티 Amazon ML Solutions Lab의 관리자로서 대규모 분산 시스템에 대한 방대한 경험과 기계 학습에 대한 열정을 활용하여 다양한 산업 분야의 AWS 고객이 AI 및 클라우드 채택을 가속화할 수 있도록 지원합니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
플라토 블록체인. Web3 메타버스 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
출처: https://aws.amazon.com/blogs/machine-learning/part-2-power-recommendations-and-search-using-an-imdb-knowledge-graph/

타임 스탬프 : 2022 년 12 월 20 일

타임 스탬프 : 28년 2023월 XNUMX일

플라톤에 의해 재발행

Amazon Polly를 사용하여 발음 사용자 지정

주간 예측은 이제 Amazon Forecast로 일요일에 시작할 수 있습니다.

Amazon Lookout for Metrics를 사용하여 비즈니스 크리티컬 이상 현상의 잠재적 근본 원인 식별

AWS AI 서비스를 사용하여 모기지 인수 프로세스에서 문서 검증 및 사기 탐지 자동화: 1부 | 아마존 웹 서비스

Hugging Face 및 Amazon SageMaker 비동기 추론 엔드포인트로 고가치 연구 개선

지표용 Amazon Lookout을 사용하는 동안 알림을 쉽게 사용자 지정

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정