세 부분으로 구성된 이 시리즈는 GNN(그래프 신경망)을 사용하는 방법과 아마존 해왕성 를 사용하여 영화 추천을 생성합니다. IMDb 및 Box Office Mojo 영화/TV/OTT 1억 명 이상의 사용자 등급을 포함하여 광범위한 엔터테인먼트 메타데이터를 제공하는 라이선스 데이터 패키지 11만 명 이상의 출연진 및 제작진을 위한 크레딧; 9만 개의 영화, TV 및 엔터테인먼트 타이틀; 60개국 이상의 글로벌 박스오피스 보고 데이터. 많은 AWS 미디어 및 엔터테인먼트 고객이 다음을 통해 IMDb 데이터에 라이선스를 부여합니다. AWS 데이터 교환 콘텐츠 검색을 개선하고 고객 참여 및 유지율을 높입니다.
In 파트 1, 우리는 GNN의 적용과 쿼리를 위해 IMDb 데이터를 변환하고 준비하는 방법에 대해 논의했습니다. 이 게시물에서는 Neptune을 사용하여 3부에서 카탈로그 외부 검색을 수행하는 데 사용되는 임베딩을 생성하는 프로세스에 대해 설명합니다. 우리도 넘어간다 아마존 넵튠 ML, Neptune의 기계 학습(ML) 기능, 개발 프로세스에서 사용하는 코드입니다. 3부에서는 지식 그래프 임베딩을 카탈로그 외부 검색 사용 사례에 적용하는 방법을 살펴봅니다.
솔루션 개요
대규모 연결된 데이터 세트에는 인간의 직관만을 기반으로 하는 쿼리를 사용하여 추출하기 어려울 수 있는 귀중한 정보가 포함되어 있는 경우가 많습니다. ML 기술은 수십억 개의 관계가 있는 그래프에서 숨겨진 상관 관계를 찾는 데 도움이 될 수 있습니다. 이러한 상관 관계는 제품 추천, 신용 가치 예측, 사기 식별 및 기타 여러 사용 사례에 도움이 될 수 있습니다.
Neptune ML을 사용하면 몇 주가 아닌 몇 시간 만에 대규모 그래프에서 유용한 ML 모델을 구축하고 교육할 수 있습니다. 이를 달성하기 위해 Neptune ML은 아마존 세이지 메이커 그리고 딥 그래프 라이브러리 (DGL) (이것은 오픈 소스). GNN은 인공 지능의 새로운 분야입니다(예를 들어 다음을 참조하십시오. 그래프 신경망에 대한 종합적인 조사). DGL과 함께 GNN을 사용하는 방법에 대한 실습 자습서는 다음을 참조하십시오. Deep Graph Library로 그래프 신경망 학습.
이 게시물에서는 파이프라인에서 Neptune을 사용하여 임베딩을 생성하는 방법을 보여줍니다.
다음 다이어그램은 다운로드에서 임베딩 생성까지의 IMDb 데이터의 전반적인 흐름을 보여줍니다.
다음 AWS 서비스를 사용하여 솔루션을 구현합니다.
이 게시물에서는 다음과 같은 높은 수준의 단계를 안내합니다.
- 환경 변수 설정
- 내보내기 작업을 만듭니다.
- 데이터 처리 작업을 만듭니다.
- 학습 작업을 제출합니다.
- 임베딩을 다운로드합니다.
Neptune ML 명령용 코드
이 솔루션 구현의 일부로 다음 명령을 사용합니다.
우리는 사용 neptune_ml export
상태를 확인하거나 Neptune ML 내보내기 프로세스를 시작하고 neptune_ml training
Neptune ML 모델 학습 작업의 상태를 시작하고 확인합니다.
이러한 명령 및 기타 명령에 대한 자세한 내용은 다음을 참조하십시오. 노트북에서 Neptune 워크벤치 매직 사용.
사전 조건
이 게시물을 따라하려면 다음이 있어야 합니다.
환경 변수 설정
시작하기 전에 다음 변수를 설정하여 환경을 설정해야 합니다. s3_bucket_uri
과 processed_folder
. s3_bucket_uri
1부에서 사용된 버킷의 이름이고 processed_folder
내보내기 작업의 출력에 대한 Amazon S3 위치입니다.
내보내기 작업 만들기
1부에서는 필요한 형식으로 Neptune DB 클러스터에서 Amazon S3로 데이터를 내보내는 SageMaker 노트북 및 내보내기 서비스를 생성했습니다.
이제 데이터가 로드되고 내보내기 서비스가 생성되었으므로 내보내기 작업을 생성하여 시작해야 합니다. 이를 위해 우리는 NeptuneExportApiUri
내보내기 작업에 대한 매개변수를 생성합니다. 다음 코드에서는 변수를 사용합니다. expo
과 export_params
. 세트 expo
너의 ~에게 NeptuneExportApiUri
에서 찾을 수 있는 값 출력 CloudFormation 스택의 탭. 을 위한 export_params
, Neptune 클러스터의 엔드포인트를 사용하고 다음에 대한 값을 제공합니다. outputS3path
, 내보내기 작업의 출력에 대한 Amazon S3 위치입니다.
내보내기 작업을 제출하려면 다음 명령을 사용하십시오.
내보내기 작업의 상태를 확인하려면 다음 명령을 사용하십시오.
작업이 완료되면 다음을 설정합니다. processed_folder
처리된 결과의 Amazon S3 위치를 제공하는 변수:
데이터 처리 작업 만들기
이제 내보내기가 완료되었으므로 Neptune ML 학습 프로세스를 위한 데이터를 준비하기 위한 데이터 처리 작업을 생성합니다. 이는 몇 가지 다른 방법으로 수행할 수 있습니다. 이 단계에서는 다음을 변경할 수 있습니다. job_name
과 modelType
변수가 있지만 다른 모든 매개변수는 동일하게 유지되어야 합니다. 이 코드의 주요 부분은 modelType
이기종 그래프 모델(heterogeneous
) 또는 지식 그래프(kge
).
내보내기 작업에는 다음도 포함됩니다. training-data-configuration.json
. 이 파일을 사용하여 교육에 제공하지 않으려는 노드 또는 에지를 추가하거나 제거합니다(예를 들어 두 노드 사이의 링크를 예측하려는 경우 이 구성 파일에서 해당 링크를 제거할 수 있음). 이 블로그 게시물에서는 원본 구성 파일을 사용합니다. 추가 정보는 다음을 참조하십시오. 교육 구성 파일 편집.
다음 코드를 사용하여 데이터 처리 작업을 만듭니다.
내보내기 작업의 상태를 확인하려면 다음 명령을 사용하십시오.
학습 작업 제출
처리 작업이 완료되면 임베딩을 생성하는 훈련 작업을 시작할 수 있습니다. ml.m5.24xlarge 인스턴스 유형을 권장하지만 컴퓨팅 요구 사항에 맞게 변경할 수 있습니다. 다음 코드를 참조하십시오.
학습 작업의 ID를 얻기 위해 training_results 변수를 인쇄합니다. 다음 명령을 사용하여 작업 상태를 확인하십시오.
%neptune_ml training status --job-id {training_results['id']} --store-to training_status_results
임베딩 다운로드
학습 작업이 완료된 후 마지막 단계는 원시 임베딩을 다운로드하는 것입니다. 다음 단계는 KGE를 사용하여 생성된 임베딩을 다운로드하는 방법을 보여줍니다(RGCN에 대해 동일한 프로세스를 사용할 수 있음).
다음 코드에서 우리는 neptune_ml.get_mapping()
과 get_embeddings()
매핑 파일을 다운로드하려면(mapping.info
) 및 원시 임베딩 파일(entity.npy
). 그런 다음 적절한 임베딩을 해당 ID에 매핑해야 합니다.
RGCN을 다운로드하려면 modelType 매개변수를 heterogeneous
그런 다음 modelName 매개변수를 다음으로 설정하여 모델을 교육합니다. rgcn
참조 여기에서 지금 확인해 보세요. 자세한 사항은. 완료되면 다음을 호출합니다. get_mapping
과 get_embeddings
새로운 다운로드 기능 매핑.정보 과 엔터티.npy 파일. 엔터티 및 매핑 파일이 있으면 CSV 파일을 만드는 프로세스는 동일합니다.
마지막으로 임베딩을 원하는 Amazon S3 위치에 업로드합니다.
이 S3 위치를 기억하고 있는지 확인하고 파트 3에서 사용해야 합니다.
정리
솔루션 사용을 마치면 요금이 계속 부과되지 않도록 모든 리소스를 정리해야 합니다.
결론
이 게시물에서는 Neptune ML을 사용하여 IMDb 데이터에서 GNN 임베딩을 교육하는 방법에 대해 논의했습니다.
지식 그래프 임베딩의 일부 관련 응용 프로그램은 카탈로그 외부 검색, 콘텐츠 추천, 대상 광고, 누락된 링크 예측, 일반 검색 및 코호트 분석과 같은 개념입니다. 카탈로그 외부 검색은 소유하지 않은 콘텐츠를 검색하고 사용자가 검색한 것과 최대한 유사한 카탈로그에 있는 콘텐츠를 찾거나 추천하는 프로세스입니다. 3부에서 카탈로그 외부 검색에 대해 자세히 알아봅니다.
저자에 관하여
매튜 로즈 Amazon ML Solutions Lab에서 근무하는 데이터 과학자입니다. 그는 자연어 처리 및 컴퓨터 비전과 같은 개념을 포함하는 기계 학습 파이프라인 구축을 전문으로 합니다.
디비 아 바르 가비 Amazon ML Solutions Lab의 데이터 과학자이자 미디어 및 엔터테인먼트 수직 책임자로서 기계 학습을 사용하여 AWS 고객의 고부가가치 비즈니스 문제를 해결합니다. 그녀는 이미지/비디오 이해, 지식 그래프 추천 시스템, 예측 광고 사용 사례에 대해 작업합니다.
가우라프 렐 Amazon ML Solution Lab의 데이터 과학자로, 다양한 업종에서 AWS 고객과 협력하여 비즈니스 과제를 해결하기 위해 기계 학습 및 AWS 클라우드 서비스 사용을 가속화합니다.
카란 신드 와니 Amazon ML Solutions Lab의 데이터 과학자로 딥 러닝 모델을 구축하고 배포합니다. 그는 컴퓨터 비전 분야를 전문으로 합니다. 여가 시간에는 하이킹을 즐깁니다.
아데시나 소지 AWS의 응용 과학자로서 사기 및 남용, 지식 그래프, 추천 시스템 및 생명 과학에 대한 애플리케이션을 사용하여 그래프 작업에 대한 기계 학습을 위한 그래프 신경망 기반 모델을 개발합니다. 여가 시간에는 독서와 요리를 즐깁니다.
비 디아 사가르 라비 파티 Amazon ML Solutions Lab의 관리자로서 대규모 분산 시스템에 대한 방대한 경험과 기계 학습에 대한 열정을 활용하여 다양한 산업 분야의 AWS 고객이 AI 및 클라우드 채택을 가속화할 수 있도록 지원합니다.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- 플라토 블록체인. Web3 메타버스 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 출처: https://aws.amazon.com/blogs/machine-learning/part-2-power-recommendations-and-search-using-an-imdb-knowledge-graph/
- 1
- 10
- 100
- 11
- 116
- 7
- 9
- a
- 소개
- 남용
- 가속
- 가로질러
- 추가
- 추가 정보
- 양자
- 광고
- 후
- AI
- All
- 혼자
- 아마존
- Amazon ML 솔루션 랩
- 분석
- 과
- 어플리케이션
- 적용된
- 신청
- 적당한
- 지역
- 인조의
- 인공 지능
- AWS
- 기반으로
- 사이에
- 억원
- 수십억
- 블로그
- 보물상자
- 박스 오피스
- 빌드
- 건물
- 빌드
- 사업
- 전화
- 케이스
- 가지 경우
- 목록
- 과제
- 이전 단계로 돌아가기
- 요금
- 검사
- 닫기
- 클라우드
- 클라우드 채택
- 클라우드 서비스
- 클러스터
- 암호
- 보병대
- 완전한
- 포괄적 인
- 컴퓨터
- 컴퓨터 비전
- 컴퓨팅
- 개념
- 행위
- 구성
- 연결
- 함유량
- 동
- 국가
- 만들
- 만든
- 신용
- 크레딧
- 고객
- 고객 참여
- 고객
- 데이터
- 데이터 처리
- 데이터 과학자
- 데이터 세트
- 깊은
- 깊은 학습
- 깊이
- 배치하다
- 세부설명
- 개발
- 개발
- dgl
- 다른
- 발견
- 토론
- 논의 된
- 분산
- 분산 시스템
- 말라
- 다운로드
- 중
- 신흥
- 종점
- 약혼
- 엔터테인먼트
- 실재
- 환경
- 에테르 (ETH)
- 예
- 경험
- 수출
- 추출물
- 특색
- 를
- 들
- 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에
- 파일
- Find
- 발견
- 흐름
- 따라
- 수행원
- 체재
- 사기
- 에
- 가득 찬
- 기능
- 일반
- 생성
- 세대
- 얻을
- 글로벌
- Go
- 그래프
- 그래프
- 손 -에
- 하드
- 도움
- 도움이
- 숨겨진
- 고수준
- 진료 시간
- 방법
- How To
- HTML
- HTTPS
- 사람의
- 같은
- 식별
- 구현
- 구현
- 개선
- in
- 포함
- 포함
- 증가
- 색인
- 산업
- 정보
- 정보
- 예
- 를 받아야 하는 미국 여행자
- 인텔리전스
- 감다
- IT
- 일
- JSON
- 키
- 지식
- 실험실
- 언어
- 넓은
- 대규모
- 성
- 리드
- 배우기
- 레버리지
- 도서관
- 특허
- 생활
- 생명과학
- LINK
- 모래밭
- 위치
- 기계
- 기계 학습
- 본관
- 제작
- 매니저
- .
- 지도
- 매핑
- 미디어
- 매질
- 회원
- 메타 데이터
- 백만
- 누락
- ML
- 모델
- 모델
- 배우기
- 영화
- name
- 자연의
- 자연 언어 처리
- 필요
- 요구
- Neptune
- 네트워크 기반
- 네트워크
- 신경망
- 신제품
- 노드
- 수첩
- Office
- 지속적으로
- 실물
- 기타
- 전체
- 자신의
- 꾸러미
- 매개 변수
- 매개 변수
- 부품
- 열정
- 관로
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 가능한
- 게시하다
- 힘
- powered
- 예측
- 예측
- Prepare
- 인쇄
- 문제
- 방법
- 처리
- 제품
- 프로필
- 제공
- 제공
- 범위
- 평가
- 살갗이 벗어 진
- 읽기
- 권하다
- 추천
- 추천
- 추천하는
- 관련
- 관계
- 남아
- 기억
- 제거
- 통계 보고서
- 필수
- 자료
- 결과
- 보유
- 현자
- 같은
- 과학
- 과학자
- 검색
- 수색
- 연속
- 서비스
- 서비스
- 세트
- 설정
- 영상을
- 표시
- 해결책
- 솔루션
- 풀다
- 해결
- 전문적으로
- 스택
- 스타트
- Status
- 단계
- 단계
- 저장
- 제출
- 이러한
- 소송
- 설문조사
- 시스템은
- 대상
- 작업
- 기법
- Technology
- XNUMXD덴탈의
- 지역
- 그들의
- 을 통하여
- 시간
- 제목들
- 에
- Train
- 트레이닝
- 변환
- 참된
- 지도 시간
- tv
- 이해
- 사용
- 유스 케이스
- 사용자
- 가치 있는
- 가치
- 거대한
- 버전
- 업종
- 시력
- 방법
- 주
- 뭐
- 어느
- 넓은
- 넓은 범위
- 의지
- 일하는
- 일
- 너의
- 제퍼 넷