Zalecenia dotyczące zasilania i wyszukiwanie przy użyciu wykresu wiedzy IMDb

Opublikowane ponownie przez Plato

Obserwuje: 0

Ta trzyczęściowa seria demonstruje, jak używać grafowych sieci neuronowych (GNN) i Amazon Neptun do generowania rekomendacji filmowych za pomocą IMDb i Box Office Mojo Movies/TV/OTT licencjonowany pakiet danych, który zapewnia szeroki zakres metadanych związanych z rozrywką, w tym ponad 1 miliard ocen użytkowników; napisy dla ponad 11 milionów członków obsady i ekipy; 9 milionów tytułów filmowych, telewizyjnych i rozrywkowych; oraz globalne raporty kasowe z ponad 60 krajów. Wielu klientów mediów i rozrywki AWS licencjonuje dane IMDb za pośrednictwem Wymiana danych AWS aby usprawnić odkrywanie treści oraz zwiększyć zaangażowanie i utrzymanie klientów.

In Część 1, omówiliśmy zastosowania sieci GNN oraz sposób przekształcania i przygotowywania naszych danych IMDb do wykonywania zapytań. W tym poście omawiamy proces używania Neptuna do generowania osadzania, które posłużyło do przeprowadzenia wyszukiwania poza katalogiem w części 3. My też przechodzimy Amazonka Neptuna ML, funkcja uczenia maszynowego (ML) Neptune oraz kod, którego używamy w naszym procesie programowania. W części 3 omówimy, jak zastosować osadzanie grafu wiedzy w przypadku użycia wyszukiwania spoza katalogu.

Omówienie rozwiązania

Duże połączone zestawy danych często zawierają cenne informacje, które mogą być trudne do wyodrębnienia przy użyciu zapytań opartych wyłącznie na ludzkiej intuicji. Techniki uczenia maszynowego mogą pomóc znaleźć ukryte korelacje na wykresach z miliardami relacji. Te korelacje mogą być pomocne przy polecaniu produktów, przewidywaniu zdolności kredytowej, identyfikowaniu oszustw i wielu innych przypadkach użycia.

Neptune ML umożliwia budowanie i trenowanie użytecznych modeli ML na dużych wykresach w ciągu godzin zamiast tygodni. Aby to osiągnąć, Neptune ML wykorzystuje technologię GNN obsługiwaną przez Amazon Sage Maker oraz Biblioteka głębokich grafów (DGL) (który jest open-source). Sieci GNN to wschodząca dziedzina sztucznej inteligencji (na przykład zob Kompleksowa ankieta dotycząca grafowych sieci neuronowych). Aby zapoznać się z praktycznym samouczkiem dotyczącym używania GNN z DGL, zobacz Nauka grafowych sieci neuronowych za pomocą Deep Graph Library.

W tym poście pokazujemy, jak używać Neptuna w naszym potoku do generowania osadzania.

Poniższy diagram przedstawia ogólny przepływ danych IMDb od pobrania do generowania osadzania.

Do wdrożenia rozwiązania wykorzystujemy następujące usługi AWS:

W tym poście przeprowadzimy Cię przez następujące ogólne kroki:

Skonfiguruj zmienne środowiskowe
Utwórz zadanie eksportu.
Utwórz zadanie przetwarzania danych.
Prześlij ofertę szkolenia.
Pobierz osadzone elementy.

Kod dla poleceń Neptune ML

W ramach implementacji tego rozwiązania używamy następujących komend:

%%neptune_ml export start
%%neptune_ml export status
%neptune_ml training start
%neptune_ml training status

Używamy pliki neptune_ml export aby sprawdzić status lub rozpocząć proces eksportu Neptune ML oraz neptune_ml training aby rozpocząć i sprawdzić stan zadania szkolenia modelu Neptune ML.

Aby uzyskać więcej informacji na temat tych i innych poleceń, zobacz Używanie magii stołu warsztatowego Neptuna w swoich notatnikach.

Wymagania wstępne

Aby śledzić ten post, powinieneś mieć:

An Konto AWS
Znajomość SageMaker, Amazon S3 i AWS CloudFormation
Dane wykresu załadowane do gromady Neptuna (patrz Część 1 po więcej informacji)

Skonfiguruj zmienne środowiskowe

Zanim zaczniemy, musisz skonfigurować swoje środowisko, ustawiając następujące zmienne: s3_bucket_uri i processed_folder. s3_bucket_uri to nazwa wiadra użytego w części 1 i processed_folder to lokalizacja Amazon S3 dla danych wyjściowych z zadania eksportu.

# name of s3 bucket
s3_bucket_uri = "<s3-bucket-name>" # the s3 location you want to store results
processed_folder = f"s3://{s3_bucket_uri}/experiments/neptune-export/"

Utwórz zadanie eksportu

W części 1 stworzyliśmy notatnik SageMaker i usługę eksportu, aby wyeksportować nasze dane z klastra Neptune DB do Amazon S3 w wymaganym formacie.

Teraz, gdy nasze dane są załadowane i usługa eksportu jest utworzona, musimy utworzyć zadanie eksportu, aby je uruchomić. Aby to zrobić, używamy NeptuneExportApiUri i utwórz parametry zadania eksportu. W poniższym kodzie używamy zmiennych expo i export_params. Zestaw expo dla Twojej NeptuneExportApiUri wartość, którą można znaleźć na stronie Wyjścia zakładka stosu CloudFormation. Do export_params, używamy punktu końcowego klastra Neptuna i podajemy wartość dla outputS3path, czyli lokalizację Amazon S3 dla danych wyjściowych z zadania eksportu.

expo = <NEPTUNE-EXPORT-URI>
export_params={ "command": "export-pg", "params": { "endpoint": neptune_ml.get_host(),
            "profile": "neptune_ml",
            "cloneCluster": True
             }, "outputS3Path": processed_folder, "additionalParams": {
        "neptune_ml": {
          "version": "v2.0"
         }
      }, "jobSize": "medium"}

Aby przesłać zadanie eksportu, użyj następującego polecenia:

%%neptune_ml export start --export-url {expo} --export-iam --store-to export_results --wait-timeout 1000000                                                              
${export_params}

Aby sprawdzić status zadania eksportu, użyj następującego polecenia:

%neptune_ml export status --export-url {expo} --export-iam --job-id {export_results['jobId']} --store-to export_results

Po zakończeniu zadania ustaw processed_folder zmienna dostarczająca lokalizację Amazon S3 przetworzonych wyników:

export_results['processed_location']= processed_folder

Utwórz zadanie przetwarzania danych

Po zakończeniu eksportu tworzymy zadanie przetwarzania danych w celu przygotowania danych do procesu szkolenia Neptune ML. Można to zrobić na kilka różnych sposobów. W tym kroku możesz zmienić job_name i modelType zmienne, ale wszystkie inne parametry muszą pozostać takie same. Główną częścią tego kodu jest tzw modelType parametr, którym mogą być heterogeniczne modele grafów (heterogeneous) lub wykresy wiedzy (kge).

Zadanie eksportu obejmuje również training-data-configuration.json. Użyj tego pliku, aby dodać lub usunąć dowolne węzły lub krawędzie, których nie chcesz udostępniać do uczenia (na przykład, jeśli chcesz przewidzieć połączenie między dwoma węzłami, możesz usunąć to łącze w tym pliku konfiguracyjnym). W tym poście na blogu używamy oryginalnego pliku konfiguracyjnego. Aby uzyskać dodatkowe informacje, zob Edycja pliku konfiguracyjnego treningu.

Utwórz zadanie przetwarzania danych za pomocą następującego kodu:

job_name = neptune_ml.get_training_job_name("link-pred")
processing_params = f"""--config-file-name training-data-configuration.json --job-id {job_name}-DP --s3-input-uri {export_results['outputS3Uri']} --s3-processed-uri {export_results['processed_location']} --model-type kge --instance-type ml.m5.2xlarge """ %neptune_ml dataprocessing start --store-to processing_results {processing_params}

Aby sprawdzić status zadania eksportu, użyj następującego polecenia:

%neptune_ml dataprocessing status --job-id {processing_results['id']} --store-to processing_results

Prześlij ofertę szkolenia

Po zakończeniu zadania przetwarzania możemy rozpocząć pracę szkoleniową, w której tworzymy nasze osadzenia. Zalecamy typ instancji ml.m5.24xlarge, ale możesz go zmienić, aby dostosować go do swoich potrzeb obliczeniowych. Zobacz następujący kod:

dp_id = processing_results['id']
training_job_name = dp_id + "training"
training_job_name = "".join(training_job_name.split("-")) training_params=f"--job-id train-{training_job_name} --data-processing-id {dp_id} --instance-type ml.m5.24xlarge --s3-output-uri s3://{str(s3_bucket_uri)}/training/{training_job_name}/" %neptune_ml training start --store-to training_results {training_params} print(training_results)

Drukujemy zmienną training_results, aby uzyskać identyfikator zadania szkoleniowego. Użyj następującego polecenia, aby sprawdzić stan swojego zadania:

%neptune_ml training status --job-id {training_results['id']} --store-to training_status_results

Pobierz osadzone elementy

Ostatnim krokiem po zakończeniu zadania szkoleniowego jest pobranie surowych osadzeń. Poniższe kroki pokazują, jak pobrać osadzenie utworzone za pomocą KGE (możesz użyć tego samego procesu dla RGCN).

W poniższym kodzie używamy neptune_ml.get_mapping() i get_embeddings() aby pobrać plik mapowania (mapping.info) i surowy plik osadzania (entity.npy). Następnie musimy zmapować odpowiednie osadzenia na odpowiadające im identyfikatory.

neptune_ml.get_embeddings(training_status_results["id"])                                            
neptune_ml.get_mapping(training_status_results["id"])                                               
                                                                                        
f = open('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/mapping.info',  "rb")                                                                                   
mapping = pickle.load(f)                                                                
                                                                                        
node2id = mapping['node2id']                                                            
localid2globalid = mapping['node2gid']                                                  
data = np.load('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/embeddings/entity.npy')                                                                           
                                                                                          
embd_to_sum = mapping["node2id"]                                                        
full = len(list(embd_to_sum["movie"].keys()))                                                                                                                                    
ITEM_ID = []                                                                            
KEY = []                                                                                
VALUE = []                                                                              
for ii in tqdm(range(full)):                                                         
node_id = list(embd_to_sum["movie"].keys())[ii]
index = localid2globalid['movie'][node2id['movie'][node_id]]
embedding = data[index]
ITEM_ID += [node_id]*embedding.shape[0]
KEY += [i for i in range(embedding.shape[0])]
VALUE += list(embedding)
                                                                       
meta_df = pd.DataFrame({"ITEM_ID": ITEM_ID, "KEY": KEY, "VALUE":VALUE})
meta_df.to_csv('new_embeddings.csv')

Aby pobrać numery RGCN, wykonaj ten sam proces z nową nazwą zadania szkoleniowego, przetwarzając dane z parametrem modelType ustawionym na heterogeneous, a następnie wytrenuj swój model z parametrem modelName ustawionym na rgcn widzieć tutaj po więcej szczegółów. Gdy to się skończy, zadzwoń pod numer tel get_mapping i get_embeddings funkcje pobierania nowego mapowanie.informacje i jednostka.npy pliki. Po uzyskaniu plików encji i mapowania proces tworzenia pliku CSV jest identyczny.

Na koniec prześlij swoje osadzenie do wybranej lokalizacji Amazon S3:

s3_destination = "s3://"+s3_bucket_uri+"/embeddings/"+"new_embeddings.csv" !aws s3 cp new_embeddings.csv {s3_destination}

Upewnij się, że pamiętasz tę lokalizację S3, będziesz musiał jej użyć w części 3.

Sprzątać

Po zakończeniu korzystania z rozwiązania pamiętaj o wyczyszczeniu wszelkich zasobów, aby uniknąć bieżących opłat.

Wnioski

W tym poście omówiliśmy, jak używać Neptune ML do trenowania osadzania GNN z danych IMDb.

Niektóre powiązane zastosowania osadzania wykresów wiedzy to koncepcje, takie jak wyszukiwanie poza katalogiem, rekomendacje treści, reklamy ukierunkowane, przewidywanie brakujących linków, wyszukiwanie ogólne i analiza kohortowa. Wyszukiwanie poza katalogiem to proces wyszukiwania treści, które nie są Twoją własnością, oraz znajdowania lub polecania treści znajdujących się w Twoim katalogu, które są jak najbardziej zbliżone do tego, czego szukał użytkownik. W części 3 zagłębimy się w wyszukiwanie poza katalogiem.

O autorach

Mateusz Rodos jest Data Scientist I pracuje w Amazon ML Solutions Lab. Specjalizuje się w budowaniu potoków uczenia maszynowego, które obejmują pojęcia takie jak przetwarzanie języka naturalnego i widzenie komputerowe.

Divya Bhargawi jest Data Scientist i Media and Entertainment Vertical Lead w Amazon ML Solutions Lab, gdzie rozwiązuje problemy biznesowe o dużej wartości dla klientów AWS za pomocą uczenia maszynowego. Zajmuje się rozumieniem obrazu/wideo, systemami rekomendacji opartymi na grafach wiedzy, predykcyjnymi przypadkami użycia reklamy.

Gaurav Rele jest analitykiem danych w Amazon ML Solution Lab, gdzie współpracuje z klientami AWS z różnych branż, aby przyspieszyć korzystanie z uczenia maszynowego i usług AWS Cloud w celu rozwiązywania ich problemów biznesowych.

Karana Sindwaniego jest Data Scientist w Amazon ML Solutions Lab, gdzie buduje i wdraża modele głębokiego uczenia. Specjalizuje się w dziedzinie widzenia komputerowego. W wolnym czasie lubi piesze wędrówki.

Sodżi Adeszina jest naukowcem stosowanym w AWS, gdzie opracowuje modele oparte na grafowych sieciach neuronowych do uczenia maszynowego na zadaniach grafowych z aplikacjami do oszustw i nadużyć, grafów wiedzy, systemów rekomendujących i nauk przyrodniczych. W wolnym czasie lubi czytać i gotować.

Widja Sagar Rawipati jest menedżerem w Amazon ML Solutions Lab, gdzie wykorzystuje swoje ogromne doświadczenie w wielkoskalowych systemach rozproszonych i swoją pasję do uczenia maszynowego, aby pomóc klientom AWS z różnych branż przyspieszyć wdrażanie sztucznej inteligencji i chmury.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
Platoblockchain. Web3 Inteligencja Metaverse. Wzmocniona wiedza. Dostęp tutaj.
Źródło: https://aws.amazon.com/blogs/machine-learning/part-2-power-recommendations-and-search-using-an-imdb-knowledge-graph/

Znak czasu: 20 grudnia 2022 r.

Znak czasu: 31 maja 2023 r.

Opublikowane ponownie przez Plato

Zmniejsz zużycie energii przez zadania związane z uczeniem maszynowym nawet o 90% dzięki specjalnie zaprojektowanym akceleratorom AWS | Usługi sieciowe Amazona

Ogłaszamy zaktualizowane złącze Salesforce (V2) dla Amazon Kendra

Ogłaszamy zaktualizowane złącze Microsoft OneDrive (V2) dla Amazon Kendra

Instancja Amazon EC2 DL2q do ekonomicznego i wydajnego wnioskowania AI jest teraz ogólnie dostępna | Usługi internetowe Amazona

Zintegruj platformy SaaS z Amazon SageMaker, aby umożliwić aplikacjom opartym na uczeniu maszynowym | Usługi sieciowe Amazona

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto