Activer la réutilisation des fonctionnalités entre les comptes et les équipes à l'aide d'Amazon SageMaker Feature Store

Republié par Platon

Suiveurs: 0

Magasin de fonctionnalités Amazon SageMaker est une nouvelle capacité de Amazon Sage Maker qui aide les data scientists et les ingénieurs en machine learning (ML) à stocker, découvrir et partager en toute sécurité les données conservées utilisées dans les workflows de formation et de prédiction. Alors que les organisations créent des applications basées sur les données à l'aide de ML, elles assemblent et déplacent constamment des fonctionnalités entre des équipes de plus en plus fonctionnelles. Ce mouvement constant de données peut entraîner des incohérences dans les fonctionnalités et devenir un goulot d'étranglement lors de la conception d'initiatives de ML couvrant plusieurs équipes. Par exemple, une entreprise de commerce électronique peut avoir plusieurs équipes de science des données et d'ingénierie travaillant sur différents aspects de sa plate-forme. L'équipe Core Search se concentre sur la compréhension des requêtes et les tâches de recherche d'informations. L'équipe Product Success résout les problèmes liés aux avis des clients et aux signaux de rétroaction. L'équipe de personnalisation utilise les données de flux de clics et de session pour créer des modèles de ML pour des recommandations personnalisées. De plus, les équipes d'ingénierie de données comme l'équipe de curation des données peuvent conserver et valider des informations spécifiques à l'utilisateur, qui est un composant essentiel que d'autres équipes peuvent utiliser. Un magasin de fonctionnalités fonctionne comme une interface unifiée entre ces équipes, permettant à une équipe de tirer parti des fonctionnalités générées par d'autres équipes, ce qui minimise les frais généraux opérationnels liés à la réplication et au déplacement des fonctionnalités entre les équipes.

La formation d'un modèle ML prêt pour la production implique généralement l'accès à un ensemble diversifié de fonctionnalités qui ne sont pas toujours détenues et gérées par l'équipe qui crée le modèle. Une pratique courante pour les organisations qui appliquent le ML consiste à considérer ces équipes de science des données comme des groupes individuels qui travaillent de manière indépendante avec une collaboration limitée. Cela se traduit par des flux de travail ML sans moyen standardisé de partager des fonctionnalités entre les équipes, ce qui devient un facteur limitant crucial pour la productivité de la science des données et rend plus difficile pour les scientifiques des données de créer de nouveaux modèles complexes. Avec un magasin de fonctionnalités partagé, les organisations peuvent réaliser des économies d'échelle. À mesure que davantage de fonctionnalités partagées deviennent disponibles, il devient plus facile et moins coûteux pour les équipes de créer et de maintenir de nouveaux modèles. Ces modèles peuvent réutiliser des fonctionnalités déjà développées, testées et proposées à l'aide d'un magasin de fonctionnalités centralisé.

Cet article présente les principaux modèles d'architecture intercomptes pour Feature Store qui peuvent être mis en œuvre dans une organisation avec de nombreuses équipes d'ingénierie et de science des données opérant dans différents comptes AWS. Nous partageons comment activer le partage des fonctionnalités entre les comptes à travers un exemple étape par étape, que vous pouvez essayer vous-même avec le code dans notre GitHub repo.

Présentation de la boutique de fonctionnalités SageMaker

Par défaut, un magasin de fonctionnalités SageMaker est local au compte dans lequel il est créé, mais il peut également être centralisé et partagé par de nombreux comptes. Une organisation avec plusieurs équipes peut avoir un magasin de fonctionnalités centralisé partagé entre les équipes, ainsi que des magasins de fonctionnalités distincts à utiliser par des équipes individuelles. Les magasins distincts peuvent contenir des groupes de fonctionnalités qui sont de nature sensible ou qui sont spécifiques à une charge de travail ML unique.

Dans cet article, vous découvrez d'abord le centralisée magasin de fonctionnalités modèle. Ce modèle prescrit une interface centrale à travers laquelle les équipes peuvent créer et publier de nouvelles fonctionnalités, et à partir de laquelle d'autres équipes (ou systèmes) peuvent consommer des fonctionnalités. Cela garantit également que vous disposez d'une source unique de vérité pour les données d'entités dans toute votre organisation et simplifie la gestion des ressources.

Ensuite, vous en apprendrez plus sur le magasin de fonctionnalités combiné modèle, qui permet aux équipes de gérer leurs propres magasins de fonctionnalités locaux sur leur compte, tout en pouvant accéder aux fonctionnalités partagées à partir du magasin de fonctionnalités centralisé. Ces magasins de fonctionnalités locaux sont généralement conçus pour l'expérimentation en science des données. En combinant les fonctionnalités partagées du magasin centralisé avec des fonctionnalités locales, les équipes peuvent dériver de nouvelles fonctionnalités améliorées qui peuvent aider lors de la création de modèles ML plus complexes. Vous pouvez également utiliser les magasins locaux pour stocker des données sensibles qui ne peuvent pas être partagées au sein de l'organisation pour des raisons réglementaires et de conformité.

Enfin, nous couvrons brièvement un modèle moins courant impliquant la réplication des données de caractéristiques.

Magasin de fonctionnalités centralisé

Les organisations peuvent maximiser les avantages d'un magasin de fonctionnalités lorsqu'il est centralisé. Le magasin de fonctionnalités centralisé montre comment les pipelines de fonctionnalités de plusieurs comptes peuvent écrire dans un magasin de fonctionnalités centralisé et comment plusieurs autres comptes peuvent utiliser ces fonctionnalités. Il s'agit d'un modèle courant dans les moyennes et grandes entreprises où plusieurs équipes gèrent différents types de données ou différentes parties d'une application.

Le processus d'hypothèse, de sélection et de transformation des entrées de données en une forme utilisable adaptée aux modèles ML est appelé ingénierie des fonctionnalités. A pipeline de fonctionnalités encapsule toutes les étapes du processus d'ingénierie des fonctionnalités nécessaires pour convertir les données brutes en fonctionnalités utiles que les modèles ML prennent en entrée pour les prédictions. La maintenance des pipelines de fonctionnalités est un processus coûteux, long et sujet aux erreurs. De plus, la réplication des recettes de fonctionnalités et des transformations entre les comptes peut entraîner des incohérences et fausser les caractéristiques des fonctionnalités. Parce qu'un magasin de fonctionnalités centralisé facilite le partage des connaissances, les équipes n'ont pas à recréer des recettes de fonctionnalités et à réécrire des pipelines à partir de zéro dans chaque projet.

Dans ce modèle, au lieu d'écrire des fonctionnalités localement dans un magasin de fonctionnalités spécifique au compte, les fonctionnalités sont écrites dans un magasin de fonctionnalités centralisé. Le magasin centralisé sert de coffre-fort central et crée un moyen standardisé d'accéder et de gérer les fonctionnalités pour la collaboration inter-équipes. Il agit comme un catalyseur et un accélérateur pour l'adoption de l'IA, réduisant le délai de mise sur le marché des solutions ML, et permet une gouvernance centralisée et un contrôle d'accès aux fonctionnalités ML. Vous pouvez accorder l'accès à des comptes, utilisateurs ou rôles externes pour lire et écrire des groupes de fonctionnalités individuels conformément à vos stratégies d'accès aux données. AWS recommande d'appliquer l'accès au moindre privilège uniquement aux groupes de fonctionnalités dont vous avez besoin pour votre fonction. Ceci est géré par le sous-jacent Gestion des identités et des accès AWS (IAM). Vous pouvez affiner davantage le contrôle d'accès avec des balises de groupe de fonctionnalités et Conditions IAM pour décider quels mandants peuvent effectuer des actions spécifiques. Lorsque vous utilisez un magasin centralisé à grande échelle, il est également important de mettre en œuvre une gouvernance de fonctionnalités appropriée pour garantir que les groupes de fonctionnalités sont bien conçus, disposent de pipelines de fonctionnalités documentés et pris en charge, et disposent de processus en place pour garantir la qualité des fonctionnalités. Ce type de gouvernance permet de gagner la confiance nécessaire à la réutilisation des fonctionnalités entre les équipes.

Avant de parcourir un exemple, identifions quelques concepts clés du magasin de fonctionnalités. D'abord, groupes de fonctionnalités sont des groupes logiques de fonctionnalités, provenant généralement du même pipeline de fonctionnalités. Un magasin hors ligne contient de grands volumes de données de caractéristiques historiques utilisées pour créer des données de formation et de test pour le développement de modèles, ou par des applications par lots pour la notation de modèles. Le but de la boutique en ligne est de servir ces mêmes fonctionnalités en temps réel avec une faible latence. Contrairement à la boutique hors ligne, qui ne nécessite que des ajouts, l'objectif de la boutique en ligne est de proposer les valeurs de fonctionnalités les plus récentes. En coulisses, Feature Store effectue automatiquement la synchronisation des données entre les deux magasins. Si vous ingérez de nouvelles valeurs de fonctionnalités dans la boutique en ligne, elles sont automatiquement ajoutées à la boutique hors ligne. Cependant, vous pouvez également créer des s hors ligne et en ligne.
se déchire séparément si cela est une exigence pour votre équipe ou votre projet.

Le schéma suivant illustre trois équipes fonctionnelles, chacune avec son propre pipeline de fonctionnalités écrivant dans un groupe de fonctionnalités dans un magasin de fonctionnalités centralisé.

Le compte de personnalisation gère les données de session utilisateur collectées à partir d'une application orientée client et possède un pipeline de fonctionnalités qui produit un groupe de fonctionnalités appelé Sessions avec des fonctionnalités dérivées des données de session. Ce pipeline écrit les valeurs de fonctionnalités générées dans le magasin de fonctionnalités centralisé. De même, un pipeline de fonctionnalités dans le compte Product Success est responsable de la production de fonctionnalités dans le groupe de fonctionnalités Reviews, et le compte Data Curation produit des fonctionnalités dans le groupe de fonctionnalités Users.

Le compte de magasin de fonctionnalités centralisé contient toutes les fonctionnalités reçues des trois comptes de producteurs, mappé à trois groupes de fonctionnalités : Sessions, Avis et Utilisateurs. Les pipelines de fonctionnalités peuvent écrire dans le magasin de fonctionnalités centralisé en assumant un rôle IAM spécifique qui est créé dans le compte du magasin centralisé. Nous expliquons comment activer ce rôle entre comptes plus loin dans cet article. Les comptes externes peuvent également interroger les fonctionnalités des groupes de fonctionnalités dans le magasin centralisé pour la formation ou l'inférence, comme indiqué dans le diagramme d'architecture précédent. Pour la formation, vous pouvez assumer le rôle IAM depuis le magasin centralisé et exécuter plusieurs comptes Amazone Athéna requêtes (comme indiqué dans le diagramme), ou lancez une Amazon DME or Traitement SageMaker travail pour créer des ensembles de données de formation. En cas d'inférence en temps réel, vous pouvez lire les fonctionnalités en ligne directement via le même rôle IAM supposé pour l'accès entre comptes.

Dans ce modèle, le magasin de fonctionnalités centralisé réside généralement dans un compte de production. Les applications utilisant ce magasin peuvent résider dans ce compte ou dans d'autres comptes avec un accès entre comptes au magasin de fonctionnalités centralisé. Vous pouvez répliquer l'intégralité de cette structure dans des environnements inférieurs, tels que le développement ou la mise en place, pour tester les modifications de l'infrastructure avant de les promouvoir en production.

Magasin de fonctionnalités combiné

Dans cette section, nous discutons d'une variante du modèle de magasin de fonctionnalités centralisé appelé magasin de fonctionnalités combiné modèle. Dans l'ingénierie des fonctionnalités, une pratique courante consiste à combiner des fonctionnalités existantes pour en dériver de nouvelles. Lorsque les équipes combinent des fonctionnalités partagées du magasin centralisé avec des fonctionnalités locales dans leur propre magasin de fonctionnalités, elles peuvent dériver de nouvelles fonctionnalités améliorées pour aider à créer des modèles de données plus complexes. Nous savons d'après la section précédente que le magasin centralisé permet à toute équipe de science des données d'accéder facilement aux fonctionnalités externes et de les utiliser avec leur pool de fonctionnalités existant pour composer et faire évoluer de nouvelles fonctionnalités.

La sécurité et la conformité sont un autre cas d'utilisation pour les équipes afin de maintenir un magasin de fonctionnalités spécifique à l'équipe en plus d'accéder aux fonctionnalités du magasin centralisé. De nombreuses équipes nécessitent des droits d'accès spécifiques qui ne sont pas accordés à tous les membres de l'organisation. Par exemple, il peut ne pas être possible de publier des fonctionnalités extraites de données sensibles dans un magasin de fonctionnalités centralisé au sein de l'organisation.

Dans le diagramme d'architecture suivant, le magasin de fonctionnalités centralisé est le compte qui collecte et catalogue toutes les fonctionnalités reçues de plusieurs pipelines de fonctionnalités dans un référentiel central. Dans cet exemple, le compte du magasin combiné appartient à l'équipe Core Search. Ce compte est le consommateur des fonctionnalités partageables du magasin centralisé. De plus, ce compte gère les données des mots clés des utilisateurs collectées via une application de recherche orientée client.

Ce compte gère ses propres magasins locaux hors ligne et en ligne. Ces magasins locaux sont remplis par un pipeline de fonctionnalités configuré localement pour ingérer les données des mots-clés de requête des utilisateurs et générer des fonctionnalités. Ces fonctionnalités sont regroupées dans un groupe de fonctionnalités nommé Mots-clés. Feature Store par défaut crée automatiquement un Colle AWS table pour ce groupe de fonctionnalités, qui est enregistré dans le catalogue de données AWS Glue dans ce compte. Les métadonnées de cette table pointent vers l'emplacement Amazon S3 du groupe de fonctionnalités dans la boutique hors ligne de ce compte.

Le compte de magasin combiné peut également accéder aux groupes de fonctionnalités Sessions, Avis et Utilisateurs à partir du magasin centralisé. Vous pouvez activer l'accès entre comptes par rôle, dont nous parlerons dans les sections suivantes. Les data scientists et les chercheurs peuvent utiliser Athena pour interroger des groupes de fonctionnalités créés localement et joindre ces fonctionnalités internes avec des fonctionnalités externes dérivées du magasin centralisé pour les expériences de science des données.

Présentation de l'accès entre comptes

Cette section fournit un aperçu de la façon d'activer l'accès entre comptes pour le magasin de fonctionnalités entre deux comptes utilisant un rôle assumé via Service de jeton de sécurité AWS (AWS STS). AWS STS est un service Web qui vous permet de demander des informations d'identification temporaires à privilèges limités pour les utilisateurs IAM. AWS STS renvoie un ensemble d'informations d'identification de sécurité temporaires que vous pouvez utiliser pour accéder aux ressources AWS auxquelles vous n'auriez normalement pas accès. Ces informations d'identification temporaires consistent en un ID de clé d'accès, une clé d'accès secrète et un jeton de sécurité.

Pour illustrer ce processus, supposons que nous ayons deux comptes, A et B, comme illustré dans le diagramme suivant.

Le compte B gère un magasin de fonctionnalités en ligne et hors ligne centralisé. Le compte A a besoin d'accéder aux magasins en ligne et hors ligne contenus dans le compte B. Pour ce faire, nous créons un rôle dans le compte B et laissons le compte A assumer ce rôle à l'aide d'AWS STS. Cela permet au compte A de se comporter comme le compte B, avec des autorisations pour effectuer des actions spécifiques identifiées par le rôle. Services AWS comme SageMaker (travaux de traitement et de formation, terminaux) et AWS Lambda utilisé à partir du compte A peut assumer le rôle IAM créé dans le compte B à l'aide d'un client AWS STS (voir le bloc de code plus loin dans cet article). Cela leur accorde les autorisations nécessaires pour accéder aux ressources telles qu'Amazon S3, Athena et le catalogue de données AWS Glue dans le compte B. Une fois que les services du compte A ont acquis les autorisations nécessaires pour les ressources, ils peuvent accéder à la fois au magasin hors ligne et en ligne du compte. B. En fonction du choix de votre service, vous devez également ajouter le rôle d'exécution IAM pour ce service à la stratégie de confiance du rôle IAM entre comptes dans le compte B. Nous en discutons en détail dans la section suivante.

Le diagramme d'architecture précédent montre comment le compte A assume un rôle du compte B pour lire et écrire dans les magasins en ligne et hors ligne contenus dans le compte B. Les sept étapes du diagramme sont les suivantes :

Le compte B crée un rôle qui peut être assumé par d'autres (pour notre cas d'utilisation, le compte A).
Le compte A assume le rôle IAM du compte B à l'aide d'AWS STS. Le compte A peut désormais générer des informations d'identification temporaires qui peuvent être utilisées pour créer des clients de service AWS qui se comportent comme s'ils se trouvaient dans le compte B.
Dans le compte A, SageMaker et autres services
les clients (tels qu'Amazon S3 et Athena) sont créés à l'aide des informations d'identification temporaires via le rôle assumé.
Les clients de service du compte A peuvent désormais créer des groupes de fonctionnalités et remplir des valeurs de fonctionnalités dans la boutique en ligne centralisée du compte B à l'aide du kit SDK AWS.
La boutique en ligne du compte B se synchronise automatiquement avec la boutique hors ligne, également du compte B.
Le client de service Athena dans le compte A exécute des requêtes entre comptes pour lire, regrouper et matérialiser des ensembles de fonctionnalités à l'aide des tables Athena dans le compte B. Étant donné que le magasin hors ligne existe dans le compte B, les tables AWS Glue correspondantes, les entrées du catalogue de métadonnées et les objets S3 tous résident dans le compte B. Le compte A peut utiliser le rôle AWS STS assume pour interroger les fonctionnalités hors ligne (objets S3) dans le compte B.
Les résultats de la requête Athena sont renvoyés sous forme d'ensembles de données d'entité dans le compartiment S3 du compte A.

Les informations d'identification temporaires utilisent l'API AWS STS GetSessionToken et sont limitées à 1 heure. Vous pouvez prolonger la durée de votre session en utilisant Informations d'identification actualisables, une classe Botocore qui peut actualiser automatiquement les informations d'identification pour fonctionner avec vos applications de longue durée au-delà de la période d'une heure. Un exemple de cahier la démonstration est disponible dans notre dépôt GitHub.

Créer un accès entre comptes

Cette section détaille toutes les étapes pour créer les rôles, les politiques et les autorisations d'accès entre comptes pour permettre le partage des fonctionnalités entre les comptes A et B selon notre architecture.

Créer un rôle d'accès au magasin de fonctionnalités

À partir du compte B, nous créons un rôle d'accès au magasin de fonctionnalités. Il s'agit du rôle assumé par les services AWS dans le compte A pour accéder aux ressources du compte B.

Sur la console IAM, dans le volet de navigation, choisissez Rôles.
Selectionnez Créer un rôle.
Selectionnez Un autre compte AWS.
Pour identifiant de compte, entrez l'ID de compte à 12 chiffres du compte B.
Selectionnez Suivant: Autorisations.

Dans le Permissions , recherchez et joignez les stratégies gérées AWS suivantes :
1. AmazonSageMakerFullAccess (vous pouvez restreindre davantage cela aux moindres privilèges en fonction de votre cas d'utilisation)
2. AmazonSageMakerFeatureStoreAccess
Créez et attachez une stratégie personnalisée à ce nouveau rôle (fournissez le nom du compartiment S3 dans le compte A où les résultats de la requête Athena collectés dans le compte B sont écrits) :

{ "Version": "2012-10-17", "Statement": [ { "Sid": "AthenaResultsS3BucketCrossAccountAccessPolicy", "Effect": "Allow", "Action": [ "s3:GetBucketLocation", "s3:GetObject", "s3:ListBucket", "s3:PutObjectAcl", "s3:PutObject" ], "Resource": [ "arn:aws:s3:::<ATHENA RESULTS BUCKET NAME IN ACCOUNT A>", "arn:aws:s3:::<ATHENA RESULTS BUCKET NAME IN ACCOUNT A>/*" ] } ] }

Lorsque vous utilisez ce nouveau rôle entre comptes AWS STS à partir du compte A, il peut exécuter des requêtes Athena sur le contenu du magasin hors ligne dans le compte B. La stratégie personnalisée permet à Athena (dans le compte B) de réécrire les résultats dans un compartiment de résultats dans le compte. A. Assurez-vous que ce compartiment de résultats est créé dans le compte A avant de créer la stratégie précédente.

Vous pouvez également laisser le magasin de fonctionnalités centralisé du compte B conserver tous les résultats de la requête Athena dans un compartiment S3. Dans ce cas, vous devez configurer des stratégies d'accès en lecture Amazon S3 intercomptes pour les comptes externes afin de lire les résultats enregistrés (objets S3).

Après avoir joint les stratégies, choisissez Suivant.
Saisissez un nom pour ce rôle (par exemple, cross-account-assume-role).
Sur le Résumé page du rôle créé, sous Relations de confiance, choisissez Modifier la relation de confiance.
Modifiez le document de stratégie de contrôle d'accès comme indiqué dans le code suivant :

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "AWS": [ "arn:aws:iam::<ACCOUNT A ID>:root" ], "Service": [ "sagemaker.amazonaws.com", "athena.amazonaws.com" ] }, "Action": "sts:AssumeRole", "Condition": {} } ] }

Le code précédent ajoute SageMaker et Athena en tant que services dans la section Principal. Si vous souhaitez que davantage de comptes ou de rôles externes assument ce rôle, vous pouvez ajouter leurs ARN correspondants dans cette section.

Créer une instance de notebook SageMaker

À partir du compte A, créez une instance de bloc-notes SageMaker avec un rôle d'exécution IAM. Ce rôle accorde au bloc-notes SageMaker du compte A les autorisations nécessaires pour exécuter des actions sur le magasin de fonctionnalités du compte B. Sinon, si vous n'utilisez pas de bloc-notes SageMaker et utilisez Lambda à la place, vous devez créer un rôle pour Lambda avec le même politiques jointes comme indiqué dans cette section.

Par défaut, les politiques suivantes sont attachées lorsque vous créez un nouveau rôle d'exécution pour un bloc-notes SageMaker :

AmazonSageMaker-ExecutionPolicy
AmazonSageMakerFullAccess

Nous devons créer et attacher deux stratégies personnalisées supplémentaires. Commencez par créer une stratégie personnalisée avec le code suivant, qui permet au rôle d'exécution du compte A d'effectuer certaines actions S3 nécessaires pour interagir avec le magasin hors ligne du compte B :

{ "Version": "2012-10-17", "Statement": [ { "Sid": "FeatureStoreS3AccessPolicy", "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetBucketAcl", "s3:GetObjectAcl" ], "Resource": [ "arn:aws:s3:::<OFFLINE STORE BUCKET NAME IN ACCOUNT B>", "arn:aws:s3:::<OFFLINE STORE BUCKET NAME IN ACCOUNT B>/*" ] } ] }

Vous pouvez également joindre la stratégie gérée par AWS AmazonSageMakerFeatureStoreAccess, si le nom du compartiment S3 de votre magasin hors connexion contient le SageMaker mot-clé.

Deuxièmement, créez la stratégie personnalisée suivante, qui permet au bloc-notes SageMaker du compte A d'assumer le rôle (cross-account-assume-role) créé dans le compte B :

{ "Version": "2012-10-17", "Statement": { "Effect": "Allow", "Action": "sts:AssumeRole", "Resource": "arn:aws:iam::<ACCOUNT B ID>:role/cross-account-assume-role" } }

Nous savons que le compte A peut accéder à la boutique en ligne et hors ligne du compte B. Lorsque le compte A assume le rôle AWS STS inter-comptes du compte B, il peut exécuter des requêtes Athena dans le compte B sur sa boutique hors ligne. Cependant, les résultats de ces requêtes (ensembles de données de fonctionnalités) doivent être enregistrés dans le compartiment S3 du compte A afin de permettre la formation du modèle. Par conséquent, nous devons créer un bucket dans le compte A qui peut stocker les résultats de la requête Athena ainsi que créer une stratégie de bucket (voir le code suivant). Cette stratégie permet au rôle AWS STS entre comptes d'écrire et de lire des objets dans ce
seau:

{ "Version": "2012-10-17", "Statement": [ { "Sid": "MyStatementSid", "Effect": "Allow", "Principal": { "AWS": [ "arn:aws:iam::<ACCOUNT B>:role/cross-account-assume-role" ] }, "Action": "s3:*", "Resource": [ "arn:aws:s3:::<ATHENA RESULTS BUCKET NAME IN ACCOUNT A>", "arn:aws:s3:::<ATHENA RESULTS BUCKET NAME IN ACCOUNT A>/*" ] } ] }

Modifier la stratégie de relation d'approbation

Étant donné que nous avons créé un rôle d'exécution IAM dans le compte A, nous utilisons l'ARN de ce rôle pour modifier la stratégie de relations d'approbation du rôle de prise en charge entre comptes dans le compte B :

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "AWS": [ "ARN OF SAGEMAKER EXECUTION ROLE CREATED IN ACCOUNT A" ], "Service": [ "sagemaker.amazonaws.com", "athena.amazonaws.com" ] }, "Action": "sts:AssumeRole", "Condition": {} } ] }

Valider le processus d'installation

Après avoir configuré tous les rôles et les stratégies associées, vous pouvez valider la configuration en exécutant les exemples de blocs-notes dans le GitHub repo. Le bloc de code suivant est un extrait de l'exemple de bloc-notes et doit être exécuté dans un bloc-notes SageMaker exécuté dans le compte A. Il montre comment vous pouvez assumer le rôle entre comptes à partir du compte B à l'aide d'AWS STS via le AssumeRôle Appel API. Cet appel renvoie un ensemble d'informations d'identification temporaires que le compte A peut utiliser pour créer des clients de service. Lorsque vous utilisez ces clients, votre code utilise les autorisations du rôle assumé et agit comme s'il appartenait au compte B. Pour plus d'informations, consultez assume_role dans la documentation AWS SDK for Python (Boto 3).

 import boto3 # Create STS client sts = boto3.client('sts') # Role assumption B -> A CROSS_ACCOUNT_ASSUME_ROLE = 'arn:aws:iam::<ACCOUNT B ID>:role/cross-account-assume-role' metadata = sts.assume_role(RoleArn=CROSS_ACCOUNT_ASSUME_ROLE, RoleSessionName='FeatureStoreCrossAccountAccessDemo') # Get temporary credentials access_key_id = metadata['Credentials']['AccessKeyId'] secret_access_key = metadata['Credentials']['SecretAccessKey'] session_token = metadata['Credentials']['SessionToken'] region = boto3.Session().region_name boto_session = boto3.Session(region_name=region) # Create SageMaker client sagemaker_client = boto3.client('sagemaker', aws_access_key_id=access_key_id, aws_secret_access_key=secret_access_key, aws_session_token=session_token) # Create SageMaker Feature Store runtime client sagemaker_featurestore_runtime_client = boto3.client(service_name='sagemaker-featurestore-runtime', aws_access_key_id=access_key_id, aws_secret_access_key=secret_access_key, aws_session_token=session_token) . . . offline_config = {'OfflineStoreConfig': {'S3StorageConfig': {'S3Uri': f's3://{OFFLINE_STORE_BUCKET}'}}} sagemaker_client.create_feature_group(FeatureGroupName=FEATURE_GROUP_NAME, RecordIdentifierFeatureName=record_identifier_feature_name, EventTimeFeatureName=event_time_feature_name, FeatureDefinitions=feature_definitions, Description='< DESCRIPTION >', Tags='< LIST OF TAGS >', OnlineStoreConfig={'EnableOnlineStore': True}, RoleArn=CROSS_ACCOUNT_ASSUME_ROLE, **offline_config) . . . sagemaker_featurestore_runtime_client.put_record(FeatureGroupName=FEATURE_GROUP_NAME, Record=record)

Après avoir créé les clients SageMaker conformément à l'exemple de code précédent dans le compte A, vous pouvez créer des groupes de fonctionnalités et remplir des fonctionnalités dans la boutique en ligne et hors ligne centralisée du compte B. Pour plus d'informations sur la création, la description et la suppression de groupes de fonctionnalités, consultez créer_feature_group dans la documentation de Boto3. Vous pouvez également utiliser le Client d'exécution du magasin de fonctionnalités pour placer et obtenir des enregistrements d'entités vers et depuis des groupes d'entités.

Réplication de magasin hors ligne

La reproductibilité est la capacité de recréer exactement un modèle ML. Ainsi, si vous utilisez les mêmes fonctionnalités en entrée, le modèle renvoie la même sortie que le modèle d'origine. C'est essentiellement ce que nous nous efforçons d'atteindre entre les modèles que nous développons dans un environnement de recherche et déployons dans un environnement de production. La réplication des pipelines d'ingénierie de fonctionnalités entre les comptes est un processus complexe et chronophage qui peut introduire des écarts de modèle s'il n'est pas mis en œuvre correctement. Si l'ensemble de fonctionnalités utilisé pour entraîner un modèle change après la phase d'entraînement, il peut être difficile, voire impossible, de reproduire un modèle.

Les applications qui résident sur AWS ont généralement plusieurs environnements et comptes distincts, tels que le développement, les tests, la préproduction et la production. Pour réaliser un déploiement automatisé de l'application dans différents environnements, nous utilisons des pipelines CI/CD. Les organisations doivent souvent maintenir des environnements de travail isolés et plusieurs copies de données dans la même région AWS ou dans différentes régions AWS, ou sur différents comptes AWS. Dans le contexte du magasin de fonctionnalités, certaines entreprises peuvent souhaiter répliquer les données hors ligne du magasin de fonctionnalités. Réplication de magasin hors ligne via Réplication Amazon S3 peut être un modèle utile dans ce cas. Ce modèle permet aux environnements et comptes isolés de recycler les modèles ML à l'aide d'ensembles de fonctionnalités complets sans utiliser de rôles ou d'autorisations entre comptes.

Conclusion

Dans cet article, nous avons présenté divers modèles d'architecture tels que le magasin de fonctionnalités centralisé, le magasin de fonctionnalités combiné et d'autres considérations de conception pour SageMaker Feature Store qui sont essentielles à la collaboration interfonctionnelle en science des données. Nous avons également montré comment configurer un accès entre comptes à l'aide d'AWS STS.

Pour en savoir plus sur les fonctionnalités et les cas d'utilisation du Feature Store, consultez Comprendre les fonctionnalités clés d'Amazon SageMaker Feature Store ainsi que le Utilisation de l'ingestion de streaming avec Amazon SageMaker Feature Store pour prendre des décisions basées sur le ML en temps quasi réel.

Si vous avez des commentaires ou des questions, veuillez les laisser dans la section commentaires.

À propos des auteurs

Arunprasath Shankar est un architecte de solutions spécialisé en intelligence artificielle et apprentissage automatique (AI / ML) avec AWS, qui aide les clients du monde entier à faire évoluer leurs solutions d'IA de manière efficace et efficiente dans le cloud. Dans ses temps libres, Arun aime regarder des films de science-fiction et écouter de la musique classique.

Marc Roy est un architecte principal de Machine Learning pour AWS, aidant les clients AWS à concevoir et à créer des solutions AI / ML. Le travail de Mark couvre un large éventail de cas d'utilisation du ML, avec un intérêt principal pour la vision par ordinateur, l'apprentissage en profondeur et la mise à l'échelle du ML dans l'entreprise. Il a aidé des entreprises dans de nombreux secteurs, notamment l'assurance, les services financiers, les médias et le divertissement, la santé, les services publics et la fabrication. Mark détient 6 certifications AWS, y compris la certification ML Specialty. Avant de rejoindre AWS, Mark a été architecte, développeur et leader technologique pendant plus de 25 ans, dont 19 ans dans les services financiers.

Stefan Natu est un architecte de solutions spécialisé en IA / ML chez Amazon Web Services. Il s'attache à aider les clients des services financiers à créer des solutions d'apprentissage automatique de bout en bout sur AWS. Dans ses temps libres, il aime lire des blogs d'apprentissage automatique, jouer de la guitare et explorer la scène culinaire à New York.