La condivisione dei dati sta diventando un elemento importante di una strategia di dati aziendale. Servizi AWS come Scambio di dati AWS fornire alle aziende un modo per condividere o monetizzare i loro dati a valore aggiunto con altre aziende. Alcune organizzazioni vorrebbero disporre di una piattaforma di condivisione dei dati in cui stabilire un approccio collaborativo e strategico per lo scambio di dati con un gruppo ristretto di aziende in un ambiente chiuso, sicuro ed esclusivo. Ad esempio, le società di servizi finanziari e i loro revisori o le società manifatturiere e i loro partner della catena di fornitura. Ciò favorisce lo sviluppo di nuovi prodotti e servizi e aiuta a migliorare la loro efficienza operativa.
La condivisione dei dati è un lavoro di squadra, è importante notare che oltre a stabilire la giusta infrastruttura, una condivisione dei dati di successo richiede anche che le organizzazioni garantiscano che gli imprenditori sponsorizzino iniziative di condivisione dei dati. Devono inoltre garantire che i dati siano di alta qualità. I proprietari della piattaforma dati e i team di sicurezza dovrebbero incoraggiare un uso corretto dei dati e risolvere eventuali problemi di privacy e riservatezza.
Questo blog discute varie opzioni di condivisione dei dati e modelli di architettura comuni che le organizzazioni possono adottare per configurare la propria infrastruttura di condivisione dei dati in base alla disponibilità del servizio AWS e alla conformità dei dati.
Opzioni di condivisione dei dati e tipi di classificazione dei dati
Le organizzazioni operano attraverso una vasta gamma di vincoli di conformità alla sicurezza. Per alcune organizzazioni, è possibile utilizzare servizi AWS come AWS Data Exchange. Tuttavia, le organizzazioni che lavorano in settori fortemente regolamentati come le agenzie federali o i servizi finanziari potrebbero essere limitate dalle opzioni di servizio AWS elencate. Ad esempio, se un'organizzazione deve operare in un ambiente Fedramp Medium o Fedramp High, le sue opzioni per condividere i dati potrebbero essere limitate dai servizi AWS disponibili e che sono stati autorizzati nell'elenco. La disponibilità del servizio si basa sulla certificazione della piattaforma da parte di AWS e l'elenco di autorizzazioni si basa sulle organizzazioni che definiscono l'architettura e le linee guida per la conformità della sicurezza.
Il tipo di dati che l'organizzazione desidera condividere con i suoi partner può anche avere un impatto sul metodo utilizzato per la condivisione dei dati. Il rispetto delle regole di classificazione dei dati può limitare ulteriormente la scelta delle opzioni di condivisione dei dati che possono scegliere.
Di seguito sono riportati alcuni tipi generali di classificazione dei dati:
- Dati pubblici – Informazioni importanti, anche se spesso disponibili gratuitamente per la lettura, la ricerca, la revisione e l'archiviazione da parte delle persone. In genere ha il livello più basso di classificazione e sicurezza dei dati.
- Dati privati - Informazioni che potresti voler mantenere private come caselle di posta elettronica, contenuto del cellulare, numeri di identificazione dei dipendenti o indirizzi dei dipendenti. Se i dati privati fossero condivisi, distrutti o alterati, potrebbero rappresentare un lieve rischio per un individuo o per l'organizzazione.
- Dati riservati o riservati – Un gruppo limitato di individui o parti può accedere a informazioni sensibili che spesso richiedono un'autorizzazione speciale o un'autorizzazione speciale. L'accesso riservato o limitato ai dati potrebbe coinvolgere aspetti della gestione dell'identità e delle autorizzazioni. Esempi di dati riservati includono numeri di previdenza sociale e numeri di identificazione del veicolo.
Di seguito è riportato un albero decisionale di esempio a cui puoi fare riferimento quando scegli l'opzione di condivisione dei dati in base alla disponibilità del servizio, al tipo di classificazione e al formato dei dati (strutturati o non strutturati). Altri fattori come l'usabilità, l'accessibilità multi-partner, le dimensioni dei dati, i modelli di consumo come il caricamento in blocco/l'accesso API e altro ancora possono influire sulla scelta del modello di condivisione dei dati.
Nelle sezioni seguenti, discuteremo ogni modello in modo più dettagliato.
Modello 1: utilizzo di AWS Data Exchange
AWS Data Exchange semplifica lo scambio di dati, aiutando le organizzazioni a ridurre i costi, diventare più agili e innovare più velocemente. Le organizzazioni possono scegliere di condividere i dati privatamente utilizzando AWS Data Exchange con i propri partner esterni. AWS Data Exchange offre controlli perimetrali applicati a livello di identità e risorse. Questi controlli decidono quali identità esterne hanno accesso a specifiche risorse di dati. AWS Data Exchange fornisce diversi modelli per l'accesso ai dati da parte di parti esterne, come i seguenti:
Il diagramma seguente illustra un'architettura di esempio.
Con AWS Data Exchange, una volta configurato il set di dati da condividere (o vendere), AWS Data Exchange gestisce automaticamente i diritti (e la fatturazione) tra produttore e consumatore. Il producer non deve gestire policy, configurare nuovi access point o crearne di nuovi Amazon RedShift condivisioni di dati per ciascun consumatore e l'accesso viene automaticamente revocato al termine dell'abbonamento. Ciò può ridurre significativamente il sovraccarico operativo nella condivisione dei dati.
Modello 2: utilizzo di AWS Lake Formation per la gestione centralizzata degli accessi
Puoi utilizzare questo modello nei casi in cui sia il produttore che il consumatore si trovano sulla piattaforma AWS con un account AWS abilitato all'uso Formazione AWS Lake. Questo modello fornisce un approccio senza codice alla condivisione dei dati. Il diagramma seguente illustra un'architettura di esempio.
In questo modello, l'account di governance centrale ha Lake Formation configurato per la gestione dell'accesso tra gli account dell'organizzazione del produttore. Collegamenti alle risorse dall'account di produzione Servizio di archiviazione semplice Amazon (Amazon S3) vengono creati in Lake Formation. Il produttore concede a Lake Formation i permessi su un file Colla AWS Risorsa Catalogo dati a un account esterno o direttamente a un Gestione dell'identità e dell'accesso di AWS (IAM) principale in un altro account. Usi di Lake Formation Gestore dell'accesso alle risorse AWS (AWS RAM) per condividere la risorsa. Se l'account del beneficiario si trova nella stessa organizzazione dell'account del concedente, la risorsa condivisa è immediatamente disponibile per il beneficiario. Se l'account del beneficiario non si trova nella stessa organizzazione, AWS RAM invia un invito all'account del beneficiario per accettare o rifiutare la concessione della risorsa. Per rendere disponibile la risorsa condivisa, l'amministratore del consumatore nell'account beneficiario deve utilizzare la console AWS RAM o Interfaccia della riga di comando di AWS (AWS CLI) per accettare l'invito.
Le entità autorizzate possono condividere le risorse in modo esplicito con un'entità IAM in un account esterno. Questa funzionalità è utile quando il produttore desidera avere il controllo su chi nell'account esterno può accedere alle risorse. Le autorizzazioni che l'entità IAM riceve sono un'unione di concessioni dirette e le autorizzazioni a livello di account che vengono trasferite a cascata alle entità. L'amministratore del data lake dell'account del destinatario può visualizzare le concessioni dirette tra account, ma non può revocare le autorizzazioni.
Modello 3: utilizzo di AWS Lake Formation dall'account di condivisione esterno del produttore
Il produttore può avere severi requisiti di sicurezza in cui nessun consumatore esterno dovrebbe accedere al proprio account di produzione o al proprio account di governance centralizzata. Potrebbero anche non avere Lake Formation abilitato sulla loro piattaforma di produzione. In tali casi, come mostrato nel diagramma seguente, il conto produzione produttore (Conto A) è dedicato ai suoi utenti interni all'organizzazione. Il produttore crea un altro account, l'account di condivisione esterna del produttore (Account B), dedicato alla condivisione esterna. Ciò offre al produttore maggiore libertà per creare criteri specifici per organizzazioni specifiche.
Il seguente diagramma dell'architettura mostra una panoramica del modello.
Il producer implementa un processo per creare una copia asincrona dei dati nell'account B. Il bucket può essere configurato per la replica nella stessa regione (SRR) o per la replica tra più regioni (CRR) per gli oggetti che devono essere condivisi. Ciò facilita l'aggiornamento automatico dei dati all'account esterno nel bucket S3 "Set di dati pubblicati esterni" senza dover scrivere alcun codice.
La creazione di una copia dei dati consente al produttore di aggiungere un altro grado di separazione tra il consumatore esterno ei suoi dati di produzione. Aiuta inoltre a soddisfare qualsiasi requisito di conformità o di sovranità dei dati.
Lake Formation è impostato sull'account B e l'amministratore crea collegamenti alle risorse per il bucket S3 "Set di dati pubblicati esterni" nel proprio account per concedere l'accesso. L'amministratore segue la stessa procedura per concedere l'accesso come descritto in precedenza.
Modello 4: utilizzo della condivisione dei dati di Amazon Redshift
Questo modello è ideale per un produttore che ha la maggior parte dei prodotti di dati pubblicati su Amazon Redshift. Questo modello richiede anche che l'account di condivisione esterno del produttore (Account B) e l'account consumatore (Account C) dispongano di un cluster Amazon Redshift crittografato o Amazon Redshift senza server endpoint che soddisfa i prerequisiti per Condivisione dei dati di Amazon Redshift.
Il seguente diagramma dell'architettura mostra una panoramica del modello.
Sono possibili due opzioni a seconda dei vincoli di conformità del produttore:
- Opzione A – Il producer abilita la condivisione dei dati direttamente sul cluster Amazon Redshift di produzione.
- Opzione B – Il produttore può avere vincoli rispetto alla condivisione del cluster produttivo. Il produttore crea un semplice processo AWS Glue che copia i dati dal cluster Amazon Redshift nell'account di produzione A al cluster Amazon Redshift nell'account esterno B. Questo processo AWS Glue può essere pianificato per aggiornare i dati in base alle esigenze del consumatore. Quando i dati sono disponibili nell'Account B, il produttore può creare più visualizzazioni e più condivisioni di dati secondo necessità.
In entrambe le opzioni, il produttore mantiene il controllo completo su quali dati vengono condivisi e l'amministratore del consumatore mantiene il pieno controllo su chi può accedere ai dati all'interno della propria organizzazione.
Dopo che gli amministratori producer e consumer hanno approvato la richiesta di condivisione dei dati, l'utente consumer può accedere a questi dati come se facessero parte del proprio account senza dover scrivere alcun codice aggiuntivo.
Modello 5: condivisione dei dati in modo sicuro e privato utilizzando le API
Puoi adottare questo modello quando il partner esterno non è presente su AWS. Puoi anche utilizzare questo modello quando i prodotti di dati pubblicati sono distribuiti su vari servizi come Amazon S3, Amazon Redshift, Amazon DynamoDBe Servizio Amazon OpenSearch ma il produttore vorrebbe mantenere un'unica interfaccia di condivisione dei dati.
Ecco un caso d'uso di esempio: l'azienda A vorrebbe condividere alcuni dei suoi dati di registro in tempo quasi reale con il suo partner azienda B, che utilizza questi dati per generare informazioni predittive per l'azienda A. L'azienda A archivia questi dati in Amazon Redshift. L'azienda desidera condividere queste informazioni transazionali con il proprio partner dopo aver mascherato le informazioni di identificazione personale (PII) in modo economico e sicuro per generare approfondimenti. L'azienda B non utilizza la piattaforma AWS.
L'azienda A stabilisce un processo di microbatch utilizzando un AWS Lambda funzione o AWS Glue che interroga Amazon Redshift per ottenere dati di log incrementali, applica le regole per oscurare le informazioni personali e carica questi dati nel bucket S3 "Set di dati pubblicati". Ciò crea un'istanza di un processo SRR/CRR che aggiorna questi dati nel bucket S3 "Condivisione esterna".
Il diagramma seguente mostra come il consumatore può quindi utilizzare un approccio basato su API per accedere a questi dati.
Il flusso di lavoro contiene i seguenti passaggi:
- Una richiesta API HTTPS viene inviata dal consumatore API al livello proxy API.
- La richiesta API HTTPS viene inoltrata dal proxy API a Gateway API Amazon nell'account AWS di condivisione esterno.
- Amazon API Gateway chiama la funzione Lambda del destinatario della richiesta.
- La funzione del destinatario della richiesta scrive lo stato in una tabella di controllo DynamoDB.
- Una seconda funzione Lambda, il poller, controlla lo stato dei risultati nella tabella DynamoDB.
- La funzione poller recupera i risultati da Amazon S3.
- La funzione poller invia un URL preimpostato per scaricare il file dal bucket S3 al richiedente tramite Servizio di posta elettronica semplice Amazon (Amazon SES).
- Il richiedente scarica il file utilizzando l'URL.
- L'account AWS perimetrale di rete consente solo la connessione Internet in uscita.
- Il livello proxy API applica sia i controlli di sicurezza in uscita che il firewall perimetrale prima che il traffico lasci il perimetro di rete del produttore.
- Il Gateway di transito AWS la tabella di routing VPC in uscita di sicurezza consente solo la connettività dalla sottorete del producer richiesto, impedendo l'accesso a Internet.
Modello 6: utilizzo dei punti di accesso Amazon S3
I data scientist potrebbero aver bisogno di lavorare in modo collaborativo su immagini, video e documenti di testo. I gruppi legali e di audit potrebbero voler condividere rapporti e dichiarazioni con le agenzie di auditing. Questo modello discute un approccio alla condivisione di tali documenti. Il modello presuppone che anche i partner esterni siano su AWS. Punti di accesso Amazon S3 consentire al produttore di condividere l'accesso con il proprio consumatore impostando l'accesso tra account senza dover modificare le policy del bucket.
Gli access point sono endpoint di rete denominati che sono collegati a bucket che puoi utilizzare per eseguire operazioni sugli oggetti S3, come GetObject e PutObject. Ogni punto di accesso dispone di autorizzazioni e controlli di rete distinti che Amazon S3 applica per qualsiasi richiesta effettuata tramite tale punto di accesso. Ogni punto di accesso applica una policy del punto di accesso personalizzata che funziona insieme alla policy del bucket collegata al bucket sottostante.
Il seguente diagramma dell'architettura mostra una panoramica del modello.
Il producer crea un bucket S3 e abilita l'utilizzo degli access point. Come parte della configurazione, il produttore specifica l'account consumatore, il ruolo IAM e i privilegi per il ruolo IAM consumatore.
Gli utenti consumer con il ruolo IAM nell'account consumer possono accedere al bucket S3 tramite Internet o essere limitati a un Amazon VPC tramite endpoint VPC e Collegamento privato AWS.
Conclusione
Ogni organizzazione ha il proprio set unico di vincoli e requisiti che deve soddisfare per impostare una soluzione di condivisione dei dati efficiente. In questo post, abbiamo dimostrato varie opzioni e best practice disponibili per le organizzazioni. Il proprietario della piattaforma dati e il team di sicurezza dovrebbero collaborare per valutare ciò che funziona meglio per la tua situazione specifica. Anche il tuo team dell'account AWS è disponibile per aiutarti.
Risorse correlate
Per ulteriori informazioni su argomenti correlati, fare riferimento a quanto segue:
Informazioni sugli autori
Venkata Sisla è un Cloud Architect – Data & Analytics presso AWS. È specializzato nella creazione di capacità di elaborazione dei dati e nell'aiutare i clienti a rimuovere i vincoli che impediscono loro di sfruttare i propri dati per sviluppare approfondimenti aziendali.
Santosh Chiplunkar è Principal Resident Architect presso AWS. Ha oltre 20 anni di esperienza nell'aiutare i clienti a risolvere le loro sfide relative ai dati. Aiuta i clienti a sviluppare la loro strategia di dati e analisi e fornisce loro indicazioni su come trasformarla in realtà.
- Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
- Platoblockchain. Web3 Metaverse Intelligence. Conoscenza amplificata. Accedi qui.
- Fonte: https://aws.amazon.com/blogs/big-data/patterns-for-enterprise-data-sharing-at-scale/
- 1
- 100
- 20 anni
- 420
- a
- Accetta
- accesso
- accessibilità
- Il mio account
- conti
- operanti in
- aggiunta
- aggiuntivo
- indirizzi
- Admin
- adottare
- influenzare
- Dopo shavasana, sedersi in silenzio; saluti;
- agenzie
- agile
- consente
- Amazon
- analitica
- ed
- Un altro
- api
- applicato
- approccio
- approvare
- architettura
- aspetti
- allegato
- revisione
- revisione
- revisori dei conti
- autorizzazione
- Automatizzata
- automaticamente
- disponibilità
- disponibile
- Avenue
- AWS
- Colla AWS
- Formazione AWS Lake
- basato
- diventare
- diventando
- prima
- essendo
- MIGLIORE
- best practice
- fra
- fatturazione
- Blog
- Costruzione
- affari
- Bandi
- funzionalità
- Custodie
- casi
- catalogo
- centrale
- centralizzata
- Certificazione
- catena
- sfide
- Controlli
- scegliere
- Scegli
- la scelta
- classificazione
- chiuso
- Cloud
- Cluster
- codice
- collaborativo
- Uncommon
- Aziende
- azienda
- completamento di una
- conformità
- conforme
- riservatezza
- Configurazione
- veloce
- Connettività
- consolle
- vincoli
- Consumer
- consumo
- contiene
- contenuto
- di controllo
- controlli
- costo effettivo
- Costi
- creare
- creato
- crea
- Cross
- Clienti
- personalizzate
- dati
- l'accesso ai dati
- Scambio di dati
- Lago di dati
- Piattaforma dati
- elaborazione dati
- condivisione dei dati
- strategia di dati
- decisione
- albero decisionale
- dedicato
- definizione
- Laurea
- dimostrato
- Dipendente
- descritta
- distrutto
- dettaglio
- sviluppare
- Mercato
- diverso
- dirette
- direttamente
- discutere
- distinto
- documenti
- non
- giù
- scaricare
- download
- ogni
- In precedenza
- più facile
- efficienza
- efficiente
- sforzo
- Dipendente
- abilitato
- Abilita
- incoraggiare
- crittografato
- endpoint
- finisce
- garantire
- Impresa
- Ambiente
- stabilire
- stabilisce
- stabilire
- Etere (ETH)
- esempio
- Esempi
- exchange
- scambio
- Exclusive
- esperienza
- esterno
- facilita
- Fattori
- più veloce
- caratteristica
- Federale
- Compila il
- finanziario
- servizi finanziari
- firewall
- Fissare
- i seguenti
- segue
- formato
- formazione
- da
- Adempiere
- pieno
- function
- ulteriormente
- porta
- Generale
- dati generali
- generare
- ottenere
- dà
- la governance
- concedere
- borse di studio
- Gruppo
- Gruppo
- linee guida
- avendo
- pesantemente
- Aiuto
- aiutare
- aiuta
- Alta
- Come
- Tutorial
- Tuttavia
- HTTPS
- IAM
- Identificazione
- identità
- Identità
- Immagine
- subito
- Impact
- attrezzi
- importante
- competenze
- in
- includere
- individuale
- individui
- industrie
- informazioni
- Infrastruttura
- iniziative
- innovare
- intuizioni
- Interfaccia
- interno
- Internet
- accesso ad Internet
- connessione internet
- invito
- coinvolgere
- sicurezza
- IT
- Lavoro
- mantenere
- Genere
- lago
- latitudine
- strato
- Legale
- Livello
- livelli
- leveraging
- LIMITE
- Limitato
- linea
- Collegamento
- elencati
- annuncio
- carichi
- livello più basso
- fatto
- mantenere
- mantiene
- make
- FA
- gestire
- gestione
- gestisce
- gestione
- consigliato per la
- medie
- Soddisfare
- Soddisfa
- metodo
- forza
- monetizzare
- Scopri di più
- maggior parte
- multiplo
- Detto
- Bisogno
- di applicazione
- esigenze
- Rete
- New
- Nuovo accesso
- prodotti nuovi
- numeri
- oggetto
- oggetti
- Offerte
- operare
- operativa
- Operazioni
- Opzione
- Opzioni
- organizzazione
- organizzazioni
- Altro
- panoramica
- proprio
- proprietario
- proprietari
- parte
- parti
- partner
- partner
- Cartamodello
- modelli
- Persone
- eseguire
- permessi
- Personalmente
- telefono
- pii
- piattaforma
- Platone
- Platone Data Intelligence
- PlatoneDati
- punto
- punti
- Termini e Condizioni
- politica
- possibile
- Post
- pratiche
- prerequisiti
- presenza
- prevenire
- prevenzione
- Direttore
- Privacy
- un bagno
- privilegi
- processi
- lavorazione
- produttore
- Produzione
- Prodotti
- Prodotti e Servizi
- corretto
- fornire
- fornisce
- delega
- pubblicato
- qualità
- RAM
- Leggi
- Realtà
- riceve
- ridurre
- regione
- regolamentati
- relazionato
- rimuovere
- replicazione
- Report
- richiesta
- necessario
- Requisiti
- richiede
- riparazioni
- risorsa
- Risorse
- limitato
- Risultati
- recensioni
- Rischio
- Ruolo
- norme
- stesso
- Scala
- in programma
- scienziati
- Secondo
- sezioni
- sicuro
- in modo sicuro
- problemi di
- venda
- delicata
- servizio
- Servizi
- set
- regolazione
- Condividi
- condiviso
- azioni
- compartecipazione
- dovrebbero
- mostrato
- Spettacoli
- significativamente
- Un'espansione
- singolo
- situazione
- Taglia
- Social
- soluzione
- RISOLVERE
- alcuni
- sovranità
- la nostra speciale
- specializzata
- specifico
- Spettro
- sponsor
- diffondere
- dichiarazioni
- Stato dei servizi
- Passi
- conservazione
- Tornare al suo account
- negozi
- Strategico
- Strategia
- strutturato
- sottorete
- sottoscrizione
- di successo
- tale
- fornire
- supply chain
- tavolo
- team
- le squadre
- Il
- loro
- Attraverso
- tempo
- a
- insieme
- Argomenti
- traffico
- transazionale
- transito
- Tipi di
- tipicamente
- sottostante
- unione
- unico
- URL
- usabilità
- uso
- caso d'uso
- Utente
- utenti
- vario
- veicolo
- via
- Video
- Visualizza
- visualizzazioni
- Che
- quale
- while
- OMS
- entro
- senza
- Lavora
- lavorare insieme
- flusso di lavoro
- lavoro
- lavori
- sarebbe
- scrivere
- anni
- Trasferimento da aeroporto a Sharm
- zefiro