Amazon SageMaker Veri Düzenleyicisi veri bilimcilerin makine öğrenimi (ML) uygulamaları için veri hazırlamalarının en hızlı ve en kolay yoludur. Data Wrangler ile, özellik mühendisliği sürecini basitleştirebilir ve tek bir görsel arayüz aracılığıyla veri seçimi, temizleme, keşif ve görselleştirme dahil olmak üzere veri hazırlama iş akışının her adımını tamamlayabilirsiniz. Data Wrangler, özellikleri hızlı bir şekilde normalleştirmek, dönüştürmek ve birleştirmek için kullanabileceğiniz 300 yerleşik veri dönüştürme tarifiyle birlikte gelir. Data Wrangler'daki veri seçim aracıyla, farklı veri kaynaklarından verileri hızlı bir şekilde seçebilirsiniz. Amazon Basit Depolama Hizmeti (Amazon S3), Amazon Atina, ve Amazon Kırmızıya Kaydırma.
AWS Göl Oluşumu Hesaplar arası yetenekler, merkezi bir yaklaşımla birden çok hesapta dağıtılmış veri göllerinin güvenliğini ve yönetimini basitleştirir ve Athena tablolarına ayrıntılı erişim kontrolü sağlar.
Bu yazıda, Athena'yı bir kaynak olarak ve Göl Oluşumu'nu merkezi bir veri yönetişimi yeteneği olarak kullanarak Data Wrangler için hesaplar arası erişimin nasıl etkinleştirileceğini gösteriyoruz. Aşağıdaki mimari şemasında gösterildiği gibi, Hesap A, ETL ardışık düzenlerinden türetilen tüm ML'ye hazır verileri tutan data lake hesabıdır. Hesap B, veri bilimcilerinden oluşan bir ekibin veri dönüşümlerini derlemek ve çalıştırmak için Data Wrangler'ı kullandığı veri bilimi hesabıdır. Lake Oluşumu izinleri aracılığıyla Hesap A'nın veri gölünde bulunan veri tablolarına erişmek için B Hesabı'ndaki Veri Yazıcısı için hesaplar arası izinleri etkinleştirmemiz gerekir.
Bu mimari ile data lake hesabı dışındaki veri bilimcileri ve mühendisler göldeki verilere erişebilir ve Data Wrangler aracılığıyla veri dönüşümleri oluşturabilir.
Kurulum sürecine girmeden önce, hesaplar arasında paylaşılacak verilerin bu bölümde ayrıntılı olarak tarandığından ve kataloglandığından emin olun. Facebook post. Bu işlemin tamamlandığını ve veri tabanlarının ve tabloların Lake Formation'da zaten mevcut olduğunu varsayalım.
Aşağıda, bu çözümü uygulamak için üst düzey adımlar verilmiştir:
- A Hesabı'nda, Lake Formation'ı kullanarak S3 klasörünüzü kaydedin ve yoksa veriler için gerekli veritabanlarını ve tabloları oluşturun.
- Lake Formation yöneticisi artık A Hesabı'ndaki veri kümelerini diğer hesaplarla paylaşabilir. Lake Formation, bu kaynakları kullanarak AWS Kaynak Erişim Yöneticisi (AWS RAM'i).
- B Hesabı'nda, AWS RAM kullanarak kaynak paylaşımı isteğini kabul edin. Lake Formation aracılığıyla paylaşılan tablo için yerel bir kaynak bağlantısı oluşturun ve yerel bir veritabanı oluşturun.
- Ardından, için izinler vermeniz gerekir. Adaçayı Yapıcı Stüdyo Önceki adımda oluşturduğunuz paylaşılan tabloya ve kaynak bağlantısına erişmek için B Hesabı'nda yürütme rolü.
- Data Wrangler'da, Athena bağlayıcısını kullanarak veri kümesini sorgulamak ve özellik dönüşümlerini gerçekleştirmek için B Hesabı'nda oluşturduğunuz yerel veritabanını ve kaynak bağlantısını kullanın.
Lake Formation kullanarak veri gölü kurulumu
Başlamak için, Hesap A'da bir merkezi veri gölü oluşturun. Veri gölüne erişimi ilkeler ve izinlerle kontrol edebilir ve veritabanı, tablo veya sütun düzeyinde izinler tanımlayabilirsiniz.
Kurulum sürecini başlatmak için, indir titanik veri kümesi .csv dosyası ve S3 klasörünüze yükleyin. Dosyayı yükledikten sonra, paketi Göl Oluşumuna kaydetmeniz gerekir. Göl Oluşumu izinleri, veri gölünüzdeki veriler için ayrıntılı erişim denetimi sağlar.
Not: Titanic veri seti halihazırda kataloglanmışsa, aşağıdaki kayıt adımını atlayabilirsiniz.
S3 veri deponuzu Lake Formation'da kaydedin
Veri deponuzu kaydetmek için aşağıdaki adımları tamamlayın:
- Hesap A'da Lake Formation konsolunda oturum açın.
Lake Formation'a ilk kez erişiyorsanız, hesaba yöneticiler eklemeniz gerekir.
- Gezinti bölmesinde, altında İzinler, seçmek Yöneticiler ve veritabanı oluşturucular.
- Altında Veri gölü yöneticileri, seçmek Hibe.
Şimdi ekle AWS Kimlik ve Erişim Yönetimi (IAM) kullanıcıları veya veri gölü yöneticileri olarak Hesap A'ya özgü roller.
- Altında Veri gölü yöneticilerini yönetin, Için IAM kullanıcıları ve rolleri, kullanıcı veya rolünüzü seçin (bu gönderi için kullanıyoruz
user-a
).
Bu aynı zamanda Hesap A'nın IAM yöneticisi rolü olabilir.
- Klinik İndirim.
- Emin olmak
IAMAllowedPrincipals
grup her ikisinin altında listelenmiyor Veri gölü yöneticileri ve veritabanı yaratıcıları.
Güvenlik ayarları hakkında daha fazla bilgi için bkz. Veri Gölünüz için Varsayılan Güvenlik Ayarlarını Değiştirme.
Ardından, S3 klasörünü veri gölü konumu olarak kaydetmeniz gerekir.
- Göl Oluşumu konsolunda, altında Kaydolun ve besleyin, seçmek Veri gölü konumları.
Bu sayfa, Lake Formation için veri gölü depolama kaynakları olarak işaretlenmiş S3 klasörlerinin bir listesini görüntülemelidir. Tek bir S3 paketi, birçok veri kümesi için havuz görevi görebilir veya ayrı veri kaynakları için ayrı paketler kullanabilirsiniz.
- Klinik Konumu kaydet.
- İçin Amazon S3 yolu, paketinizin yolunu girin.
- İçin IAM rolüSeç
AWSServiceRoleForLakeFormationDataAccess
. - Klinik Konumu kaydet.
Bu adımdan sonra, S3 klasörünüzü aşağıda görebilirsiniz. Veri göl yerleri.
Bir veritabanı oluşturun
Bu adım isteğe bağlıdır. Titanic veri kümesi zaten taranmış ve kataloglanmışsa bu adımı atlayın. Veri kümesinin veritabanı ve tablosu, veri gölünde önceden var olmalıdır.
Veritabanını yoksa kaydetmek için aşağıdaki adımları tamamlayın:
- Göl Oluşumu konsolunda, altında Veri kataloğu, seçmek veritabanları.
- Klinik Veritabanı oluştur.
- İçin Veritabanı ayrıntılarıseçin veritabanı.
- İçin Name, bir ad girin (örneğin,
titanic
). - İçin Lokasyon, S3 veri gölü demet yolunu girin.
- Kaldırın Bu veritabanındaki tablolar için yalnızca IAM erişim denetimlerini kullanın.
- Klinik Veritabanı oluştur.
- Altında İşlemler, seçmek İzinler.
- Klinik İzinleri görüntüle.
- Emin olun
IAMAllowedPrincipals
grup listelenmemiş.
Listelenmişse, bu gruba erişimi iptal ettiğinizden emin olun.
Artık altında listelenen oluşturulan veritabanını görüntüleyebilmelisiniz. veritabanları.
Tabloyu Göl Oluşumu konsolunda da görebilmeniz gerekir. Veri katalog gezinti bölmesinde, altında tablolar. Bu demo için, tablo adını varsayalım. titanic_datalake_bucket_as
Aşağıda gösterildiği gibi.
Hesap A'ya tablo izinleri verin
Hesap A'ya tablo izinleri vermek için aşağıdaki adımları tamamlayın:
- A Hesabı ile Lake Formation konsolunda oturum açın.
- Altında Veri kataloğu, seçmek tablolar.
- Yeni oluşturulan tabloyu seçin.
- Üzerinde İşlemler menü, altında İzinler, seçmek Hibe.
- seç Hesabım.
- İçin IAM kullanıcıları ve rolleri, erişim vermek istediğiniz kullanıcıları veya rolleri seçin (bu gönderi için seçiyoruz
user-x
, Hesap A içinde farklı bir kullanıcı).
Ayrıca bir sütun filtresi de ayarlayabilirsiniz.
- İçin Sütunlar, seçmek Sütunları dahil et.
- İçin Sütunları dahil et, ilk beş sütunu seçin
titanic_datalake_bucket_as
tablo. - İçin Tablo izinleriseçin seç.
- seçti Hibe.
- Hala Hesap A'da, Athena konsoluna geçin.
- Bir tablo önizlemesi çalıştırın.
Sayfanın ilk beş sütununu görebilmeniz gerekir. titanic_datalake_bucket_as
önceki adımlarda verilen izinlere göre tablo.
Bu Athena adımı aracılığıyla Hesap A'daki veri gölü tablosuna yerel erişimi doğruladık. Ardından, bizim durumumuzda aynı tablo için B Hesabı olan harici bir hesaba erişim izni verelim.
Hesap B'ye tablo izinleri verin
Bu harici hesap, Data Wrangler'ı çalıştıran hesaptır. Tablo izinleri vermek için aşağıdaki adımları tamamlayın:
- A hesabında kalmak, İşlemler menü, altında İzinler, seçmek Hibe.
- seç Harici hesap.
- İçin AWS hesap kimliği, Hesap B'nin hesap kimliğini girin.
- Tablonun aynı ilk beş sütununu seçin.
- İçin Tablo izinleri ve Verilebilir izinlerseçin seç.
- Klinik Hibe.
Süper iznini şuradan iptal etmelisiniz: IAMAllowedPrincipals
harici erişim izni vermeden önce bu tablo için grup oluşturun. Bunu şurada yapabilirsiniz: İşlemler altındaki menü İzinleri görüntüle, Daha sonra seçmek IAMAIzin VerilenMüdürler Ve seç İptal et.
- AWS RAM konsolunda, hala Hesap A'da, altında Benim tarafımdan paylaşıldı, seçmek Paylaşılan kaynaklar.
Bu sayfada bir Göl Oluşumu girişi bulabiliriz.
- Hesap B'ye geçin.
- AWS RAM konsolunda, altında Benimle paylaştı, Hesap A'da Lake Formation'dan bir davetiye görüyorsunuz.
- Seçerek daveti kabul edin Kaynak paylaşımını kabul edin.
Kabul ettikten sonra Kaynak paylaşımları sayfasında, katalog, veritabanı ve tablo bilgilerini içeren paylaşılan Göl Oluşumu girişini görmelisiniz.
B Hesabı'ndaki Göl Oluşumu konsolunda, A Hesabı'na ait paylaşılan tabloyu tablolar sayfa. Görmüyorsanız, ekranınızı yenileyebilirsiniz ve kaynak kısa süre içinde görünmelidir.
Bu paylaşılan tabloyu B Hesabı içinde kullanmak için, Lake Oluşumundaki B Hesabı için yerel bir veritabanı oluşturmanız gerekir.
- Göl Oluşumu konsolunda, altında veritabanları, seçmek Veritabanları oluşturun.
- Veritabanını adlandırın
local_db
.
Ardından, Lake Formation'daki paylaşılan titanik tablo için bir kaynak bağlantısı oluşturmanız gerekir. Kaynak bağlantıları, meta veri veritabanlarına ve tablolara, genellikle diğer AWS hesaplarından paylaşılan veritabanlarına ve tablolara bağlanan Data Catalog nesneleridir. Veri gölündeki verilere hesaplar arası erişimi etkinleştirmeye yardımcı olurlar.
- Tablo ayrıntıları sayfasında İşlemler menü seç Kaynak bağlantısı oluştur.
- İçin Kaynak bağlantı adı, bir ad girin (örneğin,
titanic_local
). - İçin veritabanıönceden oluşturduğunuz yerel veritabanını seçin.
- Değerleri Paylaşılan tablo ve Paylaşılan tablonun veritabanı Hesap A'dakilerle eşleşmeli ve otomatik olarak doldurulmalıdır.
- İçin Paylaşılan tablonun sahip kimliği, Hesap A'nın hesap kimliğini seçin.
- Klinik oluşturmak.
- Gezinti bölmesinde, altında Veri kataloğu, seçmek Ayarlar.
- emin olmak Yalnızca IAM erişim kontrolünü kullan yeni veritabanları ve tablolar için devre dışı bırakılır.
Bu, Lake Formation'ın veritabanı ve tablo izinlerini yönettiğinden emin olmak içindir.
- SageMaker konsoluna geçin.
- Studio Denetim Masasında, altında Stüdyo Özeti, yürütme rolünün ARN'sini kopyalayın.
- Yerel veritabanına, paylaşılan tabloya ve daha önce B Hesabı'nın Göl Oluşumunda sahip olduğunuz yerel tabloya erişmek için bu role izin vermeniz gerekir.
- Ayrıca bu role aşağıdaki özel ilkeyi eklemeniz gerekir. Bu politika, Studio'nun Lake Formation aracılığıyla verilere erişmesine ve Hesap B'nin
titanic
oluşturulan tablolardan veri kümesi:
- Lake Formation konsoluna geri dönün.
- Burada, paylaşılana erişmek için SageMaker yürütme rolü için izinler vermemiz gerekir.
titanic_datalake_bucket_as
tablo.
Bu, AWS RAM aracılığıyla Hesap A'dan Hesap B'ye paylaştığınız tablodur.
- B Hesabı'nda, tablo ayrıntıları sayfasında, İşlemler menü, altında İzinler, seçmek Hibe.
- Rolün tabloya ve beş sütuna erişmesine izin verin.
- Son olarak, B Hesabı'ndaki yerel titanik tabloya erişmek için SageMaker yürütme rolü izinlerini verin.
Studio'da hesaplar arası veri erişimi
Bu son aşamada, bunu Data Wrangler arayüzünde test ederek şimdiye kadar uygulanan adımları doğrulamaya hazır olmalısınız.
- Üzerinde ithalat sekme için Tarihleri içe aktar, seçmek Amazon Atina veri kaynağınız olarak.
- İçin Veri kataloğu, seçmek AwsDataKatalog.
- İçin veritabanı, B Hesabı'nda oluşturduğunuz yerel veritabanını seçin (
local_db
).
Yerel tabloyu görebilmeniz gerekir (titanic_local
) sağ bölmede.
- Aşağıdaki ekran görüntüsünde gösterildiği gibi bir Athena sorgusu çalıştırın.
titanic
Lake Formation'da (Hesap B) SageMaker yürütme rolüne verdiğiniz veri kümesi. - Klinik Veri kümesini içe aktarın.
- İçin Veri Kümesi Adı, bir ad girin (örneğin,
titanic-dataset
). - Klinik Ekle.
Bu, titanik veri setini içe aktarır ve veri akışı sayfasını görsel bloklarla görebilmeniz gerekir. Hazırlamak sekmesi.
Sonuç
Bu yazıda, Lake Formation ve AWS RAM kullanarak Data Wrangler için hesaplar arası erişimin nasıl etkinleştirileceğini gösterdik. Bu metodolojiyi takip eden kuruluşlar, birden çok veri bilimi ve mühendislik ekibinin merkezi bir veri gölünden verilere erişmesine ve sürekli olarak özellik boru hatları ve dönüşüm tarifleri oluşturmasına izin verebilir. Data Wrangler hakkında daha fazla bilgi için bkz. Verileri Makine Öğrenimine Hazırlamak için Görsel Arayüz olan Amazon SageMaker Data Wrangler ile tanışın ve Amazon SageMaker Data Wrangler ile araştırma amaçlı veri analizi, özellik mühendisliği ve ML ardışık düzeninize veri akışınızı operasyonel hale getirme.
Data Wrangler'ı deneyin ve görüşlerinizi ve sorularınızı yorumlar bölümünde paylaşın.
Yazarlar Hakkında
Rızvan Gilani Amazon SageMaker'da Yazılım Geliştirme Mühendisidir. Tutkusu, makine öğrenimini daha etkileşimli ve geniş ölçekte erişilebilir kılmaktır. Bundan önce, Alexa Communications'ı başlatan çekirdek ekibin bir parçası olarak Amazon Alexa üzerinde çalıştı.
Phi Nguyen AWS'de veri gölü, analitik, anlambilim teknolojileri ve makine öğrenimine özel olarak odaklanarak müşterilere bulut yolculuklarında yardımcı olan bir çözüm mimarıdır. Boş zamanlarında, onu işe bisikletle giderken, oğlunun futbol takımına koçluk yaparken veya ailesiyle doğa yürüyüşünün tadını çıkarırken bulabilirsiniz.
Arunprasath Şankar AWS'li bir Yapay Zeka ve Makine Öğrenimi (AI / ML) Uzman Çözüm Mimarıdır ve küresel müşterilerin yapay zeka çözümlerini bulutta etkili ve verimli bir şekilde ölçeklendirmelerine yardımcı olur. Arun boş zamanlarında bilim kurgu filmleri izlemekten ve klasik müzik dinlemekten hoşlanıyor.
- erişim
- Hesap
- Action
- Gizem
- AI
- Alexa
- Amazon
- amazon alexa
- Amazon Adaçayı Yapıcı
- analiz
- analytics
- uygulamaları
- mimari
- yapay zeka
- Yapay Zeka ve Makine Öğrenimi
- AWS
- inşa etmek
- bulut
- Sütun
- yorumlar
- İletişim
- Müşteriler
- veri
- veri erişim
- veri analizi
- Veri Gölü
- veri bilimi
- veritabanı
- veritabanları
- gelişme
- mühendis
- Mühendislik
- Mühendisler
- infaz
- keşif
- aile
- Özellikler(Hazırlık aşamasında)
- Özellikler
- Ad
- ilk kez
- akış
- odak
- gif
- Küresel
- yönetim
- grup
- Ne kadar
- Nasıl Yapılır
- HTTPS
- IAM
- Kimlik
- Dahil olmak üzere
- bilgi
- İstihbarat
- interaktif
- IT
- öğrenme
- seviye
- LINK
- Liste
- Dinleme
- yerel
- yer
- makine öğrenme
- Yapımı
- Maç
- ML
- filmler
- Music
- Navigasyon
- Diğer
- sahip
- politikaları
- politika
- Önizleme
- RAM
- Tarifler
- kayıtlar
- kaynak
- Kaynaklar
- koşmak
- koşu
- sagemaker
- ölçek
- Bilim
- bilim adamları
- Ekran
- güvenlik
- seçilmiş
- semantik
- set
- paylaş
- Paylaşılan
- Paylar
- Basit
- So
- Futbol
- Yazılım
- yazılım geliştirme
- Çözümler
- Aşama
- başladı
- Açıklama
- hafızası
- mağaza
- anahtar
- Teknolojileri
- Test yapmak
- zaman
- Dönüşüm
- us
- kullanıcılar
- Görüntüle
- görüntüleme
- içinde
- İş
- iş akışı