SageMaker Temel Gerçeği Kullanarak Boyut Tabanlı Duyarlılık Analizi İçin Etiket Metni

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Amazon Machine Learning Solutions Lab (MLSL), kısa bir süre önce, adlandırılmış varlık tanıma (NER) ve ilişki etiketleriyle metne açıklama eklemek için bir araç oluşturdu. Amazon SageMaker Yer Gerçeği. Ek açıklama yapanlar, bu aracı, metni adlandırılmış varlıklarla etiketlemek ve aralarındaki ilişkileri bağlamak için kullanır, böylece en gelişmiş doğal dil işleme (NLP) makine öğrenimi (ML) modellerini eğitmek için bir veri kümesi oluşturur. En önemlisi, bu özellik artık tüm AWS müşterilerinin kullanımına açıktır.

Müşteri Kullanım Örneği: Booking.com

Booking.com dünyanın önde gelen çevrimiçi seyahat platformlarından biridir. Müşterilerin, şirketin platformdaki 28 milyondan fazla emlak listesi hakkında söylediklerini anlamak, birinci sınıf bir müşteri deneyimi sağlamak için çok önemlidir. Önceden Booking.com, müşteri tarafından oluşturulan değerlendirmeleri geniş ölçekte yorumlamak için yalnızca geleneksel duyarlılık analizini kullanabiliyordu. Bu yorumların özgüllüğünü yükseltmek isteyen Booking.com, kısa bir süre önce, görünüşe dayalı bir duyarlılık analizi modelinin eğitimi için özel bir açıklamalı veri kümesi oluşturma konusunda yardım almak için MLSL'ye başvurdu.

Geleneksel duygu analizi, bir metni olumlu, olumsuz veya nötr olarak sınıflandırma işlemidir. tekil duygu. Bu, kullanıcıların belirli bir deneyimden memnun olup olmadıklarını geniş ölçüde anlamak için çalışır. Örneğin, geleneksel duygu analizinde aşağıdaki metin "tarafsız" olarak sınıflandırılabilir:

Otelde kalışımız güzeldi. Personel cana yakındı ve odalar temizdi ama yataklarımız oldukça rahatsızdı.

Görünüş tabanlı duyarlılık analizi, içeriğin daha incelikli bir şekilde anlaşılmasını sağlar. Booking.com söz konusu olduğunda, bir müşteri değerlendirmesini bir bütün olarak alıp kategorik olarak sınıflandırmak yerine, bir yorumun içindeki duyarlılığı alıp belirli yönlere atayabilir. Örneğin, belirli bir otelle ilgili müşteri yorumları, kusursuz havuzu ve fitness alanını övebilir, ancak restoran ve dinlenme salonu hakkında kritik geri bildirimler verebilir.

Geleneksel duygu analizi tarafından "nötr" olarak sınıflandırılacak olan ifade, boyut tabanlı duygu analizi ile şu hale gelecektir:

Otelde kalışımız güzeldi. Personel cana yakındı ve odalar temizdi ama yataklarımız oldukça rahatsızdı.

Otel: Olumlu
Personel: Olumlu
Oda: Pozitif
Yataklar: Negatif

Booking.com, konuk deneyiminin hangi belirli bölümlerinin (50'den fazla özellik içeren bir listeden) önemli olduğunu onlara söyleyecek özel bir boyuta dayalı duygu analizi modeli oluşturmaya çalıştı. pozitif, negatifya da nötr.

Booking.com'un bu model için bir eğitim veri seti oluşturmadan önce, buna açıklama eklemek için bir yola ihtiyacı vardı. MLSL'nin ek açıklama aracı, çok ihtiyaç duyulan özelleştirilmiş çözümü sağladı. İnsan incelemesi, geniş bir otel incelemeleri koleksiyonu üzerinde gerçekleştirildi. Ardından, ek açıklamalar yapanlar, uygun aralıkları birbirine bağlamadan önce, duyarlılık ve konuk deneyimi metin aralıkları ve tümcecikleri üzerinde adlandırılmış varlık ek açıklamasını tamamladı.

Yeni en boy tabanlı model, Booking.com'un hem konaklama tesislerini hem de yorumları müşterilerine göre kişiselleştirmesini sağlıyor. Her konaklama yerinin olumlu ve olumsuz yönlerini vurgulamak, müşterilerin mükemmel eşleşmelerini seçmelerini sağlar. Ayrıca, farklı müşteriler konaklamanın farklı yönlerini önemsiyor ve yeni model, her birine en alakalı değerlendirmeleri gösterme fırsatı sunuyor.

Etiketleme Gereksinimleri

Ground Truth, yerleşik bir NER metin açıklama özelliği sağlasa da, varlıkları birbirine bağlama yeteneği sağlamaz. Bunu akılda tutarak Booking.com ve MLSL, yeni bir adlandırılmış varlık tanıma metni etiketleme aracı için aşağıdaki üst düzey gereksinimleri belirledi:

Giriş olarak kabul eder: metin, varlık etiketleri, ilişki etiketleri, ve sınıflandırma etiketleri.
İsteğe bağlı olarak, önceki etiket ve ilişki ek açıklamaları ile önceden açıklamalı verileri girdi olarak kabul eder.
Açıklayıcıya açıklamasız veya önceden açıklamalı metin sunar.
Ek açıklama yapanların, bir varlık etiketiyle rastgele metni vurgulamasına ve açıklama eklemesine izin verir.
Açıklayıcıların iki varlık notu arasında ilişki oluşturmasına izin verir.
Açıklayıcıların çok sayıda varlık etiketinde kolayca gezinmesine olanak tanır.
Varlık etiketlerinin kategoriler halinde gruplandırılmasını destekler.
Çakışan ilişkilere izin verin; bu, aynı açıklamalı metin bölümünün birden fazla açıklamalı metin bölümüyle ilişkili olabileceği anlamına gelir.
Çakışan varlık etiketi ek açıklamalarına izin verir; bu, iki ek açıklamanın aynı metin parçasıyla çakışabileceği anlamına gelir. Örneğin, "Seattle Space Needle" metninde "Seattle" → "konumlar" ve "Seattle Space Needle" → "atraksiyonlar" ek açıklamaları olabilir.
Çıktı biçimi, girdi biçimiyle uyumludur ve sonraki etiketleme görevlerine geri beslenebilir.
Emoji ve diğer çok baytlı karakterleri içeren UTF-8 kodlu metni destekler.
Soldan sağa dilleri destekler.

Örnek Açıklama

Aşağıdaki belgeyi göz önünde bulundurun:

Bu otelin konumunu çok sevdik! Çatı katındaki salon bize uzay iğnesinin mükemmel görüntüsünü verdi. Ayrıca pike yeri pazarına ve sahile kısa bir sürüş mesafesindedir.
Yiyecekler yalnızca oda servisi aracılığıyla sağlanıyordu, bu biraz hayal kırıklığı yaratsa da bu pandemi sonrası dünyada mantıklı.
Genel olarak, makul fiyatlı bir deneyim.

Bu belgeyi yeni NER ek açıklamasına yüklemek, aşağıdaki arayüze sahip bir çalışanı sunar:

Açıklama eklenmemiş bir belgeyle sunulan işçi

Bu durumda işçinin görevi:

Mülkle ilgili etiket varlıkları (konum, fiyat, yiyecek vb.)
Duyarlılıkla ilgili varlıkları etiketleyin (olumlu, olumsuz veya nötr)
Konuk deneyimini doğru bir şekilde yakalamak için mülkle ilgili adlandırılmış varlıkları duyarlılıkla ilgili anahtar kelimelere bağlayın

Ek açıklamaları gerçekleştiren çalışan

Ek açıklama hızı, aracın önemli bir hususuydu. Açıklayıcılar, bir dizi sezgisel klavye kısayolu ve fare hareketi kullanarak arayüzü kullanabilir ve:

Adlandırılmış varlık ek açıklamalarını ekleyin ve kaldırın
Adlandırılmış varlıklar arasında ilişkiler ekleyin
Belgenin başına ve sonuna atla
belgeyi gönder

Ek olarak, örtüşen etiketler için destek vardır. Örneğin, Seattle Space Needle: Bu ifadede, Seattle hem kendi başına bir konum olarak hem de cazibe adının bir parçası olarak açıklamalıdır.

Tamamlanan ek açıklama, verilerin daha eksiksiz ve incelikli bir analizini sağlar:

Tamamlanmış belge

İlişkiler, varlık kategorilerinden diğer varlık kategorilerine (örneğin, "yiyecek"ten "duyguya") veya bireysel varlık türleri arasında birçok düzeyde yapılandırılabilir. İlişkiler yönlendirilir, bu nedenle yorumcular yemek gibi bir yönü bir duyguya bağlayabilir, ancak tersi mümkün değildir (açıkça etkinleştirilmedikçe). İlişkileri çizerken, açıklama aracı ilişki etiketini ve yönünü otomatik olarak çıkaracaktır.

NER Ek Açıklama Aracını Yapılandırma

Bu bölümde, müşteriye özel kullanım durumları için NER ek açıklama aracının nasıl özelleştirileceğini ele alıyoruz. Bu yapılandırmayı içerir:

Açıklama eklenecek giriş metni
Varlık etiketleri
İlişki Etiketleri
Sınıflandırma Etiketleri
Önceden açıklamalı veriler
işçi talimatları

Girdi ve çıktı belge biçimlerinin özelliklerini ele alacağız ve her biri için bazı örnekler sunacağız.

Giriş Belgesi Formatı

NER ek açıklama aracı, aşağıdaki JSON biçimli girdi belgesini bekler (adın yanında soru işareti bulunan alanlar isteğe bağlıdır).

{ text: string; tokenRows?: string[][]; documentId?: string; entityLabels?: { name: string; shortName?: string; category?: string; shortCategory?: string; color?: string; }[]; classificationLabels?: string[]; relationshipLabels?: { name: string; allowedRelationships?: { sourceEntityLabelCategories?: string[]; targetEntityLabelCategories?: string[]; sourceEntityLabels?: string[]; targetEntityLabels?: string[]; }[]; }[]; entityAnnotations?: { id: string; start: number; end: number; text: string; label: string; labelCategory?: string; }[]; relationshipAnnotations?: { sourceEntityAnnotationId: string; targetEntityAnnotationId: string; label: string; }[]; classificationAnnotations?: string[]; meta?: { instructions?: string; disableSubmitConfirmation?: boolean; multiClassification: boolean; };
}

Özetle, giriş formatı şu özelliklere sahiptir:

Ya da entityLabels or classificationLabels (veya her ikisi) açıklama eklemek için gereklidir.
If entityLabels verilir, o zaman relationshipLabels eklenebilir.
Farklı varlık/kategori etiketleri veya bunların bir karışımı arasında ilişkilere izin verilebilir.
Bir ilişkinin “kaynağı” yönlendirilen okun başladığı varlık, “hedefi” ise ilişkinin gittiği yerdir.

Alan	Tip	Açıklama
metin	dizi	Gerekli. Açıklama için metin girin.
belirteçSatırları	sicim[][]	İsteğe bağlı. Giriş metninin özel belirteci. Dize dizileri dizisi. Üst düzey dizi, metnin her satırını (satır sonları) temsil eder ve ikinci düzey dizi, her satırdaki belirteçleri temsil eder. Giriş metnindeki tüm karakterler/rünler, herhangi bir beyaz boşluk dahil olmak üzere tokenRows'ta hesaba katılmalıdır.
belge kimliği	dizi	İsteğe bağlı. Müşterilerin açıklamalı belgeyi takip etmesi için isteğe bağlı değer.
varlıkEtiketleri	nesne[]	ClassificationLabels boşsa gereklidir. Varlık etiketleri dizisi.
varlıkEtiketleri[].ad	dizi	Gerekli. Varlık etiketi görünen adı.
varlıkEtiketleri[].kategori	dizi	İsteğe bağlı. Varlık etiketi kategori adı.
varlıkEtiketleri[].shortName	dizi	İsteğe bağlı. Bu metni tam ad yerine açıklamalı varlıkların üzerinde görüntüleyin.
varlıkEtiketleri[].shortCategory	dizi	İsteğe bağlı. Bu metni, kategori adının ilk dört harfi yerine varlık açıklama seçme açılır menüsünde görüntüleyin.
varlıkEtiketleri.renk	dizi	İsteğe bağlı. “#” öneki ile onaltılık renk kodu. Boşsa, varlık etiketine otomatik olarak bir renk atayacaktır.
ilişki Etiketleri	nesne[]	İsteğe bağlı. İlişki etiketleri dizisi.
ilişkiEtiketleri[].ad	dizi	Gerekli. İlişki etiketi görünen adı.
ilişkiEtiketler[].allowedİlişkiler	nesne[]	İsteğe bağlı. Bu ilişkinin ne tür kaynak ve hedef varlık etiketlerine atanabileceğini sınırlayan değerler dizisi. Dizideki her öğe birlikte “OR'lanır”.
ilişki Etiketleri[].allowedİlişkiler[].sourceEntityLabelKategoriler	sicim[]	SourceEntityLabelCategories veya sourceEntityLabels (veya her ikisini) ayarlamak için gereklidir. Bu ilişki için yasal kaynak varlık etiketi kategori türlerinin listesi.
ilişki Etiketleri[].allowedİlişkiler[].targetEntityLabelKategoriler	sicim[]	targetEntityLabelCategories veya targetEntityLabels (veya her ikisini) ayarlamak için gereklidir. Bu ilişki için yasal hedef varlık etiket kategori türlerinin listesi.
ilişki Etiketleri[].allowedİlişkiler[].sourceEntityLabels	sicim[]	SourceEntityLabelCategories veya sourceEntityLabels (veya her ikisini) ayarlamak için gereklidir. Bu ilişki için yasal kaynak varlık etiketi türlerinin listesi.
ilişki Etiketleri[].allowedİlişkiler[].sourceEntityLabels	sicim[]	targetEntityLabelCategories veya targetEntityLabels (veya her ikisini) ayarlamak için gereklidir. Bu ilişki için yasal hedef varlık etiket türlerinin listesi.
sınıflandırmaEtiketler	sicim[]	entityLabels boşsa gereklidir. Belge düzeyi sınıflandırma etiketlerinin listesi.
varlıkAçıklamaları	nesne[]	İsteğe bağlı. Giriş metnine önceden açıklama eklemek için varlık ek açıklamaları dizisi.
varlıkAçıklamaları[].id	dizi	Gerekli. Bu varlık ek açıklaması için benzersiz tanımlayıcı. RelationsAnnotations'ta bu varlığa başvurmak için kullanılır.
varlıkAçıklamalar[].start	numara	Gerekli. Bu varlık ek açıklamasının rune ofsetini başlatın.
varlıkAçıklamalar[].end	numara	Gerekli. Bu varlık ek açıklamasının rune ofsetini sonlandırın.
varlıkAçıklamalar[].metin	dizi	Gerekli. Başlangıç ve bitiş rune ofseti arasındaki metin içeriği.
varlıkAçıklamalar[].etiket	dizi	Gerekli. İlişkili varlık etiketi adı (entityLabels'deki adlardan).
varlıkAçıklamalar[].labelKategori	dizi	İsteğe bağlı.İlişkili varlık etiketi kategorisi (entityLabels'deki kategorilerden).
ilişkiAçıklamalar	nesne[]	İsteğe bağlı. İlişki ek açıklamaları dizisi.
ilişkiAnnotations[].sourceEntityAnnotationId	dizi	Gerekli. Bu ilişki için kaynak varlık ek açıklama kimliği.
ilişkiAnnotations[].targetEntityAnnotationId	dizi	Gerekli. Bu ilişki için hedef varlık ek açıklama kimliği.
ilişkiAçıklamalar[].etiket	dizi	Gerekli. İlişkili ilişki etiketi adı.
sınıflandırmaAçıklamalar	sicim[]	İsteğe bağlı. Belgeye önceden açıklama eklemek için sınıflandırma dizisi.
meta	nesne	İsteğe bağlı. Ek yapılandırma parametreleri.
meta.talimatlar	dizi	İsteğe bağlı. Markdown biçiminde etiketleme ek açıklama aracı için talimatlar.
meta.disableSubmitOnay	boole	İsteğe bağlı. Onay gönderme modunu devre dışı bırakmak için true olarak ayarlayın.
meta.multiSınıflandırma	boole	İsteğe bağlı. ClassificationLabels için çoklu etiket modunu etkinleştirmek için true olarak ayarlayın.

Bu giriş formatını daha iyi anlamak için birkaç örnek belgeyi burada bulabilirsiniz.

Bu şemaya uyan belgeler, bir girdi bildiriminde münferit satır öğeleri olarak Ground Truth'a sağlanır.

Çıktı Belge Formatı

Çıktı formatı, yeni bir açıklama görevine kolayca geri bildirimde bulunmak için tasarlanmıştır. Çıktı belgesindeki isteğe bağlı alanlar, girdi belgesinde de ayarlanmışlarsa ayarlanır. Girdi ve çıktı formatları arasındaki tek fark, meta nesne.

{ text: string; tokenRows?: string[][]; documentId?: string; entityLabels?: { name: string; shortName?: string; category?: string; shortCategory?: string; color?: string; }[]; relationshipLabels: { name: string; allowedRelationships?: { sourceEntityLabelCategories?: string[]; targetEntityLabelCategories?: string[]; sourceEntityLabels?: string[]; targetEntityLabels?: string[]; }[]; }[]; classificationLabels?: string[]; entityAnnotations?: { id: string; start: number; end: number; text: string; labelCategory?: string; label: string; }[]; relationshipAnnotations?: { sourceEntityAnnotationId: string; targetEntityAnnotationId: string; label: string; }[]; classificationAnnotations?: string[]; meta: { instructions?: string; disableSubmitConfirmation?: boolean; multiClassification: boolean; runes: string[]; rejected: boolean; rejectedReason: string; }
}

Alan	Tip	Açıklama
meta.reddedildi	boole	Açıklayıcı bu belgeyi reddederse true olarak ayarlanır.
meta.rejectedReason	dizi	Açıklayıcının belgeyi reddetme gerekçesi.
meta.runes	sicim[]	Giriş metnindeki tüm karakterleri hesaba katan rün dizisi. Varlık ek açıklaması başlangıç ve bitiş ofsetlerini hesaplamak için kullanılır.

Açıklama eklenmiş örnek bir çıktı belgesini burada bulabilirsiniz:

Rün notu:

Bu bağlamda bir "rün", emoji gibi çok baytlı karakterler de dahil olmak üzere, metinde vurgulanabilen tek bir karakterdir.

Farklı programlama dilleri çok baytlı karakterleri farklı şekilde temsil ettiğinden, vurgulanabilir her karakteri tek bir atomik öğe olarak tanımlamak için "Rünler" kullanmak, herhangi bir metin seçimini açıklamak için net bir yolumuz olduğu anlamına gelir.
Örneğin Python, İsveç bayrağını dört karakter olarak ele alır:

Ancak JavaScript, aynı emojiyi iki karakter olarak ele alır

Herhangi bir belirsizliği ortadan kaldırmak için İsveç bayrağını (ve diğer tüm emojileri ve çok baytlı karakterleri) tek bir atomik öğe olarak ele alacağız.

Ofset: Giriş Metnine göre rün konumu (dizin 0 ile başlayarak)

Ground Truth ile NER Notlarını Gerçekleştirme

Tamamen yönetilen bir veri etiketleme hizmeti olan Ground Truth, makine öğrenimi için eğitim veri kümeleri oluşturur. Bu kullanım durumu için, ek açıklama için bir çalışan havuzuna bir metin belgeleri koleksiyonu göndermek için Ground Truth'u kullanıyoruz. Son olarak, kalite için gözden geçiriyoruz.

Ground Truth, yeni NER aracını özel bir şablon olarak kullanarak bir veri etiketleme işi oluşturmak üzere yapılandırılabilir.

Spesifik olarak şunları yapacağız:

Ek açıklama görevini gerçekleştirmek için çalışanlardan oluşan bir özel etiketleme iş gücü oluşturun
Açıklama eklemek istediğimiz belgelerle bir Temel Gerçeği girdi bildirimi oluşturun ve ardından bunu şuraya yükleyin: Amazon Basit Depolama Hizmeti (Amazon S3)
Ön etiketleme görevi ve etiketleme sonrası görev oluşturma Lambda işlevleri
Özel NER şablonunu kullanarak bir Ground Truth etiketleme işi oluşturun
Belgelere açıklama ekleyin
Sonuçları gözden geçir

NER Aracı Kaynakları

Başvurulan kaynakların ve örnek belgelerin tam listesi aşağıdaki tabloda bulunabilir:

Etiketleme İşgücü Yaratımı

Ground Truth, çalışanları yönetmek ve görevleri dağıtmak için SageMaker etiketleme iş gücünü kullanır. Özel bir iş gücü, ner-worker-team adlı bir işçi ekibi oluşturun ve içinde bulunan talimatları kullanarak kendinizi ekibe atayın. Özel İş Gücü Oluşturun (Amazon SageMaker Konsolu).

Kendinizi özel bir işgücüne ekledikten ve e-postanızı onayladıktan sonra, AWS Management Console'daki çalışan portalı URL'sini not edin:

Şu yöne rotayı ayarla SageMaker
Şu yöne rotayı ayarla Ground Truth → Labeling workforces
seçmek Private çıkıntı
URL'yi not edin Labeling portal sign-in URL

Etiketleme görevlerini görüntülemek ve üzerinde çalışmaya başlamak için çalışan portalında oturum açın.

Girdi Bildirimi

Ground Truth giriş verileri bildirimi, her satırın tek bir çalışan görevi içerdiği bir JSON satırları dosyasıdır. Bizim durumumuzda, her satır, açıklama eklemek istediğimiz metni ve NER açıklama şemasını içeren tek bir JSON kodlu Giriş Belgesi içerecektir.

Örnek bir giriş bildirimi indirin reviews.manifest itibaren https://assets.solutions-lab.ml/NER/0.2.1/sample-data/reviews.manifest

not: giriş bildirimindeki her satırın bir üst düzey anahtara ihtiyacı vardır source or source-ref. Daha fazla bilgi edinebilirsiniz Bir Giriş Bildirimi Dosyası Kullanın Amazon SageMaker Geliştirici Kılavuzu'nda.

Girdi Manifest'ini Amazon S3'e yükleyin

AWS Management Console'u kullanarak veya komut satırından bu girdi bildirimini bir S3 klasörüne yükleyin, böylece değiştirin your-bucket gerçek bir grup adıyla.

aws s3 cp reviews.manifest s3://your-bucket/ner-input/reviews.manifest

Özel çalışan şablonunu indirin

NER aracı özel çalışan şablonunu şu adresten indirin: https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html kaynağı görüntüleyerek ve içeriği yerel olarak veya komut satırından kaydederek:

wget https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html

Ön etiketleme görevi ve etiketleme sonrası görev oluşturma Lambda işlevleri

Örnek ön etiketleme görevini indirin Lambda işlevi: smgt-ner-pre-labeling-task-lambda.py itibaren https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-pre-labeling-task-lambda.py

Örnek ön etiketleme görevini indirin Lambda işlevi: smgt-ner-post-labeling-task-lambda.py itibaren https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-post-labeling-task-lambda.py

AWS Management Console'dan ön etiketleme görevi Lambda işlevi oluşturun:
- Şu yöne rotayı ayarla Lambda
- seç Create function
- Belirtmek Function name as smgt-ner-pre-labeling-task-lambda
- seç Runtime → Python 3.6
- seç Create function
- In Function code → lambda_hanadler.py, içeriğini yapıştırın smgt-ner-pre-labeling-task-lambda.py
- seç Deploy
AWS Management Console'dan etiketleme sonrası görev Lambda işlevi oluşturun:
- Şu yöne rotayı ayarla Lambda
- seç Create function
- Belirtmek Function name as smgt-ner-post-labeling-task-lambda
- seç Runtime → Python 3.6
- Genişletmek Change default execution role
- seç Create a new role from AWS policy templates
- Girin Role name: smgt-ner-post-labeling-task-lambda-role
- seç Create function
- seçmek Permissions çıkıntı
- seçmek Role name: smgt-ner-post-labeling-task-lambda-role IAM konsolunu açmak için
- Role iki politika ekleyin
  - seç Attach policies
  - Takın AmazonS3FullAccess politika
  - seç Add inline policy
  - seçmek JSON çıkıntı
  - Aşağıdaki satır içi politikasını yapıştırın:
```
{ "Version": "2012-10-17", "Statement": { "Effect": "Allow", "Action": "sts:AssumeRole", "Resource": "arn:aws:iam::YOUR_ACCOUNT_NUMBER:role/service-role/AmazonSageMaker-ExecutionRole-*" }
}
```
- Geri gidin smgt-ner-post-labeling-task-lambda Lambda işlevi yapılandırma sayfası
- seçmek Configuration çıkıntı
- In Function code → benambda_hanadler.py, içeriğini yapıştırın smgt-ner-post-labeling-task-lambda.py
- seç Deploy

Bir Temel Gerçeği etiketleme işi oluşturun

AWS Yönetim Konsolundan:

gidin Amazon SageMaker hizmet
Şu yöne rotayı ayarla Ground Truth → Labeling Jobs.
seç Create labeling job
Bir Job Name
seç Manual Data Setup
Giriş bildirimini daha önce yüklediğiniz Giriş veri kümesi konumunu belirtin (örn.3://your-bucket/ner-input/sample-smgt-input-manifest.jsonl)
Aynı gruptaki farklı bir klasörü işaret etmek için Çıktı veri kümesi konumunu belirtin (örn. s3://your-bucket/ner-output/)
Bir belirtin IAM Role seçerek Create new role
- Seçerek bu rolün herhangi bir S3 klasörüne erişmesine izin verin S3 buckets you specify → Any S3 bucket politika oluşturulurken
- Yeni bir AWS Yönetim Konsolu penceresinde, IAM konsol ve seçin Roles
- Az önce oluşturduğunuz rolün adını arayın (örneğin, AmazonSageMaker-ExecutionRole-20210301T154158)
- Rolü konsolda açmak için rol adını seçin
- Aşağıdaki üç politikayı ekleyin:
  - İlkeleri ekle'yi seçin
  - Takın AWSLambda_FullAccess role
  - seç Trust Relationships → Edit Trust Relationships
  - JSON güven ilişkisini düzenleyin,
  - değiştirmek YOUR_ACCOUNT_NUMBER okumak için sayısal AWS Hesap numaranızla:
```
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "sagemaker.amazonaws.com" }, "Action": "sts:AssumeRole" }, { "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::YOUR_ACCOUNT_NUMBER:role/service-role/smgt-ner-post-labeling-task-lambda-role" }, "Action": "sts:AssumeRole" } ]
}
```
  - Güven ilişkisini kaydet
Önceki AWS Management Console penceresindeki yeni Ground Truth işine geri dönün: altında Task Categoryseçin Custom
seç Next
seç Worker types: Private
seçmek Private team : ner-worker-team önceki bölümde oluşturulan
içinde Custom labeling task setup metin alanında, varsayılan içeriği temizleyin ve içeriğin içine yapıştırın. worker-template.liquid.html daha önce alınan dosya
belirtmek Pre-labeling task Lambda function önceden oluşturulmuş işlevle: smgt-ner-pre-labeling
belirtmek Post-labeling task Lambda function daha önce oluşturulan işlevle: smgt-ner-post-labeling
seç Create

Belgelere açıklama ekleyin

Temel Gerçeği işi oluşturulduğunda, belgelere açıklama eklemeye başlayabiliriz. Daha önce oluşturulan iş gücümüz için çalışan portalını açın (AWS Management Console'da şuraya gidin: SageMaker , Ground Truth → Labeling workforces, Privateve açın Labeling portal sign-in URL )

Oturum açın ve tablodaki ilk etiketleme görevini seçin ve ardından ek açıklamayı açmak için "Çalışmaya başla"yı seçin. Ek açıklamalarınızı yapın ve örnek belgelerin üçünde de gönder'i seçin.

Sonuçları gözden geçir

Yer Gerçeği anlatıcıları görevleri tamamladıkça, sonuçlar S3 çıkışı klasöründe mevcut olacaktır:

s3://your-bucket/path-to-your-ner-job/annotations/worker-response/iteration-1/0/

Bir etiketleme işi için tüm görevler tamamlandıktan sonra, birleştirilmiş çıktı output.manifest burada bulunan dosya:

s3://your-bucket/path-to-your-ner-job/manifests/output/output.manifest

Bu çıktı bildirimi, daha önce belirtilen "Çıktı Belgesi Formatında" her satıra açıklamalı bir metin belgesi içeren bir JSON-satır dosyasıdır. Bu dosya "Giriş Belgesi Formatı" ile uyumludur ve başka bir ek açıklama turu için doğrudan sonraki bir Ground Truth işine beslenebilir. Alternatif olarak, ayrıştırılabilir ve bir makine öğrenimi eğitim işine gönderilebilir. Ek açıklamaların ikinci turunu kullanabileceğimiz bazı senaryolar şunlardır:

Ek açıklama sürecini, ilk açıklayıcının varlık ek açıklamalarını tanımladığı ve ikinci açıklayıcının ilişkileri çizdiği iki adıma ayırma
bizden bir örnek alarak output.manifest ve kalite kontrol kontrolü olarak incelenmek üzere ikinci, daha deneyimli bir açıklayıcıya göndermek

Özel Yer Gerçeği Açıklama Şablonları

Bu belgede açıklanan NER ek açıklama aracı, özel bir Ground Truth ek açıklama şablonu olarak uygulanmıştır. AWS müşterileri, burada bulunan talimatları kullanarak kendi özel ek açıklama arabirimlerini oluşturabilir:

Sonuç

Booking.com ve Amazon MLSL birlikte çalışarak, karmaşık adlandırılmış varlık tanıma ve ilişki ek açıklamaları oluşturabilen güçlü bir metin açıklama aracı geliştirmeyi başardı.

Bir NER metin ek açıklaması kullanım senaryosuna sahip AWS müşterilerini bu yayında açıklanan aracı denemeye teşvik ediyoruz. Ürün ve hizmetlerinizde makine öğrenimi kullanımını hızlandırmak için yardıma ihtiyacınız varsa, lütfen Amazon Makine Öğrenimi Çözümleri Laboratuvarı.

Yazarlar Hakkında

Dan Noble Amazon'da keyifli kullanıcı deneyimleri oluşturmaya yardımcı olduğu bir Yazılım Geliştirme Mühendisidir. Boş zamanlarında kitap okumaktan, spor yapmaktan ve ailesiyle maceralar yaşamaktan hoşlanır.

Özel Amazon ML Çözümleri Laboratuvarı'nda çeşitli sektörlerde müşterilerle birlikte çalıştığı ve buluta geçiş yolculuklarını hızlandırmalarına ve en son teknoloji ürünü çözümler ve teknolojileri kullanarak ML sorunlarını çözmelerine yardımcı olduğu bir Derin Öğrenme Mimarıdır.

Niharika Jayanthi Amazon SageMaker müşterileri için özel ek açıklama çözümleri geliştirdiği AWS'de Ön Uç Mühendisidir. İş dışında müzelere gitmeyi ve spor yapmayı seviyor.

Amit Beka şirketinde Makine Öğrenimi Yöneticisi Booking.com, yazılım geliştirme ve makine öğreniminde 15 yılı aşkın deneyime sahip. İnsanlardan ve dillerden büyüleniyor ve bilgisayarların her ikisinden de nasıl hala şaşkın olduğunu.

Kaynak: https://aws.amazon.com/blogs/machine-learning/labeling-text-for-aspect-based-sentiment-analysis-using-sagemaker-ground-truth/

Zaman Damgası: Ocak 14, 2022

Den fazla AWS Makine Öğrenimi Blogu

Özel SageMaker Proje Şablonları Oluşturun – En İyi Uygulamalar

Kaynak Küme:

AWS Makine Öğrenimi Blogu

Kaynak Düğüm: 1289369

Zaman Damgası: Ekim 27, 2021

Amazon Rekognition Özel Etiketler SDK'sını kullanarak bozuk elektrik direklerinin tespitini otomatikleştirin

Kaynak Küme:

Kaynak Küme:

AWS Makine Öğrenimi Blogu

Kaynak Düğüm: 1575229

Zaman Damgası: Aralık 23, 2021

SageMaker Temel Gerçeği kullanarak en-boy tabanlı duygu analizi için etiket metni

Plato tarafından yeniden yayınlandı

Müşteri Kullanım Örneği: Booking.com

Etiketleme Gereksinimleri

Örnek Açıklama

NER Ek Açıklama Aracını Yapılandırma

Giriş Belgesi Formatı

Çıktı Belge Formatı

Rün notu:

Ground Truth ile NER Notlarını Gerçekleştirme

NER Aracı Kaynakları

Etiketleme İşgücü Yaratımı

Girdi Bildirimi

Girdi Manifest'ini Amazon S3'e yükleyin

Özel çalışan şablonunu indirin

Ön etiketleme görevi ve etiketleme sonrası görev oluşturma Lambda işlevleri

Bir Temel Gerçeği etiketleme işi oluşturun

Belgelere açıklama ekleyin

Sonuçları gözden geçir

Özel Yer Gerçeği Açıklama Şablonları

Sonuç

Yazarlar Hakkında

Den fazla AWS Makine Öğrenimi Blogu

Özel SageMaker Proje Şablonları Oluşturun – En İyi Uygulamalar

Amazon Rekognition Özel Etiketler SDK'sını kullanarak bozuk elektrik direklerinin tespitini otomatikleştirin

Amazon SageMaker Data Wrangler ve Amazon SageMaker Autopilot kullanarak makine öğrenimi modelleri geliştirin ve dağıtın

Amazon Rekognition Özel Etiketleri kullanarak resimlerinizdeki küçük şekilleri ve nesneleri tespit edin

Amazon SageMaker Model Monitor ile etkileyici bir kayıt filtreleme yöntemi tasarlayın

Amazon SageMaker Ground Truth ve AWS Step Functions ile çok modlu, paralel veri etiketleme iş akışlarını otomatikleştirin

Amazon Athena, Amazon Translate ve Amazon Comprehend ile SQL işlevlerini kullanarak metni çevirin ve analiz edin

Amazon Lookout for Metrics ve Amazon Kinesis Data Analytics Studio kullanarak akıllı şehir trafiği anormalliği algılama

Amazon SageMaker Processing'de derin öğrenme çerçevelerini yerel olarak kullanın

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap