Lab Solusi Pembelajaran Mesin Amazon (MLSL) baru-baru ini membuat alat untuk menganotasi teks dengan pengenalan entitas bernama (NER) dan label hubungan menggunakan Kebenaran Dasar Amazon SageMaker. Anotator menggunakan alat ini untuk memberi label teks dengan entitas bernama dan menautkan hubungan mereka, sehingga membangun kumpulan data untuk melatih model pembelajaran mesin (ML) pemrosesan bahasa alami (NLP) yang canggih. Yang terpenting, ini sekarang tersedia untuk umum bagi semua pelanggan AWS.
Kasus Penggunaan Pelanggan: Booking.com
Booking.com adalah salah satu platform perjalanan online terkemuka di dunia. Memahami apa yang dikatakan pelanggan tentang 28 juta lebih daftar properti perusahaan di platform sangat penting untuk mempertahankan pengalaman pelanggan terbaik. Sebelumnya, Booking.com hanya dapat menggunakan analisis sentimen tradisional untuk menginterpretasikan ulasan yang dihasilkan pelanggan dalam skala besar. Ingin meningkatkan spesifisitas interpretasi ini, Booking.com baru-baru ini beralih ke MLSL untuk mendapatkan bantuan dalam membangun kumpulan data beranotasi khusus untuk melatih model analisis sentimen berbasis aspek.
Analisis sentimen tradisional adalah proses mengklasifikasikan sepotong teks sebagai positif, negatif, atau netral sebagai a sentimen tunggal. Ini berfungsi untuk memahami secara luas apakah pengguna puas atau tidak puas dengan pengalaman tertentu. Misalnya, dengan analisis sentimen tradisional, teks berikut dapat diklasifikasikan sebagai "netral":
Kami tinggal di hotel itu bagus. Staf ramah dan kamar bersih, tetapi tempat tidur kami sangat tidak nyaman.
Analisis sentimen berbasis aspek menawarkan pemahaman konten yang lebih bernuansa. Dalam kasus Booking.com, daripada mengambil ulasan pelanggan secara keseluruhan dan mengklasifikasikannya secara kategoris, ia dapat mengambil sentimen dari dalam ulasan dan menetapkannya ke aspek tertentu. Misalnya, ulasan pelanggan tentang hotel tertentu mungkin memuji kolam renang dan area kebugaran yang rapi, tetapi memberikan umpan balik kritis tentang restoran dan lounge.
Pernyataan yang seharusnya diklasifikasikan sebagai "netral" oleh analisis sentimen tradisional, dengan analisis sentimen berbasis aspek, akan menjadi:
Kami tinggal di hotel itu bagus. Staf ramah dan kamar bersih, tetapi tempat tidur kami sangat tidak nyaman.
- Hotel: Positif
- Staf: Positif
- Kamar: Positif
- Tempat tidur: Negatif
Booking.com berupaya membangun model analisis sentimen berbasis aspek kustom yang akan memberi tahu mereka bagian mana dari pengalaman tamu (dari daftar 50+ aspek) yang positif, negatif, atau netral.
Sebelum Booking.com dapat membuat kumpulan data pelatihan untuk model ini, mereka memerlukan cara untuk menganotasinya. Alat anotasi MLSL menyediakan solusi khusus yang sangat dibutuhkan. Ulasan manusia dilakukan pada banyak koleksi ulasan hotel. Kemudian, anotator menyelesaikan anotasi entitas bernama pada rentang dan frasa teks sentimen dan pengalaman tamu sebelum menautkan rentang yang sesuai bersama-sama.
Model baru berbasis aspek memungkinkan Booking.com mempersonalisasi akomodasi dan ulasan untuk pelanggannya. Menyoroti aspek positif dan negatif dari setiap akomodasi memungkinkan pelanggan untuk memilih pasangan yang sempurna. Selain itu, pelanggan yang berbeda peduli dengan aspek akomodasi yang berbeda, dan model baru membuka peluang untuk menampilkan ulasan yang paling relevan untuk masing-masing.
Persyaratan Pelabelan
Meskipun Ground Truth menyediakan kemampuan anotasi teks NER bawaan, ini tidak menyediakan kemampuan untuk menautkan entitas secara bersamaan. Dengan mengingat hal ini, Booking.com dan MLSL menyusun persyaratan tingkat tinggi berikut untuk alat pelabelan teks pengenalan entitas baru yang:
- Menerima sebagai masukan: teks, label entitas, label hubungan, dan label klasifikasi.
- Secara opsional menerima sebagai masukan data yang telah dianotasi sebelumnya dengan label sebelumnya dan anotasi hubungan.
- Menyajikan anotator dengan teks tanpa anotasi atau pra-anotasi.
- Mengizinkan anotator menyorot dan membubuhi keterangan teks arbitrer dengan label entitas.
- Mengizinkan anotator membuat hubungan antara dua anotasi entitas.
- Mengizinkan anotator menavigasi sejumlah besar label entitas dengan mudah.
- Mendukung pengelompokan label entitas ke dalam kategori.
- Izinkan hubungan yang tumpang tindih, yang berarti bahwa segmen teks beranotasi yang sama dapat dikaitkan dengan lebih dari satu segmen teks beranotasi lainnya.
- Mengizinkan anotasi label entitas yang tumpang tindih, yang berarti bahwa dua anotasi dapat tumpang tindih dengan bagian teks yang sama. Misalnya, teks "Seattle Space Needle" dapat memiliki anotasi "Seattle" โ "locations", dan "Seattle Space Needle" โ "atraksi".
- Format keluaran kompatibel dengan format masukan, dan dapat dimasukkan kembali ke tugas pelabelan berikutnya.
- Mendukung teks yang disandikan UTF-8 yang berisi emoji dan karakter multi-byte lainnya.
- Mendukung bahasa kiri-ke-kanan.
Contoh Anotasi
Pertimbangkan dokumen berikut:
Kami menyukai lokasi hotel ini! Lounge atap memberi kami pemandangan jarum ruang yang sempurna. Hal ini juga sebuah perjalanan singkat dari pasar pike place dan tepi laut.
Makanan hanya tersedia melalui layanan kamar, yang sedikit mengecewakan tetapi masuk akal di dunia pasca-pandemi ini.
Secara keseluruhan, pengalaman yang masuk akal.
Memuat dokumen ini ke dalam anotasi NER yang baru menyajikan pekerja dengan antarmuka berikut:
Dalam hal ini, tugas pekerja adalah:
- Entitas label yang terkait dengan properti (lokasi, harga, makanan, dll.)
- Entitas label yang terkait dengan sentimen (positif, negatif, atau netral)
- Tautkan entitas bernama terkait properti ke kata kunci terkait sentimen untuk menangkap pengalaman tamu secara akurat
Kecepatan anotasi merupakan pertimbangan penting dari alat ini. Menggunakan urutan pintasan keyboard dan gerakan mouse yang intuitif, anotator dapat mengarahkan antarmuka dan:
- Tambah dan hapus anotasi entitas bernama
- Tambahkan hubungan antara entitas bernama
- Lompat ke awal dan akhir dokumen
- Kirim dokumen
Selain itu, ada dukungan untuk label yang tumpang tindih. Misalnya, Seattle Space Needle
: dalam frasa ini, Seattle
dijelaskan baik sebagai lokasi itu sendiri maupun sebagai bagian dari nama objek wisata.
Anotasi lengkap memberikan analisis data yang lebih lengkap dan bernuansa:
Relasi dapat dikonfigurasi dalam banyak tingkatan, dari kategori entitas ke kategori entitas lainnya (misalnya, dari โmakananโ hingga โsentimenโ), atau di antara tipe entitas individual. Hubungan diarahkan, sehingga anotator dapat menautkan aspek seperti makanan ke sentimen, tetapi tidak sebaliknya (kecuali jika diaktifkan secara eksplisit). Saat menggambar hubungan, alat anotasi akan menyimpulkan label dan arah hubungan secara otomatis.
Mengonfigurasi Alat Anotasi NER
Di bagian ini, kami membahas cara menyesuaikan alat anotasi NER untuk kasus penggunaan khusus pelanggan. Ini termasuk mengonfigurasi:
- Teks masukan untuk dianotasi
- Label entitas
- Label Hubungan
- Label Klasifikasi
- Data pra-anotasi
- Instruksi pekerja
Kami akan membahas secara spesifik format dokumen input dan output, serta memberikan beberapa contoh masing-masing.
Format Dokumen Masukan
Alat anotasi NER mengharapkan dokumen masukan berformat JSON berikut (Kolom dengan tanda tanya di samping nama bersifat opsional).
Singkatnya, format input memiliki karakteristik sebagai berikut:
- Salah satu
entityLabels
orclassificationLabels
(atau keduanya) diperlukan untuk membubuhi keterangan. - If
entityLabels
diberikan, makarelationshipLabels
bisa ditambahkan. - Hubungan dapat diizinkan antara label entitas/kategori yang berbeda atau campurannya.
- "Sumber" dari suatu hubungan adalah entitas yang dimulai dengan panah yang diarahkan, sedangkan "target" adalah tujuan yang dituju.
Bidang | Tipe | Deskripsi Produk |
teks | tali | Diperlukan. Masukkan teks untuk anotasi. |
tokenBaris | rangkaian[][] | Opsional. Tokenisasi khusus dari teks masukan. Array dari array string. Larik tingkat atas mewakili setiap baris teks (jeda baris), dan larik tingkat kedua mewakili token pada setiap baris. Semua karakter/rune dalam teks input harus diperhitungkan dalam tokenRows, termasuk spasi apa pun. |
dokumenId | tali | Opsional. Nilai opsional bagi pelanggan untuk melacak dokumen yang dianotasi. |
entitasLabel | obyek[] | Wajib diisi jika labelklasifikasi kosong. Susunan label entitas. |
entitasLabel[].nama | tali | Diperlukan. Nama tampilan label entitas. |
entitasLabel[].kategori | tali | Opsional. Nama kategori label entitas. |
entitasLabel[].shortName | tali | Opsional. Tampilkan teks ini di atas entitas beranotasi, bukan nama lengkap. |
entitasLabel[].shortCategory | tali | Opsional. Tampilkan teks ini dalam tarik-turun pilihan anotasi entitas alih-alih empat huruf pertama dari nama kategori. |
entitasLabels.color | tali | Opsional. Kode warna hex dengan awalan โ#โ. Jika kosong, maka secara otomatis akan memberikan warna pada label entitas. |
label hubungan | obyek[] | Opsional. Susunan label hubungan. |
relationshipLabel[].nama | tali | Diperlukan. Nama tampilan label relasi. |
hubunganLabels[].diizinkanHubungan | obyek[] | Opsional. Larik nilai yang membatasi jenis label entitas sumber dan tujuan yang dapat ditetapkan untuk hubungan ini. Setiap item dalam larik "OR'ed" bersama-sama. |
RelationshipLabels[].allowedRelationships[].sourceEntityLabelCategories | rangkaian[] | Diperlukan untuk menyetel sourceEntityLabelCategories atau sourceEntityLabels (atau keduanya). Daftar jenis kategori label entitas sumber hukum untuk hubungan ini. |
RelationshipLabels[].allowedRelationships[].targetEntityLabelCategories | rangkaian[] | Diperlukan untuk menyetel targetEntityLabelCategories atau targetEntityLabels (atau keduanya). Daftar jenis kategori label entitas target hukum untuk relasi ini. |
RelationshipLabels[].allowedRelationships[].sourceEntityLabels | rangkaian[] | Diperlukan untuk menyetel sourceEntityLabelCategories atau sourceEntityLabels (atau keduanya). Daftar jenis label entitas sumber hukum untuk relasi ini. |
RelationshipLabels[].allowedRelationships[].sourceEntityLabels | rangkaian[] | Diperlukan untuk menyetel targetEntityLabelCategories atau targetEntityLabels (atau keduanya). Daftar jenis label entitas target hukum untuk hubungan ini. |
klasifikasiLabel | rangkaian[] | Wajib jika entitasLabels kosong. Daftar label klasifikasi tingkat dokumen. |
entitasAnnotasi | obyek[] | Opsional. Larik anotasi entitas untuk pra-anotasi masukan teks dengan. |
entitasAnnotasi[].id | tali | Diperlukan. Pengidentifikasi unik untuk anotasi entitas ini. Digunakan untuk mereferensikan entitas ini di relationshipAnnotations. |
entitasAnnotations[].mulai | jumlah | Diperlukan. Mulai offset rune dari anotasi entitas ini. |
entitasAnnotasi[].end | jumlah | Diperlukan. Offset rune akhir dari anotasi entitas ini. |
entitasAnnotasi[].teks | tali | Diperlukan. Konten teks antara offset rune awal dan akhir. |
entitasAnnotasi[].label | tali | Diperlukan. Nama label entitas terkait (dari nama di entitasLabel). |
entitasAnnotations[].labelCategory | tali | Opsional.Kategori label entitas terkait (dari kategori di entitasLabel). |
hubunganAnotasi | obyek[] | Opsional. Array anotasi hubungan. |
hubunganAnnotasi[].sourceEntityAnnotationId | tali | Diperlukan. ID anotasi entitas sumber untuk hubungan ini. |
hubunganAnnotasi[].targetEntityAnnotationId | tali | Diperlukan. ID anotasi entitas target untuk relasi ini. |
hubunganAnotasi[].label | tali | Diperlukan. Nama label hubungan terkait. |
Anotasi klasifikasi | rangkaian[] | Opsional. Susunan klasifikasi untuk membuat anotasi awal pada dokumen. |
meta | obyek | Opsional. Parameter konfigurasi tambahan. |
meta.instruksi | tali | Opsional. Petunjuk untuk anotator pelabelan dalam format Markdown. |
meta.disableSubmitConfirmation | boolean | Opsional. Setel ke true untuk menonaktifkan modal konfirmasi pengiriman. |
meta.multiKlasifikasi | boolean | Opsional. Setel ke true untuk mengaktifkan mode multi-label untuk label klasifikasi. |
Berikut beberapa contoh dokumen untuk lebih memahami format input ini
Dokumen yang mengikuti skema ini disediakan untuk Ground Truth sebagai item baris individual dalam manifes masukan.
Format Dokumen Keluaran
Format keluaran dirancang untuk memberi umpan balik dengan mudah ke dalam tugas anotasi baru. Bidang opsional dalam dokumen keluaran diatur jika juga diatur dalam dokumen masukan. Satu-satunya perbedaan antara format input dan output adalah meta
obyek.
Bidang | Tipe | Deskripsi Produk |
meta.ditolak | boolean | Diset ke true jika annotator menolak dokumen ini. |
meta.rejectedAlasan | tali | Alasan Annotator diberikan untuk menolak dokumen tersebut. |
meta.runes | rangkaian[] | Susunan rune yang menghitung semua karakter dalam teks masukan. Digunakan untuk menghitung offset awal dan akhir anotasi entitas. |
Berikut adalah contoh dokumen keluaran yang telah dianotasi:
Catatan rune:
Sebuah "rune" dalam konteks ini adalah satu karakter yang dapat disorot dalam teks, termasuk karakter multi-byte seperti emoji.
- Karena bahasa pemrograman yang berbeda mewakili karakter multi-byte secara berbeda, menggunakan "Rune" untuk mendefinisikan setiap karakter yang dapat disorot sebagai elemen atom tunggal berarti bahwa kami memiliki cara yang tidak ambigu untuk mendeskripsikan setiap pemilihan teks yang diberikan.
- Misalnya, Python memperlakukan bendera Swedia sebagai empat karakter:
Tapi JavaScript memperlakukan emoji yang sama sebagai dua karakter
Untuk menghilangkan ambiguitas, kami akan memperlakukan bendera Swedia (dan semua karakter emoji dan multi-byte lainnya) sebagai elemen atom tunggal.
- Offset: Posisi rune relatif terhadap Teks Input (dimulai dengan indeks 0)
Melakukan Anotasi NER dengan Kebenaran Dasar
Sebagai layanan pelabelan data yang terkelola sepenuhnya, Ground Truth membuat kumpulan data pelatihan untuk ML. Untuk kasus penggunaan ini, kami menggunakan Ground Truth untuk mengirim kumpulan dokumen teks ke kumpulan pekerja untuk anotasi. Akhirnya, kami meninjau untuk kualitas.
Ground Truth dapat dikonfigurasi untuk membangun pekerjaan pelabelan data menggunakan alat NER baru sebagai template kustom.
Secara khusus, kami akan:
- Buat tenaga kerja pelabelan pribadi pekerja untuk melakukan tugas anotasi
- Buat manifes masukan Ground Truth dengan dokumen yang ingin kami beri anotasi, lalu unggah Layanan Penyimpanan Sederhana Amazon (Amazon S3)
- Buat tugas pra-pelabelan dan tugas pasca-pelabelan fungsi Lambda
- Buat pekerjaan pelabelan Ground Truth menggunakan template NER kustom
- Anotasi dokumen
- Tinjau hasil
Sumber Daya Alat NER
Daftar lengkap sumber referensi dan contoh dokumen dapat dilihat pada bagan berikut:
Pelabelan Penciptaan Tenaga Kerja
Ground Truth menggunakan tenaga kerja pelabelan SageMaker untuk mengelola pekerja dan mendistribusikan tugas. Buat tenaga kerja pribadi, tim pekerja yang disebut ner-worker-team, dan tetapkan diri Anda ke tim menggunakan instruksi yang ada di Buat Tenaga Kerja Pribadi (Konsol Amazon SageMaker).
Setelah Anda menambahkan diri Anda sendiri ke tenaga kerja swasta dan mengonfirmasi email Anda, catat URL portal pekerja dari AWS Management Console:
- Navigasi ke
SageMaker
- Navigasi ke
Ground Truth โ Labeling workforces
- Pilih
Private
tab - Perhatikan URL-nya
Labeling portal sign-in URL
Masuk ke portal pekerja untuk melihat dan mulai mengerjakan tugas pelabelan.
Manifes Masukan
Manifes data input Ground Truth adalah file JSON-lines di mana setiap baris berisi satu tugas pekerja. Dalam kasus kita, setiap baris akan berisi satu Dokumen Input yang disandikan JSON yang berisi teks yang ingin kita beri anotasi dan skema anotasi NER.
Download contoh manifes masukan reviews.manifest
dari https://assets.solutions-lab.ml/NER/0.2.1/sample-data/reviews.manifest
Note: setiap baris dalam manifes masukan memerlukan kunci tingkat atas source
or source-ref
. Anda dapat mempelajari lebih lanjut di Gunakan File Manifes Masukan di Panduan Pengembang Amazon SageMaker.
Unggah Manifes Input ke Amazon S3
Unggah manifes input ini ke bucket S3 menggunakan AWS Management Console atau dari baris perintah, sehingga menggantikan your-bucket
dengan nama keranjang yang sebenarnya.
Unduh template pekerja kustom
Unduh template pekerja kustom alat NER dari https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html dengan melihat sumber dan menyimpan konten secara lokal, atau dari baris perintah:
Buat tugas pra-pelabelan dan tugas pasca-pelabelan fungsi Lambda
Unduh contoh tugas pra-pelabelan fungsi Lambda: smgt-ner-pre-labeling-task-lambda.py
dari https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-pre-labeling-task-lambda.py
Unduh contoh tugas pra-pelabelan fungsi Lambda: smgt-ner-post-labeling-task-lambda.py
dari https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-post-labeling-task-lambda.py
- Buat fungsi Lambda tugas pra-pelabelan dari AWS Management Console:
- Navigasi ke
Lambda
- Pilih
Create function
- Menentukan
Function name
assmgt-ner-pre-labeling-task-lambda
- Pilih
Runtime
โPython 3.6
- Pilih
Create function
- In
Function code
โlambda_hanadler.py
, rekatkan isinyasmgt-ner-pre-labeling-task-lambda.py
- Pilih
Deploy
- Navigasi ke
- Buat fungsi Lambda tugas pasca-pelabelan dari AWS Management Console:
- Navigasi ke
Lambda
- Pilih
Create function
- Menentukan
Function name
assmgt-ner-post-labeling-task-lambda
- Pilih
Runtime
โPython 3.6
- Lihat lebih lanjut
Change default execution role
- Pilih
Create a new role from AWS policy templates
- Masukkan
Role name
:smgt-ner-post-labeling-task-lambda-role
- Pilih
Create function
- Pilih
Permissions
tab - Pilih
Role name
:smgt-ner-post-labeling-task-lambda-role
untuk membuka konsol IAM - Tambahkan dua kebijakan ke peran tersebut
- Pilih
Attach policies
- Lampirkan
AmazonS3FullAccess
kebijaksanaan - Pilih
Add inline policy
- Pilih
JSON
tab - Tempel di kebijakan sebaris berikut:
- Pilih
- Navigasi kembali ke
smgt-ner-post-labeling-task-lambda
Halaman konfigurasi fungsi Lambda - Pilih
Configuration
tab - In
Function code
โ akuambda_hanadler.py
, rekatkan isinyasmgt-ner-post-labeling-task-lambda.py
- Pilih
Deploy
- Navigasi ke
Buat pekerjaan pelabelan Ground Truth
Dari AWS Management Console:
- Arahkan ke folder
Amazon SageMaker
layanan - Navigasi ke
Ground Truth
โLabeling Jobs
. - Pilih
Create labeling job
- Tentukan
Job Name
- Pilih
Manual Data Setup
- Tentukan lokasi Input dataset tempat Anda mengunggah manifes input sebelumnya (misalnya, s
3://your-bucket/ner-input/sample-smgt-input-manifest.jsonl
) - Tentukan lokasi kumpulan data Keluaran untuk menunjuk ke folder berbeda dalam keranjang yang sama (misalnya,
s3://your-bucket/ner-output/
) - Tentukan
IAM Role
dengan memilihCreate new role
- Izinkan peran ini untuk mengakses semua bucket S3 dengan memilih
S3 buckets you specify
โAny S3 bucket
saat membuat kebijakan - Di jendela AWS Management Console baru, buka
IAM
konsol dan pilihRoles
- Cari nama peran yang baru saja Anda buat (misalnya,
AmazonSageMaker-ExecutionRole-20210301T154158
) - Pilih nama peran untuk membuka peran di konsol
- Lampirkan tiga kebijakan berikut:
- Pilih Lampirkan kebijakan
- Lampirkan
AWSLambda_FullAccess
ke peran - Pilih
Trust Relationships
โEdit Trust Relationships
- Edit hubungan kepercayaan JSON,
- menggantikan
YOUR_ACCOUNT_NUMBER
dengan nomor Akun AWS numerik Anda, untuk membaca: - Simpan hubungan kepercayaan
- Izinkan peran ini untuk mengakses semua bucket S3 dengan memilih
- Kembali ke pekerjaan Ground Truth baru di jendela AWS Management Console sebelumnya: di bawah
Task Category
, pilihCustom
- Pilih
Next
- Pilih
Worker types
:Private
- Pilih
Private team
:ner-worker-team
yang telah dibuat pada bagian sebelumnya - Dalam majalah
Custom labeling task setup
area teks, hapus konten default dan rekatkan di kontenworker-template.liquid.html
berkas yang didapat sebelumnya - Tentukan
Pre-labeling task Lambda function
dengan fungsi yang dibuat sebelumnya:smgt-ner-pre-labeling
- Tentukan
Post-labeling task Lambda function
dengan fungsi yang dibuat sebelumnya:smgt-ner-post-labeling
- Pilih
Create
Anotasi dokumen
Setelah pekerjaan Ground Truth dibuat, kita dapat mulai membuat anotasi dokumen. Buka portal pekerja untuk tenaga kerja kami yang dibuat sebelumnya (Di AWS Management Console, navigasikan ke SageMaker
, Ground Truth โ Labeling workforces
, Private
, dan buka Labeling portal sign-in URL
)
Masuk dan pilih tugas pelabelan pertama di tabel, lalu pilih "Mulai bekerja" untuk membuka anotator. Lakukan anotasi Anda dan pilih kirim pada ketiga dokumen sampel.
Tinjau hasil
Saat annotator Ground Truth menyelesaikan tugas, hasilnya akan tersedia di bucket keluaran S3:
Setelah semua tugas untuk pekerjaan pelabelan selesai, keluaran gabungan tersedia di output.manifest
file yang terletak di sini:
Manifes keluaran ini adalah file baris JSON dengan satu dokumen teks beranotasi per baris dalam "Format Dokumen Keluaran" yang ditentukan sebelumnya. File ini kompatibel dengan "Format Dokumen Input", dan dapat dimasukkan langsung ke pekerjaan Ground Truth berikutnya untuk putaran anotasi berikutnya. Alternatifnya, ini dapat diuraikan dan dikirim ke tugas pelatihan ML. Beberapa skenario di mana kami mungkin menggunakan anotasi putaran kedua adalah:
- Memecah proses anotasi menjadi dua langkah di mana annotator pertama mengidentifikasi anotasi entitas dan annotator kedua menggambar hubungan
- Mengambil sampel dari kami
output.manifest
dan mengirimkannya ke anotator kedua yang lebih berpengalaman untuk ditinjau sebagai pemeriksaan kontrol kualitas
Templat Anotasi Kebenaran Tanah Kustom
Alat anotasi NER yang dijelaskan dalam dokumen ini diimplementasikan sebagai templat anotasi Ground Truth khusus. Pelanggan AWS dapat membuat antarmuka anotasi khusus mereka sendiri menggunakan petunjuk yang ditemukan di sini:
Kesimpulan
Dengan bekerja sama, Booking.com dan Amazon MLSL mampu mengembangkan alat anotasi teks canggih yang mampu membuat pengenalan entitas bernama dan anotasi hubungan yang kompleks.
Kami mendorong pelanggan AWS dengan kasus penggunaan anotasi teks NER untuk mencoba alat yang dijelaskan dalam postingan ini. Jika Anda ingin membantu mempercepat penggunaan ML dalam produk dan layanan Anda, silakan hubungi Lab Solusi Pembelajaran Mesin Amazon.
Tentang Penulis
Dan Mulia adalah Insinyur Pengembangan Perangkat Lunak di Amazon di mana dia membantu membangun pengalaman pengguna yang menyenangkan. Di waktu senggangnya, ia senang membaca, berolahraga, dan bertualang bersama keluarganya.
Pri Nonis adalah Deep Learning Architect di Amazon ML Solutions Lab, tempat dia bekerja dengan pelanggan di berbagai vertikal, dan membantu mereka mempercepat perjalanan migrasi cloud mereka, dan untuk memecahkan masalah ML mereka menggunakan solusi dan teknologi mutakhir.
Niharika Jayanti adalah Insinyur Ujung Depan di AWS, tempat dia mengembangkan solusi anotasi khusus untuk pelanggan Amazon SageMaker. Di luar pekerjaan, dia senang pergi ke museum dan berolahraga.
Amit Beka adalah Manajer Pembelajaran Mesin di Booking.com, dengan pengalaman lebih dari 15 tahun dalam pengembangan perangkat lunak dan pembelajaran mesin. Dia terpesona dengan orang dan bahasa, dan bagaimana komputer masih dibuat bingung oleh keduanya.
- '
- 100
- 11
- 7
- Tentang Kami
- mengakses
- Akun
- akuntansi
- di seluruh
- Tindakan
- tambahan
- Tambahan
- Semua
- Amazon
- Pembelajaran Mesin Amazon
- Amazon SageMaker
- Kemenduaan
- analisis
- DAERAH
- tersedia
- Tersedia untuk semua
- AWS
- Awal
- makhluk
- membangun
- Bangunan
- yang
- kasus
- klasifikasi
- awan
- kode
- koleksi
- kompleks
- komputer
- konfigurasi
- pertimbangan
- konsul
- Konten
- isi
- bisa
- membuat
- kritis
- pengalaman pelanggan
- pelanggan
- data
- belajar mendalam
- mengembangkan
- Pengembang
- Pengembangan
- berbeda
- dokumen
- Tidak
- mudah
- efek
- Emoji
- mendorong
- insinyur
- dll
- contoh
- eksekusi
- mengharapkan
- pengalaman
- Pengalaman
- keluarga
- Fed
- umpan balik
- Fields
- Akhirnya
- Pertama
- kebugaran
- makanan
- format
- ditemukan
- penuh
- fungsi
- gif
- akan
- Tamu
- membimbing
- membantu
- membantu
- di sini
- Menyoroti
- hotel
- Seterpercayaapakah Olymp Trade? Kesimpulan
- How To
- HTTPS
- IAM
- diimplementasikan
- penting
- Termasuk
- indeks
- sendiri-sendiri
- IT
- JavaScript
- Pekerjaan
- perjalanan
- kunci
- pelabelan
- Label
- bahasa
- Bahasa
- besar
- terkemuka
- BELAJAR
- pengetahuan
- Informasi
- Tingkat
- adalah ide yang bagus
- baris
- LINK
- Cair
- Daftar
- Daftar
- lokal
- tempat
- mencari
- Mesin belajar
- pengelolaan
- tanda
- Pasar
- Cocok
- meta
- keberatan
- ML
- model
- lebih
- Museum
- nama
- Bahasa Alami
- Pengolahan Bahasa alami
- dibutuhkan
- nLP
- nomor
- Penawaran
- mengimbangi
- secara online
- Buka
- membuka
- Kesempatan
- Lainnya
- Konsultan Ahli
- frase
- Platform
- Platform
- Kebijakan
- kebijaksanaan
- kolam
- Portal
- pasca-pandemi
- kuat
- harga pompa cor beton mini
- Utama
- swasta
- proses
- Produk
- Pemrograman
- bahasa pemrograman
- milik
- memberikan
- menyediakan
- Ular sanca
- kualitas
- pertanyaan
- Bacaan
- Hubungan
- Persyaratan
- sumber
- Sumber
- restoran
- Hasil
- ulasan
- Review
- kamar
- pembuat bijak
- penghematan
- Skala
- rasa
- sentimen
- Layanan
- set
- Pendek
- Sederhana
- So
- Perangkat lunak
- pengembangan perangkat lunak
- Solusi
- MEMECAHKAN
- Space
- kecepatan
- awal
- Pernyataan
- tinggal
- penyimpanan
- mendukung
- target
- Teknologi
- Sumber
- waktu
- bersama
- Tokenisasi
- Token
- alat
- puncak
- tingkat atas
- jalur
- tradisional
- Pelatihan
- perjalanan
- mengobati
- memperlakukan
- Kepercayaan
- us
- Pengguna
- nilai
- versi
- View
- Apa
- dalam
- Kerja
- bekerja
- pekerja
- Tenaga kerja
- kerja
- berolahraga
- bekerja
- dunia
- dunia
- akan
- tahun