Amazon begrijpt het is een beheerde AI-service die gebruikmaakt van natuurlijke taalverwerking (NLP) met kant-en-klare intelligentie om inzichten over de inhoud van documenten te extraheren. Het ontwikkelt inzichten door de entiteiten, sleutelzinnen, taal, sentimenten en andere gemeenschappelijke elementen in een document te herkennen. De mogelijkheid om aangepaste modellen te trainen via de Aangepaste classificatie en Aangepaste entiteitsherkenning Kenmerken van Comprehend hebben klanten in staat gesteld om out-of-the-box NLP-mogelijkheden te verkennen die zijn gekoppeld aan hun vereisten, zonder dat ze vanaf het begin classificatie- en entiteitsherkenningsmodellen hoeven te bouwen.
Tegenwoordig investeren gebruikers een aanzienlijke hoeveelheid middelen om aangepaste modellen te bouwen, trainen en onderhouden. Deze modellen zijn echter gevoelig voor veranderingen in de echte wereld. Sinds 2020 is COVID bijvoorbeeld een nieuw entiteitstype geworden dat bedrijven uit documenten moeten halen. Om dit te doen, moeten klanten hun bestaande modellen voor entiteitsextractie opnieuw trainen met nieuwe trainingsgegevens, waaronder COVID. Custom Comprehend-gebruikers moeten de modelprestaties handmatig bewaken om driften te beoordelen, gegevens onderhouden om modellen opnieuw te trainen en de juiste modellen selecteren die de prestaties verbeteren.
Comprehend flywheel is een nieuwe Amazon Comprehend-bron die het proces van het verbeteren van een aangepast model in de loop van de tijd vereenvoudigt. U kunt een vliegwiel gebruiken om de taken te orkestreren die zijn gekoppeld aan het trainen en evalueren van nieuwe aangepaste modelversies. Je kunt een vliegwiel maken om een โโbestaand getraind model te gebruiken, of Amazon Comprehend kan een nieuw model voor het vliegwiel maken en trainen. Flywheel creรซert een data lake (in Amazon S3) in je account waar alle trainings- en testgegevens voor alle versies van het model worden beheerd en opgeslagen. Periodiek kunnen de nieuwe gelabelde gegevens (om het model opnieuw te trainen) beschikbaar worden gemaakt voor vliegwiel door te creรซren gegevenssets. Om de nieuwe datasets in uw aangepaste model op te nemen, maakt en voert u een vliegwiel uit herhaling. Een vliegwieliteratie is een workflow die de nieuwe datasets gebruikt om de actieve modelversie te evalueren en een nieuwe modelversie te trainen.
Op basis van de kwaliteitsstatistieken voor de bestaande en nieuwe modelversies stel je de actieve modelversie de versie zijn van het vliegwielmodel dat u wilt gebruiken voor inferentietaken. U kunt de actieve modelversie van het vliegwiel gebruiken om aangepaste analyses uit te voeren (realtime of asynchrone taken). Om het vliegwielmodel te gebruiken voor real-time analyse, moet u een eindpunt voor het vliegwiel.
Dit bericht laat zien hoe u een aangepaste tekstclassificatie kunt bouwen (geen voorafgaande ML-kennis vereist) die een specifiek label aan een bepaalde tekst kan toewijzen. We zullen ook illustreren hoe vliegwiel kan worden gebruikt om de training van een nieuwe modelversie te orkestreren en de nauwkeurigheid van het model te verbeteren met behulp van nieuwe gelabelde gegevens.
Voorwaarden
Om deze walkthrough te voltooien, hebt u een AWS-account nodig en toegang om bronnen te creรซren in AWS Identity and Access Management (IAM), Amazon S3 en Amazon Comprehend binnen het account.
- Configureer IAM-gebruikersmachtigingen voor gebruikers om toegang te krijgen tot vliegwielbewerkingen (
CreateFlywheel
,DeleteFlywheel
,UpdateFlywheel
,CreateDataset
,StartFlywheelIteration
). - (Optioneel) Configureer machtigingen voor AWS KMS-sleutels voor AWS KMS-sleutels voor de datalake.
- Creรซer een rol voor gegevenstoegang die Amazon Comprehend machtigt om toegang te krijgen tot de datalake.
Zie voor informatie over het maken van IAM-beleid voor Amazon Comprehend Machtigingen om Amazon Comprehend-acties uit te voeren.
In dit bericht gebruiken we het Yahoo-corpus van Tekst begrijpen vanuit het niets door Xiang Zhang en Yann LeCun. De gegevens zijn toegankelijk via AWS Open Data Register. Raadpleeg sectie 4, "Gegevens voorbereiden", uit de post Een aangepaste classifier bouwen met Amazon Comprehend voor het script en gedetailleerde informatie over gegevensvoorbereiding en -structuur.
Als alternatief kunt u voor nog meer gemak de voorbereide gegevens downloaden door de volgende twee opdrachtregels in te voeren:
We zullen de custom-classifier-partial-dataset.csv
(ongeveer 15,000 documenten) dataset om de eerste versie van de aangepaste classificatie te maken. Vervolgens zullen we een vliegwiel maken om de hertraining van de eerste versie van het model te orkestreren met behulp van de volledige dataset custom-classifier-complete-dataset.csv
(ongeveer 100,000 documenten). Na het hertrainen van het model door een vliegwiel-iteratie te activeren, evalueren we de modelprestatiestatistieken van de twee versies van het aangepaste model en kiezen we de best presterende als de actieve modelversie en demonstreren we realtime aangepaste classificatie met behulp van dezelfde.
Overzicht oplossingen
Zoek de volgende stappen om de omgeving en het datameer in te stellen om een โโComprehend-vliegwiel-iteratie te maken om de aangepaste modellen opnieuw te trainen.
- De omgeving opzetten
- S3-buckets maken
- De aangepaste classificatie trainen
- Een vliegwiel maken
- Datasets configureren
- Vliegwiel-iteraties activeren
- Update actieve modelversie
- Vliegwiel gebruiken voor aangepaste classificatie
- Opruimen van de middelen
1. Inrichting van de omgeving
U kunt communiceren met Amazon Comprehend via de AWS-beheerconsole, AWS-opdrachtregelinterface (AWS CLI), of Amazon Comprehend API. Voor meer informatie, zie: Aan de slag met Amazon Comprehend.
In dit bericht gebruiken we AWS CLI om de bronnen te maken en te beheren. AWS Cloud9 is een cloudgebaseerde geรฏntegreerde ontwikkelomgeving (IDE) waarmee u uw code kunt schrijven, uitvoeren en debuggen. Het bevat een code-editor, debugger en terminal. AWS Cloud9 wordt voorverpakt geleverd met AWS CLI.
Raadpleeg Een omgeving creรซren in AWS Cloud9 om de omgeving in te richten.
2. S3-buckets maken
- Maak twee S3-buckets
- Een voor het beheer van de datasets
custom-classifier-partial-dataset.csv
encustom-classifier-complete-dataset.cs
v. - Een voor het datameer voor het vliegwiel van Comprehend.
- Een voor het beheer van de datasets
- Maak de eerste bucket met de volgende opdracht (vervang '123456789012' door uw account-ID):
- Maak de bucket die moet worden gebruikt als het datameer voor het vliegwiel:
- Upload de trainingsdatasets naar de bucket "123456789012-comprehend":
3. De aangepaste classificatie trainen
Gebruik de volgende opdracht om een โโaangepaste classificatie te maken: yahoo-answers-version1
met behulp van de dataset: custom-classifier-partial-dataset.csv
. Vervang de gegevenstoegangsrol ARN en de S3-bucketlocaties door uw eigen.
De bovenstaande API-aanroep resulteert in de volgende uitvoer:
CreateDocumentClassifier start de training van het aangepaste classificatiemodel. Gebruik om de voortgang van de training verder te volgen BeschrijfDocumentClassifier.
Eens Status shows OPGELEID, is de classificator klaar voor gebruik. De eerste versie van het model heeft een F1-score van 0.69. F1-score is een belangrijke evaluatiemaatstaf bij machine learning. Het somt de voorspellende prestaties van een model op door twee anderszins concurrerende statistieken te combineren: precisie en herinnering.
4. Maak een vliegwiel
Maak als volgende stap een nieuwe versie van het model met de bijgewerkte dataset (custom-classifier-complete-dataset.csv
). Voor omscholing gebruiken we het vliegwiel van Comprehend om het proces van omscholing van het model te orkestreren en te vereenvoudigen.
U kunt een vliegwiel maken voor een bestaand getraind model (zoals in ons geval) of een nieuw model trainen voor het vliegwiel. Wanneer je een vliegwiel maakt, maakt Amazon Comprehend een datameer om alle gegevens op te slaan die het vliegwiel nodig heeft, zoals de trainingsgegevens en testgegevens voor elke versie van het model. Wanneer Amazon Comprehend het datameer maakt, stelt het de volgende mappenstructuur in op de Amazon S3-locatie.
Waarschuwing: Amazon Comprehend beheert de organisatie en inhoud van de data lake-map. Als u de datalake-mappen wijzigt, werkt uw vliegwiel mogelijk niet correct.
Een vliegwiel maken (voor het bestaande aangepaste model):
Opmerking: Als u een vliegwiel maakt voor een bestaande getrainde modelversie, zijn het modeltype en de modelconfiguratie vooraf geconfigureerd.
Zorg ervoor dat u de model-ARN, de rol voor gegevenstoegang en de S3-URI van het datameer vervangt door de ARN's van uw resource. Gebruik de tweede S3-emmer 123456789012-comprehend-flywheel-datalake
gemaakt in de stap "S3-buckets instellen" als het datameer voor het vliegwiel.
De bovenstaande API-aanroep resulteert in een FlyWheelArn
.
5. Datasets configureren
Gebruik de Amazon Comprehend-console of API om een โโdataset te maken om gelabelde trainings- of testgegevens aan een vliegwiel toe te voegen.
- Maak een
inputConfig.json
bestand met de volgende inhoud: - Gebruik de relevante vliegwiel-ARN uit uw account om de dataset aan te maken.
- Dit resulteert in het creรซren van een dataset:
6. Vliegwiel-iteraties activeren
Gebruik vliegwiel-iteraties om u te helpen bij het maken en beheren van nieuwe modelversies. Gebruikers kunnen ook statistieken per dataset bekijken in de map "modelstatistieken" in het datameer in S3-bucket. Voer de volgende opdracht uit om de iteratie van het vliegwiel te starten:
Het antwoord bevat de volgende inhoud:
Wanneer u het vliegwiel uitvoert, wordt er een nieuwe iteratie gemaakt die een nieuwe modelversie traint en evalueert met de bijgewerkte gegevensset. U kunt de nieuwe modelversie promoveren als de prestaties superieur zijn aan de bestaande actieve modelversie.
7. Werk de actieve modelversie bij
We merken dat de prestaties van het model zijn verbeterd als gevolg van de recente iteratie (hierboven uitgelicht). Gebruik om de nieuwe modelversie te promoten als de actieve modelversie voor gevolgtrekkingen UpdateFlywheel
API-oproep:
Het antwoord bevat de volgende inhoud, waaruit blijkt dat het nieuw getrainde model wordt gepromoot als de actieve versie:
8. Vliegwiel gebruiken voor aangepaste classificatie
U kunt de actieve modelversie van het vliegwiel gebruiken om analysetaken uit te voeren voor aangepaste classificatie. Dit kan zowel voor real-time analyse als voor asynchrone classificatietaken zijn.
- Asynchrone banen: Gebruik de StartDocumentClassificatieJob API-verzoek om een โโasynchrone taak te starten voor aangepaste classificatie. Lever de VliegwielArn parameter in plaats van de DocumentClassifierArn.
- Realtime analyse: u gebruikt een eindpunt om realtime analyse uit te voeren. Wanneer u het eindpunt maakt, configureert u het met het vliegwiel-ARN in plaats van een model-ARN. Wanneer u de real-time analyse uitvoert, selecteert u het eindpunt dat aan het vliegwiel is gekoppeld. Amazon Comprehend voert de analyse uit met behulp van de actieve modelversie van het vliegwiel.
Voer de volgende opdracht uit om het eindpunt te maken:
waarschuwing: Er worden kosten in rekening gebracht voor dit eindpunt vanaf het moment dat het wordt gemaakt totdat het wordt verwijderd. Zorg ervoor dat u het eindpunt verwijdert wanneer het niet in gebruik is om kosten te voorkomen.
Gebruik voor API de ClassificerenDocument API-werking. Geef het eindpunt van het vliegwiel voor de EindpuntArn parameter OF gebruik de console om documenten in realtime te classificeren.
Prijsinformatie
Vliegwiel-API's zijn gratis. U wordt echter gefactureerd voor training en beheer van aangepaste modellen. U betaalt $ 3 per uur voor modeltraining (gefactureerd per seconde) en $ 0.50 per maand voor aangepast modelbeheer. Voor synchrone aanvragen voor aangepaste classificatie en het afleiden van entiteiten richt u een eindpunt in met de juiste doorvoer. Ga voor meer informatie naar Begrijp prijzen.
9. Opruimen van de middelen
Zoals besproken, worden er kosten in rekening gebracht vanaf het moment dat u uw eindpunt start totdat het wordt verwijderd. Zodra u uw eindpunt niet meer nodig heeft, moet u het verwijderen zodat u er geen kosten meer aan hoeft te maken. U kunt eenvoudig een ander eindpunt maken wanneer u het nodig hebt vanuit de Eindpunten sectie. Voor meer informatie, zie Eindpunten verwijderen.
Conclusie
In dit bericht hebben we de mogelijkheden van Comprehend flywheel doorgenomen en hoe het het proces van omscholing en verbetering van aangepaste modellen in de loop van de tijd vereenvoudigt. Als onderdeel van de volgende stappen kunt u het volgende onderzoeken:
- Creรซer en beheer Comprehend flywheel-resources van andere media zoals SDK en console.
- In deze blog hebben we een vliegwiel gemaakt voor een reeds getraind aangepast model. Je kunt de mogelijkheid verkennen om een โโvliegwiel te maken en er vanaf het begin een model voor te trainen.
- Gebruik vliegwiel voor aangepaste entiteitsherkenners.
Er zijn veel mogelijkheden en we zijn verheugd om te zien hoe u Amazon Comprehend gebruikt voor uw NLP-use-cases. Veel leer- en experimenteerplezier!
Over de auteur
Supreeth S. Angadi is een Greenfield Startup Solutions Architect bij AWS en lid van de AI/ML technische veldgemeenschap. Hij werkt nauw samen met ML Core-, SaaS- en Fintech-startups om hun reis naar de cloud te versnellen. Supreeth brengt zijn tijd graag door met familie en vrienden, houdt van voetballen en volgt de sport enorm. Zijn dag is niet compleet zonder een wandeling en apporteren met zijn 'DJ' (Golden Retriever).
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- Platoblockchain. Web3 Metaverse Intelligentie. Kennis versterkt. Toegang hier.
- Bron: https://aws.amazon.com/blogs/machine-learning/simplify-continuous-learning-of-amazon-comprehend-custom-models-using-comprehend-flywheel/
- $3
- 000
- 10
- 100
- 2020
- 28
- 7
- 9
- a
- vermogen
- Over
- boven
- versnellen
- toegang
- toegangsbeheer
- geraadpleegde
- Account
- nauwkeurigheid
- acties
- actieve
- beheerder
- AI
- AI / ML
- Alles
- al
- Amazone
- Amazon begrijpt het
- bedragen
- analyse
- en
- Nog een
- api
- APIs
- nadering
- passend
- geassocieerd
- Beschikbaar
- vermijd
- AWS
- AWS-Cloud9
- AWS identiteits- en toegangsbeheer (IAM)
- worden
- wezen
- Blog
- bouw
- Gebouw
- ondernemingen
- Bellen
- mogelijkheden
- geval
- gevallen
- Wijzigingen
- lading
- opgeladen
- lasten
- Kies
- classificatie
- classificeren
- Schoonmaak
- van nabij
- Cloud
- Cloud9
- code
- combineren
- Gemeen
- gemeenschap
- concurrerende
- compleet
- begrijpen
- Configuratie
- troosten
- bevat
- content
- inhoud
- doorlopend
- gemak
- Kern
- correct
- Kosten
- Covidien
- en je merk te creรซren
- aangemaakt
- creรซert
- Wij creรซren
- het aanmaken
- gewoonte
- Klanten
- gegevens
- toegang tot data
- Datameer
- Data voorbereiding
- datasets
- dag
- tonen
- demonstreert
- beschreven
- gedetailleerd
- gegevens
- Ontwikkeling
- ontwikkelt
- besproken
- document
- documenten
- Download
- elk
- gemakkelijk
- editor
- geeft je de mogelijkheid
- ingeschakeld
- Endpoint
- verzekeren
- entiteiten
- entiteit
- Milieu
- Ether (ETH)
- schatten
- evalueren
- evaluatie
- Zelfs
- voorbeeld
- opgewonden
- bestaand
- Verken
- extract
- extractie
- familie
- Voordelen
- veld-
- Dien in
- VIND DE PLEK DIE PERFECT VOOR JOU IS
- FinTech
- fintech-startups
- Voornaam*
- volgend
- volgt
- Voetbal
- Gratis
- vrienden
- oppompen van
- verder
- gegeven
- Gouden
- greenfield
- gelukkig
- met
- hulp
- Gemarkeerd
- houden
- Hoe
- Echter
- HTML
- HTTPS
- IAM
- Identiteit
- identiteits- en toegangsbeheer
- Identiteits- en toegangsbeheer (IAM)
- onmetelijk
- belangrijk
- verbeteren
- verbeterd
- het verbeteren van
- in
- omvat
- nemen
- informatie
- eerste
- inzichten
- verkrijgen in plaats daarvan
- geรฏntegreerde
- Intelligentie
- interactie
- Interface
- Investeren
- IT
- herhaling
- iteraties
- Jobomschrijving:
- Vacatures
- sleutel
- toetsen
- kennis
- label
- meer
- taal
- leren
- Laten we
- Lijn
- lijnen
- plaats
- locaties
- langer
- machine
- machine learning
- gemaakt
- onderhouden
- beheer
- beheerd
- management
- beheert
- beheren
- handmatig
- veel
- lid
- metriek
- Metriek
- ML
- Mode
- model
- modellen
- wijzigen
- monitor
- Maand
- meer
- Naturel
- Natuurlijke taal
- Natural Language Processing
- Noodzaak
- nodig
- behoeften
- New
- volgende
- nlp
- EEN
- open
- open data
- besturen
- operatie
- Operations
- Keuze
- bestellen
- organisatie
- Overige
- anders-
- het te bezitten.
- deel
- uitvoeren
- prestatie
- permissies
- zinnen
- Plato
- Plato gegevensintelligentie
- PlatoData
- spelen
- dan
- beleidsmaatregelen door te lezen.
- zwembad
- mogelijkheden
- Post
- precisie
- bereid
- die eerder
- Voorafgaand
- privaat
- verwerking
- Voortgang
- promoten
- Gepromoveerd
- zorgen voor
- voorziening
- kwaliteit
- klaar
- pasklaar
- vast
- echte wereld
- real-time
- recent
- erkenning
- relevante
- vervangen
- te vragen
- verzoeken
- Voorwaarden
- hulpbron
- Resources
- antwoord
- resultaat
- Resultaten
- heropleiding
- Rol
- lopen
- SaaS
- dezelfde
- sdk
- Tweede
- sectie
- gevoelig
- service
- reeks
- Sets
- het instellen van
- moet
- Shows
- aanzienlijke
- vereenvoudigen
- sinds
- So
- Oplossingen
- specifiek
- Uitgaven
- Sport
- begin
- gestart
- starts
- startup
- Startups
- Status
- Stap voor
- Stappen
- stop
- opgeslagen
- structuur
- dergelijk
- sommen
- superieur
- Nemen
- taken
- Technisch
- terminal
- proef
- De
- hun
- Door
- doorvoer
- Gebonden
- niet de tijd of
- naar
- spoor
- Trainen
- getraind
- Trainingen
- treinen
- triggering
- begrip
- bijwerken
- bijgewerkt
- URI
- .
- Gebruiker
- gebruikers
- versie
- via
- Bekijk
- wandelde
- walkthrough
- welke
- wil
- binnen
- zonder
- workflow
- Bedrijven
- wereld
- schrijven
- Yahoo
- Your
- zephyrnet