Hyperparametrien optimointi esikoulutettujen muuntajamallien hienosäätöön halaavien kasvojen perusteella

Julkaissut Platon

seuraajia: 0

Suuret huomioihin perustuvat muuntajamallit ovat saaneet valtavia hyötyjä luonnollisen kielen käsittelyssä (NLP). Näiden jättimäisten verkkojen kouluttaminen tyhjästä vaatii kuitenkin valtavan määrän dataa ja laskentaa. Pienemmille NLP-tietojoukoille yksinkertainen mutta tehokas strategia on käyttää esikoulutettua muuntajaa, joka on yleensä koulutettu valvomatta erittäin suurille tietojoukoille, ja hienosäätää sitä kiinnostavassa tietojoukossa. Halaaminen kasvot ylläpitää suurta mallieläintarhaa näistä esikoulutetuista muuntajista ja tekee niistä helposti saatavilla myös aloitteleville käyttäjille.

Näiden mallien hienosäätö vaatii kuitenkin edelleen asiantuntemusta, koska ne ovat melko herkkiä hyperparametreilleen, kuten oppimisnopeudelle tai eräkokolle. Tässä viestissä näytämme, kuinka nämä hyperparametrit optimoidaan avoimen lähdekoodin kehyksellä SyNee -viritys hajautettuun hyperparametrien optimointiin (HPO). Syne Tunen avulla voimme löytää paremman hyperparametrikokoonpanon, jolla saavutetaan suhteellinen parannus 1-4 % verrattuna suosittujen oletushyperparametreihin. lIIMA vertailutietojoukot. Itse esiopetetun mallin valintaa voidaan pitää myös hyperparametrina ja siksi Syne Tune valitsee sen automaattisesti. Tekstin luokitteluongelmassa tämä lisää tarkkuutta noin 5 % oletusmalliin verrattuna. Voimme kuitenkin automatisoida enemmän päätöksiä, jotka käyttäjän on tehtävä; osoitamme tämän myös paljastamalla ilmentymän tyypin hyperparametrina, jota käytämme myöhemmin mallin käyttöönotossa. Valitsemalla oikean ilmentymän tyypin voimme löytää kokoonpanoja, jotka kompensoivat optimaalisesti kustannuksia ja viivettä.

Syne Tunen esittely löytyy osoitteesta Suorita hajautettuja hyperparametrien ja hermoarkkitehtuurin viritystöitä Syne Tunen avulla.

Hyperparametrien optimointi Syne Tunen avulla

Käytämme lIIMA benchmark-paketti, joka koostuu yhdeksästä tietojoukosta luonnollisen kielen ymmärtämistehtäviä, kuten tekstin aiheuttaman tunnistusta tai tunneanalyysiä varten. Tätä varten sovitamme Hugging Face'sin Run_glue.py harjoituskäsikirjoitus. GLUE-tietojoukot sisältävät ennalta määritellyn koulutus- ja arviointisarjan etiketeillä sekä pitotestisarjan ilman tarroja. Siksi jaamme koulutusjoukon koulutus- ja validointijoukkoon (70 %/30 % jako) ja käytämme arviointijoukkoa pidätystestitietojoukona. Lisäksi lisäämme toisen takaisinsoittotoiminnon Hugging Facen Trainer API:hen, joka raportoi validoinnin suorituskyvyn jokaisen aikakauden jälkeen takaisin Syne Tunelle. Katso seuraava koodi:

import transformers from syne_tune.report import Reporter class SyneTuneReporter(transformers.trainer_callback.TrainerCallback): def __init__(self): self.report = Reporter() def on_evaluate(self, args, state, control, **kwargs): results = kwargs['metrics'].copy() results['step'] = state.global_step results['epoch'] = int(state.epoch) self.report(**results)

Aloitamme optimoimalla tyypilliset harjoittelun hyperparametrit: oppimisnopeus, alkulämmittelysuhde oppimisnopeuden lisäämiseksi ja eräkoko esikoulutetun BERT:n hienosäätöä varten (bert-base-kotelo) -malli, joka on oletusmalli Hugging Face -esimerkissä. Katso seuraava koodi:

config_space = dict()
config_space['learning_rate'] = loguniform(1e-6, 1e-4)
config_space['per_device_train_batch_size'] = randint(16, 48)
config_space['warmup_ratio'] = uniform(0, 0.5)

HPO-menetelmänä käytämme Asha, joka ottaa näytteitä hyperparametrikokoonpanoista tasaisesti satunnaisesti ja pysäyttää iteratiivisesti huonosti toimivien kokoonpanojen arvioinnin. Vaikka kehittyneemmät menetelmät käyttävät tavoitefunktion todennäköisyysmallia, kuten BO tai MoBster on olemassa, käytämme tässä viestissä ASHA:ta, koska se tulee ilman mitään oletuksia hakuavaruudesta.

Seuraavassa kuvassa vertaamme testivirheen suhteellista parannusta Hugging Facesin oletusarvoiseen hyperparametrikokoonpanoon verrattuna.

Yksinkertaisuuden vuoksi rajoitamme vertailun MRPC-, COLA- ja STSB-tietoihin, mutta havaitsemme samanlaisia parannuksia myös muissa GLUE-tietosarjoissa. Jokaiselle tietojoukolle suoritamme ASHA:n yhdellä ml.g4dn.xlargella Amazon Sage Maker esimerkki, jonka ajonaikainen budjetti on 1,800 13 sekuntia, mikä vastaa noin 7, 9 ja 1 täyttä toimintoarviointia näissä tietojoukoissa. Harjoitusprosessin luontaisen satunnaisuuden huomioon ottamiseksi, esimerkiksi minieränäytteenoton aiheuttaman, suoritamme sekä ASHA:n että oletuskonfiguraation viidelle toistolle itsenäisellä siemenellä satunnaislukugeneraattorille ja raportoimme lukujen keskimääräisen ja keskihajonnan. suhteellinen parannus toistoissa. Näemme, että kaikissa tietojoukoissa voimme itse asiassa parantaa ennakoivaa suorituskykyä 3-XNUMX % verrattuna huolellisesti valitun oletuskokoonpanon suorituskykyyn.

Automatisoi esikoulutetun mallin valinta

Voimme käyttää HPO:ta hyperparametrien etsimiseen, vaan myös automaattisesti oikean esiopetetun mallin valitsemiseen. Miksi haluamme tehdä tämän? Koska yksikään malli ei toimi paremmin kaikissa tietojoukoissa, meidän on valittava oikea malli tietylle tietojoukolle. Tämän osoittamiseksi arvioimme useita suosittuja Hugging Facen muuntajamalleja. Jokaisen tietojoukon kohdalla luokittelemme jokaisen mallin sen testisuorituskyvyn perusteella. Tietojoukkojen sijoitus (katso seuraava kuva) muuttuu eikä yksittäinen malli, joka saa korkeimman pistemäärän jokaisessa tietojoukossa. Viitteenä näytämme myös kunkin mallin ja tietojoukon absoluuttisen testisuorituskyvyn seuraavassa kuvassa.

Oikean mallin valitsemiseksi automaattisesti voimme heittää mallin valinnan kategorisiksi parametreiksi ja lisätä tämän hyperparametrihakuavaruuteen:

config_space['model_name_or_path'] = choice(['bert-base-cased', 'bert-base-uncased', 'distilbert-base-uncased', 'distilbert-base-cased', 'roberta-base', 'albert-base-v2', 'distilroberta-base', 'xlnet-base-cased', 'albert-base-v1'])

Vaikka hakutila on nyt suurempi, se ei välttämättä tarkoita, että sen optimointi olisi vaikeampaa. Seuraava kuva näyttää parhaan havaitun konfiguraation (validointivirheen perusteella) testivirheen ASHA:n MRPC-tietojoukossa ajan kuluessa, kun etsimme alkuperäisestä tilasta (sininen viiva) (BERT-pohjaisessa esiopetetussa mallissa ) tai uudessa lisätyssä hakutilassa (oranssi viiva). Samalla budjetilla ASHA pystyy löytämään paljon tehokkaamman hyperparametrikokoonpanon laajennetussa hakutilassa kuin pienemmässä tilassa.

Automatisoi ilmentymän tyypin valinta

Käytännössä emme ehkä välitä pelkästään ennakoivan suorituskyvyn optimoinnista. Saatamme välittää myös muista tavoitteista, kuten harjoitusajasta, (dollarin) hinnasta, viiveestä tai oikeudenmukaisuusmittareista. Meidän on myös tehtävä muita valintoja mallin hyperparametrien lisäksi, esimerkiksi valittava ilmentymätyyppi.

Vaikka ilmentymän tyyppi ei vaikuta ennakoituun suorituskykyyn, se vaikuttaa voimakkaasti (dollarin) kustannuksiin, koulutuksen suoritusaikaan ja latenssiin. Jälkimmäisestä tulee erityisen tärkeä, kun mallia otetaan käyttöön. Voimme ilmaista HPO:n usean tavoitteen optimointiongelmaksi, jossa pyrimme optimoimaan useita tavoitteita samanaikaisesti. Mikään yksittäinen ratkaisu ei kuitenkaan optimoi kaikkia mittareita samanaikaisesti. Sen sijaan pyrimme löytämään joukon kokoonpanoja, jotka sopivat optimaalisesti yhteen tavoitteeseen verrattuna. Tätä kutsutaan Pareto setti.

Tämän asetuksen analysoimiseksi tarkemmin lisäämme ilmentymän tyypin valinnan ylimääräiseksi kategoriseksi hyperparametriksi hakuavaruuteen:

config_space['st_instance_type'] = choice(['ml.g4dn.xlarge', 'ml.g4dn.2xlarge', 'ml.p2.xlarge', 'ml.g4dn.4xlarge', 'ml.g4dn.8xlarge', 'ml.p3.2xlarge'])

Käytämme Mo-Asha, joka mukauttaa ASHA:n usean tavoitteen skenaarioon käyttämällä ei-dominoitua lajittelua. Jokaisessa iteraatiossa MO-ASHA myös valitsee jokaiselle kokoonpanolle myös instanssityypin, jossa haluamme arvioida sen. Syne Tune tarjoaa SageMaker-taustajärjestelmän HPO:n suorittamiseksi heterogeenisten esiintymien joukossa. Tämän taustaohjelman avulla jokainen kokeilu arvioidaan itsenäiseksi SageMaker-koulutustyöksi omassa ilmentymässään. Työntekijöiden määrä määrittelee kuinka monta SageMaker-työtä suoritamme rinnakkain tietyllä hetkellä. Itse optimoija, tapauksessamme MO-ASHA, toimii joko paikallisessa koneessa, Sagemaker-muistikirjassa tai erillisessä SageMaker-harjoitustyössä. Katso seuraava koodi:

backend = SageMakerBackend( sm_estimator=HuggingFace( entry_point=str('run_glue.py'), source_dir=os.getcwd(), base_job_name='glue-moasha', # instance-type given here are override by Syne Tune with values sampled from `st_instance_type`. instance_type='ml.m5.large', instance_count=1, py_version="py38", pytorch_version='1.9', transformers_version='4.12', max_run=3600, role=get_execution_role(), ),
)

Seuraavissa kuvissa näkyy latenssi vs. testivirhe vasemmalla ja latenssi vs. hinta oikealla satunnaisissa kokoonpanoissa, jotka MO-ASHA on ottanut näytteitä (rajoitamme näkyvyyttä) MRPC-tietojoukossa sen jälkeen, kun sitä on suoritettu 10,800 XNUMX sekuntia neljällä työntekijällä. Väri ilmaisee ilmentymän tyypin. Katkotettu musta viiva edustaa Pareto-joukkoa, mikä tarkoittaa pisteiden joukkoa, joka hallitsee kaikkia muita pisteitä vähintään yhdessä tavoitteessa.

Voimme havaita kompromissin latenssin ja testivirheen välillä, mikä tarkoittaa, että paras kokoonpano pienimmällä testivirheellä ei saavuta pienintä latenssia. Halutessasi voit valita hyperparametrikokoonpanon, joka uhraa testisuorituskyvyn, mutta jossa on pienempi viive. Näemme myös kompromissin viiveen ja kustannusten välillä. Käyttämällä pienempää ml.g4dn.xlarge-instanssia esimerkiksi lisäämme vain marginaalisesti latenssia, mutta maksamme neljänneksen ml.g4dn.8xlarge-esiintymän hinnasta.

Yhteenveto

Tässä viestissä keskustelimme hyperparametrien optimoinnista Hugging Facen esikoulutettujen muuntajamallien hienosäätämiseksi Syne Tunen perusteella. Näimme, että optimoimalla hyperparametreja, kuten oppimisnopeus, eräkoko ja lämpenemissuhde, voimme parantaa huolellisesti valittua oletuskokoonpanoa. Voimme myös laajentaa tätä valitsemalla automaattisesti esiopetetun mallin hyperparametrioptimoinnin avulla.

Syne Tunen SageMaker-taustaohjelman avulla voimme käsitellä ilmentymän tyyppiä hyperparametrina. Vaikka ilmentymän tyyppi ei vaikuta suorituskykyyn, sillä on merkittävä vaikutus viiveeseen ja kustannuksiin. Siksi määrittämällä HPO:n usean tavoitteen optimointiongelmaksi voimme löytää joukon kokoonpanoja, jotka sopivat optimaalisesti yhteen tavoitteeseen verrattuna. Jos haluat kokeilla tätä itse, tutustu meidän esimerkki muistikirja.

Tietoja Tekijät

Aaron Klein on AWS:n soveltava tutkija.

Matthias Seeger on johtava sovellettu tutkija AWS:ssä.

David Salinas on Sr Applied Scientist AWS:ssä.

Emily Webber liittyi AWS:ään heti SageMakerin julkaisun jälkeen ja on yrittänyt kertoa siitä maailmalle siitä lähtien! Asiakkaille uusien ML-elämysten rakentamisen lisäksi Emily nauttii meditoinnista ja Tiibetin buddhalaisuuden opiskelusta.

Cedric Archambeau on johtava soveltava tutkija AWS:ssä ja European Lab for Learning and Intelligent Systems -tutkija.

Aikaleima: Kesäkuu 29, 2022

Aikaleima: Elokuu 15, 2023

Hyperparametrien optimointi Hugging Facen esikoulutettujen muuntajamallien hienosäätöön

Julkaissut Platon

Hyperparametrien optimointi Syne Tunen avulla

Automatisoi esikoulutetun mallin valinta

Automatisoi ilmentymän tyypin valinta

Yhteenveto

Tietoja Tekijät

Lisää aiheesta AWS-koneoppiminen

Järjestä transkriptiot kappaleiksi Amazon Transcribe |:n avulla Amazon Web Services

Mainosta hakusisältöä Amazon Kendran Featured Results -palvelun avulla

ETL-tietojen käsittelyn tehostaminen Talent.comissa Amazon SageMakerin avulla | Amazon Web Services

Suorita automaattinen mallin viritys Amazon SageMaker JumpStartilla

Indeksoi verkossa indeksoitu sisältösi käyttämällä uutta Amazon Kendran Web-indeksointityökalua | Amazon Web Services

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili