Hüperparameetrite optimeerimine eelkoolitatud trafomudelite peenhäälestamiseks kallistava näo järgi

Taasavaldanud Platon

järgijaid: 0

Suured tähelepanupõhised trafomudelid on loomuliku keele töötlemisel (NLP) saavutanud tohutu kasu. Nende hiiglaslike võrkude nullist väljaõpetamine nõuab aga tohutult palju andmeid ja arvutusi. Väiksemate NLP-andmestike jaoks on lihtne, kuid tõhus strateegia kasutada eelkoolitatud trafot, mis on tavaliselt väga suurte andmekogumite jaoks järelevalveta välja õpetatud, ja täpsustada seda huvipakkuval andmekogumil. Kallistav nägu haldab nende eelkoolitatud trafode suurt mudelloomaaeda ja teeb need hõlpsasti ligipääsetavaks isegi algajatele kasutajatele.

Nende mudelite peenhäälestamine nõuab siiski ekspertteadmisi, kuna need on oma hüperparameetrite, näiteks õppimiskiiruse või partii suuruse suhtes üsna tundlikud. Selles postituses näitame, kuidas optimeerida neid hüperparameetreid avatud lähtekoodiga raamistikuga Syne Tune hajutatud hüperparameetrite optimeerimiseks (HPO). Syne Tune võimaldab meil leida parema hüperparameetri konfiguratsiooni, mis saavutab suhtelise paranemise 1-4% võrreldes populaarsete vaikehüperparameetritega GLUE etalonandmete kogumid. Eelkoolitatud mudeli enda valikut võib samuti pidada hüperparameetriks ja seetõttu valib Syne Tune selle automaatselt. Teksti klassifitseerimise probleemi korral suurendab see täpsust vaikemudeliga võrreldes ligikaudu 5%. Siiski saame automatiseerida rohkem otsuseid, mida kasutaja peab tegema; demonstreerime seda, paljastades ka eksemplari tüübi hüperparameetrina, mida kasutame hiljem mudeli juurutamiseks. Valides õige eksemplari tüübi, leiame konfiguratsioonid, mis optimaalselt tasakaalustavad kulusid ja latentsust.

Syne Tune'i sissejuhatuse saamiseks vaadake Käivitage jaotatud hüperparameetrite ja närviarhitektuuri häälestustöid rakendusega Syne Tune.

Hüperparameetrite optimeerimine rakendusega Syne Tune

Me kasutame GLUE etalonkomplekt, mis koosneb üheksast andmestikust loomuliku keele mõistmise ülesannete jaoks, nagu tekstilise kaasmõju tuvastamine või sentimentide analüüs. Selleks kohandame Hugging Face's run_glue.py koolituse skript. GLUE andmestik on varustatud eelmääratletud koolitus- ja hindamiskomplektiga koos siltidega, samuti ilma siltideta kinnihoidmise testikomplektiga. Seetõttu jagasime koolituskomplekti koolitus- ja valideerimiskomplektideks (jaotus 70%/30%) ja kasutame hindamiskomplekti hoidmise testide andmekogumina. Lisaks lisame Hugging Face'i Trainer API-le veel ühe tagasihelistamisfunktsiooni, mis teatab valideerimise toimivuse pärast iga ajajärku Syne Tune'ile. Vaadake järgmist koodi:

import transformers from syne_tune.report import Reporter class SyneTuneReporter(transformers.trainer_callback.TrainerCallback): def __init__(self): self.report = Reporter() def on_evaluate(self, args, state, control, **kwargs): results = kwargs['metrics'].copy() results['step'] = state.global_step results['epoch'] = int(state.epoch) self.report(**results)

Alustame tüüpiliste treeningu hüperparameetrite optimeerimisest: õppimiskiirus, soojendussuhe õppimiskiiruse suurendamiseks ja partii suurus eeltreenitud BERTi peenhäälestamiseks (bert-base-korpus) mudel, mis on vaikemudel Kallistava näo näites. Vaadake järgmist koodi:

config_space = dict()
config_space['learning_rate'] = loguniform(1e-6, 1e-4)
config_space['per_device_train_batch_size'] = randint(16, 48)
config_space['warmup_ratio'] = uniform(0, 0.5)

Meie HPO-meetodina kasutame ASHA, mis valib hüperparameetrite konfiguratsioonid ühtlaselt juhuslikult ja peatab iteratiivselt halvasti toimivate konfiguratsioonide hindamise. Ehkki keerukamad meetodid kasutavad sihtfunktsiooni tõenäosuslikku mudelit, näiteks BO või MoBster, kasutame selle postituse jaoks ASHA-d, kuna see on ilma otsinguruumi eeldusteta.

Järgmisel joonisel võrdleme testivea suhtelist paranemist Hugging Facesi hüperparameetrite vaikekonfiguratsiooniga.

Lihtsuse huvides piirame võrdlust MRPC, COLA ja STSB-ga, kuid täheldame sarnaseid täiustusi ka teiste GLUE andmehulkade puhul. Iga andmestiku jaoks käitame ASHA-d ühel ml.g4dn.xlarge failil Amazon SageMaker eksemplar, mille käitusaja eelarve on 1,800 sekundit, mis vastab nende andmekogumite puhul vastavalt ligikaudu 13, 7 ja 9 funktsiooni täielikule hindamisele. Treeningprotsessi olemusliku juhuslikkuse arvessevõtmiseks, mis on põhjustatud näiteks minipartii valimi võtmisest, käivitame nii ASHA kui ka vaikekonfiguratsiooni viie korduse jaoks juhuslike arvude generaatori sõltumatu seemnega ning esitame parameetri keskmise ja standardhälbe. suhteline paranemine korduste lõikes. Näeme, et kõigis andmekogumites saame tegelikult parandada prognoositavat jõudlust 1–3% võrreldes hoolikalt valitud vaikekonfiguratsiooni toimivusega.

Eelkoolitatud mudeli valimise automatiseerimine

Saame kasutada HPO-d mitte ainult hüperparameetrite leidmiseks, vaid ka õige eelkoolitatud mudeli automaatseks valimiseks. Miks me seda teha tahame? Kuna ükski mudel ei ületa kõigis andmekogumites, peame valima konkreetse andmekogumi jaoks õige mudeli. Selle demonstreerimiseks hindame Hugging Face'i populaarseid trafomudeleid. Iga andmekogumi puhul järjestame iga mudeli testi jõudluse järgi. Muutub andmekogumite paremusjärjestus (vt järgmist joonist) ja mitte ükski mudel, mis saavutaks iga andmestiku puhul kõrgeima punktisumma. Viitena näitame järgmisel joonisel ka iga mudeli ja andmekogumi absoluutset testi tulemuslikkust.

Õige mudeli automaatseks valimiseks saame valida mudeli valiku kategoorilisteks parameetriteks ja lisada selle meie hüperparameetrite otsinguruumi:

config_space['model_name_or_path'] = choice(['bert-base-cased', 'bert-base-uncased', 'distilbert-base-uncased', 'distilbert-base-cased', 'roberta-base', 'albert-base-v2', 'distilroberta-base', 'xlnet-base-cased', 'albert-base-v1'])

Kuigi otsinguruum on nüüd suurem, ei tähenda see tingimata, et seda oleks raskem optimeerida. Järgmisel joonisel on näidatud kõige paremini vaadeldud konfiguratsiooni testiviga (valideerimisvea põhjal) ASHA MRPC-andmestikul aja jooksul, kui otsime algsest ruumist (sinine joon) (BERT-i baasil valmistatud eelkoolitatud mudeliga). ) või uues laiendatud otsinguruumis (oranž joon). Sama eelarve juures suudab ASHA leida laiendatud otsinguruumis palju paremini toimiva hüperparameetri konfiguratsiooni kui väiksemas ruumis.

Eksemplari tüübi valimise automatiseerimine

Praktikas ei pruugi me ainult ennustava jõudluse optimeerimisest hoolida. Võime hoolida ka muudest eesmärkidest, nagu koolitusaeg, (dollari) maksumus, latentsusaeg või õigluse mõõdikud. Peame tegema ka muid valikuid peale mudeli hüperparameetrite, näiteks valima eksemplari tüübi.

Kuigi eksemplari tüüp ei mõjuta ennustavat jõudlust, mõjutab see tugevalt (dollari) kulusid, koolituse käitusaega ja latentsust. Viimane muutub mudeli kasutuselevõtul eriti oluliseks. Võime sõnastada HPO kui mitme eesmärgi optimeerimise probleemi, mille eesmärk on optimeerida mitut eesmärki samaaegselt. Ükski lahendus ei optimeeri aga kõiki mõõdikuid korraga. Selle asemel püüame leida komplekti konfiguratsioone, mis optimaalselt tasakaalustaksid ühe eesmärgi ja teise. Seda nimetatakse Pareto komplekt.

Selle sätte edasiseks analüüsimiseks lisame oma otsinguruumi täiendava kategoorilise hüperparameetrina eksemplari tüübi valiku:

config_space['st_instance_type'] = choice(['ml.g4dn.xlarge', 'ml.g4dn.2xlarge', 'ml.p2.xlarge', 'ml.g4dn.4xlarge', 'ml.g4dn.8xlarge', 'ml.p3.2xlarge'])

Me kasutame MO-ASHA, mis kohandab ASHA mitme eesmärgiga stsenaariumiga, kasutades mittedomineeritud sortimist. Igas iteratsioonis valib MO-ASHA iga konfiguratsiooni jaoks ka eksemplari tüübi, millel soovime seda hinnata. HPO käitamiseks heterogeensel eksemplaride komplektil pakub Syne Tune SageMakeri taustaprogrammi. Selle taustaprogrammiga hinnatakse iga prooviversiooni iseseisva SageMakeri koolitustööna oma eksemplaril. Töötajate arv määrab, mitut SageMakeri tööd me teatud ajahetkel paralleelselt käivitame. Optimeerija ise, meie puhul MO-ASHA, töötab kas kohalikus masinas, Sagemakeri sülearvutis või eraldi SageMakeri koolitustöös. Vaadake järgmist koodi:

backend = SageMakerBackend( sm_estimator=HuggingFace( entry_point=str('run_glue.py'), source_dir=os.getcwd(), base_job_name='glue-moasha', # instance-type given here are override by Syne Tune with values sampled from `st_instance_type`. instance_type='ml.m5.large', instance_count=1, py_version="py38", pytorch_version='1.9', transformers_version='4.12', max_run=3600, role=get_execution_role(), ),
)

Järgmistel joonistel on MRPC andmestikul pärast 10,800 XNUMX sekundilist käitamist neljal töötajal MO-ASHA (piirame nähtavuse telge) valitud juhuslike konfiguratsioonide latentsus- ja testiviga vasakul ning latentsus vs kulu paremal. Värv näitab eksemplari tüüpi. Katkendlik must joon tähistab Pareto komplekti, mis tähendab punktide kogumit, mis domineerib kõigis teistes punktides vähemalt ühes eesmärgis.

Võime täheldada kompromissi latentsusaja ja testivea vahel, mis tähendab, et parim konfiguratsioon madalaima testiveaga ei saavuta madalaimat latentsust. Oma eelistuse põhjal saate valida hüperparameetri konfiguratsiooni, mis ohverdab testi jõudlust, kuid millel on väiksem latentsusaeg. Näeme ka kompromissi latentsusaja ja kulu vahel. Näiteks väiksema ml.g4dn.xlarge eksemplari kasutamisel suurendame latentsust vaid veidi, kuid maksame neljandiku ml.g4dn.8xlarge eksemplari maksumusest.

Järeldus

Selles postituses arutasime hüperparameetrite optimeerimist Hugging Face'i eelkoolitatud trafomudelite peenhäälestamiseks, mis põhinevad Syne Tune'il. Nägime, et optimeerides hüperparameetreid, nagu õppimiskiirus, partii suurus ja soojendussuhe, saame hoolikalt valitud vaikekonfiguratsiooni täiustada. Samuti saame seda laiendada, valides hüperparameetrite optimeerimise kaudu automaatselt eelkoolitatud mudeli.

Syne Tune'i SageMakeri taustaprogrammi abil saame eksemplari tüüpi käsitleda hüperparameetrina. Kuigi eksemplari tüüp ei mõjuta jõudlust, mõjutab see märkimisväärselt latentsust ja kulusid. Seetõttu suudame HPO-d mitme eesmärgi optimeerimisprobleemina käsitledes leida konfiguratsioonide komplekti, mis optimaalselt tasakaalustavad ühe eesmärgi ja teise. Kui soovite seda ise proovida, vaadake meie näidismärkmik.

Autoritest

Aaron Klein on AWSi rakendusteadlane.

Matthias Seeger on AWSi juhtivteadlane.

David Salinas on AWS-i vanem rakendusteadlane.

Emily Webber liitus AWS-iga vahetult pärast SageMakeri käivitamist ja on sellest ajast saati üritanud sellest maailmale rääkida! Lisaks klientidele uute ML-kogemuste loomisele naudib Emily mediteerimist ja Tiibeti budismi õppimist.

Cedric Archambeau on AWSi juhtivteadlane ning Euroopa õppe- ja intelligentsete süsteemide labori liige.

Ajatempel: Juuni 29, 2022

Ajatempel: Aprill 11, 2023

Hüperparameetrite optimeerimine Hugging Face'i eelkoolitatud trafomudelite peenhäälestamiseks

Taasavaldanud Platon

Hüperparameetrite optimeerimine rakendusega Syne Tune

Eelkoolitatud mudeli valimise automatiseerimine

Eksemplari tüübi valimise automatiseerimine

Järeldus

Autoritest

Veel alates AWS-i masinõpe

Uus – koodita genereerivad AI-võimalused on nüüd saadaval Amazon SageMaker Canvas | Amazoni veebiteenused

Teatame värskendatud Microsoft OneDrive'i pistikust (V2) Amazon Kendra jaoks

Accenture loob regulatiivsete dokumentide loomise lahenduse, kasutades AWS-i generatiivseid tehisintellekti teenuseid | Amazoni veebiteenused

Amazon SageMaker koos TensorBoardiga: ülevaade hostitud TensorBoardi kogemusest

Masinõppe demüstifitseerimine äärealadel tegelike kasutusjuhtude kaudu

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto