Hyperparameter-Optimierung zur Feinabstimmung vortrainierter Transformer-Modelle von Hugging Face

Neuauflage von Plato

Verfolger: 0

Große aufmerksamkeitsbasierte Transformer-Modelle haben massive Fortschritte bei der Verarbeitung natürlicher Sprache (NLP) erzielt. Das Training dieser gigantischen Netzwerke von Grund auf erfordert jedoch eine enorme Menge an Daten und Rechenleistung. Für kleinere NLP-Datensätze besteht eine einfache, aber effektive Strategie darin, einen vortrainierten Transformer zu verwenden, der normalerweise unbeaufsichtigt an sehr großen Datensätzen trainiert wird, und ihn auf den interessierenden Datensatz zu optimieren. Gesicht umarmen unterhält einen großen Modellzoo dieser vortrainierten Transformatoren und macht sie auch für unerfahrene Benutzer leicht zugänglich.

Die Feinabstimmung dieser Modelle erfordert jedoch immer noch Expertenwissen, da sie sehr empfindlich auf ihre Hyperparameter wie Lernrate oder Stapelgröße reagieren. In diesem Beitrag zeigen wir, wie Sie diese Hyperparameter mit dem Open-Source-Framework optimieren können Syne-Melodie für die verteilte Hyperparameteroptimierung (HPO). Syne Tune ermöglicht es uns, eine bessere Hyperparameter-Konfiguration zu finden, die eine relative Verbesserung zwischen 1-4 % im Vergleich zu Standard-Hyperparametern bei Popular erzielt KLEBER Benchmark-Datensätze. Die Wahl des vortrainierten Modells selbst kann auch als Hyperparameter betrachtet werden und daher automatisch von Syne Tune ausgewählt werden. Bei einem Textklassifikationsproblem führt dies zu einer zusätzlichen Genauigkeitssteigerung von ca. 5 % im Vergleich zum Standardmodell. Wir können jedoch mehr Entscheidungen automatisieren, die ein Benutzer treffen muss; Wir demonstrieren dies, indem wir auch den Typ der Instanz als Hyperparameter verfügbar machen, den wir später zum Bereitstellen des Modells verwenden. Durch die Auswahl des richtigen Instanztyps können wir Konfigurationen finden, die Kosten und Latenz optimal ausbalancieren.

Eine Einführung in Syne Tune finden Sie unter Führen Sie verteilte Hyperparameter- und neuronale Architektur-Tuning-Jobs mit Syne Tune aus.

Hyperparameter-Optimierung mit Syne Tune

Wir werden die KLEBER Benchmark-Suite, die aus neun Datensätzen für Aufgaben zum Verständnis natürlicher Sprache besteht, wie z. B. Erkennung von Textfolgen oder Stimmungsanalysen. Dafür adaptieren wir Hugging Face's run_glue.py Trainingsskript. GLUE-Datensätze werden mit einem vordefinierten Trainings- und Bewertungssatz mit Beschriftungen sowie einem Hold-out-Testsatz ohne Beschriftungen geliefert. Daher teilen wir den Trainingssatz in einen Trainings- und einen Validierungssatz (70 %/30 %-Aufteilung) auf und verwenden den Bewertungssatz als unseren Holdout-Testdatensatz. Darüber hinaus fügen wir der Trainer-API von Hugging Face eine weitere Callback-Funktion hinzu, die die Validierungsleistung nach jeder Epoche an Syne Tune zurückmeldet. Siehe folgenden Code:

import transformers from syne_tune.report import Reporter class SyneTuneReporter(transformers.trainer_callback.TrainerCallback): def __init__(self): self.report = Reporter() def on_evaluate(self, args, state, control, **kwargs): results = kwargs['metrics'].copy() results['step'] = state.global_step results['epoch'] = int(state.epoch) self.report(**results)

Wir beginnen mit der Optimierung typischer Trainings-Hyperparameter: die Lernrate, das Aufwärmverhältnis zur Steigerung der Lernrate und die Stapelgröße zur Feinabstimmung eines vortrainierten BERT (Bert-Base-Gehäuse)-Modell, das das Standardmodell im Beispiel „Hugging Face“ ist. Siehe folgenden Code:

config_space = dict()
config_space['learning_rate'] = loguniform(1e-6, 1e-4)
config_space['per_device_train_batch_size'] = randint(16, 48)
config_space['warmup_ratio'] = uniform(0, 0.5)

Als unsere HPO-Methode verwenden wir ASHA, das Hyperparameterkonfigurationen gleichmäßig zufällig abtastet und iterativ die Auswertung von Konfigurationen mit schlechter Leistung stoppt. Obwohl ausgefeiltere Methoden ein probabilistisches Modell der Zielfunktion verwenden, wie es BO oder MoBster gibt, verwenden wir ASHA für diesen Beitrag, da er ohne Annahmen zum Suchraum auskommt.

In der folgenden Abbildung vergleichen wir die relative Verbesserung des Testfehlers gegenüber der standardmäßigen Hyperparameterkonfiguration von Hugging Faces.

Der Einfachheit halber beschränken wir den Vergleich auf MRPC, COLA und STSB, aber wir beobachten ähnliche Verbesserungen auch für andere GLUE-Datensätze. Für jeden Datensatz führen wir ASHA auf einer einzigen ml.g4dn.xlarge aus Amazon Sage Maker Instanz mit einem Laufzeitbudget von 1,800 Sekunden, was ungefähr 13, 7 bzw. 9 vollständigen Funktionsauswertungen dieser Datensätze entspricht. Um die intrinsische Zufälligkeit des Trainingsprozesses zu berücksichtigen, die beispielsweise durch das Mini-Batch-Sampling verursacht wird, führen wir sowohl ASHA als auch die Standardkonfiguration für fünf Wiederholungen mit einem unabhängigen Startwert für den Zufallszahlengenerator aus und melden den Durchschnitt und die Standardabweichung der relative Verbesserung über die Wiederholungen hinweg. Wir können sehen, dass wir über alle Datensätze hinweg die Vorhersageleistung im Vergleich zur Leistung der sorgfältig ausgewählten Standardkonfiguration tatsächlich um 1-3 % verbessern können.

Automatisieren Sie die Auswahl des vortrainierten Modells

Wir können HPO verwenden, um nicht nur Hyperparameter zu finden, sondern auch automatisch das richtige vortrainierte Modell auszuwählen. Warum wollen wir das tun? Da kein einzelnes Modell über alle Datensätze hinweg eine hervorragende Leistung erbringt, müssen wir das richtige Modell für einen bestimmten Datensatz auswählen. Um dies zu demonstrieren, evaluieren wir eine Reihe beliebter Trafo-Modelle von Hugging Face. Für jeden Datensatz stufen wir jedes Modell nach seiner Testleistung ein. Die Rangfolge der Datensätze (siehe folgende Abbildung) ändert sich und nicht ein einzelnes Modell, das bei jedem Datensatz die höchste Punktzahl erzielt. Als Referenz zeigen wir auch die absolute Testleistung jedes Modells und Datensatzes in der folgenden Abbildung.

Um automatisch das richtige Modell auszuwählen, können wir die Wahl des Modells in kategoriale Parameter umwandeln und dies unserem Hyperparameter-Suchraum hinzufügen:

config_space['model_name_or_path'] = choice(['bert-base-cased', 'bert-base-uncased', 'distilbert-base-uncased', 'distilbert-base-cased', 'roberta-base', 'albert-base-v2', 'distilroberta-base', 'xlnet-base-cased', 'albert-base-v1'])

Obwohl der Suchraum jetzt größer ist, bedeutet das nicht unbedingt, dass er schwieriger zu optimieren ist. Die folgende Abbildung zeigt den Testfehler der am besten beobachteten Konfiguration (basierend auf dem Validierungsfehler) auf dem MRPC-Datensatz von ASHA im Laufe der Zeit, wenn wir im ursprünglichen Bereich (blaue Linie) suchen (mit einem BERT-basierten, vortrainierten Modell). ) oder im neuen erweiterten Suchbereich (orangefarbene Linie). Bei gleichem Budget ist ASHA in der Lage, im erweiterten Suchbereich eine viel leistungsfähigere Hyperparameterkonfiguration zu finden als im kleineren Bereich.

Automatisieren Sie die Auswahl des Instance-Typs

In der Praxis geht es uns möglicherweise nicht nur um die Optimierung der Vorhersageleistung. Wir könnten uns auch um andere Ziele kümmern, wie z. B. Trainingszeit, (Dollar-)Kosten, Latenz oder Fairness-Metriken. Wir müssen auch andere Entscheidungen über die Hyperparameter des Modells hinaus treffen, beispielsweise die Auswahl des Instanztyps.

Obwohl der Instance-Typ die Vorhersageleistung nicht beeinflusst, wirkt er sich stark auf die (Dollar-)Kosten, die Trainingslaufzeit und die Latenz aus. Letzteres wird besonders wichtig, wenn das Modell eingesetzt wird. Wir können HPO als ein Optimierungsproblem mit mehreren Zielen formulieren, bei dem wir darauf abzielen, mehrere Ziele gleichzeitig zu optimieren. Allerdings optimiert keine einzelne Lösung alle Metriken gleichzeitig. Stattdessen zielen wir darauf ab, eine Reihe von Konfigurationen zu finden, die ein Ziel optimal gegen das andere abwägen. Dies nennt man die Pareto-Satz.

Um diese Einstellung weiter zu analysieren, fügen wir unserem Suchraum die Wahl des Instanztyps als zusätzlichen kategorialen Hyperparameter hinzu:

config_space['st_instance_type'] = choice(['ml.g4dn.xlarge', 'ml.g4dn.2xlarge', 'ml.p2.xlarge', 'ml.g4dn.4xlarge', 'ml.g4dn.8xlarge', 'ml.p3.2xlarge'])

Wir verwenden MO-ASHA, das ASHA an das Szenario mit mehreren Zielen anpasst, indem nicht dominiertes Sortieren verwendet wird. In jeder Iteration wählt MO-ASHA auch für jede Konfiguration auch den Typ der Instanz aus, auf der wir sie evaluieren möchten. Um HPO auf einem heterogenen Satz von Instanzen auszuführen, stellt Syne Tune das SageMaker-Backend bereit. Mit diesem Backend wird jede Testversion als unabhängiger SageMaker-Trainingsjob auf einer eigenen Instanz bewertet. Die Anzahl der Worker definiert, wie viele SageMaker-Jobs wir zu einem bestimmten Zeitpunkt parallel ausführen. Der Optimierer selbst, in unserem Fall MO-ASHA, läuft entweder auf dem lokalen Rechner, einem Sagemaker-Notebook oder auf einem separaten SageMaker-Trainingsjob. Siehe folgenden Code:

backend = SageMakerBackend( sm_estimator=HuggingFace( entry_point=str('run_glue.py'), source_dir=os.getcwd(), base_job_name='glue-moasha', # instance-type given here are override by Syne Tune with values sampled from `st_instance_type`. instance_type='ml.m5.large', instance_count=1, py_version="py38", pytorch_version='1.9', transformers_version='4.12', max_run=3600, role=get_execution_role(), ),
)

Die folgenden Abbildungen zeigen links die Latenz im Vergleich zum Testfehler und rechts die Latenz im Vergleich zu den Kosten für zufällige Konfigurationen, die von MO-ASHA (wir begrenzen die Achse für die Sichtbarkeit) auf dem MRPC-Datensatz abgetastet haben, nachdem er 10,800 Sekunden lang auf vier Arbeitern ausgeführt wurde. Die Farbe gibt den Instanztyp an. Die gestrichelte schwarze Linie stellt die Pareto-Menge dar, dh die Menge von Punkten, die alle anderen Punkte in mindestens einem Ziel dominieren.

Wir können einen Kompromiss zwischen Latenz und Testfehler beobachten, was bedeutet, dass die beste Konfiguration mit dem niedrigsten Testfehler nicht die niedrigste Latenz erreicht. Basierend auf Ihren Vorlieben können Sie eine Hyperparameter-Konfiguration auswählen, die die Testleistung beeinträchtigt, aber eine geringere Latenz aufweist. Wir sehen auch den Kompromiss zwischen Latenz und Kosten. Durch die Verwendung einer kleineren ml.g4dn.xlarge-Instanz erhöhen wir beispielsweise die Latenz nur geringfügig, zahlen aber ein Viertel der Kosten einer ml.g4dn.8xlarge-Instanz.

Zusammenfassung

In diesem Beitrag haben wir die Hyperparameter-Optimierung zur Feinabstimmung vortrainierter Transformer-Modelle von Hugging Face auf Basis von Syne Tune besprochen. Wir haben gesehen, dass wir durch die Optimierung von Hyperparametern wie Lernrate, Stapelgröße und Aufwärmverhältnis die sorgfältig ausgewählte Standardkonfiguration verbessern können. Wir können dies auch erweitern, indem wir das vortrainierte Modell automatisch über die Hyperparameter-Optimierung auswählen.

Mit Hilfe des SageMaker-Backends von Syne Tune können wir den Instanztyp als Hyperparameter behandeln. Obwohl sich der Instance-Typ nicht auf die Leistung auswirkt, hat er erhebliche Auswirkungen auf die Latenz und die Kosten. Indem wir HPO als Optimierungsproblem mit mehreren Zielen darstellen, sind wir daher in der Lage, eine Reihe von Konfigurationen zu finden, die ein Ziel optimal gegen das andere abwägen. Wenn Sie dies selbst ausprobieren möchten, schauen Sie sich unsere an Beispiel Notizbuch.

Über die Autoren

Aaron Klein ist angewandter Wissenschaftler bei AWS.

Mathias Seeger ist Principal Applied Scientist bei AWS.

David Salinas ist Senior Applied Scientist bei AWS.

Emily Weber trat AWS kurz nach dem Start von SageMaker bei und versucht seitdem, der Welt davon zu erzählen! Abgesehen davon, dass sie neue ML-Erfahrungen für Kunden entwickelt, meditiert Emily gerne und studiert den tibetischen Buddhismus.

Cédric Archambeau ist Principal Applied Scientist bei AWS und Fellow des European Lab for Learning and Intelligent Systems.

Zeitstempel: 29. Juni 2022

Zeitstempel: 26. Juni 2023

Hyperparameter-Optimierung zur Feinabstimmung vortrainierter Transformatormodelle von Hugging Face

Neuauflage von Plato

Hyperparameter-Optimierung mit Syne Tune

Automatisieren Sie die Auswahl des vortrainierten Modells

Automatisieren Sie die Auswahl des Instance-Typs

Zusammenfassung

Über die Autoren

Mehr von AWS Maschinelles Lernen

Indizieren Sie Ihre im Web gecrawlten Inhalte mit dem neuen Web Crawler für Amazon Kendra | Amazon Web Services

Beschleunigung des groß angelegten neuronalen Netzwerktrainings auf CPUs mit ThirdAI und AWS Graviton | Amazon Web Services

Ermöglichen Sie eine intelligente Entscheidungsfindung mit Amazon SageMaker Canvas und Amazon QuickSight

Wie VistaPrint mit Amazon Personalize personalisierte Produktempfehlungen liefert | Amazon Web Services

Inkrementelles Training mit Amazon SageMaker JumpStart

Beschleunigen Sie den Entwicklungslebenszyklus des Amazon Lex-Chatbots mit Test Workbench | Amazon Web Services

Definieren Sie benutzerdefinierte Berechtigungen in wenigen Minuten mit Amazon SageMaker Role Manager über das AWS CDK | Amazon Web Services

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto