การเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์สำหรับการปรับจูนโมเดลหม้อแปลงไฟฟ้าที่ผ่านการฝึกอบรมล่วงหน้าอย่างละเอียดจากการกอดใบหน้า

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

โมเดลหม้อแปลงที่เน้นความสนใจจำนวนมากได้รับผลประโยชน์มหาศาลจากการประมวลผลภาษาธรรมชาติ (NLP) อย่างไรก็ตาม การฝึกอบรมเครือข่ายขนาดยักษ์เหล่านี้ตั้งแต่ต้นต้องใช้ข้อมูลและการคำนวณจำนวนมหาศาล สำหรับชุดข้อมูล NLP ที่มีขนาดเล็กลง กลยุทธ์ที่เรียบง่ายแต่มีประสิทธิภาพคือการใช้หม้อแปลงไฟฟ้าที่ผ่านการฝึกอบรมมาแล้ว ซึ่งมักจะได้รับการฝึกฝนในรูปแบบที่ไม่มีผู้ดูแลบนชุดข้อมูลขนาดใหญ่มาก และปรับแต่งชุดข้อมูลที่สนใจ กอดหน้า มีสวนสัตว์จำลองขนาดใหญ่ของหม้อแปลงไฟฟ้าที่ผ่านการฝึกอบรมมาแล้ว และทำให้เข้าถึงได้ง่ายแม้สำหรับผู้ใช้มือใหม่

อย่างไรก็ตาม การปรับแต่งโมเดลเหล่านี้อย่างละเอียดยังคงต้องการความรู้จากผู้เชี่ยวชาญ เนื่องจากโมเดลเหล่านี้ค่อนข้างอ่อนไหวต่อไฮเปอร์พารามิเตอร์ เช่น อัตราการเรียนรู้หรือขนาดแบทช์ ในโพสต์นี้ เราแสดงวิธีเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์เหล่านี้ด้วยเฟรมเวิร์กโอเพนซอร์ส ไซน์ทูน สำหรับการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์แบบกระจาย (HPO) Syne Tune ช่วยให้เราสามารถค้นหาการกำหนดค่าไฮเปอร์พารามิเตอร์ที่ดีกว่าซึ่งได้รับการปรับปรุงสัมพัทธ์ระหว่าง 1-4% เมื่อเทียบกับไฮเปอร์พารามิเตอร์เริ่มต้นในความนิยม กาว ชุดข้อมูลมาตรฐาน ทางเลือกของรุ่นก่อนการฝึกอบรมนั้นยังถือเป็นไฮเปอร์พารามิเตอร์ ดังนั้น Syne Tune จะเลือกโดยอัตโนมัติ สำหรับปัญหาการจัดประเภทข้อความ สิ่งนี้นำไปสู่การเพิ่มความแม่นยำเพิ่มเติมประมาณ 5% เมื่อเทียบกับแบบจำลองเริ่มต้น อย่างไรก็ตาม เราสามารถทำการตัดสินใจที่ผู้ใช้ต้องทำได้มากขึ้นโดยอัตโนมัติ เราสาธิตสิ่งนี้โดยเปิดเผยประเภทของอินสแตนซ์เป็นไฮเปอร์พารามิเตอร์ที่เราใช้ในการปรับใช้โมเดลในภายหลัง ด้วยการเลือกประเภทอินสแตนซ์ที่เหมาะสม เราจะพบการกำหนดค่าที่ลดต้นทุนและเวลาแฝงได้อย่างเหมาะสม

สำหรับการแนะนำ Syne Tune โปรดดูที่ เรียกใช้งานปรับแต่งไฮเปอร์พารามิเตอร์และสถาปัตยกรรมประสาทด้วย Syne Tune.

การเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์ด้วย Syne Tune

เราจะใช้ กาว ชุดมาตรฐานซึ่งประกอบด้วยชุดข้อมูลเก้าชุดสำหรับงานทำความเข้าใจภาษาธรรมชาติ เช่น การรับรู้ข้อความหรือการวิเคราะห์ความรู้สึก เพื่อการนั้น เราจึงปรับ Hugging Face's run_glue.py สคริปต์การฝึกอบรม ชุดข้อมูล GLUE มาพร้อมกับชุดฝึกอบรมและประเมินผลที่กำหนดไว้ล่วงหน้าพร้อมป้ายกำกับ รวมถึงชุดทดสอบการพักสายที่ไม่มีป้ายกำกับ ดังนั้นเราจึงแบ่งชุดการฝึกออกเป็นชุดการฝึกและการตรวจสอบ (แบ่ง 70%/30%) และใช้ชุดการประเมินเป็นชุดข้อมูลการทดสอบการพัก นอกจากนี้เรายังเพิ่มฟังก์ชันเรียกกลับอื่นให้กับ Trainer API ของ Hugging Face ซึ่งจะรายงานประสิทธิภาพการตรวจสอบหลังจากแต่ละยุคกลับไปยัง Syne Tune ดูรหัสต่อไปนี้:

import transformers from syne_tune.report import Reporter class SyneTuneReporter(transformers.trainer_callback.TrainerCallback): def __init__(self): self.report = Reporter() def on_evaluate(self, args, state, control, **kwargs): results = kwargs['metrics'].copy() results['step'] = state.global_step results['epoch'] = int(state.epoch) self.report(**results)

เราเริ่มต้นด้วยการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์การฝึกอบรมทั่วไปให้เหมาะสม: อัตราการเรียนรู้ อัตราส่วนการวอร์มอัพเพื่อเพิ่มอัตราการเรียนรู้ และขนาดแบทช์สำหรับการปรับแต่ง BERT ที่ฝึกไว้ล่วงหน้า (bert-เบส-เคส) ซึ่งเป็นโมเดลเริ่มต้นในตัวอย่าง Hugging Face ดูรหัสต่อไปนี้:

config_space = dict()
config_space['learning_rate'] = loguniform(1e-6, 1e-4)
config_space['per_device_train_batch_size'] = randint(16, 48)
config_space['warmup_ratio'] = uniform(0, 0.5)

เป็นวิธีการ HPO ของเรา เราใช้ อาชาซึ่งสุ่มตัวอย่างการกำหนดค่าไฮเปอร์พารามิเตอร์อย่างสม่ำเสมอโดยสุ่มและหยุดการประเมินการกำหนดค่าที่มีประสิทธิภาพต่ำซ้ำๆ แม้ว่าวิธีการที่ซับซ้อนกว่านั้นจะใช้แบบจำลองความน่าจะเป็นของฟังก์ชันวัตถุประสงค์ เช่น BO หรือ MoBster มีอยู่ แต่เราใช้ ASHA สำหรับโพสต์นี้ เพราะมันมาโดยไม่มีข้อสันนิษฐานใดๆ ในพื้นที่การค้นหา

ในรูปต่อไปนี้ เราเปรียบเทียบการปรับปรุงสัมพัทธ์ในข้อผิดพลาดในการทดสอบกับการกำหนดค่าไฮเปอร์พารามิเตอร์เริ่มต้นของ Hugging Faces

เพื่อความง่าย เราจำกัดการเปรียบเทียบกับ MRPC, COLA และ STSB แต่เรายังสังเกตเห็นการปรับปรุงที่คล้ายกันสำหรับชุดข้อมูล GLUE อื่นๆ ด้วย สำหรับแต่ละชุดข้อมูล เราเรียกใช้ ASHA บน ml.g4dn.xlarge . เดียว อเมซอน SageMaker อินสแตนซ์ที่มีงบประมาณรันไทม์ 1,800 วินาที ซึ่งสอดคล้องกับการประเมินฟังก์ชันเต็มรูปแบบประมาณ 13, 7 และ 9 รายการในชุดข้อมูลเหล่านี้ตามลำดับ เพื่อพิจารณาการสุ่มที่แท้จริงของกระบวนการฝึกอบรม ตัวอย่างเช่น เกิดจากการสุ่มตัวอย่างแบบกลุ่มย่อย เราเรียกใช้ทั้ง ASHA และการกำหนดค่าเริ่มต้นสำหรับการทำซ้ำห้าครั้งด้วยเมล็ดพันธุ์อิสระสำหรับเครื่องกำเนิดตัวเลขสุ่ม และรายงานค่าเบี่ยงเบนมาตรฐานและค่าเฉลี่ยของ การปรับปรุงสัมพัทธ์ในการทำซ้ำ เราเห็นได้ว่าในชุดข้อมูลทั้งหมด เราสามารถปรับปรุงประสิทธิภาพการคาดการณ์ได้ 1-3% เมื่อเทียบกับประสิทธิภาพของการกำหนดค่าเริ่มต้นที่เลือกมาอย่างดี

อัตโนมัติเลือกรุ่นก่อนการฝึกอบรม

เราสามารถใช้ HPO เพื่อไม่เพียงแต่ค้นหาไฮเปอร์พารามิเตอร์เท่านั้น แต่ยังเลือกแบบจำลองก่อนการฝึกอบรมที่เหมาะสมโดยอัตโนมัติอีกด้วย ทำไมเราต้องการทำเช่นนี้? เนื่องจากไม่มีแบบจำลองใดที่มีประสิทธิภาพเหนือกว่าชุดข้อมูลทั้งหมด เราจึงต้องเลือกแบบจำลองที่เหมาะสมสำหรับชุดข้อมูลเฉพาะ เพื่อแสดงให้เห็นสิ่งนี้ เราประเมินรุ่นหม้อแปลงยอดนิยมหลายรุ่นจาก Hugging Face สำหรับแต่ละชุดข้อมูล เราจัดอันดับแต่ละรุ่นตามประสิทธิภาพการทดสอบ การจัดอันดับในชุดข้อมูล (ดูรูปต่อไปนี้) เปลี่ยนแปลงและไม่ใช่รูปแบบเดียวที่ทำคะแนนสูงสุดในทุกชุดข้อมูล ตามข้อมูลอ้างอิง เรายังแสดงประสิทธิภาพการทดสอบสัมบูรณ์ของแต่ละรุ่นและชุดข้อมูลในรูปต่อไปนี้

ในการเลือกแบบจำลองที่เหมาะสมโดยอัตโนมัติ เราสามารถกำหนดตัวเลือกของแบบจำลองเป็นพารามิเตอร์ตามหมวดหมู่ และเพิ่มสิ่งนี้ลงในพื้นที่การค้นหาไฮเปอร์พารามิเตอร์ของเรา:

config_space['model_name_or_path'] = choice(['bert-base-cased', 'bert-base-uncased', 'distilbert-base-uncased', 'distilbert-base-cased', 'roberta-base', 'albert-base-v2', 'distilroberta-base', 'xlnet-base-cased', 'albert-base-v1'])

แม้ว่าตอนนี้พื้นที่การค้นหาจะใหญ่ขึ้น แต่ก็ไม่ได้หมายความว่าจะเพิ่มประสิทธิภาพได้ยากขึ้นเสมอไป รูปต่อไปนี้แสดงข้อผิดพลาดในการทดสอบของการกำหนดค่าที่สังเกตได้ดีที่สุด (อิงจากข้อผิดพลาดในการตรวจสอบความถูกต้อง) บนชุดข้อมูล MRPC ของ ASHA เมื่อเวลาผ่านไปเมื่อเราค้นหาในพื้นที่เดิม (เส้นสีน้ำเงิน) (ด้วยโมเดล pre-trained ของ BERT-base-cased ) หรือในช่องค้นหาที่เพิ่มใหม่ (เส้นสีส้ม) ด้วยงบประมาณเท่ากัน ASHA สามารถค้นหาการกำหนดค่าไฮเปอร์พารามิเตอร์ที่มีประสิทธิภาพดีกว่ามากในพื้นที่การค้นหาที่ขยายมากกว่าในพื้นที่ที่เล็กกว่า

เลือกประเภทอินสแตนซ์โดยอัตโนมัติ

ในทางปฏิบัติ เราอาจไม่ได้สนใจแค่การเพิ่มประสิทธิภาพการคาดการณ์เท่านั้น เรายังอาจสนใจเกี่ยวกับวัตถุประสงค์อื่นๆ เช่น เวลาฝึกอบรม ค่าใช้จ่าย (ดอลลาร์) เวลาแฝง หรือตัวชี้วัดความเป็นธรรม เรายังต้องสร้างตัวเลือกอื่นๆ นอกเหนือจากไฮเปอร์พารามิเตอร์ของโมเดล เช่น การเลือกประเภทอินสแตนซ์

แม้ว่าประเภทอินสแตนซ์จะไม่ส่งผลต่อประสิทธิภาพการคาดการณ์ แต่จะมีผลกระทบอย่างมากต่อค่าใช้จ่าย (ดอลลาร์) รันไทม์การฝึกอบรม และเวลาแฝง หลังมีความสำคัญอย่างยิ่งเมื่อมีการปรับใช้โมเดล เราสามารถระบุ HPO ว่าเป็นปัญหาการปรับให้เหมาะสมแบบหลายวัตถุประสงค์ ซึ่งเราตั้งเป้าที่จะเพิ่มประสิทธิภาพหลายวัตถุประสงค์พร้อมกัน อย่างไรก็ตาม ไม่มีโซลูชันเดียวที่ปรับเมตริกทั้งหมดให้เหมาะสมในเวลาเดียวกัน แต่เราตั้งเป้าที่จะค้นหาชุดการกำหนดค่าที่แลกเปลี่ยนวัตถุประสงค์หนึ่งกับอีกวัตถุประสงค์หนึ่งได้อย่างเหมาะสมที่สุด นี้เรียกว่า ชุดพาเรโต้.

เพื่อวิเคราะห์การตั้งค่านี้เพิ่มเติม เราได้เพิ่มตัวเลือกประเภทอินสแตนซ์เป็นไฮเปอร์พารามิเตอร์ตามหมวดหมู่เพิ่มเติมในพื้นที่การค้นหาของเรา:

config_space['st_instance_type'] = choice(['ml.g4dn.xlarge', 'ml.g4dn.2xlarge', 'ml.p2.xlarge', 'ml.g4dn.4xlarge', 'ml.g4dn.8xlarge', 'ml.p3.2xlarge'])

เราใช้ MO-อาชาซึ่งปรับ ASHA ให้เข้ากับสถานการณ์สมมติหลายวัตถุประสงค์โดยใช้การเรียงลำดับที่ไม่ครอบงำ ในการวนซ้ำแต่ละครั้ง MO-ASHA ยังเลือกการกำหนดค่าแต่ละรายการด้วย รวมถึงประเภทของอินสแตนซ์ที่เราต้องการประเมินด้วย ในการรัน HPO บนชุดอินสแตนซ์ที่ต่างกัน Syne Tune จัดเตรียมแบ็กเอนด์ SageMaker ด้วยแบ็กเอนด์นี้ การทดลองแต่ละครั้งจะได้รับการประเมินว่าเป็นงานฝึกอบรม SageMaker อิสระในอินสแตนซ์ของตัวเอง จำนวนผู้ปฏิบัติงานกำหนดจำนวนงาน SageMaker ที่เราเรียกใช้พร้อมกันในเวลาที่กำหนด ตัวเพิ่มประสิทธิภาพเอง MO-ASHA ในกรณีของเรา ทำงานบนเครื่องในพื้นที่ โน้ตบุ๊ก Sagemaker หรืองานฝึกอบรม SageMaker ที่แยกต่างหาก ดูรหัสต่อไปนี้:

backend = SageMakerBackend( sm_estimator=HuggingFace( entry_point=str('run_glue.py'), source_dir=os.getcwd(), base_job_name='glue-moasha', # instance-type given here are override by Syne Tune with values sampled from `st_instance_type`. instance_type='ml.m5.large', instance_count=1, py_version="py38", pytorch_version='1.9', transformers_version='4.12', max_run=3600, role=get_execution_role(), ),
)

ตัวเลขต่อไปนี้แสดงข้อผิดพลาดเวลาแฝงเทียบกับการทดสอบทางด้านซ้ายและเวลาแฝงเทียบกับต้นทุนทางด้านขวาสำหรับการกำหนดค่าแบบสุ่มที่สุ่มตัวอย่างโดย MO-ASHA (เราจำกัดแกนสำหรับการมองเห็น) บนชุดข้อมูล MRPC หลังจากรันเป็นเวลา 10,800 วินาทีกับคนทำงานสี่คน สีระบุประเภทอินสแตนซ์ เส้นประสีดำแสดงถึงชุด Pareto ซึ่งหมายถึงชุดของจุดที่ครอบงำจุดอื่นๆ ทั้งหมดในวัตถุประสงค์อย่างน้อยหนึ่งรายการ

เราสามารถสังเกตการประนีประนอมระหว่างเวลาแฝงและข้อผิดพลาดในการทดสอบ ซึ่งหมายความว่าการกำหนดค่าที่ดีที่สุดที่มีข้อผิดพลาดในการทดสอบต่ำสุดจะไม่ได้รับเวลาแฝงที่ต่ำที่สุด คุณสามารถเลือกการกำหนดค่าไฮเปอร์พารามิเตอร์ที่ลดประสิทธิภาพการทดสอบลงได้ตามความต้องการของคุณ แต่มาพร้อมกับเวลาแฝงที่น้อยกว่า นอกจากนี้เรายังเห็นการแลกเปลี่ยนระหว่างเวลาแฝงและต้นทุน ตัวอย่างเช่น การใช้อินสแตนซ์ ml.g4dn.xlarge ที่เล็กกว่านั้น เราเพิ่มเวลาแฝงเพียงเล็กน้อยเท่านั้น แต่จ่ายหนึ่งในสี่ของต้นทุนของอินสแตนซ์ ml.g4dn.8xlarge

สรุป

ในโพสต์นี้ เราได้พูดถึงการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์สำหรับการปรับโมเดลหม้อแปลงไฟฟ้าที่ผ่านการฝึกอบรมล่วงหน้าอย่างละเอียดจาก Hugging Face โดยอิงจาก Syne Tune เราเห็นว่าการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์ เช่น อัตราการเรียนรู้ ขนาดแบทช์ และอัตราส่วนการวอร์มอัพ ทำให้เราปรับปรุงการกำหนดค่าเริ่มต้นที่เลือกมาอย่างดีได้ นอกจากนี้เรายังสามารถขยายสิ่งนี้ได้ด้วยการเลือกโมเดลที่ได้รับการฝึกอบรมล่วงหน้าโดยอัตโนมัติผ่านการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์

ด้วยความช่วยเหลือจากแบ็กเอนด์ SageMaker ของ Syne Tune เราสามารถถือว่าประเภทอินสแตนซ์เป็นไฮเปอร์พารามิเตอร์ได้ แม้ว่าประเภทอินสแตนซ์จะไม่ส่งผลต่อประสิทธิภาพ แต่ก็มีผลกระทบอย่างมากต่อเวลาในการตอบสนองและค่าใช้จ่าย ดังนั้น โดยการกำหนดให้ HPO เป็นปัญหาการปรับให้เหมาะสมแบบหลายวัตถุประสงค์ เราจึงสามารถค้นหาชุดการกำหนดค่าที่แลกเปลี่ยนวัตถุประสงค์หนึ่งกับอีกวัตถุประสงค์หนึ่งได้อย่างเหมาะสมที่สุด หากคุณต้องการลองด้วยตัวเองลองดูที่ .ของเรา ตัวอย่างโน๊ตบุ๊ค.

เกี่ยวกับผู้เขียน

แอรอนไคลน์ เป็นนักวิทยาศาสตร์ประยุกต์ที่ AWS

มาเธียส ซีเกอร์ เป็นหัวหน้านักวิทยาศาสตร์ประยุกต์ที่ AWS

เดวิด ซาลินาส เป็น Sr Applied Scientist ที่ AWS

เอมิลี่ เว็บเบอร์ เข้าร่วม AWS หลังจากเปิดตัว SageMaker และพยายามบอกให้โลกรู้ตั้งแต่นั้นมา! นอกเหนือจากการสร้างประสบการณ์ ML ใหม่ให้กับลูกค้าแล้ว เอมิลี่ชอบนั่งสมาธิและศึกษาพุทธศาสนาในทิเบต

เซดริก อาร์แชมโบ เป็นนักวิทยาศาสตร์ประยุกต์หลักที่ AWS และ Fellow of the European Lab for Learning and Intelligent Systems

ประทับเวลา: มิถุนายน 29, 2022

ประทับเวลา: ธันวาคม 16, 2022

เผยแพร่ซ้ำโดยเพลโต

การเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์ด้วย Syne Tune

อัตโนมัติเลือกรุ่นก่อนการฝึกอบรม

เลือกประเภทอินสแตนซ์โดยอัตโนมัติ

สรุป

เกี่ยวกับผู้เขียน

เพิ่มเติมจาก AWS Machine Learning AWS

VMware สร้างไปป์ไลน์ MLOps ตั้งแต่เริ่มต้นโดยใช้ GitLab, Amazon MWAA และ Amazon SageMaker ได้อย่างไร

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้