โฮสต์โมเดล ML บน Amazon SageMaker โดยใช้ Triton: โมเดล ONNX

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ออนเอ็นเอ็กซ์ (เปิด Neural Network Exchange) เป็นมาตรฐานโอเพ่นซอร์สสำหรับการแสดงโมเดลการเรียนรู้เชิงลึกที่ได้รับการสนับสนุนอย่างกว้างขวางจากผู้ให้บริการจำนวนมาก ONNX มีเครื่องมือสำหรับการเพิ่มประสิทธิภาพและการวัดปริมาณโมเดลเพื่อลดหน่วยความจำและการคำนวณที่จำเป็นในการเรียกใช้โมเดลแมชชีนเลิร์นนิง (ML) ประโยชน์ที่ใหญ่ที่สุดอย่างหนึ่งของ ONNX คือมีรูปแบบมาตรฐานสำหรับการแสดงและแลกเปลี่ยนโมเดล ML ระหว่างเฟรมเวิร์กและเครื่องมือต่างๆ ซึ่งช่วยให้นักพัฒนาสามารถฝึกโมเดลของตนในเฟรมเวิร์กหนึ่งและปรับใช้ในอีกเฟรมเวิร์กหนึ่ง โดยไม่จำเป็นต้องแปลงโมเดลหรือฝึกซ้ำมากมาย ด้วยเหตุผลเหล่านี้ ONNX จึงมีความสำคัญอย่างมากในชุมชน ML

ในโพสต์นี้ เราจะแสดงวิธีปรับใช้โมเดลที่ใช้ ONNX สำหรับปลายทางแบบหลายโมเดล (MME) ที่ใช้ GPU นี่คือความต่อเนื่องของโพสต์ เรียกใช้โมเดลการเรียนรู้เชิงลึกหลายรายการบน GPU ด้วยตำแหน่งข้อมูลหลายรุ่นของ Amazon SageMakerซึ่งเราได้แสดงวิธีการปรับใช้โมเดล ResNet50 เวอร์ชัน PyTorch และ TensorRT บนเซิร์ฟเวอร์ Triton Inference ของ Nvidia ในโพสต์นี้ เราใช้โมเดล ResNet50 เดียวกันในรูปแบบ ONNX พร้อมกับโมเดลตัวอย่างการประมวลผลภาษาธรรมชาติ (NLP) เพิ่มเติมในรูปแบบ ONNX เพื่อแสดงวิธีการปรับใช้บน Triton นอกจากนี้ เรายังเปรียบเทียบโมเดล ResNet50 และดูประโยชน์ด้านประสิทธิภาพที่ ONNX มีให้เมื่อเปรียบเทียบกับรุ่น PyTorch และ TensorRT ของรุ่นเดียวกัน โดยใช้อินพุตเดียวกัน

รันไทม์ ONNX

รันไทม์ ONNX เป็นเครื่องมือรันไทม์สำหรับการอนุมาน ML ที่ออกแบบมาเพื่อเพิ่มประสิทธิภาพการทำงานของโมเดลในแพลตฟอร์มฮาร์ดแวร์ต่างๆ รวมถึง CPU และ GPU อนุญาตให้ใช้เฟรมเวิร์ก ML เช่น PyTorch และ TensorFlow มันอำนวยความสะดวก การปรับแต่งประสิทธิภาพ เพื่อเรียกใช้โมเดลอย่างคุ้มค่าบนฮาร์ดแวร์เป้าหมายและรองรับคุณสมบัติต่างๆ เช่น quantization และการเร่งฮาร์ดแวร์ ทำให้เป็นหนึ่งในตัวเลือกที่เหมาะสมที่สุดสำหรับการปรับใช้แอปพลิเคชัน ML ที่มีประสิทธิภาพและประสิทธิภาพสูง สำหรับตัวอย่างวิธีการปรับแต่งโมเดล ONNX สำหรับ GPU ของ Nvidia ด้วย TensorRT โปรดดูที่ การเพิ่มประสิทธิภาพ TensorRT (ORT-TRT) และ รันไทม์ ONNX พร้อมการเพิ่มประสิทธิภาพ TensorRT.

พื้นที่ อเมซอน SageMaker ตู้คอนเทนเนอร์ไทรทัน การไหลแสดงไว้ในไดอะแกรมต่อไปนี้

ผู้ใช้สามารถส่งคำขอ HTTPS พร้อมเพย์โหลดอินพุตสำหรับการอนุมานตามเวลาจริงที่อยู่เบื้องหลังตำแหน่งข้อมูล SageMaker ผู้ใช้สามารถระบุ TargetModel ส่วนหัวที่มีชื่อของรุ่นที่คำขอดังกล่าวถูกกำหนดให้เรียกใช้ ภายใน คอนเทนเนอร์ SageMaker Triton ใช้เซิร์ฟเวอร์ HTTP ที่มีสัญญาเดียวกันกับที่กล่าวถึง คอนเทนเนอร์ตอบสนองคำขออย่างไร. มีการรองรับการแบทช์แบบไดนามิกและรองรับทั้งหมด แบ็กเอนด์ที่ไทรทันมีให้. ตามการกำหนดค่า รันไทม์ ONNX จะถูกเรียกใช้และคำขอจะได้รับการประมวลผลบน CPU หรือ GPU ตามที่กำหนดไว้ล่วงหน้าในการกำหนดค่าโมเดลที่ผู้ใช้ให้มา

ภาพรวมโซลูชัน

หากต้องการใช้แบ็กเอนด์ ONNX ให้ทำตามขั้นตอนต่อไปนี้:

รวบรวมโมเดลเป็นรูปแบบ ONNX
กำหนดค่าโมเดล
สร้างปลายทาง SageMaker

เบื้องต้น

ตรวจสอบว่าคุณมีสิทธิ์เข้าถึงบัญชี AWS ที่เพียงพอ AWS Identity และการจัดการการเข้าถึง สิทธิ์ IAM ในการสร้างสมุดบันทึก เข้าถึง บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon บัคเก็ต (Amazon S3) และปรับใช้โมเดลกับตำแหน่งข้อมูล SageMaker ดู สร้างบทบาทการดำเนินการ สำหรับข้อมูลเพิ่มเติม

รวบรวมโมเดลเป็นรูปแบบ ONNX

ไลบรารี Transformers มีวิธีการที่สะดวกในการคอมไพล์โมเดล PyTorch เป็นรูปแบบ ONNX รหัสต่อไปนี้บรรลุการแปลงสำหรับโมเดล NLP:

onnx_inputs, onnx_outputs = transformers.onnx.export( preprocessor=tokenizer, model=model, config=onnx_config, opset=12, output=save_path )

การส่งออกโมเดล (ทั้ง PyTorch หรือ TensorFlow) ทำได้อย่างง่ายดายผ่านเครื่องมือการแปลงที่จัดเตรียมไว้ให้โดยเป็นส่วนหนึ่งของที่เก็บ Hugging Face Transformers

ต่อไปนี้คือสิ่งที่เกิดขึ้นภายใต้ประทุน:

จัดสรรโมเดลจากหม้อแปลง (PyTorch หรือ TensorFlow)
ส่งต่ออินพุตดัมมี่ผ่านโมเดล ด้วยวิธีนี้ ONNX สามารถบันทึกชุดการดำเนินการที่รันได้
หม้อแปลงจะดูแลแกนไดนามิกโดยเนื้อแท้เมื่อส่งออกโมเดล
บันทึกกราฟพร้อมกับพารามิเตอร์เครือข่าย

มีการใช้กลไกที่คล้ายกันสำหรับกรณีการใช้คอมพิวเตอร์วิทัศน์จากสวนสัตว์จำลองคบเพลิง:

torch.onnx.export( resnet50, dummy_input, args.save, export_params=True, opset_version=11, do_constant_folding=True, input_names=["input"], output_names=["output"], dynamic_axes={"input": {0: "batch_size"}, "output": {0: "batch_size"}}, )

กำหนดค่าโมเดล

ในส่วนนี้ เรากำหนดค่าการมองเห็นของคอมพิวเตอร์และโมเดล NLP เราแสดงวิธีสร้างโมเดลขนาดใหญ่ ResNet50 และ RoBERTA ที่ได้รับการฝึกอบรมล่วงหน้าสำหรับการปรับใช้บน SageMaker MME โดยใช้การกำหนดค่าโมเดล Triton Inference Server โน้ตบุ๊ก ResNet50 พร้อมใช้งานบน GitHub. โน้ตบุ๊ก RoBERTA ก็มีจำหน่ายเช่นกัน GitHub. สำหรับ ResNet50 เราใช้วิธี Docker เพื่อสร้างสภาพแวดล้อมที่มีการขึ้นต่อกันทั้งหมดที่จำเป็นสำหรับการสร้างโมเดล ONNX ของเราอยู่แล้ว และสร้างอาร์ติแฟกต์โมเดลที่จำเป็นสำหรับแบบฝึกหัดนี้ วิธีการนี้ทำให้การแบ่งปันการอ้างอิงและสร้างสภาพแวดล้อมที่แน่นอนซึ่งจำเป็นต่อการทำงานนี้ให้สำเร็จนั้นง่ายขึ้นมาก

ขั้นตอนแรกคือการสร้างแพ็คเกจโมเดล ONNX ตามโครงสร้างไดเร็กทอรีที่ระบุใน รุ่น ONNX. เป้าหมายของเราคือการใช้ที่เก็บโมเดลขั้นต่ำสำหรับโมเดล ONNX ที่มีอยู่ในไฟล์เดียวดังนี้:

<model-repository-path> / Model_name ├── 1 │ └── model.onnx └── config.pbtxt

ต่อไปเราจะสร้าง การกำหนดค่าแบบจำลอง ไฟล์ที่อธิบายอินพุต เอาต์พุต และการกำหนดค่าแบ็คเอนด์สำหรับ Triton Server เพื่อรับและเรียกใช้เคอร์เนลที่เหมาะสมสำหรับ ONNX ไฟล์นี้เรียกว่า config.pbtxt และแสดงในรหัสต่อไปนี้สำหรับกรณีการใช้งานของ ROBERTA โปรดทราบว่า BATCH มิติข้อมูลถูกตัดออกจาก config.pbtxt. อย่างไรก็ตาม เมื่อส่งข้อมูลไปยังโมเดล เราจะรวมมิติแบทช์ไว้ด้วย รหัสต่อไปนี้ยังแสดงวิธีที่คุณสามารถเพิ่มคุณสมบัตินี้ด้วยไฟล์การกำหนดค่าแบบจำลองเพื่อตั้งค่าการแบทช์แบบไดนามิกด้วยขนาดแบทช์ที่ต้องการเป็น 5 สำหรับการอนุมานจริง ด้วยการตั้งค่าปัจจุบัน อินสแตนซ์โมเดลจะถูกเรียกใช้ทันทีเมื่อถึงขนาดแบทช์ที่ต้องการที่ 5 หรือเวลาหน่วง 100 ไมโครวินาทีผ่านไปตั้งแต่คำขอแรกมาถึงแบทช์แบบไดนามิก

name: "nlp-onnx"
platform: "onnxruntime_onnx"
backend: "onnxruntime" max_batch_size: 32 input { name: "input_ids" data_type: TYPE_INT64 dims: [512] } input { name: "attention_mask" data_type: TYPE_INT64 dims: [512] } output { name: "last_hidden_state" data_type: TYPE_FP32 dims: [-1, 768] } output { name: "1550" data_type: TYPE_FP32 dims: [768] }
instance_group { count: 1 kind: KIND_GPU
}
dynamic_batching { max_queue_delay_microseconds: 100 preferred_batch_size:5
}

ต่อไปนี้คือไฟล์การกำหนดค่าที่คล้ายกันสำหรับกรณีการใช้งานการมองเห็นของคอมพิวเตอร์:

name: "resenet_onnx"
platform: "onnxruntime_onnx"
max_batch_size : 128
input [ { name: "input" data_type: TYPE_FP32 format: FORMAT_NCHW dims: [ 3, 224, 224 ] }
]
output [ { name: "output" data_type: TYPE_FP32 dims: [ 1000 ] }
]

สร้างปลายทาง SageMaker

เราใช้ Boto3 API เพื่อสร้างปลายทาง SageMaker สำหรับโพสต์นี้ เราแสดงขั้นตอนสำหรับโน้ตบุ๊ก RoBERTA แต่เป็นขั้นตอนทั่วไป และจะเหมือนกันสำหรับรุ่น ResNet50 เช่นกัน

สร้างโมเดล SageMaker

ตอนนี้เราสร้าง รุ่น SageMaker. เราใช้ การลงทะเบียน Amazon Elastic Container รูปภาพ (Amazon ECR) และสิ่งประดิษฐ์แบบจำลองจากขั้นตอนก่อนหน้าเพื่อสร้างแบบจำลอง SageMaker

สร้างคอนเทนเนอร์

ในการสร้างคอนเทนเนอร์ เราดึง ภาพที่เหมาะสม จาก Amazon ECR สำหรับ Triton Server SageMaker ช่วยให้เราสามารถปรับแต่งและใส่ตัวแปรสภาพแวดล้อมต่างๆ คุณสมบัติหลักบางประการคือความสามารถในการตั้งค่า BATCH_SIZE; เราสามารถตั้งค่านี้ต่อรุ่นใน config.pbtxt ไฟล์ หรือเราสามารถกำหนดค่าเริ่มต้นได้ที่นี่ สำหรับรุ่นที่จะได้รับประโยชน์จากขนาดหน่วยความจำที่ใช้ร่วมกันที่ใหญ่ขึ้น เราสามารถตั้งค่าเหล่านั้นภายใต้ SHM ตัวแปร หากต้องการเปิดใช้งานการบันทึก ให้ตั้งค่าบันทึก verbose ระดับถึง true. เราใช้รหัสต่อไปนี้เพื่อสร้างแบบจำลองเพื่อใช้ในจุดสิ้นสุดของเรา:

mme_triton_image_uri = ( f"{account_id_map[region]}.dkr.ecr.{region}.{base}" + "/sagemaker-tritonserver:22.12-py3"
)
container = { "Image": mme_triton_image_uri, "ModelDataUrl": mme_path, "Mode": "MultiModel", "Environment": { "SAGEMAKER_TRITON_SHM_DEFAULT_BYTE_SIZE": "16777216000", # "16777216", #"16777216000", "SAGEMAKER_TRITON_SHM_GROWTH_BYTE_SIZE": "10485760", },
}
from sagemaker.utils import name_from_base
model_name = name_from_base(f"flan-xxl-fastertransformer")
print(model_name)
create_model_response = sm_client.create_model( ModelName=model_name, ExecutionRoleArn=role, PrimaryContainer={ "Image": inference_image_uri, "ModelDataUrl": s3_code_artifact },
)
model_arn = create_model_response["ModelArn"]
print(f"Created Model: {model_arn}")

สร้างจุดสิ้นสุด SageMaker

คุณสามารถใช้อินสแตนซ์ใดก็ได้กับ GPU หลายตัวสำหรับการทดสอบ ในโพสต์นี้ เราใช้อินสแตนซ์ g4dn.4xlarge เราไม่ได้ตั้งค่า VolumeSizeInGB พารามิเตอร์เนื่องจากอินสแตนซ์นี้มาพร้อมกับที่จัดเก็บอินสแตนซ์ในเครื่อง เดอะ VolumeSizeInGB พารามิเตอร์ใช้ได้กับอินสแตนซ์ GPU ที่รองรับ ร้านค้า Amazon Elastic Block ไฟล์แนบปริมาณ (Amazon EBS) เราสามารถปล่อยให้การหมดเวลาดาวน์โหลดโมเดลและการตรวจสอบความสมบูรณ์ของการเริ่มต้นคอนเทนเนอร์เป็นค่าเริ่มต้น สำหรับรายละเอียดเพิ่มเติม โปรดดูที่ สร้าง EndpointConfig.

endpoint_config_response = sm_client.create_endpoint_config(
EndpointConfigName=endpoint_config_name, ProductionVariants=[{ "VariantName": "AllTraffic", "ModelName": model_name, "InstanceType": "ml.g4dn.4xlarge", "InitialInstanceCount": 1, #"VolumeSizeInGB" : 200, #"ModelDataDownloadTimeoutInSeconds": 600, #"ContainerStartupHealthCheckTimeoutInSeconds": 600, }, ],)'

สุดท้ายนี้ เราสร้างจุดสิ้นสุด SageMaker:

create_endpoint_response = sm_client.create_endpoint(
EndpointName=f"{endpoint_name}", EndpointConfigName=endpoint_config_name)

เรียกใช้จุดสิ้นสุดของโมเดล

นี่เป็นแบบจำลองเชิงกำเนิด เราจึงผ่านใน input_ids และ attention_mask ไปยังโมเดลโดยเป็นส่วนหนึ่งของเพย์โหลด รหัสต่อไปนี้แสดงวิธีการสร้างเทนเซอร์:

tokenizer("This is a sample", padding="max_length", max_length=max_seq_len)

ตอนนี้เราสร้างเพย์โหลดที่เหมาะสมโดยตรวจสอบให้แน่ใจว่าประเภทข้อมูลตรงกับที่เรากำหนดค่าไว้ใน config.pbtxt. นอกจากนี้ยังให้เทนเซอร์พร้อมมิติแบทช์ซึ่งเป็นสิ่งที่ Triton คาดหวัง เราใช้รูปแบบ JSON เพื่อเรียกใช้โมเดล Triton ยังมีวิธีการเรียกใช้แบบไบนารีแบบเนทีฟสำหรับโมเดล

response = runtime_sm_client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/octet-stream", Body=json.dumps(payload), TargetModel=f"{tar_file_name}", # TargetModel=f"roberta-large-v0.tar.gz",
)

หมายเหตุ TargetModel พารามิเตอร์ในรหัสก่อนหน้า เราส่งชื่อของโมเดลที่จะเรียกใช้เป็นส่วนหัวของคำขอเนื่องจากนี่คือจุดสิ้นสุดแบบหลายรุ่น ดังนั้นเราจึงสามารถเรียกใช้หลายรุ่นในขณะรันไทม์บนจุดสิ้นสุดการอนุมานที่ปรับใช้แล้วโดยการเปลี่ยนพารามิเตอร์นี้ นี่แสดงให้เห็นถึงพลังของอุปกรณ์ปลายทางหลายรุ่น!

เราสามารถใช้รหัสต่อไปนี้ในการส่งออกการตอบสนอง:

import numpy as np resp_bin = response["Body"].read().decode("utf8")
# -- keys are -- "outputs":[{"name":"1550","datatype":"FP32","shape":[1,768],"data": [0.0013,0,3433...]}]
for data in json.loads(resp_bin)["outputs"]: shape_1 = list(data["shape"]) dat_1 = np.array(data["data"]) dat_1.resize(shape_1) print(f"Data Outputs recieved back :Shape:{dat_1.shape}")

ONNX สำหรับการปรับแต่งประสิทธิภาพ

แบ็กเอนด์ ONNX ใช้การจัดสรรหน่วยความจำ C++ arena การจัดสรร Arena เป็นคุณลักษณะเฉพาะของ C++ เท่านั้นที่ช่วยคุณเพิ่มประสิทธิภาพการใช้หน่วยความจำและปรับปรุงประสิทธิภาพ การจัดสรรหน่วยความจำและการจัดสรรคืนถือเป็นส่วนสำคัญของเวลา CPU ที่ใช้ในรหัสบัฟเฟอร์ของโปรโตคอล ตามค่าเริ่มต้น การสร้างออบเจกต์ใหม่จะทำการจัดสรรแบบฮีปสำหรับแต่ละออบเจ็กต์ แต่ละอ็อบเจ็กต์ย่อย และฟิลด์หลายประเภท เช่น สตริง การจัดสรรเหล่านี้เกิดขึ้นเป็นกลุ่มเมื่อแยกวิเคราะห์ข้อความและเมื่อสร้างข้อความใหม่ในหน่วยความจำ และการจัดสรรคืนที่เกี่ยวข้องจะเกิดขึ้นเมื่อข้อความและทรีออบเจ็กต์ย่อยว่าง

การจัดสรรตามอารีน่าได้รับการออกแบบเพื่อลดต้นทุนประสิทธิภาพนี้ ด้วยการจัดสรรอารีน่า วัตถุใหม่จะถูกจัดสรรจากหน่วยความจำขนาดใหญ่ที่จัดสรรไว้ล่วงหน้าซึ่งเรียกว่า สนามกีฬา. ออบเจกต์ทั้งหมดสามารถปลดปล่อยได้ในคราวเดียวโดยการทิ้งอารีน่าทั้งหมด โดยไม่ต้องใช้ตัวทำลายของวัตถุที่มีอยู่ (แม้ว่าอารีน่าจะยังสามารถรักษารายการตัวทำลายได้เมื่อจำเป็น) สิ่งนี้ทำให้การจัดสรรออบเจกต์เร็วขึ้นโดยการลดการเพิ่มพอยน์เตอร์อย่างง่าย และทำให้การจัดสรรคืนเกือบจะฟรี การจัดสรร Arena ยังให้ประสิทธิภาพแคชที่สูงกว่า: เมื่อมีการแยกวิเคราะห์ข้อความ ข้อความเหล่านั้นมีแนวโน้มที่จะได้รับการจัดสรรในหน่วยความจำต่อเนื่อง ซึ่งทำให้การข้ามผ่านข้อความมีโอกาสมากขึ้นที่จะเข้าถึง Hot Cache Line ข้อเสียของการจัดสรรตามอารีน่าคือหน่วยความจำฮีปของ C++ จะถูกจัดสรรมากเกินไปและยังคงจัดสรรต่อไปแม้ว่าออบเจกต์จะถูกจัดสรรคืนแล้วก็ตาม ซึ่งอาจนำไปสู่การใช้หน่วยความจำไม่เพียงพอหรือใช้หน่วยความจำ CPU สูง เพื่อให้ได้สิ่งที่ดีที่สุดจากทั้งสองโลก เราใช้การกำหนดค่าต่อไปนี้ซึ่งจัดทำโดย ไทรทัน และ ONNX:

arena_extend_strategy – พารามิเตอร์นี้อ้างถึงกลยุทธ์ที่ใช้ในการขยายพื้นที่หน่วยความจำโดยคำนึงถึงขนาดของโมเดล เราขอแนะนำให้ตั้งค่าเป็น 1 (= kSameAsRequested) ซึ่งไม่ใช่ค่าเริ่มต้น เหตุผลมีดังนี้: ข้อเสียเปรียบของกลยุทธ์การขยายเวทีเริ่มต้น (kNextPowerOfTwo) คืออาจจัดสรรหน่วยความจำมากเกินความจำเป็น ซึ่งอาจทำให้สิ้นเปลือง ตามชื่อที่แนะนำ kNextPowerOfTwo (ค่าเริ่มต้น) ขยายอารีน่าด้วยพลัง 2 ในขณะที่ kSameAsRequested ขยายตามขนาดที่เหมือนกับคำขอจัดสรรในแต่ละครั้ง kSameAsRequested เหมาะสำหรับการกำหนดค่าขั้นสูงที่คุณทราบการใช้หน่วยความจำที่คาดไว้ล่วงหน้า ในการทดสอบของเรา เนื่องจากเราทราบดีว่าขนาดของโมเดลมีค่าคงที่ เราจึงสามารถเลือกได้อย่างปลอดภัย kSameAsRequested.
GPU_mem_limit – เราตั้งค่าเป็นขีดจำกัดหน่วยความจำ CUDA หากต้องการใช้หน่วยความจำที่เป็นไปได้ทั้งหมด ให้ป้อนค่าสูงสุด size_t. มีค่าเริ่มต้นเป็น SIZE_MAX หากไม่ได้ระบุไว้ เราขอแนะนำให้เก็บไว้เป็นค่าเริ่มต้น
Enable_cpu_mem_arena – สิ่งนี้เปิดใช้งานเวทีหน่วยความจำบน CPU อารีน่าอาจจัดสรรหน่วยความจำล่วงหน้าสำหรับการใช้งานในอนาคต ตั้งค่าตัวเลือกนี้เป็น false ถ้าคุณไม่ต้องการมัน ค่าเริ่มต้นคือ True. หากคุณปิดใช้งานอารีน่า การจัดสรรหน่วยความจำแบบฮีปจะใช้เวลา ดังนั้นเวลาแฝงในการอนุมานจะเพิ่มขึ้น ในการทดสอบของเรา เราปล่อยไว้เป็นค่าเริ่มต้น
Enable_mem_pattern – พารามิเตอร์นี้อ้างถึงกลยุทธ์การจัดสรรหน่วยความจำภายในตามรูปร่างอินพุต ถ้ารูปร่างคงที่ เราสามารถเปิดใช้งานพารามิเตอร์นี้เพื่อสร้างรูปแบบหน่วยความจำสำหรับอนาคตและประหยัดเวลาในการจัดสรร ทำให้เร็วขึ้น ใช้ 1 เพื่อเปิดใช้งานรูปแบบหน่วยความจำและ 0 เพื่อปิดใช้งาน ขอแนะนำให้ตั้งค่านี้เป็น 1 เมื่อคาดว่าคุณลักษณะอินพุตจะเหมือนกัน ค่าเริ่มต้นคือ 1
do_copy_in_default_stream – ในบริบทของผู้ให้บริการการดำเนินการ CUDA ใน ONNX สตรีมการประมวลผลคือลำดับของการดำเนินการ CUDA ที่ทำงานแบบอะซิงโครนัสบน GPU รันไทม์ ONNX กำหนดการดำเนินการในสตรีมต่างๆ ตามการพึ่งพา ซึ่งช่วยลดเวลาว่างของ GPU และทำให้ประสิทธิภาพดีขึ้น ขอแนะนำให้ใช้การตั้งค่าเริ่มต้นที่ 1 สำหรับการใช้สตรีมเดียวกันสำหรับการคัดลอกและคำนวณ อย่างไรก็ตาม คุณสามารถใช้ 0 เพื่อใช้สตรีมแยกกันสำหรับการคัดลอกและประมวลผล ซึ่งอาจส่งผลให้อุปกรณ์ไปป์ไลน์ทั้งสองกิจกรรม ในการทดสอบโมเดล ResNet50 เราใช้ทั้ง 0 และ 1 แต่ไม่พบความแตกต่างที่เห็นได้ชัดเจนระหว่างทั้งสองในแง่ของประสิทธิภาพและการใช้หน่วยความจำของอุปกรณ์ GPU
การเพิ่มประสิทธิภาพกราฟ – แบ็กเอนด์ ONNX สำหรับ Triton รองรับพารามิเตอร์หลายตัวที่ช่วยปรับขนาดโมเดลอย่างละเอียดรวมถึงประสิทธิภาพรันไทม์ของโมเดลที่ปรับใช้ เมื่อโมเดลถูกแปลงเป็นตัวแทน ONNX (ช่องแรกในไดอะแกรมต่อไปนี้ที่ระยะ IR) รันไทม์ ONNX ให้การเพิ่มประสิทธิภาพกราฟในสามระดับ: การปรับพื้นฐาน ขยาย และเค้าโครง คุณสามารถเปิดใช้งานการเพิ่มประสิทธิภาพกราฟทุกระดับโดยเพิ่มพารามิเตอร์ต่อไปนี้ในไฟล์การกำหนดค่าโมเดล:
```
optimization { graph : { level : 1
}}
```
cudnn_conv_algo_search – เนื่องจากเราใช้ GPU Nvidia ที่ใช้ CUDA ในการทดสอบของเรา สำหรับกรณีการใช้งานคอมพิวเตอร์วิทัศน์ของเรากับโมเดล ResNet50 เราจึงสามารถใช้การเพิ่มประสิทธิภาพตามผู้ให้บริการการประมวลผล CUDA ที่เลเยอร์ที่สี่ในไดอะแกรมต่อไปนี้ด้วย cudnn_conv_algo_search พารามิเตอร์. ตัวเลือกเริ่มต้นคือสมบูรณ์ (0) แต่เมื่อเราเปลี่ยนการกำหนดค่านี้เป็น 1 – HEURISTICเราเห็นเวลาแฝงของโมเดลในสถานะคงที่ลดลงเหลือ 160 มิลลิวินาที สาเหตุนี้เกิดขึ้นเนื่องจากรันไทม์ ONNX เรียกใช้น้ำหนักที่เบากว่า cudnnGetConvolutionForwardAlgorithm_v7 การส่งผ่านไปข้างหน้าจึงช่วยลดเวลาแฝงด้วยประสิทธิภาพที่เพียงพอ
โหมดวิ่ง – ขั้นตอนต่อไปคือการเลือกที่ถูกต้อง การดำเนินการ_โหมด ที่เลเยอร์ 5 ในไดอะแกรมต่อไปนี้ พารามิเตอร์นี้ควบคุมว่าคุณต้องการเรียกใช้ตัวดำเนินการในกราฟของคุณตามลำดับหรือแบบขนาน โดยปกติเมื่อโมเดลมีหลายสาขา การตั้งค่าตัวเลือกนี้เป็น ExecutionMode.ORT_PARALLEL (1) จะทำให้คุณมีประสิทธิภาพที่ดีขึ้น ในสถานการณ์ที่โมเดลของคุณมีหลายกิ่งในกราฟ การตั้งค่าโหมดการทำงานเป็นแบบขนานจะช่วยให้มีประสิทธิภาพดีขึ้น โหมดเริ่มต้นคือโหมดต่อเนื่อง คุณจึงสามารถเปิดใช้งานโหมดนี้ให้เหมาะกับความต้องการของคุณได้
```
parameters { key: "execution_mode" value: { string_value: "1" } }
```

สำหรับความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับโอกาสในการปรับแต่งประสิทธิภาพใน ONNX โปรดดูรูปต่อไปนี้

ที่มา: https://static.linaro.org/connect/san19/presentations/san19-211.pdf

ตัวเลขเกณฑ์มาตรฐานและการปรับแต่งประสิทธิภาพ

เมื่อเปิดการเพิ่มประสิทธิภาพกราฟ cudnn_conv_algo_searchและพารามิเตอร์โหมดการทำงานแบบขนานในการทดสอบโมเดล ResNet50 เราพบว่าเวลาเริ่มต้นเย็นของกราฟโมเดล ONNX ลดลงจาก 4.4 วินาทีเป็น 1.61 วินาที ตัวอย่างของไฟล์คอนฟิกูเรชันโมเดลที่สมบูรณ์มีอยู่ในส่วนคอนฟิกูเรชัน ONNX ต่อไปนี้ สมุดบันทึก.

ผลเกณฑ์มาตรฐานการทดสอบมีดังนี้:

ไพทอร์ช – 176 มิลลิวินาที เริ่มเย็น 6 วินาที
เทนเซอร์RT – 174 มิลลิวินาที เริ่มเย็น 4.5 วินาที
ออนเอ็นเอ็กซ์ – 168 มิลลิวินาที เริ่มเย็น 4.4 วินาที

กราฟต่อไปนี้แสดงภาพเมตริกเหล่านี้

นอกจากนี้ ในการทดสอบกรณีการใช้งานการมองเห็นด้วยคอมพิวเตอร์ของเรา ให้ลองส่งคำขอเพย์โหลดในรูปแบบไบนารีโดยใช้ไคลเอ็นต์ HTTP ที่ Triton จัดหาให้ เนื่องจากช่วยปรับปรุงการเรียกใช้โมเดลได้อย่างมาก

พารามิเตอร์อื่นๆ ที่ SageMaker แสดงสำหรับ ONNX บน Triton มีดังนี้:

การแบ่งกลุ่มแบบไดนามิก – การแบทช์แบบไดนามิกเป็นคุณสมบัติของ Triton ที่อนุญาตให้รวมคำขอการอนุมานโดยเซิร์ฟเวอร์ เพื่อให้แบทช์ถูกสร้างขึ้นแบบไดนามิก การสร้างคำขอเป็นชุดมักจะส่งผลให้ปริมาณงานเพิ่มขึ้น ควรใช้แบทช์แบบไดนามิกสำหรับโมเดลไร้สถานะ ชุดงานที่สร้างขึ้นแบบไดนามิกจะถูกแจกจ่ายไปยังอินสแตนซ์โมเดลทั้งหมดที่กำหนดค่าสำหรับโมเดล
ขนาดแบทช์สูงสุด - max_batch_size คุณสมบัติระบุขนาดแบทช์สูงสุดที่โมเดลรองรับสำหรับ ประเภทของการแบทช์ ที่ไทรทันใช้ประโยชน์ได้ หากมิติแบทช์ของโมเดลเป็นมิติแรก และอินพุตและเอาต์พุตทั้งหมดของโมเดลมีมิติแบทช์นี้ Triton สามารถใช้ ตัวแบทช์แบบไดนามิก or ตัวแบ่งลำดับ เพื่อใช้การแบทช์กับโมเดลโดยอัตโนมัติ ในกรณีนี้, max_batch_size ควรตั้งค่าเป็นค่าที่มากกว่าหรือเท่ากับ 1 ซึ่งระบุขนาดแบทช์สูงสุดที่ Triton ควรใช้กับรุ่นดังกล่าว
ขนาดแบทช์สูงสุดเริ่มต้น – ใช้ค่าขนาดแบทช์เริ่มต้นสูงสุดสำหรับ max_batch_size ในระหว่าง ข้อมูลอัตโนมัติ เมื่อไม่พบค่าอื่น เดอะ onnxruntime แบ็กเอนด์จะตั้งค่า max_batch_size ของโมเดลให้เป็นค่าเริ่มต้นนี้ หากการเติมข้อความอัตโนมัติได้พิจารณาแล้วว่าโมเดลนั้นสามารถขอแบทช์ได้ และ max_batch_size เป็น 0 ในการกำหนดค่าโมเดลหรือ max_batch_size ถูกตัดออกจากการกำหนดค่าโมเดล ถ้า max_batch_size มากกว่า 1 และไม่ใช่ กำหนดการ มีให้ จะใช้ตัวจัดกำหนดการแบทช์แบบไดนามิก ขนาดแบทช์สูงสุดเริ่มต้นคือ 4

ทำความสะอาด

ตรวจสอบให้แน่ใจว่าคุณลบโมเดล การกำหนดค่าโมเดล และจุดสิ้นสุดของโมเดลหลังจากเรียกใช้โน้ตบุ๊ก ขั้นตอนในการดำเนินการนี้มีให้ที่ส่วนท้ายของสมุดบันทึกตัวอย่างใน GitHub ซื้อคืน

สรุป

ในโพสต์นี้ เราจะลงลึกถึงแบ็คเอนด์ ONNX ที่ Triton Inference Server รองรับบน SageMaker แบ็กเอนด์นี้ให้การเร่ง GPU ของรุ่น ONNX ของคุณ มีตัวเลือกมากมายให้พิจารณาเพื่อให้ได้ประสิทธิภาพสูงสุดสำหรับการอนุมาน เช่น ขนาดแบทช์ รูปแบบการป้อนข้อมูล และปัจจัยอื่นๆ ที่สามารถปรับให้ตรงกับความต้องการของคุณ SageMaker ให้คุณใช้ความสามารถนี้โดยใช้จุดสิ้นสุดแบบรุ่นเดียวและหลายรุ่น MME ช่วยให้ประสิทธิภาพการทำงานดีขึ้นและประหยัดต้นทุน หากต้องการเริ่มต้นใช้งานการรองรับ MME สำหรับ GPU โปรดดู โฮสต์หลายรุ่นในคอนเทนเนอร์เดียวหลังปลายทางเดียว.

เราขอเชิญคุณลองใช้คอนเทนเนอร์ Triton Inference Server ใน SageMaker และแบ่งปันความคิดเห็นและคำถามของคุณในความคิดเห็น

เกี่ยวกับผู้แต่ง

อภิศิวะดิตยา เป็นสถาปนิกโซลูชันอาวุโสของ AWS ซึ่งทำงานร่วมกับองค์กรระดับองค์กรเชิงกลยุทธ์ทั่วโลกเพื่ออำนวยความสะดวกในการนำบริการของ AWS ไปใช้ในด้านต่างๆ เช่น ปัญญาประดิษฐ์ การประมวลผลแบบกระจาย ระบบเครือข่าย และพื้นที่จัดเก็บ ความเชี่ยวชาญของเขาอยู่ในการเรียนรู้เชิงลึกในโดเมนของ Natural Language Processing (NLP) และ Computer Vision Abhi ช่วยเหลือลูกค้าในการปรับใช้โมเดลแมชชีนเลิร์นนิงประสิทธิภาพสูงอย่างมีประสิทธิภาพภายในระบบนิเวศของ AWS

เจมส์พาร์ค เป็นสถาปนิกโซลูชันที่ Amazon Web Services เขาทำงานร่วมกับ Amazon.com ในการออกแบบ สร้าง และปรับใช้โซลูชันเทคโนโลยีบน AWS และมีความสนใจเป็นพิเศษใน AI และการเรียนรู้ของเครื่อง ในเวลาว่างเขาชอบที่จะแสวงหาวัฒนธรรมใหม่ๆ ประสบการณ์ใหม่ๆ และติดตามเทรนด์เทคโนโลยีล่าสุด คุณสามารถพบเขาได้ที่ LinkedIn.

รูพินเดอร์ กรีวาล เป็น Sr Ai/ML Specialist Solutions Architect กับ AWS ปัจจุบันเขามุ่งเน้นการให้บริการโมเดลและ MLOps บน SageMaker ก่อนหน้าจะรับตำแหน่งนี้ เขาเคยทำงานเป็นวิศวกรด้านการเรียนรู้ของเครื่องจักรในการสร้างและโฮสต์โมเดล นอกเวลางาน เขาชอบเล่นเทนนิสและขี่จักรยานบนเส้นทางบนภูเขา

ดาวัล พาเทล เป็นหัวหน้าสถาปนิก Machine Learning ที่ AWS เขาได้ทำงานร่วมกับองค์กรต่างๆ ตั้งแต่องค์กรขนาดใหญ่ไปจนถึงสตาร์ทอัพขนาดกลางในปัญหาที่เกี่ยวข้องกับการคำนวณแบบกระจายและปัญญาประดิษฐ์ เขามุ่งเน้นไปที่การเรียนรู้อย่างลึกซึ้งรวมถึงโดเมน NLP และ Computer Vision เขาช่วยให้ลูกค้าบรรลุการอนุมานแบบจำลองประสิทธิภาพสูงบน SageMaker

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
การเงิน EVM ส่วนต่อประสานแบบครบวงจรสำหรับการเงินแบบกระจายอำนาจ เข้าถึงได้ที่นี่.
กลุ่มสื่อควอนตัม IR/PR ขยาย เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. ข้อมูลอัจฉริยะ Web3 ขยายความรู้ เข้าถึงได้ที่นี่.
ที่มา: https://aws.amazon.com/blogs/machine-learning/host-ml-models-on-amazon-sagemaker-using-triton-onnx-models/

ประทับเวลา: มิถุนายน 9, 2023

ประทับเวลา: เมษายน 19, 2024

เผยแพร่ซ้ำโดยเพลโต

โรดโชว์ Generative AI ในอเมริกาเหนือด้วย AWS และ Hugging Face | อเมซอนเว็บเซอร์วิส

ปรับประสิทธิภาพของอุปกรณ์ให้เหมาะสมด้วยข้อมูลประวัติ, Ray และ Amazon SageMaker | อเมซอนเว็บเซอร์วิส

ขอแนะนำการฝึกอบรมอัตโนมัติสำหรับโซลูชันใน Amazon Personalize | อเมซอนเว็บเซอร์วิส

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้