Peningkatan penerapan model ML menggunakan Amazon SageMaker Inference Recommender

Peningkatan penerapan model ML menggunakan Amazon SageMaker Inference Recommender

Node Sumber: 2066056

Setiap sistem pembelajaran mesin (ML) memiliki persyaratan perjanjian tingkat layanan (SLA) unik sehubungan dengan latensi, throughput, dan metrik biaya. Dengan kemajuan dalam desain perangkat keras, berbagai infrastruktur berbasis CPU dan GPU tersedia untuk membantu Anda mempercepat kinerja inferensi. Selain itu, Anda dapat membangun sistem ML ini dengan kombinasi model, tugas, kerangka kerja, pustaka, alat, dan mesin inferensi ML, sehingga penting untuk mengevaluasi kinerja sistem ML untuk kemungkinan konfigurasi penerapan yang terbaik. Anda memerlukan rekomendasi untuk menemukan infrastruktur layanan ML yang paling hemat biaya dan kombinasi yang tepat dari konfigurasi perangkat lunak untuk mencapai performa harga terbaik untuk menskalakan aplikasi ini.

Rekomendasi Inferensi Amazon SageMaker adalah kemampuan dari Amazon SageMaker yang mengurangi waktu yang diperlukan untuk mendapatkan model ML dalam produksi dengan mengotomatiskan pengujian beban dan penyetelan model di seluruh instans SageMaker ML. Dalam posting ini, kami menyoroti beberapa pembaruan terkini untuk Inference Recommender:

  • Dukungan SageMaker Python SDK untuk menjalankan Inference Recommender
  • Peningkatan kegunaan Inference Recommender
  • API baru yang memberikan fleksibilitas dalam menjalankan Inference Recommender
  • Integrasi yang lebih dalam dengan amazoncloudwatch untuk logging dan metrik

Kasus penggunaan deteksi penipuan kartu kredit

Setiap aktivitas penipuan yang tidak terdeteksi dan segera dimitigasi dapat menyebabkan kerugian finansial yang signifikan. Khususnya, transaksi penipuan pembayaran kartu kredit perlu segera diidentifikasi untuk melindungi kesehatan keuangan individu dan perusahaan. Dalam postingan ini, kami membahas kasus penggunaan deteksi penipuan kartu kredit, dan mempelajari cara menggunakan Inference Recommender untuk menemukan jenis instans inferensi optimal dan konfigurasi sistem ML yang dapat mendeteksi transaksi kartu kredit penipuan dalam milidetik.

Kami mendemonstrasikan cara menyiapkan pekerjaan Rekomendasi Inferensi untuk kasus penggunaan deteksi penipuan kartu kredit. Kami melatih model XGBoost untuk tugas klasifikasi pada kumpulan data penipuan kartu kredit. Kami menggunakan Inference Recommender dengan muatan khusus untuk memenuhi persyaratan SLA inferensi untuk memenuhi konkurensi puncak 30,000 transaksi per menit sambil menyajikan hasil prediksi dalam waktu kurang dari 100 milidetik. Berdasarkan rekomendasi jenis instans Inference Recommender, kami dapat menemukan instans ML penayangan real-time yang tepat yang menghasilkan performa harga yang tepat untuk kasus penggunaan ini. Terakhir, kami menerapkan model ke titik akhir real-time SageMaker untuk mendapatkan hasil prediksi.

Tabel berikut meringkas detail kasus penggunaan kami.

Kerangka Model XGBoost
Ukuran Model 10 MB
Latensi ujung ke ujung milidetik 100
Panggilan per Detik 500 (30,000 per menit)
Tugas ML Klasifikasi Biner
Muatan Masukan 10 KB

Kami menggunakan kumpulan data penipuan kartu kredit yang dibuat secara sintetis. Dataset berisi 28 fitur numerik, waktu transaksi, jumlah transaksi, dan variabel target kelas. Itu class kolom sesuai dengan apakah atau tidak transaksi penipuan. Sebagian besar data adalah non-penipuan (284,315 sampel), dengan hanya 492 sampel yang sesuai dengan contoh penipuan. Dalam datanya, Class adalah variabel klasifikasi target (fraudulent vs. non-fraudulent) di kolom pertama, diikuti oleh variabel lainnya.

Di bagian berikut, kami menunjukkan cara menggunakan Inference Recommender untuk mendapatkan rekomendasi jenis instans hosting ML dan menemukan konfigurasi model yang optimal untuk mencapai performa harga yang lebih baik untuk aplikasi inferensi Anda.

Jenis dan konfigurasi instans ML mana yang harus Anda pilih?

Dengan Inference Recommender, Anda dapat menjalankan dua jenis pekerjaan: default dan lanjutan.

Tugas Instance Recommender default menjalankan serangkaian pengujian beban untuk merekomendasikan jenis instans ML yang tepat untuk setiap kasus penggunaan ML. Penerapan real-time SageMaker mendukung berbagai instans ML untuk menghosting dan melayani model XGBoost deteksi penipuan kartu kredit. Pekerjaan default dapat menjalankan uji beban pada pilihan instans yang Anda berikan dalam konfigurasi pekerjaan. Jika Anda sudah memiliki titik akhir untuk kasus penggunaan ini, Anda dapat menjalankan tugas ini untuk menemukan jenis instans berperforma hemat biaya. Inference Recommender akan mengompilasi dan mengoptimalkan model untuk perangkat keras tertentu yang menggunakan jenis instans titik akhir inferensi Amazon SageMaker Neo. Penting untuk dicatat bahwa tidak semua kompilasi menghasilkan peningkatan kinerja. Rekomendasi Inferensi akan melaporkan detail kompilasi ketika kondisi berikut terpenuhi:

  • Kompilasi model yang berhasil menggunakan Neo. Mungkin ada masalah dalam proses kompilasi seperti payload yang tidak valid, tipe data, atau lainnya. Dalam hal ini, informasi kompilasi tidak tersedia.
  • Inferensi berhasil menggunakan model yang disusun yang menunjukkan peningkatan kinerja, yang muncul dalam respon pekerjaan inferensi.

Tugas tingkat lanjut adalah tugas uji beban kustom yang memungkinkan Anda melakukan tolok ukur ekstensif berdasarkan persyaratan SLA aplikasi ML, seperti latensi, konkurensi, dan pola lalu lintas. Anda dapat mengonfigurasi pola lalu lintas ubahsuaian untuk mensimulasikan transaksi kartu kredit. Selain itu, Anda dapat menentukan latensi model end-to-end untuk memprediksi apakah suatu transaksi curang dan menentukan transaksi bersamaan maksimum ke model untuk prediksi. Inference Recommender menggunakan informasi ini untuk menjalankan uji beban tolok ukur kinerja. Latensi, konkurensi, dan metrik biaya dari tugas tingkat lanjut membantu Anda membuat keputusan yang tepat tentang infrastruktur layanan ML untuk aplikasi penting.

Ikhtisar solusi

Diagram berikut menunjukkan arsitektur solusi untuk melatih model XGBoost pada kumpulan data penipuan kartu kredit, menjalankan tugas default untuk rekomendasi jenis instans, dan melakukan pengujian beban untuk menentukan konfigurasi inferensi optimal untuk kinerja harga terbaik.

Diagram menunjukkan langkah-langkah berikut:

  1. Latih model XGBoost untuk mengklasifikasikan transaksi kartu kredit sebagai penipuan atau sah. Terapkan model terlatih ke titik akhir waktu-nyata SageMaker. Kemas artefak model dan contoh muatan (format .tar.gz), dan unggah ke Layanan Penyimpanan Sederhana Amazon (Amazon S3) sehingga Inference Recommender dapat menggunakan ini saat pekerjaan dijalankan. Perhatikan bahwa langkah pelatihan dalam posting ini adalah opsional.
  2. Konfigurasikan dan jalankan tugas Inference Recommender default pada daftar jenis instans yang didukung untuk menemukan jenis instans ML yang tepat yang memberikan performa harga terbaik untuk kasus penggunaan ini.
  3. Secara opsional, jalankan tugas Inference Recommender default pada endpoint yang sudah ada.
  4. Mengonfigurasi dan menjalankan tugas Inference Recommender lanjutan untuk melakukan uji beban kustom guna mensimulasikan interaksi pengguna dengan aplikasi deteksi penipuan kartu kredit. Ini membantu Anda menemukan konfigurasi yang tepat untuk memenuhi latensi, konkurensi, dan biaya untuk kasus penggunaan ini.
  5. Menganalisis hasil tugas Inference Recommender default dan lanjutan, yang mencakup latensi rekomendasi jenis instans ML, performa, dan metrik biaya.

Contoh lengkap tersedia di GitHub kami buku catatan.

Prasyarat

Untuk menggunakan Inference Recommender, pastikan untuk memenuhi prasyarat.

Dukungan Python SDK untuk Inference Recommender

Kami baru-baru ini merilis dukungan Python SDK untuk Inference Recommender. Anda sekarang dapat menjalankan pekerjaan default dan lanjutan menggunakan satu fungsi: ukuran yang tepat. Berdasarkan parameter pemanggilan fungsi, Inference Recommender menyimpulkan apakah harus menjalankan pekerjaan default atau lanjutan. Ini sangat menyederhanakan penggunaan Inference Recommender menggunakan Python SDK. Untuk menjalankan tugas Inference Recommender, selesaikan langkah-langkah berikut:

  1. Buat model SageMaker dengan menentukan kerangka kerja, versi, dan cakupan gambar:
    model = Model( model_data=model_url, role=role, image_uri = sagemaker.image_uris.retrieve(framework="xgboost", region=region, version="1.5-1", py_version="py3", image_scope='inference'), sagemaker_session=sagemaker_session )

  2. Secara opsional, daftarkan model di Registri model SageMaker. Perhatikan bahwa parameter seperti domain dan tugas selama pembuatan paket model juga merupakan parameter opsional dalam rilis terbaru.
    model_package = model.register( content_types=["text/csv"], response_types=["text/csv"], model_package_group_name=model_package_group_name, image_uri=model.image_uri, approval_status="Approved", framework="XGBOOST"
    )

  3. Jalankan right_size berfungsi pada jenis instans inferensi ML yang didukung menggunakan konfigurasi berikut. Karena XGBoost adalah algoritme intensif memori, kami menyediakan instans tipe ml.m5 untuk mendapatkan rekomendasi tipe instans. Anda dapat menghubungi right_size berfungsi pada objek registri model juga.
    model.right_size( sample_payload_url=sample_payload_url, supported_content_types=["text/csv"], supported_instance_types=["ml.m5.large", "ml.m5.xlarge", "ml.m5.2xlarge", "ml.m5.4xlarge", "ml.m5.12xlarge"], framework="XGBOOST", job_name="credit-card-fraud-default-job"
    )
    INFO:sagemaker:Advance Job parameters were not specified. Running Default job...

  4. Tentukan parameter tambahan untuk right_size berfungsi untuk menjalankan pekerjaan tingkat lanjut dan uji beban khusus pada model:
    1. Konfigurasikan pola lalu lintas menggunakan phases parameter. Pada fase pertama, kami memulai uji beban dengan dua pengguna awal dan membuat dua pengguna baru untuk setiap menit selama 2 menit. Pada fase berikutnya, kami memulai uji beban dengan enam pengguna awal dan membuat dua pengguna baru untuk setiap menit selama 2 menit. Kondisi penghentian untuk uji beban adalah p95 latensi ujung ke ujung 100 milidetik dan konkurensi untuk mendukung 30,000 transaksi per menit atau 500 transaksi per detik.
    2. Kami menyesuaikan titik akhir dengan variabel lingkungan OMP_NUM_THREADS dengan nilai-nilai [3,4,5] dan kami bertujuan untuk membatasi persyaratan latensi hingga 100 milidetik dan mencapai konkurensi maksimal 30,000 pemanggilan per menit. Tujuannya adalah untuk menemukan nilai untuk apa OMP_NUM_THREADS memberikan kinerja terbaik.
from sagemaker.parameter import CategoricalParameter from sagemaker.inference_recommender.inference_recommender_mixin import ( Phase, ModelLatencyThreshold ) hyperparameter_ranges = [ { "instance_types": CategoricalParameter(["ml.m5.4xlarge"]), "OMP_NUM_THREADS": CategoricalParameter(["3", "4", "6"]), } ] phases = [ Phase(duration_in_seconds=120, initial_number_of_users=2, spawn_rate=2), Phase(duration_in_seconds=120, initial_number_of_users=6, spawn_rate=2) ] model_latency_thresholds = [ ModelLatencyThreshold(percentile="P95", value_in_milliseconds=100) ] model.right_size( sample_payload_url=sample_payload_url, supported_content_types=["text/csv"], framework="XGBOOST", job_duration_in_seconds=7200, hyperparameter_ranges=hyperparameter_ranges, phases=phases, # TrafficPattern max_invocations=30000, # StoppingConditions model_latency_thresholds=model_latency_thresholds, job_name="credit-card-fraud-advanced-job"
)
INFO:sagemaker:Advance Job parameters were specified. Running Advanced job...

Jalankan pekerjaan Inference Recommender menggunakan Boto3 API

Anda dapat menggunakan Boto3 API untuk meluncurkan Inference Recommender default dan pekerjaan tingkat lanjut. Anda perlu menggunakan Boto3 API (buat_inferensi_rekomendasi_pekerjaan) untuk menjalankan tugas Inference Recommender pada endpoint yang sudah ada. Inference Recommender menyimpulkan kerangka kerja dan versi dari titik akhir real-time SageMaker yang ada. Python SDK tidak mendukung menjalankan pekerjaan Inference Recommender pada titik akhir yang ada.

Cuplikan kode berikut menunjukkan cara membuat tugas default:

sagemaker_client.create_inference_recommendations_job( JobName = "credit-card-fraud-default-job", JobType = 'Default', RoleArn = <ROLE_ARN>, InputConfig = { 'ModelPackageVersionArn': <MODEL_PACKAGE_ARN>, #optional 'Endpoints': ['EndpointName': <ENDPOINT_POINT>] }
)

Nanti di postingan ini, kami membahas parameter yang diperlukan untuk mengonfigurasi pekerjaan tingkat lanjut.

Konfigurasikan pola lalu lintas menggunakan TrafficPattern parameter. Pada fase pertama, kami memulai uji beban dengan dua pengguna awal (InitialNumberOfUsers) dan buat dua pengguna baru (SpawnRate) untuk setiap menit selama 2 menit (DurationInSeconds). Pada fase berikutnya, kami memulai uji beban dengan enam pengguna awal dan membuat dua pengguna baru untuk setiap menit selama 2 menit. kondisi berhenti (StoppingConditions) untuk uji beban adalah latensi end-to-end p95 (ModelLatencyThresholds) dari 100 milidetik (ValueInMilliseconds) dan konkurensi untuk mendukung 30,000 transaksi per menit atau 500 transaksi per detik (MaxInvocations). Lihat kode berikut:

env_parameter_ranges = [{"Name": "OMP_NUM_THREADS", "Value": ["3", "4", "5"]}] sagemaker_client.create_inference_recommendations_job(JobName=load_test_job_name, JobType='Advanced', RoleArn=role_arn, InputConfig={ 'ModelPackageVersionArn': model_package_arn, #optional 'JobDurationInSeconds': 7200, 'TrafficPattern': {'TrafficType': 'PHASES', 'Phases': [ {'InitialNumberOfUsers': 2, 'SpawnRate': 2, 'DurationInSeconds': 120 }, {'InitialNumberOfUsers': 6, 'SpawnRate': 6, 'DurationInSeconds': 120 }]}, 'ResourceLimit': {'MaxNumberOfTests': 10, 'MaxParallelOfTests': 3}, 'EndpointConfigurations': [{'InstanceType': 'ml.m5.4xlarge' 'EnvironmentParameterRanges': {'CategoricalParameterRanges': env_parameter_ranges} }], }, StoppingConditions={'MaxInvocations': 30000, 'ModelLatencyThresholds': [{'Percentile': 'P95', 'ValueInMilliseconds': 100 }]})

Hasil dan metrik pekerjaan Inference Recommender

Hasil pekerjaan Inference Recommender default berisi daftar rekomendasi konfigurasi titik akhir, termasuk jenis instans, jumlah instans, dan variabel lingkungan. Hasilnya berisi konfigurasi untuk SAGEMAKER_MODEL_SERVER_WORKERS dan OMP_NUM_THREADS terkait dengan metrik latensi, konkurensi, dan throughput. OMP_NUM_THREADS adalah parameter lingkungan merdu server model. Seperti yang ditunjukkan pada detail di tabel berikut, dengan instance ml.m5.4xlarge dengan SAGEMAKER_MODEL_SERVER_WORKERS=3 dan OMP_NUM_THREADS=3, kami mendapatkan throughput 32,628 pemanggilan per menit dan latensi model di bawah 10 milidetik. ml.m5.4xlarge memiliki peningkatan latensi 100%, peningkatan konkurensi sekitar 115% dibandingkan dengan konfigurasi instans ml.m5.xlarge. Selain itu, 66% lebih hemat biaya dibandingkan dengan konfigurasi instans ml.m5.12xlarge sekaligus mencapai latensi dan throughput yang sebanding.

Jenis Mesin Virtual Hitungan Instance Awal OMP_NUM_THREADS Biaya Per Jam Doa Maks Latensi Model Pemanfaatan CPU Pemanfaatan Memori Pekerja Server Model SageMaker
ml.m5.xbesar 1 2 0.23 15189 18 108.864 1.62012 1
ml.m5.4lebih besar 1 3 0.922 32628 9 220.57001 0.69791 3
ml.m5.besar 1 2 0.115 13793 19 106.34 3.24398 1
ml.m5.12lebih besar 1 4 2.765 32016 4 215.32401 0.44658 7
ml.m5.2lebih besar 1 2 0.461 32427 13 248.673 1.43109 3

Kami telah menyertakan fungsi pembantu CloudWatch di notebook. Anda dapat menggunakan fungsi untuk mendapatkan bagan terperinci dari titik akhir Anda selama uji beban. Bagan memiliki detail tentang metrik pemanggilan seperti pemanggilan, latensi model, latensi overhead, dan lainnya, serta metrik instans seperti CPUUtilization dan MemoryUtilization. Contoh berikut menampilkan metrik CloudWatch untuk konfigurasi model ml.m5.4xlarge kami.

Anda dapat memvisualisasikan hasil pekerjaan Inference Recommender Studio Amazon SageMaker dengan memilih Rekomendasi Inferensi bawah penyebaran di panel navigasi. Dengan sasaran penerapan untuk kasus penggunaan ini (latensi tinggi, throughput tinggi, biaya default), tugas Inference Recommender default merekomendasikan instans ml.m5.4xlarge karena memberikan kinerja latensi dan throughput terbaik untuk mendukung maksimal 34,600 pemanggilan per menit ( 576TPS). Anda dapat menggunakan metrik ini untuk menganalisis dan menemukan konfigurasi terbaik yang memenuhi persyaratan latensi, konkurensi, dan biaya aplikasi ML Anda.

Kami baru saja memperkenalkan ListInferenceRecommendationsJobSteps, yang memungkinkan Anda menganalisis subtugas dalam tugas Inference Recommender. Cuplikan kode berikut menunjukkan cara menggunakan list_inference_recommendations_job_steps API Boto3 untuk mendapatkan daftar subtugas. Ini dapat membantu dengan debugging kegagalan pekerjaan Inference Recommender pada tingkat langkah. Fungsionalitas ini belum didukung di Python SDK.

sm_client = boto3.client("sagemaker", region_name=region)
list_job_steps_response = sm_client.list_inference_recommendations_job_steps (JobName='<JOB_NAME>')
print(list_job_steps_response)

Kode berikut menunjukkan respons:

{ "Steps": [ { "StepType": "BENCHMARK", "JobName": "SMPYTHONSDK-<JOB_NAME>", "Status": "COMPLETED", "InferenceBenchmark": { "Metrics": { "CostPerHour": 1.8359999656677246, "CostPerInference": 1.6814110495033674e-06, "MaxInvocations": 18199, "ModelLatency": 40, "CpuUtilization": 106.06400299072266, "MemoryUtilization": 0.3920480012893677 }, "EndpointConfiguration": { "EndpointName": "sm-epc-<ENDPOINTNAME>", "VariantName": "sm-epc-<VARIANTNAME>", "InstanceType": "ml.c5.9xlarge", "InitialInstanceCount": 1 }, "ModelConfiguration": { "EnvironmentParameters": [ { "Key": "SAGEMAKER_MODEL_SERVER_WORKERS", "ValueType": "String", "Value": "1" }, { "Key": "OMP_NUM_THREADS", "ValueType": "String", "Value": "28" } ] } } }, ...... <TRUNCATED> "ResponseMetadata": { "RequestId": "<RequestId>", "HTTPStatusCode": 200, "HTTPHeaders": { "x-amzn-requestid": "<x-amzn-requestid>", "content-type": "application/x-amz-json-1.1", "content-length": "1443", "date": "Mon, 20 Feb 2023 16:53:30 GMT" }, "RetryAttempts": 0 }
}

Jalankan tugas Inference Recommender tingkat lanjut

Selanjutnya, kami menjalankan tugas Inference Recommender lanjutan untuk menemukan konfigurasi yang optimal seperti SAGEMAKER_MODEL_SERVER_WORKERS dan OMP_NUM_THREADS pada tipe instans ml.m5.4xlarge. Kami menyetel hyperparameter tugas lanjutan untuk menjalankan uji beban pada kombinasi yang berbeda:

hyperparameter_ranges = [ { "instance_types": CategoricalParameter(["ml.m5.4xlarge"]), "OMP_NUM_THREADS": CategoricalParameter(["3", "4", "6"]), } ]

Anda dapat melihat hasil pekerjaan Inference Recommender lanjutan di konsol Studio, seperti yang ditunjukkan pada tangkapan layar berikut.

Dengan menggunakan perintah Boto3 API atau CLI, Anda dapat mengakses semua metrik dari hasil pekerjaan Inference Recommender tingkat lanjut. InitialInstanceCount adalah jumlah instance yang harus Anda sediakan di endpoint untuk dipenuhi ModelLatencyThresholds dan MaxInvocations disebutkan dalam StoppingConditions. Tabel berikut merangkum hasil kami.

Jenis Mesin Virtual Hitungan Instance Awal OMP_NUM_THREADS Biaya Per Jam Doa Maks Latensi Model Pemanfaatan CPU Pemanfaatan Memori
ml.m5.2lebih besar 2 3 0.922 39688 6 86.732803 3.04769
ml.m5.2lebih besar 2 4 0.922 42604 6 177.164993 3.05089
ml.m5.2lebih besar 2 5 0.922 39268 6 125.402 3.08665
ml.m5.4lebih besar 2 3 1.844 38174 4 102.546997 2.68003
ml.m5.4lebih besar 2 4 1.844 39452 4 141.826004 2.68136
ml.m5.4lebih besar 2 5 1.844 40472 4 107.825996 2.70936

Membersihkan

Ikuti petunjuk di notebook untuk menghapus semua sumber daya yang dibuat sebagai bagian dari postingan ini untuk menghindari biaya tambahan.

Kesimpulan

Menemukan infrastruktur layanan ML yang tepat, termasuk jenis instans, konfigurasi model, dan kebijakan penskalaan otomatis, bisa jadi membosankan. Posting ini menunjukkan bagaimana Anda dapat menggunakan Inference Recommender Python SDK dan Boto3 API untuk meluncurkan pekerjaan default dan lanjutan untuk menemukan infrastruktur dan konfigurasi inferensi yang optimal. Kami juga membahas peningkatan baru pada Inference Recommender, termasuk dukungan Python SDK dan peningkatan kegunaan. Lihat kami Repositori GitHub untuk memulai.


Tentang Penulis

Shiva Raaj Kotini bekerja sebagai Manajer Produk Utama dalam portofolio produk inferensi AWS SageMaker. Dia berfokus pada penerapan model, penyetelan kinerja, dan pengoptimalan di SageMaker untuk inferensi.

John Barboza adalah Insinyur Perangkat Lunak di AWS. Dia memiliki pengalaman luas bekerja pada sistem terdistribusi. Fokusnya saat ini adalah meningkatkan pengalaman inferensi SageMaker. Di waktu luangnya, ia menikmati memasak dan bersepeda.

Mohan Gandhi adalah Insinyur Perangkat Lunak Senior di AWS. Dia telah bersama AWS selama 10 tahun terakhir dan telah bekerja di berbagai layanan AWS seperti Amazon EMR, Amazon EFA, dan Amazon RDS. Saat ini, dia berfokus pada peningkatan pengalaman inferensi SageMaker. Di waktu luangnya, ia menikmati hiking dan maraton.

Ram Vegaraju adalah Arsitek ML dengan tim layanan SageMaker. Dia berfokus untuk membantu pelanggan membangun dan mengoptimalkan solusi AI/ML mereka di Amazon SageMaker. Di waktu luangnya, ia suka bepergian dan menulis.

Vikram Elango adalah Sr. AIML Specialist Solutions Architect di AWS, berbasis di Virginia USA. Dia saat ini berfokus pada AI Generatif, LLM, rekayasa cepat, pengoptimalan inferensi model besar, dan penskalaan ML di seluruh perusahaan. Vikram membantu pelanggan industri keuangan dan asuransi dengan desain, pemikiran kepemimpinan untuk membangun dan menerapkan aplikasi pembelajaran mesin dalam skala besar. Di waktu senggangnya, ia senang bepergian, hiking, memasak, dan berkemah bersama keluarganya.

Stempel Waktu:

Lebih dari Pembelajaran Mesin AWS