ٹریل ایک اوپن سورس تقسیم شدہ SQL استفسار انجن ہے جو انٹرایکٹو اینالیٹک ورک بوجھ کے لیے ڈیزائن کیا گیا ہے۔ AWS پر، آپ Trino آن چلا سکتے ہیں۔ ایمیزون ای ایم آر، جہاں آپ کے پاس اوپن سورس Trino کے اپنے پسندیدہ ورژن کو چلانے کی لچک ہوتی ہے۔ ایمیزون لچکدار کمپیوٹ کلاؤڈ (ایمیزون EC2) مثالیں جن کا آپ انتظام کرتے ہیں، یا آن ایمیزون ایتینا بغیر سرور کے تجربے کے لیے۔ جب آپ Amazon EMR یا Athena پر Trino استعمال کرتے ہیں، تو آپ کو ملکیتی، AWS کی تیار کردہ اصلاح کے ساتھ ساتھ اوپن سورس کمیونٹی کی تازہ ترین اختراعات ملتی ہیں۔
Amazon EMR 6.8.0 اور Athena انجن ورژن 2 سے شروع کرتے ہوئے، AWS استفسار کا منصوبہ اور انجن کے رویے کی اصلاح کر رہا ہے جو Trino پر استفسار کی کارکردگی کو بہتر بناتا ہے۔ اس پوسٹ میں، ہم Amazon EMR 6.15.0 کا اوپن سورس Trino 426 کے ساتھ موازنہ کرتے ہیں اور یہ ظاہر کرتے ہیں کہ TPC-DS سوالات Amazon EMR 2.7 Trino 6.15.0 کے مقابلے میں 426 گنا زیادہ تیزی سے چلتے ہیں۔ اوپن سورس Trino 426. بعد میں، ہم AWS کی تیار کردہ کارکردگی کی اصلاح میں سے کچھ کی وضاحت کرتے ہیں جو ان نتائج میں حصہ ڈالتے ہیں۔
بینچ مارک سیٹ اپ
اپنی جانچ میں، ہم نے Amazon S3 میں محفوظ کردہ 3 TB ڈیٹاسیٹ کو کمپریسڈ Parquet فارمیٹ میں استعمال کیا اور ڈیٹا بیس اور ٹیبلز کے لیے میٹا ڈیٹا AWS گلو ڈیٹا کیٹلاگ۔ یہ بینچ مارک غیر ترمیم شدہ TPC-DS ڈیٹا اسکیما اور ٹیبل تعلقات کا استعمال کرتا ہے۔ حقائق کی میزیں تاریخ کے کالم پر تقسیم کی گئی ہیں اور 200-2100 پارٹیشنز پر مشتمل ہیں۔ ٹیبل اور کالم کے اعداد و شمار کسی بھی ٹیبل کے لیے موجود نہیں تھے۔ ہم نے اوپن سورس Trino سے TPC-DS سوالات کا استعمال کیا۔ گیتوب ذخیرہ ترمیم کے بغیر. بینچ مارک کے سوالات ترتیب وار دو مختلف Amazon EMR 6.15.0 کلسٹرز پر چلائے گئے: ایک Amazon EMR Trino 426 کے ساتھ اور دوسرا اوپن سورس Trino 426 کے ساتھ۔ دونوں کلسٹرز نے 1 r5.4xlarge coordinator اور 20 r5.4xlarge کارکن مثالیں استعمال کیں۔
نتائج دیکھے گئے۔
ہمارے معیارات اوپن سورس Trino کے مقابلے Amazon EMR 6.15.0 پر Trino کے ساتھ مسلسل بہتر کارکردگی دکھاتے ہیں۔ Amazon EMR پر Trino کا کل استفسار رن ٹائم اوپن سورس کے مقابلے میں 2.7 گنا تیز تھا۔ درج ذیل گراف بینچ مارک استفسارات کے لیے کل استفسار کے رن ٹائم (سیکنڈوں میں) سے ماپا جانے والی کارکردگی میں بہتری دکھاتا ہے۔
TPC-DS کے بہت سے سوالات نے اوپن سورس Trino کے مقابلے میں پانچ گنا زیادہ تیزی سے کارکردگی کا مظاہرہ کیا۔ کچھ استفسارات نے اور بھی زیادہ کارکردگی دکھائی، جیسے استفسار 72 جس میں 160 گنا بہتری آئی۔ درج ذیل گراف رن ٹائم میں سب سے بڑی بہتری کے ساتھ سرفہرست 10 TPC-DS سوالات دکھاتا ہے۔ مختصر نمائندگی کے لیے اور گراف میں کارکردگی میں بہتری کی کمی سے بچنے کے لیے، ہم نے q72 کو خارج کر دیا ہے۔
کارکردگی بڑھانے
اب جب کہ ہم Amazon EMR پر Trino کے ساتھ کارکردگی کے فوائد کو سمجھتے ہیں، آئیے AWS انجینئرنگ کی طرف سے تیار کردہ کچھ اہم اختراعات کا گہرائی سے جائزہ لیں جو ان بہتریوں میں معاون ہیں۔
بہتر جوائن آرڈر اور جوائن کی قسم کا انتخاب بہتر استفسار کی کارکردگی کے لیے بہت ضروری ہے کیونکہ یہ اس بات پر اثر انداز ہو سکتا ہے کہ کسی خاص ٹیبل سے کتنا ڈیٹا پڑھا جاتا ہے، نیٹ ورک کے ذریعے انٹرمیڈیٹ مراحل میں کتنا ڈیٹا منتقل ہوتا ہے، اور بنانے کے لیے کتنی میموری کی ضرورت ہوتی ہے۔ شمولیت کی سہولت کے لیے ایک ہیش ٹیبل۔ جوائن آرڈر اور جوائن کرنے کے الگورتھم فیصلے عام طور پر لاگت پر مبنی اصلاح کاروں کے ذریعہ انجام دیا جانے والا ایک فنکشن ہوتا ہے، جو ٹیبلز اور ذیلی سوالات کو جوائن کرنے کے طریقہ سے استفسار کے منصوبوں کو بہتر بنانے کے لیے اعداد و شمار کا استعمال کرتا ہے۔
تاہم، میز کے اعداد و شمار اکثر دستیاب نہیں ہوتے، پرانے، یا بڑے میزوں پر جمع کرنے کے لیے بہت مہنگے ہوتے ہیں۔ جب اعداد و شمار دستیاب نہیں ہوتے ہیں، Amazon EMR اور Athena استفسار کے منصوبوں کو بہتر بنانے کے لیے S3 فائل میٹا ڈیٹا کا استعمال کرتے ہیں۔ S3 فائل میٹا ڈیٹا کو جوائن آرڈر یا جوائن کی قسم کا تعین کرتے ہوئے استفسار میں چھوٹے ذیلی سوالات اور جدولوں کا اندازہ لگانے کے لیے استعمال کیا جاتا ہے۔ مثال کے طور پر، درج ذیل استفسار پر غور کریں:
نحوی جوائن آرڈر ہے۔ store_sales
شامل ہو جاتا ہے store_returns
شامل ہو جاتا ہے call_center
. Amazon EMR جوائن کی قسم اور آرڈر کے انتخاب کی اصلاح کے اصولوں کے ساتھ، بہترین جوائن آرڈر کا تعین کیا جاتا ہے چاہے ان جدولوں میں اعداد و شمار نہ ہوں۔ سابقہ استفسار کے لیے اگر call_center
S3 فائل میٹا ڈیٹا کے ذریعے تخمینی سائز کا تخمینہ لگانے کے بعد ایک چھوٹی سی میز سمجھا جاتا ہے، EMR کے جوائن آپٹیمائزیشن کے اصول شامل ہوں گے۔ store_sales
ساتھ call_center
پہلے اور جوائن کو براڈکاسٹ جوائن میں تبدیل کریں، استفسار کو تیز کریں اور میموری کی کھپت کو کم کریں۔ دوبارہ ترتیب دینے میں شامل ہونے سے انٹرمیڈیٹ رزلٹ کا سائز کم ہو جاتا ہے، جو مجموعی طور پر استفسار کے رن ٹائم کو مزید کم کرنے میں مدد کرتا ہے۔
Amazon EMR 6.10.0 اور اس کے بعد کے ساتھ، S3 فائل میٹا ڈیٹا پر مبنی جوائن آپٹیمائزیشنز بطور ڈیفالٹ آن ہوتے ہیں۔ اگر آپ Amazon EMR 6.8.0 یا 6.9.0 استعمال کر رہے ہیں، تو آپ Trino کلائنٹس سے سیشن کی خصوصیات ترتیب دے کر یا اپنا کلسٹر بناتے وقت trino-config کی درجہ بندی میں درج ذیل خصوصیات کو شامل کر کے ان اصلاحوں کو آن کر سکتے ہیں۔ کا حوالہ دیتے ہیں ایپلی کیشنز کو ترتیب دیں۔ کسی ایپلیکیشن کے لیے پہلے سے طے شدہ کنفیگریشنز کو اوور رائڈ کرنے کے طریقے کے بارے میں تفصیلات کے لیے۔
شمولیت کی قسم کے انتخاب کے لیے ترتیب:
دوبارہ ترتیب میں شامل ہونے کے لیے ترتیب:
نتیجہ
Amazon EMR 6.8.0 اور اس کے بعد کے ساتھ، آپ Trino پر سوالات کو اوپن سورس Trino سے زیادہ تیزی سے چلا سکتے ہیں۔ جیسا کہ اس بلاگ پوسٹ میں دکھایا گیا ہے، ہمارے TPC-DS بینچ مارک نے Amazon EMR 2.7 پر Trino کے ساتھ کل استفسار کے رن ٹائم میں 6.15.0 گنا بہتری دکھائی ہے۔ اس پوسٹ میں زیر بحث اصلاحات، اور بہت سے دوسرے، ایتھینا پر Trino سوالات چلاتے وقت بھی دستیاب ہوتے ہیں جہاں کارکردگی میں اسی طرح کی بہتری دیکھی جاتی ہے۔ مزید جاننے کے لیے، کا حوالہ دیں۔ تازہ ترین Amazon Athena انجن پر 3% تک لاگت کی بچت کے ساتھ سوالات کو 70x تیزی سے چلائیں.
گاہکوں کی جانب سے اختراع کرنے کے ہمارے مشن میں، Amazon EMR اور Athena اکثر اپنے تازہ ترین ورژنز پر کارکردگی اور قابل اعتماد اضافہ جاری کرتے ہیں۔ چیک کریں۔ ایمیزون ای ایم آر اور ایمیزون ایتینا نئی خصوصیات اور اضافہ کے بارے میں جاننے کے لیے صفحات جاری کریں۔
مصنفین کے بارے میں
بھارگوی ساگی ایمیزون ایتھینا پر سافٹ ویئر ڈویلپمنٹ انجینئر ہے۔ اس نے 2020 میں AWS میں شمولیت اختیار کی اور Amazon EMR اور Athena انجن V3 کے مختلف شعبوں پر کام کر رہی ہے، جس میں انجن کی اپ گریڈیشن، انجن کی وشوسنییتا، اور انجن کی کارکردگی شامل ہے۔
سشیل کمار شیواشنکر EMR Trino اور Athena Query Engine ٹیم کے انجینئرنگ مینیجر ہیں۔ وہ 2014 سے بڑے ڈیٹا اینالیٹکس کی جگہ پر توجہ مرکوز کر رہا ہے۔
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
- پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
- پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://aws.amazon.com/blogs/big-data/run-trino-queries-2-7-times-faster-with-amazon-emr-6-15-0/
- : ہے
- : ہے
- : نہیں
- :کہاں
- $UP
- 1
- 10
- 100
- 15٪
- 160
- 2%
- 20
- 2014
- 2020
- 6
- 7
- 72
- 8
- 9
- a
- ہمارے بارے میں
- انہوں نے مزید کہا
- پر اثر انداز
- کے بعد
- یلگورتم
- ساتھ
- بھی
- ایمیزون
- ایمیزون ایتینا
- ایمیزون EC2
- ایمیزون ای ایم آر
- ایمیزون ویب سروسز
- an
- تجزیاتی
- تجزیاتی
- اور
- کوئی بھی
- درخواست
- تخمینہ
- کیا
- علاقوں
- AS
- دستیاب
- سے اجتناب
- AWS
- کیونکہ
- رہا
- کی طرف سے
- رویے
- معیار
- معیارات
- بہتر
- بگ
- بگ ڈیٹا
- بلاگ
- دونوں
- نشر
- تعمیر
- by
- کر سکتے ہیں
- کیٹلوگ
- چیک کریں
- درجہ بندی
- کلائنٹس
- کلسٹر
- جمع
- کالم
- کمیونٹی
- موازنہ
- مقابلے میں
- کمپیوٹنگ
- ترتیب
- غور کریں
- سمجھا
- مسلسل
- کھپت
- پر مشتمل ہے
- شراکت
- تبدیل
- کوآرڈینیٹر
- قیمت
- لاگت کی بچت
- تخلیق
- اہم
- گاہکوں
- اعداد و شمار
- ڈیٹا تجزیات
- ڈیٹا بیس
- تاریخ
- فیصلہ کرنا
- فیصلے
- گہرے
- پہلے سے طے شدہ
- ڈیلے
- demonstrated,en
- ڈیزائن
- تفصیلات
- کا تعین
- کا تعین کرنے
- ترقی یافتہ
- ترقی
- ترقی
- مختلف
- بات چیت
- تقسیم کئے
- نہیں
- انجن
- انجینئر
- انجنیئرنگ
- اضافہ
- Ether (ETH)
- بھی
- مثال کے طور پر
- خارج کر دیا گیا
- مہنگی
- تجربہ
- وضاحت
- سہولت
- حقیقت یہ ہے
- تیز تر
- خصوصیات
- چند
- فائل
- پہلا
- پانچ
- لچک
- توجہ مرکوز
- کے بعد
- کے لئے
- فارمیٹ
- اکثر
- سے
- تقریب
- مزید
- فوائد
- حاصل
- گراف
- زیادہ سے زیادہ
- ہیش
- ہے
- he
- مدد کرتا ہے
- کس طرح
- HTML
- HTTP
- HTTPS
- if
- کو بہتر بنانے کے
- بہتر
- بہتری
- بہتری
- in
- سمیت
- اختراعات
- بدعت
- واقعات
- انٹرایکٹو
- انٹرمیڈیٹ
- میں
- IT
- میں شامل
- شامل ہو گئے
- کے ساتھ گفتگو
- فوٹو
- کلیدی
- کمر
- بڑے
- سب سے بڑا
- بعد
- تازہ ترین
- جانیں
- کی طرح
- انتظام
- مینیجر
- بہت سے
- ماپا
- یاد داشت
- میٹا ڈیٹا
- کم سے کم
- مشن
- زیادہ
- بہت
- ضرورت
- نیٹ ورک
- نئی
- نئی خصوصیات
- مشاہدہ
- of
- اکثر
- on
- ایک
- کھول
- اوپن سورس
- زیادہ سے زیادہ
- اصلاح کے
- اصلاح
- کی اصلاح کریں
- or
- حکم
- دیگر
- دیگر
- ہمارے
- باہر
- پر
- مجموعی طور پر
- منسوخی
- صفحات
- خاص طور پر
- تقسیم
- کارکردگی
- کارکردگی
- منصوبہ
- کی منصوبہ بندی
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- پوسٹ
- کو ترجیح دی
- حال (-)
- خصوصیات
- جائیداد
- ملکیت
- سوالات
- استفسار میں
- بھاگ گیا
- پڑھیں
- کو کم
- کو کم کرنے
- کا حوالہ دیتے ہیں
- تعلقات
- جاری
- وشوسنییتا
- نمائندگی
- نتیجہ
- نتائج کی نمائش
- قوانین
- رن
- چل رہا ہے
- رن ٹائم
- بچت
- سیکنڈ
- انتخاب
- بے سرور
- سروسز
- اجلاس
- قائم کرنے
- وہ
- دکھائیں
- سے ظاہر ہوا
- دکھایا گیا
- شوز
- نمایاں طور پر
- اسی طرح
- بعد
- سائز
- چھوٹے
- سافٹ ویئر کی
- سوفٹ ویئر کی نشوونما
- کچھ
- ماخذ
- خلا
- SQL
- مراحل
- کے اعداد و شمار
- ذخیرہ
- ٹیبل
- ٹیم
- ٹیسٹنگ
- سے
- کہ
- ۔
- گراف
- ان
- یہ
- اس
- کے ذریعے
- اوقات
- کرنے کے لئے
- بھی
- سب سے اوپر
- اوپر 10
- کل
- منتقل
- ٹرن
- تبدیل کر دیا
- دو
- قسم
- عام طور پر
- سمجھ
- اپ گریڈ
- استعمال کی شرائط
- استعمال کیا جاتا ہے
- استعمال
- کا استعمال کرتے ہوئے
- ورژن
- ورژن
- تھا
- we
- ویب
- ویب خدمات
- تھے
- جب
- جس
- جبکہ
- گے
- ساتھ
- بغیر
- کارکن
- کام کر
- آپ
- اور
- زیفیرنیٹ