ملٹی آرمڈ کوانٹم ڈاکو: کوانٹم سٹیٹس کی خصوصیات سیکھتے وقت ایکسپلوریشن بمقابلہ استحصال

ماخذ نوڈ: 1590105

جوزپ لمبریرس1, Erkka Haapsalo1، اور مارکو ٹومامیچل1,2

1سینٹر فار کوانٹم ٹیکنالوجیز، نیشنل یونیورسٹی آف سنگاپور، سنگاپور
2شعبہ الیکٹریکل اینڈ کمپیوٹر انجینئرنگ، فیکلٹی آف انجینئرنگ، نیشنل یونیورسٹی آف سنگاپور، سنگاپور

اس کاغذ کو دلچسپ لگتا ہے یا اس پر بات کرنا چاہتے ہیں؟ SciRate پر تبصرہ کریں یا چھوڑیں۔.

خلاصہ

ہم کوانٹم ریاستوں کی خصوصیات کی آن لائن سیکھنے میں ایکسپلوریشن اور استحصال کے درمیان تجارت کا مطالعہ شروع کرتے ہیں۔ کسی نامعلوم کوانٹم حالت تک ترتیب وار اوریکل کی رسائی کے پیش نظر، ہر دور میں، ہمیں کام سونپا جاتا ہے کہ ہم عمل کے ایک سیٹ سے قابل مشاہدہ کا انتخاب کریں جس کا مقصد ریاست (انعام) پر اس کی متوقع قدر کو زیادہ سے زیادہ کرنا ہے۔ پچھلے راؤنڈز سے نامعلوم حالت کے بارے میں حاصل کردہ معلومات کو عمل کے انتخاب کو بتدریج بہتر بنانے کے لیے استعمال کیا جا سکتا ہے، اس طرح انعام اور دیے گئے ایکشن سیٹ (افسوس) کے ساتھ حاصل ہونے والے زیادہ سے زیادہ انعام کے درمیان فرق کو کم کیا جا سکتا ہے۔ ہم مجموعی پچھتاوے پر مختلف معلوماتی نظریاتی نچلی حدیں فراہم کرتے ہیں جو ایک بہترین سیکھنے والے کو اٹھانا پڑتا ہے، اور یہ ظاہر کرتے ہیں کہ یہ کم از کم کھیلے گئے راؤنڈ کی تعداد کے مربع جڑ کے طور پر پیمانہ بناتا ہے۔ ہم دستیاب کارروائیوں کی تعداد اور بنیادی جگہ کے طول و عرض پر مجموعی افسوس کے انحصار کی بھی تحقیقات کرتے ہیں۔ مزید برآں، ہم ایسی حکمت عملیوں کی نمائش کرتے ہیں جو محدود تعداد میں ہتھیاروں اور عام مخلوط حالتوں والے ڈاکوؤں کے لیے بہترین ہیں۔

[سرایت مواد]

► BibTeX ڈیٹا

► حوالہ جات

ہے [1] T. Lattimore اور C. Szepesvári. "بینڈٹ الگورتھم"۔ کیمبرج یونیورسٹی پریس۔ (2020)۔
https://​doi.org/​10.1017/​9781108571401

ہے [2] A. Slivkins. "متعدد مسلح ڈاکوؤں کا تعارف"۔ مشین لرننگ میں بنیادیں اور رجحانات 12, 1–286 (2019)۔
https://​doi.org/​10.1561/​2200000068

ہے [3] S. Bubeck اور N. Cesa-Bianchi. "اسٹاکسٹک اور نان سٹوچسٹک ملٹی آرمڈ ڈاکو مسائل کا افسوسناک تجزیہ"۔ مشین لرننگ میں بنیادیں اور رجحانات 5, 1–122 (2012)۔
https://​doi.org/​10.1561/​2200000024

ہے [4] ڈی بونیفوف، آئی. ریش، اور سی اگروال۔ "کثیر مسلح اور متعلقہ ڈاکوؤں کی درخواستوں پر سروے"۔ 2020 میں IEEE کانگریس آن ایوولیوشنری کمپیوٹیشن (CEC)۔ صفحہ 1-8۔ (2020)۔
https://​/​doi.org/​10.1109/​CEC48606.2020.9185782

ایل تانگ، آر روزالز، اے سنگھ، اور ڈی اگروال۔ "سیاق و سباق کے ڈاکوؤں کے ذریعے خودکار اشتہار کی شکل کا انتخاب"۔ انفارمیشن اینڈ نالج مینجمنٹ پر 22ویں ACM انٹرنیشنل کانفرنس کی کارروائی میں۔ صفحہ 1587-1594۔ ایسوسی ایشن فار کمپیوٹنگ مشینری (2013)۔
https://​doi.org/​10.1145/​2505515.2514700

ہے [6] M. Cohen, I. Lobel, and R. Paes Leme. "خصوصیت پر مبنی متحرک قیمتوں کا تعین"۔ مینجمنٹ سائنس 66، 4921–4943 (2020)۔
https://​doi.org/​10.1287/​mnsc.2019.3485

ہے [7] ڈبلیو تھامسن۔ "اس امکان پر کہ دو نمونوں کے ثبوت کے پیش نظر ایک نامعلوم امکان دوسرے سے بڑھ جائے"۔ بائیومیٹرکا 25، 285–294 (1933)۔
https://​/​doi.org/​10.1093/​biomet/​25.3-4.285

ہے [8] ایچ رابنز۔ "تجربات کے ترتیب وار ڈیزائن کے کچھ پہلو"۔ بلیٹن آف دی امریکن میتھمیٹیکل سوسائٹی 58، 527–535 (1952)۔
https:/​/​doi.org/​10.1090/​S0002-9904-1952-09620-8

ہے [9] ٹی ایل لائی اور ایچ رابنس۔ "غیر علامتی طور پر موثر انکولی مختص قواعد"۔ اپلائیڈ میتھمیٹکس میں پیشرفت 6، 4–22 (1985)۔
https:/​/​doi.org/​10.1016/​0196-8858(85)90002-8

ہے [10] P. Auer، N. Cesa-Bianchi، اور P. Fischer. "ملٹی آرمڈ ڈاکو کے مسئلے کا محدود وقت کا تجزیہ"۔ مچ سیکھیں۔ 47، 235–256 (2002)۔
https://​doi.org/​10.1023/​A:1013689704352

ہے [11] B. Casalé, G. Di Molfetta, H. Kadri, اور L. Ralaivola. "کوانٹم ڈاکو"۔ کوانٹم مچ۔ انٹیل۔ 2 (2020)۔
https:/​/​doi.org/​10.1007/​s42484-020-00024-8

ہے [12] ڈی وانگ، ایکس یو، ٹی لی، اور اے چائلڈز۔ "کثیر مسلح ڈاکوؤں کے لیے کوانٹم ایکسپلوریشن الگورتھم"۔ مصنوعی ذہانت پر AAAI کانفرنس کی کارروائی میں۔ جلد 35، صفحہ 10102–10110۔ (2021)۔

ہے [13] P. Rebentrost، Y. Hamoudi، M. Ray، X. Wang، S. Yang، اور M. Santha. "ہیجنگ اور آئیزنگ ماڈلز کے سیکھنے کے لیے کوانٹم الگورتھم"۔ طبیعات Rev. A 103, 012418 (2021)۔
https://​/​doi.org/​10.1103/​PhysRevA.103.012418

ہے [14] او شامیر۔ "بینڈٹ لکیری اصلاح کی پیچیدگی پر"۔ لرننگ تھیوری پر 28 ویں کانفرنس کی کارروائی میں۔ مشین لرننگ ریسرچ کی کارروائی کی جلد 40، صفحات 1523–1551۔ PMLR (2015)۔

ہے [15] P. Rusmevichientong اور J. Tsitsiklis. "لکیری پیرامیٹرائزڈ ڈاکو"۔ آپریشنز ریسرچ کی ریاضی 35 (2008)۔
https://​doi.org/​10.1287/​moor.1100.0446

ہے [16] جے بیری، ڈی ٹی بیری، اور ایس آرونسن۔ "کوانٹم جزوی طور پر قابل مشاہدہ مارکوف فیصلے کے عمل"۔ طبیعات Rev. A 90, 032311 (2014)۔
https://​/​doi.org/​10.1103/​PhysRevA.90.032311

ہے [17] ایم ینگ، وائی فینگ، اور ایس ینگ۔ "کوانٹم مارکوف فیصلے کے عمل کے لیے بہترین پالیسیاں"۔ انٹرنیشنل جرنل آف آٹومیشن اینڈ کمپیوٹنگ 18، 410–421 (2021)۔
https://​doi.org/​10.1007/​s11633-021-1278-z

ہے [18] M. پیرس اور J. Rehacek. "کوانٹم اسٹیٹ تخمینہ"۔ اسپرنگر پبلشنگ کمپنی، انکارپوریٹڈ۔ (2010)۔ پہلا ایڈیشن۔
https://​doi.org/​10.1007/​b98673

ہے [19] ایس ایرونسن۔ "کوانٹم ریاستوں کی شیڈو ٹوموگرافی"۔ تھیوری آف کمپیوٹنگ پر 50 ویں سالانہ ACM SIGACT سمپوزیم کی کارروائی میں۔ صفحہ 325–338۔ STOC 2018. ایسوسی ایشن فار کمپیوٹنگ مشینری (2018)۔
https://​doi.org/​10.1145/​3188745.3188802

ہے [20] ایس آرونسن، ایکس چن، ای ہازن، ایس کالے، اور اے نائک۔ "کوانٹم ریاستوں کی آن لائن تعلیم"۔ شماریاتی میکانکس کا جرنل: تھیوری اور تجربہ 2019 (2018)۔
https://​doi.org/​10.1088/​1742-5468/​ab3988

ہے [21] J. Bretagnolle اور C. Huber. "اندازہ des densités: risque minimax". Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete 47, 119–137 (1979)۔
https://​doi.org/​10.1007/​BF00535278

ہے [22] M. Müller-Lennert, F. Dupuis, O. Szehr, S. Fehr, اور M. Tomamichel. "کوانٹم رینی اینٹروپیز پر: ایک نئی عامیت اور کچھ خصوصیات"۔ جرنل آف میتھمیٹیکل فزکس 54، 122203 (2013)۔
https://​doi.org/​10.1063/​1.4838856

ہے [23] ایم وائلڈ، اے ونٹر، اور ڈی یانگ۔ "سینڈویچڈ رینی ریلٹیو اینٹروپی کے ذریعے الجھاؤ توڑنے اور ہدامارڈ چینلز کی کلاسیکی صلاحیت کے لئے مضبوط گفتگو"۔ ریاضیاتی طبیعیات میں مواصلات 331، 593–622 (2014)۔
https://​/​doi.org/​10.1007/​s00220-014-2122-x

ہے [24] ڈبلیو ہوفڈنگ۔ "باؤنڈڈ بے ترتیب متغیرات کی رقم کے لیے امکانی عدم مساوات"۔ جرنل آف دی امریکن سٹیٹسٹیکل ایسوسی ایشن 58، 13–30 (1963)۔
https://​doi.org/​10.1080/​01621459.1963.10500830

ہے [25] P. Auer "استحصال-تجارتی تجارت کے لیے اعتماد کی حدوں کا استعمال"۔ جے مچ سیکھیں۔ Res. 3، 397–422 (2003)۔
https://​doi.org/​10.5555/​944919.944941

ہے [26] ڈی ورشا، ٹی ہیس، اور ایس کاکڑے۔ "بینڈٹ فیڈ بیک کے تحت اسٹاکسٹک لکیری اصلاح۔" لرننگ تھیوری پر 21 ویں کانفرنس کی کارروائی میں۔ صفحات 355–366۔ (2008)۔

ہے [27] P. Rusmevichientong اور JN Tsitsiklis. "لکیری پیرامیٹرائزڈ ڈاکو"۔ آپریشنز ریسرچ کی ریاضی 35، 395–411 (2010)۔
https://​doi.org/​10.1287/​moor.1100.0446

ہے [28] وائی ​​عباسی یادکوری، ڈی پال، اور سی ایس۔ Szepesvári "لکیری اسٹاکسٹک ڈاکوؤں کے لیے بہتر الگورتھم"۔ نیورل انفارمیشن پروسیسنگ سسٹمز میں پیشرفت۔ جلد 24. Curran Associates, Inc. (2011)۔

ہے [29] ٹی ایل لائی۔ "اڈاپٹیو ٹریٹمنٹ ایلوکیشن اور ملٹی آرمڈ ڈاکو مسئلہ"۔ شماریات کی تاریخ 15، 1091 - 1114 (1987)۔
https://​doi.org/​10.1214/​aos/​1176350495

ہے [30] M. Guţă, J. Kahn, R. Kueng, اور JA Tropp. "زیادہ سے زیادہ خرابی کی حدوں کے ساتھ فاسٹ اسٹیٹ ٹوموگرافی"۔ طبیعیات کا جرنل A: ریاضی اور نظریاتی 53، 204001 (2020)۔
https://​doi.org/​10.1088/​1751-8121/​ab8111

ہے [31] T. Lattimore اور B. Hao. "ڈاکو کے مرحلے کی بازیافت"۔ نیورل انفارمیشن پروسیسنگ سسٹمز میں پیشرفت۔ جلد 34، صفحات 18801–18811۔ Curran Associates, Inc. (2021)۔

کی طرف سے حوالہ دیا گیا

Zongqi Wan، Zhijie Zhang، Tongyang Li، Jialin Zhang، اور Xiaoming Sun، "کوانٹم ملٹی آرمڈ ڈاکو اور اسٹاکسٹک لکیری ڈاکو لوگاریتھمک ندامت سے لطف اندوز ہوتے ہیں"، آر ایکس سی: 2205.14988.

[2] Xinyi Chen, Elad Hazan, Tongyang Li, Zhou Lu, Xinzhao Wang, and Rui Yang, "Adaptive Online Learning of Quantum States"، آر ایکس سی: 2206.00220.

مذکورہ بالا اقتباسات سے ہیں۔ SAO/NASA ADS (آخری بار کامیابی کے ساتھ 2022-07-24 00:26:50)۔ فہرست نامکمل ہو سکتی ہے کیونکہ تمام ناشرین مناسب اور مکمل حوالہ ڈیٹا فراہم نہیں کرتے ہیں۔

On Crossref کی طرف سے پیش خدمت کاموں کے حوالے سے کوئی ڈیٹا نہیں ملا (آخری کوشش 2022-07-24 00:26:48)۔

ٹائم اسٹیمپ:

سے زیادہ کوانٹم جرنل