1سینٹر فار کوانٹم ٹیکنالوجیز، نیشنل یونیورسٹی آف سنگاپور، سنگاپور
2شعبہ الیکٹریکل اینڈ کمپیوٹر انجینئرنگ، فیکلٹی آف انجینئرنگ، نیشنل یونیورسٹی آف سنگاپور، سنگاپور
اس کاغذ کو دلچسپ لگتا ہے یا اس پر بات کرنا چاہتے ہیں؟ SciRate پر تبصرہ کریں یا چھوڑیں۔.
خلاصہ
ہم کوانٹم ریاستوں کی خصوصیات کی آن لائن سیکھنے میں ایکسپلوریشن اور استحصال کے درمیان تجارت کا مطالعہ شروع کرتے ہیں۔ کسی نامعلوم کوانٹم حالت تک ترتیب وار اوریکل کی رسائی کے پیش نظر، ہر دور میں، ہمیں کام سونپا جاتا ہے کہ ہم عمل کے ایک سیٹ سے قابل مشاہدہ کا انتخاب کریں جس کا مقصد ریاست (انعام) پر اس کی متوقع قدر کو زیادہ سے زیادہ کرنا ہے۔ پچھلے راؤنڈز سے نامعلوم حالت کے بارے میں حاصل کردہ معلومات کو عمل کے انتخاب کو بتدریج بہتر بنانے کے لیے استعمال کیا جا سکتا ہے، اس طرح انعام اور دیے گئے ایکشن سیٹ (افسوس) کے ساتھ حاصل ہونے والے زیادہ سے زیادہ انعام کے درمیان فرق کو کم کیا جا سکتا ہے۔ ہم مجموعی پچھتاوے پر مختلف معلوماتی نظریاتی نچلی حدیں فراہم کرتے ہیں جو ایک بہترین سیکھنے والے کو اٹھانا پڑتا ہے، اور یہ ظاہر کرتے ہیں کہ یہ کم از کم کھیلے گئے راؤنڈ کی تعداد کے مربع جڑ کے طور پر پیمانہ بناتا ہے۔ ہم دستیاب کارروائیوں کی تعداد اور بنیادی جگہ کے طول و عرض پر مجموعی افسوس کے انحصار کی بھی تحقیقات کرتے ہیں۔ مزید برآں، ہم ایسی حکمت عملیوں کی نمائش کرتے ہیں جو محدود تعداد میں ہتھیاروں اور عام مخلوط حالتوں والے ڈاکوؤں کے لیے بہترین ہیں۔
[سرایت مواد]
► BibTeX ڈیٹا
► حوالہ جات
ہے [1] T. Lattimore اور C. Szepesvári. "بینڈٹ الگورتھم"۔ کیمبرج یونیورسٹی پریس۔ (2020)۔
https://doi.org/10.1017/9781108571401
ہے [2] A. Slivkins. "متعدد مسلح ڈاکوؤں کا تعارف"۔ مشین لرننگ میں بنیادیں اور رجحانات 12, 1–286 (2019)۔
https://doi.org/10.1561/2200000068
ہے [3] S. Bubeck اور N. Cesa-Bianchi. "اسٹاکسٹک اور نان سٹوچسٹک ملٹی آرمڈ ڈاکو مسائل کا افسوسناک تجزیہ"۔ مشین لرننگ میں بنیادیں اور رجحانات 5, 1–122 (2012)۔
https://doi.org/10.1561/2200000024
ہے [4] ڈی بونیفوف، آئی. ریش، اور سی اگروال۔ "کثیر مسلح اور متعلقہ ڈاکوؤں کی درخواستوں پر سروے"۔ 2020 میں IEEE کانگریس آن ایوولیوشنری کمپیوٹیشن (CEC)۔ صفحہ 1-8۔ (2020)۔
https:///doi.org/10.1109/CEC48606.2020.9185782
ہے [5] ایل تانگ، آر روزالز، اے سنگھ، اور ڈی اگروال۔ "سیاق و سباق کے ڈاکوؤں کے ذریعے خودکار اشتہار کی شکل کا انتخاب"۔ انفارمیشن اینڈ نالج مینجمنٹ پر 22ویں ACM انٹرنیشنل کانفرنس کی کارروائی میں۔ صفحہ 1587-1594۔ ایسوسی ایشن فار کمپیوٹنگ مشینری (2013)۔
https://doi.org/10.1145/2505515.2514700
ہے [6] M. Cohen, I. Lobel, and R. Paes Leme. "خصوصیت پر مبنی متحرک قیمتوں کا تعین"۔ مینجمنٹ سائنس 66، 4921–4943 (2020)۔
https://doi.org/10.1287/mnsc.2019.3485
ہے [7] ڈبلیو تھامسن۔ "اس امکان پر کہ دو نمونوں کے ثبوت کے پیش نظر ایک نامعلوم امکان دوسرے سے بڑھ جائے"۔ بائیومیٹرکا 25، 285–294 (1933)۔
https:///doi.org/10.1093/biomet/25.3-4.285
ہے [8] ایچ رابنز۔ "تجربات کے ترتیب وار ڈیزائن کے کچھ پہلو"۔ بلیٹن آف دی امریکن میتھمیٹیکل سوسائٹی 58، 527–535 (1952)۔
https://doi.org/10.1090/S0002-9904-1952-09620-8
ہے [9] ٹی ایل لائی اور ایچ رابنس۔ "غیر علامتی طور پر موثر انکولی مختص قواعد"۔ اپلائیڈ میتھمیٹکس میں پیشرفت 6، 4–22 (1985)۔
https://doi.org/10.1016/0196-8858(85)90002-8
ہے [10] P. Auer، N. Cesa-Bianchi، اور P. Fischer. "ملٹی آرمڈ ڈاکو کے مسئلے کا محدود وقت کا تجزیہ"۔ مچ سیکھیں۔ 47، 235–256 (2002)۔
https://doi.org/10.1023/A:1013689704352
ہے [11] B. Casalé, G. Di Molfetta, H. Kadri, اور L. Ralaivola. "کوانٹم ڈاکو"۔ کوانٹم مچ۔ انٹیل۔ 2 (2020)۔
https://doi.org/10.1007/s42484-020-00024-8
ہے [12] ڈی وانگ، ایکس یو، ٹی لی، اور اے چائلڈز۔ "کثیر مسلح ڈاکوؤں کے لیے کوانٹم ایکسپلوریشن الگورتھم"۔ مصنوعی ذہانت پر AAAI کانفرنس کی کارروائی میں۔ جلد 35، صفحہ 10102–10110۔ (2021)۔
ہے [13] P. Rebentrost، Y. Hamoudi، M. Ray، X. Wang، S. Yang، اور M. Santha. "ہیجنگ اور آئیزنگ ماڈلز کے سیکھنے کے لیے کوانٹم الگورتھم"۔ طبیعات Rev. A 103, 012418 (2021)۔
https:///doi.org/10.1103/PhysRevA.103.012418
ہے [14] او شامیر۔ "بینڈٹ لکیری اصلاح کی پیچیدگی پر"۔ لرننگ تھیوری پر 28 ویں کانفرنس کی کارروائی میں۔ مشین لرننگ ریسرچ کی کارروائی کی جلد 40، صفحات 1523–1551۔ PMLR (2015)۔
ہے [15] P. Rusmevichientong اور J. Tsitsiklis. "لکیری پیرامیٹرائزڈ ڈاکو"۔ آپریشنز ریسرچ کی ریاضی 35 (2008)۔
https://doi.org/10.1287/moor.1100.0446
ہے [16] جے بیری، ڈی ٹی بیری، اور ایس آرونسن۔ "کوانٹم جزوی طور پر قابل مشاہدہ مارکوف فیصلے کے عمل"۔ طبیعات Rev. A 90, 032311 (2014)۔
https:///doi.org/10.1103/PhysRevA.90.032311
ہے [17] ایم ینگ، وائی فینگ، اور ایس ینگ۔ "کوانٹم مارکوف فیصلے کے عمل کے لیے بہترین پالیسیاں"۔ انٹرنیشنل جرنل آف آٹومیشن اینڈ کمپیوٹنگ 18، 410–421 (2021)۔
https://doi.org/10.1007/s11633-021-1278-z
ہے [18] M. پیرس اور J. Rehacek. "کوانٹم اسٹیٹ تخمینہ"۔ اسپرنگر پبلشنگ کمپنی، انکارپوریٹڈ۔ (2010)۔ پہلا ایڈیشن۔
https://doi.org/10.1007/b98673
ہے [19] ایس ایرونسن۔ "کوانٹم ریاستوں کی شیڈو ٹوموگرافی"۔ تھیوری آف کمپیوٹنگ پر 50 ویں سالانہ ACM SIGACT سمپوزیم کی کارروائی میں۔ صفحہ 325–338۔ STOC 2018. ایسوسی ایشن فار کمپیوٹنگ مشینری (2018)۔
https://doi.org/10.1145/3188745.3188802
ہے [20] ایس آرونسن، ایکس چن، ای ہازن، ایس کالے، اور اے نائک۔ "کوانٹم ریاستوں کی آن لائن تعلیم"۔ شماریاتی میکانکس کا جرنل: تھیوری اور تجربہ 2019 (2018)۔
https://doi.org/10.1088/1742-5468/ab3988
ہے [21] J. Bretagnolle اور C. Huber. "اندازہ des densités: risque minimax". Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete 47, 119–137 (1979)۔
https://doi.org/10.1007/BF00535278
ہے [22] M. Müller-Lennert, F. Dupuis, O. Szehr, S. Fehr, اور M. Tomamichel. "کوانٹم رینی اینٹروپیز پر: ایک نئی عامیت اور کچھ خصوصیات"۔ جرنل آف میتھمیٹیکل فزکس 54، 122203 (2013)۔
https://doi.org/10.1063/1.4838856
ہے [23] ایم وائلڈ، اے ونٹر، اور ڈی یانگ۔ "سینڈویچڈ رینی ریلٹیو اینٹروپی کے ذریعے الجھاؤ توڑنے اور ہدامارڈ چینلز کی کلاسیکی صلاحیت کے لئے مضبوط گفتگو"۔ ریاضیاتی طبیعیات میں مواصلات 331، 593–622 (2014)۔
https:///doi.org/10.1007/s00220-014-2122-x
ہے [24] ڈبلیو ہوفڈنگ۔ "باؤنڈڈ بے ترتیب متغیرات کی رقم کے لیے امکانی عدم مساوات"۔ جرنل آف دی امریکن سٹیٹسٹیکل ایسوسی ایشن 58، 13–30 (1963)۔
https://doi.org/10.1080/01621459.1963.10500830
ہے [25] P. Auer "استحصال-تجارتی تجارت کے لیے اعتماد کی حدوں کا استعمال"۔ جے مچ سیکھیں۔ Res. 3، 397–422 (2003)۔
https://doi.org/10.5555/944919.944941
ہے [26] ڈی ورشا، ٹی ہیس، اور ایس کاکڑے۔ "بینڈٹ فیڈ بیک کے تحت اسٹاکسٹک لکیری اصلاح۔" لرننگ تھیوری پر 21 ویں کانفرنس کی کارروائی میں۔ صفحات 355–366۔ (2008)۔
ہے [27] P. Rusmevichientong اور JN Tsitsiklis. "لکیری پیرامیٹرائزڈ ڈاکو"۔ آپریشنز ریسرچ کی ریاضی 35، 395–411 (2010)۔
https://doi.org/10.1287/moor.1100.0446
ہے [28] وائی عباسی یادکوری، ڈی پال، اور سی ایس۔ Szepesvári "لکیری اسٹاکسٹک ڈاکوؤں کے لیے بہتر الگورتھم"۔ نیورل انفارمیشن پروسیسنگ سسٹمز میں پیشرفت۔ جلد 24. Curran Associates, Inc. (2011)۔
ہے [29] ٹی ایل لائی۔ "اڈاپٹیو ٹریٹمنٹ ایلوکیشن اور ملٹی آرمڈ ڈاکو مسئلہ"۔ شماریات کی تاریخ 15، 1091 - 1114 (1987)۔
https://doi.org/10.1214/aos/1176350495
ہے [30] M. Guţă, J. Kahn, R. Kueng, اور JA Tropp. "زیادہ سے زیادہ خرابی کی حدوں کے ساتھ فاسٹ اسٹیٹ ٹوموگرافی"۔ طبیعیات کا جرنل A: ریاضی اور نظریاتی 53، 204001 (2020)۔
https://doi.org/10.1088/1751-8121/ab8111
ہے [31] T. Lattimore اور B. Hao. "ڈاکو کے مرحلے کی بازیافت"۔ نیورل انفارمیشن پروسیسنگ سسٹمز میں پیشرفت۔ جلد 34، صفحات 18801–18811۔ Curran Associates, Inc. (2021)۔
کی طرف سے حوالہ دیا گیا
Zongqi Wan، Zhijie Zhang، Tongyang Li، Jialin Zhang، اور Xiaoming Sun، "کوانٹم ملٹی آرمڈ ڈاکو اور اسٹاکسٹک لکیری ڈاکو لوگاریتھمک ندامت سے لطف اندوز ہوتے ہیں"، آر ایکس سی: 2205.14988.
[2] Xinyi Chen, Elad Hazan, Tongyang Li, Zhou Lu, Xinzhao Wang, and Rui Yang, "Adaptive Online Learning of Quantum States"، آر ایکس سی: 2206.00220.
مذکورہ بالا اقتباسات سے ہیں۔ SAO/NASA ADS (آخری بار کامیابی کے ساتھ 2022-07-24 00:26:50)۔ فہرست نامکمل ہو سکتی ہے کیونکہ تمام ناشرین مناسب اور مکمل حوالہ ڈیٹا فراہم نہیں کرتے ہیں۔
On Crossref کی طرف سے پیش خدمت کاموں کے حوالے سے کوئی ڈیٹا نہیں ملا (آخری کوشش 2022-07-24 00:26:48)۔
یہ مقالہ کوانٹم میں کے تحت شائع کیا گیا ہے۔ Creative Commons انتساب 4.0 انٹرنیشنل (CC BY 4.0) لائسنس کاپی رائٹ اصل کاپی رائٹ ہولڈرز جیسے مصنفین یا ان کے اداروں کے پاس رہتا ہے۔