ตอนเด็กๆ ฉันคิดว่าฉันจะโตมาเป็นนักคณิตศาสตร์หรือนักฟิสิกส์ ฉันเข้าใจตั้งแต่เนิ่นๆ ว่าฉันต้องการเรียนและทำวิจัย หรือแม้แต่เป็นครูในสาขาใดสาขาหนึ่งเหล่านั้น ฉันไม่รู้ว่า AI คืออะไร อันที่จริง ในช่วงปีแรกในฐานะนักศึกษาระดับปริญญาตรีในสาขาวิทยาการคอมพิวเตอร์ หลายครั้งที่ฉันรู้สึกว่าควรเปลี่ยนมาเรียนคณิตศาสตร์ ฉันดีใจที่ฉันไม่ได้
คุณยายของฉันไม่เข้าใจจริงๆ ว่างานของฉันคืออะไร เพราะคุณต้องใช้อินเทอร์เน็ต ถ้าคุณไม่ทำ และฉันบอกคุณว่า ที่ Unbabel เรากำลังทำให้คอมพิวเตอร์ดำเนินการของมนุษย์โดยอัตโนมัติ คุณอาจจะแค่นั่งอยู่ที่นั่นและจ้องกลับมาที่ฉันอย่างว่างเปล่า
ฉันไม่ได้จบลงในที่ที่ต่างไปจากที่ฉันเคยคิดไว้ตอนเด็กๆ ฉันหมายถึง เขตข้อมูลการแปลด้วยคอมพิวเตอร์ทั้งหมดนี้เริ่มต้นด้วย Warren Weaver หลังสงครามโลกครั้งที่สอง หลังจากที่ Allen Turing นักคณิตศาสตร์ถอดรหัสรหัส Enigma
แนวคิดก็คือเราสามารถปฏิบัติต่อภาษาเสมือนเป็นรหัสได้ ข้อแตกต่างคือรหัสนั้นเป็นทางการ ไม่คลุมเครือ และสิ่งที่ทำให้การแปลยากมากคือความคลุมเครืออย่างแม่นยำ
สถานะของการแปลด้วยเครื่อง
บางคนมีความรู้ในสิ่งที่ Unbabel ทำ: เราแปลข้อความในภาษาใดภาษาหนึ่งเป็นภาษาอื่น แต่คนอื่นไม่รู้ด้วยซ้ำว่าปัญญาประดิษฐ์คืออะไร บางคนอาจคิดว่าทั้งหมดที่ AI ทำคือ "สิ่งที่หุ่นยนต์" แต่นั่นไม่ใช่ สิ่งที่ AI กำลังทำคือการเลียนแบบพฤติกรรมของมนุษย์ และในบางสิ่งก็ยังดีกว่ามนุษย์อีก ที่มัน
มาเริ่มกันที่พื้นฐานกันก่อน: ระบบการเรียนรู้ของเครื่องทำอะไรได้บ้าง คุณนำเสนอพวกเขาด้วยวัตถุต้นทาง ในกรณีนี้คือประโยค และคุณขอให้พวกเขาทำนายอะไรบางอย่าง ประโยคเป้าหมาย
ความยากในการแปลคือไม่มีมาตรฐานทองคำ มาตรฐานทองคำหมายถึงความจริงที่แท้จริง หากคุณกำลังพยายามหาเครื่องเพื่อตรวจจับภาพโดยถามว่า "นี่แมวหรือสุนัข" มีความจริงที่เป็นทองเพราะภาพเฉพาะจะเป็นอย่างใดอย่างหนึ่ง ในการแปลด้วยคอมพิวเตอร์สิ่งนี้ไม่มีอยู่จริง เนื่องจากคุณสามารถมีการแปลที่แตกต่างกัน 20 แบบซึ่งดีพอๆ กัน เป็นปัญหาที่ยากกว่ามากในการเริ่มต้น การแปลที่ดีคืออะไรและอะไรไม่ได้? นอกจากนี้ยังมีความจริงที่ว่าภาษามีความคลุมเครืออย่างมาก คำพูดอาจหมายถึงสิ่งที่แตกต่างกันมากในบริบทที่แตกต่างกัน ดังนั้นปัญหาการแปลจึงไม่ได้รับการแก้ไขเป็นส่วนใหญ่
หากคุณมองลึกลงไปในการแปลด้วยคอมพิวเตอร์ คุณจะเห็นว่ามันไม่ได้ดีไปกว่าเมื่อสองสามปีก่อน แม้ว่าคนส่วนใหญ่จะคิดอย่างไร ผลลัพธ์ก่อนหน้าของระบบการแปลภาษาด้วยเครื่องสถิติดูไม่เป็นธรรมชาติหรือเป็นหุ่นยนต์ วันนี้อาจฟังดูคล่องขึ้น แต่ก็เพียงพอน้อยกว่าก่อนหน้านี้ ที่ปกติแล้วจะมีเนื้อหาที่ถูกต้อง แม้ว่าจะเข้าใจยากกว่าก็ตาม การแปลด้วยคอมพิวเตอร์ในปัจจุบันอาจล้มเหลวอย่างร้ายแรงในแง่ของเนื้อหา แต่ก็ยังฟังดูคล่องแคล่ว โดยรวมถือว่าระบบดีกว่า
การแปลด้วยคอมพิวเตอร์มาถึงจุดที่อย่างน้อยสามารถเข้าใจสาระสำคัญของข้อความได้ มีความคล่องแคล่วมากขึ้น แม้ว่าแบบจำลองต่างๆ จะเป็นแบบพื้นฐานและมีความรู้ภาษาเพียงเล็กน้อย พวกเขายังคงทำงานในระดับประโยคต่อประโยคเป็นส่วนใหญ่ ดังนั้นใครที่คิดว่าการแปลด้วยเครื่องได้รับการแก้ไขแล้วยังไม่ได้ใช้
สำหรับ Unbabel ในฐานะบริษัทที่ขายของมัน โซลูชันการสนับสนุนหลายภาษา กับบริษัทใหญ่ๆ ที่มีปฏิสัมพันธ์กับลูกค้าหลายพันหรือหลายล้านรายทุกวัน มันสร้างปัญหาได้ เพราะส่วนใหญ่เมื่อคุณพูดถึงการแปลด้วยคอมพิวเตอร์ ผู้คนนึกถึงความผิดพลาดที่เกิดขึ้นทันที. คุณไม่สามารถสร้างเรื่องราวเพื่อให้ดูเหมือนว่าการแปลด้วยคอมพิวเตอร์จะสมบูรณ์แบบไม่ได้ แต่อยู่ที่จุดนี้เอง มันยังคงเรียกร้องให้มีมนุษย์ในวงเพื่อให้มีคุณภาพเพิ่มขึ้นเล็กน้อย
ตัวอย่างเช่น ในการแชท มีบุคคลที่กำลังพูดคุยกับอีกคนหนึ่งอยู่ ซึ่งหมายความว่าคุณสามารถกู้คืนจากข้อผิดพลาดได้เร็วกว่ามาก หากคุณพูดอะไรที่ไม่สมเหตุสมผล อีกฝ่ายอาจพูดว่า “อะไรนะ? ฉันไม่เข้าใจ” แล้วคุณจะลองแปลอีกครั้ง
โดยพื้นฐานแล้วหมายความว่าคุณกำลังเป็นการประเมินคุณภาพของคุณเอง เพราะในท้ายที่สุด สิ่งที่คุณต้องการคือบทสนทนาที่ได้ผล
ความสำคัญของการประเมินคุณภาพ
การประมาณคุณภาพ — สิ่งที่เราใช้ในการประเมินคุณภาพของระบบการแปลโดยไม่ต้องเข้าถึงการแปลอ้างอิงหรือการแทรกแซงของมนุษย์ — เป็นความลับในการแปลด้วยคอมพิวเตอร์ อันที่จริง บางคนอ้างว่าสามารถแก้ปัญหาว่า "งานแปลใดถูกต้อง" เพราะตอนนี้เรามีระบบที่ประเมินว่างานแปลดีหรือไม่ดีเพียงใด ไม่ได้แปลว่าแปลว่าเป็น ถูกต้อง แต่มันคือ a แปลถูกต้อง
แต่การประมาณคุณภาพจะประสบปัญหาเดียวกันกับการแปลด้วยคอมพิวเตอร์ ซึ่งหมายความว่าคุณสามารถคาดหวังความแม่นยำในระดับเดียวกันได้ ปัญหาที่ใหญ่ที่สุดของการแปลด้วยคอมพิวเตอร์คือ มันมักจะทำผิดพลาดอยู่เสมอเพราะภาษานั้นเข้าใจยาก ไม่ว่าจะด้วยโมเดลที่ง่ายเกินไปเนื่องจากกำลังในการคำนวณ หรือจากข้อเท็จจริงที่ว่าระบบการเรียนรู้ของเครื่องใดๆ ก็ตามจะทำผิดพลาด หุ้นที่ดีที่สุดอยู่ที่ประมาณ 90 เปอร์เซ็นต์ นั่นอาจดูเหมือนมาก แต่ถ้าคุณคิดเกี่ยวกับมัน นั่นหมายความว่าหนึ่งในสิบประโยคจะผิด
การประมาณคุณภาพกำลังพยายามคาดเดาประโยคที่ผิด หรืออย่างน้อยก็พยายามตัดสินว่าข้อผิดพลาดนั้นสำคัญหรือไม่ โดยพื้นฐานแล้วจะช่วยให้เราใช้การแปลด้วยเครื่องด้วยความมั่นใจในระดับที่สูงขึ้นมาก
ที่ Unbabel เราทุ่มเทเวลาอย่างมากในการแก้ปัญหาการประเมินคุณภาพ. ทีมงาน AI ขั้นพื้นฐานคือผู้ที่ให้ความสำคัญกับเรื่องนี้เป็นส่วนใหญ่ โดยได้ค้นพบโมเดลใหม่ๆ จากนั้นมีงานมากมายจาก AI ที่ใช้และการผลิตเพื่อตอบคำถามเช่น:
- สิ่งนี้ทำงานบนไปป์ไลน์อย่างไร?
- มันปรับขนาดได้หรือไม่? เราจำเป็นต้องเปลี่ยนเป้าหมายหรือไม่?
- มันทำงานอย่างไรกับข้อมูลเชิงปฏิบัติของเรา?
- คุณทำการปรับเปลี่ยนโมเดลเหล่านี้อย่างไร?
เนื่องจาก AI พื้นฐานทำงานบนข้อมูลโดเมนทั่วไปเป็นส่วนใหญ่ ดังนั้น AI ที่นำไปใช้จึงต้องรับมา และทำให้แน่ใจว่ามันทำงานบนความเป็นจริงของการแชทหรือตั๋ว ถ้ามันใช้งานได้กับโทนสีที่แตกต่างกันหรือไม่ มีการวิจัยแล้วจึงนำสิ่งที่ค้นพบไปใช้กับผลิตภัณฑ์
เราเชื่อมั่นในระบบการประเมินคุณภาพของเรา นอกจากนี้เรายังเชื่อในการวิจัยที่ทำซ้ำได้และทำงานร่วมกัน ซึ่งเป็นเหตุผลว่าทำไมเมื่อไม่กี่เดือนก่อน เราสร้าง Open Kiwi — กรอบงานโอเพ่นซอร์สที่ใช้ระบบการประเมินคุณภาพที่ดีที่สุดทำให้ง่ายต่อการทดลองและทำซ้ำกับโมเดลเหล่านี้ภายใต้เฟรมเวิร์กเดียวกัน ตลอดจนการพัฒนาโมเดลใหม่
เราอาจเป็นหนึ่งในบริษัทแรกๆ ที่เริ่มใช้การประเมินคุณภาพในการผลิต และเราได้ทำการค้นคว้าเกี่ยวกับหัวข้อนี้มาเป็นเวลานาน ซึ่งหมายความว่าเรามีแบบจำลองและความเข้าใจปัญหาที่ดีกว่าบริษัทอื่นหรือนักวิจัยที่ทำงานเกี่ยวกับการประมาณคุณภาพ
และของรางวัลตกเป็นของ...
นี่คือเหตุผลที่ฉันมีความสุขมากที่เรา คว้าตำแหน่งระบบการประเมินคุณภาพการแปลด้วยเครื่องระดับโลกที่ดีที่สุดในการประชุม World Machine Translation เมื่อต้นปีนี้ ไม่เพียงเท่านั้น เรายังชนะการแข่งขันการแก้ไขโพสต์อัตโนมัติอีกด้วย
มันสำคัญมากสำหรับเราด้วยเหตุผลสองประการ ประการแรกคือผลกระทบที่การประเมินคุณภาพมีต่อขั้นตอนการผลิตของเรา ผลตอบแทนจากการลงทุนที่เราได้รับจากมัน และสำหรับสิ่งนั้น ไม่สำคัญหรอกว่าเราจะชนะการแข่งขันครั้งนี้หรือการแข่งขันอื่นใด
แต่ในทางกลับกัน การได้รับรางวัลอันทรงเกียรติดังกล่าวหมายถึงการยอมรับแบรนด์ Unbabel ซึ่งจำเป็นต่อการได้รับความสนใจจากลูกค้าและนักลงทุน นอกจากนี้ยังเป็นการยอมรับที่สำคัญสำหรับทีม AI ซึ่งบางครั้งงานก็ยากที่จะเข้าใจและให้เครดิต AI มีความเสี่ยงสูงมาก ผลตอบแทนสูง คุณสามารถทำงานเป็นปีแต่ไม่ได้ไปไหน ตัวอย่างเช่น งานทั้งหมดที่เราทำกับการประเมินคุณภาพของมนุษย์ไม่ได้ผล เพราะเราไม่มีเครื่องมือที่เหมาะสมสำหรับสิ่งนั้น
ดังนั้นรางวัลเหล่านี้จึงดีต่อการยอมรับ เพื่อเพิ่มการรับรู้ถึงชื่อ Unbabel ในธุรกิจและในสถาบันการศึกษา แต่ก็ดีต่อขวัญกำลังใจเช่นกัน Unbabel เป็นบริษัท AI ล้วนๆ เราไม่ได้แค่ใช้ AI แต่เรากำลังสร้างและค้นพบ AI ที่ยังไม่มีอยู่จริง และการเป็นที่ยอมรับในที่สาธารณะสำหรับสิ่งนั้นหมายถึงโลกสำหรับฉัน ฉันคิดว่าตัวเองเป็นนักคณิตศาสตร์วัย 9 ขวบของฉันคงจะภูมิใจ
ที่มา: https://unbabel.com/blog/best-machine-translation-quality-estimation/
- เข้า
- AI
- ความคลุมเครือ
- รอบ
- ปัญญาประดิษฐ์
- ข้อมูลพื้นฐานเกี่ยวกับ
- ที่ดีที่สุด
- ที่ใหญ่ที่สุด
- บิต
- การก่อสร้าง
- ธุรกิจ
- เปลี่ยนแปลง
- รหัส
- บริษัท
- บริษัท
- การแข่งขัน
- วิทยาการคอมพิวเตอร์
- คอมพิวเตอร์
- การประชุม
- ความมั่นใจ
- เนื้อหา
- เครดิต
- ลูกค้า
- ข้อมูล
- วัน
- DID
- ก่อน
- ปริศนา
- การทดลอง
- สาขา
- บริษัท
- ชื่อจริง
- กรอบ
- เหตุการณ์ที่
- ทองคำ
- ดี
- ขึ้น
- จุดสูง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- HTTPS
- มนุษย์ในวง
- ความคิด
- ภาพ
- ส่งผลกระทบ
- เพิ่ม
- Intelligence
- อินเทอร์เน็ต
- การลงทุน
- IT
- การสัมภาษณ์
- ความรู้
- ภาษา
- การเรียนรู้
- ชั้น
- นาน
- เรียนรู้เครื่อง
- การแปลด้วยเครื่อง
- สำคัญ
- การทำ
- คณิตศาสตร์
- เดือน
- เปิด
- เปิด
- อื่นๆ
- ผลิตภัณฑ์อื่นๆ
- คน
- อำนาจ
- นำเสนอ
- ผลิตภัณฑ์
- การผลิต
- คุณภาพ
- ความจริง
- เหตุผล
- กู้
- การวิจัย
- ความเสี่ยง
- วิ่ง
- วิทยาศาสตร์
- ความรู้สึก
- ง่าย
- So
- แก้
- เริ่มต้น
- ข้อความที่เริ่ม
- สถานะ
- จำนวนชั้น
- นักเรียน
- ศึกษา
- สนับสนุน
- สวิตซ์
- ระบบ
- ระบบ
- การพูดคุย
- เป้า
- ครู
- ข้อมูลพื้นฐานเกี่ยวกับ
- เวลา
- การแปล
- คุณภาพการแปล
- แปล
- รักษา
- ทัวริง
- ปลดป้าย
- us
- สงคราม
- ชุมชนแออัด
- ความหมายของ
- WHO
- ชนะ
- คำ
- งาน
- โรงงาน
- โลก
- ปี
- ปี