Επίλυση μηχανικής μετάφρασης, ένα βήμα τη φορά

Κόμβος πηγής: 795289

Ως παιδί, πίστευα ότι θα γινόμουν μαθηματικός ή φυσικός. Κατάλαβα πολύ νωρίς ότι ήθελα να σπουδάσω και να κάνω έρευνα, ή ακόμα και να γίνω δάσκαλος, σε έναν από αυτούς τους τομείς. Δεν ήξερα τι ήταν το AI. Μάλιστα, τα πρώτα χρόνια ως προπτυχιακός φοιτητής στην Πληροφορική, πολλές φορές ένιωσα ότι έπρεπε να στραφώ στα μαθηματικά. Χαίρομαι που δεν το έκανα.

Ωστόσο, η γιαγιά μου δεν καταλαβαίνει πραγματικά ποια είναι η δουλειά μου, γιατί για να το κάνετε αυτό, πρέπει να χρησιμοποιήσετε το Διαδίκτυο. Αν δεν το κάνετε, και σας λέω ότι, στο Unbabel, βάζουμε τους υπολογιστές να κάνουν ανθρώπινες ενέργειες αυτόματα, πιθανότατα θα καθόσαστε εκεί και θα με κοιτάξετε ανέκφραστα πίσω.

Κατά κάποιο τρόπο, δεν κατέληξα σε ένα πολύ διαφορετικό μέρος από αυτό που είχα οραματιστεί ως παιδί. Εννοώ ότι όλο αυτό το πεδίο μηχανικής μετάφρασης ξεκίνησε με τον Warren Weaver μετά τον Δεύτερο Παγκόσμιο Πόλεμο, αφού ο Allen Turing, ένας μαθηματικός, έσπασε τον κώδικα Enigma.

Η ιδέα είναι ότι μπορούμε να αντιμετωπίσουμε τη γλώσσα ως κώδικα. Η διαφορά είναι ότι οι κώδικες είναι τυπικοί, ξεκάθαροι. και αυτό που κάνει τη μετάφραση τόσο δύσκολη είναι ακριβώς η ασάφεια.

Η κατάσταση της αυτόματης μετάφρασης

Μερικοί άνθρωποι έχουν κάποια καλή γνώση του τι κάνει η Unbabel: μεταφράζουμε ένα κείμενο σε μια συγκεκριμένη γλώσσα σε μια διαφορετική γλώσσα. Αλλά άλλοι δεν ξέρουν καν τι είναι η Τεχνητή Νοημοσύνη. Κάποιοι μπορεί να πιστεύουν ότι το μόνο που κάνει η AI είναι «πράγματα ρομπότ», αλλά δεν είναι αυτό. Αυτό που κάνει το AI είναι να μιμείται την ανθρώπινη συμπεριφορά, κατά κάποιο τρόπο, και σε μερικά πράγματα είναι ακόμα καλύτερο από τους ανθρώπους σε αυτό.

Ας ξεκινήσουμε με τα βασικά: τι κάνουν τα συστήματα μηχανικής μάθησης; Τους παρουσιάζετε ένα αντικείμενο πηγής, σε αυτήν την περίπτωση μια πρόταση, και τους ζητάτε να προβλέψουν κάτι, μια πρόταση-στόχο.

Η δυσκολία στη μετάφραση είναι ότι δεν υπάρχει χρυσός κανόνας. Ένας χρυσός κανόνας αντιπροσωπεύει την πραγματική αλήθεια. Αν προσπαθείτε να κάνετε ένα μηχάνημα να ανιχνεύει εικόνες ρωτώντας «είναι γάτα ή σκύλος;», υπάρχει μια χρυσή αλήθεια γιατί μια συγκεκριμένη εικόνα θα ήταν το ένα ή το άλλο. Στην αυτόματη μετάφραση αυτό δεν υπάρχει, γιατί μπορείτε να έχετε 20 διαφορετικές μεταφράσεις που είναι εξίσου καλές. Είναι πολύ πιο δύσκολο να ξεκινήσετε. Τι είναι μια καλή μετάφραση και τι όχι; Υπάρχει επίσης το γεγονός ότι η γλώσσα είναι πολύ διφορούμενη. Οι λέξεις μπορεί να σημαίνουν πολύ διαφορετικά πράγματα σε διαφορετικά περιβάλλοντα. Και έτσι το πρόβλημα με τη μετάφραση είναι σε μεγάλο βαθμό άλυτο.

Αν κοιτάξετε βαθύτερα στην αυτόματη μετάφραση, θα δείτε ότι δεν είναι και πολύ καλύτερη από ό,τι ήταν πριν από μερικά χρόνια, παρά το τι πιστεύουν οι περισσότεροι. Τα προηγούμενα αποτελέσματα στατιστικών συστημάτων αυτόματης μετάφρασης φαίνονταν πολύ αφύσικα ή ρομποτικά. Σήμερα μπορεί να ακούγονται πιο άπταιστα, αλλά είναι λιγότερο επαρκείς από τα προηγούμενα, που συνήθως είχαν το σωστό περιεχόμενο, παρόλο που θα μπορούσε να είναι πιο δύσκολο να γίνει κατανοητό. Οι μηχανικές μεταφράσεις στις μέρες μας μπορεί να αποτύχουν καταστροφικά ως προς το περιεχόμενο, αλλά εξακολουθούν να ακούγονται άπταιστα. Γενικά είναι καλύτερο σύστημα.

Η αυτόματη μετάφραση έχει φτάσει σε σημείο που μπορεί κανείς τουλάχιστον να καταλάβει την ουσία του κειμένου. Γίνεται πιο άπταιστα, παρά το γεγονός ότι τα μοντέλα εξακολουθούν να είναι πολύ βασικά και έχουν ελάχιστη γνώση της γλώσσας. Εξακολουθούν να εργάζονται κυρίως σε ένα είδος πρότασης ανά πρόταση. Επομένως, όποιος πιστεύει ότι η αυτόματη μετάφραση έχει λυθεί, προφανώς δεν την έχει χρησιμοποιήσει.

Για την Unbabel ως εταιρεία, που την πουλάει πολύγλωσσες λύσεις υποστήριξης για τις μεγάλες εταιρείες που αλληλεπιδρούν με χιλιάδες ή εκατομμύρια πελάτες καθημερινά, δημιουργεί πρόβλημα επειδή τις περισσότερες φορές, όταν αναφέρετε την αυτόματη μετάφραση, οι άνθρωποι σκέφτονται αμέσως τα λάθη που κάνει. Δεν μπορείτε απλώς να φτιάχνετε ιστορίες για να φαίνεται ότι η αυτόματη μετάφραση είναι τέλεια, είναι εκεί που βρίσκεται σε αυτό το σημείο. Εξακολουθεί να ζητά από έναν άνθρωπο στο βρόχο να του δώσει αυτό το επιπλέον κομμάτι ποιότητας.

Στη συνομιλία, για παράδειγμα, υπάρχει ένα άτομο που μιλάει πραγματικά στο άλλο άτομο, πράγμα που σημαίνει ότι μπορείτε να ανακτήσετε τα σφάλματα πολύ πιο γρήγορα. Αν πείτε κάτι που δεν έχει νόημα, το άτομο στην άλλη άκρη μπορεί να πει «τι; Δεν το κατάλαβα», και μετά θα δοκιμάσετε ξανά τη μετάφραση.

Αυτό ουσιαστικά σημαίνει ότι είστε η δική σας εκτίμηση ποιότητας, γιατί, στο τέλος της ημέρας, αυτό που θέλετε είναι ένας διάλογος που λειτουργεί.

Η σημασία της εκτίμησης της ποιότητας

Η εκτίμηση ποιότητας - αυτό που χρησιμοποιούμε για να αξιολογήσουμε την ποιότητα ενός συστήματος μετάφρασης χωρίς πρόσβαση σε μεταφράσεις αναφοράς ή ανθρώπινη παρέμβαση - είναι το μυστικό της αυτόματης μετάφρασης. Στην πραγματικότητα, μερικοί άνθρωποι ισχυρίστηκαν ότι θα μπορούσε να λύσει το πρόβλημα «ποια είναι η σωστή μετάφραση;», επειδή τώρα έχουμε ένα σύστημα που αξιολογεί πόσο καλή ή κακή είναι μια μετάφραση. Δεν σημαίνει απαραίτητα ότι είναι μετάφραση ο σωστό, αλλά είναι a σωστή μετάφραση.

Αλλά η εκτίμηση της ποιότητας αντιμετωπίζει όλες τις ίδιες δυσκολίες με την αυτόματη μετάφραση, πράγμα που σημαίνει ότι μπορείτε να περιμένετε το ίδιο επίπεδο ακρίβειας από αυτήν. Το μεγαλύτερο πρόβλημα με την αυτόματη μετάφραση είναι ότι κάνει πάντα λάθη επειδή η γλώσσα είναι πολύ δύσκολο να κατανοηθεί. Είτε λόγω μοντέλων που είναι πολύ απλά λόγω της υπολογιστικής ισχύος είτε λόγω του γεγονότος ότι οποιοδήποτε σύστημα μηχανικής εκμάθησης θα κάνει λάθη, οι καλύτερες μετοχές βρίσκονται στο 90% περίπου. Αυτό μπορεί να φαίνεται πολύ, αλλά αν το σκεφτείτε, αυτό σημαίνει ότι μία στις δέκα προτάσεις θα είναι λάθος.

Η εκτίμηση ποιότητας προσπαθεί να προβλέψει αυτές τις λανθασμένες προτάσεις ή τουλάχιστον να προσπαθήσει να κρίνει εάν ένα σφάλμα είναι κρίσιμο ή όχι. Βασικά θα μας επιτρέψει να χρησιμοποιήσουμε την αυτόματη μετάφραση με πολύ υψηλότερο βαθμό εμπιστοσύνης.

Στην Unbabel, αφιερώνουμε πολύ χρόνο στην επίλυση του προβλήματος εκτίμησης ποιότητας. Η θεμελιώδης ομάδα AI είναι αυτή που έχει επικεντρωθεί κυρίως σε αυτήν, ανακαλύπτοντας νέα μοντέλα. Στη συνέχεια, υπάρχει πολλή δουλειά από την εφαρμοσμένη τεχνητή νοημοσύνη και την παραγωγή, για να απαντηθούν ερωτήσεις όπως:

  • Πώς λειτουργεί αυτό στον αγωγό;
  • Είναι επεκτάσιμο; Πρέπει να αλλάξουμε τον στόχο;
  • Πώς λειτουργεί με τα πρακτικά μας δεδομένα;
  • Πώς κάνετε την προσαρμογή αυτών των μοντέλων;

Δεδομένου ότι η θεμελιώδης τεχνητή νοημοσύνη λειτουργεί ως επί το πλείστον σε δεδομένα γενικού τομέα, η εφαρμοσμένη τεχνητή νοημοσύνη πρέπει να το παραλάβει και να βεβαιωθεί ότι λειτουργεί στην πραγματικότητά μας για συνομιλίες ή εισιτήρια, αν λειτουργεί με διαφοροποιημένους τόνους ή όχι. Υπάρχει η έρευνα, και μετά επεξεργάζονται τα ευρήματά της στο προϊόν.

Πιστεύουμε ακράδαντα στα συστήματα εκτίμησης ποιότητας που διαθέτουμε. Πιστεύουμε επίσης στην αναπαραγώγιμη και συνεργατική έρευνα, γι' αυτό λίγους μήνες πριν δημιουργήσαμε το Open Kiwi — ένα πλαίσιο ανοιχτού κώδικα που εφαρμόζει τα καλύτερα συστήματα Εκτίμησης Ποιότητας, καθιστώντας πραγματικά εύκολο τον πειραματισμό και την επανάληψη με αυτά τα μοντέλα στο ίδιο πλαίσιο, καθώς και την ανάπτυξη νέων μοντέλων.

Ήμασταν ίσως μια από τις πρώτες εταιρείες που αρχίσαμε να χρησιμοποιούν εκτίμηση ποιότητας στην παραγωγή και κάνουμε έρευνα για το θέμα εδώ και πολύ καιρό. Αυτό σημαίνει ότι έχουμε καλύτερα μοντέλα και καλύτερη κατανόηση του προβλήματος από άλλες εταιρείες ή ερευνητές που εργάζονται για την εκτίμηση της ποιότητας.

Και τα βραβεία πηγαίνουν στον…

Αυτός είναι ο λόγος που ήμουν πολύ χαρούμενος ανακτήσαμε τον τίτλο μας του καλύτερου παγκόσμιου συστήματος εκτίμησης ποιότητας μηχανικής μετάφρασης στο Συνέδριο για την Παγκόσμια Μηχανική Μετάφραση νωρίτερα φέτος. Όχι μόνο αυτό, αλλά κερδίσαμε και τον διαγωνισμό για την αυτόματη επεξεργασία αναρτήσεων.

Ήταν πολύ σημαντικό για εμάς για δύο λόγους. Το πρώτο είναι ο αντίκτυπος που έχει η εκτίμηση της ποιότητας στον αγωγό παραγωγής μας, η απόδοση της επένδυσης που λαμβάνουμε από αυτήν. Και για αυτό, δεν έχει σημασία αν κερδίσουμε αυτόν ή οποιονδήποτε άλλο διαγωνισμό.

Αλλά από την άλλη πλευρά, η κατάκτηση τέτοιων βραβείων κύρους σημαίνει αναγνώριση για την επωνυμία Unbabel, η οποία είναι απαραίτητη για να τραβήξει την προσοχή των πελατών και των επενδυτών. Είναι επίσης μια σημαντική αναγνώριση για την ομάδα τεχνητής νοημοσύνης, της οποίας η δουλειά μερικές φορές είναι δύσκολο να κατανοηθεί και να αποδοθεί εύσημα. Το AI είναι πολύ υψηλού κινδύνου, υψηλής ανταμοιβής. Μπορείς να δουλέψεις για ένα χρόνο και να μην φτάσεις πουθενά. Για παράδειγμα, όλη η εργασία που κάναμε για την εκτίμηση της ανθρώπινης ποιότητας δεν λειτούργησε, επειδή απλώς δεν είχαμε τα κατάλληλα εργαλεία για αυτό.

Και έτσι αυτά τα βραβεία είναι καλά για αναγνώριση, για αύξηση της ευαισθητοποίησης του ονόματος Unbabel στις επιχειρήσεις και στον ακαδημαϊκό κόσμο, αλλά είναι καλά και για το ηθικό. Η Unbabel είναι μια εταιρεία καθαρά AI. Δεν χρησιμοποιούμε απλώς AI, στην πραγματικότητα χτίζουμε και ανακαλύπτουμε AI που δεν υπάρχει ακόμα. Και η δημόσια αναγνώριση γι' αυτό σημαίνει τον κόσμο για μένα. Νομίζω ότι ο 9χρονος, αδύναμος μαθηματικός εαυτός μου θα ήταν περήφανος.

Πηγή: https://unbabel.com/blog/best-machine-translation-quality-estimation/

Σφραγίδα ώρας:

Περισσότερα από Κατάργηση ετικέτας