Το σύνολο δεδομένων CodeNet της IBM στοχεύει στην εκπαίδευση του AI για την αντιμετώπιση προκλήσεων προγραμματισμού

Κόμβος πηγής: 848823

Γίνετε μέλος του Transform 2021 στις 12-16 Ιουλίου. Εγγραφείτε γιαr η εκδήλωση AI της χρονιάς.


Κατά της Νομίζω συνέδριο αυτή την εβδομάδα, η IBM παρουσίασε το Project CodeNet, το οποίο η εταιρεία ισχυρίζεται ότι είναι το μεγαλύτερο σύνολο δεδομένων ανοιχτού κώδικα για συγκριτική αξιολόγηση γύρω από την τεχνητή νοημοσύνη για κώδικα. Αποτελούμενο από 14 εκατομμύρια παραδείγματα κώδικα, 500 εκατομμύρια γραμμές κώδικα και 55 γλώσσες προγραμματισμού, συμπεριλαμβανομένων C++, Java, Python, Go, COBOL, Pascal και FORTRAN, το CodeNet είναι περίπου 10 φορές μεγαλύτερο από το επόμενο πιο παρόμοιο σύνολο δεδομένων, το οποίο έχει 52,000 δείγματα .

Σύμφωνα με ένα μελέτη Από το Judge Business School του Πανεπιστημίου του Κέμπριτζ, οι προγραμματιστές ξοδεύουν το 50.1% του χρόνου εργασίας τους χωρίς προγραμματισμό. το άλλο μισό κάνει διόρθωση σφαλμάτων. Και το συνολικό εκτιμώμενο κόστος του εντοπισμού σφαλμάτων είναι 312 δισεκατομμύρια δολάρια ετησίως. Επομένως, τα εργαλεία προτάσεων και αναθεώρησης κώδικα που υποστηρίζονται από AI υπόσχονται να μειώσουν σημαντικά το κόστος ανάπτυξης, ενώ παράλληλα επιτρέπουν στους κωδικοποιητές να επικεντρωθούν σε πιο δημιουργικές, λιγότερο επαναλαμβανόμενες εργασίες.

Το CodeNet εστιάζει συγκεκριμένα στα προβλήματα της μετάφρασης κώδικα, της ομοιότητας κώδικα και των περιορισμών κώδικα. Ο στόχος είναι να προωθηθεί η ανάπτυξη συστημάτων τεχνητής νοημοσύνης που μπορούν να μεταφράσουν αυτόματα κώδικα σε άλλη γλώσσα προγραμματισμού, να εντοπίσουν επικαλύψεις και ομοιότητες μεταξύ διαφορετικών συνόλων κώδικα και να προσαρμόσουν τους περιορισμούς με βάση τις συγκεκριμένες ανάγκες και παραμέτρους ενός προγραμματιστή.

Η μετάφραση γλώσσας προγραμματισμού θα μπορούσε να είναι ιδιαίτερα χρήσιμη, δεδομένου ότι η μετεγκατάσταση μιας υπάρχουσας βάσης κώδικα σε μια σύγχρονη ή πιο αποτελεσματική γλώσσα όπως η Java ή η C++ απαιτεί εξειδίκευση τόσο στις γλώσσες προέλευσης όσο και στις γλώσσες προορισμού. Για παράδειγμα, η Commonwealth Bank of Australia πέρασε περίπου 750 εκατομμύρια δολάρια σε διάστημα πέντε ετών για να μετατρέψει την πλατφόρμα της από COBOL σε Java. Τα transcompilers θα μπορούσαν να βοηθήσουν στη θεωρία - εξαλείφουν την ανάγκη να ξαναγράψουμε κώδικα από την αρχή - αλλά είναι δύσκολο να κατασκευαστούν στην πράξη επειδή διαφορετικές γλώσσες μπορούν να έχουν διαφορετική σύνταξη και να βασίζονται σε διακριτικά API πλατφόρμας, λειτουργίες τυπικής βιβλιοθήκης και τύπους μεταβλητών.

Το σύνολο δεδομένων CodeNet

Το CodeNet περιέχει δείγματα που έχουν σχεδιαστεί για την εκπαίδευση της τεχνητής νοημοσύνης για την ολοκλήρωση μιας σειράς εργασιών προγραμματισμού, συμπεριλαμβανομένης της αναζήτησης κώδικα και της ανίχνευσης κλώνων. Πέρα από αυτό, το σύνολο δεδομένων έχει μεταδεδομένα και σχολιασμούς με ένα πλούσιο σύνολο πληροφοριών που εκτείνεται σε μέγεθος κώδικα, αποτύπωμα μνήμης, χρόνο εκτέλεσης της CPU και κατάσταση, που βοηθά στη διάκριση του σωστού κώδικα από τον προβληματικό κώδικα.

Πάνω από το 90% των δειγμάτων προβλημάτων στο CodeNet συνοδεύονται από περιγραφές που περιέχουν μια δήλωση προβλήματος και προδιαγραφές της μορφής εισόδου και εξόδου. Για περισσότερα από τα μισά προβλήματα και επτά εκατομμύρια παραδείγματα, η IBM επιμελήθηκε επίσης δείγματα εισόδων και εξόδων από την περιγραφή του προβλήματος.

Χρησιμοποιώντας το CodeNet, οι επιστήμονες δεδομένων μπορούν να εκτελέσουν δείγματα κώδικα για να εξαγάγουν πρόσθετα μεταδεδομένα και να επαληθεύσουν τις εξόδους από μοντέλα παραγωγής τεχνητής νοημοσύνης για ορθότητα. Η IBM λέει ότι αυτό θα επιτρέψει στους ερευνητές να προγραμματίσουν την «ισοδυναμία πρόθεσης» κατά τη μετάφραση μιας γλώσσας προγραμματισμού σε μια άλλη.

«Δεδομένου του πλούτου των προγραμμάτων του που είναι γραμμένα σε πολλές γλώσσες, πιστεύουμε ότι το Project CodeNet μπορεί να χρησιμεύσει ως ένα σύνολο δεδομένων αναφοράς για μετάφραση από πηγή σε πηγή και να κάνει για την τεχνητή νοημοσύνη και τον κώδικα ό,τι έκανε το σύνολο δεδομένων ImageNet πριν από χρόνια για την όραση υπολογιστή», Ruchir Puri. , ο συνεργάτης της IBM και επικεφαλής επιστήμονας της IBM Research, έγραψε σε μια ανάρτηση στο blog.

Η IBM δεν είναι η μόνη εταιρεία που επιδιώκει τη συμπλήρωση και τον έλεγχο κώδικα βάσει τεχνητής νοημοσύνης. codota αναπτύσσει μια πλατφόρμα που προτείνει και συμπληρώνει αυτόματα σενάρια σε Python, C, HTML, Java, Scala, Kotlin και JavaScript. Πονώδης πατήστε το AI για να ελέγξετε την ακρίβεια του κώδικα και DeepCode αναπτύσσει ένα σύστημα τεχνητής νοημοσύνης για αναθεωρήσεις κωδικών ολόκληρης εφαρμογής (όπως και η Amazon και Intel). Ίσως ένα από τα πιο εντυπωσιακά έργα μέχρι σήμερα είναι TransCoder, ένα transcompiler AI που οι ερευνητές του Facebook ανέπτυξαν για να μετατρέψουν κώδικα από μια γλώσσα προγραμματισμού σε μια άλλη. Ένας άλλος υποψήφιος είναι ο α μοντέλο από το OpenAI που εκπαιδεύτηκε σε αποθετήρια GitHub για τη δημιουργία ολόκληρων λειτουργιών από σχόλια αγγλικής γλώσσας.

VentureBeat

Η αποστολή της VentureBeat είναι να είναι μια ψηφιακή πλατεία της πόλης για τεχνικούς που λαμβάνουν αποφάσεις για να αποκτήσουν γνώσεις σχετικά με την τεχνολογία μετασχηματισμού και τις συναλλαγές. Ο ιστότοπός μας παρέχει βασικές πληροφορίες σχετικά με τις τεχνολογίες δεδομένων και τις στρατηγικές για να σας καθοδηγήσει καθώς οδηγείτε τους οργανισμούς σας. Σας προσκαλούμε να γίνετε μέλος της κοινότητάς μας, για πρόσβαση:

  • ενημερωμένες πληροφορίες για τα θέματα που σας ενδιαφέρουν
  • τα ενημερωτικά δελτία μας
  • περιφραγμένο περιεχόμενο με ηγέτη σκέψης και μειωμένη πρόσβαση στις βραβευμένες εκδηλώσεις μας, όπως Μετασχηματισμός 2021: Μάθε περισσότερα
  • δυνατότητες δικτύωσης και πολλά άλλα

Γίνετε μέλος

Πηγή: https://venturebeat.com/2021/05/10/ibms-codenet-dataset-aims-to-train-ai-to-tackle-programming-challenges/

Σφραγίδα ώρας:

Περισσότερα από VentureBeat