IBM의 CodeNet 데이터 세트는 프로그래밍 문제를 해결하기 위해 AI를 교육하는 것을 목표로합니다.

소스 노드 : 848823

이번 2021 월 12 일부터 16 일까지 Transform XNUMX에 참여하세요. FO 등록r 올해의 AI 이벤트.


에서의 생각 이번 주 컨퍼런스에서 IBM은 프로젝트 코드넷(Project CodeNet)을 소개했습니다. 프로젝트 코드넷은 코드용 AI 관련 벤치마킹을 위한 최대 규모의 오픈 소스 데이터 세트입니다. 14만 개의 코드 예제, 500억 줄의 코드, C++, Java, Python, Go, COBOL, Pascal 및 FORTRAN을 포함한 55개의 프로그래밍 언어로 구성된 CodeNet은 10개의 샘플이 있는 다음으로 가장 유사한 데이터 세트보다 약 52,000배 더 큽니다. .

A에 따라 공부 캠브리지 대학교 저지 비즈니스 스쿨(Judge Business School)의 프로그래머들은 업무 시간의 50.1%를 프로그래밍이 아닌 시간으로 보냅니다. 나머지 절반은 디버깅입니다. 그리고 디버깅에 드는 총 예상 비용은 연간 312억 달러입니다. AI 기반 코드 제안 및 검토 도구는 개발 비용을 대폭 절감하는 동시에 코더가 보다 창의적이고 덜 반복적인 작업에 집중할 수 있도록 해줍니다.

CodeNet은 특히 코드 변환, 코드 유사성 및 코드 제약 문제에 중점을 둡니다. 목표는 코드를 다른 프로그래밍 언어로 자동 번역하고, 서로 다른 코드 집합 간의 중복 및 유사성을 식별하고, 개발자의 특정 요구 사항 및 매개 변수를 기반으로 제약 조건을 사용자 정의할 수 있는 AI 시스템 개발을 발전시키는 것입니다.

프로그래밍 언어 번역은 기존 코드베이스를 Java 또는 C++와 같은 현대적이거나 더 효율적인 언어로 마이그레이션하려면 소스 언어와 대상 언어 모두에 대한 전문 지식이 필요하다는 점을 고려할 때 특히 유용할 수 있습니다. 예를 들어, 호주 커먼웰스 은행 지출 플랫폼을 COBOL에서 Java로 전환하는 데 750년 동안 약 XNUMX억 XNUMX천만 달러를 투자했습니다. 트랜스컴파일러는 이론적으로 도움이 될 수 있습니다. 처음부터 코드를 다시 작성할 필요가 없습니다. 하지만 언어마다 구문이 다를 수 있고 고유한 플랫폼 API, 표준 라이브러리 함수 및 변수 유형에 의존할 수 있기 때문에 실제로 구축하기는 어렵습니다.

CodeNet 데이터세트

CodeNet에는 코드 검색 및 복제 감지를 비롯한 다양한 프로그래밍 작업을 완료하도록 AI를 교육하도록 설계된 샘플이 포함되어 있습니다. 이 외에도 데이터 세트에는 코드 크기, 메모리 공간, CPU 실행 시간 및 상태에 걸친 풍부한 정보 세트와 함께 메타데이터 및 주석이 있어 올바른 코드와 문제가 있는 코드를 구별하는 데 도움이 됩니다.

CodeNet의 샘플 문제 중 90% 이상이 문제 설명과 입력 및 출력 형식의 사양을 포함하는 설명과 함께 제공됩니다. 문제의 절반 이상과 XNUMX만 가지 예제에 대해 IBM은 문제 설명에서 샘플 입력 및 출력도 선별했습니다.

CodeNet을 사용하여 데이터 과학자는 코드 샘플을 실행하여 추가 메타데이터를 추출하고 정확성을 위해 생성 AI 모델의 출력을 확인할 수 있습니다. IBM은 이를 통해 연구원들이 하나의 프로그래밍 언어를 다른 언어로 번역할 때 "의도 동등성"을 프로그래밍할 수 있다고 말합니다.

"다양한 언어로 작성된 풍부한 프로그램을 고려할 때 우리는 Project CodeNet이 소스 간 번역을 위한 벤치마크 데이터 세트 역할을 할 수 있고 몇 년 전 컴퓨터 비전을 위해 ImageNet 데이터 세트가 수행한 작업을 AI 및 코드에 수행할 수 있다고 믿습니다." Ruchir Puri , IBM 동료이자 IBM Research의 수석 과학자는 블로그 게시물에 썼습니다.

AI 기반 코드 완성 및 감사를 추구하는 회사는 IBM만이 아닙니다. 코도 타 Python, C, HTML, Java, Scala, Kotlin 및 JavaScript로 스크립트를 제안하고 자동 완성하는 플랫폼을 개발하고 있습니다. 포니 코드 AI를 탭하여 코드의 정확성을 확인하고 딥코드 전체 앱 코드 검토를 위한 AI 기반 시스템을 개발 중입니다.아마존도 마찬가지인텔). 지금까지 가장 인상적인 프로젝트 중 하나는 트랜스 코더, 한 프로그래밍 언어에서 다른 프로그래밍 언어로 코드를 변환하기 위해 Facebook 연구원이 개발한 AI 트랜스컴파일러입니다. 또 다른 경쟁자는 모델 GitHub 저장소에서 훈련 된 OpenAI에서 영어 주석에서 전체 함수를 생성합니다.

VentureBeat

VentureBeat의 사명은 기술 의사 결정권자가 혁신적인 기술과 거래에 대한 지식을 습득 할 수있는 디지털 타운 스퀘어가되는 것입니다. 당사 사이트는 데이터 기술 및 전략에 대한 필수 정보를 제공하여 조직을 이끌 때 안내합니다. 다음에 액세스 할 수 있도록 커뮤니티의 일원이되도록 귀하를 초대합니다.

  • 관심있는 주제에 대한 최신 정보
  • 뉴스 레터
  • 금지 된 사고 리더 콘텐츠 및 다음과 같은 소중한 이벤트에 대한 할인 된 액세스 변환 2021: 더 알아보기
  • 네트워킹 기능 등

회원 가입

출처: https://venturebeat.com/2021/05/10/ibms-codenet-dataset-aims-to-train-ai-to-tackle-programming-challenges/

타임 스탬프 :

더보기 VentureBeat