한 번에 한 단계 씩 기계 번역 해결

소스 노드 : 795289

어렸을 때 나는 자라서 수학 자나 물리학자가 될 것이라고 생각했습니다. 나는 그 분야 중 하나에서 공부하고 연구하거나 심지어 교사가되고 싶다는 것을 아주 일찍 이해했습니다. 나는 AI가 무엇인지 몰랐습니다. 사실, 컴퓨터 과학 학부생으로 처음 몇 년 동안 나는 수학으로 전환해야한다고 느꼈습니다. 하지 않았다 니 다행입니다.

할머니는 내 직업이 무엇인지 이해하지 못합니다. 그렇게하려면 인터넷을 사용해야하기 때문입니다. 그렇지 않은 경우 Unbabel에서 컴퓨터가 자동으로 인간의 행동을하도록 만들고 있습니다. 아마 거기 앉아서 나를 멍하니 바라보고있을 것입니다.

어떤면에서 나는 어렸을 때 상상했던 것과는 매우 다른 곳에서 끝나지 않았습니다. 내 말은,이 전체 기계 번역 분야는 수학자 Allen Turing이 수수께끼 코드를 해독 한 후 XNUMX 차 세계 대전 이후 Warren Weaver에서 시작되었습니다.

아이디어는 언어를 코드로 취급 할 수 있다는 것입니다. 차이점은 코드가 형식적이고 모호하지 않다는 것입니다. 번역을 어렵게 만드는 것은 정확히 모호합니다.

기계 번역의 현황

어떤 사람들은 Unbabel이하는 일에 대해 어느 정도 알고 있습니다. 특정 언어의 텍스트를 다른 언어로 번역합니다. 그러나 다른 사람들은 인공 지능이 무엇인지조차 모릅니다. 어떤 사람들은 AI가하는 모든 것이 "로봇 일"이라고 생각할 수도 있지만 그게 다가 아닙니다. AI가하는 일은 어떤 식 으로든 인간의 행동을 모방하는 것입니다. 어떤 점에서는 인간보다 훨씬 낫습니다 그것에.

기본부터 시작하겠습니다. 머신 러닝 시스템은 무엇을합니까? 소스 객체 (이 경우에는 문장)를 제시하고 대상 문장 인 무언가를 예측하도록 요청합니다.

번역의 어려움은 표준이 없다는 것입니다. 황금 표준은 실제 진실을 나타냅니다. "이게 고양이입니까, 개입니까?"라고 질문하여 이미지를 감지하는 기계를 얻으려는 경우 특정 이미지가 둘 중 하나 일 것이기 때문에 금색 진실이 있습니다. 기계 번역에서는 이것이 존재하지 않습니다. 똑같이 좋은 20 개의 다른 번역을 가질 수 있기 때문입니다. 시작하기가 훨씬 더 어려운 문제입니다. 좋은 번역이란 무엇이며 그렇지 않은 것은 무엇입니까? 언어가 매우 모호하다는 사실도 있습니다. 단어는 상황에 따라 매우 다른 의미를 가질 수 있습니다. 그래서 번역 문제는 거의 해결되지 않았습니다.

기계 번역에 대해 자세히 살펴보면 대부분의 사람들이 생각하는 바에도 불구하고 몇 년 전보다 훨씬 나아지지 않았 음을 알 수 있습니다. 통계 기계 번역 시스템의 이전 출력은 매우 부자연 스럽거나 로봇처럼 보였습니다. 오늘날 그들은 더 유창하게 들릴지 모르지만 이해하기 어려울 수 있지만 일반적으로 올바른 내용을 가지고 있던 이전 것보다 적절하지 않습니다. 오늘날 기계 번역은 콘텐츠 측면에서 비극적으로 실패 할 수 있지만 여전히 유창합니다. 전반적으로 더 나은 시스템입니다.

기계 번역은 적어도 텍스트의 요지를 이해할 수있는 시점에 이르렀습니다. 모델이 여전히 매우 기본적이고 언어에 대한 지식이 거의 없음에도 불구하고 점점 더 유창 해지고 있습니다. 그들은 여전히 ​​대부분의 문장 수준에서 일종의 문장으로 작업하고 있습니다. 따라서 기계 번역이 해결되었다고 생각하는 사람은 분명히 그것을 사용하지 않았습니다.

Unbabel을 판매하는 회사로서 다국어 지원 솔루션 매일 수천 또는 수백만 명의 고객과 소통하는 대기업에게는 문제가됩니다. 대부분의 경우 기계 번역을 언급 할 때 사람들은 그것이 저지른 실수를 즉시 생각합니다. 기계 번역이 완벽한 것처럼 보이도록 이야기를 구성 할 수는 없습니다. 바로이 시점에 있습니다. 그것은 여전히 ​​더 많은 품질을 제공하기 위해 루프에있는 인간을 요구합니다.

예를 들어 채팅에는 실제로 상대방과 대화하는 사람이 있습니다. 즉, 오류에서 훨씬 더 빠르게 복구 할 수 있습니다. 말이 안되는 말을하면 상대방이“뭐? 인식하지 못했습니다.”그런 다음 번역을 다시 시도합니다.

이것은 기본적으로 당신이 자신의 품질 평가라는 것을 의미합니다. 왜냐하면 당신이 원하는 것은 효과가있는 대화이기 때문입니다.

품질 평가의 중요성

참조 번역이나 사람의 개입없이 번역 시스템의 품질을 평가하기 위해 사용하는 품질 평가는 기계 번역의 비결입니다. 실제로 일부 사람들은 "정확한 번역이 무엇입니까?"라는 문제를 해결할 수 있다고 주장했습니다. 이제 번역이 얼마나 좋은지 나쁜지를 평가하는 시스템이 있기 때문입니다. 반드시 번역이 의미하는 것은 아닙니다. 전에, 정답이지만 a 정확한 번역.

그러나 품질 평가는 기계 번역과 동일한 어려움을 겪고 있으므로 동일한 수준의 정확도를 기대할 수 있습니다. 기계 번역의 가장 큰 문제는 언어가 이해하기 매우 어렵 기 때문에 항상 실수를한다는 것입니다. 계산 능력으로 인해 너무 단순한 모델이나 기계 학습 시스템이 실수를 할 것이라는 사실 때문에 최고의 주식은 약 90 %입니다. 많은 것 같지만 생각해 보면 XNUMX 개의 문장 중 하나가 틀릴 것임을 의미합니다.

품질 평가는 잘못된 문장을 예측하거나 적어도 오류가 중요한지 아닌지를 판단하려는 것입니다. 기본적으로 훨씬 더 높은 신뢰도로 기계 번역을 사용할 수있게 될 것입니다.

Unbabel에서는 품질 평가 문제를 해결하는 데 많은 시간을 할애했습니다.. 기본 AI 팀은 주로 새로운 모델을 발견하는 데 집중해온 팀입니다. 그리고 다음과 같은 질문에 답하기 위해 적용된 AI 및 프로덕션에서 많은 작업을 수행해야합니다.

  • 이것이 파이프 라인에서 어떻게 실행됩니까?
  • 확장 가능합니까? 목표를 변경해야합니까?
  • 실제 데이터와 어떻게 작동합니까?
  • 이러한 모델을 어떻게 적용합니까?

기본 AI는 대부분 일반 도메인 데이터에서 작동하므로 적용된 AI는이를 선택하고 차별화 된 톤으로 작동하는지 여부에 관계없이 채팅 또는 티켓의 현실에서 작동하는지 확인해야합니다. 연구가 있고 그 결과가 제품에 적용됩니다.

우리는 품질 평가 시스템을 굳게 믿습니다. 우리는 또한 재현 가능하고 협력적인 연구를 믿습니다. 우리는 최고의 품질 평가 시스템을 구현하는 오픈 소스 프레임 워크 인 Open Kiwi를 구축했습니다., 동일한 프레임 워크에서 이러한 모델을 실험하고 반복하는 것은 물론 새로운 모델을 개발하기가 정말 쉽습니다.

우리는 아마도 생산에서 품질 평가를 사용하기 시작한 최초의 회사 중 하나 였을 것이며 우리는 매우 오랫동안 주제에 대한 연구를 해왔습니다. 이것은 우리가 품질 평가를 위해 일하는 다른 회사 나 연구자들보다 더 나은 모델과 문제에 대한 더 나은 이해를 가지고 있음을 의미합니다.

그리고상은…

이것이 제가 매우 행복했던 이유입니다. Conference for World Machine Translation에서 최고의 글로벌 기계 번역 품질 평가 시스템이라는 타이틀을 되찾았습니다. 올해 초. 뿐만 아니라 자동 포스트 편집 경쟁에서도 우승했습니다.

두 가지 이유로 우리에게 매우 중요했습니다. 첫 번째는 품질 평가가 생산 파이프 라인에 미치는 영향, 즉 우리가 얻는 투자 수익입니다. 그리고이를 위해 우리가이 대회에서 우승하든 다른 대회에서 우승하든 상관 없습니다.

그러나 이와 같은 권위있는 상을 수상한다는 것은 고객과 투자자의 관심을 끄는 데 필수적인 Unbabel 브랜드에 대한 인정을 의미합니다. 때로는 이해하고 인정하기 어려운 AI 팀에게도 중요한 인정입니다. AI는 매우 위험하고 높은 보상입니다. XNUMX 년 동안 일해도 아무데도 갈 수 없습니다. 예를 들어, 우리가 인간의 질을 평가하기 위해했던 모든 작업이 효과가 없었습니다. 그에 맞는 도구가 없었기 때문입니다.

그래서이상은 비즈니스와 학계에서 Unbabel이라는 이름에 대한 인식을 높이는 데 도움이되지만 사기에도 좋습니다. Unbabel은 순전히 AI 회사입니다. 우리는 단지 AI를 사용하는 것이 아니라 실제로 아직 존재하지 않는 AI를 만들고 발견하고 있습니다. 공개적으로 인정 받는다는 것은 저에게 세상을 의미합니다. 제 9 살의 수학자 지망생이 자랑스러워 할 것 같아요.

출처 : https://unbabel.com/blog/best-machine-translation-quality-estimation/

타임 스탬프 :

더보기 바벨 해제