Hỏi chuyên gia kỹ thuật: Làm thế nào để Ống kính chuyển hình ảnh thành văn bản?

Nút nguồn: 1723228

Khi tôi đi nghỉ gần đây, tôi muốn ghi chép từ một cuốn sách điện tử mà tôi đang đọc. Nhưng thay vì ghi chú âm thanh hoặc viết vội mọi thứ vào sổ tay, tôi đã sử dụng Lens để chọn một phần của cuốn sách, sao chép nó và dán nó vào tài liệu. Điều đó khiến tôi tò mò: Làm thế nào mà tất cả những điều đó lại xảy ra trên điện thoại của tôi? Làm cách nào để máy ảnh nhận dạng các từ trong tất cả các phông chữ và ngôn ngữ của chúng?

Tôi quyết định đi vào gốc rễ của câu hỏi và nói chuyện với Ana Manasovska, một kỹ sư phần mềm tại Zurich, một trong những nhân viên Google đi đầu trong việc chuyển đổi hình ảnh thành văn bản.

Ana, hãy cho chúng tôi biết về công việc của bạn trong Lens

Tôi liên quan đến khía cạnh văn bản, vì vậy hãy đảm bảo rằng ứng dụng có thể phân biệt văn bản và sao chép nó để tìm kiếm hoặc dịch nó - mà không cần nhập. Ví dụ: nếu bạn hướng camera của điện thoại vào áp phích bằng tiếng nước ngoài, ứng dụng có thể dịch văn bản trên đó. Và đối với những người bị mù hoặc có thị lực kém, nó có thể đọc to văn bản. Nó khá ấn tượng.

Vì vậy, một phần của những gì nhóm của tôi làm là làm cho Ống kính không chỉ nhận ra văn bản mà còn cả cấu trúc của văn bản. Con người chúng ta tự động hiểu cách viết được phân tách thành các câu và đoạn văn, hoặc các khối và cột, và biết những gì đi cùng nhau. Tuy nhiên, rất khó để một chiếc máy có thể phân biệt được điều đó.

Sau đó, đây có phải là máy học không?

Đúng. Nói cách khác, nó sử dụng các hệ thống (chúng tôi gọi là mô hình) mà chúng tôi đã đào tạo để phân biệt các ký tự và cấu trúc trong hình ảnh. Một hệ thống máy tính truyền thống sẽ chỉ có một khả năng hạn chế để làm điều này. Nhưng mô hình học máy của chúng tôi đã được xây dựng để “tự học” trên các bộ dữ liệu khổng lồ và đang học cách phân biệt các cấu trúc văn bản giống như cách con người làm.

Hệ thống có thể hoạt động với các ngôn ngữ khác nhau không?

Có, nó có thể nhận ra 30 chữ viết, bao gồm Cyrillic, Devanagari, Trung Quốc và Ả Rập. Nó chính xác nhất trong các ngôn ngữ bảng chữ cái Latinh tại thời điểm này, nhưng ngay cả ở đó, nhiều loại phông chữ khác nhau cũng đặt ra những thách thức. Tiếng Nhật và tiếng Trung rất phức tạp vì chúng có rất nhiều sắc thái trong các ký tự. Những gì có vẻ như một biến thể nhỏ đối với mắt chưa được đào tạo có thể thay đổi hoàn toàn ý nghĩa.

Phần thử thách nhất trong công việc của bạn là gì?

Có rất nhiều sự phức tạp và mơ hồ, đó là thách thức, vì vậy tôi đã phải học cách điều hướng điều đó. Và nó có nhịp độ rất nhanh; mọi thứ luôn vận động không ngừng và bạn phải đặt rất nhiều câu hỏi và nói chuyện với rất nhiều người để nhận được câu trả lời cần thiết.

Khi nói đến mã hóa thực tế, điều đó liên quan gì?

Tôi chủ yếu sử dụng ngôn ngữ lập trình có tên là C ++, cho phép bạn chạy các bước xử lý cần thiết để đưa bạn từ hình ảnh sang biểu diễn của từ và cấu trúc.

Hmmm, tôi hiểu rồi. Nó trông như thế nào?

Dấu thời gian:

Thêm từ Google Thực tế tăng cường / Thực tế ảo