Vraag een Techspert: Hoe zet Lens afbeeldingen om in tekst? Vraag een Techspert: Hoe zet Lens afbeeldingen om in tekst? Trefwoordbijdrager

Heruitgegeven door Plato

volgers: 0

Toen ik onlangs op vakantie was, wilde ik aantekeningen maken van een e-boek dat ik aan het lezen was. Maar in plaats van audionotities te maken of dingen in een notitieboekje te schrijven, gebruikte ik Lens om een gedeelte van het boek te selecteren, het te kopiëren en in een document te plakken. Dat maakte me nieuwsgierig: hoe gebeurde dat allemaal op mijn telefoon? Hoe herkent een camera woorden in al hun lettertypen en talen?

Ik besloot om tot de kern van de vraag te komen en met Ana Manasovska te praten, een software-engineer uit Zürich die een van de Googlers is in de frontlinie bij het omzetten van een afbeelding in tekst.

Ana, vertel ons over je werk bij Lens.

Ik ben betrokken bij het tekstaspect, dus zorg ervoor dat de app tekst kan onderscheiden en deze kan kopiëren voor een zoekopdracht of deze kan vertalen - zonder te hoeven typen. Als je bijvoorbeeld de camera van je telefoon op een poster in een vreemde taal richt, kan de app de tekst erop vertalen. En voor mensen die blind of slechtziend zijn, kan hij de tekst hardop voorlezen. Het is behoorlijk indrukwekkend.

Dus een deel van wat mijn team doet, is ervoor zorgen dat Lens niet alleen de tekst herkent, maar ook de structuur van de tekst. Wij mensen begrijpen automatisch schrijven dat is opgedeeld in zinnen en alinea's, of blokken en kolommen, en weten wat bij elkaar hoort. Het is echter heel moeilijk voor een machine om dat te onderscheiden.

Is dit machinaal leren?

Ja. Met andere woorden, het maakt gebruik van systemen (we noemen ze modellen) die we hebben getraind om karakters en structuur in afbeeldingen te onderscheiden. Een traditioneel computersysteem zou dit slechts in beperkte mate kunnen doen. Maar ons machine learning-model is gebouwd om "zichzelf aan te leren" op enorme datasets en leert tekststructuren te onderscheiden op dezelfde manier als een mens zou doen.

Kan het systeem met verschillende talen werken?

Ja, het kan 30 schriften herkennen, waaronder Cyrillisch, Devanagari, Chinees en Arabisch. Het is momenteel het meest nauwkeurig in Latijns-alfabettalen, maar zelfs daar vormen de vele verschillende soorten lettertypen een uitdaging. Japans en Chinees zijn lastig omdat ze veel nuances in de karakters hebben. Wat voor het ongetrainde oog een kleine variatie lijkt, kan de betekenis volledig veranderen.

Wat is het meest uitdagende deel van je baan?

Er is veel complexiteit en ambiguïteit, wat een uitdaging is, dus ik heb moeten leren daar doorheen te navigeren. En het is erg snel; dingen zijn constant in beweging en je moet veel vragen stellen en met veel mensen praten om de antwoorden te krijgen die je nodig hebt.

Wat houdt dat in als het gaat om daadwerkelijk coderen?

Meestal gebruik ik een programmeertaal genaamd C++, waarmee je de verwerkingsstappen kunt uitvoeren die nodig zijn om je van een afbeelding naar een weergave van woorden en structuur te brengen.

Hmmm, ik begrijp het wel een beetje. Hoe ziet het eruit?