Tekstautofuldførelsessystemer har til formål at lette vores liv, men der er risici

Genudgivet af Platon

Abonnenter: 0

Hør fra CIO'er, CTO'er og andre C-niveau og senior execs om data og AI-strategier på Future of Work Summit den 12. januar 2022. Lær mere

Hvis du har skrevet en sms eller e-mail for nylig, er chancerne for, at AI foreslået dig forskellige synonymer, sætninger eller måder at afslutte en sætning på. Fremkomsten af AI-drevne autosuggestionsværktøjer som Googles Smart Compose er faldet sammen med den digitale transformation af virksomhedskommunikation, som nu for det meste lever online. Det er anslået at den typiske arbejder svarer på omkring 40 e-mails hver dag og sender mere end 200 Slack beskeder om ugen.

Beskeder truer med at optage en stigende del af arbejdsdagen med Adobe pløkning den tid, som arbejdere bruger på at besvare e-mails på 15.5 timer om ugen. Det konstante opgaveskift er et dødsstød for produktiviteten, som undersøgelser viser fordele ved uafbrudt arbejde. Forskning fra University of California og Humboldt University fandt ud af, at arbejdere kan miste op til 23 minutter på en opgave, hver gang de bliver afbrudt, yderligere forlængelse arbejdsdagen.

Autosuggestion-værktøjer lover at spare tid ved at strømline beskedskrivning og besvarelse. Googles Smart Reply foreslår for eksempel hurtige svar på e-mails, der normalt vil tage minutter at skrive ud. Men AI'en bag disse værktøjer har mangler, der kan introducere skævheder eller påvirke det sprog, der bruges i meddelelser på uønskede måder.

Væksten i autosuggestion og tekst autofuldførelse

Prædiktiv tekst er ikke en ny teknologi. Et af de første almindeligt tilgængelige eksempler, T9, som gør det muligt at danne ord fra et enkelt tastetryk for hvert bogstav, kom som standard på mange mobiltelefoner i slutningen af 90'erne. Men fremkomsten af mere sofistikerede, skalerbare AI-teknikker i sproget førte til spring i kvaliteten - og bredden - af autosuggestionsværktøjer.

I 2017 lancerede Google Smart svar i Gmail, som virksomheden senere bragte til andre Google-tjenester, herunder Chat og tredjepartsapps. Ifølge Google genererer AI'en bag Smart Reply svarforslag "baseret på den fulde kontekst af en samtale", ikke bare en enkelt besked - hvilket tilsyneladende resulterer i forslag, der er mere rettidige og relevante. Smart komponere, som foreslår komplette sætninger i e-mails, ankom til Gmail et år senere og Google Docs kort efter. En lignende funktion kaldet foreslåede svar kom til Microsoft Outlook i 2018 og Teams i 2020.

Teknologien bag den nye høst af autosuggestionsværktøjer - som nogle akademiske kredse omtaler som "AI-medieret kommunikation" - er spring ud over, hvad der eksisterede i 90'erne. For eksempel blev AI-modellen, der understøtter Smart Compose, skabt ved hjælp af milliarder af eksempler på e-mails og kører i skyen på tilpasset acceleratorhardware. I mellemtiden tager Smart Reply - som fungerede som grundlaget for Smart Compose - en "hierarkisk tilgang" til forslag, inspireret af, hvordan mennesker forstår sprog og begreber.

Ovenfor: Outlooks Smart Reply bruger deep learning-modeller, der er trænet i Azure Machine Learning.

Billedkredit: Microsoft

"Sprogets indhold er dybt hierarkisk, afspejlet i selve sprogets struktur ..." Google-forsker Brian Strope og ingeniørdirektør Ray Kurzweil forklare i et blogindlæg. "Overvej beskeden, 'Den interessante person på cafeen, vi kan lide, gav mig et blik.' … Når vi foreslår et passende svar på dette budskab, kan vi overveje betydningen af ordet 'blik', som potentielt er tvetydig. Var det en positiv gestus? I så fald kan vi svare: 'Fedt!' Eller var det en negativ gestus? Hvis ja, siger emnet noget om, hvordan skribenten havde det med den negative meningsudveksling? En masse information om verden og en evne til at foretage begrundede vurderinger er nødvendige for at foretage subtile skel. Givet nok eksempler på sprog, kan en maskinlæringstilgang opdage mange af disse subtile skel. ”

Men som med alle teknologier er selv de mest dygtige autosuggestionsværktøjer modtagelige for fejl, der dukker op under udviklings- og implementeringsprocessen.

I december 2016 var det afslørede at Google Søgnings autofuldførelsesfunktion foreslog hadefulde og stødende slutninger for specifikke søgesætninger, såsom "er jøder onde?" for udtrykket "er jøder". Ifølge virksomheden var skylden et algoritmisk system, der opdaterer forslag baseret på, hvad andre brugere har søgt efter for nylig. Mens Google til sidst implementerede en rettelse, tog det flere år for virksomheden at blokere forslag til autofuldførelse kontroversielle politiske udtalelser herunder falske påstande om stemmekrav og legitimiteten af valgprocesser.

Smart Svar har været fundet at tilbyde "personen iført turban"-emoji som svar på en besked, der indeholdt en pistol-emoji. Og Apples autofuldførelse på iOS tidligere foreslog kun mandlige emoji til ledende roller, herunder CEO, COO og CTO.

Biased data

Fejl i autofuldførelse og autosuggestionssystemer opstår ofte fra forudindtaget data. De millioner til milliarder af eksempler, som systemerne lærer af, kan plettes med tekst fra giftige hjemmesider der forbinder visse køn, racer, etniciteter, og religioner med sårende begreber. Illustrerer problemet, Codex, en kodegenererende model udviklet af forskningslaboratoriet OpenAI, kan blive bedt om at skrive "terrorist", når den fodres med ordet "islam." Endnu en stor sprogmodel fra AI-startup Sammenhæng har en tendens til at forbinde mænd og kvinder med stereotype "mandlige" og "kvindelige" erhverv, såsom "mandlig videnskabsmand" og "kvindelig husholderske".

Ovenfor: Smart Compose til Google Docs.

Anmærkninger i dataene kan introducere nye problemer - eller forværre eksisterende. Fordi mange modeller lærer af etiketter, der kommunikerer om et ord, en sætning, et afsnit eller et dokument har bestemte karakteristika, såsom en positiv eller negativ følelse, rekrutterer virksomheder og forskere hold af menneskelige annotatorer til at mærke eksempler, typisk fra crowdsourcing-platforme som Amazon Mechanical Turk. Disse annotatorer bringer deres egne sæt af perspektiver - og skævheder - til bordet.

I en undersøgelse fra Allen Institute for AI, Carnegie Mellon og University of Washington fandt forskerne ud af, at etiketter er mere tilbøjelige til at kommentere sætninger på den afroamerikanske engelske (AAE) dialekt, der er mere giftig end almindelige amerikansk engelske ækvivalenter - på trods af at de er forstået som ugiftig af AAE-højttalere. Jigsaw, organisationen, der arbejder under Googles moderselskab Alphabet for at tackle cybermobning og desinformation, har draget lignende konklusioner i sine eksperimenter. Forskere ved virksomheden har opdaget forskelle i annoteringerne mellem etikettere, der selv identificerer sig som afroamerikanere og medlemmer af LGBTQ+-samfundet versus annotatorer, der ikke identificerer sig som nogen af disse grupper.

Nogle gange er skævheden bevidst - et spørgsmål om sproglige afvejninger. For eksempel, Forfatter, en startup, der udvikler en AI-assistent til indholdsgenerering, siger, at den prioriterer "business English" i sine skriveforslag. Administrerende direktør May Habib gav eksemplet med "habitual be" i AAVE, en udsagnsform, der ikke findes i nogen anden engelsk stil.

"Da [den sædvanlige være] traditionelt ikke er blevet brugt i forretningsengelsk, og derfor ikke vises i høj frekvens i vores datasæt, ville vi rette 'I laver nogle mærkelige ting herude' til 'Y' alle laver nogle mærkelige ting herude," sagde Habib til VentureBeat via e-mail. "[Når det er sagt] sørgede vi manuelt for, at hilsner og afmeldinger på sproget ikke blev markeret af Writer. Noget sprog er mere kønsneutralt end formelt forretningsengelsk, [for eksempel], så det er mere moderne og on-brand for virksomheder."

Påvirkning af skrivning

Når fordomme - med vilje eller ej - bliver til autofuldførelse og autosuggestionssystemer, kan de ændre den måde, vi skriver på. Den enorme skala, hvormed disse systemer fungerer, gør dem svære (hvis ikke umulige) helt at undgå. Smart svar var ansvarlige for 10 % af alle Gmail-svar sendt fra smartphones i 2016.

I en af de mere omfattende revisioner af autofuldførelsesværktøjer gennemførte et team af Microsoft-forskere interviews med frivillige, som blev bedt om at give deres tanker om autogenererede svar i Outlook. Interviewpersonerne fandt, at nogle af svarene var overpositive, forkerte i deres antagelser om kultur og køn og for uhøflige til visse sammenhænge, såsom virksomhedskorrespondancer. Alligevel viste eksperimenter under undersøgelsen, at brugere var mere tilbøjelige til at foretrække korte, positive og høflige svar foreslået af Outlook.

Google SmartReply YouTube

En separat Harvard-undersøgelse viste, at når folk, der skriver om en restaurant, blev præsenteret for "positive" autofuldførelsesforslag, havde de resulterende anmeldelser en tendens til at være mere positive, end hvis de blev præsenteret for negative forslag. "Det er spændende at tænke på, hvordan fremtidens forudsigelige tekstsystemer kan hjælpe folk med at blive langt mere effektive forfattere, men vi har også brug for gennemsigtighed og ansvarlighed for at beskytte mod forslag, der kan være partiske eller manipulerede," Ken Arnold, forsker ved Harvard's School of Engineering and Applied Sciences, der var involveret i undersøgelsen, fortalt BBC.

Hvis der er en altomfattende løsning på problemet med skadelig autofuldførelse, er den ikke blevet opdaget endnu. Google valgte blot at blokere kønsbaserede pronomenforslag i Smart Compose, fordi systemet viste sig at være en dårlig forudsigelse af modtagernes køn og kønsidentiteter. Microsofts LinkedIn undgår også kønsbestemte pronominer i Smart Replies, dets forudsigelige beskedværktøj, for at forhindre potentielle fejl.

Medforfatterne til Microsoft studere advare om, at hvis systemdesignere ikke proaktivt adresserer manglerne i autofuldførelsesteknologier, vil de løbe risikoen for ikke kun at støde brugerne, men få dem til at mistro systemerne. "Systemdesignere bør udforske personaliseringsstrategier på individuelt og socialt netværksniveau, overveje, hvordan kulturelle værdier og samfundsmæssige skævheder kan videreføres af deres systemer, og udforske social interaktionsmodellering for at begynde at adressere begrænsningerne og problemerne," skrev de. "[O]vores resultater indikerer, at de nuværende tekstanbefalingssystemer til e-mail og andre [lignende] teknologier forbliver utilstrækkeligt nuancerede til at afspejle subtiliteterne i virkelige sociale relationer og kommunikationsbehov. “

VentureBeat

VentureBeats mission er at være et digitalt bytorv for tekniske beslutningstagere for at få viden om transformativ teknologi og handle. Vores websted leverer væsentlig information om datateknologier og strategier til at guide dig, mens du leder dine organisationer. Vi inviterer dig til at blive medlem af vores fællesskab for at få adgang til:

ajourførte oplysninger om emner, der interesserer dig
vores nyhedsbreve
gated tankelederindhold og nedsat adgang til vores dyrebare begivenheder, såsom Forvandling 2021: Lær mere
netværksfunktioner og mere

Bliv medlem

Kilde: https://venturebeat.com/2022/01/11/text-autocompletion-systems-aim-to-ease-our-lives-but-there-are-risks/

Tidsstempel: Januar 11, 2022