Tekstautofullføringssystemer tar sikte på å lette livene våre, men det er risiko

Kilde node: 1575782

Hør fra CIOer, CTOer og andre C-nivå og seniorledere om data og AI-strategier på Future of Work Summit 12. januar 2022. Les mer


Hvis du nylig har skrevet en tekstmelding eller e-post, er sjansen stor for at AI foreslår forskjellige synonymer, setninger eller måter å fullføre en setning på. Fremveksten av AI-drevne autosuggestionsverktøy som Googles Smart Compose har falt sammen med den digitale transformasjonen av bedriftskommunikasjon, som nå for det meste lever online. Det er anslått at den typiske arbeideren svarer på ca 40 e-poster hver dag og sender mer enn 200 Slack-meldinger per uke.

Meldingstjenester truer med å ta en økende del av arbeidsdagen, med Adobe plugging hvor mye tid arbeidere bruker på å svare på e-poster 15.5 timer i uken. Den konstante oppgavebyttingen er et dødsbud for produktiviteten, som studier viser fordeler ved uavbrutt arbeid. Forskning fra University of California og Humboldt University fant at arbeidere kan miste opptil 23 minutter på en oppgave hver gang de blir avbrutt, ytterligere forlengelse arbeidsdagen.

Autosuggestion-verktøy lover å spare tid ved å strømlinjeforme meldingsskriving og -svar. Googles Smart Reply, for eksempel, foreslår raske svar på e-poster som normalt vil ta minutter å skrive ut. Men AI-en bak disse verktøyene har mangler som kan introdusere skjevheter eller påvirke språket som brukes i meldingstjenester på uønskede måter.

Veksten i autosuggestion og tekst autofullføring

Prediktiv tekst er ikke en ny teknologi. Et av de første allment tilgjengelige eksemplene, T9, som gjør at ord kan dannes fra ett enkelt tastetrykk for hver bokstav, kom standard på mange mobiltelefoner på slutten av 90-tallet. Men fremveksten av mer sofistikerte, skalerbare AI-teknikker i språket førte til sprang i kvaliteten – og bredden – til autosuggestionsverktøy.

I 2017 lanserte Google Smart svar i Gmail, som selskapet senere brakte til andre Google-tjenester, inkludert Chat og tredjepartsapper. Ifølge Google genererer AI-en bak Smart Reply svarforslag «basert på den fullstendige konteksten av en samtale», ikke bare en enkelt melding – noe som tilsynelatende resulterer i forslag som er mer tidsriktige og relevante. Smart komponere, som foreslår fullstendige setninger i e-poster, kom til Gmail et år senere og Google Docs like etterpå. En lignende funksjon kalt foreslåtte svar kom til Microsoft Outlook i 2018 og Teams i 2020.

Teknologien bak den nye avlingen av autosuggestionsverktøy – som enkelte akademiske sirkler omtaler som «AI-mediert kommunikasjon» – er sprang utover det som eksisterte på 90-tallet. For eksempel ble AI-modellen som ligger til grunn for Smart Compose laget ved hjelp av milliarder av eksempler på e-poster og kjører i skyen på tilpasset akseleratormaskinvare. I mellomtiden tar Smart Reply - som fungerte som grunnlaget for Smart Compose - en "hierarkisk tilnærming" til forslag, inspirert av hvordan mennesker forstår språk og konsepter.

Microsoft Smart Svar

Over: Outlooks Smart Reply bruker dyplæringsmodeller som er opplært i Azure Machine Learning.

Bildekreditt: Microsoft

"Innholdet i språket er dypt hierarkisk, reflektert i selve språkets struktur ..." Google-forsker Brian Strope og ingeniørdirektør Ray Kurzweil forklare i et blogginnlegg. «Tenk på meldingen: 'Den interessante personen på kafeen vi liker ga meg et blikk.' … Når vi foreslår et passende svar på denne meldingen, kan vi vurdere betydningen av ordet 'blikk', som potensielt er tvetydig. Var det en positiv gest? I så fall kan vi svare "kult!" Eller var det en negativ gest? I så fall, sier emnet noe om hvordan skribenten opplevde det negative ordskiftet? Mye informasjon om verden, og en evne til å gjøre begrunnede vurderinger, er nødvendig for å gjøre subtile distinksjoner. Gitt nok eksempler på språk, kan en maskinlæringstilnærming oppdage mange av disse subtile distinksjonene. ”

Men som med alle teknologier, er selv de mest dyktige autosuggestionsverktøyene utsatt for feil som dukker opp under utviklings- og distribusjonsprosessen.

I desember 2016 var det avslørt at Google Søks autofullføringsfunksjon foreslo hatefulle og støtende avslutninger for spesifikke søkefraser, som "er jøder onde?" for uttrykket "er jøder". Ifølge selskapet var feilen et algoritmisk system som oppdaterer forslag basert på hva andre brukere har søkt etter nylig. Mens Google til slutt implementerte en løsning, tok det flere år før selskapet blokkerte forslag til autofullføring kontroversielle politiske uttalelser inkludert falske påstander om stemmekrav og legitimiteten til valgprosesser.

Smart Svar har vært funnet å tilby «personen med turban»-emoji som svar på en melding som inkluderte en pistol-emoji. Og Apples autofullføring på iOS tidligere foreslo bare mannlige emoji for ledende roller inkludert administrerende direktør, COO og CTO.

Forutinntatte data

Feil i autofullføring og autosuggestionssystemer oppstår ofte fra partiske data. Millioner til milliarder av eksempler som systemene lærer av, kan bli tilsmusset med tekst fra giftige nettsteder som assosierer visse kjønn, raser, etnisiteter, og religioner med sårende konsepter. Illustrerer problemet, Codex, en kodegenererende modell utviklet av forskningslaboratoriet OpenAI, kan bli bedt om å skrive «terrorist» når den mates med ordet «islam». Nok en stor språkmodell fra AI-oppstart Koherer har en tendens til å assosiere menn og kvinner med stereotypiske «mannlige» og «kvinnelige» yrker, som «mannlig vitenskapsmann» og «kvinnelig husholderske».

Smart Compose for Google Dokumenter

Over: Smart Compose for Google Docs.

Merknader i dataene kan introdusere nye problemer – eller forverre eksisterende. Fordi mange modeller lærer av etiketter som kommuniserer om et ord, en setning, et avsnitt eller et dokument har visse egenskaper, som en positiv eller negativ følelse, rekrutterer selskaper og forskere team av menneskelige annotatorer for å merke eksempler, typisk fra crowdsourcing-plattformer som Amazon Mechanical Turk. Disse kommentatorene bringer sine egne sett med perspektiver – og skjevheter – til bordet.

I en studie fra Allen Institute for AI, Carnegie Mellon og University of Washington fant forskere at etiketter er mer sannsynlig å kommentere setninger på dialekten afroamerikansk engelsk (AAE) som er mer giftig enn generelle amerikanske engelske ekvivalenter - til tross for at de blir forstått som ikke-giftig av AAE-høyttalere. Jigsaw, organisasjonen som jobber under Googles morselskap Alphabet for å takle nettmobbing og desinformasjon, har trukket lignende konklusjoner i sine eksperimenter. Forskere ved selskapet har oppdaget forskjeller i merknadene mellom merkelapper som identifiserer seg som afroamerikanere og medlemmer av LHBTQ+-samfunnet versus kommentatorer som ikke identifiserer seg som noen av disse gruppene.

Noen ganger er skjevheten tilsiktet - et spørsmål om avveininger på folkespråket. For eksempel, Forfatter, en oppstart som utvikler en AI-assistent for innholdsgenerering, sier at den prioriterer «business English» i sine skriveforslag. Administrerende direktør May Habib ga eksemplet med "habitual be" i AAVE, en verbtid som ikke eksisterer i noen annen engelsk stil.

"Siden [the habitual be] tradisjonelt ikke har blitt brukt i forretningsengelsk, og derfor ikke vises i høy frekvens i datasettene våre, ville vi korrigert "Dere gjør noen rare ting her ute" til "Y" alle gjør noen merkelige ting her ute," sa Habib til VentureBeat via e-post. "[Når det er sagt] sørget vi manuelt for at folkespråkbaserte hilsener og avmeldinger ikke ble flagget av Writer. Noen språk er mer kjønnsnøytrale enn formelt forretningsengelsk, [for eksempel], så det er mer moderne og tilpasset for bedrifter.»

Påvirker skriving

Når skjevheter – tilsiktet eller ikke – gjør det til autofullførings- og autosuggestionssystemer, kan de endre måten vi skriver på. Den enorme skalaen som disse systemene fungerer i, gjør dem vanskelige (om ikke umulige) å unngå helt. Smart svar var ansvarlig for 10 % av alle Gmail-svar sendt fra smarttelefoner i 2016.

I en av de mer omfattende revisjoner av autofullføringsverktøy, gjennomførte et team av Microsoft-forskere intervjuer med frivillige som ble bedt om å gi sine tanker om automatisk genererte svar i Outlook. Intervjuobjektene fant noen av svarene som overpositive, feil i sine antakelser om kultur og kjønn, og for uhøflige for visse sammenhenger, som bedriftskorrespondanser. Likevel viste eksperimenter under studien at brukere var mer sannsynlig å favorisere korte, positive og høflige svar foreslått av Outlook.

Google SmartReply YouTube

En separat Harvard-studie fant at når folk som skrev om en restaurant ble presentert med "positive" autofullføringsforslag, hadde de resulterende vurderingene en tendens til å være mer positive enn om de ble presentert med negative forslag. "Det er spennende å tenke på hvordan prediktive tekstsystemer i fremtiden kan hjelpe folk til å bli langt mer effektive forfattere, men vi trenger også åpenhet og ansvarlighet for å beskytte mot forslag som kan være partiske eller manipulerte," Ken Arnold, en forsker ved Harvard's School of Engineering and Applied Sciences som var involvert i studien, fortalte BBC.

Hvis det finnes en altomfattende løsning på problemet med skadelig autofullføring, har den ikke blitt oppdaget ennå. Google valgte å blokkere kjønnsbaserte pronomenforslag i Smart Compose fordi systemet viste seg å være en dårlig prediktor for mottakernes kjønn og kjønnsidentitet. Microsofts LinkedIn unngår også kjønnede pronomen i Smart Replies, dets prediktive meldingsverktøy, for å forhindre potensielle tabber.

Medforfatterne til Microsoft studere advare om at hvis systemdesignere ikke proaktivt adresserer manglene i autofullføringsteknologier, vil de risikere å ikke bare fornærme brukerne, men få dem til å mistillit til systemene. "Systemdesignere bør utforske personaliseringsstrategier på individ- og sosialt nettverksnivå, vurdere hvordan kulturelle verdier og samfunnsmessige skjevheter kan videreføres av systemene deres, og utforske sosial interaksjonsmodellering for å begynne å adressere begrensningene og problemene," skrev de. "[O]våre funn tyder på at dagens tekstanbefalingssystemer for e-post og andre [liknende] teknologier forblir utilstrekkelig nyanserte til å gjenspeile subtilitetene i virkelige sosiale relasjoner og kommunikasjonsbehov. "

VentureBeat

VentureBeats oppdrag er å være et digitalt torg for tekniske beslutningstakere for å få kunnskap om transformativ teknologi og transaksjoner. Nettstedet vårt gir viktig informasjon om datateknologier og strategier for å veilede deg når du leder organisasjonene dine. Vi inviterer deg til å bli medlem av samfunnet vårt, for å få tilgang til:

  • oppdatert informasjon om temaene som er interessante for deg
  • våre nyhetsbrev
  • gated tankelederinnhold og nedsatt tilgang til våre verdsatte arrangementer, som f.eks Transformer 2021: Lære mer
  • nettverksfunksjoner og mer

Bli medlem

Kilde: https://venturebeat.com/2022/01/11/text-autocompletion-systems-aim-to-ease-our-lives-but-there-are-risks/

Tidstempel:

Mer fra AI - VentureBeat