Boffins konverterar skrivljud till text med 95 % noggrannhet

Boffins konverterar skrivljud till text med 95 % noggrannhet

Källnod: 2205345

Forskare i Storbritannien hävdar att de har översatt ljudet av tangenttryckningar på bärbara datorer till motsvarande bokstäver med 95 procents noggrannhet i vissa fall.

Den siffran på 95 procent uppnåddes med bara en närliggande iPhone. Fjärrmetoder är lika farliga: över Zoom sjönk noggrannheten för inspelade tangenttryckningar bara till 93 procent, medan Skype-samtal fortfarande var 91.7 procent korrekta. 

Med andra ord är detta en sidokanalattack med stor noggrannhet, minimala tekniska krav och en allestädes närvarande dataexfiltreringspunkt: Mikrofoner, som finns överallt från våra bärbara datorer, till våra handleder, till själva rummen vi arbetar i. 

För att göra saken värre, sa trion in deras papper att de har uppnått vad de hävdar är ett noggrannhetsrekord för akustiska sidokanalsattacker (ASCA) utan att förlita sig på en språkmodell. Istället använde de djupinlärning och transformatorlager för självuppmärksamhet för att fånga ljudet från att skriva och översätta det till data för exfiltrering.

Vi har tidigare skrivit om människor som använder mikrofoner på intressanta sätt för att snoka på folk; till exempel experiment som involverar lasermikrofoner och hårddiskar. I slutändan är det vanligtvis lättare att få in lite skadlig programvara på ett måls dator och komma åt deras data och tangenttryckningar på det sättet utan några Bond-liknande sken.

Försvara sig mot "Helautomatiserad ASCA på plats och på distans"

För att gå från tangenttryckningsljud till faktiska bokstäver, spelade ägghuvudena in en person som skrev på en 16-tums 2021 MacBook Pro med en telefon placerad 17 cm bort och bearbetade ljuden för att få signaturer av tangenttryckningarna. Dessa analyserades sedan med en djupinlärningsmodell, som matade in dem i konvolutions- och uppmärksamhetsnätverk för att gissa vilken speciell tangent, eller sekvens av tangenter, som trycktes ned. 

"Både telefonen och Zoom-inspelningsklassificerare uppnådde toppmodern noggrannhet givet minimal träningsdata i en slumpmässig fördelning av klasser," sa teamet i sin tidning. För att öka säkerhetsrädslan, "att spela in på det här sättet krävde ingen tillgång till offrets miljö och i det här fallet krävde det inte någon infiltration av enheten eller anslutningen", noterade boffins. 

Som ofta är fallet med sidokanalsattacker är det inte alltid lätt att mildra dem. Lyckligtvis är det inte det i det här fallet elanvändning, CPU-frekvenser, blinkande lampor eller RAM-bussar läcker data oundvikligen, men ett gammaldags problem som uppstår mellan datorn och stolen som faktiskt kan mildras något enkelt. 

Den enklaste skyddsmetoden, sa forskarna, är att ändra sin skrivstil. Forskarna noterar att skickliga användare som kan förlita sig på beröringsinmatning är svårare att upptäcka exakt, med en-knappsigenkänning som sjunker från 64 till 40 procent vid de högre hastigheter som tekniken möjliggör. 

För dem som inte vill ta sig tid att lära sig att vara en skicklig maskinskrivare, rekommenderar teamet några ytterligare tekniker som att använda randomiserade lösenord med flera fall. "Flera metoder lyckas känna igen ett tryck på shift-tangenten," sa akademikerna, men "ingen artikel i den undersökta litteraturen lyckades känna igen "släpptoppen" av shift-tangenten mitt i ljudet av andra tangenter." 

Med andra ord, att blanda stora och små bokstäver fortsätter att vara en god vana. Teamet sa också att de som är oroliga för akustiska sidokanalattacker också bara kan använda en andra autentiseringsfaktor för att förhindra att någon snokar tangenttryckningar och stjäl lösenord. 

Det är väl och bra för lösenord, men hur är det med annan hemlig information, som företagsregister eller kundinformation? För att ta itu med att forskarna föreslår att man spelar falska tangenttryckningsljud för att maskera de riktiga. 

Att arbeta bland fantomtangentbordens klackande skulle säkert irritera alla, vilket är anledningen till att forskarna föreslår att man bara lägger till ljuden till Skype- och Zoom-överföringar efter att de har spelat in istället för att utsätta anställda för realtidsljud. Det, fann teamet, "tycks ha den bästa prestandan och minsta irritation för användaren." 

Uppföljningsforskning pågår nu för att använda nya källor för inspelningar, som smarta högtalare, bättre tekniker för isolering av tangenttryckningar och tillägget av en språkmodell för att göra deras akustiska snokning ännu effektivare. ®

Tidsstämpel:

Mer från Registret