DotData extraherar viktiga datafunktioner för att göra maskininlärning användbar

Källnod: 891345

Lyft din datateknik och strategi för företag på Transformera 2021.


Många experter på artificiell intelligens säger att att köra AI-algoritmen bara är en del av jobbet. Att förbereda data och rensa den är en början, men den verkliga utmaningen är att ta reda på vad man ska studera och var man ska leta efter svaret. Är det gömt i transaktionsreskontran? Eller kanske i färgmönstret? Att hitta rätt funktioner för AI-algoritmen att undersöka kräver ofta en djup kunskap om själva verksamheten för att AI-algoritmerna ska styras att leta på rätt plats.

DotData vill automatisera det arbetet. Företaget vill hjälpa företagen att flagga de bästa funktionerna för AI-bearbetning, och för att hitta det bästa stället att leta efter sådana funktioner. Företaget har lanserat DotData Py Lite, en containerversion av deras verktyg för maskininlärning som gör det möjligt för användare att snabbt bygga proof of concept (POC). Dataägare på jakt efter svar kan antingen ladda ner verktygslådan och köra den lokalt eller köra den i DotDatas molntjänst.

VentureBeat slog sig ner med DotDatas grundare och VD Ryohei Fujimaki för att diskutera den nya produkten och dess roll i företagets bredare tillvägagångssätt för att förenkla AI-arbetsbelastningar för alla med mer data än tid.

VentureBeat: Tänker du på ditt verktyg mer som en databas eller en AI-motor?

Ryohei Fujimaki: Vårt verktyg är mer av en AI-motor men det är [tätt integrerat med] data. Det finns tre stora datasteg i många företag. För det första är det datasjön, som huvudsakligen är rådata. Sedan är det datalagerstadiet, som är något rensat och uppbyggt. Den är i bra skick, men den är ännu inte lätt att konsumera. Sedan finns det datamart, som är en ändamålsorienterad, ändamålsspecifik uppsättning datatabeller. Det är lätt att konsumera av en business intelligence eller maskininlärningsalgoritm.

Vi börjar arbeta med data emellan datasjön och datalagret skede. [Då förbereder vi det] för maskininlärningsalgoritmer. Vår kärnkompetens, vår kärnförmåga, är att automatisera denna process.

VentureBeat: Processen att hitta rätt databitar i ett stort hav?

Fujimaki: Vi ser det som "funktionsteknik", som utgår från rådata, någonstans mellan datasjön och datalagerstadiet, som gör mycket datarensning och matar en maskininlärningsalgoritm.

VentureBeat: Maskininlärning hjälper till att hitta de viktiga funktionerna?

Fujimaki: Ja. Funktionsteknik är i grunden att trimma ett maskininlärningsproblem baserat på domänexpertis.

VentureBeat: Hur bra fungerar det?

Fujimaki: En av våra bästa kundfallsstudier kommer från en prenumerationshanteringsverksamhet. Där använder företaget sin plattform för att hantera kunderna. Problemet är att det finns många avvisade eller försenade transaktioner. Det är nästan ett problem på 300 miljoner dollar för dem.

Innan DotData skapade de 112 frågorna manuellt för att bygga en funktionsuppsättning baserad på de 14 ursprungliga kolumnerna från en tabell. Deras noggrannhet var cirka 75 %. Men vi tog sju tabeller från deras datauppsättning och upptäckte 122,000 90 funktionsmönster. Noggrannheten hoppade till över XNUMX%.

VentureBeat: Så, de manuellt upptäckta funktionerna var bra, men din maskininlärning hittade tusen gånger fler funktioner och noggrannheten steg?

Fujimaki: Ja. Denna noggrannhet är bara en teknisk förbättring. Till slut kunde de undvika nästan 35 % av dåliga transaktioner. Det är nästan 100 miljoner dollar.

Vi gick från 14 olika kolumner i en tabell till att söka i nästan 300 kolumner i sju tabeller. Vår plattform kommer att identifiera vilka funktionsmönster som är mer lovande och mer betydelsefulla, och med hjälp av våra viktiga funktioner kan de förbättra noggrannheten, mycket avsevärt.

VentureBeat: Så vilken typ av funktioner upptäcker den?

Fujimaki: Låt oss titta på en annan fallstudie av prognostisering av produktefterfrågan. Funktionerna som upptäckts är väldigt, väldigt enkla. Maskininlärning använder tidsmässig aggregering från transaktionstabeller, till exempel försäljning, under de senaste 14 dagarna. Uppenbarligen är detta något som kan påverka nästa veckas produktefterfrågan. För försäljning eller hushållsartiklar var maskininlärningsalgoritmen att hitta ett 28-dagarsfönster som den bästa prediktorn.

VentureBeat: Är det bara ett enda fönster?

Fujimaki: Vår motor kan automatiskt upptäcka specifika försäljningstrendmönster för ett hushållsobjekt. Detta kallas ett partiellt eller årligt periodiskt mönster. Algoritmen kommer att upptäcka årliga periodiska mönster som är särskilt viktiga för en säsongsbetonad händelseeffekt som jul eller tacksägelse. I det här användningsfallet finns det mycket betalningshistorik, en mycket tilltalande historia.

VentureBeat: Är det svårt att hitta bra data?

Fujimaki: Det finns ofta gott om det, men det är inte alltid bra. Vissa tillverkande kunder studerar sina leveranskedjor. Jag gillar den här fallstudien från ett tillverkningsföretag. De analyserar sensordata med hjälp av DotData, och det finns mycket av det. De vill upptäcka några felmönster, eller försöka maximera avkastningen från tillverkningsprocessen. Vi stödjer dem genom att distribuera vår strömförutsägelsemotor till [sakernas internet]-sensorer i fabriken.

VentureBeat: Ditt verktyg räddar människan från att söka och försöka föreställa sig alla dessa kombinationer. Det måste göra det lättare att göra datavetenskap.

Fujimaki: Traditionellt sett krävde den här typen av funktionsteknik mycket datateknik, eftersom datan är mycket stor och det finns så många kombinationer.

De flesta av våra användare är inte datavetare idag. Det finns ett par profiler. Den ena är som en [business intelligence] typ av användare. Som en visualiseringsexpert som bygger en instrumentpanel för beskrivande analys och vill ta steget upp till att göra prediktiv analys.

En annan är en dataingenjör eller systemingenjör som är bekant med denna typ av datamodellkoncept. Systemingenjörer kan enkelt förstå och använda vårt verktyg för att göra maskininlärning och AI. Det finns ett visst ökande intresse från dataforskare själva, men vår huvudprodukt är främst användbar för den typen av människor.

VentureBeat: Du automatiserar upptäcktsprocessen?

Fujimaki: I grund och botten är våra kunder väldigt, väldigt förvånade när vi visade att vi automatiserar denna funktionsextraktion. Detta är den mest komplexa, långa delen. Vanligtvis har folk sagt att detta är omöjligt att automatisera eftersom det kräver mycket domänkunskap. Men vi kan automatisera den här delen. Vi kan automatisera processen innan maskininlärning för att manipulera data.

VentureBeat: Så det är inte bara stadiet att hitta de bästa funktionerna, utan arbetet som kommer före det. Arbetet med att identifiera funktionerna själva.

Fujimaki: Ja! Vi använder AI för att generera AI-ingång. Det finns många spelare som kan automatisera den slutliga maskininlärningen. De flesta av våra kunder valde DotData eftersom vi kan automatisera delen av att hitta funktionerna först. Den här delen är typ vår hemliga sås, och vi är väldigt stolta över den.

VentureBeat

VentureBeats uppdrag är att vara ett digitalt torg för tekniska beslutsfattare för att få kunskap om transformativ teknik och transaktioner. Vår webbplats levererar viktig information om datateknik och strategier för att vägleda dig när du leder dina organisationer. Vi inbjuder dig att bli medlem i vårt samhälle och få tillgång till:

  • uppdaterad information om de ämnen som är intressanta för dig
  • våra nyhetsbrev
  • gated tanke-ledare innehåll och rabatterad tillgång till våra uppskattade evenemang, såsom Transformera 2021: Läs mer
  • nätverksfunktioner och mer

Bli medlem

Källa: https://venturebeat.com/2021/06/11/dotdata-extracts-key-data-features-to-make-machine-learning-useful/

Tidsstämpel:

Mer från AI - VentureBeat