2021 maskinlæring, kunstig intelligens og datalandskab

Kildeknude: 1140562

Lige da du troede, at det ikke kunne vokse mere eksplosivt, gjorde data/AI-landskabet det bare: det hurtige tempo i virksomhedsoprettelse, spændende nye produkt- og projektlanceringer, en syndflod af VC finansiering, skabelse af enhjørninger, børsnoteringer osv.

Det har også været et år med flere tråde og historier, der flettes sammen.

En historie har været økosystemets modning, hvor markedsledere når storskala og øger deres ambitioner om global markedsdominans, især gennem stadig bredere produktudbud. Nogle af disse virksomheder, såsom Snowflake, har blomstret på offentlige markeder (se vores MAD Public Company Index), og en række andre (Databricks, Dataiku, DataRobot osv.) har rejst meget store (eller i tilfælde af Databricks, gigantisk) runder til flere milliarder værdiansættelser og banker på børsnoteringsdøren (se vores Emerging MAD-virksomhedsindeks).

Men i den anden ende af spektret har i år også set den hurtige fremkomst af en helt ny generation af data- og ML-startups. Uanset om de blev grundlagt for et par år eller et par måneder siden, oplevede mange en vækstspurt i det seneste år eller deromkring. En del af det skyldes et rabiat VC-finansieringsmiljø, og en del af det, mere fundamentalt, skyldes bøjningspunkter i markedet.

I det forløbne år har der været mindre overskriftsfangende diskussion om futuristiske anvendelser af AI (selvkørende køretøjer osv.), og en smule mindre AI-hype som et resultat. Uanset hvad, er data- og ML/AI-drevne applikationsvirksomheder fortsat med at trives, især dem, der fokuserer på trendtilfælde for virksomhedsbrug. I mellemtiden er meget af handlingen foregået bag kulisserne på data- og ML-infrastruktursiden, hvor helt nye kategorier (dataobservation, omvendt ETL, metrics-butikker osv.) dukker op eller accelererer drastisk.

For at holde styr på denne udvikling er dette vores ottende årlige landskab og "state of the union" af data- og AI-økosystemet - skrevet i år sammen med min FirstMark-kollega John Wu. (For alle interesserede, her er de tidligere versioner: 2012, 2014, 2016, 2017, 2018, 2019: Del I , Part IIog 2020.)

For dem, der gennem årene har bemærket, hvor sindssygt travlt diagrammet er, vil du elske vores nye akronym: Machine learning, Artificial Intelligence og Data (MAD) - dette er nu officielt MAD-landskabet!

Vi har erfaret gennem årene, at disse indlæg læses af en bred gruppe mennesker, så vi har forsøgt at give en lille smule til alle – en makrovisning, der forhåbentlig vil være interessant og tilgængelig for de fleste, og så en lidt mere detaljeret oversigt over tendenser inden for datainfrastruktur og ML/AI for personer med et dybere kendskab til branchen.

Hurtige bemærkninger:

  • Min kollega John og jeg er tidlige VC'er på FirstMark, og vi investerer meget aktivt i data/AI-området. Vores porteføljeselskaber er noteret med en (*) i dette indlæg.

Lad os grave i.

Makrosynet: Giver mening om økosystemets kompleksitet

Lad os starte med et overblik over markedet på højt niveau. Da antallet af virksomheder i rummet bliver ved med at stige hvert år, er de uundgåelige spørgsmål: Hvorfor sker det? Hvor længe kan det blive ved? Vil branchen gennemgå en konsolideringsbølge?

Spol tilbage: Megatrenden

Læsere af tidligere versioner af dette landskab vil vide, at vi er ubønhørligt positive med hensyn til data- og AI-økosystemet.

Som vi sagde i tidligere år, er den grundlæggende tendens, at enhver virksomhed ikke bare bliver en softwarevirksomhed, men også en datavirksomhed.

Historisk, og stadig i dag i mange organisationer, har data betydet transaktionsdata gemt i relationelle databaser og måske et par dashboards til grundlæggende analyse af, hvad der skete med virksomheden i de seneste måneder.

Men virksomheder marcherer nu mod en verden, hvor data og kunstig intelligens er indlejret i utallige interne processer og eksterne applikationer, både til analytiske og operationelle formål. Dette er begyndelsen på den intelligente, automatiserede virksomheds æra - hvor virksomhedsmålinger er tilgængelige i realtid, realkreditansøgninger behandles automatisk, AI-chatbots yder kundesupport 24/7, churn forudsiges, cybertrusler opdages i realtid, og forsyningskæder tilpasser sig automatisk til efterspørgselsudsving.

Denne grundlæggende udvikling er blevet drevet af dramatiske fremskridt inden for underliggende teknologi - især et symbiotisk forhold mellem datainfrastruktur på den ene side og maskinlæring og AI på den anden side.

Begge områder har haft deres egen særskilte historie og valgkredse, men har i stigende grad opereret i låst trin i løbet af de sidste par år. Den første bølge af innovation var "Big Data"-æraen i begyndelsen af ​​2010'erne, hvor innovation fokuserede på at bygge teknologier til at udnytte de enorme mængder digitale data, der skabes hver dag. Så viste det sig, at hvis du anvendte big data til nogle årti gamle AI-algoritmer (deep learning), fik du fantastiske resultater, og det udløste hele den nuværende bølge af begejstring omkring AI. Til gengæld blev AI en vigtig drivkraft for udviklingen af ​​datainfrastruktur: Hvis vi kan bygge alle disse applikationer med AI, så får vi brug for bedre datainfrastruktur - og så videre og så videre.

Spol frem til 2021: Selve vilkårene (big data, AI osv.) har oplevet hype-cyklussens op- og nedture, og i dag hører man mange samtaler omkring automatisering, men grundlæggende er det hele den samme megatrend.

Den store oplåsning

Meget af nutidens acceleration i data/AI-området kan spores til fremkomsten af ​​cloud-datavarehuse (og deres søhusfætre — mere om dette senere) i løbet af de sidste par år.

Det er ironisk, fordi datavarehuse adresserer et af de mest basale, fodgængere, men også grundlæggende behov i datainfrastruktur: Hvor gemmer du det hele? Opbevaring og behandling er i bunden af ​​data/AI "behovshierarki" - se Monica Rogatis berømte blogindlæg link. — hvilket betyder, hvad du skal have på plads, før du kan lave mere avancerede ting som analytics og AI.

Du ville regne med, at 15+ år inde i big data-revolutionen, var det behov blevet løst for længe siden, men det var det ikke.

Set i bakspejlet var Hadoops første succes lidt af en hoved-falsk for rummet - Hadoop, OG-big data-teknologien, forsøgte at løse lagrings- og behandlingslaget. Det spillede en virkelig vigtig rolle med hensyn til at formidle ideen om, at reel værdi kunne udvindes fra enorme mængder data, men dens overordnede tekniske kompleksitet begrænsede i sidste ende dets anvendelighed til et lille sæt virksomheder, og det opnåede aldrig rigtig den markedspenetration, som selv de ældre datavarehuse (f.eks. Vertica) havde et par årtier siden.

I dag giver cloud-datavarehuse (Snowflake, Amazon Redshift og Google BigQuery) og søhuse (Databricks) muligheden for at gemme enorme mængder data på en måde, der er nyttig, ikke helt uoverkommelig, og som ikke kræver en hær af meget tekniske folk til at vedligeholde. Med andre ord, efter alle disse år er det nu endelig muligt at lagre og behandle big data.

Det er en big deal og har vist sig at være en stor oplåsning for resten af ​​dataene/AI plads, af flere grunde.

For det første øger stigningen i datavarehuse markant markedsstørrelsen, ikke kun for dens kategori, men for hele data- og AI-økosystemet. På grund af deres brugervenlighed og forbrugsbaserede priser (hvor du betaler mens du går), bliver datavarehuse porten til, at enhver virksomhed bliver en datavirksomhed. Uanset om du er en Global 2000-virksomhed eller en startup i en tidlig fase, kan du nu komme i gang med at opbygge din kernedatainfrastruktur med minimal smerte. (Selv FirstMark, et venturefirma med adskillige milliarder under ledelse og 20 teammedlemmer, har sin egen Snowflake-instans.)

For det andet har datavarehuse låst op for et helt økosystem af værktøjer og virksomheder, der kredser om dem: ETL, ELT, omvendt ETL, lagercentrerede datakvalitetsværktøjer, metric-butikker, augmented analytics osv. Mange omtaler dette økosystem som de "moderne data". stak" (som vi diskuterede i vores 2020 landskab). En række grundlæggere så fremkomsten af ​​den moderne datastak som en mulighed for at lancere nye startups, og det er ingen overraskelse, at meget af den febrilske VC-finansieringsaktivitet i løbet af det sidste år har fokuseret på moderne datastack-virksomheder. Startups, der var tidlige på trenden (og spillede en afgørende rolle i definitionen af ​​konceptet), når nu skala, herunder DBT Labs, en udbyder af transformationsværktøjer til analyseingeniører (se vores Fireside Chat med Tristan Handy, CEO for DBT Labs og Jeremiah Lowin, CEO for Prefect), og Fivetran, en leverandør af automatiserede dataintegrationsløsninger, der streamer data til datavarehuse (se vores Fireside Chat med George Fraser, CEO for Fivetran), som begge rejste store runder for nylig (se afsnittet Finansiering).

For det tredje, fordi de løser det grundlæggende lagerlag, befrier datavarehuse virksomheder til at begynde at fokusere på projekter af høj værdi, der optræder højere i hierarkiet af databehov. Nu hvor du har dine data gemt, er det nemmere for alvor at fokusere på andre ting som realtidsbehandling, udvidede analyser eller maskinlæring. Dette øger igen markedsefterspørgslen efter alle mulige andre data- og AI-værktøjer og -platforme. Et svinghjul bliver skabt, hvor mere kundeefterspørgsel skaber mere innovation fra data- og ML-infrastrukturvirksomheder.

Da de har sådan en direkte og indirekte indflydelse på rummet, er datavarehuse et vigtigt klokkeslæt for hele dataindustrien - efterhånden som de vokser, vokser resten af ​​rummet også.

Den gode nyhed for data- og AI-industrien er, at datavarehuse og søhuse vokser meget hurtigt i stor skala. Snowflake viste for eksempel en vækst på 103 % år-til-år i deres seneste Q2-resultater med en utrolig nettoomsætningsfastholdelse på 169 % (hvilket betyder, at eksisterende kunder bliver ved med at bruge og betale for Snowflake mere og mere over tid). Snefnug sigter mod 10 milliarder dollars i omsætning inden 2028. Der er en reel mulighed for, at de kan nå dertil før. Interessant nok, med forbrugsbaseret prissætning, hvor indtægterne først begynder at flyde, efter at produktet er fuldt implementeret, kan virksomhedens nuværende kundetræk være et godt stykke foran sine nyere omsætningstal.

Dette kunne bestemt kun være begyndelsen på, hvor store datavarehuse kunne blive. Nogle iagttagere mener, at datavarehuse og søhuse samlet set kunne nå 100 % markedspenetration over tid (hvilket betyder, at alle relevante virksomheder har et), på en måde, der aldrig var sand for tidligere datateknologier som traditionelle datavarehuse såsom Vertica (også dyre og besværlige at implementere) og Hadoop (for eksperimenterende og teknisk).

Selvom dette ikke betyder, at enhver datavarehusleverandør og enhver dataopstart, eller endda markedssegment, vil få succes, lover dette retningsmæssigt utroligt godt for data/AI-industrien som helhed.

Det titaniske chok: Snowflake vs. Databricks

Snowflake har været plakatbarnet af datarummet for nylig. Dets børsnotering i september 2020 var den største softwarebørsnotering nogensinde (vi havde dækket det på det tidspunkt i vores Quick S-1 Teardown: Snefnug). I skrivende stund, og efter nogle op- og nedture, er det en offentlig virksomhed på 95 milliarder dollars.

Databricks viser sig dog nu som en stor industririval. Den 31. august annoncerede virksomheden en massiv finansieringsrunde på 1.6 milliarder dollar til en værdiansættelse på 38 milliarder dollar, kun få måneder efter en runde på 1 milliard dollar annonceret i februar 2021 (til en sølle værdiansættelse på 28 milliarder dollar).

Indtil for nylig var Snowflake og Databricks i ret forskellige segmenter af markedet (og var faktisk tætte partnere i et stykke tid).

Snowflake er som et cloud-datavarehus for det meste en database til at gemme og behandle store mængder strukturerede data - hvilket betyder data, der kan passe pænt ind i rækker og kolonner. Historisk set er det blevet brugt til at gøre det muligt for virksomheder at besvare spørgsmål om tidligere og nuværende resultater ("hvilke var vores mest hurtigst voksende regioner i sidste kvartal?") ved at tilslutte business intelligence-værktøjer (BI). Ligesom andre databaser udnytter det SQL, et meget populært og tilgængeligt forespørgselssprog, som gør det brugbart af millioner af potentielle brugere over hele verden.

Databrikker kom fra et andet hjørne af dataverdenen. Det startede i 2013 at kommercialisere Spark, en open source-ramme til at behandle store mængder generelt ustrukturerede data (enhver form for tekst, lyd, video osv.). Spark-brugere brugte rammerne til at bygge og behandle det, der blev kendt som "datasøer", hvor de ville dumpe stort set enhver form for data uden at bekymre sig om struktur eller organisation. En primær anvendelse af datasøer var at træne ML/AI-applikationer, hvilket gør det muligt for virksomheder at besvare spørgsmål om fremtiden ("hvilke kunder er mest tilbøjelige til at købe næste kvartal?" - dvs. prædiktiv analyse). For at hjælpe kunder med deres datasøer skabte Databricks Delta, og for at hjælpe dem med ML/AI oprettede det ML Flow. For hele historien om den rejse, se min Fireside Chat med Ali Ghodsi, CEO, Databricks.

På det seneste har de to selskaber imidlertid konvergeret mod hinanden.

Databricks begyndte at tilføje data warehousing-funktioner til sine datasøer, hvilket gjorde det muligt for dataanalytikere at køre standard SQL-forespørgsler, samt tilføje business intelligence-værktøjer som Tableau eller Microsoft Power BI. Resultatet er, hvad Databricks kalder lakehouse - en platform beregnet til at kombinere det bedste fra både datavarehuse og datasøer.

Da Databricks fik sine datasøer til at ligne mere datavarehuse, har Snowflake fået sine datavarehuse til at ligne datasøer mere. Det annoncerede understøttelse af ustrukturerede data såsom lyd, video, PDF'er og billeddata i november 2020 og lanceret det i forhåndsvisning for blot et par dage siden.

Og hvor Databricks har tilføjet BI til sine AI-kapaciteter, tilføjer Snowflake AI til sin BI-kompatibilitet. Snowflake har opbygget tætte partnerskaber med topvirksomheds AI-platforme. Snefnug investeret i Dataikuog som hedder det er årets Data Science Partner. Det også investeret i ML platform rival DataRobot.

I sidste ende ønsker både Snowflake og Databricks at være centrum for alt data: ét lager til at gemme alle data, uanset om de er strukturerede eller ustrukturerede, og køre alle analyser, uanset om de er historisk (business intelligence) eller forudsigelig (datavidenskab, ML/AI).

Selvfølgelig er der ingen mangel på andre konkurrenter med en lignende vision. Især cloud-hyperscalerne har deres egne datavarehuse, samt en komplet suite af analytiske værktøjer til BI og AI, og mange andre muligheder udover massiv skala. Lyt for eksempel til denne fantastiske episode af Data Engineering Podcast om GCP's data- og analysemuligheder.

Både Snowflake og Databricks har haft meget interessante forhold til cloud-leverandører, både som ven og fjende. Berømt voksede Snowflake på bagsiden af ​​AWS (på trods af AWS's konkurrencedygtige produkt, Redshift) i årevis, før den udvidede til andre cloud-platforme. Databricks byggede et stærkt partnerskab med Microsoft Azure og fremhæver nu sine multi-cloud-kapaciteter for at hjælpe kunder med at undgå fastlåsning af cloud-leverandører. I mange år, og stadig den dag i dag til en vis grad, har kritikere understreget, at både Snowflakes og Databricks' forretningsmodeller effektivt videresælger underliggende databehandling fra cloud-leverandørerne, som sætter deres bruttomargener på pris, uanset hvilke prisbeslutninger hyperscalerne ville træffe.

At se dansen mellem cloud-udbyderne og datagiganterne vil være en afgørende historie for de næste fem år.

Bundling, adskillelse, konsolidering?

I betragtning af fremkomsten af Snowflake og Databricks, spørger nogle industriobservatører, om dette er begyndelsen på en længe ventet bølge af konsolidering i branchen: funktionel konsolidering efterhånden som store virksomheder samler en stigende mængde af kapaciteter i deres platforme og gradvist gør mindre startups irrelevante, og/eller Corporate konsolidering, da store virksomheder køber mindre eller driver dem ud af drift.

Der sker bestemt funktionel konsolidering i data- og AI-området, efterhånden som brancheledere øger deres ambitioner. Dette er helt klart tilfældet for Snowflake og Databricks, og cloud hyperscalers, som netop diskuteret.

Men andre har også store planer. Efterhånden som de vokser, ønsker virksomheder at samle mere og mere funktionalitet – ingen ønsker at være en enkeltproduktvirksomhed.

For eksempel ønsker Confluent, en platform til streaming af data, der netop blev offentliggjort i juni 2021, at gå ud over de databrugssager i realtid, det er kendt for, og "forene behandlingen af ​​data i bevægelse og data i hvile" (se vores Quick S-1 Teardown: Sammenflydende).

Som et andet eksempel dækker Dataiku* indbygget al den funktionalitet, der ellers tilbydes af snesevis af specialiserede data- og AI-infrastrukturstartups, fra dataforberedelse til maskinlæring, DataOps, MLOps, visualisering, AI-forklarlighed osv., alt sammen samlet i én platform med en fokus på demokratisering og samarbejde (se vores Fireside Chat med Florian Douetteau, CEO, Dataiku).

Uden tvivl er fremkomsten af ​​den "moderne datastak" et andet eksempel på funktionel konsolidering. I sin kerne er det en de facto alliance mellem en gruppe af virksomheder (for det meste startups), der som gruppe funktionelt dækker alle de forskellige stadier af datarejsen fra udvinding til datavarehuset til business intelligence - det overordnede mål er at tilbyde markedet et sammenhængende sæt af løsninger, der integrerer med hinanden.

For brugerne af disse teknologier er denne tendens til bundtning og konvergens sund, og mange vil tage imod den med åbne arme. Efterhånden som den modnes, er det på tide, at dataindustrien udvikler sig ud over dens store teknologiske skel: transaktionelle vs. analytiske, batch vs. realtid, BI vs. AI.

Disse noget kunstige skel har dybe rødder, både i dataøkosystemets historie og i teknologiske begrænsninger. Hvert segment havde sine egne udfordringer og udvikling, hvilket resulterede i en anden teknologisk stak og et andet sæt leverandører. Dette har ført til en masse kompleksitet for brugerne af disse teknologier. Ingeniører har været nødt til at sy sammen suiter af værktøjer og løsninger og vedligeholde komplekse systemer, der ofte ender med at ligne Rube Goldberg-maskiner.

Efterhånden som de fortsætter med at skalere, forventer vi, at industriledere accelererer deres bundlingindsats og bliver ved med at skubbe budskaber som "unified data analytics". Dette er gode nyheder for især Global 2000-virksomheder, som har været den primære målkunde for de større, bundtede data- og AI-platforme. Disse virksomheder har både enormt meget at vinde ved at implementere moderne datainfrastruktur og ML/AI, og samtidig meget mere begrænset adgang til topdata og ML-ingeniørtalenter, der er nødvendige for at bygge eller samle datainfrastruktur internt (som sådanne talenter plejer at at foretrække at arbejde enten hos Big Tech-virksomheder eller lovende startups i det hele taget).

Dog lige så meget som Snowflake og Databrikker ønsker at blive den eneste leverandør af alt, hvad der har med data og kunstig intelligens at gøre, tror vi på, at virksomheder vil fortsætte med at arbejde med flere leverandører, platforme og værktøjer, uanset hvilken kombination der passer bedst til deres behov.

Hovedårsagen: Innovationstempoet er bare for eksplosivt i rummet til, at tingene kan forblive statiske for længe. Grundlæggere lancerer nye startups; Big Tech-virksomheder skaber interne data/AI-værktøjer og åbner dem derefter; og for hver etableret teknologi eller ethvert produkt ser det ud til at dukke en ny op ugentligt. Selv datavarehuspladsen, muligvis det mest etablerede segment af dataøkosystemet i øjeblikket, har nye aktører som f.eks. Brandbolt, der lover meget overlegen ydeevne.

Mens de store bundtede platforme har Global 2000-virksomheder som kernekundebase, er der et helt økosystem af teknologivirksomheder, både startups og Big Tech, der er ivrige forbrugere af alle de nye værktøjer og teknologier, hvilket giver startups bag dem et fantastisk startmarked . Disse virksomheder har adgang til de rigtige data og ML-ingeniørtalent, og de er villige og i stand til at sy de bedste nye værktøjer til at levere de mest skræddersyede løsninger.

I mellemtiden, ligesom leverandørerne af big data warehouse og data lake presser deres kunder i retning af at centralisere alle ting oven på deres platforme, opstår der nye rammer såsom data mesh, som taler for en decentral tilgang, hvor forskellige teams er ansvarlige for deres egne. data produkt. Selvom der er mange nuancer, er en implikation at udvikle sig væk fra en verden, hvor virksomheder blot flytter alle deres data til ét stort centralt lager. Skulle det tage fat, kan datanettet have en betydelig indflydelse på arkitekturer og det overordnede leverandørlandskab (mere om datanettet senere i dette indlæg).

Ud over funktionel konsolidering er det også uklart hvor meget Corporate konsolidering (M&A) vil ske i den nærmeste fremtid.

Vi vil sandsynligvis se et par meget store opkøb på flere milliarder dollar, da store spillere er ivrige efter at lave store satsninger på dette hurtigt voksende marked for at fortsætte med at bygge deres bundtede platforme. De høje værdiansættelser af tech-virksomheder på det nuværende marked vil dog formentlig fortsat afskrække mange potentielle købere. For eksempel har alles foretrukne industrirygte været, at Microsoft ville ønske at købe Databricks. Men fordi virksomheden kunne opnå en værdiansættelse på 100 milliarder dollars eller mere på offentlige markeder, kan selv Microsoft ikke have råd til det.

Der er også en glubende appetit på at købe mindre startups overalt på markedet, især da startups i senere stadier bliver ved med at hæve og har masser af kontanter ved hånden. Der er dog også en glubende interesse fra venturekapitalister for at fortsætte med at finansiere disse mindre startups. Det er sjældent, at lovende data- og AI-startups i disse dage ikke er i stand til at rejse den næste finansieringsrunde. Som et resultat bliver forholdsvis få M&A-aftaler gennemført i disse dage, da mange stiftere og deres VC'er ønsker at blive ved med at vende det næste kort, i modsætning til at slå sig sammen med andre virksomheder, og har de økonomiske ressourcer til at gøre det.

Lad os dykke længere ned i finansierings- og exit-tendenser.

Finansiering, børsintroduktioner, M&A: Et vanvittigt marked

Som alle, der følger startup-markedet, ved, har det været vanvittigt derude.

Venturekapital er blevet indsat i et hidtil uset tempo og steg med 157 % år-til-år globalt til 156 milliarder USD i 2. kvartal 2021 ifølge CB Insights. Stadig højere værdiansættelser førte til skabelsen af ​​136 nyslåede enhjørninger i første halvdel af 2021, og børsnoteringsvinduet har været åbent, med offentlige finansieringer (IPO'er, DL'er, SPAC'er) steg med +687 % (496 vs. 63) i perioden 1. januar til 1. juni 2021 i forhold til samme periode i 2020.

I denne generelle kontekst af markedsmomentum har data og ML/AI været hotte investeringskategorier igen det seneste år.

Offentlige markeder

For ikke så længe siden var der næppe nogen "pure play"-data / AI-virksomheder noteret på offentlige markeder.

Listen vokser dog hurtigt efter et stærkt år for børsnoteringer i data/AI-verdenen. Vi startede et offentligt markedsindeks for at hjælpe med at spore resultaterne af denne voksende kategori af offentlige virksomheder - se vores MAD Public Company Index (opdatering kommer snart).

På børsnoteringsfronten var særligt bemærkelsesværdige UiPath, et RPA- og AI-automatiseringsfirma, og Confluent, et datainfrastrukturfirma med fokus på realtidsstreamingdata (se vores Confluent S-1 deardown til vores analyse). Andre bemærkelsesværdige børsnoteringer var C3.ai, en kunstig intelligens-platform (se vores C3 S-1 nedrivning), og Couchbase, en database uden SQL.

Flere vertikale AI-virksomheder havde også bemærkelsesværdige børsnoteringer: SentinelOne, en autonom AI-endepunktssikkerhedsplatform; TuSimple, en selvkørende lastbiludvikler; Zymergen, en biofremstillingsvirksomhed; Recursion, et AI-drevet lægemiddelopdagelsesfirma; og Darktrace, "en verdensførende AI til cybersikkerhed"-virksomhed.

I mellemtiden har eksisterende offentlige data/AI-virksomheder fortsat med at præstere stærkt.

Mens de begge er ude af deres all-time highs, er Snowflake et formidabelt selskab med markedsværdi på 95 milliarder dollar, og trods al kontroversen er Palantir et selskab med markedsværdi på 55 milliarder dollar, i skrivende stund.

Både Datadog og MongoDB er på deres rekordhøje. Datadog er nu en markedsværdivirksomhed på 45 milliarder dollar (en vigtig lektion for investorer). MongoDB er en virksomhed på 33 milliarder dollar, drevet frem af den hurtige vækst af deres cloud-produkt, Atlas.

Samlet set har data- og ML/AI-virksomheder som gruppe klart overgået det bredere marked. Og de fortsætter med at opnå høje præmier - ud af de 10 bedste virksomheder med den højeste markedsværdi til flere indtægter, er 4 af dem (inklusive top 2) data/AI-virksomheder.

Diagram over top ti EV- og NTM-omsætningsmultipler. Kilden er Jamin Ball, Clouded Judgement, 24. september 2021

Ovenfor: Kilde: Jamin Ball, Clouded Judgement, 24. september 2021

Et andet karakteristisk kendetegn ved offentlige markeder i det sidste år har været stigning i SPAC'er som et alternativ til den traditionelle børsnoteringsproces. SPAC'er har vist sig at være et meget gavnligt middel til den mere "frontier tech" del af AI-markedet (autonome køretøjer, biotek osv.). Nogle eksempler på virksomheder, der enten har annonceret eller afsluttet SPAC (og de-SPAC) transaktioner omfatter Ginkgo Bioworks, et firma, der udvikler nye organismer til at producere nyttige materialer og stoffer, nu en offentlig virksomhed på $24B i skrivende stund; autonome køretøjer selskaber Aurora og Embark; og Babylon Health.

Private markeder

Venturekapitalmarkedets skummelighed er et emne for et andet blogindlæg (bare en konsekvens af makroøkonomi og lave renter, eller en afspejling af det faktum, at vi virkelig er gået ind i udrulningsfasen af ​​internettet?). Men det er nok at sige, at i forbindelse med et generelt blomstrende VC-marked har investorer vist en enorm entusiasme for data/AI-startups.

Ifølge CB Insights havde investorer i første halvdel af 2021 hældt 38 milliarder dollars ind i AI-startups, hvilket oversteg hele 2020-beløbet på 36 milliarder dollars med et halvt år tilbage. Dette blev drevet af 50+ mega-størrelse $100 millioner-plus runder, også en ny high. Toogfyrre AI-virksomheder nåede enhjørningsvurderinger i første halvdel af året, sammenlignet med kun 11 for hele 2020.

Et uundgåeligt træk ved VC-markedet for 2020-2021 har været fremkomsten af ​​crossover-fonde, såsom Tiger Global, Coatue, Altimeter, Dragoneer eller D1, og andre mega-fonde såsom Softbank eller Insight. Mens disse fonde har været aktive på tværs af internettet og softwarelandskabet, har data og ML/AI klart været et centralt investeringstema.

Som et eksempel ser det ud til, at Tiger Global elsker data/AI-virksomheder. Bare i de sidste 12 måneder har New York hedgefond skrevet store checks ind mange af de virksomheder, der optræder i vores landskab, herunder for eksempel Deep Vision, Databricks, Dataiku*, DataRobot, Imply, Prefect, Gong, PathAI, Ada*, Vast Data, Scale AI, Redis Labs, 6sense, TigerGraph, UiPath, Cockroach Labs*, Hyperscience* og en række andre.

Dette enestående finansieringsmiljø har for det meste været gode nyheder for grundlæggere. Mange data/AI-virksomheder var genstand for forebyggende runder og budkrige, hvilket gav fuld magt til grundlæggere til at kontrollere deres fundraising-processer. Da VC-virksomheder konkurrerede om at investere, eskalerede runde størrelser og værdiansættelser dramatisk. Serie A runde størrelser plejede at være i intervallet $8-$12 millioner for blot et par år siden. De er nu rutinemæssigt i intervallet $15-$20 millioner. Serie A-vurderinger, der plejede at ligge i intervallet $25-$45 millioner (før-penge) når nu ofte $80-$120 millioner - værdiansættelser, der ville have været betragtet som en stor serie B-vurdering for blot et par år siden.

På bagsiden har oversvømmelsen af ​​kapital ført til et stadigt strammere arbejdsmarked med hård konkurrence om data, maskinlæring og AI-talenter blandt mange velfinansierede startups og tilsvarende kompensationsinflation.

En anden ulempe: Da VC'er aggressivt investerede i nye sektorer op og ned i datastakken, og ofte satsede på fremtidig vækst i forhold til eksisterende kommerciel trækkraft, gik nogle kategorier fra begyndende til overfyldte meget hurtigt - omvendt ETL, datakvalitet, datakataloger, dataannotering og MLOps.

Uanset hvad, siden vores sidste landskab blev et hidtil uset antal data/AI-virksomheder til enhjørninger, og dem, der allerede var enhjørninger, blev endnu mere værdsat, med et par decacorns (Databricks, Celonis).

Nogle bemærkelsesværdige finansieringer af enhjørning (i groft omvendt kronologisk rækkefølge): Fivetran, et ETL-selskab, rejste $565 millioner til en værdiansættelse på $5.6 milliarder; Matillion, en dataintegrationsvirksomhed, rejste $150 millioner til en værdiansættelse på $1.5 milliarder; Neo4j, en grafdatabaseudbyder, rejste $325 millioner til en værdi på mere end $2 milliarder; Databricks, en udbyder af datasøhuse, rejste 1.6 milliarder dollars til en værdiansættelse på 38 milliarder dollars; Dataiku*, en kollaborativ virksomheds-AI-platform, rejste $400 millioner til en værdiansættelse på $4.6 milliarder; DBT Labs (fka Fishtown Analytics), en udbyder af open source-analyseværktøj, rejste en $150 millioner serie C; DataRobot, en virksomheds-AI-platform, rejste $300 millioner til en værdiansættelse på $6 milliarder; Celonis, et procesmineselskab, rejste en serie D på 1 milliard dollar til en værdiansættelse på 11 milliarder dollar; Anduril, et AI-tungt forsvarsteknologifirma, rejste en runde på $450 millioner til en værdiansættelse på $4.6 milliarder; Gong, en AI-platform til analyse og coaching af salgsteam, rejste $250 millioner til en værdiansættelse på $7.25 milliarder; Alation, et dataopdagelses- og styringsselskab, rejste en serie D på 110 millioner dollars til en værdi på 1.2 milliarder dollars; Ada*, en AI-chatbot-virksomhed, rejste en $130 millioner serie C til en værdi af $1.2 milliarder; Signifyd, et AI-baseret softwarefirma til beskyttelse mod bedrageri, rejste $205 millioner til en værdi på $1.34 milliarder; Redis Labs, en realtidsdataplatform, rejste en serie G på $310 millioner til en værdiansættelse på $2 milliarder; Sift, et AI-first svindelforebyggelsesfirma, rejste $50 millioner til en værdiansættelse på over $1 milliard; Tractable, et AI-first forsikringsselskab, rejste $60 millioner til en værdiansættelse af $1 milliard; SambaNova Systems, en specialiseret AI-halvleder- og computerplatform, rejste $676 millioner til en værdiansættelse på $5 milliarder; Scale AI, en dataannoteringsvirksomhed, rejste $325 millioner til en værdiansættelse af $7 milliarder; Vectra, et cybersikkerheds-AI-selskab, rejste $130 millioner til en værdiansættelse på $1.2 milliarder; Shift Technology, en AI-første softwarevirksomhed bygget til forsikringsselskaber, rejste $220 millioner; Dataminr, en real-time AI risikodetektionsplatform, rejste $475 millioner; Feedzai, et svindelopdagelsesfirma, rejste en runde på $200 millioner til en værdiansættelse på over $1 milliard; Cockroach Labs*, en cloud-native SQL-databaseudbyder, rejste $160 millioner til en værdiansættelse af $2 milliarder; Starburst Data, en SQL-baseret dataforespørgselsmotor, rejste en runde på $100 millioner til en værdiansættelse på $1.2 milliarder; K Health, en AI-første mobil virtuelle sundhedsudbyder, rejste $132 millioner til en værdi af $1.5 milliarder; Graphcore, en AI-chipproducent, rejste $222 millioner; og Forter, et softwarefirma til bedrageriopdagelse, rejste en runde på $125 millioner til en værdiansættelse på $1.3 milliarder.

Opkøb

Som nævnt ovenfor har opkøb i MAD-området været robuste, men er ikke steget så meget, som man ville have gættet, givet det varme marked. Den hidtil usete mængde kontanter, der flyder i økosystemet, skærer begge veje: Flere virksomheder har stærke balancer til potentielt at erhverve andre, men mange potentielle mål har også adgang til kontanter, hvad enten det er på private/VC-markeder eller på offentlige markeder, og er mindre tilbøjelige til at ønsker at blive erhvervet.

Selvfølgelig har der været flere meget store opkøb: Nuance, en offentlig tale- og tekstgenkendelsesvirksomhed (med særligt fokus på sundhedsvæsenet), er i gang med at bliver opkøbt af Microsoft for næsten 20 milliarder dollars (gør det til Microsofts næststørste opkøb nogensinde, efter LinkedIn); Blue Yonder, en AI-first supply chain software virksomhed til detail-, produktions- og logistikkunder, blev opkøbt af Panasonic for op til $8.5 milliarder; Segment, en kundedataplatform, blev opkøbt af Twilio for 3.2 milliarder dollars; Kustomer, et CRM, der gør det muligt for virksomheder effektivt at administrere alle kundeinteraktioner på tværs af kanaler, blev opkøbt af Facebook for 1 mia. USD; og Turbonomic, en "AI-drevet Application Resource Management"-virksomhed, blev opkøbt af IBM for mellem 1.5 og 2 milliarder USD.

Der var også et par private equity-selskabers opkøb af offentlige virksomheder: Cloudera, en tidligere højtflyvende dataplatform, blev opkøbt af Clayton Dubilier & Rice og KKR, måske den officielle afslutning på Hadoop-æraen; og Talend, en dataintegrationsudbyder, blev taget privat af Thoma Bravo.

Nogle andre bemærkelsesværdige opkøb af virksomheder, der dukkede op på tidligere versioner af dette MAD-landskab: ZoomInfo købte Chorus.ai og Everstring; DataRobot erhvervede Algorithmia; Cloudera købte Cazena; Relativitet erhvervet Tekst IQ*; Datadog erhvervede Sqreen og Timber*; SmartEye erhvervede Affectiva; Facebook købte Kustomer; ServiceNow erhvervede Element AI; Vista Equity Partners købte Gainsight; AVEVA købte OSIsoft; og American Express købte Kabbage.

Hvad er nyt for 2021 MAD-landskabet

I betragtning af det eksplosive tempo i innovation, virksomhedsoprettelse og finansiering i 2020-21, især inden for datainfrastruktur og MLO'er, har vi været nødt til at ændre tingene en del i dette års landskab.

En væsentlig strukturel ændring: Da vi ikke længere kunne passe det hele i én kategori, opdelte vi "Analytics and Machine Intelligence" i to separate kategorier, "Analytics" og "Machine Learning & Artificial Intelligence."

Vi har tilføjet flere nye kategorier:

  • I "Infrastruktur" tilføjede vi:
    • "Omvendt ETL” — produkter, der kan lede data fra datavarehuset tilbage til SaaS-applikationer
    • "Data observerbarhed” — en hastigt voksende komponent af DataOps fokuseret på at forstå og fejlfinde roden til datakvalitetsproblemer med dataafstamning som et kernefundament
    • "Privatliv og sikkerhed” — databeskyttelse er i stigende grad top of mind, og en række startups er dukket op i kategorien
  • I "Analytics" tilføjede vi:
    • "Datakataloger og opdagelse” — en af ​​de travleste kategorier i de sidste 12 måneder; det er produkter, der gør det muligt for brugere (både tekniske og ikke-tekniske) at finde og administrere de datasæt, de har brug for
    • "Augmented Analytics” — BI-værktøjer udnytter NLG/NLP-fremskridt til automatisk at generere indsigt, især demokratiserende data til mindre tekniske målgrupper
    • "Metriske butikker” — en ny aktør i datastakken, som giver et centralt standardiseret sted til at betjene vigtige forretningsmålinger
    • "Forespørgselsmotorer"
  • I "Machine Learning and AI" opdelte vi flere MLOps-kategorier i mere granulære underkategorier:
    • "Modelbygning"
    • "Feature Stores"
    • "Implementering og produktion"
  • I "Open Source" tilføjede vi:
    • "dannet"
    • "Orchestration"
    • "Datakvalitet og observerbarhed"

En anden væsentlig udvikling: Tidligere havde vi en tendens til i overvældende grad at optræde i landskabet af de mere etablerede virksomheder - startups i vækststadiet (serie C eller senere) såvel som offentlige virksomheder. Men i betragtning af fremkomsten af ​​den nye generation af data/AI-virksomheder nævnt tidligere, har vi i år vist meget flere tidlige startups (serie A, nogle gange frø) end nogensinde før.

Uden videre, her er landskabet:

Nøgletrends i datainfrastruktur 2021-diagram, der viser nøglevirksomheder og tendenser i datainfrastrukturområdet, fuld information tilgængelig på mattturk.com

Ovenfor: Diagram fra mattturck.com, der viser 2021's vigtigste tendenser inden for datainfrastruktur.

  • SE KORTET I FULD STØRRELSE og HØJ OPLØSNING: KLIK HER
  • FULD LISTE I REGNEARKSFORMAT: På trods af hvor travlt landskabet er, kan vi umuligt passe ind i alle interessante virksomheder på selve diagrammet. Som et resultat har vi et helt regneark, der ikke kun viser alle virksomheder i landskabet, men også hundredvis flere — KLIK HER

Vigtigste tendenser i datainfrastruktur

In sidste års landskab, havde vi identificeret nogle af de vigtigste datainfrastrukturtendenser i 2020:

Som en påmindelse, her er nogle af de trends, vi skrev om SIDSTE ÅR (2020):

  • Den moderne datastak bliver mainstream
  • ETL vs. ELT
  • Automatisering af datateknik?
  • Dataanalytikerens stigning
  • Sammensmelter datasøer og datavarehuse?
  • Kompleksiteten forbliver

Naturligvis er 2020-opskriften mindre end et år gammel, og det er flerårige tendenser, der stadig er meget under udvikling og vil fortsætte med at gøre det.

Her er vores opsummering af nogle af de vigtigste trends for DETTE ÅR (2021):

  • Datanettet
  • Et travlt år for DataOps
  • Det er tid til realtid
  • Metric butikker
  • Omvendt ETL
  • deling af data

Datanettet

Alles nye yndlingsemne i 2021 er "datanettet", og det har været sjovt at se det debatteret på Twitter blandt den (ganske vist ret lille) gruppe mennesker, der er besat af disse emner.

Konceptet blev først introduceret af Zhamak Dehghani i 2019 (se hendes originale artikel, "Sådan bevæger du dig ud over en monolitisk datasø til et distribueret datanet“), og det har taget meget momentum gennem 2020 og 2021.

Datamesh-konceptet er i høj grad en organisatorisk idé. En standardtilgang til opbygning af datainfrastruktur og teams har hidtil været centralisering: én stor platform, styret af ét datateam, der tjener forretningsbrugeres behov. Dette har fordele, men kan også skabe en række problemer (flaskehalse osv.). Det generelle koncept for datanettet er decentralisering - opret uafhængige datateams, der er ansvarlige for deres eget domæne og leverer data "som et produkt" til andre i organisationen. Konceptuelt er dette ikke helt forskelligt fra begrebet mikrotjenester, der er blevet velkendt i software engineering, men anvendt på datadomænet.

Datanettet har en række vigtige praktiske implikationer, som diskuteres aktivt i datakredse.

Skulle det tage fat, ville det være en stor medvind for startups, der leverer den slags værktøjer, der er missionskritiske i en decentral datastak.

Starburst, en SQL-forespørgselsmotor til at få adgang til og analysere data på tværs af depoter, har omdøbt sig selv til "analysemotoren for datanettet." Det er jævnt sponsorere Dehghanis nye bog om emnet.

Teknologier som orkestreringsmotorer (Airflow, Prefect, Dagster), der hjælper med at styre komplekse pipelines, ville blive endnu mere missionskritiske. Se min Fireside chat med Nick Schrock (grundlægger og administrerende direktør, Elementl), virksomheden bag orkestreringsmotoren Dagster.

Sporing af data på tværs af repositories og pipelines ville blive endnu mere afgørende for fejlfindingsformål såvel som overholdelse og styring, hvilket forstærker behovet for dataafstamning. Industrien gør sig klar til denne verden, med f.eks OpenLineage, et nyt tværindustrielt initiativ til standardindsamling af datalinje. Se min Fireside Chat med Julien Le Dem, CTO for Datakin*, virksomheden, der hjalp med at starte OpenLineage-initiativet.

*** For alle interesserede vil vi være vært for Zhamak Dehghani på Data Driven NYC den 14. oktober 2021. Det vil være en Zoom-session, åben for alle! Gå ind din e-mailadresse her for at få besked om begivenheden. ***

Et travlt år for DataOps

Mens konceptet DataOps har svævet rundt i årevis (og vi nævnte det i tidligere versioner af dette landskab), er aktiviteten virkelig taget til for nylig.

Som det plejer at være tilfældet for nyere kategorier, er definitionen af ​​DataOps noget tåget. Nogle betragter det som anvendelsen af ​​DevOps (fra verdens ingeniørsoftware) til dataverdenen; andre ser det mere bredt som alt, hvad der involverer opbygning og vedligeholdelse af datapipelines og sikring af, at alle dataproducenter og forbrugere kan gøre, hvad de skal, uanset om de skal finde det rigtige datasæt (gennem et datakatalog) eller implementere en model i produktionen. Uanset hvad, er det ligesom DevOps en kombination af metodologi, processer, mennesker, platforme og værktøjer.

Den brede kontekst er, at dataingeniørværktøjer og -praksis stadig er meget bagud i niveauet for sofistikering og automatisering af deres softwareingeniørfætre.

Fremkomsten af ​​DataOps er et af eksemplerne på, hvad vi nævnte tidligere i indlægget: Da kernebehov omkring lagring og behandling af data nu er tilstrækkeligt imødekommet, og data/AI bliver stadig mere missionskritisk i virksomheden, er industrien naturligvis udvikler sig mod de næste niveauer i hierarkiet af databehov og opbygning af bedre værktøjer og praksis for at sikre, at datainfrastruktur kan fungere og vedligeholdes pålideligt og i skala.

Et helt økosystem af DataOps-startups i tidlige stadier, der dukkede op for nylig, og som dækker forskellige dele af kategorien, men med mere eller mindre samme ambition om at blive "dataverdenens Datadog" (mens Datadog nogle gange bruges til DataOps-formål og evt. komme ind i rummet på et eller andet tidspunkt, det har historisk set været fokuseret på softwareudvikling og drift).

Startups er jockeying for at definere deres underkategori, så mange termer flyder rundt, men her er nogle af nøglebegreberne.

Dataobservabilitet er det generelle koncept for at bruge automatiseret overvågning, alarmering og triaging for at eliminere "datanedetid", et begreb opfundet af Monte Carlo Data, en leverandør i rummet (sammen med andre som BigEye og Databand).

Observerbarhed har to kernesøjler. Den ene er datalinje, som er evnen til at følge dataens vej gennem pipelines og forstå, hvor der opstår problemer, og hvor data kommer fra (til compliance-formål). Data lineage har sit eget sæt af specialiserede startups som Datakin* og Manta.

Den anden søjle er datakvalitet, som har set et rush af nye deltagere. At opdage kvalitetsproblemer i data er både essentielt og meget vanskeligere end i softwareteknologiens verden, da hvert datasæt er lidt anderledes. Forskellige startups har forskellige tilgange. Den ene er deklarativ, hvilket betyder, at folk eksplicit kan sætte regler for, hvad der er et kvalitetsdatasæt, og hvad der ikke er. Dette er tilgangen fra Superconductive, virksomheden bag det populære open source-projekt Great Expectations (se vores Fireside Chat med Abe Gong, CEO, Superconductive). En anden tilgang er mere afhængig af maskinlæring for at automatisere registreringen af ​​kvalitetsproblemer (mens der stadig bruges nogle regler) - Anomalo er en startup med en sådan tilgang.

Et relateret nyt koncept er datapålidelighedsteknik (DRE), som gentager søsterdisciplinen site reliability engineering (SRE) i softwareinfrastrukturens verden. DRE er ingeniører, der løser drifts-/skala-/pålidelighedsproblemer for datainfrastruktur. Forvent mere værktøj (alarmering, kommunikation, videndeling osv.) til at dukke op på markedet for at opfylde deres behov.

Endelig er dataadgang og -styring en anden del af DataOps (bredt defineret), som har oplevet et udbrud af aktivitet. Vækststadiestartups som Collibra og Alation har leveret katalogfunktioner i et par år nu - dybest set en opgørelse over tilgængelige data, der hjælper dataanalytikere med at finde de data, de har brug for. Der er dog kommet en række nye aktører på markedet, heriblandt Atlan og Stemma, den kommercielle virksomhed bag open source-datakataloget Amundsen (som startede hos Lyft).

Det er tid til realtid

"Realtids"- eller "streaming"-data er data, der behandles og forbruges umiddelbart efter, at de er genereret. Dette er i modsætning til "batch", som har været det dominerende paradigme inden for datainfrastruktur til dato.

En analogi, vi fandt på for at forklare forskellen: Batch er som at blokere en time for at gå gennem din indbakke og svare på din e-mail; streaming er som at sende sms'er frem og tilbage med nogen.

Databehandling i realtid har været et varmt emne siden de tidlige dage af Big Data-æraen, for 10-15 år siden - især var behandlingshastighed en nøglefordel, der foranledigede succesen med Spark (en mikro-batching-ramme) i forhold til Hadoop MapReduce .

Men i årevis var realtidsdatastreaming altid det markedssegment, der var "ved at eksplodere" på en meget stor måde, men som aldrig helt gjorde det. Nogle brancheobservatører hævdede, at antallet af applikationer til realtidsdata, måske kontra-intuitivt, ret begrænset, drejer sig om et begrænset antal brugssager som online svindeldetektion, online annoncering, Netflix-stil indholdsanbefalinger eller cybersikkerhed.

Den rungende succes med Confluent IPO har bevist, at nej-sagerne tager fejl. Confluent er nu et markedsværdiselskab på 17 milliarder dollars i skrivende stund, næsten fordoblet siden børsnoteringen den 24. juni 2021. Confluent er virksomheden bag Kafka, et open source datastreaming-projekt, der oprindeligt er udviklet på LinkedIn. I årenes løb har virksomheden udviklet sig til en fuldskala datastreamingplatform, der gør det muligt for kunder at få adgang til og administrere data som kontinuerlige realtidsstreams (igen er vores S-1-nedbrydning link.).

Ud over Confluent er hele realtidsdataøkosystemet accelereret.

Især realtidsdataanalyse har oplevet en masse aktivitet. For blot et par dage siden annoncerede ClickHouse, en analysedatabase i realtid, som oprindeligt var et open source-projekt lanceret af den russiske søgemaskine Yandex, at det er blevet et kommercielt, amerikansk-baseret selskab, der er finansieret med 50 millioner dollars i risikovillig kapital. Tidligere på året annoncerede Imply, en anden realtidsanalyseplatform baseret på Druid open source-databaseprojektet, en finansieringsrunde på $70 millioner. Materialize er en anden meget interessant virksomhed i rummet — se vores Fireside Chat med Arjun Narayan, CEO, Materialize.

Opstrøms fra dataanalyse hjælper nye aktører med at forenkle datapipelines i realtid. Meroxa fokuserer på at forbinde relationelle databaser til datavarehuse i realtid — se vores Fireside Chat med DeVaris Brown, CEO, Meroxa. Estuary* fokuserer på at forene realtids- og batchparadigmerne i et forsøg på at abstrahere kompleksitet.

Metric butikker

Data- og databrug er steget i både hyppighed og kompleksitet hos virksomheder i løbet af de sidste par år. Med denne stigning i kompleksitet følger en ledsaget stigning i hovedpine forårsaget af datainkonsistens. For enhver specifik metrik kan enhver lille afledning i metrikken, uanset om den er forårsaget af dimension, definition eller noget andet, forårsage fejljusterede output. Teams, der opfattes som værende baseret på de samme metrics, kan arbejde helt ud fra forskellige udskæringer af data, eller metriske definitioner kan skifte lidt mellem tidspunkter, hvor der udføres analyser, hvilket fører til forskellige resultater, hvilket sår mistillid, når der opstår uoverensstemmelser. Data er kun nyttige, hvis teams kan stole på, at dataene er nøjagtige, hver gang de bruger dem.

Dette har ført til fremkomsten af ​​den metriske butik, som Benn Stancil, Chief Analytics Officer hos Mode, kaldte manglende del af den moderne datastak. Hjemmedyrkede løsninger, der søger at centralisere, hvor målinger er defineret, blev annonceret hos teknologivirksomheder, herunder hos AirBnB, hvor Minerva har en vision om "definer én gang, brug hvor som helst," og kl Pinterest. Disse interne metrics-lagre tjener til at standardisere definitionerne af nøgleforretningsmetrics og alle dens dimensioner og giver interessenter nøjagtige, analyseklare datasæt baseret på disse definitioner. Ved at centralisere definitionen af ​​metrics hjælper disse butikker teams med at opbygge tillid til de data, de bruger, og demokratisere tværfunktionel adgang til metrics, hvilket driver datatilpasning på tværs af virksomheden.

Metric-lageret sidder på toppen af ​​datavarehuset og informerer de data, der sendes til alle downstream-applikationer, hvor data forbruges, herunder business intelligence-platforme, analyse- og datavidenskabsværktøjer og operationelle applikationer. Teams definerer nøgleforretningsmålinger i metriklageret og sikrer, at enhver, der bruger en specifik metrik, udleder den ved hjælp af konsistente definitioner. Metric-butikker som Minerva sikrer også, at data er konsistente historisk, og udfyldes automatisk, hvis forretningslogikken ændres. Endelig serverer metriklageret metrikken til dataforbrugeren i de standardiserede, validerede formater. Metric-lageret gør det muligt for dataforbrugere på forskellige teams ikke længere at skulle bygge og vedligeholde deres egne versioner af den samme metric, og de kan stole på én enkelt centraliseret kilde til sandhed.

Nogle interessante startups, der bygger metriske butikker, omfatter Transform, Trace*, og Supergrain.

Omvendt ETL

Det har bestemt været et travlt år i ETL/ELT-verdenen – produkterne, der har til formål at udtrække data fra en række forskellige kilder (hvad enten det er databaser eller SaaS-produkter) og indlæse dem i cloud-datavarehuse. Fivetran blev som nævnt en virksomhed på 5.6 milliarder dollars; i mellemtiden rejste nyere deltagere Airbyte (en open source-version) en serie A på $26 millioner, og Meltano blev spundet ud af GitLab.

En vigtig udvikling i den moderne datastak i løbet af det sidste års tid har dog været fremkomsten af omvendt ETL som en kategori. Med den moderne datastak er datavarehuse blevet den eneste kilde til sandhed for alle forretningsdata, som historisk har været spredt på tværs af forskellige applikationslags forretningssystemer. Omvendt ETL-værktøj sidder på den modsatte side af lageret fra typiske ETL/ELT-værktøjer og gør det muligt for teams at flytte data fra deres datavarehus tilbage til forretningsapplikationer som CRM'er, marketingautomatiseringssystemer eller kundesupportplatforme for at gøre brug af de konsoliderede og afledte data i deres funktionelle forretningsprocesser. Omvendte ETL'er er blevet en integreret del af at lukke sløjfen i den moderne datastak for at bringe forenede data, men kommer med udfordringer på grund af at skubbe data tilbage til live-systemer.

Med omvendte ETL'er kan funktionelle teams som salg drage fordel af opdaterede data beriget fra andre forretningsapplikationer som produktengagement fra værktøjer som Pendo* for at forstå, hvordan en kunde allerede engagerer sig eller fra marketingprogrammering fra Marketo til at væve en mere sammenhængende salgsfortælling. Omvendte ETL'er hjælper med at nedbryde datasiloer og drive tilpasning mellem funktioner ved at bringe centraliserede data fra datavarehuset ind i systemer, som disse funktionelle teams allerede lever i dagligt.

En række virksomheder i det omvendte ETL-rum har modtaget finansiering i det sidste år, herunder Census, Rudderstack, Grouparoo, Hightouch, Headsup og Polytomic.

deling af data

Et andet accelererende tema i år har været fremkomsten af ​​datadeling og datasamarbejde ikke kun inden for virksomheder, men også på tværs af organisationer.

Virksomheder ønsker måske at dele data med deres økosystem af leverandører, partnere og kunder af en lang række årsager, herunder forsyningskædesynlighed, træning af maskinlæringsmodeller eller delte go-to-market-initiativer.

Datadeling på tværs af organisationer har været et nøgletema for "datasky"-leverandører i særdeleshed:

  • I maj 2021, Google lancerede Analytics Hub, en platform til at kombinere datasæt og dele data og indsigt, herunder dashboards og maskinlæringsmodeller, både i og uden for en organisation. Det også lancerede Datashare, et produkt, der er mere specifikt målrettet mod finansielle tjenester og baseret på Analytics Hub.
  • Samme dag (!) i maj 2021, Databricks annoncerede Delta Sharing, en open source-protokol til sikker datadeling på tværs af organisationer.
  • I juni 2021, Snefnug annonceret den generelle tilgængelighed af dens datamarkedsplads, samt yderligere muligheder for sikker datadeling.

Der er også en række interessante startups i rummet:

  • Habr, en udbyder af virksomhedsdataudveksling
  • Crossbeam*, en partner-økosystemplatform

At muliggøre samarbejde på tværs af organisationer er særligt strategisk for datasky-udbydere, fordi det giver mulighed for at bygge en ekstra voldgrav til deres virksomheder. Efterhånden som konkurrencen skærpes, og leverandører forsøger at slå hinanden på funktioner og muligheder, kan en datadelingsplatform være med til at skabe en netværkseffekt. Jo flere virksomheder slutter sig til f.eks. Snowflake Data Cloud og deler deres data med andre, jo mere værdifuldt bliver det for hver ny virksomhed, der tilslutter sig netværket (og jo sværere er det at forlade netværket).

Nøgletrends inden for ML/AI

In sidste års landskab, havde vi identificeret nogle af de vigtigste datainfrastrukturtendenser i 2020.

Som en påmindelse, her er nogle af de trends, vi skrev om SIDSTE ÅR (2020)

  • Boomtid for datavidenskab og maskinlæringsplatforme (DSML)
  • ML bliver implementeret og indlejret
  • Året for NLP

Her er vores opsummering af nogle af de vigtigste trends for DETTE ÅR (2021):

  • Feature butikker
  • Fremkomsten af ​​ModelOps
  • Generering af AI-indhold
  • Den fortsatte fremkomst af en separat kinesisk AI-stak

Forskning i kunstig intelligens bliver ved med at blive bedre i et hurtigt tempo. Nogle bemærkelsesværdige projekter udgivet eller offentliggjort i det sidste år inkluderer DeepMind's Alphafold, som forudsiger, hvilke former proteiner foldes ind i, sammen med flere gennembrud fra OpenAI, herunder GPT-3, DALL-E og CLIP.

Derudover er opstartsfinansiering drastisk accelereret på tværs af maskinlæringsstakken, hvilket har givet anledning til et stort antal punktløsninger. Med det voksende landskab vil kompatibilitetsproblemer mellem løsninger sandsynligvis dukke op, efterhånden som maskinlæringsstakkene bliver mere og mere komplicerede. Virksomheder bliver nødt til at træffe en beslutning mellem at købe en omfattende full-stack-løsning som DataRobot eller Dataiku* versus at forsøge at kæde sammen de bedste pointløsninger. Konsolidering på tværs af tilstødende punktløsninger er også uundgåelig, efterhånden som markedet modnes og hurtigere voksende virksomheder rammer meningsfuld skala.

Feature butikker

Featurebutikker er blevet mere og mere almindelige i den operationelle maskinlæringsstabel, siden ideen var først introduceret af Uber i 2017, hvor flere virksomheder har hævet runder i det forløbne år for at bygge administrerede feature-butikker, herunder Tecton, Feature, Logiske ureog kaskade.

En funktion (nogle gange omtalt som en variabel eller attribut) i maskinlæring er en individuel målbar inputegenskab eller karakteristik, som kunne repræsenteres som en kolonne i et datastykke. Maskinlæringsmodeller kan bruge alt fra en enkelt funktion til op mod millioner.

Historisk set var feature engineering blevet udført på en mere ad hoc måde, med stadig mere komplicerede modeller og pipelines over tid. Ingeniører og dataforskere brugte ofte meget tid på at genudtrække funktioner fra de rå data. Huller mellem produktions- og eksperimenteringsmiljøer kan også forårsage uventede uoverensstemmelser i modellens ydeevne og adfærd. Organisationer er også mere optaget af styring, reproducerbarhed og forklarlighed af deres maskinlæringsmodeller, og siled features gør det svært i praksis.

Featurebutikker fremmer samarbejde og hjælper med at nedbryde siloer. De reducerer overheadkompleksiteten og standardiserer og genbruger funktioner ved at levere en enkelt kilde til sandhed på tværs af både træning (offline) og produktion (online). Det fungerer som et centraliseret sted til at gemme de store mængder af kurerede funktioner i en organisation, kører datapipelines, som transformerer rådataene til funktionsværdier, og giver læseadgang med lav latens direkte via API. Dette muliggør hurtigere udvikling og hjælper teams med både at undgå dobbeltarbejde og opretholde konsistente funktionssæt på tværs af ingeniører og mellem trænings- og betjeningsmodeller. Funktionsbutikker producerer og overflader også metadata såsom dataafstamning for funktioner, sundhedsovervågning, drift for både funktioner og onlinedata og mere.

Fremkomsten af ​​ModelOps

På dette tidspunkt erkender de fleste virksomheder, at det er en udfordring at tage modeller fra eksperimenter til produktion, og modeller, der er i brug, kræver konstant overvågning og genoptræning, efterhånden som data skifter. Ifølge IDC, 28 % af alle ML/AI-projekter er mislykkedes, og Gartner bemærker det 87 % af datavidenskabelige projekter aldrig få det i produktion. Machine Learning Operations (MLOps), som vi skrev om i 2019, opstod i løbet af de næste par år, da virksomheder forsøgte at lukke disse huller ved at anvende DevOps bedste praksis. MLOps søger at strømline den hurtige løbende udvikling og udrulning af modeller i skala, og iflg Gartner, har ramt et højdepunkt i hype-cyklussen.

Det nye hotte koncept inden for AI-operationer er i ModelOps, et supersæt af MLOps, som har til formål at operationalisere alle AI-modeller inklusive ML i et hurtigere tempo på tværs af hver fase af livscyklussen fra træning til produktion. ModelOps dækker både værktøjer og processer, hvilket kræver en tværfunktionel kulturel forpligtelse, der forener processer, standardisering af modelorkestrering ende-til-ende, skabelse af et centraliseret lager for alle modeller sammen med omfattende styringskapaciteter (håndtering af afstamning, overvågning osv.) og implementering bedre styring, overvågning og revisionsspor for alle modeller i brug.

I praksis hjælper velimplementeret ModelOps med at øge forklaringen og compliance, samtidig med at risikoen for alle modeller reduceres ved at levere et samlet system til at implementere, overvåge og styre alle modeller. Teams kan bedre foretage æbler-til-æbler sammenligninger mellem modeller givet standardiserede processer under træning og implementering, frigive modeller med hurtigere cyklusser, blive advaret automatisk, når modelpræstationsbenchmarks falder under acceptable tærskler, og forstå historien og afstamningen af ​​modeller i brug på tværs af organisation.

Generering af AI-indhold

AI er blevet meget modnet i løbet af de sidste par år og bliver nu udnyttet til at skabe indhold på tværs af alle mulige medier, herunder tekst, billeder, kode og videoer. Sidste juni udgav OpenAI sit første kommercielle beta-produkt - en udviklerfokuseret API, der indeholdt GPT-3, en kraftfuld sprogmodel til generelle formål med 175 milliarder parametre. Fra tidligere i år havde titusindvis af udviklere bygget mere end 300 applikationer på platformen, hvilket i gennemsnit genererede 4.5 milliarder ord om dagen.

OpenAI har allerede underskrevet en række tidlige kommercielle aftaler, især med Microsoft, som har udnyttet GPT-3 i Power Apps til at returnere formler baseret på semantiske søgninger, hvilket gør det muligt for "borgerudviklere" at generere kode med begrænset kodningsevne. Derudover udnyttede GitHub OpenAI Codex, en efterkommer af GPT-3 indeholdende både naturligt sprog og milliarder af linjer kildekode fra offentlige kodelagre, til at lancere den kontroversielle GitHub Copilot, som har til formål at gøre kodning hurtigere ved at foreslå hele funktioner til autofuldførelse af kode i kodeeditoren.

Med OpenAI primært fokuseret på engelsk-centrerede modeller, arbejder et stigende antal virksomheder på ikke-engelske modeller. I Europa er det tyske startup Aleph Alpha indsamlet $ 27 millioner tidligere i år for at bygge en "suveræn EU-baseret computerinfrastruktur", og har bygget en flersproget sprogmodel, der kan returnere sammenhængende tekstresultater på tysk, fransk, spansk og italiensk ud over engelsk. Andre virksomheder, der arbejder på sprogspecifikke modeller, omfatter AI21 Labs, der bygger Jurassic-1 på engelsk og hebraisk, Huaweis PanGu-α og Beijing Academy of Artificial Intelligences Wudao på kinesisk, og Navers HyperCLOVA på koreansk.

På billedsiden introducerede OpenAI sin 12-milliarder parametermodel kaldet DALL-E januar, som blev trænet i at skabe plausible billeder ud fra tekstbeskrivelser. DALL-E tilbyder en vis grad af kontrol over flere objekter, deres attributter, deres rumlige relationer og endda perspektiv og kontekst.

Derudover er syntetiske medier modnet betydeligt siden tungen-i-kinden 2018 Buzzfeed og Jordan Peele deepfake Obama. Forbrugervirksomheder er begyndt at udnytte syntetisk genererede medier til alt fra marketingkampagner til underholdning. Tidligere i år samarbejdede Synthesia* med Lay's og Lionel Messi for at skabe Messi Messages, en platform, der gjorde det muligt for brugere at generere videoklip af Messi tilpasset med navnene på deres venner. Nogle andre bemærkelsesværdige eksempler inden for det sidste år inkluderer brugen af ​​AI til afælde Mark Hamill både i udseende og stemme i The Mandalorian, har Anthony Bourdain fortælle en dialog, han aldrig har sagt i Roadrunner, oprette en State Farm-reklame, der promoverede Den sidste dans, og skabe en syntetisk stemme til Val Kilmer, der mistede stemmen under behandling for kræft i halsen.

Med dette teknologiske fremskridt følger et etisk og moralsk dilemma. Syntetiske medier udgør potentielt en risiko for samfundet, herunder ved at skabe indhold med dårlige intentioner, såsom at bruge hadefulde ytringer eller andet billedskadende sprog, stater, der skaber falske fortællinger med syntetiske skuespillere, eller dybfalsk pornografi af berømtheder og hævn. Nogle virksomheder har taget skridt til at begrænse adgangen til deres teknologi med etiske regler som Synthesia* og Sonantic. Debatten om autoværn, såsom at mærke indholdet som syntetisk og identificere dets skaber og ejer, er lige begyndt, og vil sandsynligvis forblive uløst langt ud i fremtiden.

Den fortsatte fremkomst af en separat kinesisk AI-stak

Kina er fortsat med at udvikle sig som et globalt AI-kraftcenter med et enormt marked, der er verdens største producent af data. Det sidste år så den første reelle spredning af kinesisk AI-forbrugerteknologi med TikToks grænseoverskridende vestlige succes, baseret på en af ​​de uden tvivl bedste AI-anbefalingsalgoritmer, der nogensinde er skabt.

Med den kinesiske regering med mandat i 2017 til AI-overherredømme i 2030 og med økonomisk støtte i form af milliarder af dollars finansiering understøttelse af AI-forskning sammen med etableringen af ​​50 nye AI-institutioner i 2020, har fremskridtene været hurtige. Interessant nok, mens meget af Kinas teknologiske infrastruktur stadig er afhængig af vestligt skabt værktøj (f.eks. Oracle til ERP, Salesforce til CRM), er en separat hjemmelavet stak begyndt at dukke op.

Kinesiske ingeniører, der bruger vestlig infrastruktur, står over for kulturelle og sproglige barrierer, som gør det vanskeligt at bidrage til vestlige open source-projekter. Derudover på den økonomiske side, iflg Bloomberg, kinesisk-baserede investorer i amerikanske AI-virksomheder fra 2000 til 2020 repræsenterer kun 2.4% af de samlede AI-investeringer i USA. Huawei og ZTE's spøg med den amerikanske regering fremskyndede adskillelsen af ​​de to infrastrukturstakke, som allerede stod i modvind med forening.

Med nationalistisk stemning på højkant er lokaliseringen (国产化替代) for at erstatte vestlig teknologi med hjemmelavet infrastruktur taget fart. Xinchuang-industrien (信创) ledes af en bølge af virksomheder, der søger at bygge lokaliseret infrastruktur, fra chip-niveau til applikationslaget. Mens Xinchuang har været forbundet med lavere kvalitet og funktionalitetsteknologi, er der i det seneste år sket klare fremskridt inden for Xinchuang cloud (信创云), med bemærkelsesværdige lanceringer, herunder Huayun (华云), China Electronics Clouds CECstack og Easystack (易捷行云).

I infrastrukturlaget begynder lokale kinesiske infrastrukturaktører at gøre fremskridt til store virksomheder og statsdrevne organisationer. ByteDance lancerede Volcano Engine målrettet mod tredjeparter i Kina, baseret på infrastruktur udviklet til dets forbrugerprodukter, der tilbyder funktioner, herunder indholdsanbefaling og personalisering, vækstfokuseret værktøj som A/B-test og ydeevneovervågning, oversættelse og sikkerhed, foruden traditionel cloud hosting løsninger. Inspur Group betjener 56 % af de indenlandske statsejede virksomheder og 31 % af Kinas top 500 virksomheder, mens Wuhan Dameng er meget udbredt på tværs af flere sektorer. Andre eksempler på hjemmelavet infrastruktur omfatter PolarDB fra Alibaba, GaussDB fra Huawei, TBase fra Tencent, TiDB fra PingCAP, Boray Data og TDengine fra Taos Data.

På forskningssiden introducerede Huawei i april den førnævnte PanGu-α, en 200 milliarder parameter præ-trænet sprogmodel trænet på 1.1 TB af en kinesisk tekst fra en række forskellige domæner. Dette blev hurtigt overskygget, da Beijing Academy of Artificial Intelligence (BAAI) annoncerede udgivelsen af ​​Wu Dao 2.0 i juni. Wu Dao 2.0 er en multimodal AI, der har 1.75 billioner parametre, 10X antallet som GPT-3, hvilket gør det til det største AI-sprogsystem til dato. Dens muligheder omfatter håndtering af NLP og billedgenkendelse, udover at generere skrevne medier på traditionelt kinesisk, forudsige 3D-strukturer af proteiner som AlphaFold og mere. Modeltræning blev også håndteret via kinesisk udviklet infrastruktur: For at træne Wu Dao hurtigt (version 1.0 blev først udgivet i marts) byggede BAAI-forskere FastMoE, et distribueret Mixture-of Experts-træningssystem baseret på PyTorch, der ikke kræver Googles TPU og kan køre på hyldevare.

Se vores ildchat med Chip Huyen til yderligere diskussion om tilstanden for kinesisk kunstig intelligens og infrastruktur.

[Bemærk: En version af denne historie oprindeligt kørte på forfatterens egen hjemmeside.]

Matt Turck er VC hos FirstMark, hvor han fokuserer på SaaS, cloud, data, ML/AI og infrastrukturinvesteringer. Matt organiserer også Data Driven NYC, det største datafællesskab i USA

Denne historie opstod oprindeligt på Mattturck.com. Ophavsret 2021

VentureBeat

VentureBeats mission er at være et digitalt bytorv for tekniske beslutningstagere for at få viden om transformativ teknologi og handle. Vores websted leverer væsentlig information om datateknologier og strategier til at guide dig, mens du leder dine organisationer. Vi inviterer dig til at blive medlem af vores fællesskab for at få adgang til:

  • ajourførte oplysninger om emner, der interesserer dig
  • vores nyhedsbreve
  • gated tankelederindhold og nedsat adgang til vores dyrebare begivenheder, såsom Forvandling 2021: Lær mere
  • netværksfunktioner og mere

Bliv medlem

Kilde: https://venturebeat.com/2021/10/16/the-2021-machine-learning-ai-and-data-landscape/

Tidsstempel:

Mere fra AI – VentureBeat