Hvordan bli en dataingeniør - DATAVERSITY

Hvordan bli en dataingeniør – DATAVERSITY

Kilde node: 2505989
Data EngineerData Engineer
Shutterstock

Arbeidet til dataingeniører er ekstremt teknisk. De er ansvarlige for å designe og vedlikeholde arkitektur av datasystemer, som inneholder konsepter som spenner fra analytiske infrastrukturer til datavarehus. En dataingeniør må ha en solid forståelse av vanlige skriptspråk og forventes å støtte den jevne utviklingen av forbedret datakvalitet, og økt mengde, ved å utnytte og forbedre dataanalysesystemer. Dataingeniører er også ansvarlige for å lage trinnene og prosessene som brukes i modellering, gruvedrift, verifisering og anskaffelse.

De etterspørsel etter dyktige dataingeniører forventes å vokse raskt. I den moderne verden krever bedrifter og organisasjoner en robust Dataarkitektur for lagring og tilgang til data. Dataingeniører er nødvendig når en organisasjon utvider til å bruke Data Science. Følgelig har det nylig vært en kjøring på dataingeniører.

Dataingeniør vs. Dataforsker

De ferdigheter og ansvar av dataforskere og dataingeniører overlapper ofte hverandre, selv om de to stillingene i økende grad blir delt inn i forskjellige roller. Dataforskere har en tendens til å fokusere på oversettelse av store data inn i business intelligence, mens dataingeniører fokuserer mye mer på å bygge dataarkitekturen og infrastrukturen for datagenerering. Dataforskere trenger dataingeniører for å skape miljøet og infrastrukturen de jobber innenfor.

En dataforsker er mer fokusert på å samhandle med infrastrukturen enn å bygge og vedlikeholde den. Dataforskere får ansvaret for å ta rådata og gjøre dem om til nyttig, forståelig og handlingsbar informasjon. Dataforskere jobber med big data, og dataingeniører jobber med datainfrastrukturer og fundamenter.

Datagrunnlag

A datagrunnlag støtter alle typer rapportering og analyser. Målet til en dataingeniør er å gi pålitelige, integrerte og oppdaterte data for å støtte rapportering og analyser. Et robust datagrunnlag gir organisasjoner enorme fordeler, noe som gjør dem mer effektive i sin oppførsel og beslutningstaking. Nyttige fordeler inkluderer:

  • Forbedre organisasjonskommunikasjon og samarbeid
  • One-stop shopping for data
  • En enkelt versjon av journalene som ble oppbevart
  • Støtte til en felles forståelse av informasjon på tvers av virksomheten

Ved å ikke implementere et effektivt datagrunnlag, øker en moderne organisasjon sine egne sikkerhetsrisikoer, og støtter ineffektivitet i organisasjonen. Et dårlig datagrunnlag kan gi flere svar på det samme spørsmålet og støtte mindre enn intelligente forretningsbeslutninger.

Datatekniske ferdigheter

Dataingeniører trenger en god forståelse av databasehåndtering, som inkluderer en inngående kunnskap om Strukturert spørrespråk (SQL). De bygger infrastrukturer, verktøy, rammer og tjenester. Noen mener datateknikk har blitt mer lik programvareteknikk og apputvikling enn Data Science. Andre nyttige ferdigheter inkluderer:

  • Erfaring med Apache Hadoop, Hive, MapReduce og Hbase.
  • Maskinlæring (ML) er først og fremst fokus for dataforskere, men en viss forståelse av det er også viktig for datateknikk. ML er nært knyttet til big data. (ML har strømlinjeformet behandlingen av stordata, og støtter mange teknikker for å håndtere stordata og gi mening ut av det.)
  • Kodekunnskap er definitivt et pluss. Kjennskap til C/C++, Java, Python, Perl, Golang eller andre språk kan være svært nyttig. En god forståelse av Linux, UNIX og Solaris er også veldig nyttig, siden disse systemene kommer med betydelig root-tilgang til operativsystemets funksjonalitet og maskinvare.
  • ETL (ekstrahere, transformere og laste) erfaring er en nødvendighet for denne stillingen. ETL er en datavarehusprosess som brukes til å trekke data ut av kildesystemer og deretter lagre dem i et datavarehus. Kjennskap til ETL-verktøy, som f.eks Segment or Oracle Warehouse Builder, og datalagringsløsninger, som f.eks panoply or rødforskyvning, er ganske verdifull.

ETL (ekstrahere, transformere og laste)

I dataverdenen, ETL brukes i databaser og lagerbygging. Å trekke ut, transformere og laste ble populært i løpet av 1970-tallet. Datautvinning beskriver data som trekkes ut fra homogene eller heterogene datakilder. Datatransformasjon uttrykker data som blir oversatt til riktig struktur, eller format, for lagringsformål (og senere forskning og analyse). Datalasting er prosessen med å laste ned de oversatte dataene til et datamarked, et datalager eller et datavarehus.

Et godt designet ETL-system kan trekke ut data fra kildesystemer og håndheve datakonsistens og kvalitetsstandarder. Den kan også levere data i et presentasjonsklar format som lar utviklere bygge en applikasjon, med sluttbrukere som bestemmer verdien.

ETL-systemer integrerer tradisjonelt data fra flere applikasjoner og fra forskjellige leverandører og maskinvare. Separate systemer, som inneholder de originale dataene, drives og kontrolleres ofte av forskjellige personer. En leder av lønnsregnskapssystemet kan for eksempel kombinere data fra salg og innkjøp.

Datavarehus

Et datavarehus brukes til lagring, rapportering og dataanalyse. Det er viktig i utviklingen av moderne business intelligence. Datavarehus brukes til sentralisert lagring av integrerte data som kommer fra en eller flere kilder. De lagrer både nåværende og historiske data, som brukes til å utvikle analytiske rapporter.

Uten datavarehus (eller deres oppdaterte arkitektoniske motpart-datainnsjøer), blir behandlingen av store data – og hver aktivitet knyttet til Data Science – latterlig dyrt eller uskalerbart. Uten et intelligent designet datavarehus kan analytikere enkelt rapportere forskjellige resultater etter å ha undersøkt det samme spørsmålet. De kan også utilsiktet forsøke å undersøke produksjonsdatabasen (mens de mangler et datavarehus), og forårsake forsinkelser eller driftsstans.

Å bli dataingeniør

Vanligvis kommer en dataingeniør med en informasjonsteknologi- eller informatikkgrad kombinert med sertifiseringer og annen opplæring. Dataingeniørskoler nærmer seg normalt utdanning med større fleksibilitet, på grunn av de mer individualiserte kravene til hvert arbeidsmiljø.

Graden og spesialisert opplæring er viktig, men er ikke nok i seg selv. Ytterligere sertifiseringer kan være ekstremt verdifulle. Nyttige datatekniske sertifiseringer inkluderer:

Sekundære sertifiseringer er også tilgjengelige. For eksempel MCSE (Microsoft Certified Solutions Expert) dekker et bredt spekter av emner, og bruker undersertifiseringer til spesifikke emner, inkludert MCSE: Data Management and Analytics; MCSA: Business Intelligence-rapportering; og MCSA: Microsoft Cloud Platform. I tillegg kan databransjens hendelser gi en utmerket kilde til opplæring og utdanning (og gi en utmerket mulighet til nettverk). Nettkurs kan også tilby nyttig opplæring for spesifikke situasjoner; det er mange tilgjengelige.

Tidstempel:

Mer fra DATAVERSITET