Sådan bliver du dataingeniør - DATAVERSITY

Sådan bliver du dataingeniør – DATAVERSITY

Kildeknude: 2505989
Data EngineerData Engineer
Shutterstock

Dataingeniørernes arbejde er ekstremt teknisk. De er ansvarlige for at designe og vedligeholde arkitektur af datasystemer, som inkorporerer koncepter lige fra analytiske infrastrukturer til datavarehuse. En dataingeniør skal have en solid forståelse af almindeligt anvendte scriptsprog og forventes at understøtte den konstante udvikling af forbedret datakvalitet og øget kvantitet ved at udnytte og forbedre dataanalysesystemer. Dataingeniører er også ansvarlige for at skabe de trin og processer, der bruges i modellering, minedrift, verifikation og erhvervelse.

efterspørgsel efter dygtige dataingeniører forventes at vokse hurtigt. I den moderne verden kræver virksomheder og organisationer en robust Dataarkitektur til lagring og adgang til data. Dataingeniører er nødvendige, når en organisation udvider til at bruge Data Science. Derfor har der for nylig været en kørsel på dataingeniører.

Dataingeniør vs. Data Scientist

kompetencer og ansvar af dataforskere og dataingeniører overlapper ofte hinanden, selvom de to positioner i stigende grad bliver adskilt i forskellige roller. Data scientists har en tendens til at fokusere på oversættelse af big data ind i business intelligence, mens dataingeniører fokuserer meget mere på at opbygge dataarkitekturen og infrastrukturen til datagenerering. Dataforskere har brug for dataingeniører til at skabe det miljø og den infrastruktur, de arbejder indenfor.

En dataforsker er fokuseret mere på at interagere med infrastrukturen end at bygge og vedligeholde den. Datavidenskabsmænd får ansvaret for at tage rådata og omdanne dem til nyttig, forståelig og brugbar information. Data scientists arbejder med big data, og dataingeniører arbejder med datainfrastrukturer og -fundamenter.

Datafonde

A datagrundlag understøtter alle typer rapportering og analyser. Målet med en dataingeniør er at levere pålidelige, integrerede og opdaterede data for at understøtte rapportering og analyser. Et robust datagrundlag giver organisationer enorme fordele, hvilket gør dem mere effektive i deres adfærd og beslutningstagning. Nyttige fordele omfatter:

  • Forbedring af organisatorisk kommunikation og samarbejde
  • One-stop shopping for data
  • En enkelt version af optegnelserne
  • Understøttelse af en fælles forståelse af information på tværs af virksomheden

Ved ikke at implementere et effektivt datagrundlag øger en moderne organisation sine egne sikkerhedsrisici og understøtter ineffektivitet i organisationen. Et dårligt datagrundlag kan give flere svar på det samme spørgsmål og understøtte mindre end intelligente forretningsbeslutninger.

Dataingeniørfærdigheder

Dataingeniører har brug for en god forståelse af databasestyring, hvilket inkluderer et indgående kendskab til Struktureret forespørgselssprog (SQL). De bygger infrastrukturer, værktøjer, rammer og tjenester. Nogle mener, at datateknologi er blevet mere lig softwareudvikling og app-udvikling end Data Science. Andre nyttige færdigheder omfatter:

  • Erfaring med Apache Hadoop, Hive, MapReduce og Hbase.
  • Maskinelæring (ML) er primært fokus for data scientists, men en vis forståelse af det er også vigtigt for data engineering. ML er tæt forbundet med big data. (ML har strømlinet behandlingen af ​​big data og understøtter mange teknikker til at håndtere big data og give mening ud af det.)
  • Kendskab til kodning er bestemt et plus. Kendskab til C/C++, Java, Python, Perl, Golang eller andre sprog kan være meget nyttigt. En god forståelse af Linux, UNIX og Solaris er også meget nyttig, da disse systemer kommer med betydelig root-adgang til operativsystemets funktionalitet og hardware.
  • ETL (ekstrahere, transformere og indlæse) erfaring er en nødvendighed til denne stilling. ETL er en data warehousing proces, der bruges til at trække data ud af kildesystemer og derefter gemme dem i et data warehouse. Et kendskab til ETL værktøjer, som f.eks Segment or Oracle Warehouse Builder, og datalagringsløsninger, som f.eks panoply or rødforskydning, er ret værdifuldt.

ETL (ekstrahere, transformere og indlæse)

I computerens verden, ETL bruges i databaser og lagerbygning. Udvinding, transformation og lastning blev populært i løbet af 1970'erne. Dataudtræk beskriver data, der udvindes fra homogene eller heterogene datakilder. Datatransformation udtrykker data, der oversættes til den korrekte struktur eller format med henblik på opbevaring (og senere forskning og analyse). Dataindlæsning er processen med at downloade de oversatte data til et datamarked, et datalager eller et datavarehus.

Et veldesignet ETL-system kan udtrække data fra kildesystemer og håndhæve datakonsistens og kvalitetsstandarder. Det kan også levere data i et format, der er klar til præsentation, der giver udviklere mulighed for at bygge en applikation, hvor slutbrugerne bestemmer værdien.

ETL-systemer integrerer traditionelt data fra flere applikationer og fra forskellige leverandører og computerhardware. Separate systemer, som indeholder de originale data, bliver ofte betjent og kontrolleret af forskellige personer. En leder af lønregnskabssystemet kan for eksempel kombinere data fra salg og indkøb.

Datavarehuse

Et datavarehus bruges til opbevaring, rapportering og dataanalyse. Det er væsentligt i udviklingen af ​​moderne business intelligence. Datavarehuse bruges til centraliseret lagring af integrerede data, der kommer fra en eller flere kilder. De gemmer både aktuelle og historiske data, som bruges til at udvikle analytiske rapporter.

Uden datavarehuse (eller deres opdaterede arkitektoniske modstykke datasøer), bliver behandlingen af ​​big data – og enhver aktivitet forbundet med Data Science – latterligt dyr eller uskalerbar. Uden et intelligent designet datavarehus kunne analytikere nemt rapportere forskellige resultater efter at have undersøgt det samme spørgsmål. De kan også utilsigtet forsøge at undersøge produktionsdatabasen (mens de mangler et datavarehus) og forårsage forsinkelser eller udfald.

At blive dataingeniør

Generelt kommer en dataingeniør med en informationsteknologi- eller datalogigrad kombineret med certificeringer og anden træning. Dataingeniørskoler nærmer sig normalt uddannelse med større fleksibilitet på grund af de mere individualiserede krav fra hvert arbejdsmiljø.

Graden og den specialiserede uddannelse er vigtig, men er ikke nok i sig selv. Yderligere certificeringer kan være ekstremt værdifulde. Nyttige datatekniske certificeringer omfatter:

Sekundære certificeringer er også tilgængelige. For eksempel MCSE (Microsoft Certified Solutions Expert) dækker en bred vifte af emner og anvender undercertificeringer til specifikke emner, herunder MCSE: Data Management and Analytics; MCSA: Business Intelligence-rapportering; og MCSA: Microsoft Cloud Platform. Derudover kan dataindustriens begivenheder give en fremragende kilde til træning og uddannelse (og give en fremragende mulighed for at netværke). Onlinekurser kan også tilbyde nyttig træning til specifikke situationer; der er mange tilgængelige.

Tidsstempel:

Mere fra DATAVERSITET