10. aasta 2022 parimat andmeteaduse GitHubi hoidlat

10. aasta 2022 parimat andmeteaduse GitHubi hoidlat

Allikasõlm: 1784286

Sissejuhatus GitHubi

Github on koostööpõhine versioonihaldussüsteem, mida kasutavad miljonid arendajad projektide koostamiseks. GitHubi abil saame hallata ja jälgida meie koodis aja jooksul tehtud muudatuste ajalugu. Kui keegi teeb vea, saavad arendajad tagasi pöörduda projekti vanema versiooni juurde. Seega aitab GitHub arendajatel avaldada avatud lähtekoodiga projekte ja teha koostööd teiste arendajatega ning kaitseb neid ka lähtekoodis tehtavate inimlike vigade eest.

Andmeteaduse GitHubi hoidlad
Miks on andmeteaduses nõutav koostöö?

Andmeteadus on tööstusharu, mis on viimase paarikümne aasta jooksul õhku tõusnud. Selle aja jooksul on kasutusele võetud palju edusamme ja uusi tehnoloogiaid, nagu pandad, scikit-learn, TensorFlow ja paljud teised. Kõiki neid raamistikke ja teeke jagati avalikkusega GitHubi kaudu ning paljud arendajad tegid seejärel koostööd nende avatud lähtekoodiga raamistike täiustamiseks. Seetõttu on oluline olla kursis GitHubis avaldatavate trendihoidlatega.

Selles artiklis vaatleme mõningaid 2022. aasta trendikaid Data Science GitHubi hoidlaid.

10. aasta 2022 parimat andmeteaduse GitHubi hoidlat

1. kiir

RAY
Ray on avatud lähtekoodiga raamistik, mis on loodud AI ja pythoni töökoormuse skaleerimiseks. See koosneb hajutatud käitusajast ja selle käsutuses on suur hulk teeke, mida saab kasutada selliste ülesannete jaoks nagu hajutatud andmete eeltöötlus ja koolitus, skaleeritav hüperparameetrite häälestamine, skaleeritav tugevdusõpe, skaleeritav ja programmeeritav serveerimine ning palju muud. Ray saab hõlpsasti skaleerida teie pythoni koodi sülearvutist klastrisse ilma muud infrastruktuuri vajamata.

  • Siin on link projekti ray hoidlale: Github
  • 2022. aastal teenitud tärnide arv – 5 XNUMX

2. Vooluvalgus

Vooluvalgus | Andmeteaduse GitHubi hoidlad

Pärast masinõppemudeli loomist peate suutma seda teenindada, et saaksite seda hiljem kasutada. Andmeteadlaste jaoks on mudelite teenindamiseks saadaval palju tööriistu, nagu Django ja kolb. Kuid nende raamistike jaoks on eeltingimuseks HTML ja CSS. Nii et mudelite teenindamiseks lõi streamlit avatud lähtekoodiga lahenduse. Streamlit võimaldab meil muuta oma skriptid veebirakendusteks, mida saab kõigiga jagada. Streamlit ei nõua kasutajaliidese teadmisi. Streamliti loomingulise lahendusega saame luua interaktiivseid veebirakendusi vaid mõne koodireaga.

  • Siin on link Streamliti hoidlale: https://github.com/streamlit/streamlit
  • 2022. aastal teenitud tärnide arv – 5.5 XNUMX

3. Lightning AI

Välk AI

Tänu paljudele edusammudele muutuvad AI-süsteemide ja masinõppe töökoormused üha intensiivsemaks. Raskete tehisintellektisüsteemide infrastruktuuri on raske säilitada. Siin tuleb pildile Lightning AI. Lightning AI on platvorm, mida saame kasutada AI-süsteemide loomiseks, mudelite koolitamiseks ja nende pilves juurutamiseks, ilma et peaksime muretsema infrastruktuuri või skaleeritavusega seotud probleemide pärast. Lightning AI abil saame kasutada selle modulaarsust oma mudelite koolitamiseks ja juurutamiseks.

  • Siin on link Lightning AI repole: https://github.com/Lightning-AI/lightning
  • 2022. aastal teenitud tärnide arv – 4.5 XNUMX

4. Excelize

Excelize github

Andmeteadlased kasutavad igapäevaselt palju keeli, näiteks Python ja R. Go on teine ​​​​keel, mida kasutatakse andmeteaduses. See on staatiliselt sisestatud avatud lähtekoodiga keel, mida saab kasutada turvaliste ja skaleeritavate süsteemide loomiseks. Excelize on Go Language teek Microsoft Exceli arvutustabelite lugemiseks ja kirjutamiseks. See on väga ühilduv teek, mis võimaldab teil suhelda igat tüüpi (laiendustega) Exceli arvutustabelitega. See on ka platvormidevahelise ühilduvusega, mis annab kasutajatele hõlpsa juurdepääsu.

  • Siin on link Excelize'i hoidlale: https://github.com/qax-os/excelize
  • 2022. aastal teenitud tärnide arv – 3.6 XNUMX

5. Microsofti närvivõrgu intelligentsus

Microsofti närvivõrgu intelligentsus

AutoML on viimastel aastatel saavutanud palju edu. AutoML pakub tööriistu masinõppemudelite loomiseks ilma palju koodi kirjutamata, et kiirendada masinõppe jaoks kuluvat aega. Microsofti avatud lähtekoodiga närvivõrgu intelligentsus teeb seda oma väga võimsa tööriistakomplektiga. Saame seda kasutada selliste protsesside automatiseerimiseks nagu hüperparameetrite optimeerimine, närviarhitektuuri otsing, mudelite tihendamine ja funktsioonide projekteerimine.

  • Siin on link Microsoft NNI hoidlale: https://github.com/microsoft/nni
  • 2022. aastal teenitud tärnide arv – 1.7 XNUMX

6. Gradio

Gradio| masinõpe

Andmeteadlastena meeskondades töötades tuleb ette olukordi, kus peate jagama oma mudeleid oma meeskonnakaaslastega ja jagama ka demosid sidusrühmadega. Kui selline olukord tekib, on gradio teie teenistuses. Gradiot saab kasutada interaktiivsete rakenduste loomiseks, mis aitavad teil masinõppemudeleid demonstreerida. Vähe sellest, Gradio on teie selja taga, kui teil on vaja oma pythoni koodi juurutada või isegi siluda. Seetõttu on gradio väga kasulik tööriist andmeteadlastele, kes jagavad sageli oma mudeleid veebirakendustena.

  • Siin on link gradio hoidlale: https://github.com/gradio-app/gradio
  • 2022. aastal teenitud tärnide arv – 6.7 XNUMX

7. DVC

DVC | masinõpe
Versioonikontroll on viis tarkvaras tehtavate muudatuste haldamiseks ja jälgimiseks. Kuid kui tegemist on suure andmestiku või masinõppemudeliga tehtud muudatuste jälgimisega, muutub see väljakutseks. DVC ehk Data Version Control on avatud lähtekoodiga tööriist, mida saame kasutada suurte andmekogumite ja masinõppemudelite versioonimiseks. See toetab ka SSH-d, nii et pääsete juurde kõikidele failisüsteemidele (nt AWS S3) ja kohalikule salvestusruumile. DVC toetab teie projektide jaoks nii struktureeritud kui ka struktureerimata andmeid.

  • Siin on link DVC hoidlale: https://github.com/iterative/dvc
  • 2022. aastal teenitud tärnide arv – 1.8 XNUMX

8. Prefekt

Prefekt

Suur osa andmeteadusest on andmete süstemaatiliselt ühest asukohast teise viimine, tagades samal ajal, et protsessi käigus ei lekiks ega rikutaks andmeid. See võib võtta palju aega ja vaeva. Prefect 2.0 on raamistik, mis aitab teil andmevooga seotud probleeme lahendada. Orioni mootoril töötavat Prefecti saab kasutada teie andmevoo tegevuste korraldamiseks ja korraldamiseks. See pakub töövoo funktsioone, nagu ajastamine, vahemällu salvestamine, hajutatud andmetöötlus ja palju muid väga kasulikke funktsioone.

  • Siin on link prefekti hoidlale: https://github.com/PrefectHQ/prefect
  • 2022. aastal teenitud tärnide arv – 3.6 XNUMX

9. Modin

Modin | Andmeteaduse GitHubi hoidlad

Iga organisatsioon, olenemata sellest, kas see on suur või väike, püüab oma ettevõtte kasvatamiseks andmeid kasutada. Selle tulemuseks on andmerevolutsioon, mis tõi kaasa tohutute andmemahtude genereerimise. Nii suure hulga andmete käsitlemine ja sellest ülevaate saamine on keeruline ülesanne, kuna see nõuab paremaid arvutustehnikaid. Sisestage modin, modin on pythoni teek, mis asendab pandasid. See võib täiustada mis tahes pandade töövoogu, et saaksime töötada suurte andmekogumitega. Pandadel võib suurte andmekogumitega tegelemisel mälu tühjaks saada ja see töötab ainult ühe lõimega. Modin seevastu kasutab paralleelarvutuseks kõiki teie süsteemi tuumasid ja suurendab seega teie koodi efektiivsust, võimaldades samal ajal töötada väga suurte andmekogudega.

  • Siin on link Modini hoidlale: https://github.com/modin-project/modin
  • 2022. aastal teenitud tärnide arv – 1.2 XNUMX

10. Vaex

Vaex | Andmeteaduse GitHubi hoidlad

Nagu varem arutasime, on pandad väga hea raamatukogu, millel on hõlpsasti mõistetavad API-d, kuid suurte andmehulkade käsitsemisel on pandad ebaefektiivsed. Iga andmeteaduse spetsialist peaks teadma õigeid tööriistu suurte andmekogumitega töötamiseks. Pandade raamatukogu alternatiiviks on vaex. Vaex on pythoni avatud lähtekoodiga teek, mis kasutab laisa arvutuse võimsust, et visualiseerida, uurida ja arvutada statistikat suurte, miljardeid ridu sisaldavate andmekogumite jaoks. See võib töötada rohkem kui miljardi reaga sekundis. Sellel on ka võimalus luua interaktiivseid visualiseerimisi.

  • Siin on link Vaexi hoidlale: https://github.com/vaexio/vaex
  • 2022. aastal teenitud tärnide arv – 0.6 XNUMX

Järeldus

Selles artiklis peame uurima GitHubi ja saama ülevaate mõnest trendikast raamistikust ja 2022. aasta andmeteaduse GitHubi hoidlast, mis on kasulikud erinevatel kasutusjuhtudel. Andmeteaduse valdkonnas töötamiseks peame olema kursis uusimate tehnoloogiatega, mis on avalikuks kasutamiseks välja antud. Selles artiklis mainitud hoidlad on vaid jäämäe tipp; 2022. aastal on palju võimsamaid andmeteaduse GitHubi hoidlaid. Soovitan teil oma huvidest lähtuvalt ise teisi GitHube uurida.

Ajatempel:

Veel alates Analüütika Vidhya