Aankondiging van nieuwe Jupyter-bijdragen door AWS om generatieve AI te democratiseren en ML-workloads te schalen | Amazon-webservices

Aankondiging van nieuwe Jupyter-bijdragen door AWS om generatieve AI te democratiseren en ML-workloads te schalen | Amazon-webservices

Bronknooppunt: 2092834

Project Jupyter is een open-sourceproject met meerdere belanghebbenden dat applicaties, open standaarden en tools voor datawetenschap, machine learning (ML) en computationele wetenschap bouwt. De Jupyter Notebook, voor het eerst uitgebracht in 2011, is de facto een standaardtool geworden die door miljoenen gebruikers over de hele wereld in elke mogelijke academische, onderzoeks- en industriรซle sector wordt gebruikt. Jupyter stelt gebruikers in staat interactief met code en gegevens te werken en computationele verhalen op te bouwen en te delen die een volledig en reproduceerbaar verslag van hun werk opleveren.

Gezien het belang van Jupyter voor datawetenschappers en ML-ontwikkelaars, is AWS een actieve sponsor en bijdrager aan Project Jupyter. Ons doel is om in de open-sourcegemeenschap te werken om Jupyter te helpen het best mogelijke notebookplatform voor datawetenschap en ML te worden. AWS is een platina-sponsor van Project Jupyter via de NumFOCUS Foundation, en ik ben trots en vereerd dat ik leiding mag geven aan een toegewijd team van AWS-ingenieurs die bijdragen aan de software van Jupyter en deelnemen aan de gemeenschap en het bestuur van Jupyter. Onze open-sourcebijdragen aan Jupyter omvatten JupyterLab, Jupyter Server en de Jupyter Notebook-subprojecten. We zijn ook lid van de Jupyter-werkgroepen voor veiligheid en diversiteit, gelijkheid en inclusie (DEI). Parallel aan deze open-sourcebijdragen hebben we AWS-productteams die werken aan de integratie van Jupyter met producten zoals Amazon SageMaker.

Vandaag zijn we bij JupyterCon verheugd om verschillende nieuwe tools voor Jupyter-gebruikers aan te kondigen om hun ervaring te verbeteren en de ontwikkelingsproductiviteit te verhogen. Al deze tools zijn open-source en kunnen overal worden gebruikt waar u Jupyter gebruikt.

Introductie van twee generatieve AI-extensies voor Jupyter

Generatieve AI kan de productiviteit van datawetenschappers en ontwikkelaars aanzienlijk verhogen terwijl ze code schrijven. Vandaag kondigen we twee Jupyter-extensies aan die generatieve AI naar Jupyter-gebruikers brengen via een chat-UI, magische IPython-opdrachten en automatisch aanvullen. Met deze extensies kunt u een breed scala aan ontwikkelingstaken uitvoeren met behulp van generatieve AI-modellen in JupyterLab en Jupyter notebooks.

Jupyter AI, een open-sourceproject om generatieve AI naar Jupyter-notebooks te brengen

Door gebruik te maken van de kracht van grote taalmodellen zoals ChatGPT, AI21's Jurassic-2 en (binnenkort beschikbaar) Amazon Titan, Jupyter AI is een open-sourceproject dat generatieve AI-functies naar Jupyter-notebooks brengt. Met behulp van een groot taalmodel kan Jupyter AI een programmeur bijvoorbeeld helpen bij het genereren, debuggen en uitleggen van zijn broncode. Jupyter AI kan ook vragen over lokale bestanden beantwoorden en volledige notitieboekjes genereren via een eenvoudige prompt in natuurlijke taal. Jupyter AI biedt zowel magische opdrachten die in elke notebook- of IPython-shell werken, als een vriendelijke chat-gebruikersinterface in JupyterLab. Beide ervaringen werken met tientallen modellen van een breed scala aan modelaanbieders. JupyterLab-gebruikers kunnen tekst- of notitieboekjecellen selecteren, een prompt in natuurlijke taal invoeren om een โ€‹โ€‹taak uit te voeren met de selectie en vervolgens het door AI gegenereerde antwoord invoegen waar ze maar willen. Jupyter AI is geรฏntegreerd met het MIME-typesysteem van Jupyter, waarmee u kunt werken met invoer en uitvoer van elk type dat Jupyter ondersteunt (tekst, afbeeldingen, enz.). Jupyter AI biedt ook integratiepunten waarmee derde partijen hun eigen modellen kunnen configureren. Jupyter AI is een officieel open-sourceproject van Project Jupyter.

Amazon CodeWhisperer Jupyter-extensie

Automatisch aanvullen is van fundamenteel belang voor ontwikkelaars en generatieve AI kan de codesuggestie-ervaring aanzienlijk verbeteren. Daarom hebben we de algemene beschikbaarheid aangekondigd van Amazon Code Whisperer eerder in 2023. CodeWhisperer is een AI-codeerpartner die fundamentele modellen onder de motorkap gebruikt om de productiviteit van ontwikkelaars radicaal te verbeteren. Dit werkt door in realtime codesuggesties te genereren op basis van opmerkingen van ontwikkelaars in natuurlijke taal en eerdere code in hun geรฏntegreerde ontwikkelomgeving (IDE).

Vandaag kondigen we met trots aan dat JupyterLab-gebruikers de CodeWhisperer-extensie gratis kunnen installeren en gebruiken om realtime, enkelregelige of volledig functionele codesuggesties te genereren voor Python-notebooks in JupyterLab en Amazon SageMaker Studio. Met CodeWhisperer kunt u een opmerking in natuurlijke taal schrijven waarin een specifieke taak in het Engels wordt beschreven, zoals 'Maak een panda-dataframe met behulp van een CSV-bestand'. Op basis van deze informatie beveelt CodeWhisperer een of meer codefragmenten rechtstreeks in het notitieblok aan die de taak kunnen uitvoeren. U kunt snel en eenvoudig de beste suggestie accepteren, meer suggesties bekijken of doorgaan met het schrijven van uw eigen code.

Tijdens de preview bewees CodeWhisperer dat het uitstekend is in het genereren van code om codeertaken te versnellen, waardoor ontwikkelaars taken gemiddeld 57% sneller kunnen voltooien. Bovendien hadden ontwikkelaars die CodeWhisperer gebruikten 27% meer kans om een โ€‹โ€‹codeertaak met succes te voltooien dan degenen die dat niet deden. Dit is een gigantische sprong voorwaarts in de productiviteit van ontwikkelaars. CodeWhisperer bevat ook een ingebouwde referentietracker die detecteert of een codesuggestie lijkt op open-source trainingsgegevens en dergelijke suggesties kan markeren.

Introductie van nieuwe Jupyter-extensies om ML op schaal te bouwen, trainen en implementeren

Onze missie bij AWS is om de toegang tot ML in alle sectoren te democratiseren. Om dit doel te bereiken, hebben we vanaf 2017 de Amazon SageMaker-notebookinstantieโ€”een volledig beheerde rekeninstantie waarop Jupyter draait en die alle populaire data science- en ML-pakketten bevat. In 2019 hebben we een aanzienlijke sprong voorwaarts gemaakt met de lancering van SageMaker Studio, een IDE voor ML gebouwd bovenop JupyterLab waarmee u modellen kunt bouwen, trainen, afstemmen, debuggen, implementeren en monitoren vanuit รฉรฉn enkele applicatie. Tienduizenden klanten gebruiken Studio om datawetenschapsteams van elke omvang te ondersteunen. In 2021 hebben we de voordelen van SageMaker verder uitgebreid naar de gemeenschap van miljoenen Jupyter-gebruikers door de lancering Amazon SageMaker Studiolabโ€”een gratis notebookservice, opnieuw gebaseerd op JupyterLab, die gratis rekenkracht en permanente opslag omvat.

Vandaag kondigen we met trots drie nieuwe mogelijkheden aan waarmee u de ML-ontwikkeling sneller kunt opschalen.

Notitieboekjes plannen

In 2022 hebben we een nieuwe mogelijkheid uitgebracht om onze klanten in staat te stellen dit te doen voer notebooks uit als geplande taken in SageMaker Studio en Studio Lab. Dankzij deze mogelijkheid hebben veel van onze klanten tijd bespaard doordat ze de complexe cloudinfrastructuur niet handmatig hoeven op te zetten om hun ML-workflows te schalen.

Met trots kondigen wij aan dat de planningstool voor notebooks er nu is een open-source Jupyter-extensie waarmee JupyterLab-gebruikers notebooks op SageMaker kunnen uitvoeren en plannen waar JupyterLab ook draait. Gebruikers kunnen een notebook selecteren en deze automatiseren als een taak die in een productieomgeving wordt uitgevoerd via een eenvoudige maar krachtige gebruikersinterface. Nadat een notebook is geselecteerd, maakt de tool een momentopname van de gehele notebook, verpakt de afhankelijkheden ervan in een container, bouwt de infrastructuur op, voert de notebook uit als een geautomatiseerde taak volgens een door de gebruiker ingesteld schema, en schakelt de infrastructuur uit zodra de taak is voltooid. Hierdoor wordt de tijd die nodig is om een โ€‹โ€‹notebook in productie te nemen, teruggebracht van weken naar uren.

SageMaker open-sourcedistributie

Datawetenschappers en ontwikkelaars willen snel beginnen met het ontwikkelen van ML-applicaties, en het kan complex zijn om de onderling compatibele versies van alle benodigde pakketten te installeren. Om het handmatige werk te elimineren en de productiviteit te verbeteren, kondigen we dit met trots aan een nieuwe open-sourcedistributie dat omvat de meest populaire pakketten voor ML, data science en datavisualisatie. Deze distributie omvat deep learning-frameworks zoals PyTorch, TensorFlow en Keras; populaire Python-pakketten zoals NumPy, scikit-learn en pandas; en IDE's zoals JupyterLab en de Jupyter Notebook. De distributie maakt gebruik van SemVer en zal in de toekomst regelmatig worden uitgebracht. De container is verkrijgbaar via Amazon ECR openbare galerij, en de broncode is beschikbaar op GitHub. Dit biedt bedrijven transparantie in de pakketten en het bouwproces, waardoor het voor hen gemakkelijker wordt om de distributie te reproduceren, aan te passen of opnieuw te certificeren. De basisimage wordt geleverd met pip en Conda/Mamba, zodat datawetenschappers snel extra pakketten kunnen installeren om aan hun specifieke behoeften te voldoen.

Amazon CodeGuru Jupyter-extensie

Amazon CodeGuru Beveiliging ondersteunt nu beveiligings- en codekwaliteitsscans in JupyterLab en SageMaker Studio. Deze nieuwe mogelijkheid helpt notebookgebruikers bij het opsporen van beveiligingskwetsbaarheden, zoals injectiefouten, datalekken, zwakke cryptografie of ontbrekende encryptie in de notebookcellen. U kunt ook veel veelvoorkomende problemen detecteren die van invloed zijn op de leesbaarheid, reproduceerbaarheid en correctheid van computationele notebooks, zoals misbruik van ML-bibliotheek-API's, ongeldige uitvoeringsvolgorde en niet-determinisme. Wanneer er kwetsbaarheden of kwaliteitsproblemen in de notebook worden geรฏdentificeerd, genereert CodeGuru aanbevelingen waarmee u deze problemen kunt verhelpen op basis van de best practices van AWS-beveiliging.

Conclusie

We zijn verheugd om te zien hoe de Jupyter-gemeenschap deze tools zal gebruiken om de ontwikkeling op te schalen, de productiviteit te verhogen en te profiteren van generatieve AI om hun industrieรซn te transformeren. Bekijk de volgende bronnen voor meer informatie over Jupyter op AWS en hoe u deze nieuwe tools kunt installeren en ermee aan de slag kunt gaan:


Over de auteur

Brian Granger is leider van het Python-project, medeoprichter van Project Jupyter en levert een actieve bijdrage aan een aantal andere open-sourceprojecten gericht op datawetenschap in Python. In 2016 was hij mede-auteur van het Altair-pakket voor statistische visualisatie in Python. Hij is lid van de adviesraad van de NumFOCUS Foundation, een faculteitsgenoot van het Cal Poly Center for Innovation and Entrepreneurship, en de Sr. Principal Technoloog bij AWS.

Tijdstempel:

Meer van AWS-machine learning