Les modèles Mistral 7B Foundation de Mistral AI sont désormais disponibles dans Amazon SageMaker JumpStart

Republié par Platon

Suiveurs: 0

Aujourd'hui, nous sommes ravis d'annoncer que les modèles de fondation Mistral 7B, développés par Mistral AI, sont disponibles pour les clients via Amazon SageMaker JumpStart à déployer en un clic pour exécuter l'inférence. Avec 7 milliards de paramètres, Mistral 7B peut être facilement personnalisé et déployé rapidement. Vous pouvez essayer ce modèle avec SageMaker JumpStart, un hub d'apprentissage automatique (ML) qui donne accès à des algorithmes et des modèles afin que vous puissiez rapidement démarrer avec le ML. Dans cet article, nous expliquons comment découvrir et déployer le modèle Mistral 7B.

Qu'est-ce que Mistral 7B

Mistral 7B est un modèle de base développé par Mistral AI, prenant en charge les capacités de génération de texte et de code en anglais. Il prend en charge une variété de cas d'utilisation, tels que le résumé de texte, la classification, la complétion de texte et la complétion de code. Pour démontrer la facilité de personnalisation du modèle, Mistral AI a également publié un modèle Mistral 7B Instruct pour les cas d'utilisation du chat, affiné à l'aide d'une variété d'ensembles de données de conversation accessibles au public.

Mistral 7B est un modèle de transformateur et utilise l'attention des requêtes groupées et l'attention de la fenêtre coulissante pour obtenir une inférence plus rapide (faible latence) et gérer des séquences plus longues. L'attention des requêtes de groupe est une architecture qui combine l'attention multi-requêtes et multi-têtes pour obtenir une qualité de sortie proche de l'attention multi-têtes et une vitesse comparable à l'attention multi-requêtes. L'attention par fenêtre coulissante utilise les couches empilées d'un transformateur pour s'occuper du passé au-delà de la taille de la fenêtre afin d'augmenter la longueur du contexte. Mistral 7B a une longueur de contexte de 8,000 7 jetons, démontre une faible latence et un débit élevé, et présente de solides performances par rapport aux modèles alternatifs plus grands, offrant de faibles besoins en mémoire pour une taille de modèle XNUMXB. Le modèle est mis à disposition sous licence Licence Apache 2.0, pour une utilisation sans restrictions.

Qu'est-ce que SageMaker JumpStart

Avec SageMaker JumpStart, les praticiens du ML peuvent choisir parmi une liste croissante de modèles de fondation les plus performants. Les praticiens du ML peuvent déployer des modèles de base sur des sites dédiés. Amazon Sage Maker instances dans un environnement isolé en réseau et personnalisez les modèles à l'aide de SageMaker pour la formation et le déploiement des modèles.

Vous pouvez désormais découvrir et déployer Mistral 7B en quelques clics Amazon SageMakerStudio ou par programmation via le SDK SageMaker Python, vous permettant de dériver les performances du modèle et les contrôles MLOps avec des fonctionnalités SageMaker telles que Pipelines Amazon SageMaker, Débogueur Amazon SageMakerou les journaux de conteneur. Le modèle est déployé dans un environnement sécurisé AWS et sous les contrôles de votre VPC, contribuant ainsi à garantir la sécurité des données.

Découvrez les modèles

Vous pouvez accéder aux modèles de base Mistral 7B via SageMaker JumpStart dans l'interface utilisateur de SageMaker Studio et le SDK SageMaker Python. Dans cette section, nous expliquons comment découvrir les modèles dans SageMaker Studio.

SageMaker Studio est un environnement de développement intégré (IDE) qui fournit une interface visuelle Web unique où vous pouvez accéder à des outils spécialement conçus pour effectuer toutes les étapes de développement ML, de la préparation des données à la création, la formation et le déploiement de vos modèles ML. Pour plus de détails sur la façon de démarrer et de configurer SageMaker Studio, reportez-vous à Amazon SageMakerStudio.

Dans SageMaker Studio, vous pouvez accéder à SageMaker JumpStart, qui contient des modèles, des blocs-notes et des solutions prédéfinis, sous Solutions prédéfinies et automatisées.

À partir de la page d'accueil de SageMaker JumpStart, vous pouvez rechercher des solutions, des modèles, des blocs-notes et d'autres ressources. Vous pouvez trouver Mistral 7B dans le Modèles de base : génération de texte carrousel.

Vous pouvez également trouver d'autres variantes de modèles en choisissant Explorez tous les modèles de texte ou en recherchant « Mistral ».

Vous pouvez choisir la fiche de modèle pour afficher les détails du modèle, tels que la licence, les données utilisées pour l'entraînement et la manière de l'utiliser. Vous trouverez également deux boutons, Déployer et de Cahier ouvert, qui vous aidera à utiliser le modèle (la capture d'écran suivante montre le Déployer option).

Déployer des modèles

Le déploiement commence lorsque vous choisissez Déployer. Vous pouvez également déployer via l'exemple de bloc-notes qui s'affiche lorsque vous choisissez Cahier ouvert. L'exemple de bloc-notes fournit des conseils de bout en bout sur la manière de déployer le modèle pour l'inférence et de nettoyer les ressources.

Pour déployer à l'aide d'un notebook, nous commençons par sélectionner le modèle Mistral 7B, spécifié par le model_id. Vous pouvez déployer n'importe lequel des modèles sélectionnés sur SageMaker avec le code suivant :

from sagemaker.jumpstart.model import JumpStartModel model = JumpStartModel(model_id="huggingface-llm-mistral-7b-instruct")
predictor = model.deploy()

Cela déploie le modèle sur SageMaker avec les configurations par défaut, y compris le type d'instance par défaut (ml.g5.2xlarge) et les configurations VPC par défaut. Vous pouvez modifier ces configurations en spécifiant des valeurs autres que celles par défaut dans Modèle JumpStart. Une fois déployé, vous pouvez exécuter une inférence sur le point de terminaison déployé via le prédicteur SageMaker :

payload = {"inputs": "<s>[INST] Hello! [/INST]"}
predictor.predict(payload)

Optimisation de la configuration du déploiement

Les modèles Mistral utilisent le service de modèle Text Generation Inference (TGI version 1.1). Lors du déploiement de modèles avec le conteneur d'apprentissage profond (DLC) TGI, vous pouvez configurer une variété de arguments du lanceur via des variables d'environnement lors du déploiement de votre point de terminaison. Pour prendre en charge la longueur de contexte de 8,000 7 jetons des modèles Mistral XNUMXB, SageMaker JumpStart a configuré certains de ces paramètres par défaut : nous définissons MAX_INPUT_LENGTH et de MAX_TOTAL_TOKENS à 8191 et 8192, respectivement. Vous pouvez afficher la liste complète en inspectant votre objet modèle :

print(model.env)

Par défaut, SageMaker JumpStart ne bloque pas les utilisateurs simultanés via la variable d'environnement MAX_CONCURRENT_REQUESTS plus petit que la valeur par défaut du TGI, 128. La raison en est que certains utilisateurs peuvent avoir des charges de travail typiques avec de petites longueurs de contexte de charge utile et souhaitent une simultanéité élevée. Notez que le DLC SageMaker TGI prend en charge plusieurs utilisateurs simultanés par lots glissants. Lors du déploiement de votre point de terminaison pour votre application, vous pouvez vous demander si vous devez bloquer MAX_TOTAL_TOKENS or MAX_CONCURRENT_REQUESTS avant le déploiement pour fournir les meilleures performances pour votre charge de travail :

model.env["MAX_CONCURRENT_REQUESTS"] = "4"

Ici, nous montrons comment les performances du modèle peuvent différer pour votre charge de travail de point de terminaison typique. Dans les tableaux suivants, vous pouvez observer que les requêtes de petite taille (128 mots d'entrée et 128 jetons de sortie) sont assez performantes sous un grand nombre d'utilisateurs simultanés, atteignant un débit de jetons de l'ordre de 1,000 512 jetons par seconde. Cependant, à mesure que le nombre de mots d'entrée augmente jusqu'à 16 mots d'entrée, le point de terminaison sature sa capacité de traitement par lots (le nombre de requêtes simultanées autorisées à être traitées simultanément), ce qui entraîne un plateau de débit et des dégradations de latence significatives à partir d'environ 6,400 utilisateurs simultanés. Enfin, lors de l'interrogation simultanée du point de terminaison avec des contextes d'entrée volumineux (par exemple, 60 XNUMX mots) par plusieurs utilisateurs simultanés, ce plateau de débit se produit relativement rapidement, au point où votre compte SageMaker commencera à rencontrer des délais d'expiration de réponse de XNUMX secondes pour vos requêtes surchargées. .

.				débit (jetons/s)
utilisateurs concurrents				1	2	4	8	16	32	64	128
modèle	type d'instance	mots d'entrée	jetons de sortie	.
mistral-7b-instruire	ml.g5.2xlarge	128	128	30	54	89	166	287	499	793	1030
		512	128	29	50	80	140	210	315	383	458
		6400	128	17	25	30	35	-	-	-	-

.				latence p50 (ms/jeton)
utilisateurs concurrents				1	2	4	8	16	32	64	128
modèle	type d'instance	mots d'entrée	jetons de sortie	.
mistral-7b-instruire	ml.g5.2xlarge	128	128	32	33	34	36	41	46	59	88
		512	128	34	36	39	43	54	71	112	213
		6400	128	57	71	98	154	-	-	-	-

Inférences et exemples d'invites

Mistral7B

Vous pouvez interagir avec un modèle de base Mistral 7B comme n'importe quel modèle de génération de texte standard, où le modèle traite une séquence d'entrée et génère les mots suivants prédits dans la séquence. Ce qui suit est un exemple simple avec un apprentissage multi-shot, où le modèle est fourni avec plusieurs exemples et l'exemple de réponse final est généré avec la connaissance contextuelle de ces exemples précédents :

> Input
Tweet: "I get sad when my phone battery dies."
Sentiment: Negative
###
Tweet: "My day has been :+1:"
Sentiment: Positive
###
Tweet: "This is the link to the article"
Sentiment: Neutral
###
Tweet: "This new music video was incredibile"
Sentiment: > Output Positive

Instruire Mistral 7B

La version optimisée pour les instructions de Mistral accepte les instructions formatées dans lesquelles les rôles de conversation doivent commencer par une invite utilisateur et alterner entre utilisateur et assistant. Une simple invite utilisateur peut ressembler à ce qui suit :

<s>[INST] {user_prompt} [/INST]

Une invite multi-tours ressemblerait à ce qui suit :

<s>[INST] {user_prompt_1} [/INST] {assistant_response_1} </s><s>[INST] {user_prompt_1} [/INST]

Ce schéma se répète quel que soit le nombre de tours de la conversation.

Dans les sections suivantes, nous explorons quelques exemples utilisant le modèle Mistral 7B Instruct.

Récupération de connaissances

Voici un exemple de récupération de connaissances :

> Input
<s>[INST] Which country has the most natural lakes? Answer with only the country name. [/INST] > Output
1. Canada

Réponse aux grandes questions contextuelles

Pour montrer comment utiliser ce modèle pour prendre en charge de grandes longueurs de contexte d'entrée, l'exemple suivant intègre un passage intitulé « Rats » de Robert Sullivan (référence), du test MCAS Grade 10 English Language Arts Reading Comprehension dans l'instruction d'invite de saisie et pose au modèle une question dirigée sur le texte :

> Input
<s>[INST] A rat is a rodent, the most common mammal in the world. Rattus norvegicus is one of the approximately four hundred different kinds of rodents, and it is known by many names, each of which describes a trait or a perceived trait or sometimes a habitat: the earth rat, the roving rat, the barn rat, the fi eld rat, the migratory rat, the house rat, the sewer rat, the water rat, the wharf rat, the alley rat, the gray rat, the brown rat, and the common rat. The average brown rat is large and stocky; it grows to be approximately sixteen inches long from its nose to its tail—the size of a large adult human male’s foot—and weighs about a pound, though brown rats have been measured by scientists and exterminators at twenty inches and up to two pounds. The brown rat is sometimes confused with the black rat, or Rattus rattus, which is smaller and once inhabited New York City and all of the cities of America but, since Rattus norvegicus pushed it out, is now relegated to a minor role. (The two species still survive alongside each other in some Southern coastal cities and on the West Coast, in places like Los Angeles, for example, where the black rat lives in attics and palm trees.) The black rat is always a very dark gray, almost black, and the brown rat is gray or brown, with a belly that can be light gray, yellow, or even a pure-seeming white. One spring, beneath the Brooklyn Bridge, I saw a red-haired brown rat that had been run over by a car. Both pet rats and laboratory rats are Rattus norvegicus, but they are not wild and therefore, I would emphasize, not the subject of this book. Sometimes pet rats are called fancy rats. But if anyone has picked up this book to learn about fancy rats, then they should put this book down right away; none of the rats mentioned herein are at all fancy. Rats are nocturnal, and out in the night the brown rat’s eyes are small and black and shiny; when a fl ashlight shines into them in the dark, the eyes of a rat light up like the eyes of a deer. Though it forages* in darkness, the brown rat has poor eyesight. It makes up for this with, fi rst of all, an excellent sense of smell. . . . They have an excellent sense of taste, detecting the most minute amounts of poison, down to one part per million. A brown rat has strong feet, the two front paws each equipped with four clawlike nails, the rear paws even longer and stronger. It can run and climb with squirrel-like agility. It is an excellent swimmer, surviving in rivers and bays, in sewer streams and toilet bowls. The brown rat’s teeth are yellow, the front two incisors being especially long and sharp, like buckteeth. When the brown rat bites, its front two teeth spread apart. When it gnaws, a fl ap of skin plugs the space behind its incisors. Hence, when the rat gnaws on indigestible materials—concrete or steel, for example—the shavings don’t go down the rat’s throat and kill it. Its incisors grow at a rate of fi ve inches per year. Rats always gnaw, and no one is certain why—there are few modern rat studies. It is sometimes erroneously stated that the rat gnaws solely to limit the length of its incisors, which would otherwise grow out of its head, but this is not the case: the incisors wear down naturally. In terms of hardness, the brown rat’s teeth are stronger than aluminum, copper, lead, and iron. They are comparable to steel. With the alligator-like structure of their jaws, rats can exert a biting pressure of up to seven thousand pounds per square inch. Rats, like mice, seem to be attracted to wires—to utility wires, computer wires, wires in vehicles, in addition to gas and water pipes. One rat expert theorizes that wires may be attractive to rats because of their resemblance to vines and the stalks of plants; cables are the vines of the city. By one estimate, 26 percent of all electric-cable breaks and 18 percent of all phone-cable disruptions are caused by rats. According to one study, as many as 25 percent of all fi res of unknown origin are rat-caused. Rats chew electrical cables. Sitting in a nest of tattered rags and newspapers, in the fl oorboards of an old tenement, a rat gnaws the head of a match—the lightning in the city forest. When it is not gnawing or feeding on trash, the brown rat digs. Anywhere there is dirt in a city, brown rats are likely to be digging—in parks, in fl owerbeds, in little dirt-poor backyards. They dig holes to enter buildings and to make nests. Rat nests can be in the floorboards of apartments, in the waste-stuffed corners of subway stations, in sewers, or beneath old furniture in basements. “Cluttered and unkempt alleyways in cities provide ideal rat habitat, especially those alleyways associated with food-serving establishments,” writes Robert Corrigan in Rodent Control, a pest control manual. “Alley rats can forage safely within the shadows created by the alleyway, as well as quickly retreat to the safety of cover in these narrow channels.” Often, rats burrow under concrete sidewalk slabs. Entrance to a typical under-the-sidewalk rat’s nest is gained through a two-inch-wide hole—their skeletons collapse and they can squeeze into a hole as small as three quarters of an inch wide, the average width of their skull. This tunnel then travels about a foot down to where it widens into a nest or den. The den is lined with soft debris, often shredded plastic garbage or shopping bags, but sometimes even grasses or plants; some rat nests have been found stuffed with the gnawed shavings of the wood-based, spring-loaded snap traps that are used in attempts to kill them. The back of the den then narrows into a long tunnel that opens up on another hole back on the street. This second hole is called a bolt hole; it is an emergency exit. A bolt hole is typically covered lightly with dirt or trash—camoufl age. Sometimes there are networks of burrows, which can stretch beneath a few concrete squares on a sidewalk, or a number of backyards, or even an entire city block—when Rattus norvegicus fi rst came to Selkirk, England, in 1776, there were so many burrows that people feared the town might sink. Rats can also nest in basements, sewers, manholes, abandoned pipes of any kind, fl oorboards, or any hole or depression. “Often,” Robert Corrigan writes, “‘city rats’ will live unbeknownst to people right beneath their feet.” Rats also inhabit subways, as most people in New York City and any city with a subway system are well aware. Every once in a while, there are reports of rats boarding trains, but for the most part rats stay on the tracks—subway workers I have talked to refer to rats as “track rabbits.” People tend to think that the subways are fi lled with rats, but in fact rats are not everywhere in the system; they live in the subways according to the supply of discarded human food and sewer leaks. Sometimes, rats use the subway purely for nesting purposes; they fi nd ways through the walls of the subway stations leading from the tracks to the restaurants and stores on the street—the vibrations of subway trains tend to create rat-size cracks and holes. Many subway rats tend to live near stations that are themselves near fast-food restaurants. At the various subway stations near Herald Square, for example, people come down from the streets and throw the food that they have not eaten onto the tracks, along with newspapers and soda bottles and, I have noticed, thousands of nolonger-charged AA batteries, waiting to leak acid. The rats eat freely from the waste and sit at the side of the little streams of creamy brown sewery water that fl ows between the rails. They sip the water the way rats do, either with their front paws or by scooping it up with their incisors. What is the most likely reason the author states, "cables are the vines of the city"? [/INST] > Output
1. The author states that rats are attracted to wires, such as utility wires, computer wires, and vehicle wires, which may be due to their resemblance to vines and the stalks of plants.

Mathématiques et raisonnement

Les modèles Mistral font également état de points forts en matière de précision mathématique. Mistral peut fournir une compréhension telle que la logique mathématique suivante :

> Input
<s>[INST] I bought an ice cream for 6 kids. Each cone was $1.25 and I paid with a $10 bill. How many dollars did I get back? Explain first before answering. [/INST] > Output
1. First, let's figure out how much the ice cream cost in total. Since each cone was $1.25 and there were 6 kids, the total cost would be: Total cost = Number of cones * Cost per cone
Total cost = 6 * $1.25
Total cost = $7.50 2. Next, we'll subtract the total cost from the amount paid ($10) to find out how much money was returned: Money returned = Amount paid - Total cost
Money returned = $10 - $7.50
Money returned = $2.50 So, you got back $2.50 after buying the ice cream for the 6 kids.

Codage

Voici un exemple d'invite de codage :

> Input
<s>[INST] In Bash, how do I list all text files in the current directory (excluding subdirectories) that have been modified in the last month? [/INST] > Output
1. Use the `find` command to search for text files in the current directory (excluding subdirectories) that have been modified in the last month. The `-type f` option specifies that we only want to search for files, not directories. The `-name "*.txt"` option specifies that we only want to search for files with the `.txt` extension. The `-mtime -30` option specifies that we only want to search for files that have been modified in the last 30 days (1 month). ```bash
find . -type f -name "*.txt" -mtime -30
``` This command will list all text files in the current directory (excluding subdirectories) that have been modified in the last month.

Nettoyer

Une fois que vous avez terminé d'exécuter le bloc-notes, assurez-vous de supprimer toutes les ressources que vous avez créées au cours du processus afin que votre facturation soit arrêtée. Utilisez le code suivant :

predictor.delete_model()
predictor.delete_endpoint()

Conclusion

Dans cet article, nous vous avons montré comment démarrer avec Mistral 7B dans SageMaker Studio et déployer le modèle pour l'inférence. Étant donné que les modèles de base sont pré-entraînés, ils peuvent contribuer à réduire les coûts de formation et d’infrastructure et permettre une personnalisation adaptée à votre cas d’utilisation. Visite Amazon SageMaker JumpStart maintenant pour commencer.

Resources

À propos des auteurs

Dr Kyle Ulrich est un scientifique appliqué au sein de l'équipe Amazon SageMaker JumpStart. Ses intérêts de recherche comprennent les algorithmes d'apprentissage automatique évolutifs, la vision par ordinateur, les séries chronologiques, les processus bayésiens non paramétriques et gaussiens. Son doctorat est de l'Université Duke et il a publié des articles dans NeurIPS, Cell et Neuron.

Dr Ashish Khetan est un scientifique appliqué senior chez Amazon SageMaker JumpStart et aide à développer des algorithmes d'apprentissage automatique. Il a obtenu son doctorat à l'Université de l'Illinois à Urbana-Champaign. Il est un chercheur actif en apprentissage automatique et en inférence statistique, et a publié de nombreux articles dans les conférences NeurIPS, ICML, ICLR, JMLR, ACL et EMNLP.

Vivek Singh est chef de produit chez Amazon SageMaker JumpStart. Il s'efforce de permettre aux clients d'intégrer SageMaker JumpStart pour simplifier et accélérer leur parcours ML afin de créer des applications d'IA génératives.

Roy Allela est architecte principal de solutions spécialisées en IA/ML chez AWS basé à Munich, en Allemagne. Roy aide les clients AWS, des petites startups aux grandes entreprises, à former et à déployer efficacement de grands modèles de langage sur AWS. Roy est passionné par les problèmes d'optimisation informatique et l'amélioration des performances des charges de travail d'IA.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
La source: https://aws.amazon.com/blogs/machine-learning/mistral-7b-foundation-models-from-mistral-ai-are-now-available-in-amazon-sagemaker-jumpstart/

Horodatage: 9 octobre 2023

Horodatage: 23 avril 2024

Les modèles de base Mistral 7B de Mistral AI sont désormais disponibles dans Amazon SageMaker JumpStart | Services Web Amazon

Republié par Platon

Qu'est-ce que Mistral 7B

Qu'est-ce que SageMaker JumpStart

Découvrez les modèles

Déployer des modèles

Optimisation de la configuration du déploiement

Inférences et exemples d'invites

Mistral7B

Instruire Mistral 7B

Récupération de connaissances

Réponse aux grandes questions contextuelles

Mathématiques et raisonnement

Codage

Nettoyer

Conclusion

Resources

À propos des auteurs

Plus de Apprentissage automatique AWS

Améliorez la qualité des prédictions dans les modèles de classification personnalisés avec Amazon Comprehend | Services Web Amazon

Détection d'anomalies avec Amazon SageMaker Edge Manager à l'aide d'AWS IoT Greengrass V2

Annonce de la mise à jour du connecteur ServiceNow (V2) pour Amazon Kendra

Création d'applications RAG évolutives, sécurisées et fiables à l'aide des bases de connaissances pour Amazon Bedrock | Services Web Amazon

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte