3 projets de science des données garantis pour vous décrocher cet emploi - KDnuggets

3 projets de science des données garantis pour vous décrocher cet emploi – KDnuggets

Nœud source: 2314624

3 projets de science des données garantis pour vous décrocher cet emploi
Image par auteur
 

Une déclaration assez audacieuse ! En prétendant que je peux garantir à quelqu'un que vous décrocherez un emploi, bien sûr.

OK, la vérité c'est que rien dans la vie n'est garanti, surtout trouver un emploi. Pas même en science des données. Mais ce qui vous rapprochera vraiment de la garantie, c'est d'avoir des projets de données dans votre portefeuille.

Pourquoi je pense que les projets sont si décisifs ? Parce que, s’ils sont choisis judicieusement, ils mettent en valeur le plus efficacement possible l’étendue et la profondeur de vos compétences techniques en science des données. C'est la qualité des projets qui compte, pas leur nombre. Ils doivent couvrir autant de compétences que possible en science des données.

Alors, quels projets vous garantissent cela sur le plus petit nombre de projets ? Si je me limitais à réaliser seulement trois projets, je les sélectionnerais.

  1. Aperçu des données sur l’offre et la demande de la ville
  2. Prédiction de l'attrition des clients
  3. Police prédictive

Mais ne le prenez pas trop au pied de la lettre. Le message ici n’est pas que vous devez vous en tenir strictement à ces trois éléments. Je les ai sélectionnés car ils couvrent la plupart des compétences techniques requises en science des données. Si vous souhaitez réaliser d'autres projets de science des données, n'hésitez pas à le faire. Mais si vous êtes limité en temps/nombre de projets, choisissez-les judicieusement et sélectionnez ceux qui testeront le plus large éventail de compétences en science des données.

En parlant de cela, précisons de quoi il s’agit.

Il existe cinq compétences fondamentales en science des données.

  • Python
  • Dispute de données
  • Analyses statistiques
  • Machine Learning
  • Visualisation de données

Il s'agit d'une liste de contrôle que vous devriez prendre en compte lorsque vous essayez de tirer le meilleur parti des projets de science des données que vous choisissez.

Voici un aperçu de ce que ces compétences englobent.

 

3 projets de science des données garantis pour vous décrocher cet emploi
 

Bien sûr, les compétences en science des données vont bien au-delà. Ils incluent également la connaissance de SQL et R, des technologies Big Data, de l'apprentissage en profondeur, du traitement du langage naturel et du cloud computing.

Cependant, leur nécessité dépend fortement de la description de poste. Mais vous ne pouvez pas vous passer des cinq compétences fondamentales que j’ai mentionnées.

Voyons maintenant comment les trois projets de science des données que j'ai choisis mettent en question ces compétences.

Certains de ces projets pourraient être un peu trop avancés pour certains. Dans ce cas, donnez-leur 19 projets de science des données pour les débutants un essai.

1. Comprendre l’offre et la demande des villes : analyse commerciale

La source: Aperçu des données sur l’offre et la demande de la ville

Topic: Analyse d'affaires

Bref aperçu: Les villes sont des centres d’interactions entre l’offre et la demande pour Uber. Leur analyse peut offrir un aperçu des activités et de la planification de l’entreprise. Uber vous fournit un ensemble de données contenant des détails sur les voyages. Vous devez répondre à onze questions pour donner un aperçu commercial des déplacements, de leur durée, de la demande de chauffeurs, etc.

L'exécution du projet: On vous pose onze questions auxquelles il faut répondre dans l'ordre affiché. Y répondre impliquera des tâches telles que

  • Remplir les valeurs manquantes,
  • Agréger les données,
  • Trouver les plus grandes valeurs,
  • Intervalle de temps d'analyse,
  • Calculer des pourcentages,
  • Calculer des moyennes pondérées,
  • Trouver des différences,
  • Visualiser les données, etc.

Compétences mises en valeur : Analyse exploratoire des données (EDA) pour sélectionner les colonnes nécessaires et remplir les valeurs manquantes, en obtenant des informations exploitables sur les trajets effectués (différentes périodes, ratio moyen pondéré de trajets par conducteur, recherche des heures les plus chargées pour aider à rédiger un horaire de chauffeur, la relation entre l'offre et demande, etc.), visualisant la relation entre l’offre et la demande.

2. Prédiction du taux de désabonnement des clients : une tâche de classification

La source: Prédiction de l'attrition des clients

Topic: Apprentissage supervisé (classification)

Bref aperçu: Dans ce projet de science des données, Sony Research vous fournit un ensemble de données sur les clients d'une entreprise de télécommunications. Ils attendent de vous que vous effectuiez une analyse exploratoire et que vous extrayiez des informations. Ensuite, vous devrez créer un modèle de prédiction du taux de désabonnement, l'évaluer et discuter des problèmes lors du déploiement du modèle en production.

L'exécution du projet: Le projet doit être abordé dans ces grandes phases.

  • Analyse exploratoire et extraction d'informations
    • Vérifier les principes fondamentaux des données (nuls, unicité)
    • Choisissez les données dont vous avez besoin et formez votre ensemble de données
    • Visualiser les données pour vérifier la distribution des valeurs
    • Former une matrice de corrélation
    • Vérifiez l'importance des fonctionnalités
  • Répartition Train/Test
    • Utilisez apprendre pour diviser l'ensemble de données en formation et tests en utilisant le ratio de 80 % à 20 %
  • Modèle prédictif
    • Appliquez des classificateurs et choisissez-en un à utiliser en production en fonction des performances
    • Utilisez la précision et le score F1 tout en comparant les performances de différents algorithmes
  • Résultats du modèle
    • Utiliser des modèles ML classiques
    • Visualisez l'arbre de décision et voyez comment les algorithmes basés sur l'arborescence fonctionnent
  • Modèle d'apprentissage en profondeur
    • Essayez le réseau de neurones artificiels (ANN) sur ce problème
  • Problèmes de déploiement
    • Surveiller les performances du modèle pour éviter la dérive des données et la dérive des concepts

Compétences mises en valeur : Analyse exploratoire des données (EDA) et traitement des données pour vérifier les valeurs nulles, l'unicité des données, obtenir des informations sur la distribution des données et les corrélations positives et négatives ; visualisation des données sous forme d'histogrammes et de matrice de corrélation ; appliquer des classificateurs ML à l'aide de la bibliothèque sklearn, mesurer la précision des algorithmes et le score F1, comparer les algorithmes, visualiser l'arbre de décision ; utiliser un réseau de neurones artificiels pour voir les performances de l'apprentissage en profondeur ; déploiement de modèles où vous devez être conscient des problèmes de dérive des données et de dérive des concepts dans le cycle MLOps.

3. Police prédictive : examen des implications

La source: Les périls de la police prédictive

Topic: Apprentissage supervisé (régression)

Bref aperçu: Cette police prédictive utilise des algorithmes et des analyses de données pour prédire où les crimes sont susceptibles de se produire. L’approche que vous avez choisie peut avoir de profondes implications éthiques et sociétales. Il utilise les données sur la criminalité de la ville de San Francisco de 2016 provenant de son initiative d'open data. Le projet tentera de prédire le nombre d'incidents criminels dans un code postal donné, à un certain jour de la semaine et à une certaine heure de la journée.

L'exécution du projet: Voici les principales étapes entreprises par l’auteur du projet.

  • Sélection des variables et calcul du nombre total de crimes par an par code postal et par heure
  • Entraîner/tester les données fractionnées chronologiquement
  • Essayer cinq algorithmes de régression :
    • Régression linéaire
    • Forêt aléatoire
    • Les voisins les plus proches
    • XGBoost
    • Perceptron multicouche

Compétences mises en valeur : Analyse exploratoire des données (EDA) et gestion des données où vous vous retrouvez avec les données sur les crimes, l'heure, le jour de la semaine et le code postal ; ML (apprentissage/régression supervisé) où vous essayez les performances de la régression linéaire, du régresseur de forêt aléatoire, du K-plus proche voisin, de XGBoost ; l'apprentissage profond où vous utilisez le perceptron multicouche pour essayer d'expliquer les résultats que vous obtenez ; obtenir des informations sur la prédiction du crime et sa possibilité d'être utilisée à mauvais escient ; déploiement du modèle dans une carte interactive.

Si vous souhaitez réaliser plus de projets en utilisant des compétences similaires, voici plus de 30 idées de projets ML.

En réalisant ces projets de science des données, vous testerez et acquerrez des compétences essentielles en science des données, telles que la gestion des données, la visualisation des données, l'analyse statistique, la création et le déploiement de modèles ML.

En parlant de ML, je me suis concentré ici sur l'apprentissage supervisé car il est plus couramment utilisé en science des données. Je peux presque vous garantir que ces projets de science des données seront suffisants pour vous décrocher l'emploi souhaité.

Mais vous devriez lire attentivement la description de poste. Si vous constatez que cela nécessite un apprentissage non supervisé, de la PNL ou quelque chose d'autre que je n'ai pas abordé ici, incluez un ou deux projets de ce type dans votre portfolio.

Quoi qu’il en soit, vous n’êtes toujours pas coincé avec seulement trois projets. Ils sont là pour vous guider dans votre choix Un flux efficace peut augmenter des projets qui garantiront you décrocher un emploi. Soyez conscient de la complexité des projets, car ils doivent couvrir de manière approfondie les compétences fondamentales en science des données.

Maintenant, c'est parti et décrochez ce travail !
 
 
Nate Rosidi est data scientist et en stratégie produit. Il est également professeur adjoint enseignant l'analytique et fondateur de StrataScratch, une plate-forme aidant les data scientists à préparer leurs entretiens avec de vraies questions d'entretien posées par les meilleures entreprises. Connectez-vous avec lui sur Twitter : StrataScratch or LinkedIn.
 

Horodatage:

Plus de KDnuggetsGenericName