Image par auteur
Une déclaration assez audacieuse ! En prétendant que je peux garantir à quelqu'un que vous décrocherez un emploi, bien sûr.
OK, la vérité c'est que rien dans la vie n'est garanti, surtout trouver un emploi. Pas même en science des données. Mais ce qui vous rapprochera vraiment de la garantie, c'est d'avoir des projets de données dans votre portefeuille.
Pourquoi je pense que les projets sont si décisifs ? Parce que, s’ils sont choisis judicieusement, ils mettent en valeur le plus efficacement possible l’étendue et la profondeur de vos compétences techniques en science des données. C'est la qualité des projets qui compte, pas leur nombre. Ils doivent couvrir autant de compétences que possible en science des données.
Alors, quels projets vous garantissent cela sur le plus petit nombre de projets ? Si je me limitais à réaliser seulement trois projets, je les sélectionnerais.
- Aperçu des données sur l’offre et la demande de la ville
- Prédiction de l'attrition des clients
- Police prédictive
Mais ne le prenez pas trop au pied de la lettre. Le message ici n’est pas que vous devez vous en tenir strictement à ces trois éléments. Je les ai sélectionnés car ils couvrent la plupart des compétences techniques requises en science des données. Si vous souhaitez réaliser d'autres projets de science des données, n'hésitez pas à le faire. Mais si vous êtes limité en temps/nombre de projets, choisissez-les judicieusement et sélectionnez ceux qui testeront le plus large éventail de compétences en science des données.
En parlant de cela, précisons de quoi il s’agit.
Il existe cinq compétences fondamentales en science des données.
- Python
- Dispute de données
- Analyses statistiques
- Machine Learning
- Visualisation de données
Il s'agit d'une liste de contrôle que vous devriez prendre en compte lorsque vous essayez de tirer le meilleur parti des projets de science des données que vous choisissez.
Voici un aperçu de ce que ces compétences englobent.
Bien sûr, les compétences en science des données vont bien au-delà. Ils incluent également la connaissance de SQL et R, des technologies Big Data, de l'apprentissage en profondeur, du traitement du langage naturel et du cloud computing.
Cependant, leur nécessité dépend fortement de la description de poste. Mais vous ne pouvez pas vous passer des cinq compétences fondamentales que j’ai mentionnées.
Voyons maintenant comment les trois projets de science des données que j'ai choisis mettent en question ces compétences.
Certains de ces projets pourraient être un peu trop avancés pour certains. Dans ce cas, donnez-leur 19 projets de science des données pour les débutants un essai.
1. Comprendre l’offre et la demande des villes : analyse commerciale
La source: Aperçu des données sur l’offre et la demande de la ville
Topic: Analyse d'affaires
Bref aperçu: Les villes sont des centres d’interactions entre l’offre et la demande pour Uber. Leur analyse peut offrir un aperçu des activités et de la planification de l’entreprise. Uber vous fournit un ensemble de données contenant des détails sur les voyages. Vous devez répondre à onze questions pour donner un aperçu commercial des déplacements, de leur durée, de la demande de chauffeurs, etc.
L'exécution du projet: On vous pose onze questions auxquelles il faut répondre dans l'ordre affiché. Y répondre impliquera des tâches telles que
- Remplir les valeurs manquantes,
- Agréger les données,
- Trouver les plus grandes valeurs,
- Intervalle de temps d'analyse,
- Calculer des pourcentages,
- Calculer des moyennes pondérées,
- Trouver des différences,
- Visualiser les données, etc.
Compétences mises en valeur : Analyse exploratoire des données (EDA) pour sélectionner les colonnes nécessaires et remplir les valeurs manquantes, en obtenant des informations exploitables sur les trajets effectués (différentes périodes, ratio moyen pondéré de trajets par conducteur, recherche des heures les plus chargées pour aider à rédiger un horaire de chauffeur, la relation entre l'offre et demande, etc.), visualisant la relation entre l’offre et la demande.
2. Prédiction du taux de désabonnement des clients : une tâche de classification
La source: Prédiction de l'attrition des clients
Topic: Apprentissage supervisé (classification)
Bref aperçu: Dans ce projet de science des données, Sony Research vous fournit un ensemble de données sur les clients d'une entreprise de télécommunications. Ils attendent de vous que vous effectuiez une analyse exploratoire et que vous extrayiez des informations. Ensuite, vous devrez créer un modèle de prédiction du taux de désabonnement, l'évaluer et discuter des problèmes lors du déploiement du modèle en production.
L'exécution du projet: Le projet doit être abordé dans ces grandes phases.
- Analyse exploratoire et extraction d'informations
-
- Vérifier les principes fondamentaux des données (nuls, unicité)
- Choisissez les données dont vous avez besoin et formez votre ensemble de données
- Visualiser les données pour vérifier la distribution des valeurs
- Former une matrice de corrélation
- Vérifiez l'importance des fonctionnalités
- Répartition Train/Test
-
- Utilisez apprendre pour diviser l'ensemble de données en formation et tests en utilisant le ratio de 80 % à 20 %
- Modèle prédictif
-
- Appliquez des classificateurs et choisissez-en un à utiliser en production en fonction des performances
-
- Utilisez la précision et le score F1 tout en comparant les performances de différents algorithmes
- Résultats du modèle
-
- Utiliser des modèles ML classiques
- Visualisez l'arbre de décision et voyez comment les algorithmes basés sur l'arborescence fonctionnent
- Modèle d'apprentissage en profondeur
-
- Essayez le réseau de neurones artificiels (ANN) sur ce problème
- Problèmes de déploiement
-
- Surveiller les performances du modèle pour éviter la dérive des données et la dérive des concepts
Compétences mises en valeur : Analyse exploratoire des données (EDA) et traitement des données pour vérifier les valeurs nulles, l'unicité des données, obtenir des informations sur la distribution des données et les corrélations positives et négatives ; visualisation des données sous forme d'histogrammes et de matrice de corrélation ; appliquer des classificateurs ML à l'aide de la bibliothèque sklearn, mesurer la précision des algorithmes et le score F1, comparer les algorithmes, visualiser l'arbre de décision ; utiliser un réseau de neurones artificiels pour voir les performances de l'apprentissage en profondeur ; déploiement de modèles où vous devez être conscient des problèmes de dérive des données et de dérive des concepts dans le cycle MLOps.
3. Police prédictive : examen des implications
La source: Les périls de la police prédictive
Topic: Apprentissage supervisé (régression)
Bref aperçu: Cette police prédictive utilise des algorithmes et des analyses de données pour prédire où les crimes sont susceptibles de se produire. L’approche que vous avez choisie peut avoir de profondes implications éthiques et sociétales. Il utilise les données sur la criminalité de la ville de San Francisco de 2016 provenant de son initiative d'open data. Le projet tentera de prédire le nombre d'incidents criminels dans un code postal donné, à un certain jour de la semaine et à une certaine heure de la journée.
L'exécution du projet: Voici les principales étapes entreprises par l’auteur du projet.
- Sélection des variables et calcul du nombre total de crimes par an par code postal et par heure
- Entraîner/tester les données fractionnées chronologiquement
- Essayer cinq algorithmes de régression :
-
- Régression linéaire
- Forêt aléatoire
- Les voisins les plus proches
- XGBoost
- Perceptron multicouche
Compétences mises en valeur : Analyse exploratoire des données (EDA) et gestion des données où vous vous retrouvez avec les données sur les crimes, l'heure, le jour de la semaine et le code postal ; ML (apprentissage/régression supervisé) où vous essayez les performances de la régression linéaire, du régresseur de forêt aléatoire, du K-plus proche voisin, de XGBoost ; l'apprentissage profond où vous utilisez le perceptron multicouche pour essayer d'expliquer les résultats que vous obtenez ; obtenir des informations sur la prédiction du crime et sa possibilité d'être utilisée à mauvais escient ; déploiement du modèle dans une carte interactive.
Si vous souhaitez réaliser plus de projets en utilisant des compétences similaires, voici plus de 30 idées de projets ML.
En réalisant ces projets de science des données, vous testerez et acquerrez des compétences essentielles en science des données, telles que la gestion des données, la visualisation des données, l'analyse statistique, la création et le déploiement de modèles ML.
En parlant de ML, je me suis concentré ici sur l'apprentissage supervisé car il est plus couramment utilisé en science des données. Je peux presque vous garantir que ces projets de science des données seront suffisants pour vous décrocher l'emploi souhaité.
Mais vous devriez lire attentivement la description de poste. Si vous constatez que cela nécessite un apprentissage non supervisé, de la PNL ou quelque chose d'autre que je n'ai pas abordé ici, incluez un ou deux projets de ce type dans votre portfolio.
Quoi qu’il en soit, vous n’êtes toujours pas coincé avec seulement trois projets. Ils sont là pour vous guider dans votre choix Un flux efficace peut augmenter des projets qui garantiront you décrocher un emploi. Soyez conscient de la complexité des projets, car ils doivent couvrir de manière approfondie les compétences fondamentales en science des données.
Maintenant, c'est parti et décrochez ce travail !
Nate Rosidi est data scientist et en stratégie produit. Il est également professeur adjoint enseignant l'analytique et fondateur de StrataScratch, une plate-forme aidant les data scientists à préparer leurs entretiens avec de vraies questions d'entretien posées par les meilleures entreprises. Connectez-vous avec lui sur Twitter : StrataScratch or LinkedIn.
- Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
- PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
- PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
- PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
- PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
- La source: https://www.kdnuggets.com/3-data-science-projects-guaranteed-to-land-you-that-job?utm_source=rss&utm_medium=rss&utm_campaign=3-data-science-projects-guaranteed-to-land-you-that-job
- :possède
- :est
- :ne pas
- :où
- $UP
- 2016
- a
- A Propos
- précision
- acquérir
- adjoint
- Avancée
- algorithmes
- presque
- aussi
- an
- selon une analyse de l’Université de Princeton
- analytique
- l'analyse
- et les
- répondre
- Application
- une approche
- SONT
- tableau
- artificiel
- AS
- At
- tentative
- auteur
- moyen
- éviter
- conscients
- basé
- BE
- car
- jusqu'à XNUMX fois
- Big
- Big Data
- goupille
- construire
- Développement
- la performance des entreprises
- mais
- by
- le calcul
- CAN
- prudemment
- maisons
- certaines
- challenge
- vérifier
- Selectionnez
- choisir
- choisi
- Villes
- Ville
- réclame
- classification
- clair
- Fermer
- le cloud
- le cloud computing
- code
- Colonnes
- COM
- communément
- Sociétés
- De l'entreprise
- comparant
- Complété
- compléter
- complexité
- informatique
- concept
- NOUS CONTACTER
- Considérer
- Corrélation
- corrélations
- cours
- couverture
- Criminalité
- Crimes
- des clients
- Clients
- cycle
- données
- l'analyse des données
- Analyse de Donnée
- science des données
- Data Scientist
- visualisation de données
- journée
- décision
- arbre de décision
- décisif
- profond
- l'apprentissage en profondeur
- Demande
- dépend
- déployer
- profondeur
- la description
- voulu
- détails
- différences
- différent
- discuter
- dans
- distribution
- do
- faire
- Ne pas
- avant-projet
- driver
- conducteurs
- de manière efficace
- onze
- d'autre
- englober
- fin
- assez
- notamment
- essential
- etc
- éthique
- évaluer
- Pourtant, la
- Examiner
- exécution
- attendre
- Expliquer
- L'analyse exploratoire des données
- précieux
- extrait
- f1
- Fonctionnalité
- ressentir
- remplissage
- trouver
- cinq
- concentré
- Pour
- forêt
- formulaire
- fondateur
- Francisco
- gratuitement ici
- De
- fondamental
- Notions de base
- obtenez
- Donner
- donné
- donne
- Go
- guarantir
- garantie
- guide
- arriver
- Vous avez
- ayant
- he
- fortement
- vous aider
- aider
- ici
- lui
- heure
- HEURES
- Comment
- How To
- HTTPS
- hubs
- i
- if
- implications
- in
- comprendre
- perspicacité
- idées.
- interactions
- Interactif
- Interview
- questions d'interview
- Interviews
- développement
- impliquer
- vous aider à faire face aux problèmes qui vous perturbent
- IT
- SES
- Emploi
- jpg
- KDnuggetsGenericName
- connaissance
- Transport routier
- atterrissage
- langue
- le plus grand
- apprentissage
- Bibliothèque
- VIE
- Probable
- limité
- peu
- Style
- le plus bas
- Entrée
- majeur
- a prendre une
- de nombreuses
- Localisation
- Matrice
- Matière
- maximales
- mesure
- mentionné
- message
- pourrait
- manquant
- ML
- MLOps
- modèle
- numériques jumeaux (digital twin models)
- PLUS
- (en fait, presque toutes)
- beaucoup
- Nature
- Langage naturel
- Traitement du langage naturel
- Besoin
- nécessaire
- négatif
- voisins
- réseau et
- Neural
- Réseau neuronal
- nlp
- rien
- maintenant
- nombre
- of
- de rabais
- code
- on
- ONE
- uniquement
- or
- de commander
- Autre
- vue d'ensemble
- /
- Pourcentages
- effectuer
- performant
- effectuer
- effectue
- périodes
- en particulier pendant la préparation
- et la planification de votre patrimoine
- plateforme
- Platon
- Intelligence des données Platon
- PlatonDonnées
- maintien de l'ordre
- portefeuille
- positif
- possibilité
- possible
- prévoir
- prédiction
- prédictive
- Préparer
- Problème
- d'ouvrabilité
- traitement
- Produit
- Vidéo
- Professeur
- profond
- Projet
- projets
- qualité
- fréquemment posées
- R
- aléatoire
- gamme
- rapport
- Lire
- réal
- régression
- relation amoureuse
- conditions
- a besoin
- un article
- Résultats
- s
- San
- San Francisco
- calendrier
- Sciences
- Scientifique
- scientifiques
- But
- sur le lien
- choisi
- la sélection
- devrait
- vitrine
- présenté
- similaires
- compétences
- So
- sociétal
- quelques
- Quelqu'un
- quelque chose
- Sony
- scission
- SQL
- statistique
- Étapes
- bâton
- Encore
- de Marketing
- tel
- enseignement supervisé
- la quantité
- Offre et la demande
- Prenez
- tâches
- Enseignement
- Technique
- compétences techniques
- Les technologies
- télécommunications
- tester
- Essais
- qui
- Le
- leur
- Les
- puis
- Ces
- l'ont
- Pense
- this
- ceux
- trois
- fiable
- à
- trop
- top
- Total
- Formation
- arbre
- Vérité
- Essai
- essayer
- deux
- Uber
- compréhension
- unicité
- apprentissage non supervisé
- utilisé
- d'utiliser
- Usages
- en utilisant
- utilise
- Valeurs
- les variables
- très
- visualisation
- souhaitez
- semaine
- Quoi
- quand
- qui
- tout en
- sera
- comprenant
- sans
- pourra
- XGBoost
- an
- you
- Votre
- zéphyrnet
- Zip