15 choses que je recherche chez les candidats en science des données
Cet article présente des conseils pour toute personne cherchant ou embauchant des emplois en science des données, rédigés par une personne ayant des connaissances pratiques et utiles.
By Mathias Gruber, Scientifique en chef des données chez LEO Pharma
Vecteur de bureau créé par macrovector — www.freepik.com
La science des données est plus populaire que jamais mais paradoxalement semble aussi plus fragmentée et mal définie que jamais. Il peut être assez difficile pour les nouveaux arrivants de trouver comment percer sur le terrain, et peut-être encore plus difficile, pour les gestionnaires de trouver comment embaucher pour des postes à moins que vous ne sachiez exactement ce que vous recherchez.
Dans cet article, je résume mes réflexions sur ce que je recherche chez les candidats en science des données. Avis de non-responsabilité : ce sont des réflexions basées sur mon temps de travail dans des sociétés de biotechnologie et pharmaceutiques où la science des données est un soutenir fonction et non une partie essentielle de l'entreprise ; c'est-à-dire pas le genre de postes où vous travaillez sur des architectures d'IA pour la prévision des ventes uniquement au, mais où vous devez travailler de bout en bout pour créer de la valeur à travers plusieurs zone commerciale.
1. Passion & Curiosité
La passion et la curiosité sont, bien sûr, des qualités souhaitables pour quiconque travaille avec la technologie. La science des données étant la grande bête qu'elle soit, je pense que c'est un prérequis encore plus omniprésent dans ce domaine spécifique. Dans de nombreux autres domaines techniques, vous pouvez vous spécialiser dans un ensemble de compétences et les utiliser pour générer de la valeur commerciale pendant des années, peut-être avec la nécessité d'apprendre un nouveau langage de programmation ou un nouvel outil tous les X années. Cependant, la science des données est intrinsèquement une sur une base scientifique discipline qui se développe Tous les jours.
Les candidats passionnés qui recherchent en permanence de nouveaux développements en science des données et les partagent avec l'équipe ont une immense valeur.
De plus, un certain niveau de passion et de ténacité est requis pour que les candidats continuent à vouloir travailler dans le domaine de la science des données, sans sauter de travail par frustration tout le temps ; déboguer pourquoi un algorithme ne fonctionne pas peut être beaucoup plus compliqué et frustrant que de déboguer pourquoi un logiciel ou une infrastructure ne fonctionne pas. Vous devez être un type particulier de fou pour traverser ces frustrations plusieurs fois. Comme je l'ai dit précédemment:
Si l'option se situe entre un data scientist senior expérimenté et banal et un candidat violemment passionné avec du feu dans les yeux, choisissez ce dernier, tout le reste étant égal.
Ne vous lancez pas dans la science des données si vous n'en avez pas la passion ; ça ne vaut pas le coup. Bande dessinée de xkcd.com
2. Capacité mentale
La science des données en tant que métier n'est pas pour tout le monde. Nous devrions arrêter de prétendre que c'est le cas.
Alberto Romero
a récemment écrit un intéressant poster sur ce sujet, décrivant l'erreur que beaucoup de gens ont ; si vous travaillez suffisamment dur, vous pouvez devenir un data scientist. Ce n'est pas vrai. C'est un travail difficile :
Vous devez comprendre les mathématiques et les algorithmes, vous devez faire du codage et du développement de logiciels, vous devez comprendre les problèmes commerciaux, et les vous devez avoir de bonnes compétences en narration et en relations interpersonnelles. Tout le monde ne peut pas faire toutes ces choses et plus bien.
Je ne dis pas que vous avez besoin d'un QI de 130+ pour être un data scientist. Je n'essaie pas non plus d'effrayer quiconque de se convertir à la science des données. Au contraire, vous pouvez probablement réussir dans le domaine de la science des données si vous occupez actuellement un autre poste de niveau universitaire. Mais si vous êtes au bas de la courbe du QI et que vous avez du mal à comprendre de nouveaux concepts et processus, c'est vraiment une bataille difficile ; apprendre constamment de nouvelles choses et remettre en question le statu quo est le pain et le beurre d'un travail de science des données. Notez que je ne parle pas ici de scientifiques des données citoyennes utilisant des outils à faible code/sans code.
Vous n'avez pas besoin d'être un génie, mais un certain niveau d'intelligence est requis. Bande dessinée de xkcd.com
3. Capacité à traduire en problèmes de ML
Être bon dans l'ingénierie des algorithmes d'apprentissage automatique (ML) est une chose. Être doué pour comprendre les problèmes de l'entreprise en est une autre. Mais fusionner ces deux et trouver comment résoudre les problèmes commerciaux avec ML est une toute autre affaire.
Vous devez être capable de traduire les problèmes du monde réel en problèmes d'apprentissage automatique que vous pouvez résoudre.
récemment Brian Kent a écrit un grand poster décrivant cette facette de la science des données un peu plus en détail. Essentiellement, lorsque vous travaillez en tant que data scientist (au moins dans les postes où j'ai occupé), vous rarement obtenez des affectations du type « ceci est votre ensemble de données, ajustez un modèle de régression pour cette cible ». Le plus souvent, vous serez confronté à des problèmes commerciaux tels que les suivants :
- « Nous souhaitons améliorer notre flux de trésorerie en utilisant certains de ces nouveaux éléments d'IA »
- « Nous voulons améliorer le rendement de ce produit chimique de 10 % avec le ML. »
- « Nous voulons améliorer l'efficacité de tel ou tel processus/machine.
Convertir ces objectifs du monde réel en problèmes de ML résolvables est un extrêmement compétence sous-estimée - vous devez acquérir une compréhension approfondie du processus métier en question et des données disponibles, vous avez besoin d'une base solide sur ce qui peut réellement être fait avec ML, et enfin, vous avez besoin d'une bonne intuition pour savoir comment appliquer différentes techniques pour résoudre efficacement l'objectif commercial à portée de main.
Cet ensemble de compétences est rare, mais c'est quelque chose que vous pouvez pratiquer, par exemple, en vous familiarisant avec une multitude d'applications ML et en passant réellement du temps à réfléchir à ce genre de problèmes.
Quelles données ? Quel modèle? Déterminer ce à résoudre n'est pas facile. Bande dessinée de xkcd.com
4. Honnêteté et humilité
Imaginez ceci : l'entreprise souhaite utiliser l'IA/ML pour optimiser certains processus. Ils sont excités, vous êtes excités et tout le monde a hâte de voir les résultats. Vous faites un modèle, et au début, il a l'air génial, et tout le monde lève la main. Vous réalisez ensuite que vous avez fait une erreur dans la façon dont vous avez évalué le modèle, et c'est en fait horrible - il n'y a pas de signal dans les données du tout.
Vous devez être la personne qui s'approprie pleinement et admettre si vous avez fait une erreur, quelles qu'en soient les conséquences
Des erreurs seront commises. Nous faisons tous des erreurs tout le temps. Mais personne n'est servi par des erreurs balayées sous le tapis, ou bien pire, imputé aux autres. La situation ci-dessus doit être évitée en ayant toujours un certain niveau d'humilité lors de la présentation des résultats ; s'il s'agit de résultats préliminaires qui n'ont pas encore été validés par des pairs, alors clairement l'indiquer lors de leur présentation. Ne le vendez pas trop. De plus, un excellent candidat sera toujours son pire critique :
Passez autant de temps à essayer de réfuter vos propres conclusions que vous en passez. Cela renforcera la confiance.
L'honnêteté est géniale pour la science des données. Bande dessinée par xkcd.com
5. Automatisation et optimisation
Tout le monde déteste les tâches répétitives. Certaines personnes le détestent tellement qu'elles font tout ce qu'elles peuvent pour l'automatiser. Nous parlons de choses à la mode telles que l'autoML et le copilote GitHub, à l'automatisation de la configuration de l'environnement de code et généralement de tout en tant que code, à l'automatisation même de l'enregistrement de l'heure quotidienne, etc. L'automatisation et l'optimisation, pour moi, sont certains des états d'esprit qui caractérisent les grands développeurs/scientifiques des données.
Automatisez tout. Quand ça a du sens. Bande dessinée par xkcd.com
6. Pragmatique et recherche de valeur
La science des données est un sur une base scientifique la discipline. Cependant, lorsque vous êtes employé en tant que scientifique des données, le travail consiste généralement à appliquer des outils de science des données pour créer de la valeur commerciale. Il s'agit rarement de faire de la recherche, de proposer de nouveaux algorithmes, d'innover, etc. Parfois, mais rarement. Nous sommes généralement employés pour créer de la valeur commerciale.
L'objectif de notre métier est de créer de la valeur commerciale.
Lorsque vous occupez un poste en science des données industrielles, vous devez être pragmatique envers cet objectif global. J'ai écrit sur plusieurs pièges à éviter dans un article précédent sur les leçons que j'ai apprises pendant mon temps dans l'industrie ; Vous pouvez lire plus ici:
20 leçons apprises du Junior Data Scientist au Chief Data Scientist
En résumé, je dirais qu'une approche pragmatique implique :
- Restez toujours centré sur le client - si l'entreprise n'est pas à bord, tuez le projet, cela ne créera jamais de valeur.
- Créez et sélectionnez les bonnes idées - refusez de travailler sur des problèmes/idées uniquement parce que quelqu'un de plus haut placé pense que c'est une bonne idée. Si c'est techniquement impossible, vous devez passer à autre chose.
- Évitez la sur-ingénierie - si une approche plus simple peut le résoudre en deux fois moins de temps, faites-le à la place.
- Concentrez-vous sur l'exécution - ne vous laissez pas entraîner dans trop de présentations, de discussions, et si ceci et si cela. Commencez à faire quelque chose.
Je pense qu'il y a beaucoup de lectures ici sur Medium qui peuvent vous aider à devenir plus pragmatique en tant que data scientist. j'ai récemment apprécié cet article by Denis Eilers, qui décrit comment être plus efficace et percutant dans votre travail, et cet article by Archie de Berker sur le passage de l'université à l'industrie.
Soyez pragmatique et créez de la valeur commerciale. Ne vous concentrez pas sur des choses qui ne créent pas de valeur. Bande dessinée par xkcd.com
7. Personnalité et forme d'équipe
Évidemment, la personnalité du candidat et son intégration au reste de l'équipe sont importantes. C'est le cas pour tous les candidats dans tous les emplois. C'est en partie pourquoi de nombreuses entreprises ont des services RH et font des tests de personnalité avant l'embauche. Les psychologues travaillent souvent avec le «grand cinq” traits de personnalité, que je trouve particulièrement utiles pour évaluer les personnes que vous venez de rencontrer. En ce qui concerne ces traits de personnalité, je pense que certains sont tout à fait essentiels, par exemple, un certain niveau de conscience (efficace/organisé), désagrément (dites votre opinion et ne soyez pas un ventouse), et extraversion (parler avec les entreprises, organiser des présentations, etc.), ainsi que ouverture (recherchez de nouvelles technologies et tuez vos chéris). Dans l'ensemble, cependant, je ne pense pas qu'il existe un profil de personnalité « idéal » pour les data scientists, il s'agit donc surtout d'éviter les personnalités toxiques.
Soyez juste cool et gentil. Bande dessinée par xkcd.com
8. Expérience de codage
Le codage est une partie essentielle de la science des données. En règle générale, le code que vous écrivez doit être partagé avec vos collègues pour le mettre en production afin que vous et vos futurs collègues puissiez le maintenir pendant de nombreuses années. Par conséquent, l'expérience du développement de logiciels généraux et des bonnes pratiques est l'une des qualités les plus importantes pour les scientifiques des données.
Si un autre développeur doit passer 2 fois plus de temps à réviser et à corriger le code que vous avez écrit avant qu'il ne puisse entrer en production, alors vous êtes un préjudice pour l'équipe et non un atout
Notez que je ne me soucie pas trop des différents paradigmes de codage, ni si vous préférez les cahiers ou les scripts purs, etc. Ce sont des normes que les équipes individuelles peuvent définir. Je parle de la façon dont j'ai vu des développeurs juniors écrire du code parfaitement compréhensible et pouvant être révisé en quelques minutes, et j'ai vu des développeurs seniors avec plus de 30 ans d'expérience condenser 2 semaines de travail en 4 lignes de code R incompréhensible .
C'est un énorme avantage si vous avez un compte Github public démontrant que vous pouvez écrire du code compréhensible avec une bonne documentation.
Écrivez du code que les autres peuvent comprendre. Bande dessinée de xkcd.com
9. Compétences de débogage
Nous plaisantons souvent sur le fait qu'une partie du travail consiste à passer tout votre temps sur StackOverflow à rechercher des extraits de code. Bien que vous puissiez trouver de nombreuses excellentes solutions à des problèmes difficiles de cette manière, la compétence de débogage est bien plus que cela.
Ne soyez pas la personne dont la seule compétence de débogage est StackOverflow
Du côté du code pur des choses, vous devez lire la documentation pour comprendre comment les choses fonctionnent réellement, et parfois vous devrez même parcourir le code source de la bibliothèque open source que vous utilisez. Du côté de la science des données, les choses peuvent devenir beaucoup plus compliquées ; vous devrez peut-être lire des articles pour comprendre comment les choses sont censées fonctionner, et à partir de là, comprendre pourquoi cela ne fonctionne pas - cela peut vraiment être une expérience brutale, d'autant plus que tous les détails numériques de la façon dont les gens implémentent les algorithmes ne sont pas toujours documenté dans le code ou le papier.
Je trouverais beaucoup plus intéressant de voir comment un candidat déboguerait un morceau de code cassé, plutôt que sa capacité à résoudre un problème donné en consultant des ressources en ligne.
Le débogage est une compétence et un art. Bande dessinée de xkcd.com
10. Adaptabilité
Adaptabilité est probablement déjà couvert par les points sur le pragmatisme et la personnalité. Même ainsi, l'adaptabilité est si essentielle que je la voulais comme un point distinct. Le terrain bouge vite, et nous devons pouvoir tuer nos chéris. Vous avez passé des centaines d'heures sur un projet, mais il s'avère qu'il ne crée pas de valeur commerciale ? Tue le. Vous avez passé des centaines d'heures avec Tensorflow, mais maintenant toute l'équipe souhaite utiliser PyTorch ? Déposez-le et apprenez PyTorch. Vous avez passé des milliers d'heures avec Python, mais maintenant ce n'est plus suffisant pour ce que vous faites ? Laissez tomber et apprenez une nouvelle langue qui est suffisante. Ne vous attardez pas sur le temps que vous avez passé à faire quelque chose ; cela ne fera que vous ralentir.
Le jour où vous arrêtez de vous adapter est le jour où vous commencez à perdre le jeu de la science des données
Gardez l'esprit ouvert et restez adaptable. Bande dessinée de xkcd.com
11. Potentiel de pile complet
Je n'ai décrit précédemment comment je pense que la recommandation typique de la science des données de se spécialiser dans un sujet donné pour éviter de devenir un " touche-à-tout, maître de rien " est un conseil terrible. Il faut plutôt s'efforcer de devenir « touche-à-tout, maître de plusieurs. "
Ne fuyez pas l'idée de la « licorne de la science des données », efforcez-vous plutôt de le devenir.
Cela dit, je ne chercherais jamais licornes de la science des données; le vivier de talents est trop rare et la définition est trop floue. Ce que je ferais, cependant, c'est de rechercher les personnes qui se plaignent du fait qu'il est "impossible d'être une licorne de la science des données". Dans mon livre, cette affirmation, assez répandue dans l'industrie, est toxique et indique une aversion à se salir les mains et à faire avancer les choses.
Naturellement, vous n'avez pas besoin de devenir un développeur frontend/backend à part entière et un ingénieur cloud/data également. Mais je trouve que les gens qui sont ouverts à l'idée de se lancer dans d'autres domaines sont beaucoup plus efficaces pour obtenir des résultats.
Restez ouvert à l'élargissement de vos horizons, même si vous ne deviendrez peut-être pas un maître. Bande dessinée de xkcd.com
12. Contexte
Avoir une formation en bioinformatique, en physique quantique ou dans d'autres domaines scientifiques est évidemment avantageux pour s'aventurer dans la science des données ; cela signifie que vous êtes habitué à lire des articles de recherche, que vous avez déjà effectué des analyses statistiques, peut-être un peu de programmation, etc. Cependant, avoir une éducation sophistiquée n'est en aucun cas une exigence. Ce ne sont que quelques années d'apprentissage structuré. Mais naturellement, ce que vous avez fait et réalisé précédemment est pris en compte lors de la candidature à de nouveaux emplois.
J'engagerais quelqu'un qui avait rampé de rien au grand maître des compétitions Kaggle sur n'importe quelle éducation de fantaisie en un clin d'œil, tout le reste étant égal.
Votre parcours influence naturellement vos compétences actuelles. Bande dessinée de xkcd.com
13. Conte
Ce point a déjà été évoqué un nombre incalculable de fois, je n'y consacrerai donc pas beaucoup de temps, même s'il est important : les data scientists ont besoin de raconter une bonne histoire. Qu'est-ce que ça fait signifier? Apprenez à créer des visualisations attrayantes, à faire de belles présentations, à organiser des discussions intéressantes, à rédiger des articles de blog, etc.
Plus vous le faites et essayez de le faire mieux que la dernière fois, mieux vous serez
Apprenez à raconter des histoires qui ont un impact. Bande dessinée de xkcd.com
14. Collaboration
Une de mes faiblesses est que je ne suis pas très doué pour la collaboration - je pense que c'est la conséquence d'avoir été une armée à un seul homme pendant plus de 10 ans avant d'avoir un «vrai» travail. Ce fait, cependant, me fait apprécier encore plus les personnes qui sont douées pour collaborer ; créer de la valeur commerciale avec la science des données est une discipline d'équipe, et vous devez donc être doué pour la collaboration, avec tout ce que cela comprend ; programmation en binôme, documentation appropriée, commits git sensibles, planification de sprint, rétrospectives et tout ce jazz. Ce genre d'expérience est définitivement un avantage! Si vous débutez dans la collaboration, trouvez un projet open source intéressant et impliquez-vous.
Il faut savoir travailler en équipe ! La science des données ne peut pas se faire comme une armée à une seule personne. Bande dessinée par xkcd.com
15. Expérience en science des données
Le dernier point de ma liste est réel science des données vivre. Naturellement, il est avantageux que le candidat ait été exposé à diverses disciplines du domaine; travailler avec la vision par ordinateur, le traitement du langage naturel, la prévision, les techniques classiques supervisées/non supervisées, l'apprentissage profond général, etc.
D'après mon expérience, vous obtenez rarement « la même » mission plusieurs fois. C'est donc un avantage d'avoir comme vaste une base de connaissances possible — un jour, vous ferez peut-être des prévisions de ventes, un autre vous pourrez prévoir les propriétés chimiques des molécules ou optimiser les processus de production. Si j'embauchais pour la prévision des ventes, je ne m'inquiéterais pas trop si le candidat n'avait jamais fait de prévision des ventes auparavant, si la personne avait une longue expérience dans d'autres types d'apprentissage automatique. Apprendre à s'attaquer à de nouveaux problèmes n'est qu'une autre journée de travail.
L'obstacle à l'acquisition d'une vaste expérience est relativement faible ; participer activement à quelques compétitions Kaggle dans divers domaines, alors vous devriez commencer à avoir une vue d'ensemble de base. De plus, en faisant cela, vous créerez un portefeuille de ce que vous pouvez faire. je ne dis pas que c'est Easy faire, juste qu'il est facile de commencer. Assurez-vous d'arriver au point où vous le comprenez parfaitement chaque fois que vous rencontrez un nouveau concept dans ce processus.
Ne pas appliquez simplement les algorithmes comme des boîtes noires, mais vous faites comprendre ce qu'ils font réellement.
Plus vous restez longtemps dans le jeu, plus vous gagnez d'expérience ; nous continuons tous à apprendre. Bande dessinée de xkcd.com
Remarques finales
J'ai fini par écrire un article assez long. Si vous avez tout lu, je vous remercie Je me rends compte que bon nombre des points soulevés s'appliqueraient à de nombreux métiers, notamment lorsqu'il s'agit de métiers similaires tels que l'ingénierie des données, l'ingénierie cloud, etc. Ce sont mes réflexions de une perspective de science des données. Veuillez noter que je ne m'attendrais jamais à ce qu'un développeur junior convienne parfaitement à tous les points mentionnés - je chercherais plutôt quelqu'un qui peut évoluer vers tous les points mentionnés. Enfin, j'aimerais avoir des commentaires sur ce que les autres personnes recherchent chez les candidats à la science des données, alors n'hésitez pas à laisser un commentaire ou à nous contacter via tout autre canal.
Bio: Mathias Gruber a une vaste expérience dans les sciences naturelles, en particulier les nanosciences et la biophysique. Mathias s'épanouit dans des environnements difficiles et se passionne pour l'acquisition de connaissances et le développement de technologies de pointe. Les principaux intérêts actuels sont tout ce qui concerne la science des données, c'est-à-dire la création de solutions à des problèmes de données à grande échelle à l'aide d'algorithmes d'apprentissage automatique, avec un accent particulier sur les méthodes d'apprentissage en profondeur de pointe.
ORIGINALE. Republié avec permission.
Connexe:
Source : https://www.kdnuggets.com/2021/08/15-things-data-science-candidates.html
- "
- &
- Compte
- Avantage
- conseils
- AI
- algorithme
- algorithmes
- Tous
- Application
- applications
- Armée
- Art
- article
- atout
- Automation
- Bataille
- Bell
- biotech
- Bit
- Noir
- Blog
- Blogue
- planche
- dans le pain
- construire
- Développement
- la performance des entreprises
- les soins
- Argent liquide
- cash-flow
- pris
- la chimie
- chef
- le cloud
- code
- Codage
- collaboration
- Venir
- Commun
- Sociétés
- Compétitions
- Vision par ordinateur
- confiance
- La création
- curiosité
- Courant
- courbe
- données
- science des données
- Data Scientist
- journée
- affaire
- l'apprentissage en profondeur
- livrer
- détail
- Développeur
- mobiles
- Développement
- Directeur
- Goutte
- Éducation
- Efficace
- efficace
- emploi
- ingénieur
- ENGINEERING
- Environment
- etc
- exécution
- expansion
- d'experience
- Visage
- RAPIDE
- Des champs
- Figure
- finalement
- Incendie
- Prénom
- s'adapter
- flux
- Focus
- Avant
- gratuitement ici
- Des frustrations
- plein
- fonction
- avenir
- jeu
- Général
- Git
- GitHub
- Bien
- GPU
- l'
- Croître
- ici
- louer
- Embauchons
- Histoire
- appuyez en continu
- Horizons
- Comment
- How To
- hr
- HTTPS
- majeur
- Des centaines
- idée
- image
- Impact
- industriel
- industrie
- influencer
- Infrastructure
- Intelligence
- Interview
- intuition
- impliqué
- IT
- Emploi
- Emplois
- spécialisées
- langue
- gros
- APPRENTISSAGE
- savant
- apprentissage
- Niveau
- Bibliothèque
- Liste
- Location
- love
- machine learning
- math
- moyenne
- ML
- modèle
- Bougez
- se déplace
- Langage naturel
- Traitement du langage naturel
- Neural
- Nouvelle technologie
- ordinateurs portables
- en ligne
- ouvert
- open source
- Opinion
- Option
- Autre
- Autres
- Papier
- Personnes
- Personnalité
- Traits de personnalité
- objectifs
- Pharmacie
- Physique
- image
- et la planification de votre patrimoine
- Beaucoup
- pool
- Populaire
- portefeuille
- Poteaux
- Présentations
- Vidéo
- Profil
- Programmation
- Projet
- public
- Python
- pytorch
- qualité
- Quantum
- la physique quantique
- en cours
- Les raisons
- Réflexions
- Inscription
- régression
- un article
- Resources
- REST
- Résultats
- Courir
- vente
- Escaliers intérieurs
- Sciences
- STARFLEET SCIENCES
- scientifiques
- pour écran
- sens
- set
- Partager
- commun
- Shorts
- compétences
- So
- Logiciels
- développement de logiciels
- Solutions
- RÉSOUDRE
- passer
- Dépenses
- Sportive
- sprint
- Normes
- Commencer
- j'ai commencé
- Région
- Déclaration
- Statut
- rester
- Stories
- storytelling
- succès
- réussi
- la quantité
- Talent
- parlant
- Talks
- Target
- technologie
- Technique
- Technologie
- tensorflow
- tests
- La Source
- En pensant
- fiable
- top
- métiers
- licorne
- Plus-value
- vision
- WHO
- Wikipédia
- dans les
- activités principales
- En milieu de travail
- world
- vaut
- écriture
- X
- années
- Rendement