Минимум науки о данных: 10 основных навыков, которые вам нужно знать, чтобы начать заниматься наукой о данных

Переиздано Платоном

Читают: 0

Минимум Data Science: 10 основных навыков, которые нужно знать, чтобы начать заниматься Data Science

Наука о данных - это такая обширная область, которая включает в себя несколько подразделов, таких как подготовка и исследование данных, представление и преобразование данных, визуализация и представление данных, прогнозная аналитика, машинное обучение и т. Д. Для новичков вполне естественно задать следующий вопрос: Какие навыки мне нужны, чтобы стать специалистом по данным?

В этой статье мы обсудим 10 основных навыков, которые необходимы практикующим специалистам по данным. Эти навыки можно разделить на 2 категории, а именно: технологические навыки (Математика и статистика, навыки программирования, навыки обработки и предварительной обработки данных, навыки визуализации данных, навыки машинного обучения и навыки работы с проектами в реальном мире) и мягкие навыки (Навыки общения, навыки непрерывного обучения, навыки командного игрока и этические навыки).

Наука о данных - это область, которая постоянно развивается, однако овладение основами науки о данных предоставит вам необходимый фон, необходимый для реализации передовых концепций, таких как глубокое обучение, искусственный интеллект и т. Д. В этой статье будут обсуждаться 10 основных навыков для практикующие специалисты по данным.

(i) Статистика и вероятность

Статистика и вероятность используются для визуализации функций, предварительной обработки данных, преобразования функций, вменения данных, уменьшения размерности, проектирования функций, оценки модели и т. Д. Вот темы, с которыми вам необходимо ознакомиться:

а) Среднее

б) Медиана

в) Режим

г) Стандартное отклонение / дисперсия

д) Коэффициент корреляции и ковариационная матрица

е) Распределения вероятностей (биномиальное, пуассоновское, нормальное)

г) p-значение

з) MSE (среднеквадратичная ошибка)

i) Оценка R2

j) Теорема Байя (точность, отзыв, положительное прогнозное значение, отрицательное прогнозируемое значение, матрица неточностей, кривая ROC)

л) A / B тестирование

l) Моделирование Монте-Карло

(ii) многомерное исчисление

Большинство моделей машинного обучения построены с использованием набора данных, имеющего несколько функций или предикторов. Следовательно, знакомство с многомерным исчислением чрезвычайно важно для построения модели машинного обучения. Вот темы, с которыми вам необходимо ознакомиться:

а) Функции нескольких переменных

б) Производные и градиенты

c) Шаговая функция, сигмовидная функция, логит-функция, функция ReLU (выпрямленная линейная единица)

г) Функция затрат

д) Построение функций

е) Минимальное и максимальное значения функции

(iii) Линейная алгебра

Линейная алгебра - самый важный математический навык в машинном обучении. Набор данных представлен в виде матрицы. Линейная алгебра используется при предварительной обработке данных, преобразовании данных и оценке модели. Вот темы, с которыми вам необходимо ознакомиться:

а) Векторы

б) Матрицы

в) транспонировать матрицу

г) Обратная матрица

д) Определитель матрицы

е) Точечный продукт

ж) Собственные значения

з) Собственные векторы

(iv) Методы оптимизации

Большинство алгоритмов машинного обучения выполняют прогнозное моделирование, минимизируя целевую функцию, тем самым изучая веса, которые должны применяться к данным тестирования, чтобы получить предсказанные метки. Вот темы, с которыми вам необходимо ознакомиться:

а) Функция затрат / целевая функция

б) Функция правдоподобия

в) Функция ошибки

г) Алгоритм градиентного спуска и его варианты (например, алгоритм стохастического градиентного спуска)

Узнайте больше об алгоритме градиентного спуска здесь: Машинное обучение: как работает алгоритм градиентного спуска.

Навыки программирования необходимы в науке о данных. Поскольку Python и R считаются двумя самыми популярными языками программирования в науке о данных, важные знания обоих языков имеют решающее значение. Некоторым организациям могут потребоваться навыки только в R или Python, но не в обоих одновременно.

(i) Навыки в Python

Ознакомьтесь с базовыми навыками программирования на Python. Вот наиболее важные пакеты, с которыми вам следует научиться пользоваться:

а) Нумпи

б) Панды

в) Матплотлиб

г) Сиборн

д) Scikit-learn

е) PyTorch

(ii) Навыки в R

а) Тидиверс

б) Dplyr

в) Ggplot2

г) Каретка

д) Stringr

(iii) Навыки на других языках программирования

Некоторым организациям или отраслям могут потребоваться навыки владения следующими языками программирования:

а) Excel

б) Табло

в) Hadoop

г) SQL

д) Искра

Данные являются ключом к любому анализу в науке о данных, будь то анализ выводов, прогнозный анализ или предписывающий анализ. Прогностическая сила модели зависит от качества данных, которые использовались при построении модели. Данные поступают в разных формах, таких как текст, таблица, изображение, голос или видео. Чаще всего данные, которые используются для анализа, необходимо добывать, обрабатывать и преобразовывать, чтобы привести их в форму, подходящую для дальнейшего анализа.

i) Преодоление данных: Процесс обработки данных - важный шаг для любого специалиста по данным. Очень редко данные в проектах по науке о данных легко доступны для анализа. Более вероятно, что данные будут в файле, базе данных или извлечены из таких документов, как веб-страницы, твиты или PDF-файлы. Знание того, как обрабатывать и очищать данные, позволит вам извлекать из ваших данных важную информацию, которая в противном случае была бы скрыта.

II) Предварительная обработка данных: Знания о предварительной обработке данных очень важны и включают такие темы, как:

а) Работа с недостающими данными

б) вменение данных

в) Обработка категориальных данных

г) Кодирование меток классов для задач классификации

e) Методы преобразования признаков и уменьшения размерности, такие как анализ главных компонентов (PCA) и линейный дискриминантный анализ (LDA).

Понять основные компоненты хорошей визуализации данных.

a) Компонент данных: Важным первым шагом в принятии решения о том, как визуализировать данные, является определение типа данных, например, категориальные данные, дискретные данные, непрерывные данные, данные временных рядов и т. Д.

b) Геометрическая составляющая: Здесь вы решаете, какой вид визуализации подходит для ваших данных, например, диаграмма рассеяния, линейные графики, гистограммы, гистограммы, qqplots, гладкие плотности, коробчатые диаграммы, парные диаграммы, тепловые карты и т. Д.

c) Компонент отображения: Здесь вам нужно решить, какую переменную использовать в качестве переменной x и что использовать в качестве переменной y. Это важно, особенно если ваш набор данных многомерный с несколькими функциями.

d) Компонент шкалы: Здесь вы решаете, какие шкалы использовать, например, линейную шкалу, логарифмическую шкалу и т. Д.

e) Этикетки Компонент: Tон включает такие вещи, как метки осей, заголовки, легенды, размер шрифта и т. д.

f) Этический компонент: Здесь вы хотите убедиться, что ваша визуализация рассказывает правду. Вы должны осознавать свои действия при очистке, суммировании, манипулировании и создании визуализации данных и убедиться, что вы не используете визуализацию для введения в заблуждение или манипулирования вашей аудиторией.

Машинное обучение - очень важная отрасль науки о данных. Важно понимать структуру машинного обучения: постановку задачи, анализ данных, построение модели, тестирование и оценку и применение модели. Узнайте больше о структуре машинного обучения здесь: Процесс машинного обучения.

Ниже приведены важные алгоритмы машинного обучения, с которыми необходимо ознакомиться.

i) Обучение с учителем (непрерывное прогнозирование переменных)

а) Базовая регрессия

б) Мультирегрессионный анализ

в) Регуляризованная регрессия

ii) Обучение с учителем (прогнозирование дискретных переменных)

а) Классификатор логистической регрессии

б) Машинный классификатор опорных векторов

в) Классификатор K-ближайшего соседа (KNN)

г) Классификатор дерева решений

д) Классификатор случайных лесов

iii) Обучение без учителя

а) Алгоритм кластеризации KMeans

Навыки, приобретенные только в ходе курсовой работы, не сделают вас специалистом по данным. Квалифицированный специалист по данным должен быть в состоянии продемонстрировать доказательства успешного завершения реального проекта в области науки о данных, который включает в себя все этапы процесса обработки данных и машинного обучения, такие как построение проблемы, сбор и анализ данных, построение модели, тестирование модели, оценка модели. , и развертывание моделей. Реальные проекты в области науки о данных можно найти в следующем:

а) Проекты Kaggle

б) Стажировки

в) Из интервью

Специалистам по обработке данных необходимо иметь возможность делиться своими идеями с другими членами команды или бизнес-администраторами в своих организациях. Хорошие коммуникативные навыки будут играть здесь ключевую роль, чтобы иметь возможность передавать и представлять техническую информацию людям, мало или совсем не разбирающимся в технических концепциях науки о данных. Хорошие коммуникативные навыки помогут создать атмосферу единства и сплоченности с другими членами команды, такими как аналитики данных, инженеры данных, полевые инженеры и т. Д.

Наука о данных - это область, которая постоянно развивается, поэтому будьте готовы осваивать и изучать новые технологии. Один из способов оставаться в курсе событий в этой области - общаться с другими специалистами по данным. Некоторые платформы, способствующие развитию сетей, - это LinkedIn, GitHub и Medium (На пути к науке о данных и К ИИ публикации). Платформы очень полезны для получения актуальной информации о последних разработках в этой области.

Как специалист по данным, вы будете работать в команде аналитиков данных, инженеров, администраторов, поэтому вам потребуются хорошие коммуникативные навыки. Вы также должны быть хорошим слушателем, особенно на ранних этапах разработки проекта, когда вам нужно полагаться на инженеров или другой персонал, чтобы иметь возможность спроектировать и сформулировать хороший проект в области науки о данных. Быть хорошим командным игроком поможет вам преуспевать в деловой среде и поддерживать хорошие отношения с другими членами вашей команды, а также с администраторами или директорами вашей организации.

Поймите значение вашего проекта. Будьте честны с собой. Избегайте манипулирования данными или использования методов, которые намеренно приводят к искажению результатов. Будьте этичны на всех этапах, от сбора и анализа данных до построения, анализа, тестирования и применения модели. Избегайте фальсификации результатов с целью ввести в заблуждение или манипулировать вашей аудиторией. Будьте этичны в интерпретации результатов вашего проекта по науке о данных.

Таким образом, мы обсудили 10 основных навыков, необходимых практикующим специалистам по данным. Наука о данных - это область, которая постоянно развивается, однако овладение основами науки о данных предоставит вам необходимый фон, необходимый для реализации передовых концепций, таких как глубокое обучение, искусственный интеллект и т. Д.

Бенджамин О. Тайо является физиком, преподавателем науки о данных и писателем, а также владельцем DataScienceHub. Ранее Бенджамин преподавал инженерное дело и физику в Университете Центральной Оклахомы, Университете Гранд-Каньон и Университете штата Питтсбург.

Оригинал, Перемещено с разрешения.