Изучение науки о данных и машинного обучения: первые шаги

Исходный узел: 1057122

Изучение науки о данных и машинного обучения: первые шаги

Простое изучение науки о данных может показаться таким же сложным (если не больше), как попытка получить свою первую работу в этой области. С таким количеством вариантов и ресурсов в Интернете и в традиционных академических кругах рекомендуется рассмотреть эти предварительные условия и предварительную работу, прежде чем углубляться в науку о данных и AI / ML.


By Харшит Тяги, Инструктор по науке о данных | Наставник | YouTube.

Источник: https://www.wiplane.com/p/foundations-for-data-science-ml

В начале этого года я опубликовал интеллект-карту на Дорожная карта обучения науке о данных (показана ниже). Дорожная карта была широко принята, эта статья была переведена на разные языки, и большое количество людей поблагодарили меня за ее публикацию.

Все было хорошо, пока несколько претендентов не указали, что ресурсов слишком много и многие из них дороги. Программирование на Python было единственной ветвью, в которой было несколько действительно хороших курсов, но на этом они заканчиваются для начинающих.

Меня поразило несколько важных вопросов об основах науки о данных:

  • Что делать после того, как научился программировать? Есть ли темы, которые помогут вам укрепить ваши основы науки о данных?
  • Я ненавижу математику, и есть либо очень простые уроки, либо слишком глубокие для меня. Можете ли вы порекомендовать компактный, но всеобъемлющий курс по математике и статистике?
  • Сколько математики достаточно, чтобы начать изучать, как работают алгоритмы машинного обучения?
  • Каковы основные темы статистики, чтобы начать работу с анализом данных или наукой о данных?

Ответы на многие из этих вопросов можно найти в книге Глубокое обучение Яна Гудфеллоу и Йошуа Бенжио. Но для многих эта книга слишком техническая и тяжелая по математике.

Итак, вот суть этой статьи, первые шаги к изучению науки о данных или ML.

Три столпа науки о данных и машинного обучения

Источник: https://wiplane.com

Если вы пройдете предварительные условия или предварительную работу любого курса ML/DS, вы обнаружите сочетание программирования, математики и статистики.

Забыв о других на данный момент, вот что Google рекомендует что вы делаете перед тем, как пройти курс машинного обучения:

https://developers.google.com/machine-learning/crash-course/prereqs-and-prework (CC BY 4.0)

1. Основное программирование

Большинство ролей данных основаны на программировании, за исключением некоторых, таких как бизнес-аналитика, анализ рынка, аналитик продукта и т. д.

Я собираюсь сосредоточиться на работе с техническими данными, которая требует знания хотя бы одного языка программирования. Лично я предпочитаю Python любому другому языку из-за его универсальности и простоты изучения — бесспорно, это хороший выбор для разработки сквозных проектов.

Взгляд на темы / библиотеки, которые необходимо освоить для науки о данных:

  • Общие структуры данных (типы данных, списки, словари, наборы, кортежи), функции записи, логика, поток управления, алгоритмы поиска и сортировки, объектно-ориентированное программирование и работа с внешними библиотеками.
  • Написание сценариев Python для извлечения, форматирования и сохранения данных в файлы или обратно в базы данных.
  • Обработка многомерных массивов, индексация, нарезка, транспонирование, трансляция и генерация псевдослучайных чисел с использованием NumPy.
  • Выполнение векторизованных операций с использованием научных вычислительных библиотек, таких как NumPy.
  • Управляйте данными с помощью Pandas — сериями, фреймами данных, индексированием фреймов данных, операторами сравнения, объединением фреймов данных, сопоставлением и применением функций.
  • Обработка данных с использованием Pandas — проверка нулевых значений, их вменение, группировка данных, их описание, выполнение исследовательского анализа и т. д.
  • Визуализация данных с использованием Matplotlib — иерархия API, добавление стилей, цвета и маркеров к графику, знание различных графиков и случаев их использования, линейных графиков, гистограмм, точечных диаграмм, гистограмм, коробчатых диаграмм и морской волны для более продвинутого построения графиков.

2. Основная математика

Существуют практические причины, почему математика необходима для людей, которые хотят сделать карьеру специалиста по машинному обучению, специалиста по данным или инженера по глубокому обучению.

#1 Линейная алгебра для представления данных

Изображение из лекции по векторным нормам из курса: https://www.wiplane.com/p/foundations-for-data-science-ml

Машинное обучение по своей сути основано на данных, потому что данные лежат в основе машинного обучения. Мы можем думать о данных как векторы — объект, который придерживается правил арифметики. Это приводит нас к пониманию того, как правила линейной алгебры работают с массивами данных.

#2 Исчисление для обучения моделей машинного обучения

Изображение из лекции по градиентному спуску из курса: https://www.wiplane.com/p/foundations-for-data-science-ml

Если у вас сложилось впечатление, что обучение модели происходит «автоматически», то вы ошибаетесь. Исчисление — это то, что стимулирует изучение большинства алгоритмов ML и DL.

Один из наиболее часто используемых алгоритмов оптимизации —градиентный спуск— приложение частных производных.

Модель — это математическое представление определенных убеждений и предположений. Говорят, что сначала изучается (аппроксимируется) процесс (линейный, полиномиальный и т. д.) того, как предоставляются данные, а затем делаются прогнозы на основе этого изученного процесса.

Важные темы включают:

  • Базовая алгебра — переменные, коэффициенты, уравнения, линейные, экспоненциальные, логарифмические функции и т. д.
  • Линейная алгебра — скаляры, векторы, тензоры, нормы (L1 и L2), скалярное произведение, типы матриц, линейное преобразование, представление линейных уравнений в матричной записи, решение задачи линейной регрессии с использованием векторов и матриц.
  • Исчисление — производные и пределы, производные правила, цепное правило (для алгоритма обратного распространения), частные производные (для вычисления градиентов), выпуклость функций, локальные/глобальные минимумы, математика регрессионной модели, прикладная математика для обучения модели с нуля .

# 3 Основные статистические данные

Каждая организация сегодня стремится стать управляемой данными. Для этого аналитики и ученые должны по-разному использовать имеющиеся данные для принятия решений.

Описание данных — от данных к инсайтам

Данные всегда поступают сырыми и некрасивыми. Первоначальное исследование показывает, чего не хватает, как данные распределяются и как лучше всего их очистить для достижения конечной цели.

Чтобы ответить на поставленные вопросы, описательная статистика позволяет вам преобразовать каждое наблюдение в ваших данных в понимание, имеющее смысл.

Количественная неопределенность

Кроме того, способность количественно определять неопределенность является наиболее ценным навыком, который высоко ценится в любой компании, работающей с данными. Знание шансов на успех любого эксперимента/решения очень важно для любого бизнеса.

Вот несколько основных статистических данных, которые составляют минимум:

Изображение из лекции о распределении Пуассона — https://www.wiplane.com/p/foundations-for-data-science-ml

  • Оценки местоположения — среднее, медиана и другие их варианты.
  • Оценки изменчивости
  • Корреляция и ковариация
  • Случайные величины — дискретные и непрерывные
  • Распределение данных - PMF, PDF, CDF
  • Условная вероятность — байесовская статистика
  • Обычно используемые статистические распределения — гауссовское, биномиальное, пуассоновское, экспоненциальное.
  • Важные теоремы — Закон больших чисел и Центральная предельная теорема.

Изображение из лекции о распределении Пуассона — https://www.wiplane.com/p/foundations-for-data-science-ml

  • Выведенный статистикаБолее практичный и продвинутый раздел статистики, который помогает в разработке экспериментов по проверке гипотез, подталкивает нас к глубокому пониманию значения показателей и в то же время помогает нам в количественной оценке значимости результатов.
  • Важные тестыкритерий Стьюдента, критерий хи-квадрат, критерий дисперсионного анализа и т. д.

Каждый энтузиаст науки о данных начального уровня должен сосредоточиться на этих трех столпах, прежде чем погрузиться в какой-либо основной курс по науке о данных или базовый курс по машинному обучению.

Ресурсы для изучения вышеперечисленного — в поисках компактного, всеобъемлющего, но доступного курса

https://www.freecodecamp.org/news/data-science-learning-roadmap/

Моя дорожная карта обучения также рассказал вам, что изучать, а также был загружен ресурсами, курсами и программами, на которые можно записаться.

Но есть несколько несоответствий в рекомендованных ресурсах и дорожной карте, которую я наметил.

Проблемы с курсами Data Science или ML

  1. Каждый курс по науке о данных, который я туда записал, требовал от студентов приличного понимания программирования, математики или статистики. Например, самый известный курс по машинному обучению Эндрю Нг также в значительной степени зависит от понимания векторной алгебры и исчисления.
  2. Большинство курсов, посвященных математике и статистике для науки о данных, представляют собой просто контрольный список концепций, необходимых для DS/ML, без объяснения того, как они применяются и как программируются в машине.
  3. Существуют исключительные ресурсы для глубокого погружения в математику, но большинство из нас не созданы для этого, и не нужно быть золотым медалистом, чтобы изучать науку о данных.

Итог: Отсутствует ресурс, который охватывает только прикладную математику, статистику или программирование, чтобы начать работу с наукой о данных или машинным обучением.

Академия Wiplane — wiplane.com

Поэтому я решил сдаться и сделать все сам. Я провел последние 3 месяца, разрабатывая учебный план, который обеспечит прочную основу для вашей карьеры в качестве…

  • По анализу данных
  • Данные ученых
  • Или специалист по машинному обучению/инженер

Здесь я представляю вам Основы Data Science или ML - Первые шаги в изучении Data Science и ML

Это я, когда решил запустить!

Всеобъемлющий, но компактный и доступный курс, который не только охватывает все необходимое, предварительные условия и предварительная работа но также объясняет, как используется каждая концепция вычислительно и программно (Python).

И это еще не все. Я буду обновлять содержание курса каждый месяц на основе вашего вклада. Учить больше здесь.

Предложение Early Bird!

Я очень рад начать предварительную продажу этого курса, так как в настоящее время я занимаюсь записью и редактированием последних фрагментов 2-3 модулей, которые также будут доступны к первой неделе сентября.

Воспользуйтесь предложением раннего бронирования, которое действительно только до 30 августа 2021 года.

Оригинал, Перемещено с разрешения.

Bio: Харшит Тяги — инженер с обширным опытом работы в области веб-технологий и науки о данных (также известной как комплексная наука о данных), который был наставником более 1000 кандидатов в области ИИ/веб-технологий/науки о данных, разрабатывая учебные курсы по науке о данных и инженерному машинному обучению. Ранее Харшит разрабатывал алгоритмы обработки данных совместно с учеными-исследователями из Йельского университета, Массачусетского технологического института и Калифорнийского университета в Лос-Анджелесе.

Связанный:

Источник: https://www.kdnuggets.com/2021/08/learn-data-science-machine-learning.html.

Отметка времени:

Больше от КДнаггетс