Объяснение алгоритмов машинного обучения менее чем за 1 минуту каждый

Переиздано Платоном

Читают: 0

Объяснение алгоритмов машинного обучения менее чем за 1 минуту каждый
Изображение на pc.vector на Фрипик

Эта статья объяснит некоторые из самых известных алгоритмов машинного обучения менее чем за минуту, помогая каждому понять их!

Линейная регрессия, один из самых простых алгоритмов машинного обучения, используется для прогнозирования непрерывных зависимых переменных с использованием знаний из независимых переменных. Зависимая переменная – это эффект, при котором ее значение зависит от изменения независимой переменной.

Возможно, вы помните линию наилучшего соответствия из школы — это то, что производит линейная регрессия. Простым примером является предсказание веса человека в зависимости от его роста.

Логистическая регрессия, аналогичная линейной регрессии, используется для прогнозирования категориальных зависимых переменных со знанием независимых переменных. Категориальная переменная имеет две или более категорий. Логистическая регрессия классифицирует выходные данные, которые могут принимать значения только от 0 до 1.

Например, вы можете использовать логистическую регрессию, чтобы определить, будет ли студент принят или нет в конкретный колледж, в зависимости от его оценок — либо «да», либо «нет», либо «0» или «1».

Деревья решений (DT) — это модель древовидной структуры вероятностей, которая непрерывно разбивает данные для классификации или прогнозирования на основе предыдущего набора вопросов, на которые были даны ответы. Модель изучает особенности данных и отвечает на вопросы, помогая вам принимать более обоснованные решения.

Например, вы можете использовать дерево решений, используя ответы «Да» или «Нет», чтобы определить конкретный вид птиц, используя такие характеристики данных, как перья, способность летать или плавать, тип клюва и т. д.

Подобно деревьям решений, Random Forest также является древовидным алгоритмом. Там, где дерево решений состоит из одного дерева, случайный лес использует несколько деревьев решений для принятия решений — лес деревьев.

Он объединяет несколько моделей для прогнозирования и может использоваться в задачах классификации и регрессии.

K-ближайшие соседи используют статистические знания о том, насколько близка точка данных к другой точке данных, и определяют, можно ли сгруппировать эти точки данных вместе. Близость точек данных отражает сходство друг с другом.

Например, если бы у нас был график с группой точек данных, которые были близки друг к другу, называемой группой A, и другой группой точек данных, которые были в непосредственной близости друг от друга, называемой группой B. Когда мы вводим новую точку данных, в зависимости от того, к какой группе ближе новая точка данных — это будет их новая классифицированная группа.

Подобно ближайшему соседу, метод опорных векторов выполняет задачи классификации, регрессии и обнаружения выбросов. Он делает это, рисуя гиперплоскость (прямую линию), чтобы разделить классы. Точки данных, расположенные на одной стороне линии, будут помечены как группа A, а точки на другой стороне будут помечены как группа B.

Например, когда вводится новая точка данных, в зависимости от того, с какой стороны гиперплоскости и ее положения в пределах поля она находится, это будет определять, к какой группе принадлежит точка данных.

Наивный Байес основан на теореме Байеса, которая представляет собой математическую формулу, используемую для расчета условных вероятностей. Условная вероятность — это вероятность наступления исхода при условии, что произошло другое событие.

Он предсказывает, что вероятности для каждого класса принадлежат определенному классу и что класс с наибольшей вероятностью считается наиболее вероятным классом.

Кластеризация K-средних аналогична ближайшим соседям, но использует метод кластеризации для группировки похожих элементов/точек данных в кластеры. Количество групп обозначается как K. Вы делаете это, выбирая значение k, инициализируя центроиды, а затем выбирая группу и находя среднее значение.

Например, если присутствует 3 кластера и вводится новая точка данных, в зависимости от того, к какому кластеру она относится — это кластер, к которому они принадлежат.

Бэггинг также известен как агрегация Bootstrap и представляет собой метод ансамблевого обучения. Бэггинг используется как в регрессионных, так и в классификационных моделях и направлен на то, чтобы избежать переобучения данных и уменьшить дисперсию прогнозов.

Переобучение — это когда модель точно соответствует своим тренировочным данным — в основном ничему нас не учит и может быть вызвано разными причинами. Случайный лес является примером бэгинга.

Общая цель Boosting — превратить слабых учеников в сильных учеников. Слабые ученики обнаруживаются путем применения базовых алгоритмов обучения, которые затем генерируют новое слабое правило прогнозирования. Случайная выборка данных вводится в модель, а затем последовательно обучается, чтобы обучить слабых учеников и попытаться исправить своего предшественника.

XGBoost, что означает Extreme Gradient Boosting, используется в Boosting.

Уменьшение размерности используется для уменьшения количества входных переменных в обучающих данных за счет уменьшения размерности вашего набора функций. Когда модель имеет большое количество функций, она, естественно, более сложная, что приводит к более высокой вероятности переобучения и снижению точности.

Например, если у вас есть набор данных с сотней столбцов, уменьшение размерности уменьшит количество столбцов до двадцати. Однако вам понадобится функция выбора функций, чтобы выбрать соответствующие функции, и разработка функций, чтобы создать новые функции из существующих функций.

Метод анализа основных компонентов (PCA) представляет собой тип уменьшения размерности.

Цель этой статьи состояла в том, чтобы помочь вам понять алгоритмы машинного обучения в самых простых терминах. Если вы хотите получить более глубокое понимание каждого из них, прочитайте это Популярные алгоритмы машинного обучения.

Ниша Арья является специалистом по данным и внештатным техническим писателем. Она особенно заинтересована в предоставлении карьерных советов или учебных пособий по науке о данных, а также теоретических знаний по науке о данных. Она также хочет изучить различные способы, которыми искусственный интеллект может способствовать долголетию человеческой жизни. Страстная ученица, стремящаяся расширить свои технические знания и навыки письма, одновременно помогая другим.