Безкоштовний курс розробки даних для початківців

Перевидано Платоном

читають: 0

Безкоштовний курс розробки даних для початківців
Зображення за сюжетом на Freepik

Це чудовий час, щоб увірватися в інженерію даних. Тож з чого почати?

Навчання інженерії даних іноді може здатися непосильним через велику кількість інструментів, які вам потрібно знати, не кажучи вже про надзвичайно страхітливі посадові інструкції!

Отже, якщо ви шукаєте дружній вступ до розробки даних для початківців, це безкоштовно Курс Data Engineering для початківців, яку викладає Джастін Чау, захисник розробників у Airbyte, — гарне місце для початку.

Приблизно за три години ви навчитеся основним навичкам обробки даних: Docker, SQL, аналітична інженерія тощо. Отже, якщо ви хочете вивчити інженерію даних і перевірити, чи це вам підходить, цей курс стане чудовим вступом. Тепер давайте розглянемо, що охоплює курс.

Посилання на курс: Курс Data Engineering для початківців

Цей курс починається зі вступу про те, чому вам взагалі варто розглянути можливість стати інженером з обробки даних. Я вважаю, що дуже корисно зрозуміти, перш ніж зануритися безпосередньо в технічні теми.

Інструктор Джастін Чау розповідає про:

Потреба в якісних даних та інфраструктурі даних для забезпечення успіху проектів великих даних
Як посади інженерів даних зростають у попиті та добре оплачуються
Ділова цінність, яку ви можете додати організації, працюючи інженером з обробки даних, сприяючи інфраструктурі даних організації

Коли ви вивчаєте інженерію даних, Docker є одним із перших інструментів, які ви можете додати до свого інструментарію. Docker — це популярний інструмент контейнеризації, який дозволяє пакувати програми — із залежностями та конфігурацією — в один артефакт під назвою образ. Таким чином Docker дозволяє створити узгоджене та відтворюване середовище для запуску всіх ваших програм у контейнері.

Модуль Docker цього курсу починається з таких основ, як:

Докер-файли
Образи Docker
Контейнери Docker

Потім інструктор розповідає про те, як контейнеризувати програму за допомогою Docker: проходить створення Dockerfile і команд, щоб запустити контейнер. У цьому розділі також розглядаються постійні томи, основи мереж Docker і використання Docker-Compose для керування кількома контейнерами.

Загалом цей модуль сам по собі є хорошим прискореним курсом з Docker, якщо ви новачок у контейнеризації!

У наступному модулі про SQL ви дізнаєтесь, як запускати Postgres у контейнерах Docker, а потім дізнаєтесь основи SQL, створивши зразок бази даних Postgres і виконавши такі операції:

CRUD операції
Сукупні функції
Використання псевдонімів
з'єднання
Союз і все союз
підзапити

Завдяки основам Docker і SQL тепер ви можете навчитися створювати конвеєр даних з нуля. Ви почнете зі створення простого конвеєра ELT, який ви вдосконалюватимете протягом решти курсу.

Крім того, ви побачите, як усі вивчені вами концепції SQL, мереж Docker і Docker-compose поєднуються в побудові цього конвеєра, який запускає Postgres у Docker як для джерела, так і для призначення.

Потім курс переходить до частини аналітичної інженерії, де ви дізнаєтеся про dbt (інструмент створення даних), щоб організувати свої SQL-запити як власні моделі перетворення даних.

Інструктор допоможе вам розпочати роботу з dbt: встановити необхідний адаптер і dbt-ядро та налаштувати проект. Цей модуль спеціально присвячений роботі з моделями dbt, макросами та jinjas. Ви дізнаєтеся, як:

Визначте власні моделі dbt і запустіть їх поверх даних у цільовій базі даних
Організуйте запити SQL як макроси dbt для повторного використання
Використовуйте dbt jinjas, щоб додати керуючі структури до запитів SQL

Наразі ви створили конвеєр ELT, який запускається вручну. Але вам, звичайно, потрібна певна автоматизація, і найпростіший спосіб зробити це — визначити завдання cron, яке автоматично запускається в певний час доби.

Отже, цей суперкороткий розділ охоплює завдання cron. Але такі інструменти оркестровки даних, як Airflow (про який ви дізнаєтеся в наступному модулі), надають вам більшої деталізації конвеєра.

Щоб організувати конвеєри даних, ви будете використовувати інструменти з відкритим кодом, такі як Airflow, Prefect, Dagster тощо. У цьому розділі ви дізнаєтеся, як використовувати інструмент оркестровки з відкритим кодом Airflow.

Цей розділ більш розширений порівняно з попередніми розділами, оскільки він охоплює все, що вам потрібно знати, щоб пришвидшити написання DAG Airflow для поточного проекту.

Ви дізнаєтеся, як налаштувати веб-сервер Airflow і планувальник для планування завдань. Потім ви дізнаєтеся про оператори Airflow: оператори Python і Bash. Нарешті, ви визначите завдання, які входять до DAG для розглянутого прикладу.

В останньому модулі ви дізнаєтеся про Airbyte, платформу інтеграції та переміщення даних з відкритим кодом, яка дозволяє з легкістю підключати більше джерел даних і пунктів призначення.

Ви дізнаєтеся, як налаштувати своє середовище, і побачите, як можна спростити процес ELT за допомогою Airbyte. Для цього потрібно змінити існуючі компоненти проекту: сценарій ELT і DAG, щоб інтегрувати Airbyte у робочий процес.

Сподіваюся, цей огляд безкоштовного курсу інженерії даних був для вас корисним. Мені сподобався курс, особливо практичний підхід до створення та поступового вдосконалення конвеєра даних, а не зосереджувався лише на теорії. Код також доступний для вас, щоб слідувати. Тож щасливої розробки даних!

Бала Прія С є розробником і технічним автором з Індії. Їй подобається працювати на стику математики, програмування, науки про дані та створення контенту. Сфери її інтересів і знань включають DevOps, науку про дані та обробку природної мови. Вона любить читати, писати, кодувати та кави! Зараз вона навчається та ділиться своїми знаннями зі спільнотою розробників, створюючи навчальні посібники, інструкції, думки тощо.