Зображення за сюжетом на Freepik
Це чудовий час, щоб увірватися в інженерію даних. Тож з чого почати?
Навчання інженерії даних іноді може здатися непосильним через велику кількість інструментів, які вам потрібно знати, не кажучи вже про надзвичайно страхітливі посадові інструкції!
Отже, якщо ви шукаєте дружній вступ до розробки даних для початківців, це безкоштовно Курс Data Engineering для початківців, яку викладає Джастін Чау, захисник розробників у Airbyte, — гарне місце для початку.
Приблизно за три години ви навчитеся основним навичкам обробки даних: Docker, SQL, аналітична інженерія тощо. Отже, якщо ви хочете вивчити інженерію даних і перевірити, чи це вам підходить, цей курс стане чудовим вступом. Тепер давайте розглянемо, що охоплює курс.
Посилання на курс: Курс Data Engineering для початківців
Цей курс починається зі вступу про те, чому вам взагалі варто розглянути можливість стати інженером з обробки даних. Я вважаю, що дуже корисно зрозуміти, перш ніж зануритися безпосередньо в технічні теми.
Інструктор Джастін Чау розповідає про:
- Потреба в якісних даних та інфраструктурі даних для забезпечення успіху проектів великих даних
- Як посади інженерів даних зростають у попиті та добре оплачуються
- Ділова цінність, яку ви можете додати організації, працюючи інженером з обробки даних, сприяючи інфраструктурі даних організації
Коли ви вивчаєте інженерію даних, Docker є одним із перших інструментів, які ви можете додати до свого інструментарію. Docker — це популярний інструмент контейнеризації, який дозволяє пакувати програми — із залежностями та конфігурацією — в один артефакт під назвою образ. Таким чином Docker дозволяє створити узгоджене та відтворюване середовище для запуску всіх ваших програм у контейнері.
Модуль Docker цього курсу починається з таких основ, як:
- Докер-файли
- Образи Docker
- Контейнери Docker
Потім інструктор розповідає про те, як контейнеризувати програму за допомогою Docker: проходить створення Dockerfile і команд, щоб запустити контейнер. У цьому розділі також розглядаються постійні томи, основи мереж Docker і використання Docker-Compose для керування кількома контейнерами.
Загалом цей модуль сам по собі є хорошим прискореним курсом з Docker, якщо ви новачок у контейнеризації!
У наступному модулі про SQL ви дізнаєтесь, як запускати Postgres у контейнерах Docker, а потім дізнаєтесь основи SQL, створивши зразок бази даних Postgres і виконавши такі операції:
- CRUD операції
- Сукупні функції
- Використання псевдонімів
- з'єднання
- Союз і все союз
- підзапити
Завдяки основам Docker і SQL тепер ви можете навчитися створювати конвеєр даних з нуля. Ви почнете зі створення простого конвеєра ELT, який ви вдосконалюватимете протягом решти курсу.
Крім того, ви побачите, як усі вивчені вами концепції SQL, мереж Docker і Docker-compose поєднуються в побудові цього конвеєра, який запускає Postgres у Docker як для джерела, так і для призначення.
Потім курс переходить до частини аналітичної інженерії, де ви дізнаєтеся про dbt (інструмент створення даних), щоб організувати свої SQL-запити як власні моделі перетворення даних.
Інструктор допоможе вам розпочати роботу з dbt: встановити необхідний адаптер і dbt-ядро та налаштувати проект. Цей модуль спеціально присвячений роботі з моделями dbt, макросами та jinjas. Ви дізнаєтеся, як:
- Визначте власні моделі dbt і запустіть їх поверх даних у цільовій базі даних
- Організуйте запити SQL як макроси dbt для повторного використання
- Використовуйте dbt jinjas, щоб додати керуючі структури до запитів SQL
Наразі ви створили конвеєр ELT, який запускається вручну. Але вам, звичайно, потрібна певна автоматизація, і найпростіший спосіб зробити це — визначити завдання cron, яке автоматично запускається в певний час доби.
Отже, цей суперкороткий розділ охоплює завдання cron. Але такі інструменти оркестровки даних, як Airflow (про який ви дізнаєтеся в наступному модулі), надають вам більшої деталізації конвеєра.
Щоб організувати конвеєри даних, ви будете використовувати інструменти з відкритим кодом, такі як Airflow, Prefect, Dagster тощо. У цьому розділі ви дізнаєтеся, як використовувати інструмент оркестровки з відкритим кодом Airflow.
Цей розділ більш розширений порівняно з попередніми розділами, оскільки він охоплює все, що вам потрібно знати, щоб пришвидшити написання DAG Airflow для поточного проекту.
Ви дізнаєтеся, як налаштувати веб-сервер Airflow і планувальник для планування завдань. Потім ви дізнаєтеся про оператори Airflow: оператори Python і Bash. Нарешті, ви визначите завдання, які входять до DAG для розглянутого прикладу.
В останньому модулі ви дізнаєтеся про Airbyte, платформу інтеграції та переміщення даних з відкритим кодом, яка дозволяє з легкістю підключати більше джерел даних і пунктів призначення.
Ви дізнаєтеся, як налаштувати своє середовище, і побачите, як можна спростити процес ELT за допомогою Airbyte. Для цього потрібно змінити існуючі компоненти проекту: сценарій ELT і DAG, щоб інтегрувати Airbyte у робочий процес.
Сподіваюся, цей огляд безкоштовного курсу інженерії даних був для вас корисним. Мені сподобався курс, особливо практичний підхід до створення та поступового вдосконалення конвеєра даних, а не зосереджувався лише на теорії. Код також доступний для вас, щоб слідувати. Тож щасливої розробки даних!
Бала Прія С є розробником і технічним автором з Індії. Їй подобається працювати на стику математики, програмування, науки про дані та створення контенту. Сфери її інтересів і знань включають DevOps, науку про дані та обробку природної мови. Вона любить читати, писати, кодувати та кави! Зараз вона навчається та ділиться своїми знаннями зі спільнотою розробників, створюючи навчальні посібники, інструкції, думки тощо.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://www.kdnuggets.com/free-data-engineering-course-for-beginners?utm_source=rss&utm_medium=rss&utm_campaign=free-data-engineering-course-for-beginners
- :є
- : ні
- :де
- $UP
- a
- МЕНЮ
- додавати
- адвокат
- ВСІ
- по
- Також
- an
- аналітика
- та
- додаток
- застосування
- підхід
- ЕСТЬ
- області
- AS
- At
- авторство
- автоматично
- Автоматизація
- доступний
- бити
- Основи
- оскільки
- становлення
- перед тим
- початківці
- Великий
- Великий даних
- обидва
- Перерва
- будувати
- Створюємо
- побудований
- бізнес
- але
- by
- званий
- CAN
- звичайно
- код
- Кодування
- Приходити
- співтовариство
- порівняний
- Компоненти
- поняття
- З'єднуватися
- Вважати
- послідовний
- Контейнер
- Контейнери
- зміст
- контент-створення
- контроль
- курс
- обкладинка
- охоплює
- Крах
- створювати
- створення
- створення
- Поточний
- В даний час
- виготовлений на замовлення
- дані
- інженер даних
- інфраструктура даних
- наука про дані
- Database
- день
- визначати
- Попит
- залежно
- призначення
- напрямки
- Розробник
- DevOps
- дайвінг
- do
- Docker
- простота
- інженер
- Машинобудування
- насолоджувався
- забезпечення
- Навколишнє середовище
- істотний
- все
- приклад
- існуючий
- експертиза
- дослідити
- обширний
- сприяння
- далеко
- почувати
- в кінці кінців
- Перший
- фокусується
- фокусування
- стежити
- після
- для
- знайдений
- Підвалини
- Безкоштовна
- від
- Основи
- отримати
- отримання
- Давати
- Go
- йде
- добре
- великий
- Зростання
- Гід
- рука
- практичний
- щасливий
- Мати
- корисний
- її
- надія
- ГОДИННИК
- Як
- How To
- HTTPS
- i
- if
- зображення
- удосконалювати
- поліпшення
- in
- включати
- Індію
- Інфраструктура
- установка
- інтегрувати
- інтерес
- перетин
- залякуючи
- в
- Вступ
- IT
- сам
- робота
- Джобс
- JPG
- Джастін
- KDnuggets
- Знати
- знання
- мова
- останній
- УЧИТЬСЯ
- вчений
- вивчення
- дозволяти
- дозволяє
- як
- Сподобалося
- ll
- шукати
- макроси
- управляти
- керівництво
- математики
- згадати
- Моделі
- змінювати
- Модулі
- більше
- множинний
- Природний
- Природна мова
- Обробка природних мов
- Необхідність
- мережа
- Нові
- наступний
- зараз
- номер
- of
- on
- ONE
- тільки
- з відкритим вихідним кодом
- операції
- Оператори
- Думка
- оркестровка
- організація
- з
- над
- пригнічує
- пакет
- частина
- Платити
- виконанні
- частин
- трубопровід
- місце
- платформа
- plato
- Інформація про дані Платона
- PlatoData
- популярний
- попередній
- надходження
- процес
- обробка
- Програмування
- проект
- проектів
- Python
- якість
- дані про якість
- запити
- читання
- вимагається
- REST
- огляд
- право
- ролі
- прогін
- біг
- пробіжки
- s
- зразок
- розклад
- наука
- подряпати
- сценарій
- розділ
- розділам
- побачити
- комплект
- установка
- поділ
- вона
- Короткий
- Повинен
- простий
- найпростіший
- спростити
- один
- навички
- So
- деякі
- іноді
- Source
- Джерела
- конкретний
- конкретно
- швидкість
- SQL
- старт
- почалася
- починається
- структур
- успіх
- такі
- Super
- Переговори
- завдання
- навчав
- технічний
- Що
- Команда
- Основи
- Джерело
- Їх
- потім
- теорія
- Думати
- це
- три
- через
- по всьому
- Таким чином
- час
- до
- разом
- інструмент
- Інструменти
- інструменти
- топ
- теми
- Перетворення
- спрацьовування
- навчальні посібники
- розуміти
- союз
- на
- використання
- використання
- значення
- Обсяги
- хотіти
- шлях..
- Що
- який
- чому
- волі
- з
- в
- робочий
- робочий
- працює
- запис
- письменник
- лист
- ви
- вашу
- YouTube
- зефірнет