Як досягти самообслуговування трансформації даних для ШІ та аналітики

Перевидано Платоном

читають: 0

Трансформація даних є критично важливим кроком, який усуває розрив між необробленими даними та практичними висновками. Він закладає основу для прийняття сильних рішень та інновацій, а також допомагає організаціям отримати конкурентну перевагу. Традиційно перетворення даних було віднесено до компетенції спеціалізованих інженерних груп, які використовували складні процеси вилучення, перетворення та завантаження (ETL) із застосуванням дуже складних інструментів і коду. Хоча вони добре служили організаціям у минулому, вони виявилися недостатніми перед обличчям сьогоднішнього зростаючого бажання демократизувати дані щоб задовольнити мінливі потреби бізнесу.

Обмеження цих підходів призвели до недостатньої гнучкості, вузьких місць масштабованості, потреби в певних наборах навичок для використання та неможливості пристосуватися до зростаючої складності та різноманітності джерел даних. Оскільки підприємства прагнуть зменшити бар’єри для своїх активів даних і прискорити шлях до цінності для бізнесу, потрібен новий підхід – такий, який охоплює самообслуговування, масштабованість і адаптивність, щоб йти в ногу з динамічною природою даних.

Еволюція перетворення даних

Щоб розкрити справжню цінність надання корисної інформації та повних даних для навчання за допомогою машини, дані в необробленому вигляді потребують уточнення. Сьогодні підприємствам необхідно очищати, об’єднувати, фільтрувати та агрегувати його, щоб зробити його справді корисним. Очищення забезпечує точність даних шляхом усунення неузгодженостей і помилок, а об’єднання та агрегування даних дає змогу отримати комплексне уявлення про інформацію. Фільтрація, з іншого боку, адаптує набори даних до конкретних вимог, дозволяючи експертам у галузі бізнесу (МСП) та іншим зацікавленим сторонам проводити більш цілеспрямований аналіз.

Реляційним оперативним базам даних, популяризованим наприкінці 1970-х і широко поширеним у 1980-х, бракувало аналітичних можливостей, що призвело до появи реляційних аналітичних баз даних. Відтоді головна проблема процесу все ще залишається: перенесення оновлених даних до цих аналітичних баз даних, потім об’єднання, підготовка та розміщення їх у правильній структурі для швидкої аналітики. Оскільки організації борються з величезними масивами даних, які є в їх розпорядженні, багато факторів стимулюють еволюцію перетворення даних:

Збільшення попиту серед різноманітних баз користувачів: Аналітики даних і вчені повинні мати можливість самостійно обслуговувати необхідні дані, коли вони їм потрібні.
Зростаючий масштаб і різноманітність даних: Експоненціальне збільшення джерел даних, обсягу даних і типів даних (наприклад, структуровані бази даних, неструктуровані потоки тощо) ускладнює ефективну підготовку даних у великому масштабі.
Розробка конвеєра, розгортання та можливість спостереження: Щоб увімкнути ефективний потік даних, активуйте попередньо визначену послідовність для потоку в робочому середовищі та переконайтеся, що всі дані належать до надійності та ефективності.
Розподіл часу: Незважаючи на технологічний прогрес, приголомшливі 80–90% часу інженерів все ще присвячені діяльності з перетворення даних, що відриває їх від виконання інших важливих завдань.

Зрозуміло, що існує критична потреба в комплексному, уніфікованому рішенні для справжньої демократизації перетворень даних для всіх користувачів даних на підприємстві.

Параметри: Visual ETL або Code?

Інструменти Visual ETL десятиліттями були непохитними в перетворенні даних. Ці застарілі інструменти забезпечують візуальне представлення, яке спрощує складні перетворення, роблячи їх доступними для ширшої аудиторії, включно з малими і середніми підприємствами. Цей підхід часто може похвалитися дружнім інтерфейсом, що сприяє співпраці між командами та пришвидшенню циклів розробки. Однак існують обмеження, оскільки вони зазвичай не мають налаштувань, необхідних для складних перетворень даних, і вони не можуть обробляти великомасштабні операції з даними.

З іншого боку, методології на основі коду забезпечують рівень точності та гнучкості, що приваблює інженерів обробки даних та інших користувачів програмування. Код дозволяє складно налаштовувати, що робить його ідеальним для обробки складних перетворень і сценаріїв, де тонко налаштований контроль має першочергове значення. Крім того, підходи на основі коду часто вважаються більш масштабованими для різноманітних джерел даних.

На жаль, потреба у навичках кодування обмежує здатність малого та середнього бізнесу отримувати та аналізувати дані. Це тому, що коду бракує інтуїтивно зрозумілих візуальних представлень, що робить майже неможливим для всіх зацікавлених сторін зрозуміти перетворення, перешкоджаючи співпраці. Потрібне консолідоване рішення, яке зберігає переваги обох, усуваючи недоліки.

Як уніфікований підхід справляється з проблемою трьох основних масштабів

Організаціям потрібен всеосяжний метод, який плавно поєднує зручні для користувача природу візуальних інструментів із потужністю коду, надаючи їм кращу позицію для обробки трьох основних масштабів, які є в більшості великих організацій: користувачів, даних і конвеєрів. Це пов’язано з тим, що ні візуальний ETL, ні код окремо не здатні виконувати завдання обробки трьох основних масштабів, які потрібні всім підприємствам.

У результаті організації прагнуть застосувати комплексне рішення, яке поєднує в собі візуальний сучасний інтерфейс користувача з настроюваною потужністю та гнучкістю коду, щоб замінити застарілі системи ETL. Завдяки такому підходу всі зацікавлені сторони можуть працювати в зручному та потужному середовищі, що дозволяє підприємствам ефективніше модернізувати свої процеси ETL і:

Масштабуйте користувачів із самообслуговуванням: На підприємствах постійно зростає кількість користувачів, яким потрібен доступ до даних і їх перетворення. Завдяки візуальному інтерфейсу самообслуговування вони можуть підвищити попит на перетворення даних з боку різноманітної бази користувачів – від користувачів даних у галузі інженерії до аналітиків даних і вчених. Однак головне — вибрати інструмент, який є відкритим за своєю природою, щоб уникнути прив’язки до постачальника та забезпечити, щоб користувачі даних могли розробляти високоякісні конвеєри, використовуючи ті самі стандарти, що й їхні колеги інженерної групи.
Розміри даних масштабу: Дані продовжують експоненціально збільшуватися, оскільки нові джерела даних народжуються завдяки стрімкому розвитку технологій. Цей зростаючий масштаб і різноманітність даних ускладнює підготовку даних. Потрібен інструмент, який може автоматично генерувати високоякісний код, який є рідним для хмарних розподілених систем обробки даних, таких як Databricks, і не втратити простоту використання, яку забезпечує візуальний інтерфейс.
Масштабувати кількість конвеєрів: Оскільки перетворення даних масштабуються до тисяч, вкрай важливо запровадити стандарти для відтворюваної бізнес-логіки, управління, безпеки та передового досвіду роботи. Розробляючи фреймворки, групи інженерів можуть надати будівельні блоки для малих і середніх підприємств і користувачів даних, щоб легко використовувати візуальні компоненти для створення та налаштування конвеєрів даних у спосіб, який є стандартизованим і простим у управлінні.

Отже, що далі? Ключові міркування для пошуку ідеального рішення

Самообслуговування — це майбутнє перетворення даних із зрушенням у бік підвищеної автоматизації, кращої аналітики та покращеної співпраці. У міру того як організації прагнуть до більшої автономії в своїх процесах перетворення даних, буде зростати кількість інтуїтивно зрозумілих інтерфейсів, автоматизованого профілювання даних і розширеної інформації, що дозволить користувачам брати участь у складніших видах діяльності, не покладаючись на центральні команди інженерів.

Організації також повинні бути готові використовувати останні інновації, такі як генеративний ШІ та великі мовні моделі (LLM). Ці можливості, які іноді називають «другими пілотами», революціонізують спосіб перетворення та аналізу даних і дають змогу системам автоматизувати аспекти перетворення даних і покращити взаємодію природної мови в процесі перетворення даних.

Однак, роблячи наступні кроки до більш самообслуговуваного підходу до перетворення даних для штучного інтелекту та аналітики, дуже важливо враховувати ключові фактори для оптимальної ефективності, гнучкості та продуктивності. Почніть із пошуку рішення, яке забезпечує більшу продуктивність для всіх користувачів даних, а також допомагає уникнути прив’язки до постачальника. Далі розставте пріоритет для розширюваності, щоб інженери даних могли імпортувати та створювати конвеєрні стандарти, а потім передавати їх у руки малих і середніх підприємств. Нарешті, розгляньте платформу, яка підтримує весь життєвий цикл даних, щоб зменшити складність інфраструктури та спростити обслуговування конвеєрів у масштабі.

Необхідність зрозуміла: сприяння уніфікованому підходу, який бездоганно поєднує інтуїтивну привабливість візуальних інструментів із точністю коду, є ключовим для задоволення різноманітних потреб як користувачів інженерних даних, так і експертів у галузі бізнесу та зацікавлених сторін. Настала ера уніфікованих візуальних і кодових технологій, яка обіцяє зміну парадигми, дозволяючи організаціям ефективно розкривати весь потенціал своїх даних у гнучкому середовищі для співпраці.