Sun King використовує обмін даними Amazon Redshift для прискорення аналізу даних і покращення взаємодії з користувачем | Веб-сервіси Amazon

Sun King використовує обмін даними Amazon Redshift для прискорення аналізу даних і покращення взаємодії з користувачем | Веб-сервіси Amazon

Вихідний вузол: 2409930

Цей допис написано у співавторстві з Гійомом Сен-Мартеном у Sun King. 

Король сонця є провідною у світі компанією автономної сонячної енергетики, яка має на меті забезпечити доступ до яскравішого життя за допомогою автономної сонячної енергії. Sun King проектує, розповсюджує, встановлює та фінансує сонячні домашні енергетичні продукти для людей, які зараз живуть без надійного доступу до енергії. Він обслуговує понад 100 мільйонів користувачів у 65 країнах світу.

Понад 26,000 XNUMX агентів по всій Африці сьогодні допомагають місцевим сім’ям отримати доступ до автономних продуктів Sun King, щоб мати більш продуктивне життя. Ці агенти отримують інформацію майже в реальному часі, щоб знайти правильні географічні райони та родини, які не мають доступу до недорогої електроенергії. Sun King керується даними для аналізу областей зростання на тисячі миль за допомогою інформаційних панелей на основі Amazon Redshift.

У цій публікації ми розповідаємо, як використовує Sun King Amazon Redshift і такі функції Redshift, як обмін даними можливості покращити продуктивність запитів у Красуня для понад 1,000 наших співробітників.

Амазонська червона зміна – це повністю кероване, масштабоване хмарне сховище даних, яке прискорює ваш час для аналізу за допомогою швидкої, легкої та безпечної масштабної аналітики. Десятки тисяч клієнтів покладаються на Amazon Redshift для аналізу ексабайтів даних і виконання складних аналітичних запитів, що робить його широко використовуваним хмарним сховищем даних. Ви можете запускати та масштабувати аналітику за лічені секунди для всіх своїх даних без необхідності керувати інфраструктурою сховища даних.

Використовуйте футляр

Sun King використовує наданий Redshift кластер для запуску процесів вилучення, перетворення та завантаження (ETL) і аналітичних процесів для отримання та перетворення даних із різних джерел. Потім він надає доступ до цих даних для бізнес-користувачів через Looker. Зараз Amazon Redshift керує різноманітними вимогами до споживання для користувачів Looker по всьому світу

Amazon Redshift використовується для очищення та агрегування даних у попередньо оброблені таблиці, виконання конвеєрів ETL Sun King і обробки Looker.постійні похідні таблиці» (PDT) заплановано з погодинною періодичністю або менше. Ці конвеєри ETL і PDT були конкуруючими робочими навантаженнями та іноді стикалися з конфліктами читання/запису.

Оскільки компанія, що керується даними, продовжує розширюватися, Sun King знадобилося рішення, яке б робило наступне:

  • Дозволяє виконувати сотні запитів паралельно з бажаною пропускною здатністю.
  • Оптимізуйте керування робочим навантаженням, щоб робочі навантаження ETL, бізнес-аналітики (BI4) і Looker запускалися одночасно, не впливаючи одне на одного.
  • Плавно масштабуйте потужність із збільшенням бази користувачів і підтримуйте ефективність витрат.

Огляд рішення

Оскільки обсяги даних, кількість запитів і користувачів продовжують зростати, Sun King вирішила перейти від однокластерної архітектури до мультикластерної архітектури із спільним використанням даних, щоб скористатися перевагами ізоляції робочого навантаження та розділити навантаження ETL і аналітику на різні кластери, продовжуючи використовувати одну копію даних.

Рішення від Sun King складається з кількох кластерів Redshift і балансування мережевого навантаження Amazon Elastic Compute Cloud (EC2), що використовує можливість обміну даними в Amazon Redshift.

Amazon Redshift Data Sharing забезпечує доступ до даних у кластерах Redshift без необхідності копіювати чи переміщувати дані. Таким чином, коли робоче навантаження переміщується з одного кластера Redshift до іншого, робоче навантаження може продовжувати отримувати доступ до даних у початковому кластері Redshift. Для отримання додаткової інформації див Безпечний обмін даними Amazon Redshift між кластерами Amazon Redshift для ізоляції робочого навантаження.

Рішення складається з таких ключових компонентів:

  • Основний кластер ETL: основний кластер виробника ETL (8 вузлів ra3.xlplus) із спільним використанням даних.
  • Кластер Looker: Кластер виробник/споживач (8 вузлів ra3.4xlarge) із спільним використанням даних для виконання наступного:
    • Великі процеси ETL
    • Процеси ETL, ініційовані Looker (PDT)
    • Робочі навантаження групи даних
  • BI кластери: Він складається з чотирьох великих кластерів споживачів (6 вузлів ra3.4xlarge кожен):
    • Три кластери, що використовують зарезервовані екземпляри (RI), які працюють 24/7
    • Один кластер на вимогу вмикався на шість годин щодня
  • Балансувальник мережевого навантаження: балансир навантаження мережі розподіляє запити, що надходять від Looker, між кластерами споживачів
  • Безкоштовний рівень паралельного масштабування: кожен із трьох кластерів, які використовують зарезервовані екземпляри (RI), видає одну годину кредитів за паралельне масштабування на день, які використовуються по понеділках, тоді як кластер на вимогу виробляє чотири години кредитів за паралельне масштабування, зберігаючи вартість паралельного масштабування на рівні безкоштовного.

На наступній діаграмі показано рішення та кроки робочого процесу

результати

Завдяки цьому рішенню Sun King отримав такі покращення:

  • продуктивність – Поліпшення продуктивності було значним і одразу після впровадження розподіленої архітектури виробник/споживач. Більшість запитів (95%), які раніше займали від 50 до 90 секунд, тепер займають щонайбільше 40 секунд, 75% запитів раніше займали до 40 секунд, тепер займають менше однієї секунди. Крім того, кількість виконаних запитів (прийняття Amazon Redshift) зросла на XNUMX%, завдяки більшому використанню Looker після зміни архітектури.
  • Управління робочим навантаженням – Після цієї зміни архітектури запити більше не стоять у черзі довгий час. На наступній діаграмі показано порівняння запитів у черзі та виконаних в одному з кластерів до та після модернізації.
  • масштабованість – Завдяки цій архітектурі Redshift із підтримкою обміну даними команда Sun King змогла повернути прийнятну продуктивність своїм користувачам, що призвело до відновлення залучення, виміряного подвоєнням кількості щомісячних запитів протягом наступних кількох місяців, таким чином збільшуючи впровадження. Amazon Redshift у всій компанії.

За оцінками, витрати Sun King зростуть лише на 35%, завдяки резервуванню більшості екземплярів, що використовуються протягом трьох років (26 ra3.4xlarge і 8 ra3.xlplus), і покладаючись на безкоштовний рівень паралельного масштабування для підвищення продуктивності в день найбільшого використання. . Це порівнюється з меншою кількістю зарезервованих кластерів (8 ra3.4xlarge) і набагато ширшим використанням масштабування одночасності (два кластери масштабування паралельності, майже завжди ввімкнено). Ця модернізація підвищила продуктивність агентів, надаючи їм швидший і майже в режимі реального часу доступ до областей, які потребують доступу до недорогого джерела живлення.

Висновок:

У цій публікації ми обговорили, як Sun King використовував можливості обміну даними Amazon Redshift для розподілу робочого навантаження та масштабування Amazon Redshift, щоб задовольнити вимоги кінцевих користувачів до продуктивності Looker і зберегти контроль над вартістю використання Amazon Redshift. Спробуйте підходи, розглянуті в цій публікації, і повідомте нам свої відгуки в коментарях.


Про авторів

Гійом Сен-Мартен очолює групу даних і аналітики в Sun King. Маючи 10-річний досвід роботи в секторах обробки даних і розробки, він керує командою з понад 30 аналітиків, інженерів з обробки даних і вчених з обробки даних для підтримки довгострокового моделювання та аналізу тенденцій Sun King.

Аабер Джа є старшим спеціалістом з аналітики в AWS у Чикаго, штат Іллінойс. Він зосереджується на стимулюванні та підтримці бізнес-цінності AWS Data Analytics для клієнтів.

Рохіт Вашішта є старшим архітектором рішень спеціаліста з аналітики в AWS у Далласі, штат Техас. Він має понад 17 років досвіду проектування, створення, керівництва та підтримки платформ великих даних. Rohit допомагає клієнтам модернізувати їх аналітичне робоче навантаження, використовуючи широкий спектр послуг AWS, і гарантує, що клієнти отримають найкращу ціну/продуктивність із максимальною безпекою та керуванням даними.

Часова мітка:

Більше від Великі дані AWS