Амазонська червона зміна це швидке, масштабоване, безпечне та повністю кероване сховище даних, яке дає змогу легко та економічно ефективно аналізувати всі ваші дані за допомогою стандартного SQL. Червоне зміщення Amazon Обмін даними дозволяє клієнтам безпечно ділитися живими, сумісними з транзакціями даними в одному кластері Amazon Redshift з іншим кластером Amazon Redshift у різних облікових записах і регіонах без необхідності копіювати або переміщувати дані з одного кластера в інший.
Amazon Redshift Data Sharing спочатку було запущено в березня 2021, а також додано підтримку спільного використання даних між обліковими записами серпня 2021. Міжрегіональна підтримка стала загальнодоступною в лютого 2022. Це забезпечує повну гнучкість і гнучкість обміну даними між кластерами Redshift в одному обліковому записі AWS, різних облікових записах або різних регіонах.
Спільний доступ до даних Amazon Redshift використовується для фундаментального переосмислення архітектури розгортання Amazon Redshift у модель сітки даних зі спицями, щоб краще відповідати угодам про рівень обслуговування, забезпечити ізоляцію робочого навантаження, виконувати міжгрупову аналітику, легко адаптувати нові сценарії використання та, що найважливіше, виконувати всі це без складності переміщення даних і копій даних. Деякі з найпоширеніших запитань, які задають під час розгортання спільного використання даних: «Наскільки великими повинні бути мої кластери споживачів і кластери виробників?» і «Як мені отримати найкращу цінову продуктивність для ізоляції робочого навантаження?». Оскільки такі характеристики робочого навантаження, як розмір даних, швидкість прийому, шаблон запиту та діяльність з обслуговування, можуть впливати на ефективність обміну даними, слід запровадити безперервну стратегію розміру кластерів споживачів і виробників, щоб максимізувати продуктивність і мінімізувати витрати. У цій публікації ми надаємо покроковий підхід, який допоможе вам визначити розміри кластерів виробників і споживачів для найкращої ціни на основі вашого конкретного робочого навантаження.
Загальні споживчі вказівки щодо розмірів
Наступні кроки показують загальну стратегію визначення розміру кластерів виробників і споживачів. Ви можете використовувати його як відправну точку та змінювати відповідним чином відповідно до конкретного сценарію використання.
Визначте розмір кластера виробників
Завжди слід переконатися, що кластер виробника має відповідний розмір, щоб отримати продуктивність, необхідну для виконання умов SLA. Ви можете скористатися калькулятором розміру з консолі Amazon Redshift, щоб отримати рекомендації щодо кластера виробника на основі розміру ваших даних і характеристики запиту. Шукати Допоможіть мені вибрати на консолі в регіонах AWS, які підтримують типи вузлів RA3, щоб використовувати цей калькулятор розміру. Зауважте, що це лише початкова рекомендація для початку роботи, і вам слід протестувати роботу з повним навантаженням на кластері початкового розміру та відповідно змінювати розміри кластера вгору та вниз, щоб отримати найкращу цінову продуктивність.
Розмір і налаштування початкового кластера споживачів
Завжди слід визначати розмір кластера споживачів відповідно до потреб обчислень. Один із способів розпочати — слідувати загальним посібникам із визначення розміру кластера, подібним до кластера-виробника вище.
Налаштуйте обмін даними Amazon Redshift
Налаштуйте обмін даними від виробника до споживача після налаштування кластерів виробника та споживача. Зверніться до цього після для вказівок щодо налаштування спільного використання даних.
Тестове робоче навантаження лише для споживачів на початковому кластері споживачів
Тестове робоче навантаження лише для споживачів у новому початковому кластері споживачів. Це можна зробити, спрямувавши програми споживача, наприклад інструменти ETL, програми BI та клієнти SQL, на новий кластер споживача та повторно запустивши робоче навантаження, щоб оцінити продуктивність відповідно до ваших вимог.
Тестуйте робоче навантаження лише для споживачів у різних конфігураціях кластерів споживачів
Якщо початковий розмір споживчого кластера відповідає або перевищує ваші вимоги до продуктивності робочого навантаження, ви можете або продовжувати використовувати цю конфігурацію кластера, або ви можете протестувати на менших конфігураціях, щоб побачити, чи зможете ви ще зменшити вартість і все одно отримати потрібну продуктивність.
З іншого боку, якщо споживацький кластер початкового розміру не відповідає вашим вимогам щодо продуктивності робочого навантаження, ви можете додатково протестувати більші конфігурації, щоб отримати конфігурацію, яка відповідає вашому SLA.
Як правило, поступово збільшуйте розмір кластера споживача вдвічі порівняно з початковою конфігурацією кластера, доки він не відповідатиме вашим вимогам щодо робочого навантаження.
Коли ви сплануєте, яку конфігурацію ви хочете протестувати, скористайтеся пружною зміною розміру, щоб змінити розмір початкового кластера до цільової конфігурації кластера. Після завершення зміни еластичного розміру виконайте той самий тест робочого навантаження та оцініть продуктивність відповідно до SLA. Виберіть конфігурацію, яка відповідає цільовій ціні.
Робоче навантаження лише для тестування виробника на різних конфігураціях кластера виробника
Після того, як ви перемістите робоче навантаження споживача в кластер споживачів з оптимальною ціною, може з’явитися можливість зменшити обчислювальні ресурси виробника, щоб заощадити на витратах.
Щоб досягти цього, ви можете повторно запустити лише робоче навантаження виробника на 1/2x вихідного розміру виробника та оцінити продуктивність робочого навантаження. Відповідно зміна розміру кластера вгору та вниз залежить від результату, а потім ви вибираєте мінімальну конфігурацію виробника, яка відповідає вашим вимогам до продуктивності робочого навантаження.
Переоцініть після повного робочого навантаження з часом
У міру того, як Amazon Redshift продовжує розвиватися, і з’являються випуски для покращення продуктивності та масштабованості, продуктивність обміну даними продовжуватиме покращуватися. Крім того, численні змінні можуть впливати на продуктивність запитів на обмін даними. Нижче наведено лише деякі приклади.
- Зміна швидкості прийому та обсягу даних
- Шаблон і характеристика запиту
- Зміни навантаження
- Паралелізм
- Технічне обслуговування, наприклад, вакуум, аналіз та ATO
Ось чому ви повинні час від часу переоцінювати розміри кластерів виробників і споживачів, використовуючи наведену вище стратегію, особливо після розгортання повного робочого навантаження, щоб отримати нову найкращу цінову продуктивність від конфігурації вашого кластера.
Автоматичне визначення розмірів
Якщо ваше середовище включає складнішу архітектуру, наприклад із кількома інструментами чи програмами (BI, прийом або потокове передавання даних, ETL, наука про дані), тоді використання ручного методу з наведених вище загальних інструкцій може бути неможливим. Натомість ви можете використовувати рішення в цьому розділі для автоматичного відтворення робочого навантаження з вашого виробничого кластера на тестових кластерах споживачів і виробників для оцінки продуктивності.
Проста утиліта Replay буде використано як автоматизоване рішення, яке допоможе вам отримати правильний розмір кластерів виробників і споживачів за найкращою ціною.
Simple Replay — це інструмент для проведення аналізу «що-якщо» та оцінки ефективності робочого навантаження в різних сценаріях. Наприклад, ви можете використовувати інструмент для порівняльного аналізу фактичного робочого навантаження на новому типі екземпляра, наприклад RA3, оцінити нову функцію або оцінити різні конфігурації кластера. Він також включає розширену підтримку для повторного прийому даних і конвеєрів експорту з операторами COPY і UNLOAD. Щоб розпочати роботу та відтворити свої робочі навантаження, завантажте інструмент із сайту Репозиторій Amazon Redshift GitHub.
Тут ми розглянемо кроки, щоб отримати журнали робочого навантаження з вихідного робочого кластера та відтворити їх в ізольованому середовищі. Це дає вам змогу легко порівняти ці кластери Amazon Redshift і вибрати конфігурацію кластерів, яка найкраще відповідає цільовій ціні.
На наступній схемі показано архітектуру рішення.
Покрокове керівництво
Виконайте ці кроки, щоб пройти через рішення для розміру кластерів споживачів і виробників.
Визначте розмір свого виробничого кластера
Ви завжди повинні переконатися, що ваш існуючий виробничий кластер має належний розмір, щоб отримати продуктивність, необхідну для задоволення ваших вимог щодо робочого навантаження. Ви можете скористатися калькулятором розміру з консолі Amazon Redshift, щоб отримати рекомендації щодо виробничого кластера на основі розміру ваших даних і характеристики запиту. Шукати Допоможіть мені вибрати на консолі в регіонах AWS, які підтримують типи вузлів RA3, щоб використовувати цей калькулятор розміру. Зауважте, що це лише початкова рекомендація для початку. Вам слід протестувати виконання повного робочого навантаження на кластері початкового розміру та відповідно змінювати розміри кластера вгору та вниз, щоб отримати найкращу цінову продуктивність.
Визначте робоче навантаження, яке необхідно ізолювати
У вашому вихідному кластері можуть бути різні робочі навантаження, але першим кроком є визначення найбільш критичного робочого навантаження для бізнесу, яке ми хочемо виділити. Це тому, що ми хочемо переконатися, що нова архітектура відповідає вашим вимогам до робочого навантаження. Це після це хороша довідка про випадки використання ізоляції робочого навантаження для спільного використання даних, яка може допомогти вам вирішити, яке робоче навантаження можна ізолювати.
Налаштувати просте відтворення
Коли ви дізнаєтеся про своє критичне навантаження, ви повинні увімкнути журнал аудиту у вашому виробничому кластері, де виконується критичне робоче навантаження, визначене вище, для захоплення запитів і зберігання Проста служба зберігання Amazon (Amazon S3). Зауважте, що для доставки журналів аудиту в Amazon S3 може знадобитися до трьох годин. Коли журнал аудиту буде доступний, перейдіть до налаштування Simple Replay , А потім витяг критичне навантаження з журналу аудиту. Зверніть увагу, що start_time і end_time можна використовувати як параметри для фільтрації критичного робочого навантаження, якщо ці робочі навантаження виконуються в певні періоди часу, наприклад, з 9:11 до XNUMX:XNUMX. Інакше він витягне всі зареєстровані дії.
Базове навантаження
Створіть базовий кластер із тією ж конфігурацією, що й кластер-виробник, відновивши з робочого знімка. Метою початку роботи з тією самою конфігурацією є базова продуктивність ізольованого середовища.
Коли базовий кластер стане доступним, повторити витягнуте робоче навантаження в базовому кластері. Результатом цього повтору буде базова лінія, яка використовується для порівняння з наступними повторами на різних споживчих конфігураціях.
Налаштуйте початкові тестові кластери виробника та споживача
Створіть кластер-виробник із тією самою конфігурацією робочого кластера, відновивши з моментального знімка виробництва. Створіть кластер споживачів із рекомендованим початковим розміром споживача з попередніх вказівок. Крім того, налаштуйте обмін даними між виробником і споживачем.
Повторне навантаження на початкового виробника та споживача
Replay лише робоче навантаження виробника на кластер виробника початкового розміру. Цього можна досягти за допомогою параметра фільтра «Виключити», щоб виключити запити споживачів, наприклад користувача, який виконує запити споживачів.
Replay робоче навантаження споживача на кластері споживачів початкового розміру. Цього можна досягти за допомогою параметра фільтра «Включити», щоб виключити запити споживачів, наприклад користувача, який виконує запити споживачів.
Оцініть продуктивність цих повторів порівняно з вимогами до базової лінії та робочого навантаження.
Повторюйте робоче навантаження споживача на різних конфігураціях
Якщо початковий розмір споживчого кластера відповідає або перевищує ваші вимоги щодо продуктивності робочого навантаження, ви можете або використовувати цю конфігурацію кластера, або ви можете виконати ці кроки, щоб протестувати на менших конфігураціях, щоб побачити, чи можна ще більше зменшити витрати та все одно отримати потрібну продуктивність.
Порівняйте початкові результати споживчої ефективності з вашими вимогами до робочого навантаження:
- Якщо результат перевищує ваші вимоги до продуктивності робочого навантаження, ви можете поступово зменшувати розмір кластера споживачів, починаючи з 1/2x, повторити повторне відтворення та оцінити продуктивність, а потім відповідно збільшити або зменшити розмір залежно від результату, доки він не відповідатиме вашому робочому навантаженню. вимоги. Мета полягає в тому, щоб отримати найкраще місце, де вас задовольняють вимоги до продуктивності та отримати найнижчу ціну.
- Якщо результат не відповідає вашим вимогам щодо продуктивності робочого навантаження, ви можете поступово збільшити розмір кластера, починаючи з 2-кратного початкового розміру, повторити повторне відтворення та оцінити продуктивність, доки вона не відповідатиме вашим вимогам щодо продуктивності робочого навантаження.
Відтворення робочого навантаження виробника на різних конфігураціях
Після того, як ви розподілите робочі навантаження на кластери споживачів, навантаження на кластер виробника слід зменшити, і ви повинні оцінити продуктивність робочого навантаження кластера виробника, щоб знайти можливість зменшити розмір, щоб заощадити на витратах.
Етапи подібні до споживчого відтворення. Еластична зміна розміру кластера виробника поступово, починаючи з 1/2x вихідного розміру, відтворення лише робочого навантаження виробника та оцінка продуктивності, а потім подальше збільшення або зменшення розміру, доки він не відповідатиме вашим вимогам щодо продуктивності робочого навантаження. Мета полягає в тому, щоб знайти зручне місце, де ви влаштовуєте вимоги до продуктивності робочого навантаження, і отримати найнижчу можливу ціну. Отримавши потрібну конфігурацію кластера-виробника, спробуйте повторно відтворити робочі навантаження споживача на кластері споживача, щоб переконатися, що на продуктивність не вплинули зміни конфігурації кластера-виробника. Нарешті, ви повинні одночасно відтворювати робочі навантаження виробника та споживача, щоб переконатися, що продуктивність досягається в сценарії повного робочого навантаження.
Переоцініть після повного робочого навантаження з часом
Подібно до загальних вказівок, ви повинні час від часу переоцінювати розміри кластерів виробників і споживачів, використовуючи попередню стратегію, особливо після розгортання повного робочого навантаження, щоб отримати нову найкращу цінову продуктивність від конфігурації вашого кластера.
Прибирати
Виконання цих тестів визначення розміру у вашому обліковому записі AWS може призвести до певних витрат, оскільки вони створюють нові кластери Amazon Redshift, які можуть стягуватися як екземпляри на вимогу, якщо у вас немає зарезервованих екземплярів. Після завершення оцінювання радимо видалити кластери Amazon Redshift, щоб заощадити кошти. Ми також рекомендуємо призупиняти кластери, коли вони не використовуються.
Застосування Amazon Redshift і передових практик обміну даними
Правильне визначення розміру кластерів виробників і споживачів дасть вам хороший старт, щоб отримати найкращу цінову ефективність від розгортання Amazon Redshift. Однак розмір не єдиний фактор, який може максимізувати вашу продуктивність. У цьому випадку не менш важливим є розуміння та дотримання найкращих практик.
Загальні рекомендації щодо налаштування продуктивності Amazon Redshift застосовуються до розгортання обміну даними. Переконайтеся, що ваше розгортання відповідає цим передового досвіду.
Є численні найкращі методи обміну даними, яких ви повинні дотримуватися, щоб переконатися, що ви максимізуєте продуктивність. Зверніться до цього після для більш докладної інформації.
Підсумки
Немає універсальних рекомендацій щодо розмірів кластерів виробників і споживачів. Він залежить від робочого навантаження та вашої продуктивності SLA. Мета цієї публікації – надати вам вказівки щодо того, як ви можете оцінити продуктивність конкретного робочого навантаження спільного використання даних, щоб визначити розміри кластерів споживачів і виробників, щоб отримати найкращу цінову продуктивність. Подумайте про тестування робочих навантажень на виробника та споживача за допомогою простого відтворення, перш ніж використовувати його у виробництві, щоб отримати найкращу цінову ефективність.
Про авторів
Б. П. Яу є старшим менеджером із продуктів в AWS. Він із захопленням допомагає клієнтам розробляти рішення для великих даних для обробки даних у великих масштабах. До AWS він допомагав Amazon.com Supply Chain Optimization Technologies перенести своє сховище даних Oracle на Amazon Redshift і створити платформу аналітики великих даних наступного покоління за допомогою технологій AWS.
Сідхант Муралідхар є головним технічним менеджером з роботи з клієнтами в AWS. Він працює з великими корпоративними клієнтами, які працюють на AWS. Він захоплюється роботою з клієнтами та допомагає їм розробляти робочі навантаження для забезпечення витрат, надійності, продуктивності та операційної досконалості в масштабі їхньої хмарної подорожі. Він також має великий інтерес до аналізу даних.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
- джерело: https://aws.amazon.com/blogs/big-data/how-to-get-best-price-performance-from-your-amazon-redshift-data-sharing-deployment/
- 100
- a
- МЕНЮ
- вище
- відповідно
- рахунки
- Рахунки
- Achieve
- досягнутий
- через
- діяльності
- доданий
- Прийняття
- після
- проти
- ВСІ
- дозволяє
- завжди
- Amazon
- Amazon.com
- кількість
- аналіз
- аналітика
- аналізувати
- та
- Інший
- застосовно
- застосування
- підхід
- архітектура
- аудит
- Автоматизований
- автоматично
- доступний
- AWS
- заснований
- Базова лінія
- оскільки
- перед тим
- еталонний тест
- КРАЩЕ
- передового досвіду
- Краще
- між
- Великий
- Великий даних
- будувати
- бізнес
- захоплення
- випадок
- випадків
- певний
- ланцюг
- Зміни
- характеристика
- характеристика
- стягується
- клієнтів
- хмара
- кластер
- COM
- зручний
- загальний
- порівняти
- порівняння
- повний
- Зроблено
- комплекс
- складність
- обчислення
- Проведення
- конфігурація
- Вважати
- послідовний
- Консоль
- споживач
- продовжувати
- триває
- безперервний
- Коштувати
- витрати
- може
- створювати
- критичний
- Клієнти
- дані
- Analytics даних
- наука про дані
- обмін даними
- поставляється
- залежить
- розгортання
- деталі
- Визначати
- різний
- прямий
- Не знаю
- вниз
- скачати
- під час
- легко
- або
- дозволяє
- підвищена
- підприємство
- Навколишнє середовище
- однаково
- особливо
- Ефір (ETH)
- оцінювати
- оцінки
- еволюціонує
- приклад
- Приклади
- перевищує
- Перевага
- існуючий
- експорт
- витяг
- зазнає невдачі
- ШВИДКО
- реально
- особливість
- фільтрувати
- в кінці кінців
- Перший
- Гнучкість
- стежити
- після
- слідує
- від
- Повний
- принципово
- далі
- Крім того
- Отримувати
- в цілому
- покоління
- отримати
- отримання
- GitHub
- Давати
- Go
- добре
- керівництво
- допомога
- допоміг
- допомогу
- ГОДИННИК
- Як
- How To
- Однак
- HTTPS
- ідентифікований
- ідентифікувати
- Impact
- вплив
- реалізовані
- наслідки
- важливо
- поліпшення
- поліпшення
- in
- includes
- Augmenter
- початковий
- спочатку
- екземпляр
- замість
- інтерес
- залучений
- ізольований
- ізоляція
- IT
- подорож
- Кін
- Знати
- великий
- більше
- запущений
- дозволяє
- Важіль
- жити
- загрузка
- подивитися
- обслуговування
- зробити
- менеджер
- керівництво
- Максимізувати
- Зустрічатися
- відповідає
- метод
- може бути
- мігрувати
- мінімальний
- модель
- більше
- найбільш
- рухатися
- руху
- множинний
- Необхідність
- нужденних
- потреби
- Нові
- наступний
- вузол
- численний
- раз
- Onboard
- ONE
- оперативний
- Можливість
- оптимізація
- оптимальний
- оракул
- оригінал
- Інше
- інакше
- параметр
- параметри
- пристрасний
- Викрійки
- виконувати
- продуктивність
- виступає
- періодів
- план
- платформа
- plato
- Інформація про дані Платона
- PlatoData
- точка
- це можливо
- пошта
- практики
- попередній
- price
- Головний
- процес
- виробник
- Product
- менеджер по продукції
- Production
- правильно
- забезпечувати
- забезпечує
- мета
- питань
- ставка
- рекомендувати
- Рекомендація
- рекомендований
- зменшити
- Знижений
- райони
- Релізи
- надійність
- Вимога
- захищені
- ресурс
- відновлення
- результат
- результати
- Правило
- прогін
- біг
- то ж
- зберегти
- масштабованість
- масштабовані
- шкала
- сценарії
- наука
- плавно
- розділ
- безпечний
- безпечно
- Шукати
- обслуговування
- установка
- Поділитись
- поділ
- Повинен
- Показувати
- Шоу
- аналогічний
- простий
- Розмір
- розміри
- менше
- Знімок
- рішення
- Рішення
- деякі
- Source
- конкретний
- розкол
- Spot
- standard
- старт
- почалася
- Починаючи
- заяви
- Крок
- заходи
- Як і раніше
- зберігання
- зберігати
- Стратегія
- потоковий
- наступні
- поставка
- ланцюжка поставок
- Оптимізація ланцюга поставок
- підтримка
- солодкий
- Приймати
- Мета
- технічний
- Технології
- тест
- Тестування
- Тести
- Команда
- Джерело
- їх
- три
- через
- час
- до
- інструмент
- інструменти
- Типи
- розуміння
- використання
- використання випадку
- користувач
- Вакуум
- Що
- який
- ВООЗ
- волі
- без
- робочий
- працює
- вашу
- зефірнет