قم بإنشاء وإعادة استخدام مجموعات البيانات المحكومة في Amazon QuickSight باستخدام ميزة Dataset-as-a-Source الجديدة

عقدة المصدر: 1188634

أمازون QuickSight هي خدمة ذكاء الأعمال (BI) السريعة والمدعومة بالسحابة والتي تسهل تقديم الرؤى للجميع في مؤسستك. قدمت QuickSight مؤخرًا ميزة Dataset-as-a-Source، وهي ميزة جديدة تسمح لأصحاب البيانات بإنشاء مجموعات بيانات موثوقة يمكن بعد ذلك إعادة استخدامها وتوسيعها بواسطة آلاف المستخدمين عبر المؤسسة. تتناول هذه المقالة مثالاً لكيفية قيام QuickSight بتسهيل إنشاء مجموعات بيانات قابلة لإعادة الاستخدام وسهلة التحكم، باستخدام Dataset-as-a-source.

تقديم مجموعة البيانات كمصدر

تسمح مجموعة البيانات كمصدر لمؤلفي QuickSight ومالكي البيانات بإنشاء مجموعات بيانات موثوقة، كمصدر واحد للحقيقة، إما باستخدام محرك QuickSight SPICE في الذاكرة، أو الاستعلام مباشرة عن قاعدة البيانات الأساسية. قد تحتوي مجموعات البيانات هذه على بيانات من جدول واحد من قاعدة بيانات واحدة، أو مجموعة من البيانات عبر مصادر بيانات متعددة، بما في ذلك الملفات المسطحة ومصادر البرامج كخدمة (SaaS) وقواعد البيانات ومستودعات البيانات. يمكن لمالكي البيانات الذين يتمتعون بفهم عميق للبيانات تحديد المقاييس والحسابات مسبقًا في مجموعة البيانات باستخدام البيانات الوصفية التي تسهل على المؤلفين فهم هذه البيانات واستهلاكها.

بعد إنشاء مجموعات البيانات الموثوقة هذه، يمكنك مشاركتها مع المؤلفين الذين يرغبون في استهلاك هذه البيانات - إما مباشرة على أساس كل مستخدم أو مجموعة، أو باستخدام المجلدات المشتركة في QuickSight. يمكن للمؤلفين الآن ببساطة استخدام مجموعات البيانات هذه لأنشطة إنشاء لوحة المعلومات الخاصة بهم، أو اختيار زيادة مجموعات البيانات هذه عن طريق إضافة حقول محسوبة إضافية أو ربطها ببيانات أخرى ذات صلة بهم. أي تحديثات يجريها مالك البيانات على مجموعة البيانات الموثوقة تتالي تلقائيًا إلى مجموعات البيانات النهائية التي أنشأها المؤلفون الفرديون باستخدام مجموعات البيانات هذه. يوفر هذا للمؤسسة عملية مشاركة بيانات آمنة ومحكومة وسهلة، ويمكن توسيع نطاقها لتشمل آلاف المؤلفين حسب الحاجة، دون الحاجة إلى أي إعداد خادم أو مستودعات بيانات على أجهزة سطح المكتب العميلة.

مثال على حالة استخدام مجموعة البيانات كمصدر

تستخدم حالة الاستخدام هذه المثال بيانات مراجعات عملاء أمازون. إنها بيانات عامة مخزنة في us-east-1 منطقة. لديك الجداول الثلاثة التالية:

  • تعليقات المنتج - تقييمات العملاء لمنتج معين
  • زبون - بيانات الملف الشخصي للعميل
  • customer_address - معلومات عنوان العميل

والشكل التالي يوضح العلاقة بين الجداول الثلاثة.

في الأقسام التالية، نشرح عملية استخدام Dataset-as-a-Source باستخدام الجداول من المخطط السابق.

إنشاء مجموعات البيانات المركزية

لنفترض أنك جزء من فريق هندسة البيانات المركزي الذي يتمتع بإمكانية الوصول إلى البيانات السابقة من خلال ثلاثة جداول في قاعدة البيانات. يخدم فريقك أكثر من 100 محلل أعمال عبر 10 فرق مختلفة في ثمانية بلدان، وهي فريق القسائم، وفريق التسويق الخارجي، وفريق منصة الهاتف المحمول، وفريق التوصيات. يرغب المحللون في كل فريق في تحليل بيانات المنتج والعملاء بالإضافة إلى البيانات الخاصة بفرقهم.

بدلاً من إنشاء عدة مجموعات بيانات غير متصلة والحفاظ عليها يدويًا لكل فريق، قام فريقك بإنشاء مجموعة بيانات مركزية. لقد قمت بإنشاء مجموعة بيانات المنتج والعملاء المركزية من خلال ضم الجداول الثلاثة في المخطط. تم تحسين أداء لوحة المعلومات وتكاليف الاستعلام لمجموعة البيانات المركزية الكبيرة الاستعلام الديناميكي. يتيح الاستعلام الديناميكي تشغيل مجموعات بيانات الاستعلام المباشر التي تحتوي على جداول مرتبطة بشكل أكثر كفاءة. يتم تطبيق الصلات ديناميكيًا بحيث يتم استخدام المجموعة الفرعية من الجداول المطلوبة لعرض مرئي فقط في الصلة. قام فريقك أيضًا بإنشاء مقياس رئيسي (حقل محسوب): متوسط ​​التقييم. تستخدم كل هذه الفرق مقياس متوسط ​​التقييم كقاعدة لتحليل خط أعمالها. تعريفها هو: متوسط ​​التقييم = Sum(Star_rating) / Unique_Count(Start_rating).

إعادة الاستخدام والانضمام إلى مجموعات البيانات الأخرى

أعادت الفرق الفردية استخدام مجموعة بيانات المنتج والعملاء المركزية وضمتها بالبيانات الخاصة بهم لإنشاء مجموعات البيانات الخاصة بهم. على سبيل المثال، أراد فريق التسويق أن يفهم كيف ساعد فريقه في تحسين تقييمات المنتج. ولذلك، قاموا بدمج مجموعة بيانات المنتج والعملاء المركزية مع بيانات الحملة لإنشاء مجموعة بيانات جديدة: التسويق - تقييم المنتج والعملاء. وبالمثل، قام فريق Mobile Platform بدمج بيانات الهاتف المحمول مع مجموعة بيانات المنتج والعملاء لفهم تأثير التصنيف على الهاتف المحمول.

باستخدام Dataset-as-a-Source، يمكنك إدارة البيانات بشكل مركزي مع السماح لكل فريق بتخصيص البيانات وفقًا لاحتياجاته الخاصة، كل ذلك أثناء مزامنة تحديثات البيانات، مثل تحديثات تعريفات المقاييس، والحفاظ على تعريفات مجموعة البيانات مثل أسماء الأعمدة، الأوصاف والمجلدات الميدانية. بالإضافة إلى ذلك، إذا كانت هذه مجموعات بيانات SPICE، فسيتم إنشاء مجموعات البيانات التي تم إنشاؤها حديثًا باستخدام SPICE كمصدر، بحيث لا تصل إلى مصدر البيانات في كل مرة يتم فيها إنشاء مجموعة بيانات أو تحديثها.

إدارة مجموعات البيانات المركزية

قمت أنت والفريق المركزي بتحديد مقاييس الأعمال مثل متوسط ​​التقييم في مجموعة البيانات المركزية. باستخدام Dataset-as-a-Source، يمكن للفرق الفردية استخدام مجموعة البيانات المركزية دون الحاجة إلى إعادة إنشاء الحقل بأنفسهم، مع توسيعه ببيانات تمثل احتياجات العمل المحددة الخاصة بهم. جميع الفرق قادرة على استخدام تعريف موحد لمقياس متوسط ​​التقييم.

لنفترض أنك تريد الآن إجراء تغيير على تعريف متوسط ​​التصنيف بسبب تغيير عملية الأعمال. تريد استبعاد Digital_Video_Download من فئة المنتج، وتحتاج إلى تقديم تعريف محدث لكل فريق. لإجراء تعديلات، يتعين عليك تعديل مجموعة البيانات المركزية فقط، وستحصل مجموعات البيانات المرتبطة على التحديثات تلقائيًا. وهذا يوفر عليك الوقت ويمنع الأخطاء في تعريفات مقاييس الأعمال.

وفي الختام

يساعدك إنشاء مجموعات البيانات من مجموعات البيانات الموجودة باستخدام Dataset-as-a-Source في ما يلي:

  • حوكمة مجموعة البيانات - يمكن لمهندسي البيانات التوسع بسهولة لتلبية احتياجات فرق متعددة داخل مؤسستهم من خلال تطوير وصيانة عدد قليل من مجموعات البيانات ذات الأغراض العامة التي تصف نماذج البيانات الرئيسية للمؤسسة - دون المساس بأداء الاستعلام.
  • إدارة مصادر البيانات تخفيض – يقضي المحللون قدرًا كبيرًا من الوقت والجهد في طلب الوصول إلى قواعد البيانات، وإدارة بيانات اعتماد قاعدة البيانات، والعثور على الجداول الصحيحة، وإدارة جداول تحديث البيانات. إن بناء مجموعات بيانات جديدة من مجموعات البيانات الموجودة يعني أنه لا يتعين على المحللين البدء من الصفر باستخدام البيانات الأولية من قواعد البيانات. يمكنهم البدء ببيانات منسقة مسبقًا، مع ضمان إمكانية وضع تحسينات مثل إدارة عبء العمل على جانب مصدر البيانات لضمان الأداء الأمثل لمخازن الواجهة الخلفية.
  • دقة المقاييس - يتيح إنشاء مجموعات البيانات من مجموعات البيانات الحالية لمهندسي البيانات إمكانية تحديد تعريفات البيانات الهامة والحفاظ عليها مركزيًا، مثل نمو المبيعات وصافي العائد الهامشي، عبر المؤسسات العديدة التابعة لشركتهم. كما يسمح لهم أيضًا بتوزيع التغييرات على تلك التعريفات، ويمنح محلليهم القدرة على البدء بتصور البيانات الصحيحة بشكل أسرع وأكثر موثوقية.
  • تخصيص مجموعة البيانات والمرونة - إنشاء مجموعات البيانات من مجموعات البيانات الموجودة يمنح المحللين المزيد من المرونة لتخصيص مجموعات البيانات لاحتياجات أعمالهم الخاصة دون القلق بشأن تعطيل البيانات للفرق الأخرى.

أظهر هذا المنشور كيف يمكن لمجموعة البيانات كمصدر لـ QuickSight أن تساعد في سير عمل إدارة البيانات لديك. تعمل هذه الميزة على تحسين إدارة مجموعات البيانات وإمكانية إعادة استخدامها بشكل كبير. تتوفر الآن مجموعة البيانات كمصدر بشكل عام في Amazon QuickSight Standard وEnterprise Editions في جميع مناطق QuickSight. لمزيد من التفاصيل، قم بزيارة هنا.


عن المؤلف

شاليش شوهان هو منتج يدير Amazon QuickSight، خدمة BI السحابية الأصلية والمُدارة بالكامل من AWS. قبل QuickSight، كان Shailesh هو الرائد العالمي في مجال المنتجات في Uber لجميع تطبيقات البيانات التي تم إنشاؤها من الألف إلى الياء. وفي وقت سابق، كان عضوًا مؤسسًا في فريق ThoughtSpot، حيث أنشأ أول محرك بحث للتحليلات في العالم. شايلش شغوف ببناء منتجات هادفة ومؤثرة من الصفر. إنه يتطلع إلى مساعدة العملاء أثناء العمل مع الأشخاص ذوي العقول العظيمة والقلوب الكبيرة.

المصدر: https://aws.amazon.com/blogs/big-data/create-and-reuse-governed-datasets-in-amazon-quicksight-with-new-dataset-as-a-source-feature/

الطابع الزمني:

اكثر من AWS