حجم البيانات التي تتم معالجتها اليوم أكبر بكثير من أي وقت مضى ، ويجب استخدام الأدوات المناسبة للتعامل مع هذه البيانات ومعالجتها بكفاءة. تم تصميم هذا المشروع "امازون Redshift للمبتدئين: مقدمة عن تخزين البيانات" للافراد المهتمين بتعلم اساسيات تخزين البيانات باستخدام Redshift. في هذا المشروع الذي يستغرق ساعة واحدة- سوف تتعلم:
١. بناء وتكوين cluster او مجموعه Redshift الخاصه بك.
٢. تحميل البيانات إلى Redshift من خدمه التخزين البسيطه S3 والاستعلام عنها.
٣. استخدام Redshift Spectrum للاستعلام عن البيانات الموجوده بخدمه التخزين البسيطه S3 بدون الداعي لنسخها الي Redshift.
٤. استكشاف كيفيه تصميم الجداول لتحقيق الكفاءة والأداء الأمثل.
لنفترض ان لدينا شركه تجاره الكترونيه عندها ملايين من العملاء والمنتجات وطلبات الشراء التي تتم اضافتهم علي موقعهم الالكتروني بشكل يومي. فريق تحليل البيانات بالشركه يواجهون مشكله كبيره وهي اضطرارهم للانتظار لساعات طويله قد تصل إلي ايام في كل مره يحتاجون فيها للاستعلام عن بيانات بداخل قواعد البيانات التي تحتوي علي ملايين الصفوف. بعد البحث وجدوا ان انسب طريقه للتعامل مع البيانات الضخمه هي نسخها الي مستودع بيانات ومن ثم الاستعلام عنها بعد البحث اكثر وجدو ان cluster او مجموعه Redshift ستكون الاختيار الانسب في الوقت الحالي حيث إنها مبنيه على تكنولوجيا من شركة مستودع بيانات المعالجة المتوازية الضخمة ParAccel للتعامل مع مجموعات البيانات واسعة النطاق ونقل قواعد البيانات. تستخدم Amazon Redshift SQL لتحليل البيانات المهيكلة وشبه المهيكلة عبر مستودعات البيانات وقواعد البيانات التشغيلية ومخازن البيانات وبالتالي ليس هناك حاجه لتعلم الفريق للغه استعلام اخري غير SQL ، مجموعات Redshift تستخدم الأجهزة المصممة من AWS والتعلم الآلي لتقديم أفضل أداء وسعر على أي نطاق. مهمتك كمهندس بيانات هي ان تقوم بإعداد cluster او مجموعه Redshift ونسخ البيانات لل cluster ثم الاستعلام عنها وهذا ما سنقوم بتنفيذه خلال المشروع.
هذا المشروع موجه للمبتدئين وخلال المشروع ستكتسب المهارات الأساسية المتعلقة بتخزين البيانات في Redshift والاستعلام عنها مثل نسخ البيانات من ملفات علي خدمه التخزين البسيطه S3 الي Redshift والاستعلام عنها باستخدام لغه الاستعلام SQL، والاستعلام عن البيانات المخزنه بخدمه التخزين البسيطه S3 بدون الداعي لنسخها ل Redshift باستخدام Redshift Spectrum، وتصميم جداول تحقق الكفاءة والأداء الأمثل. هذا المشروع فريد من نوعه لأنه يوفر تطبيقًا عمليًا للمفاهيم الأساسية لتخزين البيانات والاستعلام عنها والتي يمكن تطبيقها في مختلف الصناعات مثل التمويل أو الرعاية الصحية أو التسويق. بحلول نهاية الدورة ، ستكون لديك المهارات والمعرفة اللازمة لإعداد مجموعة Redshift لمؤسستك الخاصة.
لتجتاز المشروع ، يجب أن يكون لديك فهم أساسي للغه Structured Query Language SQL الخاصه بقواعد البيانات مثل اوامر انشاء الجداول CREATE وادخال البيانات بالجداول INSERT والاستعلام عن البيانات في الجداول SELECT ودمج الجداول JOIN ويُفضل أن يكون لديك معرفة باساسيات AWS مثل IAM roles, Simple Storage Service S3, Virtual Private Cloud VPC, AWS Glue.
من خلال إكمال هذا المشروع، ستكتسب خبرة قيمة في العمل باستخدام أدوات مثل Redshift و Redshift Spectrum والتي يمكن أن تساعدك على العمل بكفاءة أكبر خلال حياتك المهنية. على سبيل المثال ، إذا كنت تعمل في مؤسسة تحتاج إلى تخزين كميات كبيرة من بيانات المعاملات المالية الأولية بشكل منتظم ، فيمكنك استخدام هذه المهارات لتخزين البيانات والاستعلام عنها.