تنقيب البيانات باستخــدام لغـة R.. تطبيقات إدارية واقتصـادية​


في ظل فيض البيانات الهائلة التي تنتجها البشرية عبر العديد من مصادرها، خاصة المصادر الإلكترونية والحاسوبية العصرية؛ برزت الحاجة الملحة إلى ضرورة تطوير أدوات ذكية تمتاز بالقوة في تحليلها هذه البيانات واستكشاف المعرفة؛ إذ إننا "نغرق في البيانات، ولكننا عطشى إلى المعرفة". لذلك ظهر علم تنقيب البيانات؛ بهدف استخلاص المعرفة منها، مستعينًا بالأساليب الإحصائية والخوارزميات والتقنيات البرمجية. وفي ضوء ما سبق؛ حدد د.عماد محمد سالم أفكاره، وجمع البيانات من المصادر المعرفية، واستعان بأدواته ووظَّف أساليبه المختلفة، وقام بتأليف كتاب بعنوان: "تنقيب البيانات باستخدام لغة R – تطبيقات إدارية واقتصادية" الذي يعد أحدث إصدارات معهد الإدارة العامة، والذي نستعرض معكم ملخصًا لأبرز موضوعاته وأهدافه، في السطور التالية.
التحول الرقمي
يتكون الكتاب من 6 فصول متنوعة، بالإضافة إلى كل من: المقدمة، والمصطلحات، والمراجع. وتبرز أهمية هذا الكتاب في مواكبته للاتجاه العالمي نحو التحول الرقمي، وتحقيقًا لرؤية المملكة 2030 ؛والتي يمثل التحول الرقمي أحد أهم ركائزها. فقد أصبحــت معظم مناحي الحياة تدار عبر برامج الحاســب الآلي والتطبيقات والمواقع الإلكترونية التي تحوي كمًا هائلا ً ومتزايدًا من البيانات، مما جعل من البيانات الضخمة المخزنة على أجهزة الحاســب الآلي وشــبكة الإنترنت والخوادم تحديًا كبيرًا يواجه الجهات الحكومية والشركات والمؤسســات، بالإضافة إلى انخفاض جودة البيانات، وصعوبة الاســتفادة من كميــات لا يمكن تخيلهــا من البيانــات بأحجام تصــل إلى الآلاف والملايين مــن التيرابايت، الأمر الذي أدى إلى ظهور ســعات تخزين أكبر، مثل بيتابايت وإكســابايت وزيتابايت ويوتابايت.
موضوع الكتاب
ويدور موضوع هذا الكتاب حول علم تنقيب البيانات وأهم تطبيقاته في المجالات الإدارية والاقتصادية باستخدام لغة البرمجة الإحصائية R، والتي تم اختيارها لما تمتاز به من إمكانات فريدة، واختيارها من قبل الإحصائيين وعلماء البيانات كإحدى أقوى لغات البرمجة في علم البيانات، بالإضافة إلى كونها لغة برمجة مجانية ومفتوحة المصدر، وســهولة تعلمها واســتخدامها، ودعمها معظم أنظمة التشــغيل، وما تتمتع به من إمكانات عالية في تحليل البيانــات والتمثيل البياني ودعمها للغة العربية، بالإضافة إلى توفر بيئات تطويرية متكاملة تسهم في استخدامها بشكل احترافي.
مفاهيم وأساسيات
يستهل المؤلف كتابه بالفصل الأول، كمقدمــة عــن تنقيب البيانات، تستهدف تعريف القارئ وإلمامه بالمفاهيم الأساسية في علــم تنقيب البيانات وأهدافه، واستكشــاف المعرفة في قواعد البيانات، والفرق بين التعلــم الموجه والتعلم غير الموجه من جهة، وبين النماذج الوصفية والنماذج التنبؤية من جهــة أخرى، وعرض أهم التطبيقات الإدارية والاقتصادية في تنقيب البيانات، وتحديد أهم التحديات التي تواجهه، ثم التعرف على برمجيات تنقيب البيانات المستخدمة.
ويتناول الفصل الثاني أساسيات لغة البرمجة الإحصائية R، ويستهدف هذا الفصل على المستويين المعرفي والمهاراتي مساعدة الباحثين وغيرهم ممن لم يسبق لهم استخدام هذه اللغة، وإتقان مهاراتها الأساسية، والتي تعد ذات أهمية كبيرة في فهم الموضوعات التفصيلية للكتاب.
تنظيف البيانات واستكشافها
يبدأ الفصل الثالث بــأول مراحل عملية تنقيب البيانات، وهي مرحلة تهيئة البيانات وإعدادهــا من خــلال التعرف على مجموعة البيانات، واختيــار البيانات المهمة، والتعامل مــع المشكلات التي تواجهنا في مجموعات البيانات الضخمة، مثــل القيم المفقودة والقيم الشاذة والبيانات المشوشة، المسماة بتنظيف البيانات، وكذلك تحوير البيانات، وتكاملها، وذلك بتطبيق عدد من خوارزميات تنقيب البيانات باستخدام لغة R.
ثم يستكشف الفصل الرابع البيانات من خلال عرضها جدوليًا وبيانيًا واســتخراج الإحصــاءات الوصفية وتحليل الارتباط للعلاقة بين المتغيرات، والتي تعطي صورة وصفية متكاملة لمجموعة البيانات وتســاعد على فهمها، وتسهم في تحديد أساليب تنقيب البيانات المناسبة لتحليلها واستكشاف أنماطها.
النماذج الوصفية والتنبؤية
ويركز الفصل الخامس على النماذج الوصفية للبيانات، والتي مــن أهمها نموذج قواعد التوافق، ونموذج التحليل العنقودي، ونموذج تحليل القيم الشــاذة، فيحيط القارئ علمًا بهذه النماذج، وأهم أساليبها وخوارزمياتها، وتطبيقاتها الإدارية والاقتصادية.
ويختتم د.عماد سالم كتابه بالفصل الســادس، حيث يتطرق إلى النماذج التنبؤية، والتي مــن أهمها نموذج الانحدار، ونموذج السلاسل الزمنية، ونموذج التصنيف، إذ يتناول بالتفصيل هذه النماذج، وأهم أساليبها وخوارزمياتها، وتطبيقاتها الإدارية والاقتصادية.


 
 
جميع الحقوق محفوظة: معهد الإدارة العامة