ماهو تنقيب البيانات: What is Data Mining؟
أصبحت قواعد البيانات اليوم كبيرة الحجم جدا وتقاس بالتيرابايت Terabytes التي هي أكثر من 1.000.000.000.000 بايت من البيانات .توجد ضمن هذه الكميات الضخمة من البيانات معلومات مخفية ذات طبيعة استيراتيجية مهمة .لكن عندما تكون هناك أشجار كثيرة فكيف يمكنك أن تضع استنتاجات ذات معنى حول الغابة ؟
ان الجواب الاحدث هو تنقيب البيانات ,والذي يتم أستخدامه لزيادة المجالات المفتوحة وتقليل الكلف .أن الجهد المسترجع هو رائع وكبير.أن المؤسسات العالمية ذات الابتكارات هي مستخدمة لتنقيب البيانات للتحديد والطلب الى الزبائن المهمين لاعادة عرض تكوين منتوجاتهم لزيادة المبيعات وتقليل الخسائر بسبب الخطأ او التزييف.
تستخدم عمليات تنقيب البيانات ادوات مختلفة في تحليل البيانات لاكتشاف الانماط Patterns والعلاقات في بيانات قد تستخدم لوضع توقعات صحيحة .ان الخطوة التحليلية الاولى والاسهل في تنقيب البيانات هي وصف البيانات –تلخيص عناصرها الاحصائية (مثل الانحراف المعياري Standard Deviation ) والمراجعة البصرية في استخدامه للوحات Charts والمخططات Graphs والبحث عن اتصالات ذات معنى وكذلك المتغيرات Variables (مثل قيم غالبا ماتكون موجودة سوية).
لكن وصف البيانات وحده لايمكن ان يوفر خطة عمل.يجب بناء نموذج توقعي Prediictive Model مؤسس على بصمات Patterns مححدة من نتائج معروفة ,وبعد ذلك فحص ذلك النموذج على نتائج مستحصلة من النموذج الاصلي .يجب ان لايختلف النموذج الجيد ابداً عن الحقيقة (مثلا خارطة العراق هي ليست تمثيل دقيق للطرق الحقيقية ).لكن يمكن أن تكون موجه مفيد لفهم طبيعة العمل .
الخطوة الاخيرة لاثبات النموذج Verify النموذج .مثلا , من قاعدة بيانات للزبائن الذين أستجابوا لعرض خاص ,انت منشيء نموذج يتوقع ماهي الاتجاهات التي ممكن ان تستجيب لنفس الغرض .هل يمكنك الاعتماد على هذا التوقع ؟ ارسل رسائل الى قسم من القائمة الجدية وانظر الى اي نتيجة تحصل عليها.
يتضمن تنقيب البيانات استخدام ادوات دقيقة في تحليل البيانات لاكتشاف أشياء غير معروفة سابقا وبصمات وعلاقات صحيحة في مجاميع بيانات كبيرة,يمكن ان تتضمن هذه الادوات نماذج احصائية وخوارزميات رياضية وطرق التعلم بالحاسوب (خوارزميات تحسن ادائها بصورة اوتوماتيكية من خلال التجربة ,مثل الشبكات العصبية او اشجار القرار).
بالنتيجة,فان تنقيب البيانات يتكون من اكثر من تجميع وادارة البيانات ,انه يتضمن ايضا تحليل Analysis وتوقع Prediction .
بعكس هذه المفاهيم لتنقيب البيانات ,يعتبر بعض المراقبين ان تنقيب البيانات هو خطوة في عملية اكبر تعرف باكتشاف المعرفة Knowledge Discovery في قواعد البيانات KDD الخطوات الاخرى في عملية KDD ,بتسلسل تطوري يتضمن تنقيب البيانات Cleaning , تكامل البيانات Integration , اختيار البيانات Selection , نقل البيانات Transformation , تنقيب البيانات Data Mining , تقييم البصمة Pattern Evaluation , وتمثيل المعرفة Knowledge Presentation .
تتضمن نتائج تنقيب البيانات مايلي:
1) التنبؤ بما قد يحدث بالمستقبل
2) تصنيف الأشخاص او الاشياء في مجاميع من خلال تمييز البصمات .
3) عنقدة Clustering الاشخاص او الاشياء في مجاميع اعتمادا على صفاتهم .
4) سلسلة ماهي الأحداث التي ستؤدي الى احداث قادمة.
ان تنقيب البيانات هو ليس:
1) الهجوم الوحشي Brute-Force في تحطيم كمية كبيرة من البيانات .
2) تطبيق أعمى للخوارزميات.
3) عرض البيانات بطرق مختلفة .
4) قاعدة بيانات ذات هدف مركز .
5) يصعب فهمه وتقنيا يحتاج الى درجة علمية في علم الحاسوب.
ان تنقيب البيانات هو :
1) كلمة صارخة مدوية لصنف من التقنيات التي تجد بصمات في البيانات .
2) مستفيد –مركزي ,عملية تفاعلية والتي تستغل تقنيات التحليل وقدرة حاسوبية .
3) مجموعة من التقنيات التي تجد علاقات لم يتم اكتشافها سابقا.
4) لا يعتمد على قواعد البيانات الحالية.
5) هدف سهل نسبيا يتطلب معرفة عن مشاكل الأعمال / تتطلب خبرة كبيرة .
يمكن تعريف تنقيب البيانات Data Mining :
"الأستخلاص الأوتوماتيكي للمعلومات التنبؤية المخفية في قواعد البيانات" .