بالحقيقة ,كما بدا يتوضح,بانه ليس فقط اختيار الاداة يؤثر على تهياة البيانات والعكس صحيح,كذلك اختيار الاداة (وكذلك,طرق تهياة البيانات ) تتأثر بقوة من قبل مجال المشكلة.ماذا تريد من ناتج العملية التي تؤثر على ماذا ترغب بوضعه في داخلها .يجب ان تفحص جميع اجزاء عملية تنقيب البيانات القواعد الذهبية العشرة او الوصايا العشر لتنقيب البيانات لمعرفة كيف يمكن ان تساعد وتوجه المنقب خلال عملية تهياة البيانات :
- اختار مشاكل محددة بوضوح والتي تؤدي الى فوائد ملموسة .
- صف الحل المطلوب.
- حدد كيفية استخدام الحل المعطى.
- أفهم اكثر مايمكن عن المشكلة و مجموعة البيانات (المدى).
- دع المشكلة توجه النمذجة( Modeling ) (اختيار الاداة تهياة البيانات )
- اشترط افتراضات Stipulate Assumptions .
- تصفية النموذج بصورة مكررة.
- اجعل النموذج بسيط كلما امكن ذلك -لكنه الاسهل .
- حدد عدم الاستقرار Instability في النموذج (مجالات مهمة حيث يكون التغيير في الاخراج مختلف جدا Drastically للتغيرات البسيطة في الادخال ).
- حدد عدم التاكد Un Certainly في النموذج (مجالات ومديات مهمة في مجموعة البيانات حيث ينتج النموذج تنبوء قليل الموثوقية /البصيرة Insights.