نظريات القياس في تقويم
القدرات والمهارات الإنسانية
أ.د.خليل عبدالرحمن الحربي القياس والتقويم – هيئة تقويم التعليم والتدريب – السعودية
في كثيرٍ من القياسات التربوية والنفسية، يوجد متغير كامن أو غير منظور بطبيعته ويؤثر في المتغيرات المنظورة، وهذا المتغير غالبًا ما يكون معروفًا لدينا ومفهومًا بشكل حدسي، مثل الذكاء، بحيث يوصف الأفراد بحادي الذكاء، أو متوسطي الذكاء، أو منخفضي الذكاء. فمستمع هذه الأوصاف تكون لديه فكرة، ما الذي يشير إليه المتكلم؟ وماذا يقصد في وصفه؟ وبالمثل يُمكن أن نتكلم عن القدرة الدراسية وعلاماتها وسماتها وخصائصها، مثل: حصول الطالب على معدل جيد، لديه القدرة على تعلم أشياء جديدة بسهولة، القدرة على ربط معلومات مختلفة، واستخدام وقت الدراسة بطريقة فاعلة.
وفي المجالات الأكاديمية، نستخدم مصطلحات وصفية، مثل: القدرة القرائية، أو القدرة الرياضية والمكانية. وكل واحد من المصطلحات الوصفية السابقة، يطلق عليه علمُ القياس النفسي والتربوي متغيرات غير منظورة/غير ملاحظة (Unobservable)، أو كامنة (Latent)، أو خصلة/سمة (Trait). ومثل هذه المتغيرات يمكن وصفها بسهولة وخصوصًا للعالِم المتخصص في مجال العلوم الإنسانية سواء علم النفس أو التربية أو العلوم الاجتماعية، بحيث يستطيع أن يسرد ويعدد سماتها وخصائصها ومظاهرها، ولكن لا يمكن قياسها مباشرة، مثل: الطول والوزن؛ لأن هذه المتغيرات تعد مفاهيم أو افتراضات أو بناءات فرضية حددت في البحث والدراسة، وليست لها أبعاد فيزيائية محسوسة. ومن هنا جاء الهدف الأساس من القياس النفسي والتربوي وهو تحديد كمية وجود هذه السمات الكامنة (Latent Trait) في الشخص الواحد، ويمكن أن يصبح هذا المصطلح أكثر عمومية بإطلاق مصطلح على هذه المتغيرات «القدرة» (Ability “Baker, 1985”). ولقياس هذه السمات الكامنة أو القدرة بشكل كمي في شخص ما، من الضروري بناء أو تطوير مقياس أو اختبار أو أداة أو قائمة تحتوي على عدد من الفقرات (الأسئلة). كل فقرة من تلك الفقرات يجب أن تقيس بعضًا من مظاهر أو أوجه أو أبعاد القدرة الكامنة المستهدفة في القياس.
وبما أن المقاييس والاختبارات ليست مثالية، بمعنى أن جميع الدرجات المستقاة منها تحتوي على أخطاء القياس التي ليست لها علاقة بمجالات السمات المستهدفة بالقياس؛ لذا تعد نظريات القياس ونماذجها المختلفة مهمة وضرورية للمساعدة على فهم أفضل لإجراءات بناء وتطوير المقاييس والاختبارات، وكيف تتأثر هذه الإجراءات بمصادر الأخطاء. وإضافة إلى ذلك، كلما كانت القدرات أو السمات المقاسة أكثر عمومية وغير ملحوظة، كانت هناك حاجة ماسة إلى نموذج لنظرية اختبار تفسر العلاقة القائمة بين الدرجات الملاحظة للاختبار والأداء المقدر من نطاق البناء الفرضي للسمة أو القدرة المستهدفة في القياس. وتهدف هذه الورقة إلى استعراض أهم نظريات القياس وهي:
- نظرية الاختبار الكلاسيكية (Classical Test Theory).
- نظرية التعميم (Generalizability Theory) التي تعد امتدادًا للنظرية الكلاسيكية.
- نظرية الاستجابة للفقرة (Item Response Theory).
- طريقة الدلتا لقياس الدرجات (D-scoring Method of Measurement or Delta-scoring Method of Measurement) المطورة حديثًا من لدى المركز الوطني للقياس بهيئة تقويم التعليم والتدريب التي تجمع بين مميزات كلتا نظريتي القياس المعروفتين الكلاسيكية والحديثة.
أولًا: نظرية الاختبار الكلاسيكية
المبدأ الأساس لنظرية الاختبار الكلاسيكية هي أن الدرجة الملاحظة أو المكتسبة التي يحصل عليها المختبر في اختبار معين، والتي يرمز لها بـ( X) تتكون من جزأين: الدرجة الحقيقية للمختبر (True Score)، ويرمز لها بـ (T) ودرجة الأخطاء العشوائية (E)، وبذلك يمكن نمذجتها بالمعادلة الآتية:
X = T + E
أو الدرجة الملاحظة = الدرجة الحقيقية + الخطأ العشوائي فالدرجة الحقيقية للمختبر (T) هي الدرجة التي يحصل عليها الطالب، والتي تمثل قدرته الحقيقية في سمة كامنة ما، مثل الرياضيات، حتى لو أعيد تطبيق الاختبار عليه مئات المرات سوف يحصل على الدرجة نفسها. أما درجة الأخطاء العشوائية (E) فهي الدرجة التي تضاف أو تطرح للدرجة الحقيقية لطالب نتيجة عدد من العوامل منها:
- عوامل متعلقة بالاختبار مثل: عدم وضوح مفردات الاختبار وغموض تعليماته، وعدم تحديد محكات تصحيح الاختبار.
- عوامل متعلقة بالظروف البيئية مثل: الإضاءة والتهوية والضوضاء وملاءمة غرفة الاختبار.
- عوامل تتعلق بخصائص الأفراد المختبرين مثل قلة دافعيتهم، وشعورهم بالتعب أو الملل أو القلق، وحالتهم النفسية والصحية بعامة، وقت إجراء الاختبار، وعوامل أخرى مثل: التخمين.
وباستخدام هذه المعادلة وافتراضاتها المختلفة يمكن مساعدة صانعي المقاييس والاختبارات بالوصول إلى «القياس الجيد» الذي يتمتع بثبات مرتفع ومصداقية عالية لجميع الفقرات المستخدمة في قياس جميع جوانب السمة المقاسة، وعلى الرغم من سهولة هذه النظرية في الفهم والتطبيق وحساب إحصاءاتها المختلفة، وعدم صعوبة تحقيق افتراضاتها يعاب عليها أنها تهتم بالدرجة الخام المجمعة من مفردات الاختبار بعكس النظرية الحديثة التي تركز جل اهتمامها بالربط بين القدرة المقيسة وكل فقرة من فقرات الاختبار ووضعهم على مقياس تدريجي واحد. وللحصول على معلومات تفصيلية عن نظرية الاختبار الكلاسيكية يمكن الرجوع إلى المرجع (Crocker & Algina, 1986).
ثانيًا: نظرية التعميم
تعد نظرية التعميم امتدادًا للنظرية الكلاسيكية، ولكن تعتمد طريقة لتقسيم الخطأ إلى أجزاء كثيرة حيث يمثل كل جزء منها مصدرًا مختلفًا لأسباب الاختلافات في الدرجات بين المختبرين. وهذا يعني أنها تسعى إلى التحكم بمصادر الخطأ ومعرفة أسبابه، ومن ثَمَّ يمكن قراءته وتحليله في أثناء إصدار ثبات الدرجات المدروسة. ويشيع استخدامها في الاختبارات المفتوحة أو المقالية التي يُستخدم مصححون لرصد درجاتها مثل: اختبارات الإبداع أو اختبارات الكتابة. وللحصول على معلومات تفصيلية عن نظرية التعميم يمكن الرجوع إلى المرجع (Crocker & Algina, 1986).
ثالثًا: نظرية الاستجابة للفقرة
نظرية الاستجابة للفقرة تفترض أن إجابات المختبرين للفقرة الواحدة يمكن نمذجتها بواسطة دالة رياضية معينة تسمى دالة الاستجابة للفقرة (Item Response Function)، ويوجد هناك عديدٌ من النماذج شائعة الاستخدام، وسيذكر في هذه الورقة نماذج استجابة الفقرة للفقرات الثنائية (واحد، صفر)؛ وأحد هذه النماذج النموذج اللوجستي الثلاثي المعالم (Three-Parameter Logistic Model)، الذي يمكن نمذجة بالمعادلة الآتية:
هذا النموذج يتكون من ثلاثة معالم في تحديد خصائص البند الواحد، معلم صعوبة الفقرة ويرمز له بـ (bi)، معلم تمييز الفقرة ويرمز له بـ (ai)، معلم التخمين ويرمز له بـ (ci)، الذي ينمذج احتمالية الاستجابة الصحيحة عن الفقرة لمفحوص ما ويرمز لها بـ (Pi(θ)) لسمة كامنة معينة مقيسة بمجموعة من أسئلة أو فقرات الاختبار ويرمز لها بـ (θ). ونجد أنه كلما زادت قيمة السمة الكامنة زادت احتمالية الاستجابة الصحيحة عن الفقرة (Hambleton, Swaminatha & Rogers, 1991).
ويوجد أيضًا نموذجان آخران صالحان للفقرات ثنائية التصحيح شائعا الاستخدام، وهما نموذج ثنائي المعالم، الذي يساوي معْلم التخمين فيه صفر، ويَستخدم معْلمي الصعوبة والتمييز في تحديد خصائص الفقرة، بينما نموذج أحادي المعْلم يفترض أنّ التخمين يساوي صفرًا والتمييز متساوٍ مع جميع الفقرات، ويستخدم مْعلم الصعوبة في تحديد خصائص الفقرة الواحدة. وتتميز هذه النظرية عن النظرية الكلاسيكية بقدرتها على الربط المباشر بين القدرة المراد قياسها في الاختبار وفقرات الاختبار ووضعهما على مقياس تدريجي متصل واحد، وهذه الميزة أوجدت خاصية الثباتية في القياس (Invariance) وهي أن معالم صعوبة فقرات الاختبارات لا تتأثر باختلاف قدرات المختبرين، بمعنى أن قيم معالم الصعوبة تظل ثابتة في عينات المختبرين، وبالمقابل نتائج المختبرين لا تتأثر باختلاف الفقرات التي طبقت عليهم. وهذه المميزات في نظرية الاستجابة للفقرة سمحت بكثير من التطبيقات الناجحة في مجال القياس، مثل بناء وتطوير اختبارات معروفة معالمها قبل تطبيقها على المختبرين، مما يسهل كثيرًا من استعمالات الاختبارات في القبول والانتقاء والتسكين، وساعدت أيضًا على تطبيق الاختبارات المحوسبة التكيفية التي سمحت بإعطاء كل مختبر ما يناسبه من أسئلة لتحديد قدرته بدلًا من إعطائه كمًّا هائلًا من الأسئلة تؤدي إلى إجهاده وقلقه، وربما لا تحدد مستواه تحديدًا دقيقًا، وساعدت أيضًا على تخفيض الجهد والتكلفة لدى صانعي الاختبارات في تقليل كشف الفقرات الجيدة على مجموعات كبيرة من المختبرين.
رابعًا: طريقة الدلتا لقياس الدرجات
في آخر سبع سنوات في المدة (2015-2022) تبنى المركز الوطني للقياس (قياس) بهيئة تقويم التعليم والتدريب في المملكة العربية السعودية تطوير طريقة حديثة في القياس يطلق عليها «طريقة الدلتا لقياس الدرجات» في ممارساته في صناعة الاختبارات والمقاييس، مثل: تحليل نتائج الاختبارات، وفحص جودتها، وبناء نماذجها/ وإصدار درجاتها وفق تجريب استطلاعي مكثف، ونشر علمي في مجلات القياس المرموقة، كتابة التقارير الفنية، تطوير برامج حاسوبية، تطبيقات عملية في تقويم التقويمات الواسعة النطاق. فتميزت هذه الطريقة بالجمع بين مفاهيم وإجراءات نظرية الاختبار الكلاسيكية ونظرية الاستجابة للفقرة، بهدف الحصول على تقارير لنتائج الاختبارات شفافة وسهلة الفهم لشريحة كبيرة من أصحاب المصلحة، مثل: المختبرين، وأولياء الأمور، والتربويين، وصانعي السياسات، ومتخذي القرار. فساعدت هذه الطريقة على إصدار درجات مجمعة موزونة وفق خصائص معالم البنود، وهذا يعالج مشكلة إصدار الدرجات في النظرية الكلاسيكية، وتحديد درجات موزونة معلومة الحدود (مثلًا تتراوح الدرجات بين 0 إلى 100 درجة)، وهذا يعالج مشكلة نظرية الاستجابة للفقرة أو النظرية الحديثة، بعدم وجود حدود للدرجات الموزونة في أثناء تقديرها، حيث تتراوح من سالب ما لانهاية إلى موجب ما لانهاية (-∞ + – ∞). وكما هو موجود بالنظرية الحديثة للقياس، طريقة الدلتا تنمذج إجابات المختبرين للدرجات، بالربط بين معالم الفقرات ومعالم الأفراد أو القدرات ووضعهم على مقياس تدريجي متصل واحد، وهو ما يطلق عليه «مقياس الدلتا» (D/Delta-scale). وللاطلاع على معلومات تفصيلية عن طريقة الدلتا لقياس الدرجات، يمكن الاطلاع على المراجع (Dimitrov, 2016, 2019, 2020; Dimitrov & Atanasov, 2021).