CVRزمانی برابر یک است که همه ارزیابان آن سوال را ضروری تشخیص دهند و هنگامی که بیش از نیمی اما کمتر از کل ارزیابان سوال را ضروری تشخیص دهند، مقدار آن بین ۰ و ۱ می شود. CVRزمانی منفی می شود که کمتر از نیمی از ارزیابان سوال را ضروری درجهبندی کنند (ویلسون[۱۴۳]، پان[۱۴۴] و چامسکی[۱۴۵]، ۲۰۱۲).
روایی ملاکی
روایی ملاکی به بررسی میزان ارتباط نمرات آزمون و ملاک می پردازد. میزان این رابطه به صورت ضریب همبستگی بیان می شود که آن را ضریب روایی مینامند. هر زمان که از نمرات یک آزمون برای پیش بینی عملکرد افراد در آزمون دیگر استفاده می شود، روایی ملاکی مطرح میگردد. به آزمونی که عملکرد فرد در آن پیش بینی می شود ملاک میگویند. داده های ملاک باید از ویژگیهای مطلوبی از قبیل؛ مربوط بودن، غیر سودار، اعتبار و در دسترس بودن برخوردار باشند. روایی ملاکی به دو نوع تقسیم می شود. نوع اول؛ روایی پیشبین، ویژه آزمونهایی است که برای پیش بینی موفقیت تحصیلی، شغلی افراد در آینده به کار میرود. برای برآورد این روایی، بین نمرات آزمون و اندازه های ملاکی که بعد از یک فاصله زمانی از اجرای آزمون به دست آمدهاند، همبستگی محاسبه می کنند. به ضریب همبستگی به دست آمده، ضریب روایی پیشبین میگویند. نوع دوم، روایی همزمان است. برخلاف روایی پیشبین که داده های ملاک در آینده به دست میآمدند، در اینجا داده های ملاک موجودند. این نوع روایی از طریق محاسبه همبستگی میان نمرات آزمون و ملاک به طور همزمان به دست می آید. هدف از روایی همزمان مشخص کردن این نکته است که آیا میتوان آزمونی را جایگزین آزمونی دیگر کرد یا نه.
( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
روایی سازه و روشهای برآورد آن
روایی سازه، دیگر انواع روایی را در بر میگیرد و در عمل تمامی روشهایی را که در مطالعه سایر انواع روایی به کار میروند را مورد استفاده قرار میدهد و بیشتر از آنها جنبه نظری دارد. محقق بر اساس نظریهای، سازه مورد نظرش را تعریف و برای آن آزمون میسازد. مطابق با نظریه، درباره سازه یا ویژگی مورد اندازه گیری پیش بینیهایی می کند. برای آزمودن پیش بینیها، به جمعآوری شواهد از منابع گوناگون می پردازد و رابطه بین نمرات آزمون را با سازهها یا مفاهیم نظریه مورد نظر تعیین می کند. چنانچه نتایج حاصل در راستای پیش بینیهای نظریه بود، گفته می شود که آزمون ساخته شده، یک آزمون رواست. نکته دیگر اینکه اسقرار روایی سازه برای آزمون یک فرایند مداوم است. روایی سازه مستلزم جمعآوری شواهدی است تا بر اساس آنها معنای نمره آزمون روشن شود. این شواهد می تواند منطقی یا آماری باشد که در بخش زیر معرفی میشوند.
روایی همگرا[۱۴۶] : یکی از راههای تعیین روایی سازه این است که بین آزمون مورد نظر با آزمون روای دیگری که سازه مشابه را اندازه میگیرد، همبستگی گرفته شود. در صورت بالا بودن همبستگی، فرض می شود که آزمون مورد نظر نیز از روایی برخوردار است.
روایی واگرا[۱۴۷] : بین آزمون مورد نظر با آزمون روای دیگری که سازه متقابل آن را میسنجد، همبستگی گرفته می شود. در صورت عدم همبستگی یا همبستگی بسیار ضعیف، گفته می شود؛ آزمون از روایی واگرا برخوردار است.
همسانی درونی : در این روش، انسجام و هماهنگی درونی آزمون بررسی می شود. همبستگیهای متقابل بین سوالات آزمون (همچنین سوال – نمره کل و همبستگی خرده آزمونها با همدیگر) را میتوان به منظور تعیین این ادعا که آزمون مورد نظر سازه واحدی را میسنجد به کار برد.
تمایز سنی : اگر ویژگی یا سازهای از افراد با افزایش سن تغییر کند، نمرات آزمونی که همان ویژگی یا سازه را اندازه گیری می کند، باید این تغییرات را نشان دهد.
تحلیل عاملی[۱۴۸] : ترکیبی از تعدادی فنون آماری است که هدف آن خلاصه کردن ماتریس همبستگی است. تحلیل عاملی به بررسی ماهیت روابط بین متغیرهای یک مجموعه معین می پردازد. تعداد زیادی از متغیرها با همدیگر ادغام میشوند و بدین وسیله تعداد معدودی متغیر که هر کدام عامل نامیده میشوند، ایجاد می شود. سپس همبستگی متقابل این عوامل به عنوان برآوردی از روایی سازه محاسبه می شود.
تفاوتهای گروهی: اگر نظریهای در مورد سازه یا ویژگی مورد ارزیابی بر وجود تفاوت های گروهی دلالت کند، میتوان پیش بینی کرد میانگین نمرات گروهی که دارای ویژگی یا سازه مورد نظر است در آزمونی که مدعی اندازه گیری آن ویژگی است، بالاتر میباشد، نسبت به میانگین نمرات گروهی که فاقد آن ویژگی است. پس از اجرای آزمون در این دو گروه و تجزیه و تحلیل آن، اگر پیش بینیها تأیید شد، گفته می شود؛ آزمون مورد نظر توانسته است در بین گروه های مختلف تفکیک لازم را به عمل بیاورد. بنابراین، آزمون از روایی سازه برخورار است. به این نوع روایی، روایی تفکیکی نیز گفته می شود.
ارتباط روایی و اعتبار
اغلب در ارتباط اعتبار و روایی میان محققان کمی و کیفی اختلاف وجود دارد. محققان کیفی اغلب روشهای اندازه گیری را به کار میبرند که نسبت به روشهایی که توسط محققان کمی طرحریزی می شود، اعتبار کمتری دارند. با این حال محققان کیفی این اندازه کمتر – معتبر را ترجیح می دهند، زیرا این اندازهها آنچه را اندازه گیری می کنند که آنها میخواهند اندازه گرفته شود. یعنی روایی بیشتری دارند. بین این دو ویژگی روانسنجی آزمون، امکان تنش وجود دارد. اعتبار بالاتر می تواند با استانداردسازی کردن فرایند سنجش به دست بیاید که آن هم بالقوه گستره سازه اندازه گیری شده را کاهش میدهد و در نتیجه، روایی کاهش مییابد. برای مثال همسانی درونی بالاتر بوسیله افزایش همگنی سوالات به دست می آید. با این حال آن سازه تاحدی به ناهمگنی سوالات نیاز دارد و این میان اعتبار و روایی تنش ایجاد می کند. در نظریه کلاسیک آزمون فرض بر این است که نمره آزمون آزمودنی ترکیبی از نمره واقعی و خطای تصادفی است. روایی روی تعریف (یعنی کاربرد و تفسیر) نمره واقعی تمرکز می کند، لذا هر خطای منظم یا سوگیری قسمتی از نمره واقعی است در حالیکه در تحلیل اعتبار تنها به خطاهای تصادفی پرداخته می شود (میلر، ۲۰۱۰). اعتبار و روایی مفاهیم مرتبط هستند. در CTT بیشینه مقدار نظری روایی هر آزمون نمیتواند بیشتر از ریشه دوم اعتبار (شاخص اعتبار) آن باشد. زیرا به طور نظری یک آزمون به اندازهای که با خودش همبستگی دارد با هر متغیر دیگری همبسته نخواهد بود. می توان اعتبار بدون روایی را تصور کرد اما عکس آن صحیح نیست.
رین اسکاف (۲۰۰۱) بیان می دارد که دو آزمون را در نظر بگیرید که در واقع نمره واقعی یکسانی را اندازه گیری نمی کنند، چون آنها صفتهای مختلفی را اندازه گیری می کنند. در این صورت یک آزمون با اعتبار کمتر می تواند روایی بالاتری داشته باشد، اگر صفتی که آن را اندازه گیری می کند ارتباط نزدیکتری با پیامد پیش بینی شده آزمون داشته باشد. برای مثال، یک آزمون کتبی مهارت صخره نوردی ممکن است نسبت به یک آزمون عملکردی صعود از دیوار در یک سالن ورزشی اعتبار بیشتری داشته باشد، اما دومی ممکن است روایی بیشتری به عنوان یک پیش بینی کننده از عملکرد در یک موقعیت صخره نوردی واقعی داشته باشد.
محتوا
برنامه ریزان درسی و آموزشی، ابتدا نیازها را شناسایی کرده و برای مرتفع ساختن آنها، هدفهای
آموزشی را تعیین می کنند. سپس به تهیه و تنظیم محتوا بر اساس هدفهای آموزشی تعیین شده میپردازند. در ارتباط محتوا با هدف ها قابل ذکر است که می توان از طریق محتوا نیز هدف های آموزشی را لحاظ کرد. محتوا به مجموعه ای از اصول، مفاهیم و اطلاعات مرتبط به یک درس اشاره دارد که به دانش آموزان ارائه و آموزش داده می شود. محتوا را میتوان به منزلهی پلی برای رسیدن به هدفهای آموزشی تلقی کرد.
تحلیل محتوا
تحلیل محتوا روش مطالعه و تجزیه و تحلیل ارتباط ها به شیوه نظامدار، عینی و کمی برای اندازه گیری متغیرهاست. در گذشته برای اندازه گیری متغیرها با این روش، از تحلیل محتوا کمتر استفاده شده است. اما کاربرد جدید و فزاینده آن در پژوهشهای رفتاری به اندازه گیری متغیرهایی معطوف است که بدون این روش، اندازه گیری آن ها امکان پذیر نبوده است. البته این گفته بدان معنی نیست که کاربرد این روش برای تعیین تأکید نسبی یا فراوانی پدیده هایی ارتباطی مانند تبلیغات، روند ها، سبک ها، تغییر در محتوا و خوانا بودن بیاهمیت تلقی شود. تحلیل محتوا در درجه نخست به عنوان روشی برای مشاهده و اندازه گیری مورد توجه است. به جای مشاهده مستقیم رفتار افراد، یا درخواست از آنها برای پاسخ دادن به مقیاسها، یا مصاحبه با آنها پژوهشگر ارتباطهایی که افراد ایجاد کرده اند انتخاب و سوالاتش را در آن ها جستجو می کند. این دیدگاه از تحلیل محتوا منطقی و اقتصادی است. در عمل، آن را از طبقه تحلیلی محض جدا کرده و در همان طبقه مصاحبه ها، مقیاسها و دیگر روشهای مشاهده قرار می دهند. بدینترتیب آگاهانه کاری انجام میگیرد که با فعالیتهای مشاهدهای قبلی تفاوت اساسی ندارد؛ در واقع متغیرها مشاهده و اندازه گیری میشوند( کرلینجر، ۱۹۸۶، ترجمه ی شریفی، ۱۳۸۸، ص ۲۲۳).
تحقیقات انجام شده در داخل و خارج از ایران
حسنی، سامری، عباس زاده و موسوی (۱۳۹۲) در مطالعه ای به بررسی نابرابری در آموزش و
پرورش دانش آموزان دختر و پسر مقطع متوسطهی استان آذربایجان غربی پرداختند. این پژوهش از نوع اسنادی و پیمایش بوده که با نمونه گیری طبقهای تصادفی نمونه ای به حجم ۸۱۵ (۴۱۹ پسر – ۳۹۶ دختر) انتخاب شد. یکی از سوالات این مطالعه بررسی تفاوت بین پسران ودختران از لحاظ شاخص های برونداد شناختی (دانشی) بود که برای پاسخگویی به این سوال، از معدل کتبی دانش آموزان سال اول، دوم و سوم متوسطه نظری و دوره پیش دانشگاهی و درصد قبولی در کنکور استفاده شد. میانگین نمرات برای دختران (۷۵/۱۴) و پسران (۱۴) و همچنین درصد قبولی کنکور برای دختران (۲/۵۰) و پسران (۳۶/۴۶) بود که بیانگر عملکرد بهتر دختران نسبت به پسران است.
آتشک (۱۳۹۰) در یک ارزشیابی و با روش تحقیق تحلیل ثانویه داده های سرشماری سال ۹۰، به
مطالعه عدالت جنسیتی در نظام آموزشی ایران پرداخت. از نتایج به دست آمده این بود که علیرغم دسترسی کمتر دختران به آموزش در تمامی مقاطع تحصیلی، آنها عملکرد تحصیلی بهتر و ماندگاری بیشتری نسبت به پسران در نظام آموزشی داشته اند.
بوالحسنی (۱۳۹۰) اعتبار بخشی آزمون کنکور کارشناسی ارشد رشته ی معماری را با بهره گرفتن از
مؤلفه های واریانس (نظریه تعمیمپذیری) بررسی کرد. جامعه آماری این مطالعه، کلیه داوطلبان شرکت کننده در کنکور سراسری ارشد سال ۱۳۸۹ مجموعه ی معماری میباشد. با نمونه گیری تصادفی ساده، ۲۰۱ نفر انتخاب شد. این آزمون، دارای یک پروژه عملی به نام اسکیس است که از داوطلبان خواسته می شود با در نظر گرفتن ملاکهای از پیش تعیین شده توسط متخصصین، طرحی را در محدوده زمانی مشخص و با رعایت قوانین لازم، ترسیم کنند. این پروژه عملی توسط تعدادی مصحح متفاوت و مستقل از هم، بر اساس ملاکهای مشخص نمرهگذاری می شود. در این مطالعه، برای هر داوطلب ۳ نمره که توسط ۳ ارزیاب داده شده است، به عنوان داده های تحقیق مورد تحلیل قرار گرفت. جهت تحلیل داده ها، از نرم افزارEDUG6.0 استفاده شده است. وضعیت رویههای این مطالعه به این قرار است: رویهی افراد با ۱۹۶سطح (۹۸ دختر و ۹۸ پسر) در داخل رویهی جنسیت آشیان کرده است. رویه افراد و ارزیابان و همچنین، رویه ارزیابان و جنسیت، نسبت به هم متقاطع محسوب میشوند. در مجموع، تقریباً ۲۸ واحد از واریانس نمرات، واریانس خطای نسبی است که ۹۰ درصد آن مربوط به منبع واریانس(RP:G) میباشد. همچنین، ۷۳/۳۶ واحد از واریانس نمرات، واریانس مطلق است که ۷۰ درصد آن مربوط به منبع واریانس (RP:G) می باشد. ضرایب تعمیم پذیری به دست آمده در دو وضعیت مطلق و نسبی بالاتر از ۸/۰ میباشد که بیانگر مطلوب بودن دقت اندازههاست. ضریب تعمیمپذیری نسبی در حالتی که ۶،۵،۴،۳،۲،۱و۷ ارزیاب وجود داشته باشد به ترتیب برابر ۷۱/۰، ۸۳/۰، ۸۸/۰، ۹۱/۰، ۹۲/۰ و ۹۳/۰ است. اگر ضرایب بالاتر از ۸/۰ مطلوب در نظر گرفته شوند، با دو ارزیاب نیز ضریب مورد نظر به دست می آید.
رحیمی (۱۳۸۷) به ارزیابی و تحلیل سطوح حیطه شناختی و شاخص های روانسنجی سوالات
امتحاناتنهایی پرداخت. جامعه آماری در این مطالعه، کلیه اوراق امتحانی تصحیح شده دروس ریاضی، زبان انگلیسی، تاریخ، جغرافیا و آمادگی دفاعی دانش آموزان پایه سوم راهنمایی استان خوزستان در خرداد ماه ۱۳۸۶ میباشد که از این میان با نمونه گیری خوشه ای، ۱۰ منطقه آموزشی انتخاب و با نمونه گیری طبقهای از میان مناطق منتخب، ۱% ورقه های امتحانی معادل ۹۵۵ ورقه (در مجموع ۴۲۹۷ ورقه امتحانی) از هر درس(به غیر از درس آمادگی دفاعی) به تفکیک جنسیت به عنوان نمونه آماری تعیین گردید. از نتایج به دست آمده در این مطالعه میتوان به موارد زیر اشاره کرد:
طراحان در همه درسها بجز درس ریاضی، به اهداف در سطوح پایین حیطه شناختی توجه داشته اند. با در نظر گرفتن تمامی شاخص های مورد نظر، آزمون ریاضی بیشترین و آزمون آمادگی دفاعی کمترین تطابق را با اصول سنجش و روانسنجی داشته اند. همچنین، دروس مذکور بیشترین و کمترین ضریب اعتبار ( همسانی درونی) را به میزان (۹۱/۰–۶۱/۰) به خود اختصاص دادهاند.
به طور کلی میتوان گفت؛ در همه ی دروس، اکثر سوالات در حد مطلوب و متوسط طرح شده اند. ضریب تمیز سوالات مطلوب بوده، به گونه ای که آزمون قادر به تفکیک دانش آموزان قوی و ضعیف بوده است. همچنین سوالات همسانی درونی خوبی داشته اند به طوریکه نمی توان پیشنهاد حذف هیچ سئوالی را داد.
جزایری در سال (۱۳۸۴) به بررسی اعتبار نمرهگذاری معلمان در امتحانات تشریحی هماهنگ و
نهایی دوره آموزشی عمومی سال سوم دبیرستان در رشته های علوم انسانی، ریاضی فیزیک و علوم تجربی و همچنین سال سوم راهنمایی در استان لرستان پرداخته است. در این تحقیق با بهره گرفتن از روش نمونه گیری تصادفی خوشهای، از میان اوراق امتحانات تشریحی هماهنگ و نهایی سال سوم راهنمایی و سال سوم مقطع متوسطه ۱۰ منطقه آموزشی، ۷۶۷ ورقه امتحانی مورد مطالعه قرار گرفت که از روش تحلیلی جهت نمرهگذای این اوراق استفاده شده است. روش تحقیق به کار گرفته شده، همبستگی بوده و به منظور جمع آوری اطلاعات، با بهره گرفتن از جدول آرایش رتبه بندی نمرات و مشاهده اوراق امتحانی، اطلاعات لازم گردآوری و جهت بررسی میزان اعتبار نمرهگذاری مصححان، روش گیلفورد به کار گرفته شده است. نتایج به دست آمده از این تحقیق عبارتند از :
ضریب اعتبار برای دروس مورد مطالعه در رشته های علوم انسانی و علوم تجربی ۹۹/۰ و دامنه
ضریب اعتبار برای دروس مورد مطالعه در رشته ریاضی فیزیک و سال سوم راهنمایی (۹۹/۰ – ۹۵/۰) به دست آمده است.
۲/۹۷ درصد از تغییرات نمرات اوراق امتحانی در مراحل اول و دوم تصحیح در دامنه کمتر از ۲۵/۰
است که این بیانگر اشتراک نظر و توافق بسیار بالای مصححان اول و دوم این اوراق میباشد. به عبارتی دیگر، اگر مصحح دوم حذف شود در واقع هیچ اتفاقی نخواهد افتاد.
اختلاف نمره مصححان با جنسیت آنها رابطه ندارد و عوامل سوگیری در تصحیح اوراق، ناشی از
تفاوتهای فردی مصححان نبوده، بلکه بیشتر مربوط به ساختار اجرایی و فرایند تصحیح اوراق امتحانی بوده است. از جمله اینکه این اوراق بدون فاصله زمانی توسط مصححان اول و دوم نمرهگذاری شده و همواره این روند از نظر مکانی و زمانی ثابت بوده است.
واحدی و فزون مهر (۱۳۸۴)، میزان انطباق سوالات امتحانات نهایی و داخلی سال سوم راهنمایی
را با شاخص های روانسنجی در دروس ریاضی، جغرافیا، علوم تجربی و دینی مورد بررسی قرار دادند. جامعه آماری این تحقیق، اوراق امتحانی کلیه دانش آموزان شرکت کننده در امتحانات نهایی و داخلی سال تحصیلی ۸۳ – ۸۲ استان آذربایجان غربی است که تعداد آن ها به ۵۱۵۶۱ میرسد که از این تعداد با بهره گرفتن از روش نمونه گیری تصادفی خوشهای، ۶۰۰ ورقه (۱۵۰ ورقه از هر درس نامبرده) انتخاب گردید. برای ارزشیابی این اوراق از لحاظ میزان رعایت اصول آزمونسازی،۱۲ داور بعد از گذراندن یک دوره آموزشی به منظور رسیدن به توافق نسبی در معیارهای نمرهگذاری، از ” چک لیست ارزشیابی آزمونهای معلم ساخته ” استفاده کردند. نتایج به دست آمده از این تحقیق به صورت زیر میباشد:
به غیر از سوالات ریاضی، اعتبار سوالات امتحانی سه ماده درسی بسیار پایین میباشد. برای
محاسبه اعتبار از ضریب آلفای کرونباخ استفاده گردیده است.
روایی محتوایی سوالات امتحان نهایی و داخلی ریاضیات، علوم تجربی و جغرافیا در سطح بالا و
سوالات دینی در سطح متوسط بوده است.
سطح دشواری سوالات دروس علوم تجربی و ریاضی نسبتاً مناسب بوده، اما در دروس جغرافیا و
دینی به لحاظ دشواری، آزمون متمایل به ساده بودن میباشد.
سوالات امتحان نهایی دروس مذکور از ضریب تمیز مناسب و قابل قبولی برخوردار است. ضریب
تمیز این سوالات با بهره گرفتن از ضریب دو رشته ای نقطهای محاسبه شده است.
در طراحی سوالات امتحانات نهایی و داخلی دروس دینی، علوم و جغرافیا تنها به سطوح دانش،
فهمیدن و کاربرد حیطه شناختی توجه شده است اما در بررسی سوالات درس ریاضی، سطح ترکیب نیز در نظر گرفته شده است.
به غیر از امتحان نهایی علوم تجربی، در طراحی سوالات دیگر امتحانات نهایی و داخلی، ملاکهای
فنی و ظاهری رعایت شده است.