Внутрішня валідність
У наукових дослідженнях, внутрішня валідність або внутрішня дійсність (англ. internal validity) — це ступінь того, на скільки каузальний висновок, заснований на дослідженні, є обґрунтованим, що визначається мірою дослідження мінімізувати систематичну помилку (або «упередження»). Вона контрастує з зовнішньою валідністю, ступенем того, на скільки такий висновок може використовуватись для узагальнення результатів на інші контексти.
Вважається, що висновки мають внутрішню валідність, якщо причиново-наслідковий зв'язок між двома змінними належним чином продемонстрований.[1][2] Причиново-наслідковий зв'язок може існувати за виконання трьох критеріїв:
- «причина» передує «наслідку» у часі (часове розташування),
- «причина» і «наслідок» взаємопов'язані (коваріація), і
- не має правдоподібного альтернативного пояснення спостережуваній коваріації (нехибність).[2]
У науково-експериментальних умовах, дослідники часто маніпулюють однією змінною (незалежна змінна), щоб побачити, який вплив це справляє на другу змінну (залежна змінна)[3]. Наприклад, дослідник може для різних експериментальних груп маніпулювати дозою конкретного препарату, щоб з'ясувати, який вплив це справляє на здоров'я; тут дослідник хоче виявити причиново-наслідковий зв'язок, що різні доза препарату може бути відповідальна за спостережувані зміни або відмінності. Коли дослідник може з упевненістю приписати спостережувані зміни або відмінності залежної змінної дії незалежної змінної, і, коли дослідник може виключити інші пояснення (або конкуруючі гіпотези), то причиново-наслідковий зв'язок вважається внутрішньо валідним[4].
Однак у багатьох випадках масштаби наслідків, які виявляють у залежній змінній, можуть залежати не тільки від
- варіації незалежної змінної,
- потужності приладів і статистичних процедур, що використовуються для вимірювання та виявлення ефектів, і
- вибору статистичних методів.
Скоріше, ряд змінних або обставин, неконтрольованих (або некерованих) можуть призвести до додаткових або альтернативних пояснень виявлених (a) ефектів та/або (б) масштабів наслідків. Внутрішня валідність, таким чином, є радше питанням величини, ніж «або/або», і саме тому і інші формати дослідження, ніж справжні експерименти можуть дати результати з високим ступенем внутрішньої валідності.
Для того, щоб забезпечити умовиводи з високим ступенем внутрішньої валідності, під час проектування наукового дослідження можуть бути вжиті запобіжні заходи. Як правило, висновки, засновані на кореляції або асоціації ведуть до меншої внутрішньої валідності, ніж висновки, зроблені на основі прямого маніпулювання незалежної змінної. І, якщо дивитися тільки з точки зору внутрішньої валідності, суворо контрольовані справжні експериментальні дизайни (тобто випадкова вибірка, випадковий розподіл на контрольну та експериментальну групи, надійні інструменти, надійний процес маніпуляції і захист від заважаючих факторів) можуть бути «золотим стандартом» наукових досліджень. Але одночасно саме ті стратегії, які використовуються, щоб контролювати ці чинники, можуть обмежувати узагальнення або зовнішню валідність результатів.
- Ефект історії: події, які відбуваються поза експериментом (події в навколишньому середовищі)
- Дорослішання: фізичні або психологічні зміни учасників
- Тестування: ефект досвіду претестів — учасники стають свідомими тесту.
- Інструментарій: можна отримати знання під претесту до після-тесту просто через природу інструмента.
- Вибірка: проблема невипадкової вибірки, результат змінюється через інші фактори внаслідок вибірки учасників
- Статистична регресія: тенденція учасників, чиї оцінки потрапляють в крайні межі змінної, при повторному вимірі показувати результат ближче до середнього.
- Диференційне виснаження: Вибуття учасників дослідження.
Відсутність ясності в питанні про те, яка змінна утворилась перша, може призвести до плутанини в тому, яка змінна є причиною, а яка — наслідком.
Головною загрозою чинності причинового умовиводу є заплутування: коли зміни залежної змінної можна віднести на наявність або варіації ступеня третьої змінної, яка пов'язана зі змінною, якою маніпулюють. Там де не можна виключити паразитарний зв'язок, можуть бути створені гіпотези, конкуруючі до початкової гіпотези причиново-наслідкового зв'язку дослідника.
Селективне упередження відноситься до проблеми, що під час фази пре-тесту існують відмінності між групами, які можуть взаємодіяти з незалежною змінною і в результаті бути «відповідальними» за спостережувані результати. Дослідники та учасники приносять до експерименту безліч особливостей, деякі навчені, деякі природні — наприклад, стать, вага, волосся, очі і колір шкіри, характер, розумові здібності, фізичні здібності, але й такі ставлення, як мотивація і готовність до участі.
На етапі відбору в дослідження, якщо нерівна кількість учасників мають схожі змінні, пов'язані з предметом дослідження, виникає загроза внутрішній валідності. Наприклад, дослідник створив дві тестові групи, експериментальну та контрольну. Учасники обох групах не однакові відносно незалежної змінної, але схожі в одному або кількох змінних, пов'язаних з предметом дослідження.
Самовибірка також має негативний вплив на інтерпретаційну силу залежної змінної. Це часто відбувається в онлайн-опитуваннях, в яких люди певної демографії частіше погоджуються пройти опитування, ніж інші.
Події за межами дослідження/експерименту або між повторними вимірами залежних змінних можуть вплинути на відповіді учасників експерименту. Часто на ставлення та поведінку учасників впливають великомасштабні події (стихійні лиха, політичні зміни і т. д.) і настільки, що неможливо визначити, чи є зміни залежної змінної наслідком впливу незалежної змінної або історичної події.
Суб'єкти змінюються в ході експерименту або навіть між вимірами. Наприклад, маленькі діти можуть вирости і їх здатність до концентрації уваги може змінюватися по мірі дорослішання. «Природні» альтернативні пояснення дають як постійні зміни, наприклад фізичне зростання, так і тимчасові, наприклад втома; вони можуть змінити те, як суб'єкт реагує на незалежну змінну. Тому по завершенні дослідження дослідник може виявитися не в змозі визначити, якщо причиною невідповідності часу або незалежної змінної.
Багаторазовий вимір учасників може призвести до упереджень (оман): учасники можуть запам'ятати правильні відповіді або можуть бути привчені знати, що вони проходять тести. Неодноразове проходження (тих самих або ж або подібних) тестів на інтелект зазвичай веде до зростання результатів, але в інтерпретації цього зазначені вище омани є конкуруючими гіпотезами до гіпотези про ефективне зростання навичок.
Інструмент, використовуваний у процесі тестування, може змінити експеримент. Це стосується і спостерігачів, які більш концентровані або підготовлені, або неусвідомлено змінили критерії, які вони використовують, щоб виносити судження. Або це також може бути проблема з різним самозвітуванням в різний час. У цьому випадку ефект може бути зменшено за рахунок використання ретроспективного попереднього тестування. Якщо виникають зміни яких-небудь інструментів, це впливає на внутрішню валідність основного висновку, оскільки одразу існують альтернативні пояснення.
Цей тип помилки виникає, коли суб'єкти відбираються на основі крайніх показників (далеко від середнього значення) під час тесту. Наприклад, коли діти з найгіршим значенням балів за читання відбираються для участі у курсі з покращення читання, покращення по закінченні курсу може бути пов'язано з регресією до середнього, а не ефективністю курсу. Якби діти були протестовані ще до початку курсу, вони, ймовірно, отримали б кращі результати в будь-якому випадку. Крім того, екстремальні значення індивідуальних показників, швидше за все, будуть виявлені в одинарному тесті, але, ймовірно, перетворяться в більш нормальний розподіл при серії тестів.
Ця помилка виникає, якщо висновки зроблені на основі лише тих учасників, які брали участь від початку до кінця. Однак, учасники, можливо, вибули з дослідження до його завершення, і, можливо, навіть через саме дослідження чи експеримент. Наприклад, у після-тестуванні було показано, що відсоток членів експериментальної групи, які кинули палити був значно вищий, ніж в контрольній групі. Однак, в експериментальній групі лише 60 % завершили програму відмови від паління. Якщо таке виснаження систематично стосується будь-якого об'єкта дослідження, управління незалежною змінною, інструментарію, або якщо відмова від продовження призводить до відповідного упередження між групами, виникає цілий клас альтернативних пояснень спостережуваних відмінностей.
Така взаємодія відбувається, коли взаємодіють змінні, пов'язані з суб'єктом, такі як колір волосся, колір шкіри і т. д., і змінні, пов'язані з часом, вік, фізичний розмір і т. д.. Якщо невідповідність між двома групами (експериментальною та контрольною) виникає між тестами, вона може бути викликана віковими відмінностями у вікових категоріях.
Поведінка в контрольних групах може змінитися в результаті дослідження. Наприклад, члени групи можуть додатково старатися, щоб очікувана перевага експериментальної групи не була продемонстрована. Це не означає, що незалежна змінна не дала ефекту чи відсутній взаємозв'язок між залежною і незалежною змінною. І навпаки, на зміни в залежній змінній може вплинути деморалізована контрольна група, яка буде менш мотивована і менше старатися працювати менш жорстким чи підґрунтя, а не незалежна змінна.
Упередження експериментатора відбувається, коли люди, які ведуть експеримент, мимоволі впливають на результат, коли не усвідомлено ведуть себе по-різному для членів контрольної та експериментальної груп. Виключити можливість упередженості експериментатора можливо з допомогою подвійного сліпого дослідження зразків, в яких експериментатор не знає про стан, до якого належить учасник.
Для восьми з цих загроз існує мнемонічний вислів англ. THIS MESS (цей бардак), який складається з перших літер англомовних назв факторів: Testing (repeated testing), History, Instrument change, Statistical Regression toward the mean, Maturation, Experimental mortality, Selection та Selection Interaction.[5]
- ↑ Brewer, M. (2000). Research Design and Issues of Validity. In Reis, H. and Judd, C. (eds.) Handbook of Research Methods in Social and Personality Psychology. Cambridge:Cambridge University Press.
- ↑ а б Shadish, W., Cook, T., and Campbell, D. (2002). Experimental and Quasi-Experimental Designs for Generilized Causal Inference Boston:Houghton Mifflin.
- ↑ Levine, G. and Parkinson, S. (1994). Experimental Methods in Psychology. Hillsdale, NJ:Lawrence Erlbaum.
- ↑ Liebert, R. M. & Liebert, L. L. (1995). Science and behavior: An introduction to methods of psychological research. Englewood Cliffs, NJ: Prentice Hall.
- ↑ Wortman, P. M. (1983). Evaluation research – A methodological perspective. Annual Review of Psychology. 34: 223—260. doi:10.1146/annurev.ps.34.020183.001255.
- Внутрішня валідність [Архівовано 25 листопада 2016 у Wayback Machine.] (соціальні методи дослідження)