Криза відтворюваності

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Криза відтворюваності станом на 2020 рік є тривалою методологічною кризою, в якій було встановлено, що багато наукових досліджень важко або неможливо повторити або відтворити. Криза відтворюваності найгірше впливає на суспільні науки та медицину.[1][2] Криза має давні корені; ця фраза була придумана на початку 2010-х[3] як частина зростаючої обізнаності про проблему. Криза відтворюваності є важливим полем досліджень у галузі метанауки.[4]

Оскільки відтворюваність експериментальних результатів є важливою частиною наукового методу,[5] неможливість повторити дослідження інших людей може мати серйозні наслідки для багатьох галузей науки, де значні теорії ґрунтуються на невідтворюваній експериментальній роботі. Криза відтворюваності особливо широко обговорюється в галузі психології та в медицині, де було зроблено ряд зусиль для повторного дослідження класичних результатів, для визначення достовірності результатів та, у випадку визнання ненадійним, причини збою відтворюваності.[6][7]

Область застосування[ред. | ред. код]

Загалом[ред. | ред. код]

У опитуванні 1500 науковців 2016 року було повідомлено, що 70 % з них не змогли відтворити хоча б одного експерименту іншого вченого (50 % не вдалося відтворити один з власних експериментів).[8] У 2009 році 2 % вчених визнали фальсифікацію досліджень принаймні один раз, а 14 % визнали, що особисто знають когось, хто це робив. Медичні дослідники повідомляли про проступки частіше, ніж інші.[9]

У психології[ред. | ред. код]

Кілька факторів поєднались, що поставило психологію в центр суперечки.[10] Значна увага приділялася області соціальної психології,[11] хоча інші сфери психології, такі як клінічна психологія,[12][13] психологія розвитку,[14] і педагогічні дослідження також були зачеплені.[15][16] Відповідно до опитування, проведеного в 2018 році, на 200 мета-аналізів, «психологічні дослідження в середньому страждають низькою статистичною потужністю».[17]

По-перше, сумнівні дослідницькі практики (СДП) були визначені як поширені у цій галузі.[18] Такі практики, хоча і не є навмисно шахрайськими, передбачають використання великої кількості сірої області прийнятних наукових практик або використання гнучкості збору даних, аналізу та звітності, з намаганням отримати бажаний результат. Приклади СДП включають вибіркову звітність або часткову публікацію даних (повідомлення лише про деякі умови дослідження або зібрані залежні заходи в публікації), необов'язкові зупинки (вибір, коли зупинити збір даних, часто виходячи зі статистичної значущості тестів), округлення p-значення (округлення p  — значення до 0,05 для підрахунку статистичної значущості), ефект витягування файлів (непублікація даних), підтверджуючі доповіді (оформлення дослідницьких аналізів як підтверджуючих аналізи) та маніпуляції з упередженням виживання (або вилучення залишків, або залишення залишків у наборі даних, щоб зробити статистичний тест значимим).[18][19][20][21] Опитування понад 2000 психологів показало, що більшість респондентів визнали, що використовують хоча б один методів СДП, хибнопозитивні висновки, які часто є наслідком тиску моделі «Публікуйся або помри», авторську упередженість підтвердження, є властивою небезпекою в цій галузі, що вимагає певної ступеня скептицизму з боку читачів.[22]

По-друге, зокрема, психологія та соціальна психологія опинилися в центрі декількох скандалів, пов'язаних із відвертим фальшивим дослідженням, зокрема, даними, зібраними Дідеріком Стапелем[23] а також звинувачення проти інших. Однак більшість науковців визнає, що шахрайство, мабуть, робить менший внесок у кризу відтворюваності.

По-третє, було виявлено, що кілька наслідків у психологічній науці важко повторити ще до нинішньої кризи відтворюваності. Наприклад, науковий журнал Judgment and Decision Making опублікував декілька досліджень протягом багатьох років, які не забезпечують підтримки теорії несвідомої думки. Відтворення виглядають особливо важко, коли дослідницькі випробування попередньо зареєстровані та проводяться дослідницькими групами, які не дуже вкладаються у досліджувану теорію.

Ці три елементи разом призвели до відновлення уваги до відтворюваності, яку підтримує психолог Деніел Канеман.[24] Вивчення багатьох ефектів показало, що декілька основних переконань важко повторити. Спеціальне видання журналу Social Psychology, присвячене дослідженню відтворюваності, і ряду попередніх переконань, які було важко повторити.[25] Спеціальне видання журналу Perspectives on Psychological Science у 2012 році також зосереджувалося на проблемах, починаючи від упередженості публікацій до нульової відрази, що сприяє кризі відтворюваності в психології.[26] У 2015 році було опубліковано перше відкрите емпіричне дослідження відтворюваності в психології під назвою Reproducibility Project. Дослідники з усього світу співпрацювали над повторенням 100 емпіричних досліджень із трьох найкращих журналів з психології. Менше половини спроб відтворення виявилися успішними у створенні статистично значущих результатів у очікуваних напрямках, хоча більшість спроб відтворення дали тенденції у очікуваних напрямках.[27]

Багато експериментів та метааналізів скомпрометовані низькою якістю та конфліктом інтересів, що пов'язані як з авторами, так і з професійними адвокатськими організаціями, що призводить до багатьох помилкових позитивних результатів щодо ефективності певних видів психотерапії.[28]

Хоча британська газета The Independent писала, що результати Reproducibility Project показують, що значна частина опублікованих досліджень — це лише «психо-балаканина»,[29] криза відтворюваності не обов'язково означає, що психологія є ненауковою.[30][31][32] Радше цей процес є частиною наукового процесу, в якому видаляються старі ідеї або ті, які не витримують ретельного вивчення,[33][34] хоча цей процес видалення не завжди ефективний.[35][36] Наслідком цього є те, що деякі сфери психології, які колись вважалися твердими, наприклад, соціальне домінування, потрапляли під посилену перевірку через невдалі відтворення.[37]

Нобелівський лауреат та професор у галузі психології Деніел Канеман стверджував, що оригінальні автори повинні залучатися до відтворення, оскільки опубліковані методи часто занадто розпливчасті.[38] Інші, такі як доктор Ендрю Вілсон, не погоджуються і стверджують, що методи повинні бути описані докладно.[38] Дослідження рівня відтворюваності в психології в 2012 році показало більш високі показники успішності в дослідженнях відтворюваності, коли автор перетинався з авторами оригінального дослідження[39] (91,7 % успішних відтворень у дослідженнях з перетинанням авторів порівняно з часткою 64,6 % успішності відтворення без перетину авторів).

Орієнтація на кризу реплікації призвела до інших оновлених зусиль у цій дисципліні для повторної перевірки важливих висновків,[22][40] і у відповідь на занепокоєння щодо упередженості публікацій та p-хакінгу, понад 140 психологічних журналів прийняли сліпе рецензування результатів, де дослідження приймаються не на основі отриманих результатів та після закінчення досліджень, а перед проведенням досліджень та на основі методологічної суворості їх експериментальних розробок і теоретичних обґрунтувань методів статистичного аналізу перед збором чи аналізом даних.[41] Крім того, широкомасштабне співробітництво між дослідниками, що працюють в декількох лабораторіях у різних країнах, і які регулярно відкривають свої дані для оцінки різними дослідниками, стали набагато більш поширеними в цій галузі.[42] Попередній аналіз таких реформ підрахував, що 61 відсоток «сліпих результатів» досліджень призвели до нульового результату, на відміну від оцінених 5–20 % у попередніх дослідженнях.[43]

Частоти відтворення результатів у психології[ред. | ред. код]

У доповіді Open Science Collaboration у серпні 2015 року, яку координував Брайан Носек, було оцінено відтворюваність 100 досліджень з психологічних наук з трьох високорейтингових журналів з психології.[44] В цілому 36 % реплікацій дали значні результати (p-значення нижче 0,05) порівняно з 97 % початкових досліджень, у яких наявні відомості про суттєвий вплив. Середнє значення розміру ефекту[en] у відтвореннях становило приблизно половину магнітуди розмірів ефектів, про які повідомлялося в оригінальних дослідженнях.

У цьому ж документі розглядалися показники відтворюваності та розмірів ефектів за журналом (Journal of Personality and Social Psychology [JPSP], Journal of Experimental Psychology: Learning, Memory, and Cognition [JEP: LMC], Psychological Science [PSCI]) та дисципліною (соцальна психологія, психологія розвитку). Коефіцієнт відтворення дослідження становив 23 % для JPSP, 48 % для JEP: LMC та 38 % для PSCI. Дослідження в галузі когнітивної психології мали вищій рівень реплікації (50 %), ніж дослідження в галузі соціальної психології (25 %).[45]

Аналіз історії публікацій у топ-100 журналах з психології за 1900—2012 роки показав, що приблизно 1,6 % усіх публікацій з психології були спробами відтворення.[39] Статті вважалися спробою відтворення, якщо в тексті з'явився термін «відтворення». Підмножина цих досліджень (500 досліджень) була вибрана випадковим чином для подальшого дослідження і дала менший коефіцієнт відтворюваності 1,07 % (342 з 500 досліджень [68,4 %] — насправді відтворення). У підмножині 500 досліджень аналіз показав, що 78,9 % опублікованих спроб відтворення були успішними. Імовірність успішного відтворення була значно вищою, коли хоча б один автор оригінального дослідження був учасником спроби відтворення (91,7 % відносно 64,6 %)

Дослідження, опубліковане у 2018 році у «Nature Human Behavior», прагнуло повторити 21 наукову роботу з соціальних та поведінкових досліджень із «Nature» та «Science», виявивши, що лише 13 можна успішно повторити.[46][47] Аналогічно, у дослідженні, проведеному під егідою Center for Open Science, група з 186 дослідників з 60 різних лабораторій (що представляють 36 різних національностей з 6 різних континентів) здійснила відтворення 28 класичних та сучасних висновків з психології.[48] Основна увага в дослідженні приділялась не тільки на тому, чи не повторювались висновки з оригінальних статей, а й у тому, наскільки висновки змінювалися залежно від варіацій вибірки та контексту. Загалом 14 з 28 досліджень не вдалося повторити, незважаючи на величезні розміри вибірки. Однак, якщо дослідження повторюється, воно відтворюється у більшості зразків, тоді як якщо дослідження не відтворюється, його не вдається повторити з невеликими варіаціями у вибірках та контекстах. Ці докази суперечать популярному поясненню, що невдача при відтворенні в психології, ймовірно, пов'язана зі зміною вибірки між початковим та повторним дослідженням.[49]

Дисциплінарна соціальна дилема[ред. | ред. код]

Висвітлюючи соціальну структуру, яка стримує реплікацію в психології, Брайан Д. Ерп та Джим А. Еверетт перерахували п'ять пунктів щодо того, чому спроби відтворення є рідкістю:[50][51]

  • «Незалежні, прямі відтворення інших висновків можуть забирати багато часу для дослідника, що займається відтворенням»
  • «[Відтворення], ймовірно, забирають енергію та ресурси безпосередньо від інших проектів, що відображають власне оригінальне мислення».
  • «[Відтворення] взагалі важче публікувати (значною мірою тому, що вони розглядаються як неоригінальні)»
  • "Навіть будучи опублікованими вони [відтворення], швидше за все, будуть сприйматися як базові вправи, а не як внески в основну галузь
  • "[Відтворення] приносять менше визнання і винагороди та навіть безпеки кар'єри авторам "[52]

З цієї причини автори стверджують, що психологія стоїть перед дисциплінарною соціальною дилемою, коли інтереси дисципліни суперечать інтересам окремого дослідника.

Полеміка «методологічного тероризму»[ред. | ред. код]

Із зверненням уваги на кризу відтворюваності психології, психолог університету Прінстона Сьюзан Фіске повернула полеміку на виклик до критиків психології.[53][54][55][56] Вона позначила цих невстановлених «супротивників» такими іменами, як «методологічний терорист» та «самопризначена поліція даних», і сказала, що критику психології слід висловлювати лише приватно або через контакт з журналами.[53] Статистик і політолог Колумбійського університету Ендрю Гельман відповів Фіске, сказавши, що вона виявила готовність терпіти «мертву парадигму» неправдивої ​​статистики і відмовилася відкликати публікації навіть тоді, коли вказували помилки.[53][57] Він додав, що її перебування на посаді редактора було неприйнятним, і що ряд опублікованих нею праць базувався на надзвичайно слабкій статистиці; в одній із опублікованих робіт Фіске були великі статистичні помилки та «неможливі» висновки.[53]

У медицині[ред. | ред. код]

З 49 медичних досліджень 1990—2003 рр. з більш ніж 1000 цитатами 45 заявили, що вивчена терапія була ефективною. З цих досліджень 16 % суперечили подальшим дослідженням, 16 % виявили сильніші ефекти, ніж наступні дослідження, 44 % були повторені, а 24 % залишилися беззаперечними.[58] Управління з харчовх продуктів та лікарських препаратів США у 1977—1990 роках виявило вади у 10–20 % медичних досліджень.[59] У праці, опублікованій у 2012 році, Гленн Беглі, консультант з біотехнологій, що працює в Amgen, та Лі Еллісс із Техаського університету, стверджували, що лише 11 % доклінічних досліджень раку можна повторити.[60][61]

У 2016 році розроблена стаття Джона Іоаннідіса, професора медицини та досліджень і політики в галузі охорони здоров'я в університеті медицини Стенфордського університету та професора статистики в університеті гуманітарних наук і наук Станфордського університету на тему "Чому більшість клінічних досліджень не корисні. ".[62] У статті Іоанідіс виклав деякі проблеми та закликав до реформи, характеризуючи певні моменти, щоб медичні дослідження знову були корисними. Один із прикладів, який він зробив, — це потреба в тому щоб медицина була пацієнтоорієнтованою (наприклад, у формі Інституту дослідження результатів пацієнтів), а не в сучасній практиці, в основному, спрямованій на забезпечення "потреб лікарів, дослідників або спонсорів ". Іоанідіс відомий тим, що його дослідження зосереджувались на самій науці ще з статті 2005 р. «Чому більшість опублікованих досліджень є помилковими».[63]

У маркетингу[ред. | ред. код]

Маркетинг — ще одна дисципліна з «відчайдушною потребою» у відтворенні.[64] Багато відомих маркетингових досліджень не повторюються після відтворення, помітним прикладом є ефект «занадто багато варіантів вибору», в якому велика кількість варіантів продукту робить меншими шанси придбання споживачем.[65] Окрім згаданих раніше аргументів, потрібні дослідження відтворюваності у маркетингу, щоб вивчити застосованість теорій та моделей у різних країнах та культурах, що особливо важливо через можливий вплив глобалізації.[66]

У економіці[ред. | ред. код]

У дослідженні 2016 року в журналі «Science» було встановлено, що третину з 18 експериментальних досліджень двох економічних журналів найвищого рівня («American Economic Review» та «Quarterly Journal of Economics») не вдалося повторити.[67][68] Дослідження, проведене в 2017 році в «Economic Journal», припустило, що «більшість середніх ефектів в літературі з емпіричної економіки перебільшуються коефіцієнтом щонайменше 2, а принаймні одна третина перебільшується в 4 або більше разів» .[69]

У дослідженнях спорту[ред. | ред. код]

У дослідженні 2018 року розглянуто сферу фізичних вправ та спорту для вирішення завдань щодо недостатнього дослідження реплікації, обмеженої звітності про нульові та тривіальні результати та недостатньої прозорості досліджень.[70] Статистики розкритикували спортивну науку за загальне використання суперечливого статистичного методу під назвою «висновок на основі величини», який дозволив вченим у галузі спорту отримати очевидно значні результати з зашумлених даних, тоді коли звичайне тестування гіпотез не знайшло жодного.[71]

У керуванні водними ресурсами[ред. | ред. код]

Дослідження, проведене у2019 році у «Scientific Data», припустило, що лише невелика кількість статей у журналах водні ресурси можуть бути відтворені, тоді як більшість статей не можна було повторити через недоступність даних. Дослідження оцінило з 95 % впевненістю, що «результати можуть бути відтворені лише від 0,6 % до 6,8 % з усіх 1989 статей».[72]

У системах пошуку інформації та рекомендацій[ред. | ред. код]

Дослідження в 2019 році, в якому повідомлялося про систематичний аналіз останніх публікацій, що застосовують методи глибинного навчання чи нейронні мережі до рекомендаційних систем, опубліковані на високорівневих конференціях (SIGIR, KDD, WWW, RecSys), показали, що в середньому менше 40 % статей відтворювані, від 75 % і 14 % залежно від конференцій. Більше того, всі, окрім однієї з проаналізованих статей, пропонували алгоритми, які не були конкурентоспроможними щодо значно старших та простіших правильно налаштованих базових алгоритмів. У статті також висвітлено низку потенційних проблем сьогоднішньої наукової діяльності та наведено заклик до вдосконалення наукової практики в цій галузі.[73] Ці результати відповідають попереднім аналогічним висновкам ще з 2011 року.[74][75]

Політичні наслідки[ред. | ред. код]

У США криза відтворюваності науки стала темою політичних суперечок, пов'язаних із спробою зменшити норми — наприклад. викидів забруднюючих речовин, аргументуючи тим, що ці норми ґрунтуються на дослідженнях, що не відтворюються.[76][77] Попередні аналогічні спроби звинувачували дослідження, які використовували регулятори, у непрозорості.[78]

Причини[ред. | ред. код]

Glenn Begley та Джон Іоаннідіс запропонували наступні причини:

  • Генерування нових даних / публікацій безпрецедентною швидкістю.
  • Більшість цих відкриттів не витримають випробування часом.
  • Недотримання належної наукової практики та тиск «Публікуйся або помри».
  • Кілька різноманітних зацікавлених сторін

Вони роблять висновок, що жодна сторона не несе виключної відповідальності, і жодного єдиного рішення не буде достатньо. Насправді, деякі прогнози майбутньої кризи в механізмі контролю якості науки простежуються протягом декількох десятиліть, особливо серед науковців у науково-технічних дослідженнях (СТС). Дерек де Солла Прайс, який вважається батьком наукометрії, передбачав, що наука може досягти «старіння» в результаті її власного експоненційного зростання.[79] Деяка сучасна література, схоже, підтверджує це передбачення «переповнення», нарікаючи на занепад як уваги, так і якості.[80][81]

Філософ і історик науки Джеронім Р. Равец передбачив у своїй книзі 1971 р. «Scientific Knowledge and Its Social Problems» що наука — у прогресуванні від «малої» науки, що складається з ізольованих спільнот дослідників, до «великої» науки або «техно-науки» зазнала б великих проблем у її внутрішній системі контролю якості. Равец визнав, що структура стимулів для сучасних вчених може стати нефункціональною, відомою як теперішній виклик «Публікуйся або помри», створюючи збочені стимули для публікації будь-яких висновків, хоча б сумнівних. За словами Равеца, якість науки підтримується лише тоді, коли існує спільнота науковців, пов'язана набором загальних норм і стандартів, якї всі сприймають, і можуть притягувати один одного до відповідальності.

Історик Філіп Мировський запропонував аналогічний діагноз у своїй книзі «Science Mart» (2011) у 2011 році.[82] У назві слово «Mart» посилається на роздрібний гігант «Walmart», який Міровський використовує як метафору для кодифікації науки. Згідно з аналізом Міровського якість науки падає, коли вона стає товаром, яким торгують на ринку. Міровський аргументує свою думку, простежуючи занепад науки до рішення великих корпорацій закрити власні лабораторії. Вони передавали свою роботу в університети, прагнучи зменшити витрати та збільшити прибуток. Згодом корпорації перенесли свої дослідження далеко від університетів до ще дешевшого варіанту — Contract Research Organisations (CRO).

Криза системи контролю якості науки впливає на використання науки для політики. Це теза нещодавньої роботи групи науковців, яка визначає сучасну точку напруженості в «політиці, заснованій на доказах (або на основі інформації)» .[83][84][85][77] Економіст Ноа Сміт припускає, що фактором кризи стала завищена оцінка наукових досліджень та недооцінка навчальних можливостей, особливо у галузях, де зроблені останні великі відкриття.[86]Інша основна причина — це упередження публікації, той факт, що позитивні результати швидше публікуються, ніж негативні (або нульові) результати. Це може призвести до канонізації помилкових фактів.[87]

Відповідь[ред. | ред. код]

Відтворюваність називається «наріжним каменем науки».[88][89] Дослідження відтворюваності намагаються оцінити, чи відображаються у опублікованих результатах справжні висновки чи хибнопозитивні. Цілісність наукових висновків та відтворюваність досліджень важливі, оскільки вони формують фундамент знань, на якому будуються майбутні дослідження.

Метанаука[ред. | ред. код]

Докладніше: Метанаука

Метанаука — це використання наукової методології для вивчення самої науки. Метанаука прагне підвищити якість наукових досліджень, зменшуючи відходи. Він також відомий як «дослідження досліджень» і «наука про науку», оскільки він використовує наукові методи для вивчення того, як дослідження робиться і де можуть бути зроблені удосконалення. Метанаука стосується всіх галузей досліджень і була описана як «погляд на науку з висоти пташиного польоту».[90] За словами Джона Іоаннідіса, «наука — це найкраще, що трапилося з людьми … але ми можемо це зробити краще».[91]

Метадослідження продовжують проводитись для виявлення коренів кризи та їх подолання. Методи подолання кризи включають попередню реєстрацію наукових досліджень та клінічних випробувань, а також заснування таких організацій, як CONSORT та EQUATOR Network, які видають вказівки щодо методології та звітності. Продовжуються зусилля щодо реформування системи академічних стимулів, удосконалення академічної експертної оцінки, зменшення неправильного використання статистичних даних, боротьби з упередженостю у науковій літературі та підвищення загальної якості та ефективності наукового процесу.

Усунення упередженості публікацій шляхом попередньої реєстрації досліджень[ред. | ред. код]

Нещодавнє нововведення у публікації наукових робіт полягає у реєстрації звітів для подолання кризи відтворюваності.[92][93] Формат рєстрованих звітів вимагає від авторів подати опис методів дослідження та аналізів до збору даних. Після того, як метод та план аналізу будуть перевірені шляхом експертної оцінки, публікація результатів дозволяє перевірити чи дотримуються автори запропонованого протоколу. Однією метою зареєстрованих звітів є обхід упередженості публікацій щодо значних висновків, які можуть призвести до впровадження сумнівних дослідницьких практик та заохотити публікацію досліджень з більш суворими методами.

Журнал Psychological Science заохочував попередню реєстрацію досліджень та звітування про розмір ефекту та довірчі інтервали.[94] Головний редактор також зазначив, що редакція буде просити відтворити дослідження з дивовижними висновками, із використанням зразків невеликих розмірів, перш ніж дозволити публікацію рукописів.

Більше того, лише дуже невелика частка наукових журналів з психології та нейронаук прямо заявляла, що вони вітають подання відтворення досліджень у своїй меті та галузі чи у вказівках авторам.[95][96] Це явище не заохочує звітування або навіть спроби відтворення досліджень.

Перехід до парадигми складних систем[ред. | ред. код]

Стверджувалося, що зусилля дослідників, що працюють в рамках звичайної лінійної парадигми, обов'язково стикаються з труднощами відтворення.[97] Проблеми виникають, якщо причинно-наслідкові процеси в досліджуваній системі є пов'язаними із взаємодією, а не з складовими, мультипликативністю замість аддитивності та з багатьма малими нелінійними взаємодіями, що виробляють явища на макрорівні такими які не зводяться до їх компонентів на мікрорівні. У контексті таких складних систем звичайні лінійні моделі дають відповіді, які не є розумними, оскільки в принципі неможливо розкласти дисперсію, як це запропоновано загальною лінійною моделлю — прагнення відтворити такий результат, отже, очевидно, є проблематичним. В даний час такі ж питання задаються в багатьох галузях науки, де дослідники починають ставити під сумнів припущення, що лежать в основі класичних статистичних методів.[98]

Підтримка спроб відтворення у навчанні[ред. | ред. код]

На основі курсових робіт з експериментальних методів в MIT, Стенфорді та Університеті Вашингтона було запропоновано, щоб курси методів психології та інших галузей акцентували увагу на спробах відтворення, а не на оригінальних дослідженнях.[99][100][101] Такий підхід допоможе студентам засвоїти наукову методологію та забезпечить численні самостійні відтворення значущих наукових висновків, які б перевіряли повторюваність наукових результатів. Дехто рекомендує вимагати від аспірантів публікації високоякісної спроби відтворення на тему, пов'язану з їх докторським дослідженням до закінчення навчання.[51]

Зменшення p-значення, необхідного для ствердження значущості нових результатів[ред. | ред. код]

Багато публікацій вимагають значення p<0,05, щоб заявити про статистичну значимість. Стаття «Redefine statistical significance»,[102] за підписом великої кількості вчених та математиків, пропонується, що у "галузях, де поріг визначення статистичної значущості для нових відкриттів P <0,05, ми пропонуємо змінити на P <0,005. Цей простий крок негайно покращить відтворюваність наукових досліджень у багатьох галузях ".

Їх обґрунтування полягає в тому, що провідна причина невідтворюваності (полягає в тому, що) статистичні стандарти доказів для отримання нових відкриттів у багатьох галузях науки просто занадто низькі. Пов'язування статистичної значущості результатів з p<0,05 призводить до високого рівня хибноозитивних результатів навіть за відсутності інших експериментальних, процедурних та звітних проблем.

Згодом цей заклик був підданий критиці іншою великою групою, яка стверджувала, що «переосмислення» порогу не виправить поточні проблеми, призведе до нових нових, і що врешті-решт всі пороги потрібно обгрунтувати в кожному конкретному випадку, а не слідуючи загальним умовам.[103]

Виправлення неправильного тлумачення p-значень[ред. | ред. код]

Хоча статистики одностайні, що використання значення p<0,05 дає слабкіші докази, ніж це загальноприйнято, відсутня одностайність щодо того, що слід робити щодо цього. Деякі виступають за те, щоб байєсівські методи повинні замінити p-значення. Це не відбулося в широких масштабах, почасти тому, що це складно, а почасти тому, що багато користувачів недовіряють специфікації попередніх розподілів за відсутності вихідних даних. Спрощена версія аргументу Байєса, заснована на тестуванні точкової нульової гіпотези, була запропонована Колкхуном (2014, 2017).[104][105] Логічні проблеми індуктивного висновку обговорювались у роботі «The problem with p-values» (2016)[106]

Небезпека опори на p-значенняпідкреслювалась тим, що навіть спостереження p = 0,001 не обов'язково є вагомим доказом проти нульової гіпотези.[105] Незважаючи на факт що коефіцієнт ймовірності на користь альтернативної гіпотези щодо нуля близький до 100, якщо гіпотеза була неправдоподібною, попередня ймовірність реального ефекту — 0,1, навіть спостереження p = 0,001 мав би ризик хибнопозитивного результату на рівні 8 відсотків. Він навіть не досяг би рівня 5 відсотків.

Рекомендовано[105] не використовувати терміни «значущий» та «несуттєвий». p-величини та довірчі інтервали все одно повинні бути визначені, але вони повинні супроводжуватися вказівкою на хибнопозитивний ризик. Було запропоновано, що найкращий спосіб зробити це — обчислити попередню ймовірність, у яку потрібно повірити, щоб досягти помилкового позитивного ризику, скажімо, 5 %. Розрахунки можна проводити за допомогою коду мовою R, що надається,[105] або за допомогою веб-калькулятора.[107] Цей так званий зворотний байєсівський підхід, запропонований Метьюсом (2001),[108] є одним із способів уникнути проблеми, що попередня ймовірність рідко відома.

Також було запропоновано, що багато критиків частотницьких методів неправильно керуються ними, а проблеми зникають, коли застосовується підхід до статистичного висновку як жорсткого тестування.[109] Цей підхід підкреслює, що нам потрібно знати, наскільки ймовірним є метод виявлення помилок, коли вони є.

Заохочення великих розмірів вибірки[ред. | ред. код]

Для поліпшення якості відтворення часто потрібні більші розміри вибірки, ніж ті, які використовувались в оригінальному дослідженні.[110] Потрібні більші розміри вибірки, оскільки оцінки розміру ефекту публікацій в опублікованій роботі часто перебільшені через упередженість публікації та велику дисперсію вибірки, пов'язану з невеликими розмірами вибірки в оригінальному дослідженні.[111][112][112][113] Крім того, використання значущості зазвичай призводить до завищених ефектів, оскільки, особливо при малих розмірах вибірки, лише найбільші ефекти стануть значущими.[114]

Обмін вихідними даними в онлайн-сховищах[ред. | ред. код]

Онлайн-сховища, де дані, протоколи та знахідки можуть зберігатися та оцінюватися громадськістю, яка прагне покращити цілісність та відтворюваність досліджень. Приклади таких сховищ включають Open Science Framework, Registry of Research Data Repositories та Psychfiledrawer.org. Такі сайти, як Open Science Framework, пропонують значки для використання відкритих наукових практик для стимулювання вчених. Однак існує побоювання, що ті, хто, швидше за все, надасть свої дані та код для аналізу, — це ті дослідники, дослідження яких, ймовірно, є найскладнішими.[115] Джон Іоаннідіс із Стенфордського університету припустив, що «може виникнути парадокс, що найбільш ретельні та витончені та уважні до методів та уважні дослідники можуть стати більш чутливими до критики та нападів на репутацію відтворювачів, які полюють на помилки, незалежно від того, наскільки ці серйозними є помилки».[115]

Фінансування відтворення досліджень[ред. | ред. код]

У липні 2016 року Нідерландська організація наукових досліджень (Netherlands Organisation for Scientific Research) надала 3 мільйони євро на відтворення дослідження. Фінансування призначене для відтворення на основі повторного аналізу існуючих даних та відтворення шляхом збору та аналізу нових даних. Фінансування доступне у сферах соціальних наук, досліджень у галузі охорони здоров'я та інновацій у галузі охорони здоров'я.[116]

У 2013 р. Фонд Лаури та Джона Арнольда фінансував запуск Центру відкритих наук з грантом у розмірі 5,25 мільйонів доларів і до 2017 року забезпечив додаткові 10 мільйонів доларів фінансування.[117] Він також фінансував запуск Інноваційного центру метадосліджень у Стенфорді в Стенфордському університеті, яким керують Джон Іоанідіс та Стівен Гудман для вивчення шляхів удосконалення наукових досліджень.[117] Він також забезпечив фінансування ініціативи AllTrials, яку частково очолив Бен Голдакре.[117]

Заохочення тріангуляції, а не лише відтворення[ред. | ред. код]

Маркус Р. Мунафо та Джордж Дейві Сміт стверджують, що у публікаціях, опублікованих у «Nature», дослідження повинні акцентувати увагу на триангуляції, а не просто на відтворенні. Вони стверджують, що,

« саме по собі відтворення утримує нас далеко (і) може насправді погіршити ситуацію   ... Ми вважаємо, що головним захистом від хибних ідей є тріангуляція. Це стратегічне використання декількох підходів для вирішення одного питання. У кожного підходу є свої непов'язані припущення, сильні та слабкі сторони. Результати, які погоджуються в різних методологіях, рідше є артефактами.   ... Можливо, одна з причин відтворення викликала такий великий інтерес - часто повторювана думка, що фальсифікація лежить в основі наукової спільноти. Ця ідея була популяризована максимою Карла Поппера 1950-х років, що теорії ніколи не можуть бути доведені, лише фальсифіковані. І все ж, перебільшена оцінка повторення експериментів може забезпечити необґрунтоване відчуття впевненості щодо висновків, що спираються на єдиний підхід.   ... філософи науки продовжували працювати з Поппером. Кращі описи того, як фактично працюють вчені, включають те, що гносеолог Пітер Ліптон назвав у 1991 році "висновком до найкращого пояснення".[118] «

Підвищення загальних стандартів презентації методів[ред. | ред. код]

Деякі автори стверджують, що недостатня комунікація з експериментальних методів є головним фактором кризи відтворюваності та що покращення якості звітів про планування експерименту та статистичний аналіз допоможе покращити ситуацію.[119] Ці автори схильні закликати як до широкої культурної зміни наукового співтовариства щодо того, як розглядаються статистичні дані, так і більш примусового поштовху від наукових журналів та органів фінансування.

Наслідки для фармацевтичної галузі[ред. | ред. код]

Фармацевтичні компанії та венчурні капітали підтримують дослідницькі лабораторії або укладають договори з приватними постачальниками дослідницьких послуг (наприклад, Envigo та Smart Assays Biotechnologies), завдання яких — повторити академічні дослідження, щоб перевірити, чи є вони точними, до того, як інвестувати чи намагатися розробити новий препарат на основі лікарських засобів на цьому дослідженні. Фінансові ставки високі для компанії та інвесторів, тому для них вигідніше інвестувати в точні відтворення.[120] Виконання відтворювальних досліджень споживає ресурси. Крім того, виконання експертного відтворення вимагає не тільки загальної експертизи методології дослідження, але й конкретного досвіду в часто вузькій темі, яка цікавить. Іноді дослідження вимагають конкретних технічних навичок та знань, і лише ті дослідники, які займаються вузькою областю досліджень, можуть мати ці навички. Зараз фонди рідко зацікавлені в банках відтворювальних досліджень, а більшість наукових журналів не зацікавлені в опублікуванні таких результатів.[120] Дослідники раку Amgen Oncology змогли повторити лише 11 відсотків інноваційних досліджень, які вони обрали для виконання протягом 10-річного періоду;[121] Аналіз дослідників у 2011 році з фармацевтичною компанією Bayer показав, що внутрішні висновки компанії узгоджувались з первинними результатами не більше ніж у чверті випадків.[122] Аналіз також виявив, що коли вченим Bayer вдавалося відтворити результат у прямому експерименті на відтворення, він, як правило, добре перекладався на клінічні програми; що означає, що відтворюваність є корисним маркером клінічного потенціалу.

Примітки[ред. | ред. код]

  1. Schooler, J. W. (2014). Metascience could rescue the 'replication crisis'. Nature 515 (7525): 9. Bibcode:2014Natur.515....9S. PMID 25373639. doi:10.1038/515009a.  Проігноровано невідомий параметр |doi-access= (довідка)
  2. Smith, Noah. Why 'Statistical Significance' Is Often Insignificant. Bloomberg. Процитовано 7 November 2017. 
  3. Pashler, Harold; Wagenmakers, Eric Jan (2012). Editors' Introduction to the Special Section on Replicability in Psychological Science: A Crisis of Confidence?. Perspectives on Psychological Science 7 (6): 528–530. PMID 26168108. doi:10.1177/1745691612465253. 
  4. Fidler, Fiona; Wilcox, John (2018). Reproducibility of Scientific Results. The Stanford Encyclopedia of Philosophy. Metaphysics Research Lab, Stanford University. Процитовано 19 May 2019. 
  5. Staddon, John (2017). Scientific Method: How Science Works, Fails to Work or Pretends to Work. Taylor and Francis.
  6. Lehrer, Jonah (December 13, 2010). The Truth Wears Off. The New Yorker (en). Процитовано 2020-01-30. 
  7. Marcus, Gary (May 1, 2013). The Crisis in Social Psychology That Isn't. The New Yorker (en). Процитовано 2020-01-30. 
  8. Nature Video (28 May 2016). Is There a Reproducibility Crisis in Science?. Scientific American (en). Процитовано 15 August 2019. 
  9. Fanelli, Daniele (29 May 2009). How Many Scientists Fabricate and Falsify Research? A Systematic Review and Meta-Analysis of Survey Data. PLOS ONE 4 (5): e5738. Bibcode:2009PLoSO...4.5738F. PMC 2685008. PMID 19478950. doi:10.1371/journal.pone.0005738. 
  10. Achenbach, Joel. No, science's reproducibility problem is not limited to psychology. The Washington Post. Процитовано 10 September 2015. 
  11. Dominus, Susan (2017-10-18). When the Revolution Came for Amy Cuddy. The New York Times (en-US). ISSN 0362-4331. Процитовано 2017-10-19. 
  12. Leichsenring, Falk; Abbass, Allan; Hilsenroth, Mark J.; Leweke, Frank; Luyten, Patrick; Keefe, Jack R.; Midgley, Nick; Rabung, Sven; Salzer, Simone; Steiner, Christiane (April 2017). Biases in research: risk factors for non-replicability in psychotherapy and pharmacotherapy research. Psychological Medicine 47 (6): 1000–1011. PMID 27955715. doi:10.1017/S003329171600324X. 
  13. Hengartner, Michael P. (February 28, 2018). Raising Awareness for the Replication Crisis in Clinical Psychology by Focusing on Inconsistencies in Psychotherapy Research: How Much Can We Rely on Published Findings from Efficacy Trials?. Frontiers in Psychology (Frontiers Media) 9: 256. PMC 5835722. PMID 29541051. doi:10.3389/fpsyg.2018.00256. 
  14. Frank, Michael C.; Bergelson, Elika; Bergmann, Christina; Cristia, Alejandrina; Floccia, Caroline; Gervain, Judit; Hamlin, J. Kiley; Hannon, Erin E.; Kline, Melissa; Levelt, Claartje; Lew-Williams, Casey; Nazzi, Thierry; Panneton, Robin; Rabagliati, Hugh; Soderstrom, Melanie; Sullivan, Jessica; Waxman, Sandra; Yurovsky, Daniel (9 March 2017). A Collaborative Approach to Infant Research: Promoting Reproducibility, Best Practices, and Theory‐Building. Infancy 22 (4): 421–435. PMC 6879177. PMID 31772509. doi:10.1111/infa.12182.  Проігноровано невідомий параметр |hdl= (довідка)
  15. Tyson, Charlie (14 August 2014). Failure to Replicate. Inside Higher Ed. Процитовано 19 December 2018. 
  16. Makel, Matthew C.; Plucker, Jonathan A. (1 August 2014). Facts Are More Important Than Novelty: Replication in the Education Sciences. Educational Researcher 43 (6): 304–316. doi:10.3102/0013189X14545513. Процитовано 19 December 2018. 
  17. Stanley, T. D.; Carter, Evan C.; Doucouliagos, Hristos (2018). What meta-analyses reveal about the replicability of psychological research.. Psychological Bulletin (en) 144 (12): 1325–1346. ISSN 1939-1455. PMID 30321017. doi:10.1037/bul0000169. 
  18. а б John, Leslie K.; Loewenstein, George; Prelec, Drazen (2012-05-01). Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling. Psychological Science 23 (5): 524–532. ISSN 0956-7976. PMID 22508865. doi:10.1177/0956797611430953. 
  19. Neuroskeptic (2012-11-01). The Nine Circles of Scientific Hell. Perspectives on Psychological Science 7 (6): 643–644. ISSN 1745-6916. PMID 26168124. doi:10.1177/1745691612459519. 
  20. Research misconduct - The grey area of Questionable Research Practices. www.vib.be. 30 September 2013. Архів оригіналу за 2014-10-31. 
  21. Fiedler, Klaus; Schwarz, Norbert (2015-10-19). Questionable Research Practices Revisited. Social Psychological and Personality Science 7: 45–52. ISSN 1948-5506. doi:10.1177/1948550615612150. 
  22. а б Simmons, Joseph; Nelson, Leif; Simonsohn, Uri (November 2011). False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. Psychological Science 22 (11): 1359–1366. ISSN 0956-7976. PMID 22006061. doi:10.1177/0956797611417632.  Проігноровано невідомий параметр |doi-access= (довідка)
  23. Shea, Christopher (13 November 2011). Fraud Scandal Fuels Debate Over Practices of Social Psychology. The Chronicle of Higher Education. 
  24. Kahneman, Daniel (2014). A New Etiquette for Replication. Social Psychology 45 (4): 310–311. doi:10.1027/1864-9335/a000202.  Проігноровано невідомий параметр |doi-access= (довідка)
  25. Table of contents. Social Psychology 45 (3). 2014. ISSN 1864-9335. 
  26. Table of contents. Perspectives on Psychological Science 7 (6). 2012. ISSN 1745-6916. 
  27. Open Science Collaboration (2015). Estimating the reproducibility of Psychological Science. Science 349 (6251): aac4716. PMID 26315443. doi:10.1126/science.aac4716.  Проігноровано невідомий параметр |hdl= (довідка)
  28. Coyne, James (April 15, 2014). Are meta analyses conducted by professional organizations more trustworthy?. Mind the Brain. PLOS Blogs. Архів оригіналу за 2014-08-14. Процитовано September 13, 2016. 
  29. Connor, Steve (27 August 2015). Study reveals that a lot of psychology research really is just 'psycho-babble'. The Independent (London). 
  30. Meyer, Michelle N.; Chabris, Christopher (31 July 2014). Why Psychologists' Food Fight Matters. Slate. 
  31. Aschwanden, Christie (19 August 2015). Science Isn't Broken. FiveThirtyEight (en-US). Процитовано 2020-01-30. 
  32. Aschwanden, Christie (27 August 2015). Psychology Is Starting To Deal With Its Replication Problem. FiveThirtyEight (en-US). Процитовано 2020-01-30. 
  33. Etchells, Pete (28 May 2014). Psychology's replication drive: it's not about you. The Guardian. 
  34. Wagenmakers, Eric-Jan; Wetzels, Ruud; Borsboom, Denny; Maas, Han L. J. van der; Kievit, Rogier A. (2012-11-01). An Agenda for Purely Confirmatory Research. Perspectives on Psychological Science 7 (6): 632–638. ISSN 1745-6916. PMID 26168122. doi:10.1177/1745691612463078. 
  35. Ioannidis, John P. A. (2012-11-01). Why Science Is Not Necessarily Self-Correcting. Perspectives on Psychological Science 7 (6): 645–654. ISSN 1745-6916. PMID 26168125. doi:10.1177/1745691612464056. 
  36. Pashler, Harold; Harris, Christine R. (2012-11-01). Is the Replicability Crisis Overblown? Three Arguments Examined. Perspectives on Psychological Science 7 (6): 531–536. ISSN 1745-6916. PMID 26168109. doi:10.1177/1745691612463401.  Проігноровано невідомий параметр |doi-access= (довідка)
  37. Bartlett, Tom (30 January 2013). Power of Suggestion. The Chronicle of Higher Education. 
  38. а б Chambers, Chris (10 June 2014). Physics envy: Do 'hard' sciences hold the solution to the replication crisis in psychology?. The Guardian. 
  39. а б Makel, Matthew C.; Plucker, Jonathan A.; Hegarty, Boyd (2012-11-01). Replications in Psychology Research How Often Do They Really Occur?. Perspectives on Psychological Science 7 (6): 537–542. ISSN 1745-6916. PMID 26168110. doi:10.1177/1745691612460688.  Проігноровано невідомий параметр |doi-access= (довідка)
  40. Stroebe, Wolfgang; Strack, Fritz (2014). The Alleged Crisis and the Illusion of Exact Replication. Perspectives on Psychological Science 9 (1): 59–71. PMID 26173241. doi:10.1177/1745691613514450. 
  41. Aschwanden, Christie (6 December 2018). Psychology's Replication Crisis Has Made The Field Better. FiveThirtyEight. Процитовано 19 December 2018. 
  42. Chartier, Chris; Kline, Melissa; McCarthy, Randy; Nuijten, Michele; Dunleavy, Daniel J.; Ledgerwood, Alison (December 2018). The Cooperative Revolution Is Making Psychological Science Better. Observer 31 (10). Процитовано 19 December 2018. 
  43. Allen, Christopher P G.; Mehler, David Marc Anton. Open Science challenges, benefits and tips in early career and beyond. doi:10.31234/osf.io/3czyt. 
  44. Open Science Collaboration (2015-08-28). Estimating the reproducibility of psychological science. Science 349 (6251): aac4716. ISSN 0036-8075. PMID 26315443. doi:10.1126/science.aac4716.  Проігноровано невідомий параметр |hdl= (довідка)
  45. Summary of reproducibility rates and effect sizes for original and replication studies overall and by journal/discipline. Процитовано 16 October 2019. 
  46. Roger, Adam (2018-08-27). The Science Behind Social Science Gets Shaken Up—Again. Wired (en). Процитовано 2018-08-28. 
  47. Camerer, Colin F.; Dreber, Anna та ін. (27 August 2018). Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015. Nature Human Behaviour 2 (9): 637–644. PMID 31346273. doi:10.1038/s41562-018-0399-z. 
  48. Klein, R.A. (2018). Many Labs 2: Investigating Variation in Replicability Across Samples and Settings. Advances in Methods and Practices in Psychological Science 1 (4): 443–490. doi:10.1177/2515245918810225.  Проігноровано невідомий параметр |doi-access= (довідка)
  49. Witkowski, Tomasz (2019). Is the glass half empty or half full? Latest results in the replication crisis in Psychology. Skeptical Inquirer 43 (2): 5–6. Архів оригіналу за 2020-01-30. 
  50. Earp, Brian D.; Trafimow, David (2015). Replication, falsification, and the crisis of confidence in social psychology. Frontiers in Psychology (English) 6: 621. ISSN 1664-1078. PMC 4436798. PMID 26042061. doi:10.3389/fpsyg.2015.00621. 
  51. а б Everett, Jim Albert Charlton; Earp, Brian D. (2015-01-01). A tragedy of the (academic) commons: interpreting the replication crisis in psychology as a social dilemma for early-career researchers. Frontiers in Psychology 6: 1152. PMC 4527093. PMID 26300832. doi:10.3389/fpsyg.2015.01152. 
  52. Earp, Brian D. Resolving the replication crisis in social psychology? A new proposal. Society for Personality and Social Psychology. Процитовано 2015-11-18. 
  53. а б в г Letzter, Rafi (September 22, 2016). Scientists are furious after a famous psychologist accused her peers of 'methodological terrorism'. Business Insider. Процитовано 2020-01-30. 
  54. Draft of Observer Column Sparks Strong Social Media Response. Association for Psychological Science (en-US). Процитовано 2017-10-04. 
  55. Fiske, Susan T. (2016-10-31). A Call to Change Science's Culture of Shaming. APS Observer (en-US) 29 (9). 
  56. Singal, Jesse (2016-10-12). Inside Psychology's 'Methodological Terrorism' Debate. NY Mag (en). Процитовано 2017-10-04. 
  57. BREAKING . . . . . . . PNAS updates its slogan! - Statistical Modeling, Causal Inference, and Social Science. Statistical Modeling, Causal Inference, and Social Science (en-US). 2017-10-04. Процитовано 2017-10-04. 
  58. Ioannidis JA (13 July 2005). Contradicted and initially stronger effects in highly cited clinical research. JAMA 294 (2): 218–228. PMID 16014596. doi:10.1001/jama.294.2.218.  Проігноровано невідомий параметр |doi-access= (довідка)
  59. Glick, J. Leslie (1992). Scientific data audit—A key management tool. Accountability in Research 2 (3): 153–168. doi:10.1080/08989629208573811. 
  60. Begley, C. G.; Ellis, L. M. (2012). Drug Development: Raise Standards for Preclinical Cancer Research. Nature 483 (7391): 531–533. Bibcode:2012Natur.483..531B. PMID 22460880. doi:10.1038/483531a. 
  61. Begley, C. G. (2013). Reproducibility: Six red flags for suspect work. Nature 497 (7450): 433–434. Bibcode:2013Natur.497..433B. PMID 23698428. doi:10.1038/497433a. 
  62. Ioannidis, JPA (2016). Why Most Clinical Research Is Not Useful. PLOS Med 13 (6): e1002049. PMC 4915619. PMID 27328301. doi:10.1371/journal.pmed.1002049. 
  63. Ioannidis, John P. A. (August 1, 2005). Why Most Published Research Findings Are False. PLOS Medicine 2 (8): e124. ISSN 1549-1277. PMC 1182327. PMID 16060722. doi:10.1371/journal.pmed.0020124. 
  64. Hunter, John E. (2001-06-01). The desperate need for replications. Journal of Consumer Research 28 (1): 149–158. doi:10.1086/321953. 
  65. Armstrong, J.; Green, Kesten (2017-01-24). Guidelines for Science: Evidence and Checklists. Marketing Papers. SSRN 3055874. 
  66. Aichner, Thomas; Coletti, Paolo; Forza, Cipriano; Perkmann, Urban; Trentin, Alessio (2016-03-22). Effects of Subcultural Differences on Country and Product Evaluations: A Replication Study. Journal of Global Marketing 29 (3): 115–127. doi:10.1080/08911762.2015.1138012. 
  67. Camerer, Colin F.; Dreber, Anna; Forsell, Eskil; Ho, Teck-Hua; Huber, Jürgen; Johannesson, Magnus; Kirchler, Michael; Almenberg, Johan та ін. (2016-03-25). Evaluating replicability of laboratory experiments in economics. Science (en) 351 (6280): 1433–1436. Bibcode:2016Sci...351.1433C. ISSN 0036-8075. PMID 26940865. doi:10.1126/science.aaf0918.  Проігноровано невідомий параметр |doi-access= (довідка);
  68. Bohannon, John (2016-03-03). About 40% of economics experiments fail replication survey. Science (en). Процитовано 2017-10-25. 
  69. Ioannidis, John P. A.; Stanley, T. D.; Doucouliagos, Hristos (2017-10-01). The Power of Bias in Economics Research. The Economic Journal (en) 127 (605): F236–F265. ISSN 1468-0297. doi:10.1111/ecoj.12461. 
  70. Halperin, Israel; Vigotsky, Andrew D.; Foster, Carl; Pyne, David B. (2018-02-01). Strengthening the Practice of Exercise and Sport-Science Research. International Journal of Sports Physiology and Performance 13 (2): 127–134. ISSN 1555-0273. PMID 28787228. doi:10.1123/ijspp.2017-0322.  Проігноровано невідомий параметр |hdl-access= (довідка); Проігноровано невідомий параметр |hdl= (довідка)
  71. Aschwanden, Christie; Nguyen, Mai (2018-05-16). How Shoddy Statistics Found A Home In Sports Research. FiveThirtyEight (en-US). Процитовано 2018-05-16. 
  72. Stagge, James H.; Rosenberg, David E.; Abdallah, Adel M.; Akbar, Hadia; Attallah, Nour A.; James, Ryan (2019-02-26). Assessing data availability and research reproducibility in hydrology and water resources. Scientific Data (en) 6: 190030. Bibcode:2019NatSD...690030S. ISSN 2052-4463. PMC 6390703. PMID 30806638. doi:10.1038/sdata.2019.30. 
  73. Ferrari Dacrema, Maurizio; Cremonesi, Paolo; Jannach, Dietmar (2019). Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches. Proceedings of the 13th ACM Conference on Recommender Systems (ACM): 101–109. ISBN 9781450362436. arXiv:1907.06902. doi:10.1145/3298689.3347058. Процитовано 16 October 2019.  Проігноровано невідомий параметр |hdl= (довідка)
  74. Ekstrand, Michael D.; Ludwig, Michael; Konstan, Joseph A.; Riedl, John T. (2011-01-01). Rethinking the Recommender Research Ecosystem: Reproducibility, Openness, and LensKit. Proceedings of the Fifth ACM Conference on Recommender Systems. RecSys '11 (New York, NY, USA: ACM). с. 133–140. ISBN 9781450306836. doi:10.1145/2043932.2043958. 
  75. Konstan, Joseph A.; Adomavicius, Gediminas (2013-01-01). Toward Identification and Adoption of Best Practices in Algorithmic Recommender Systems Research. Proceedings of the International Workshop on Reproducibility and Replication in Recommender Systems Evaluation. RepSys '13 (New York, NY, USA: ACM). с. 23–28. ISBN 9781450324656. doi:10.1145/2532508.2532513. 
  76. Oreskes, N. (2018). Beware: Transparency rule is a trojan horse. Nature 557 (7706): 469. Bibcode:2018Natur.557..469O. PMID 29789751. doi:10.1038/d41586-018-05207-9.  Проігноровано невідомий параметр |doi-access= (довідка)
  77. а б Saltelli, Andrea (December 2018). Why science's crisis should not become a political battling ground. Futures 104: 85–90. doi:10.1016/j.futures.2018.07.006.  Проігноровано невідомий параметр |doi-access= (довідка)
  78. Michaels, D. (2008). Doubt is their product: How industry's assault on science threatens your health. Oxford University Press. ISBN 9780195300673. 
  79. De Solla Price; Derek J. (1963). Little science big science. Columbia University Press. 
  80. Siebert, S.; Machesky, L. M. & Insall, R. H. (2015). Overflow in science and its implications for trust. eLife 4: e10825. PMC 4563216. PMID 26365552. doi:10.7554/eLife.10825. 
  81. Della Briotta Parolo, P.; Kumar Pan; R. Ghosh; R. Huberman; B.A. Kimmo Kaski; Fortunato, S. (2015). Attention decay in science. Journal of Informetrics 9 (4): 734–745. Bibcode:2015arXiv150301881D. arXiv:1503.01881. doi:10.1016/j.joi.2015.07.006. 
  82. Mirowski, P. (2011). Science-Mart: Privatizing American Science. Harvard University Press. 
  83. Saltelli, A.; Funtowicz, S. (2017). What is science's crisis really about?. Futures 91: 5–11. doi:10.1016/j.futures.2017.05.010.  Проігноровано невідомий параметр |doi-access= (довідка)
  84. Benessia, A.; Funtowicz, S.; Giampietro, M.; Guimarães Pereira, A.; Ravetz, J.; Saltelli, A.; Strand, R.; van der Sluijs, J. (2016). The Rightful Place of Science: Science on the Verge. Consortium for Science, Policy and Outcomes at Arizona State University.  Проігноровано невідомий параметр |title-link= (довідка)
  85. Saltelli, Andrea; Ravetz, Jerome R. & Funtowicz, Silvio (25 June 2016). A new community for science. New Scientist (3079): 52. 
  86. Smith, Noah (2016-12-14). Academic signaling and the post-truth world. Noahpinion. Stony Brook University. Процитовано 5 November 2017. 
  87. Nissen, Silas Boye; Magidson, Tali; Gross, Kevin; Bergstrom, Carl (December 20, 2016). Research: Publication bias and the canonization of false facts. eLife 5: e21451. PMC 5173326. PMID 27995896. arXiv:1609.00494. doi:10.7554/eLife.21451. 
  88. Moonesinghe, Ramal; Khoury, Muin J.; Janssens, A. Cecile J. W. (2007-02-27). Most Published Research Findings Are False—But a Little Replication Goes a Long Way. PLOS Med 4 (2): e28. PMC 1808082. PMID 17326704. doi:10.1371/journal.pmed.0040028. 
  89. Simons, Daniel J. (2014-01-01). The Value of Direct Replication. Perspectives on Psychological Science 9 (1): 76–80. ISSN 1745-6916. PMID 26173243. doi:10.1177/1745691613514755. 
  90. Ioannidis, John P. A.; Fanelli, Daniele; Dunne, Debbie Drake; Goodman, Steven N. (2015-10-02). Meta-research: Evaluation and Improvement of Research Methods and Practices. PLOS Biology 13 (10): –1002264. ISSN 1545-7885. PMC 4592065. PMID 26431313. doi:10.1371/journal.pbio.1002264. 
  91. Bach, Author Becky (8 December 2015). On communicating science and uncertainty: A podcast with John Ioannidis. Scope. Процитовано 20 May 2019. 
  92. Registered Replication Reports. Association for Psychological Science. Процитовано 2015-11-13. 
  93. Chambers, Chris (2014-05-20). Psychology's 'registration revolution'. The Guardian. Процитовано 2015-11-13. 
  94. Lindsay, D. Stephen (2015-11-09). Replication in Psychological Science. Psychological Science 26 (12): 1827–32. ISSN 0956-7976. PMID 26553013. doi:10.1177/0956797615616374.  Проігноровано невідомий параметр |doi-access= (довідка)
  95. Yeung, Andy W. K. (2017). Do Neuroscience Journals Accept Replications? A Survey of Literature. Frontiers in Human Neuroscience (English) 11: 468. ISSN 1662-5161. PMC 5611708. PMID 28979201. doi:10.3389/fnhum.2017.00468. 
  96. Martin, G. N.; Clarke, Richard M. (2017). Are Psychology Journals Anti-replication? A Snapshot of Editorial Practices. Frontiers in Psychology (English) 8: 523. ISSN 1664-1078. PMC 5387793. PMID 28443044. doi:10.3389/fpsyg.2017.00523. 
  97. Wallot, Sebastian; Kelty-Stephen, Damian G. (2018-06-01). Interaction-Dominant Causation in Mind and Brain, and Its Implication for Questions of Generalization and Replication. Minds and Machines (en) 28 (2): 353–374. ISSN 1572-8641. doi:10.1007/s11023-017-9455-0.  Проігноровано невідомий параметр |doi-access= (довідка)
  98. Siegenfeld, Alexander F.; Bar-Yam, Yaneer (2019-12-10). «An Introduction to Complex Systems Science and its Applications». arXiv:1912.05088 [physics.soc-ph]. 
  99. Frank, Michael C.; Saxe, Rebecca (2012-11-01). Teaching Replication. Perspectives on Psychological Science 7 (6): 600–604. ISSN 1745-6916. PMID 26168118. doi:10.1177/1745691612460686. 
  100. Grahe, Jon E.; Reifman, Alan; Hermann, Anthony D.; Walker, Marie; Oleson, Kathryn C.; Nario-Redmond, Michelle; Wiebe, Richard P. (2012-11-01). Harnessing the Undiscovered Resource of Student Research Projects. Perspectives on Psychological Science 7 (6): 605–607. ISSN 1745-6916. PMID 26168119. doi:10.1177/1745691612459057.  Проігноровано невідомий параметр |doi-access= (довідка)
  101. Marwick, Ben; Wang, Li-Ying; Robinson, Ryan; Loiselle, Hope (22 October 2019). How to Use Replication Assignments for Teaching Integrity in Empirical Archaeology. Advances in Archaeological Practice 8: 78–86. doi:10.1017/aap.2019.38. 
  102. Benjamin, Daniel J. та ін. (2018). Redefine statistical significance. Nature Human Behaviour 2 (1): 6–10. PMID 30980045. doi:10.1038/s41562-017-0189-z.  Проігноровано невідомий параметр |doi-access= (довідка)
  103. Lakens, Daniel та ін. (March 2018). Justify your alpha. Nature Human Behaviour (en) 2 (3): 168–171. ISSN 2397-3374. doi:10.1038/s41562-018-0311-x.  Проігноровано невідомий параметр |hdl-access= (довідка); Проігноровано невідомий параметр |hdl= (довідка)
  104. Colquhoun, David (2015). An investigation of the false discovery rate and the misinterpretation of p-values. Royal Society Open Science 1 (3): 140216. Bibcode:2014RSOS....140216C. PMC 4448847. PMID 26064558. arXiv:1407.5296. doi:10.1098/rsos.140216. 
  105. а б в г Colquhoun, David (2017). The reproducibility of research and the misinterpretation of p-values. Royal Society Open Science 4 (12): 171085. PMC 5750014. PMID 29308247. doi:10.1098/rsos.171085. 
  106. Colquhoun, David. The problem with p-values. Aeon Magazine. Процитовано 11 December 2016. 
  107. Longstaff, Colin; Colquhoun, David. Calculator for false positive risk (FPR). UCL. 
  108. Matthews, R. A. J. (2001). Why should clinicians care about Bayesian methods?. Journal of Statistical Planning and Inference 94: 43–58. doi:10.1016/S0378-3758(00)00232-9. 
  109. Mayo, Deborah G. (2018-09-20). Statistical inference as severe testing : how to get beyond the statistics wars. Cambridge, United Kingdom. ISBN 978-1-107-05413-4. OCLC 1018457393. 
  110. Maxwell, Scott E.; Lau, Michael Y.; Howard, George S. (2015). Is psychology suffering from a replication crisis? What does "failure to replicate" really mean?. American Psychologist 70 (6): 487–498. PMID 26348332. doi:10.1037/a0039400. 
  111. IntHout, Joanna; Ioannidis, John P. A.; Borm, George F.; Goeman, Jelle J. (2015). Small studies are more heterogeneous than large ones: a meta-meta-analysis. Journal of Clinical Epidemiology 68 (8): 860–869. PMID 25959635. doi:10.1016/j.jclinepi.2015.03.017.  Проігноровано невідомий параметр |doi-access= (довідка)
  112. а б Button, Katherine S.; Ioannidis, John P. A.; Mokrysz, Claire; Nosek, Brian A.; Flint, Jonathan; Robinson, Emma S. J.; Munafò, Marcus R. (2013-05-01). Power failure: why small sample size undermines the reliability of neuroscience. Nature Reviews Neuroscience 14 (5): 365–376. ISSN 1471-003X. PMID 23571845. doi:10.1038/nrn3475.  Проігноровано невідомий параметр |doi-access= (довідка)
  113. Greenwald, Anthony G. (1975). Consequences of prejudice against the null hypothesis. Psychological Bulletin (en-US) 82 (1): 1–20. doi:10.1037/h0076157. 
  114. Amrhein, Valentin; Korner-Nievergelt, Fränzi; Roth, Tobias (2017). The earth is flat (p > 0.05): significance thresholds and the crisis of unreplicable research. PeerJ 5: e3544. PMC 5502092. PMID 28698825. doi:10.7717/peerj.3544. 
  115. а б Ioannidis, John P. A. (2016). Anticipating consequences of sharing raw data and code and of awarding badges for sharing. Journal of Clinical Epidemiology 70: 258–260. PMID 26163123. doi:10.1016/j.jclinepi.2015.04.015. 
  116. NWO makes 3 million available for Replication Studies pilot. NWO. Процитовано 2 August 2016. 
  117. а б в Apple, Sam (January 22, 2017). The Young Billionaire Behind the War on Bad Science. Wired. 
  118. Munafò, Marcus R.; Smith, George Davey (January 23, 2018). Robust research needs many lines of evidence. Nature 553 (7689): 399–401. Bibcode:2018Natur.553..399M. PMID 29368721. doi:10.1038/d41586-018-01023-3.  Проігноровано невідомий параметр |doi-access= (довідка)
  119. Gosselin, Romain D. (2019). Statistical Analysis Must Improve to Address the Reproducibility Crisis: The ACcess to Transparent Statistics (ACTS) Call to Action. BioEssays 42 (1): 1900189. PMID 31755115. doi:10.1002/bies.201900189.  Проігноровано невідомий параметр |doi-access= (довідка)
  120. а б Wheeling, Kate (May 12, 2016). Big Pharma Reveals a Biomedical Replication Crisis. Pacific Standard (en). Процитовано 2020-01-30.  Updated on June 14, 2017.
  121. Begley, C. Glenn (2012-05-12). Raise standards for preclinical cancer research. Nature 483 (7391): 531–33. Bibcode:2012Natur.483..531B. PMID 22460880. doi:10.1038/483531a. 
  122. Prinz, Florian (2011-08-31). Believe it or not: how much can we rely on published data on potential drug targets. Nature Reviews Drug Discovery 10 (712): 712. PMID 21892149. doi:10.1038/nrd3439-c1.  Проігноровано невідомий параметр |doi-access= (довідка)