Статистика

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Стати́стика — наука, яка вивчає методи кількісного охоплення і дослідження масових, зокрема суспільних, явищ і процесів. А також власне кількісний облік масових явищ. Зокрема, облік в якій-небудь галузі господарства, суспільного життя, що здійснюється методами цієї науки, а також дані цього обліку. Статистика вивчає кількісну сторону масових явищ і процесів у нерозривному зв'язку з їх якісною стороною. Статистика поділяється на математичну та прикладну. Прикладну статистика поділяють по галузях на демографічну, економічну, фінансову, соціальну, санітарну, судову, біологічну, технічну тощо.

Загальний опис[ред.ред. код]

Збирання інформації про них сягає найдавніших часів. Вона мала спершу наскрізь практичний характер; з XIX ст. статистика поступово здобуває солідну наукову основу, коли почалося впорядкування і вдосконалення статистичних методів. З них розвинулися дві основні: описова (дескриптивна) — збирання інформації, перевірка її якості, її інтерпретація, зображення статистичного матеріалу; та індуктивна — застосування теорії ймовірності, закону великих чисел. Статистика поділяється за своїм змістом на демографічну, економічну, фінансову, соціальну, санітарну, судову, біологічну, технічну тощо; математична статистика вивчає математичні методи систематизації, обробки й використання статистичних даних для наукових і практичних висновків[Джерело?].

Слово «статистика» походить від латинського status — стан справ[1]. У науку термін «статистика» ввів німецький учений Готфрід Ахенвалль в 1746 році, запропонувавши замінити назву курсу «Державознавство», що викладалося в університетах Німеччини, на «Статистику», поклавши тим самим початок розвитку статистики як науки й навчальної дисципліни. Незважаючи на це, статистичний облік вівся набагато раніше: проводилися переписи населення в Древньому Китаю, здійснювалося порівняння військового потенціалу держав, вівся облік майна громадян в Древньому Римі і т. п[2].

Статистика розробляє спеціальну методологію дослідження й обробки матеріалів: масові статистичні спостереження, метод угруповань, середніх величин, індексів, балансовий метод, метод графічних зображень й інші методи аналізу статистичних даних.

Розвиток уявлень про статистику[ред.ред. код]

Початок статистичної практики відноситься приблизно до часу виникнення держави. Першою опублікованою статистичною інформацією можна вважати глиняні таблички Шумерського царства (III — II тисячоріччя до н.е.).

Спочатку під статистикою розуміли опис економічного й політичного багатства держави або його частин. Наприклад, до 1792 року належить визначення: «статистика описує стан держави в цей час або в деякий відомий момент у минулому». І в цей час діяльність державних статистичних служб цілком укладається в це визначення[3].

Однак поступово термін «статистика» став використовуватися більш широко. По Наполеону Бонапарту, «статистика — це бюджет речей»[4]. Тим самим статистичні методи були визнані корисними не тільки для адміністративного керування, але й для застосування на рівні окремого підприємства. Відповідно до формулювання 1833 року, «ціль статистики полягає в поданні фактів у найбільш стислій формі»[5]. В 2-й половині XIX — початку XX століть сформувалася наукова дисципліна — математична статистика, що є частиною математики.

В XX столітті статистику часто розглядають насамперед як самостійну наукову дисципліну. Статистика є сукупність методів і принципів, згідно з якими проводиться збір, аналіз, порівняння, подання й інтерпретація числових даних. В 1954 р. академік АН УРСР Б. В. Гнеденко дав наступне визначення: «Статистика складається із трьох розділів:

  1. збір статистичних відомостей, тобто відомостей, що характеризують окремі одиниці яких-небудь масових сукупностей;
  2. статистичне дослідження отриманих даних, що полягає в з'ясуванні тих закономірностей, які можуть бути встановлені на основі даних масового спостереження;
  3. розробка прийомів статистичного спостереження й аналізу статистичних даних. Останній розділ, власне, і становить зміст математичної статистики»[6].

Термін «статистика» вживають ще у двох значеннях. По-перше, у побуті під «статистикою» часто розуміють набір кількісних даних про яке-небудь явище або процес. По-друге, статистикою називають функцію від результатів спостережень, використовувану для оцінки характеристик і параметрів розподілів і перевірки гіпотез.

Коротка історія статистичних методів[ред.ред. код]

Типові приклади раннього етапу застосування статистичних методів описані в Біблії, в Старому Завіті. Там, зокрема, приводиться число воїнів у різних племенах. З математичної точки зору справа зводилася до підрахунку числа влучень значень спостережуваних ознак у певні градації.

Відразу після виникнення теорії ймовірностей (Паскаль, Ферма, XVII століття) імовірнісні моделі стали використовуватися при обробці статистичних даних. Наприклад, вивчалася частота народження хлопчиків і дівчинок, було встановлене відмінність імовірності народження хлопчика від 0.5, аналізувалися причини того, що в паризьких притулках ця ймовірність не та, що в самому Парижі, и т.д.

В 1794 р. (за іншим даними — в 1795 р.) німецький математик Карл Гаусс формалізував один з методів сучасної математичної статистики — метод найменших квадратів[7]. В XIX столітті значний внесок у розвиток практичної статистики вніс бельгієць Кетле, на основі аналізу великої кількості реальних даних показав стійкість відносних статистичних показників, таких, як частка самогубств серед всіх смертей[8].

Перша третина XX століття пройшла під знаком параметричної статистики. Вивчалися методи, засновані на аналізі даних з параметричних сімейств розподілів, описуваних кривими сімейства Пірсона. Найбільш популярним був нормальний розподіл. Для перевірки гіпотез використалися критерії Пірсона, Ст’юдента, Фішера. Були запропоновані метод максимальної правдоподібності, дисперсійний аналіз, сформульовані основні ідеї планування експерименту.

Розроблену в першій третині XX століття теорію аналізу даних називають параметричною статистикою, оскільки її основний об'єкт вивчення — це вибірки з розподілів, описуваних одним або невеликим числом параметрів. Найбільш загальним є сімейство кривих Пірсона, що задають чотирма параметрами. Як правило, не можна вказати яких-небудь вагомих причин, по яких розподіл результатів конкретних спостережень повинен входити в те або інше параметричне сімейство. Виключення добре відомі: якщо імовірнісна модель передбачає підсумовування незалежних випадкових величин, то суму природно описувати нормальним розподілом; якщо ж у моделі розглядається добуток таких величин, то підсумок, очевидно, наближається логарифмічно нормальним розподілом і так далі.

Основні поняття (категорії) статистики[ред.ред. код]

  • Статистична сукупність — це маса однорідних в певному відношенні елементів, які мають єдину якісну основу, але різняться між собою певними ознаками і підлягають певному закону розподілу. Статистична сукупність — це певна множина елементів, поєднана умовами існування і розвитку.
      1. Однорідна сукупність — якщо одна чи декілька ознак, що вивчаються, є загальними для всіх одиниць.
      2. Різнорідна сукупність об'єднує явища різного типу.
  • Одиниця сукупності — це первинний елемент статистичної сукупності, який є носієм ознак, що підлягають реєстрації і є основою обліку.
  • Ознака — властивість окремої одиниці сукупності.
    • Якісні ознаки (атрибутивні ознаки) виражаються в вигляді понять, визначень, які характеризують їхню суть, стан або якість. Наприклад, сорт продукції, професія, сімейний статус.
    • Кількісні ознаки виражають окремі значення якісних ознак у числовому виразі.
      1. Дискретні — ознаки, виражені окремими цілими числами, без проміжних значень.
      2. Неперервні — ознаки, що можуть набувати будь-яких значень у певних чисел.
    • Прямі — характеризують об'єкт дослідження безпосередньо (вік осіб, кількість присутніх в аудиторії).
    • Непрямі — ознаки, що не належать безпосередньо досліджуваному об'єкту (чи сукупності), а які належать іншій сукупності, що входить в дану.
      1. Багатоваріантні — перш за все характеризуються рангами (шкалою рангів) від більшого до меншого (напр. дуже низький, низький, середній, високий, дуже високий).
      2. Альтернативні — взаємовиключаючі значення: так-ні, позитивне-негативне.
    • Інтервальні — це ознаки, які характеризують результат процесів.
    • Моментні — характеризують об'єкт в певний момент часу.
    • Окремі значення кількісних ознак називаються варіантами.
      1. Первинні варіанти характеризують одиницю сукупності в цілому: абсолютні значення, виміряні, розраховані.
      2. Вторинні варіанти (похідні, розрахункові) — дані, що неможливо перевірити, оскільки вони взяті з певних джерел.
  • Адитивність — підсумовувати, складати.
  • Статистичні показники — це числа в сукупності з набором ознак, що характеризують обставини, до яких вони відносяться, що, де, коли, і яким чином підлягають вимірюванню. Статистичний показник — це кількісна характеристика соціально-економічних явищ і процесів в умовах якісної визначеності.
  • Статистичні дані — це сукупність показників, отриманих внаслідок статистичного спостереження або обробки даних.
  • Статистична закономірність — це закономірність, в якій необхідність пов'язана в кожному окремому явищі з випадковістю, і лише в сукупності явищ виявляє себе як закон.
  • Система статистичних показників — це сукупність статистичних показників, які відображають взаємозв'язки, які об'єктивно існують між явищами.

Метод статистики[ред.ред. код]

Метод статистики (статистична методологія)— це сукупність прийомів, користуючись якими статистика досліджує свій предмет. Метод статистики включає в себе три групи методів: метод масових спостережень, метод угруповань, метод узагальнюючих показників. Статистичне дослідження проходить в три етапи:

1) На першому етапі за допомогою методу масових спостережень збирають первинні статистичні дані. Основний зміст цього етапу полягає в отриманні даних, що характеризують кожну одиницю спостереження.

2) На другому етапі статистичного дослідження зібрані дані піддаються первинної обробки, зведенні і угрупуванню. Метод угруповань дозволяє виділити однорідні сукупності, розділити їх на групи і підгрупи. Підсумок — це отримання підсумків по сукупності в цілому й окремих її групами та підгрупами. Результати угруповання і зведення викладаються у вигляді статистичних таблиць. Основний зміст цього етапу полягає в переході від характеристик кожної одиниці спостереження до зведених характеристиках сукупності в цілому або її груп.

3) На третьому етапі отримані зведені дані аналізуються методом узагальнюючих показників (абсолютні, відносні і середні величини, показники варіації, індексні системи, методи математичної статистики, табличний метод, графічний метод та ін) Основний зміст цього етапу полягає у виявленні взаємозв'язків явищ, визначенні закономірностей їх розвитку та здійсненні прогнозних оцінок.

Статистичні методи[ред.ред. код]

Статистичні методи — методи аналізу статистичних даних. Виділяють методи прикладної статистики, які можуть застосовуватися у всіх областях наукових досліджень і будь-яких галузей народного господарства, і інші статистичні методи, застосовність яких обмежена тією або іншою сферою. Маються на увазі такі методи, як статистичний приймальний контроль, статистичне регулювання технологічних процесів, надійність і випробування, планування експериментів.

Класифікація статистичних методів[ред.ред. код]

Статистичні методи аналізу даних застосовуються практично у всіх областях діяльності людини. Їх використовують завжди, коли необхідно отримати й обґрунтувати які-небудь судження про групу (об'єктів або суб'єктів) з деякою внутрішньою неоднорідністю.

Доцільно виділити три види наукової й прикладної діяльності в області статистичних методів аналізу даних (по ступені специфічності методів, сполученої із заглибленістю в конкретні проблеми):

а) розробка й дослідження методів загального призначення, без обліку специфіки області застосування;

б) розробка й дослідження статистичних моделей реальних явищ і процесів відповідно до потреб тієї або іншої області діяльності;

в) застосування статистичних методів і моделей для статистичного аналізу конкретних даних.

Прикладна статистика[ред.ред. код]

Прикладна статистика — це наука про те, як обробляти дані довільної природи. Математичною основою прикладної статистики і статистичних методів аналізу є теорія ймовірностей й математична статистика.

Опис виду даних і механізму їхнього породження — початок будь-якого статистичного дослідження. Для опису даних застосовують як детерміновані, так й імовірнісні методи. За допомогою детермінованих методів можна проаналізувати тільки ті дані, які є в розпорядженні дослідника. Наприклад, з їхньою допомогою отримані таблиці, розраховані органами офіційної державної статистики на основі представлених підприємствами й організаціями статистичних звітів. Перенести отримані результати на ширшу сукупність, використати їх для пророкування й керування можна лише на основі ймовірносно-статистичного моделювання. Тому в математичну статистику часто включають лише методи, що опираються на теорію ймовірностей.

У найпростішій ситуації статистичні дані — це значення деякої ознаки, властивого досліджуваним об'єктам. Значення можуть бути кількісними або являти собою вказівку на категорію, до якої можна віднести об'єкт. У другому випадку говорять про якісну ознаку.

При вимірі по декількох кількісних або якісних ознаках у якості статистичних даних про об'єкт одержуємо вектор. Його можна розглядати як новий вид даних. У такому випадку вибірка складається з набору векторів. Є частина координат — числа, а частина — якісні (категоризовані) дані, то говоримо про вектор різнотипних даних.

Одним елементом вибірки, тобто одним виміром, може бути й функція в цілому. Наприклад, що описує динаміку показника, тобто його зміна в часі, — електрокардіограма хворого або амплітуда биття валу двигуна. Або часовий ряд, що описує динаміку показників певної фірми. Тоді вибірка складається з набору функцій.

Елементами вибірки можуть бути й інші математичні об'єкти. Наприклад, бінарні відносини. Так, при опитуваннях експертів часто використають упорядкування (ранжирування) об'єктів експертизи — зразків продукції, інвестиційних проектів, варіантів управлінських рішень. Залежно від регламенту експертного дослідження елементами вибірки можуть бути різні види бінарних відносин (упорядкування, розбивка, толерантності), множини, нечіткі множини і т.д.

Отже, математична природа елементів вибірки в різних завданнях прикладної статистики може бути найрізноманітнішою. Однак можна виділити два класи статистичних даних — числові й нечислові. Відповідно прикладна статистика розбивається на дві частини — числову статистику й нечислову статистику.

Числові статистичні дані — це числа, вектора, функції. Їх можна складати, множити на коефіцієнти. Тому в числовій статистиці велике значення мають різноманітні суми. Математичний апарат аналізу сум випадкових елементів вибірки — це (класичні) закони більших чисел і центральні граничні теореми.

Нечислові статистичні дані — це категоризовані дані, вектора різнотипних ознак, бінарні відношення, множини, нечіткі множини й ін. Їх не можна складати й множити на коефіцієнти. Тому не має змісту говорити про суми нечислових статистичних даних. Вони є елементами нечислових математичних просторів (множин). Математичний апарат аналізу нечислових статистичних даних заснований на використанні відстаней між елементами (а також мір близькості, показників різниці) у таких просторах. За допомогою відстаней визначаються емпіричн і теоретичні середні, доводяться закони більших чисел, будуються непараметричні оцінки щільності розподілу ймовірностей, вирішуються завдання діагностики й кластерного аналізу, і т.д. (див. [2]).

У прикладних дослідженнях використовують статистичні дані різних видів. Це пов'язано, зокрема, зі способами їхнього одержання. Наприклад, якщо випробування деяких технічних пристроїв тривають до певного моменту часу, то одержуємо так звані цензуровані дані, що складаються з набору чисел — тривалості роботи ряду пристроїв до відмови, і інформації про те, що інші пристрої продовжували працювати в момент закінчення випробування. Цензуровані дані часто використовуються при оцінці й контролю надійності технічних пристроїв.

Статистичний аналіз конкретних даних[ред.ред. код]

Застосування статистичних методів і моделей для статистичного аналізу конкретних даних тісно прив'язане до проблем відповідної області. Хоч математичний апарат практично один і то й же, проте при зборі даних та їх аналізі потрібно враховувати специфіку певної області і специфіку самого дослідження. Особливо це стосується початкових етапів постановки експерименту (чи спостереження) та збору даних, оскільки при їх неправильному здійсненні можна одержати непрезентабельні дані, які можуть призвести до хибних висновків. В результаті можна знайти в даних щось чого насправді не існує, або ж навпаки не помітити чогось істотного. В ідеалі будь-які результати статистичного дослідження повинні перепровірятись як шляхом неодноразової перевірки процесу аналізу статистичних даних так і шляхом здійснення повторного дослідженння.

Перспективи розвитку[ред.ред. код]

Теорія статистичних методів націлена на вирішення реальних завдань. Тому в ній постійно виникають нові постановки математичних завдань аналізу статистичних даних, розвиваються й обґрунтовуються нові методи. Обґрунтування часто проводиться математичними засобами, тобто шляхом доказу теорем. Більшу роль грає методологічна складова — як саме ставити завдання, які припущення прийняти з метою подальшого математичного вивчення. Велика роль сучасних інформаційних технологій, зокрема, комп'ютерного експерименту.

Актуальним є завдання аналізу історії статистичних методів з метою виявлення тенденцій розвитку й застосування їх для прогнозування.

Обчислювальна статистика[ред.ред. код]

Розвиток обчислювальної техніки у другій половині XX століття вплинуло на статистику. Раніше статистичні моделі були представлені переважно лінійними моделями. Збільшення швидкодії ЕОМ і розробка відповідних чисельних алгоритмів послужило причиною підвищеного інтересу до нелінійних моделей таких, як штучні нейронні мережі, і привело до розробки складних статистичних моделей, наприклад узагальнена лінійна модель й ієрархічна модель.

Одержали широке поширення обчислювальні методи, засновані на повторній вибірці як критерій перестановок й бутстреппінг, а також методи як семплювання по Гібсу дозволили більш доступно використовувати баєсівські алгоритми. У цей час існує різноманітне статистичне програмне забезпечення загального й спеціалізованого призначення.

Некоректна інтерпретація статистичних досліджень[ред.ред. код]

Існує думка, що дані статистичних досліджень все частіше навмисно спотворюють або неправильно інтерпретують, вибираючи тільки ті дані, які є сприятливими для ведучого конкретне дослідження[9]. Неправильне використання статистичних даних може бути як випадковим, так і навмисним. У книзі Хаффа й Даррелла (1954) «Як обдурити за допомогою статистики?» (How to Lie With Statistics) викладається ряд міркувань із приводу використання й неправильного застосування статистичних даних. Деякі автори також проводять огляд статистичних методів, використовуваних у певних областях (наприклад, Варн, Лазо, Рамос, і Ріттер (2012))[10]. Способи, що дозволяють уникнути неправильного тлумачення статистичних даних містять у собі використання належної схеми й виключення упередженості при проведенні досліджень[11]. Зловживання відбувається тоді, коли такі висновки «замовляються» певними структурами, які навмисно або несвідомо виводять на добір упереджених даних або проб[12]. При цьому гістограми, як найпростіший для використання й розуміння (сприйняття) вид діаграми, можуть бути зроблені або із застосуванням звичайних програм для комп'ютера або просто намальовані[11]. На жаль, більшість людей не роблять спроб шукати помилки або помиляються самі, тому й не бачать помилок. Таким чином, на думку авторів, статистичні дані, щоб бути правдою, повинні бути «не причесані» (тобто достовірні дані не повинні виглядати ідеальними)[12]. Для того, щоб отримані статистичні дані виявилися правдоподібна й точними, проба повинна бути репрезентативної в цілому[13].

Стентон Гланц, американський професор медицини, який викладає статистику студентам медичного профілю, автор ряду курсів та книг по статистиці та є редактором Journal of the American College of Cardiology зазначає, що близько 50% публікацій, які надходять в редакцію журналу містять статистичні помилки отримання та обробки медичних даних[14]. Основними причинами є недостовірність отриманих даних(неправильно поставлені експерименти або ж взяті непрезентабельні дані), а також незнання та неправильне застосування статистичних методів. Також він зазначає, що часто дослідник та особи причетні до експерименту, можуть підсвідомо видавати бажане за дійсне. При чому ненавмисне підтасування даних може відбуватися як на етапі постановки експерименту, збору даних так і на етапі аналізу даних. Виходом є максимальне врахування та усунення сторонніх факторів, які можуть вплинути на процес експерименту та на аналіз даних. Він пропонує якомога ширше використовувати "сліпий методу" чи навіть "подвійний сліпий метод", коли ні піддослідні ні дослідники(чи помічники дослідників) достеменно не знають, що на якій групі хворих досліджується і навіть аналіз даних бажано, щоб робила особа незацікавлена у некоректній інтерпретації даних чи ще краще, якщо вона буде необізнана у конкретних деталях експерименту. В будь-якому разі в постановці, зборі та аналізі даних повинні брати участь особи, які добре володіють прикладними статистичними методами.

Крилата фраза[ред.ред. код]

«Існують три види обману: неправда, нахабна неправда й статистика», англ. There are three kinds of lies: lies, damned lies, and statistics) — висловлення, приписуване прем’єр-міністру Великобританії Бенджаміну Дізраелі, а популярність воно одержало завдяки Марку Твену після публікації «Глави моєї автобіографії» у журналі North American Review 5 липня 1907 року[15]: «Цифри оманливі, — писав він, — я переконався в цьому на власному досвіді; із цього приводу справедливо висловився Дізраелі: „Існує три види неправди: брехня, нахабна брехня й статистика“». Однак цієї фрази немає в роботах Дізраелі. Також вона не була відома ні при його житті, ні незабаром після смерті.

Див. також[ред.ред. код]

Примітки[ред.ред. код]

  1. Райзберг Б. А., Лозовський Л. Ш., Стародубцева Е. Б. Сучасний економічний словник. 5-е вид., перероб. і доп. — М.: ИНФРА-М, 2007. — 495 с. — (Б-ка словників «ИНФРА-М»)
  2. Лекція по статистиці — Предмет і метод статистики
  3. Нікітіна Е.П., Фрейдлина В.Д., Ярхо А.В. Колекція визначень терміна «статистика». — Москва: 1972.
  4. Чупров А. А. Питання статистики. — М.: Госстатиздат ЦСУ СССР, 1960.
  5. Нікітіна Е. П., Фрейдліна В. Д., Ярхо А. Колекція визначень терміна «статистика»
  6. Гнеденко Б.В. Нарис по історії теорії ймовірностей. — Москва: УРСС, 2001.
  7. Клейн Ф. Лекції про розвиток математики в XIX сторіччі. Частина I. — Москва, Ленінград: Об'єднане науково-технічне видавництво НКТП СРСР, 1937.
  8. Плошко Б.Г., Єлисєєва І.І. Історія статистики: Навч. посібник. — Москва, Ленінград: Фінанси й статистика, 1990.
  9. Huff, Darrell, How to Lie With Statistics, WW Norton & Company, Inc. New York, NY, 1954. ISBN 0-393-31072-8
  10. Warne, R. Lazo, M., Ramos, T. and Ritter, N. (2012). Statistical Methods Used in Gifted Education Journals, 2006-2010. Gifted Child Quarterly, 56(3) 134-149. doi: 10.1177/0016986212444122
  11. а б Encyclopedia of Archaeology. Credo Reference: Oxford: Elsevier Science. 2008. 
  12. а б Cohen Jerome B. Misuse of Statistics // Journal of the American Statistical Association. — 33 (December 1938) (204) С. 657-674. Процитовано 19 September 2012.
  13. Freund J. F. Modern Elementary Statistics // Credo Reference. — (1988). Процитовано 21 September 2012.
  14. Стентон Гланц Медико-биологическая статистика - М., Практика, 1998. - С.405-406
  15. Mark Twain (1906-09-07). «Chapters from My Autobiography». North American Review. Project Gutenberg. Архів оригіналу за 2012-04-07. Процитовано 2007-05-23. 

Література[ред.ред. код]

  1. Орлів А. И. Прикладна статистика. Підручник. — М.: Іспит, 2006. — 671 с.
  2. Норман Дрейпер, Гарі Сміт. Прикладний регресійний аналіз. Множинна регресія = Applied Regression Analysis. — 3-е вид. — М.: «Діалектика», 2007. — С. 912. — ISBN 0-471-17082-8

Посилання[ред.ред. код]