Наука про дані

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Наука про дані — це міждисциплінарна галузь про наукові методи, процеси і системи, які стосуються добування знань із даних у різних формах, як структурованих так і неструктурованих. Наука про дані є продовженням деяких галузей аналізу даних, таких як статистика, класифікація, кластеризація, машинне навчання, добування даних і передбачувальна аналітика.

Лауреат Премії Тюрінга Джим Ґрей розглядав науку про дані як «четверту парадигму» науки (поруч з емпіричною, теоретичною та обчислювальною).

Огляд[ред.ред. код]

Наука про дані використовує методики та теоретичні напрацювання із багатьох галузей математики, статистики, дослідження операцій, наукової інформатики і комп'ютерних наук, зокрема з таких як обробка сигналів, ймовірнісні моделі, машинне навчання, статистичне навчання, класифікація, кластеризація, добування даних, бази даних, теорія розпізнавання образів, візуалізація, передбачувальна аналітика, нечітке моделювання, сховища даних, стиснення даних, програмування, штучний інтелект та ін. Методи, призначені для великих даних, є окремим об'єктом розгляду у науці про дані, але сама наука ними не обмежується; крім того, технології великих даних часто спрямовані на організацію та попереднє опрацювання даних, а не на їх аналіз. Розвиток машинного навчання призвів до зростання важливості науки про дані та її швидшого розвитку.

Наука про дані впливає на наукові та прикладні дослідження у багатьох галузях, зокрема таких, як машинний переклад, розпізнавання мови, робототехніка, пошукові системи, цифрова економіка, а також біологічні науки, комп'ютерні технології в медицині, охорона здоров'я та гуманітарні дисципліни. Вона сильно впливає на економіку, бізнес та фінанси. З точки зору бізнесу, наука про дані є невід'ємною частиною аналізу діяльності конкурентів - нової галузі, яка охоплює такі напрями, як добування даних та аналіз даних.

Вчений у сфері даних[ред.ред. код]

Вчені у сфері даних використовують свої дані та аналітичні здібності для пошуку та інтерпретації великих джерел даних; керують великими обсягами даних безвідносно до апаратного та програмного забезпечення і обмежень пропускної здатності; об'єднують джерела даних; забезпечують цілісність наборів даних; створюють візуалізації для кращого розуміння даних; з використанням даних будують математичні моделі; надають тлумачення даних та висновки. Часто їм необхідно надати відповіді протягом кількох днів (а не місяців), проводити роботи з дослідницького аналізу, створювати та представляти результати у вигляді «панелі приладів» (показники поточних значень), а не у вигляді статей чи звітів, як це зазвичай роблять статистики.

Фах вченого у сфері даних став популярним після того, як у виданні «Harvard Business Review» його назвали «найсексуальнішою роботою 21-го століття» («The Sexiest Job of the 21st Century»), а консалтингова компанія McKinsey & Company оцінила глобальний попит на нових вчених у сфері даних у 1,5 мільйона кадрів. Університети пропонують магістерські курси у сфері даних. Існують також інші програми для отримання сертифікату у сфері даних, такі як програми від General Assembly та The Data Incubator.

Історія[ред.ред. код]

Блок-схема процесу

Термін «наука про дані» (який спочатку використовувався поруч із терміном «даталогія») існує вже понад 30 років. Його вперше використав Пітер Наур у 1960 році як замінник терміна «комп'ютерні науки». У 1974 році Наур опублікував працю «Короткий огляд комп'ютерних методів», у якій вільно використовував цей термін в огляді сучасних методів опрацювання даних, які широко використовуються у низці прикладних застосувань. У 1996 році у місті Кобе відбулася конференція Міжнародної федерації класифікаційних товариств. Тоді вперше термін «наука про дані» з'явився в назві конференції («Наука про дані, класифікація та пов'язані методи»).

У листопаді 1997 року Ч.-Ф. Джефф Ву провів вступну лекцію під назвою «Статистика = Наука про дані?» («Statistics = Data Science?») у Мічиганському університеті. У цій лекції він охарактеризував статистичну роботу як тріаду, до якої входять збирання даних, моделювання даних та аналіз, а також прийняття рішення. Своїм висновком вчений започаткував сучасне використання терміна «наука про дані», який не є тотожним до терміна «комп'ютерні науки», а також виступив за перейменування статистики на науку про дані, а фах статистика - на вчений у сфері даних. Пізніше він представив свою лекцію під назвою «Статистика = Наука про дані?» («Statistics = Data Science?») як першу із серії лекцій пам'яті Махаланобіса, індійського науковця і статистика, засновника Індійського інституту статистики.

У 2001 році Вільям Клівленд у своїй статті «Наука про дані: план дій із розширення технічної сфери галузі статистики» («Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics»), представив науку про дані як незалежну дисципліну, розширивши сферу статистики «досягненнями у галузі обчислень із даними». У своїй праці Клівленд виокремив 6 технічних сфер, які, на його думку, охоплювали науку про дані: багатопрофільні дослідження, моделі та методи для даних, обчислення з даними, педагогіка, аналіз інструментів та теорія.

У квітні 2002 року Комітет з питань даних для науки і технології Міжнародної ради науки започаткував «Data Science Journal» - видання, присвячене таким питанням, як опис систем даних, їхня публікація в Інтернеті, прикладні застосування та правові питання. Невдовзі після цього, у січні 2003, Колумбійський університет започаткував видання «The Journal of Data Science», який став платформою для фахівців у сфері даних для висловлення своїх думок та обміну ідеями. Цей журнал робив великий акцент на застосуванні статистичних методів та кількісних дослідженнях. У 2005 році Національна наукова рада опублікувала «Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century», де до фахівців у сфері даних віднесено «вчених у галузі інформації та комп'ютерів, розробників баз даних та програмного забезпечення, галузевих експертів, кураторів та анотаторів, бібліотекарів, архівістів та інших людей, які мають вирішальне значення для успішного керування колекціями цифрових даних», основною діяльністю яких є «супровід творчих запитів та аналіз». У 2015 році започатковано видання «International Journal on Data Science and Analytics» (Springer) для публікації оригінальних праць у сфері науки про дані та великих даних. У 2013 році у Люксембурзі відбулася перша Європейська конференція із аналізу даних (European Conference on Data Analysis (ECDA)), а у серпні 2015 засновано Європейську асоціацію з питань науки про дані (European Association for Data Science (EuADS)).

Критика[ред.ред. код]

Програмне забезпечення[ред.ред. код]

За період 2010-2011 років програмне забезпечення науки про дані досягло тієї точки перегину, коли відкрите ПЗ почало витісняти пропрієтарне ПЗ. Використання відкритого ПЗ дозволяє змінювати та розширювати ПЗ, а також обмінюватися алгоритмами.

Посилання[ред.ред. код]