Великі дані

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
Зразок Big data — дані про щоденні зміни, що користувачі вносять у статті на вікіпедії

Вели́кі да́ні (англ. Big Data) в інформаційних технологіях — набори інформації (як структурованої, так і неструктурованої) настільки великих розмірів, що традиційні способи та підходи (здебільшого засновані на рішеннях класу бізнесової аналітики та системах управління базами даних) не можуть бути застосовані до них[1]. Альтернативне визначення називає великими даними феноменальне прискорення нагромадження даних та їх ускладнення[1]. Важливо також відзначити те, що часто під цим поняттям у різних контекстах можуть мати на увазі як дані великого об'єму, так і набір інструментів та методів (наприклад, засоби масово-паралельної обробки даних системами категорії NoSQL, алгоритмами MapReduce, чи програмними каркасами проекту Hadoop).

Мета та переваги[ред. | ред. код]

Кінцевою метою цієї обробки є отримання результатів, які легко сприймаються людиною та є ефективними в умовах безперервного росту й розподілення інформації по численних вузлах обчислювальної мережі.

Для характеристики великих даних використовують «три V»: їх обсяг (англ. volume), швидкість накопичення нових даних та їх обробки (англ. velocity) та різноманіття типів даних, які можуть оброблятися (англ. variety)[1].

До основних переваг використання технології можна віднести:

Критика великих даних пов'язана з тим, що їх зберігання не завжди приводить до отримання вигоди, а швидкість оновлення даних і «актуальний» часовий інтервал не завжди розумно порівнянні[джерело?].

Історія[ред. | ред. код]

Сама по собі концепція «великих даних» не нова, вона виникла в часи мейнфреймів та пов'язаних з ними наукових комп'ютерних обчислень, оскільки наукомісткі обчислення завжди відрізнялися складністю і зазвичай нерозривно пов'язані з необхідністю обробки великих обсягів інформації[джерело?].

Авторство терміна «великі дані» належить Кліффорду Лінчу[en], редакторові журналу Nature, який зібрав матеріали про явище вибухового зростання обсягу та різноманітності даних та підготував у вересні 2008 року спеціальний випуск журналу, де показав феномен великих даних; термін був запропонований за аналогією з подібними в діловому англомовному середовищі метафорами «велика нафта» чи «велика руда»[2].

Великий галас навколо цієї теми виник після того, як в червні 2011 року консалтингова компанія McKinsey випустила доповідь «Великі дані: наступний рубіж в інноваціях, конкуренції та продуктивності», в якому оцінила потенційний ринок великих даних в мільярди доларів[1]. В тому ж році аналітична компанія Gartner відзначає великі дані як тренд номер два в інформаційно-технологічній інфраструктурі, поступаючись лише віртуалізації[3].

У 2012 році адміністрація президента США виділила 200 мільйонів доларів для того, щоб різні американські відомства організовували конкурси з впровадження технологій великих даних в життя. Якщо в 2009 році американські венчурні фонди вклали в галузь всього 1,1 мільярда доларів, то в 2012 — вже 4,5 мільярда доларів[1].

У 2015 році аналітична компанія Gartner вилучила великі дані зі своєї діаграми Gartner Hype Cycle, пояснивши це рішення тим, що ці технології перестали бути «hype» і стали нормою для корпоративного ІТ: «сьогодні всі дані — великі»[4].

Планувалось, що у 2017 році в Україні з'явиться онлайн-курс з великих даних на платформі Prometheus[5], проте станом на червень 2020 року курс ще не стартував[6].

Приклади застосування[ред. | ред. код]

Серед відомих випадків застосування великих даних можна назвати перемогу Барака Обами на президентських виборах 2012 року. Аналітики виборчого штабу Обами активно використовували big data для аналізу настроїв виборців та коригування програми кандидата. Великі дані також є одним з ключових інструментів роботи Агентства національної безпеки США — у дата-центрі, що знаходиться у штаті Юта аналізуються дані, які АНБ збирає про користувачів в інтернеті[5].

Планування міст[ред. | ред. код]

Nuvola apps kaboodle.svg Зовнішні відеофайли
Nuvola apps kaboodle.svg TEDxKyiv: Кіборги, що будують сучасне місто на YouTube

Соціальні мережі та геолокаційні сервіси представляють величезні обсяги інформації, аналіз якої є дуже важливим для прикладних задач містобудування, таких як проектування транспорту, аналіз суспільної думки, виявлення та координація надзвичайних ситуацій тощо[7].

Медицина[ред. | ред. код]

Медичні big data допомагають запобігти розвитку хвороби на ранній стадії завдяки аналізу серцево-судинного тиску, пульсу, дихання та рівня цукру в крові[8].

У Великій Британії методи big data прийняті на озброєння Міністерством охорони здоров'я[en]. Аналізуючи інформацію про те, які рецепти виписують медики, аналітики міністерства намагаються оцінювати потреби британців в ліках та оптимізувати доставки препаратів в різні частини країни[5].

У 2013 році завдяки електронній медкартці, де зберігалась уся інформація про пацієнта, вчені знайшли залежність між мозковою деградацією та цукровим діабетом[8].

Засоби масової інформації[ред. | ред. код]

Щоб зрозуміти, як медіа використовують великі дані, спочатку необхідно надати певний контекст механізму, який використовується для медіапроцесу. Нік Кулдрі та Джозеф Туроу припустили, що медіа та рекламники підходять до великих даних як до багатьох корисних точок інформації про мільйони людей. Схоже, галузь відходить від традиційного підходу до використання певних медіа-середовищ, таких як газети, журнали чи телевізійні шоу, і натомість залучає споживачів за допомогою технологій, які досягають цільових людей у оптимальний час і в оптимальних місцях. Кінцева мета полягає в тому, щоб подати або передати повідомлення або вміст, який (з точки зору статистики) відповідає мисленню споживача. Наприклад, видавничі середовища дедалі більше адаптують повідомлення (рекламу) і контент (статті), щоб вони звернулися до споживачів, які були виключно зібрані за допомогою різноманітних дій з аналізу даних.[9]

  • Орієнтація на споживачів (для реклами маркетологами)
  • Збір даних
  • Журналістика даних: видавці та журналісти використовують інструменти великих даних, щоб надати унікальну та інноваційну інформацію та інфографіку.

Технології[ред. | ред. код]

NoSQL[ред. | ред. код]

Докладніше: NoSQL

Серед NoSQL-рішень, що застосовуються, виділяються: MongoDB — крос-платформова документо-орієнтована система керування базами даних з підтримкою JSON та динамічних схем, Apache Cassandra — масштабована база даних, орієнтована на стійкість до відмов та HBase[en] — масштабована розподілена база даних з підтримкою структурованого зберігання даних великого обсягу та ін.

MapReduce[ред. | ред. код]

Докладніше: MapReduce

Hadoop[ред. | ред. код]

Докладніше: Apache Hadoop

Серед програмного забезпечення, що пов'язано з Hadoop, виділяють: Apache Ambari[en] — інструмент для управління та моніторингу Hadoop кластерів, Apache Avro[en] — система серіалізації даних, Apache Hive[en] — інфраструктура сховища даних, яка забезпечує агрегацію даних, Apache Pig[en] — високорівнева мова потоків даних і програмний каркас для паралельних обчислень, Apache Spark — високопродуктивний рушій для обробки даних, що зберігаються в кластері Hadoop та ін.

R[ред. | ред. код]

Віртуалізація великих даних[ред. | ред. код]

Віртуалізація великих даних — це спосіб збирання інформації з кількох джерел в одному шарі. Зібраний шар даних є віртуальним: на відміну від інших методів, більшість даних залишаються на місці та беруться за потреби безпосередньо з вихідних систем[10].

Методи і техніка аналізу великих даних[ред. | ред. код]

Міжнародна консалтингова компанія McKinsey, що спеціалізується на розв'язанні задач, пов'язаних зі стратегічним управлінням, виділяє 11 методів і технік аналізу, що застосовуються до великих даних.

Методи классу Data Mining[ред. | ред. код]

Докладніше: Добування даних

Сукупність методів виявлення у даних раніше невідомих, нетривіальних, практично корисних знань, необхідних для прийняття рішень. До таких методів, зокрема, належать: навчання асоціативним правилам (association rule learning), класифікація (розгалуження на категорії), кластерний аналіз, регресійний аналіз, виявлення і аналіз відхилень тощо.

Краудсорсинг[ред. | ред. код]

Докладніше: Краудсорсинг

Класифікація і збагачення даних силами широкого, неозначеного кола особистостей, що виконують цю роботу без вступу у трудові стосунки.

Змішання та інтеграція даних[ред. | ред. код]

Докладніше: Змішання та інтеграція даних

Набір технік, що дозволяють інтегрувати різнорідні дані з розмаїття джерел з метою проведення глибинного аналізу (наприклад, цифрова обробка сигналів, обробка природньої мови, включно з тональним аналізом).

Машинне навчання[ред. | ред. код]

Докладніше: Машинне навчання

Включаючи навчання з учителем і без учителя — використання моделей, побудованих на базі статистичного аналізу чи машинного навчання для отримання комплексних прогнозів на основі базових моделей.

Штучні нейронні мережі[ред. | ред. код]

Докладніше: Штучна нейронна мережа

Мережевий аналіз, оптимізація, у тому числі генетичні алгоритми (genetic algorithm — евристичні алгоритми пошуку, що використовуються для розв'язання задач оптимізації і моделювання шляхом випадкового підбору, комбінування і варіації потрібних параметрів з використанням механізмів, аналогічних натуральному відбору у природі).

Імітаційне моделювання[ред. | ред. код]

Докладніше: Імітаційне моделювання

Метод, що дозволяє будувати моделі, що описують процеси так, як вони би проходили у дійсності. Імітаційне моделювання можна розглядати як різновид експериментальних випробувань.

Просторовий аналіз[ред. | ред. код]

Докладніше: Просторовий аналіз

Клас методів, що використовують топологічну, геометричну і географічну інформацію, що вилучається із даних.

Статистичний аналіз[ред. | ред. код]

Докладніше: Статистичний аналіз

Аналіз часових рядів, A/B-тестування A/B testing, split testing — метод маркетингового дослідження; при його використанні контрольна група елементів порівнюється із набором тестових груп, у яких один чи кілька показників були змінені, щоб з'ясувати, які зі змін покращують цільовий показник.

Візуалізація аналітичних даних[ред. | ред. код]

Докладніше: Аналітичних даних

Подання інформації у вигляді малюнків, діаграм, з використанням інтерактивних можливостей і анімації, як для отримання результатів, так і для використання у якості вихідних даних для подальшого аналізу. Дуже важливий етап аналізу великих даних, що дозволяє показати найважливіші результати аналізу у найбільш зручному для сприйняття вигляді.

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

  1. а б в г д Великі перспективи індустрії Big Data. Український суперкомп'ютерний інтернет-дайджест. 19 лютого 2013. Архів оригіналу за 24 жовтня 2016. Процитовано 23 жовтня 2016. 
  2. Clifford Lynch (2008). Big data: How do your data grow?. Nature 455 (7209). doi:10.1038/455028a. Архів оригіналу за 5 вересня 2011. Процитовано 23 жовтня 2016. 
  3. Gartner's Top 10 IT challenges include exiting baby boomers, Big Data. Computerworld (eng). 18 жовтня 2011. Архів оригіналу за 24 жовтня 2016. Процитовано 23 жовтня 2016. 
  4. Шельпук, Євген (18 лютого 2016). Маленька історія великих даних. The Ukrainians. Архів оригіналу за 19 жовтня 2016. Процитовано 23 жовтня 2016. 
  5. а б в Золотніков, Ярослав; Бондарев, Олексій (6 сiчня 2016). Друга нафта. В Україні з'явиться онлайн-курс з Big data - найбільш затребуваної в світі IT-професії. Новое Время. Архів оригіналу за 24 жовтня 2016. Процитовано 23 жовтня 2016. 
  6. Обробка та аналіз великих даних. Prometheus. Архів оригіналу за 17 грудня 2018. Процитовано 17 грудня 2018. 
  7. Бродецький, Андрій (31 жовтня 2013). Як Foursquare допомагає планувати міста. КПІшник. Архів оригіналу за 13 червня 2016. Процитовано 24 жовтня 2016. 
  8. а б Сабініч Андрій (7 листопада 2018). Як Big Data допомагають сучасній медицині?. Tokar.ua. Архів оригіналу за 16 листопада 2018. Процитовано 16 листопада 2018. 
  9. Turow, Joseph; Couldry, Nick (1 квітня 2018). Media as Data Extraction: Towards a New Map of a Transformed Communications Field. Journal of Communication 68 (2). с. 415–423. ISSN 0021-9916. doi:10.1093/joc/jqx011. Процитовано 25 жовтня 2022. 
  10. What Is Data Virtualization?. www.datawerks.com (амер.). Архів оригіналу за 10 квітня 2018. Процитовано 14 травня 2018.  (англ.)

Посилання[ред. | ред. код]