Великі дані

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук
Зразок Big data — дані про щоденні зміни, що користувачі вносять у статті на вікіпедії

Вели́кі да́ні (англ. Big Data) в інформаційних технологіях — набори інформації (як структурованої, так і неструктурованої) настільки великих розмірів, що традиційні способи та підходи (здебільшого засновані на рішеннях класу бізнесової аналітики та системах управління базами даних) не можуть бути застосовані до них[1]. Альтернативне визначення називає великими даними феноменальне прискорення нагромадження даних та їх ускладнення[1]. Важливо також відзначити те, що часто під цим поняттям у різних контекстах можуть мати на увазі як дані великого об'єму, так і набір інструментів та методів (наприклад, засоби масово-паралельної обробки даних системами категорії NoSQL, алгоритмами MapReduce, чи програмними каркасами проекту Hadoop).

Мета та переваги[ред.ред. код]

Кінцевою метою цієї обробки є отримання результатів, які легко сприймаються людиною та є ефективними в умовах безперервного росту й розподілення інформації по численних вузлах обчислювальної мережі.

Для характеристики великих даних використовують «три v»: їх обсяг (англ. volume), швидкість накопичення нових даних та їх обробки (англ. velocity) та різноманіття типів даних, які можуть оброблятися (англ. variety)[1].

До основних переваг використання технології можна віднести:

Критика великих даних пов'язана з тим, що їх зберігання не завжди приводить до отримання вигоди, а швидкість оновлення даних і «актуальний» часовий інтервал не завжди розумно порівнянні[Джерело?].

Історія[ред.ред. код]

Сама по собі концепція «великих даних» не нова, вона виникла в часи мейнфреймів та пов'язаних з ними наукових комп'ютерних обчислень, оскільки наукомісткі обчислення завжди відрізнялися складністю і зазвичай нерозривно пов'язані з необхідністю обробки великих обсягів інформації[Джерело?].

Авторство терміна «великі дані» належить Кліффорду Лінчу[en], редакторові журналу Nature, який зібрав матеріали про явище вибухового зростання обсягу та різноманітності даних та підготував у вересні 2008 року спеціальний випуск журналу, де відобразив феномен великих даних; термін був запропонований за аналогією з подібними в діловому англомовному середовищі метафорами «велика нафта» чи «велика руда»[2].

Великий галас навколо цієї теми виник після того, як в червні 2011 року консалтингова компанія McKinsey випустила доповідь «Великі дані: наступний рубіж в інноваціях, конкуренції та продуктивності», в якому оцінила потенційний ринок великих даних в мільярди доларів[1]. В тому ж році аналітична компанія Gartner відзначає великі дані як тренд номер два в інформаційно-технологічній інфраструктурі, поступаючись лише віртуалізації[3].

У 2012 році адміністрація президента США виділила 200 мільйонів доларів для того, щоб різні американські відомства організовували конкурси з впровадження технологій великих даних в життя. Якщо в 2009 році американські венчурні фонди вклали в галузь всього 1,1 мільярда доларів, то в 2012 — вже 4,5 мільярда доларів[1].

В 2015 році аналітична компанія Gartner вилучила великі дані зі своєї діаграми Gartner Hype Cycle, пояснивши це рішення тим, що ці технології перестали бути «hype» і стали нормою для корпоративного ІТ: «сьогодні всі дані — великі»[4].

У 2017 році в Україні з'явиться онлайн-курс з великих даних на платформі Prometheus[5].

Приклади застосування[ред.ред. код]

Серед відомих випадків застосування великих даних можна назвати перемогу Барака Обами на президентських виборах 2012 року. Аналітики виборчого штабу Обами активно використовували big data для аналізу настроїв виборців та коригування програми кандидата. Великі дані також є одним з ключових інструментів роботи Агентства національної безпеки США — у дата-центрі, що знаходиться у штаті Юта аналізуються дані, які АНБ збирає про користувачів в інтернеті[5].

Планування міст[ред.ред. код]

Nuvola apps kaboodle.svg Зовнішні відеофайли
Nuvola apps kaboodle.svg TEDxKyiv: Кіборги, що будують сучасне місто

Cоціальні мережі та геолокаційні сервіси представляють величезні обсяги інформації, аналіз якої є дуже важливим для прикладних задач містобудування, таких як проектування транспорту, аналіз суспільної думки, виявлення та координація надзвичайних ситуацій тощо[6].

Медицина[ред.ред. код]

У Великобританії методи big data прийняті на озброєння Міністерством охорони здоров'я[en]. Аналізуючи інформацію про те, які рецепти виписують медики, аналітики міністерства намагаються оцінювати потреби британців в ліках та оптимізувати доставки препаратів в різні частини країни[5].

Технології[ред.ред. код]

NoSQL[ред.ред. код]

Докладніше: NoSQL

Серед NoSQL-рішень, що застосовуються, виділяються: MongoDB — крос-платформова документо-орієнтована система керування базами даних з підтримкою JSON та динамічних схем, Apache Cassandra — маштабована база даних, орієнтована на стійкість до відмов та HBase[en] — маштабована розподілена база даних з підтримкою структурованого зберігання даних великого обсягу та ін.

MapReduce[ред.ред. код]

Докладніше: MapReduce

Hadoop[ред.ред. код]

Докладніше: Apache Hadoop

Серед програмного забезепечення, що пов'язано з Hadoop, виділяють: Apache Ambari[en] — інструмент для управління та моніторингу Hadoop кластерів, Apache Avro[en] — система серіалізації даних, Apache Hive[en] — інфраструктура сховища даних, яка забезпечує агрегацію даних, Apache Pig[en] — високорівнева мова потоків даних і програмний каркас для паралельних обчислень, Apache Spark — високопродуктивний рушій для обробки даних, що зберігаються в кластері Hadoop та ін.

R[ред.ред. код]

Див. також[ред.ред. код]

Примітки[ред.ред. код]

  1. а б в г д Великі перспективи індустрії Big Data. Український суперкомп'ютерний інтернет-дайджест. 19 лютого 2013. Процитовано 23 жовтня 2016. 
  2. Clifford Lynch (2008). Big data: How do your data grow?. Nature 455 (7209). doi:10.1038/455028a. 
  3. Gartner's Top 10 IT challenges include exiting baby boomers, Big Data. Computerworld (eng). 18 October 2011. Процитовано 23 жовтня 2016. 
  4. Шельпук, Євген (18 лютого 2016). Маленька історія великих даних. The Ukrainians. Процитовано 23 жовтня 2016. 
  5. а б в Золотніков, Ярослав; Бондарев, Олексій (6 сiчня 2016). Друга нафта. В Україні з'явиться онлайн-курс з Big data - найбільш затребуваної в світі IT-професії. Новое Время. Процитовано 23 жовтня 2016. 
  6. Бродецький, Андрій (31 жовтня 2013). Як Foursquare допомагає планувати міста. КПІшник. Процитовано 24 жовтня 2016. 

Посилання[ред.ред. код]