Apache Hadoop

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук
Apache Hadoop
Hadoop logo
Розробник(и) Apache Software Foundation
Стабільний випуск 2.2 (15 жовтня 2013; 187 днів тому)
Написано на Java
Операційна система крос-платформовий
Стан розробки активний
Тип розподілені обчислення
Ліцензія Apache License 2.0
Сайт hadoop.apache.org

Apache Hadoopвільна програмна платформа і каркас для організації розподіленої обробки великих обсягів даних (що міряється у петабайтах) з використанням парадигми MapReduce, при якій завдання ділиться на безліч дрібніших відособлених фрагментів, кожен з яких може бути запущений на окремому вузлі кластера. До складу Hadoop входить також реалізація розподіленої файлової системи Hadoop Distributed Filesystem (HDFS), котра автоматично забезпечує резервування даних і оптимізована для роботи MapReduce-застосунків. Для спрощення доступу до даних в сховищі Hadoop розроблена БД HBase і SQL-подібна мова Pig, яка є свого роду SQL для MapReduce і запити якої можуть бути розпаралелені і оброблені кількома Hadoop-платформами.

Історія[ред.ред. код]

Розробка була ініційована на початку 2005 Дуґом Каттінгом (en:Doug Cutting) з метою побудови програмної інфраструктури розподілених обчислень для проекту Nutch — вільної програмної пошукової машини на Java, її ідейною основою стала публікація співробітників Google Джеффрі Діна і Санжая Гемавата[1] про обчислювальну концепцію MapReduce[2]. Новий проект був названий на честь іграшкового слоненяти дитини засновника проекту.

Протягом 2005-2006 років Hadoop розвивався зусиллями двох розробників — Каттінга і Майка Кафареллі (Mike Cafarella) в режимі часткової зайнятості[2], спочатку в рамках проекту Nutch, потім — проекту Lucene. У січні 2006 року корпорація Yahoo запросила Каттінга очолити спеціально виділену команду розробки інфраструктури розподілених обчислень, до цього ж моменту відноситься виділення Hadoop в окремий проект. У лютому 2008 року Yahoo запустила в продуктивну експлуатацію кластерну пошукову машину на 10 тисяч процесорних ядер, керовану засобами Hadoop.

У січні 2008 року Hadoop стає проектом верхнього рівня системи проектів Apache Software Foundation. У квітні 2008 року Hadoop побив світовий рекорд продуктивності в стандартизованому бенчмарку сортування даних — 1 Тбайт був оброблений за 309 сек на кластері з 910 вузлів. З цього моменту починається широке застосування Hadoop за межами Yahoo — технологію для своїх сайтів впроваджують Last.fm, Facebook, The New York Times, проводиться адаптація для запуску Hadoop у хмарах Amazon EC2.

У вересні 2009 року Каттинг переходить в каліфорнійський стартап Cloudera, який, завдяки такому переходу, коментатори характеризують як «нового прапороносця Hadoop», попри те, що основна частина проекту була створена все-таки співробітниками Facebook і Yahoo[3].

У квітні 2010 року корпорація Google надала Apache Software Foundation права на використання технології MapReduce, через три місяці після її захисту в патентному бюро США, тим самим позбавивши організацію від можливих патентних претензій[4].

Починаючи з 2010 року Hadoop неодноразово характеризується як ключова технологія «Великих Даних», прогнозується його широке розповсюдження для масово-паралельної обробки даних, і, разом з Cloudera, з'явилася серія технологічних стартапів, повністю орієнтованих на комерціалізацію Hadoop[5]. Протягом 2010 року декілька підпроектів Hadoop — Avro, HBase, Hive, Pig, Zookeeper — послідовно стали проектами верхнього рівня фонду Apache. У березні 2011 року Hadoop удостоєний щорічної інноваційної нагороди медіагрупи Guardian, на церемонії вручення технологія була названа «швейцарським армійським ножем XXI століття»[6].

Застосування[ред.ред. код]

Hadoop активно використовується у великих промислових проектах, надаючи можливості, аналогічні платформі Google Bigtable/GFS/MapReduce, при цьому компанія Google офіційно делегувала Hadoop та іншим проектам Apache право використання технологій, на які поширюються патенти, пов'язані з методом MapReduce. Одним з найбільших користувачів і розробників Hadoop є компанія Yahoo!, вона активно використовує цю систему в своїх пошукових кластерах (Hadoop-кластеру Yahoo, що складається з 40 тисяч вузлів, належить світовий рекорд швидкості сортування великого обсягу даних). Hadoop-кластер використовується в Facebook для обробки однієї з найбільших баз даних, в якій зберігається близько 30 петабайт інформації. Hadoop також лежить в основі платформи Oracle Big Data і активно адаптується компанією Microsoft для роботи з СУБД SQL Server, Windows Server і хмарній платформі Azure Cloud з метою створення нових продуктів для організації розподіленої обробки великих обсягів даних. Hadoop є одним з ключових ланок суперкомп'ютера IBM Watson, який виграв бій з найкращими гравцями телевізійної гри-вікторини "Jeopardy!".

Виноски[ред.ред. код]

  1. Dean, Jeffrey and Ghemawat, Sanjay MapReduce: Simplified Data Processing on Large Clusters (англ.) // OSDI ’04: 6th Symposium on Operating Systems Design and Implementation. — USENIX, 2004. — С. 137-149. — doi:10.1145/1327452.1327492
  2. а б Cutting, Doug (2008-03-24). «Hadoop: a brief history» (англійською). Yahoo!. Архів оригіналу за 2012-03-11. Процитовано 2011-12-25. 
  3. Handy, Alex (2009-10-09). «Hadoop creator goes to Cloudera» (англійською). SD Times. Архів оригіналу за 2012-03-11. Процитовано 2011-12-25. «I've said for a while now that Cloudera is the company with the Hadoop banner firmly in its grasp, despite the fact that Yahoo and Facebook both contribute mountains of code the project» 
  4. Metz, Cade (2010-04-27). «Google blesses Hadoop with MapReduce patent license» (англійською). The Register. Архів оригіналу за 2012-03-11. Процитовано 2011-12-30. 
  5. Моррисон, Алан та інші (2010-12-17). «Великі Дані: як витягти з них інформацію». Технологический прогноз. Ежеквартальный журнал, российское издание, 2010 выпуск 3 (російською). PricewaterhouseCoopers. Архів оригіналу за 2012-03-11. Процитовано 2011-11-12. «К началу 2010 года Hadoop, MapReduce и ассоциированные с ними технологии с открытым кодом стали движущей силой целого нового явления, которое O’Reilly Media, The Economist и другие издания окрестили большими данными» 
  6. Winckler, Marie (2011-03-25). «Apache Hadoop takes top prize at Media Guardian Innovation Awards» (англійською). The Guardian. Архів оригіналу за 2012-03-11. Процитовано 2011-12-25. «Described by the judging panel as a “Swiss army knife of the 21st century”, Apache Hadoop picked up the innovator of the year award for having the potential to change the face of media innovations» 

Посилання[ред.ред. код]