Apache Hadoop
| Розробник(и) | Apache Software Foundation |
|---|---|
| Стабільний випуск | 1.0 (29 грудня 2011) |
| Написано на | Java |
| Операційна система | крос-платформовий |
| Стан розробки | активний |
| Тип | розподілені обчислення |
| Ліцензія | Apache License 2.0 |
| Сайт | hadoop.apache.org |
Apache Hadoop — вільна програмна платформа і каркас для організації розподіленої обробки великих обсягів даних (що міряється у петабайтах) з використанням парадигми map/reduce, при якій завдання ділиться на безліч дрібніших відособлених фрагментів, кожен з яких може бути запущений на окремому вузлі кластера. До складу Hadoop входить також реалізація розподіленої файлової системи Hadoop Distributed Filesystem (HDFS), котра автоматично забезпечує резервування даних і оптимізована для роботи MapReduce-застосунків. Для спрощення доступу до даних в Hadoop сховище розроблена БД HBase і SQL-подібна мова Pig, який є свого роду SQL для MapReduce, запити якої можуть бути розпаралелені і оброблені кількома Hadoop-платформами.
Зміст |
Історія [ред.]
Розробка була ініційована на початку 2005 Дуґом Каттінгом (en:Doug Cutting) з метою побудови програмної інфраструктури розподілених обчислень для проекту Nutch — вільної програмної пошукової машини на Java, її ідейною основою стала публікація співробітників Google Джеффрі Діна і Санжая Гемавата[1] про обчислювальну концепцію MapReduce[2]. Новий проект був названий на честь іграшкового слоненяти дитини засновника проекту.
Протягом 2005-2006 років Hadoop розвивався зусиллями двох розробників — Каттінга і Майка Кафареллі (Mike Cafarella) в режимі часткової зайнятості[2], спочатку в рамках проекту Nutch, потім — проекту Lucene. У січні 2006 року корпорація Yahoo запросила Каттінга очолити спеціально виділену команду розробки інфраструктури розподілених обчислень, до цього ж моменту відноситься виділення Hadoop в окремий проект. У лютому 2008 року Yahoo запустила в продуктивну експлуатацію кластерну пошукову машину на 10 тисяч процесорних ядер, керовану засобами Hadoop.
У січні 2008 року Hadoop стає проектом верхнього рівня системи проектів Apache Software Foundation. У квітні 2008 року Hadoop побив світовий рекорд продуктивності в стандартизованому бенчмарку сортування даних — 1 Тбайт був оброблений за 309 сек на кластері з 910 вузлів. З цього моменту починається широке застосування Hadoop за межами Yahoo — технологію для своїх сайтів впроваджують Last.fm, Facebook, The New York Times, проводиться адаптація для запуску Hadoop у хмарах Amazon EC2.
У вересні 2009 року Каттинг переходить в каліфорнійський стартап Cloudera, який, завдяки такому переходу, коментатори характеризують як «нового прапороносця Hadoop», попри те, що основна частина проекту була створена все-таки співробітниками Facebook і Yahoo[3].
У квітні 2010 року корпорація Google надала Apache Software Foundation права на використання технології MapReduce, через три місяці після її захисту в патентному бюро США, тим самим позбавивши організацію від можливих патентних претензій[4].
Починаючи з 2010 року Hadoop неодноразово характеризується як ключова технологія «Великих Даних», прогнозується його широке розповсюдження для масово-паралельної обробки даних, і, разом з Cloudera, з'явилася серія технологічних стартапів, повністю орієнтованих на комерціалізацію Hadoop[5]. Протягом 2010 року декілька підпроектів Hadoop — Avro, HBase, Hive, Pig, Zookeeper — послідовно стали проектами верхнього рівня фонду Apache. У березні 2011 року Hadoop удостоєний щорічної інноваційної нагороди медіагрупи Guardian, на церемонії вручення технологія була названа «швейцарським армійським ножем XXI століття»[6].
Застосування [ред.]
Hadoop активно використовується у великих промислових проектах, надаючи можливості, аналогічні платформі Google Bigtable/GFS/MapReduce, при цьому компанія Google офіційно делегувала Hadoop та іншим проектам Apache право використання технологій, на які поширюються патенти, пов'язані з методом MapReduce. Одним з найбільших користувачів і розробників Hadoop є компанія Yahoo!, вона активно використовує цю систему в своїх пошукових кластерах (Hadoop-кластеру Yahoo, що складається з 40 тисяч вузлів, належить світовий рекорд швидкості сортування великого обсягу даних). Hadoop-кластер використовується в Facebook для обробки однієї з найбільших баз даних, в якій зберігається близько 30 петабайт інформації. Hadoop також лежить в основі платформи Oracle Big Data і активно адаптується компанією Microsoft для роботи з СУБД SQL Server, Windows Server і хмарній платформі Azure Cloud з метою створення нових продуктів для організації розподіленої обробки великих обсягів даних. Hadoop є одним з ключових ланок суперкомп'ютера IBM Watson, який виграв бій з кращими гравцями телевізійної гри-вікторини "Jeopardy!".
Виноски [ред.]
- ↑ Dean, Jeffrey and Ghemawat, Sanjay MapReduce: Simplified Data Processing on Large Clusters (англ.) // OSDI ’04: 6th Symposium on Operating Systems Design and Implementation. — USENIX, 2004. — С. 137-149. — doi:10.1145/1327452.1327492
- ↑ а б Cutting, Doug (2008-03-24). «Hadoop: a brief history» (англійською). Yahoo!. Процитовано 2011-12-25.
- ↑ Handy, Alex (2009-10-09). «Hadoop creator goes to Cloudera» (англійською). SD Times. Процитовано 2011-12-25. «I've said for a while now that Cloudera is the company with the Hadoop banner firmly in its grasp, despite the fact that Yahoo and Facebook both contribute mountains of code the project»
- ↑ Metz, Cade (2010-04-27). «Google blesses Hadoop with MapReduce patent license» (англійською). The Register. Процитовано 2011-12-30.
- ↑ Моррисон, Алан та інші (2010-12-17). «Великі Дані: як витягти з них інформацію». Технологический прогноз. Ежеквартальный журнал, российское издание, 2010 выпуск 3 (російською). PricewaterhouseCoopers. Процитовано 2011-11-12. «К началу 2010 года Hadoop, MapReduce и ассоциированные с ними технологии с открытым кодом стали движущей силой целого нового явления, которое O’Reilly Media, The Economist и другие издания окрестили большими данными»
- ↑ Winckler, Marie (2011-03-25). «Apache Hadoop takes top prize at Media Guardian Innovation Awards» (англійською). The Guardian. Процитовано 2011-12-25. «Described by the judging panel as a “Swiss army knife of the 21st century”, Apache Hadoop picked up the innovator of the year award for having the potential to change the face of media innovations»
Посилання [ред.]
- Official Hadoop Homepage
- Introducing Apache Hadoop: The Modern Data Operating System — lecture given at Stanford University by Co-Founder and CTO of Cloudera, Amr Awadallah (video archive)
- Релиз Apache Hadoop 1.0.0, платформы для распределённой обработки данных
|
||||||||||||||||||||
|
||||||||||||||||||||||||||||||
