Apache Spark

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук
Spark
Spark Logo
Розробник(и) Apache Software Foundation, UC Berkeley
Стабільний випуск 1.6.1 (9 березня 2016; 141 день тому)
Написано на Scala, Java, Python, R
Операційна система Linux, MAC OS, Windows
Стан розробки активний
Тип аналіз даних, алгоритми машинного навчання
Ліцензія Apache License 2.0
Веб-сайт spark.apache.org

Apache Spark — високопродуктивний рушій для оброблення даних, що зберігаються в кластері Hadoop. У порівнянні з наданим у Hadoop механізмом MapReduce, Spark забезпечує у 100 разів більшу продуктивність при обробленні даних в пам'яті й 10 разів при розміщенні даних на дисках.[1] Рушій може виконуватися на вузлах кластера Hadoop як за допомогою Hadoop YARN, так і у відокремленому режимі. Підтримується оброблення даних у сховищах HDFS, HBase, Cassandra, Hive та будь-якому форматі введення Hadoop (InputFormat).

Spark може використовуватися як у типових сценаріях оброблення даних, схожих на MapReduce, так і для реалізації специфічних методів, таких як потокове оброблення, SQL, інтерактивні та аналітичні запити, рішення задач машинного навчання і робота з графами. Програми для оброблення даних можуть створюватися на мовах Scala, Java, Python та R.

Spark після перебування в інкубаторі став первинним проектом Apache Software Foundation від лютого 2014.

З компаній, котрі використовують Spark, відзначаються Alibaba, Cloudera, Databricks, IBM, Intel, Yahoo, Cisco Systems.

У жовтні 2014 року Apache Spark встановив світовий рекорд при сортуванні 100 терабайт даних.[2]

Згідно опитування O'Reilly у 2015 році 17% дослідників даних використовують Apache Spark.[3]

Виноски[ред.ред. код]

Посилання[ред.ред. код]