Apache Spark

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук
Spark
Spark Logo
Розробник(и) Apache Software Foundation, UC Berkeley
Стабільний випуск 1.1 (11 вересня 2014; 40 днів тому)
Написано на Scala, Java, Python
Операційна система Linux, MAC OS, Windows
Стан розробки активний
Тип аналіз даних, алгоритми машинного навчання
Ліцензія Apache License 2.0
Сайт spark.apache.org

Apache Spark — високопродуктивний рушій для обробки даних, що зберігаються в кластері Hadoop. У порівнянні з наданим в Hadoop механізмом MapReduce, Spark забезпечує в 100 разів більшу продуктивність при обробці даних у пам'яті і 10 разів при розміщенні даних на дисках.[1] Рушій може виконуватися на вузлах кластера Hadoop як за допомогою Hadoop YARN, так і у відокремленому режимі. Підтримується обробка даних у сховищах HDFS, HBase, Cassandra, Hive і будь-якому форматі введення Hadoop (InputFormat).

Spark може використовуватися як в типових сценаріях обробки даних, схожих на MapReduce, так і для реалізації специфічних методів, таких як потокова обробка, SQL, інтерактивні та аналітичні запити, рішення задач машинного навчання і робота з графами. Програми для обробки даних можуть створюватися на мовах Scala, Java і Python.

Spark після перебування в інкубаторі став первинним проектом Apache Software Foundation від лютого 2014.

З компаній, котрі використовують Spark, відзначаються Alibaba, Cloudera, Databricks, IBM, Intel і Yahoo.

Виноски[ред.ред. код]

Посилання[ред.ред. код]