Apache Spark

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук
Spark
Spark Logo
Розробник(и) Apache Software Foundation, UC Berkeley
Стабільний випуск 1.0 (30 травня 2014; 112 днів тому)
Написано на Scala, Java, Python
Операційна система Linux, MAC OS, Windows
Стан розробки активний
Тип аналіз даних, алгоритми машинного навчання
Ліцензія Apache License 2.0
Сайт spark.apache.org

Apache Spark — високопродуктивний рушій для обробки даних, що зберігаються в кластері Hadoop. У порівнянні з наданим в Hadoop механізмом MapReduce, Spark забезпечує в 100 разів більшу продуктивність при обробці даних у пам'яті і 10 разів при розміщенні даних на дисках.[1] Рушій може виконуватися на вузлах кластера Hadoop як за допомогою Hadoop YARN, так і у відокремленому режимі. Підтримується обробка даних у сховищах HDFS, HBase, Cassandra, Hive і будь-якому форматі введення Hadoop (InputFormat).

Spark може використовуватися як в типових сценаріях обробки даних, схожих на MapReduce, так і для реалізації специфічних методів, таких як потокова обробка, SQL, інтерактивні та аналітичні запити, рішення задач машинного навчання і робота з графами. Програми для обробки даних можуть створюватися на мовах Scala, Java і Python.

Spark після перебування в інкубаторі став первинним проектом Apache Software Foundation від лютого 2014.

З компаній, котрі використовують Spark, відзначаються Alibaba, Cloudera, Databricks, IBM, Intel і Yahoo.

Виноски[ред.ред. код]

Посилання[ред.ред. код]