Apache Spark in 100 Sekunden

Apache Spark ist eine Open-Source-Datenanalyse-Engine, die riesige Datenströme aus verschiedenen Quellen verarbeiten kann. Sie wurde 2009 von Mate Zaharia am UC Berkeley's AMP Lab entwickelt. Spark löst das Problem der Datenanalyse, indem es die meisten seiner Arbeiten im Speicher anstatt von der Festplatte ausführt, was bis zu 100 Mal schneller sein kann. Es wird von Amazon zur Analyse von E-Commerce-Daten, vom NASA Jet Propulsion Lab zur Analyse des Weltraums und von 80% der Fortune 500 Unternehmen zur Datenverarbeitung verwendet. Trotz seines Rufs für verteilte Big-Data-Verarbeitung kann man Apache Spark problemlos lokal auf dem eigenen Rechner ausführen. Es ist in Java geschrieben und läuft auf der JVM, aber seine APIs können mit Wrappern für Python, SQL und viele andere Sprachen verwendet werden. Spark hat auch ein Geheimwerkzeug namens MLlib für maschinelles Lernen. Mit Brilliant, dem Sponsor dieses Videos, kann man die Grundlagen des Programmierens lernen und komplexe Probleme lösen, die Entwickler täglich bewältigen müssen.

via Apache Spark in 100 Seconds