Impulsando una revolución: nuestros servidores alcanzaron el primer estándar de comparación

Apache de Spark está revolucionando la gran industria de datos debido a las ventajas de rendimiento y a la inclusión del soporte estándar de SQL en Hadoop.

Pero todos los datos no son iguales -- y obtener información de una manera sensible a la latencia a veces puede significar millones de dólares -- o vidas. Por ejemplo: la detección de fraude en tiempo real en la industria de servicios financieros puede significar grandes sumas de dinero. Del mismo modo, para la industria del cuidado de la salud, la detección de paros cardíacos antes de que sucedan podría salvar una cantidad significativa de vidas.

La tecnología disruptiva con este nivel de beneficio potencial merece ser puesta a prueba. Para ello, IBM, Lenovo, Intel y Mellanox unieron sus fuerzas para abordar esta necesidad y servir como la primera solución de referencia de la industria para el despliegue de Spark tanto en escala como en capacidad El objetivo de este proyecto no fue sólo resaltar el rendimiento de la solución de clúster de Spark con excelentes beneficios de escalabilidad, sino también proporcionar bloques de construcción de infraestructura para la implementación de Spark con técnicas de solución de problemas y optimización.

Los componentes de arquitectura de esta pila de soluciones en particular son una configuración equilibrada de computación de alto rendimiento, almacenamiento y componentes de red. Para el elemento de cómputos, se selecciona el servidor X3650 M5 de Lenovo para los trabajos del procesador de datos Spark y el servidor X3550 de Lenovo para la función maestra de Spark. Cada uno de los servidores x3650 M5 está configurado con procesador E5-2697 V4 de Intel de alto rendimiento y cargado con 1,5TB de memoria. Si bien Apache de Spark es un motor de procesamiento rápido de datos en memoria que va más allá de la huella de memoria, nosotros queríamos un almacenamiento más cercano al rendimiento de la memoria; por esta razón elegimos NVMe de Intel para SSD el cual proporciona hasta 450K operaciones de IO por segundo a latencia mínima. La conexión en red es importante cuando se considera el rendimiento a escala: para ello, se seleccionó la tarjeta de interfaz de red Mellanox de 100G.

Se eligió el estándar de comparación Hadoop-DS (derivado de TPC-DS) el cual requiere muchas de las características del SQL 2003; Spark 2.0 es compatible con ellas. El SQL de Spark ha sido una de las principales aplicaciones de Spark para las interfaces utilizadas; estas capacidades ampliadas de SQL reducen drásticamente el esfuerzo necesario para transferir aplicaciones heredadas hacia Spark.

La solución total dio como resultado 30 servidores 3650 M5 alineados en 2 racks, con un interruptor Mellanox de 100G gestionando el flujo del tráfico de datos entre estos servidores. Para el OS, HDFS de Red Hat y Hadoop sirvieron para el almacenamiento de datos distribuidos y Spark 2.0 para el procesamiento de datos.

Los bloques de construcción de infraestructura, pila de software y Hadoop-DS se ilustran a continuación:

EL PRIMER ESTÁNDAR DE COMPARACIÓN DE LA INDUSTRIA SPARK SQL DE 100TB

Para obtener más información sobre SQL a escala de Spark, los resultados del estándar de comparación, los beneficios de escalabilidad, y las técnicas de optimización aquí hay dos sesiones de la conferencia a tener en cuenta:

  • Experiencias de SQL 2.0/2.1 de Spark utilizando TPC-DS de Berni Schiefer. Reunión Cumbre de Spark en Europa el 27 de octubre 5.15 – 5-45 PM
  • Optimización de Hadoop y Spark para mejorar el rendimiento del clúster por Stewart Tate, IBM Corp, Conferencia Mundial World of Watson. ((Completada este lunes pasado)).