NVIDIA presenta la plataforma de aceleración por GPU y código abierto RAPIDS para el aprendizaje de máquinas y el análisis de datos a gran escala

HPE, IBM, Oracle, la comunidad de código abierto y las empresas emergentes aprovechan RAPIDS para lograr un enorme impulso en el análisis de datos predictivo e integral

NVIDIA presentó una plataforma de aceleración por GPU para la ciencia de datos y el aprendizaje de máquinas, de amplia adopción entre los líderes de la industria, que permite incluso a las empresas más grandes analizar enormes cantidades de datos y realizar predicciones comerciales precisas a una velocidad sin precedentes.

El software de código abierto RAPIDS™ les brinda a los científicos de datos un enorme salto de rendimiento para resolver los desafíos comerciales más complejos, como predecir fraudes con tarjetas de créditos, pronosticar inventarios de venta minorista y comprender el comportamiento de compra de los clientes. Cada vez más empresas reconocen la importancia de las GPU para el análisis de datos. Es por eso por lo que muchas de ellas utilizan RAPIDS, desde pioneros en la comunidad de código abierto (como Databricks y Anaconda) hasta líderes tecnológicos como Hewlett Packard Enterprise, IBM y Oracle.

Los analistas estiman que el mercado de servidores para la ciencia de datos y el aprendizaje de máquinas tiene un valor de 20.000 millones de dólares al año, que (junto con el análisis científico y el aprendizaje profundo) aumenta el valor del mercado de la computación de alto rendimiento hasta alcanzar los 36.000 millones de dólares.

“El análisis de datos y el aprendizaje de máquinas eran los segmentos más importantes del mercado de la computación de alto rendimiento que no se habían acelerado… Hasta ahora”, dijo Jensen Huang, fundador y CEO de NVIDIA, quien presentó RAPIDS en su discurso en el evento de GPU Technology Conference. Las industrias más grandes del mundo ejecutan algoritmos escritos por el aprendizaje de máquinas en un mar de servidores para detectar patrones complejos en su mercado y entorno, a fin de realizar predicciones rápidas y precisas que afectan directamente la rentabilidad.

“Utilizamos CUDA y su ecosistema global, y trabajamos estrechamente con la comunidad de código abierto para crear la plataforma de aceleración por GPU RAPIDS. Se integra a la perfección con las bibliotecas y flujos de trabajo más populares de la ciencia de datos para acelerar el aprendizaje de máquinas. Le dimos un fantástico impulso al aprendizaje de máquinas, como hicimos con el aprendizaje profundo”, dijo.

RAPIDS ofrece un conjunto de bibliotecas de código abierto para el análisis, el aprendizaje de máquinas y, próximamente, la visualización de datos, acelerados por GPU. Los ingenieros de NVIDIA trabajaron durante los últimos dos años en su desarrollo, en estrecha colaboración con los contribuidores de código abierto.

Por primera vez, los científicos de datos cuentan con las herramientas necesarias para ejecutar todo el proceso de ciencia de datos en GPU. Las primeras pruebas de RAPIDS, usando el algoritmo de aprendizaje de máquinas XGBoost para la capacitación en un sistema NVIDIA DGX-2™, muestran una aceleración de 50 veces, en comparación con los sistemas solo de CPU. Esto les permite a los científicos de datos reducir los tiempos de capacitación típicos de días a horas, o de horas a minutos, según el tamaño del conjunto de datos.

Colaboración cercana con la comunidad de código abierto

RAPIDS se basa en proyectos de código abierto conocidos, como Apache Arrow, pandas y scikit-learn, para agregar la aceleración por GPU al conjunto de herramientas vinculadas de Python para la ciencia de datos más popular. Para sumar más capacidades y bibliotecas de aprendizaje de máquinas a RAPIDS, NVIDIA trabaja junto con colaboradores del ecosistema de código abierto como Anaconda, BlazingDB, Databricks, Quansight y scikit-learn, así como Wes McKinney, director de Ursa Labs y creador de Apache Arrow y pandas, la biblioteca de ciencia de datos de Python de mayor crecimiento.

“La plataforma para la ciencia de datos acelerada por GPU RAPIDS es el ecosistema de computación de próxima generación con la tecnología de Apache Arrow”, dijo McKinney. “La colaboración de NVIDIA con Ursa Labs acelerará el ritmo de innovación en las bibliotecas Arrow esenciales y permiten aumentar enormemente el rendimiento de las cargas de trabajo de análisis e ingeniería de funciones”.

Para facilitar la adopción, NVIDIA integra RAPIDS en Apache Spark, el marco de trabajo de código abierto más importante para la el análisis y la ciencia de datos.

“En Databricks, estamos muy entusiasmados por el potencial de RAPIDS para acelerar las cargas de trabajo de Apache Spark”, dijo Matei Zaharia, cofundador y líder de tecnología de Databricks, y fundador de Apache Spark. “Varios proyectos actuales planean integrar Spark mejor con los aceleradores nativos, lo que incluye la compatibilidad con Apache Arrow y la programación de GPU con Project Hydrogen. Creemos que RAPIDS es una oportunidad nueva y emocionante para escalar las cargas de trabajo de IA y ciencia de datos de nuestros clientes”.

 Amplia adopción y compatibilidad del ecosistema

Las empresas líderes de tecnología en diferentes industrias ya adoptaron RAPIDS, la plataforma de aceleración por GPU de NVIDIA.

“La plataforma de aceleración por GPU de NVIDIA con el software RAPIDS ha mejorado enormemente la forma en que usamos los datos. Esto nos permite ejecutar los modelos más complejos a escala y lograr pronósticos aún más precisos”, dijo Jeremy King, vicepresidente ejecutivo y director de tecnología de Walmart. “RAPIDS se basa en la colaboración entre los ingenieros de NVIDIA y de Walmart, una relación que continuará en el futuro”.

Además, algunas de las principales empresas de tecnología del mundo suman la compatibilidad con RAPIDS mediante nuevos sistemas, plataformas de ciencia de datos y soluciones de software:

“HPE se compromete a mejorar la forma en que los clientes viven y trabajan. La inteligencia artificial, el análisis y el aprendizaje de máquinas tendrán un rol fundamental para obtener información que les permitirá a los clientes lograr resultados revolucionarios y mejorar el mundo en que vivimos. HPE se destaca en el mercado porque brindamos soluciones completas de IA y análisis de datos (desde asesoramiento estratégico hasta tecnología de aceleración por GPU diseñada específicamente), asistencia operativa y un robusto ecosistema de socios para adaptar estas soluciones a cada cliente. Estamos entusiasmados por asociarnos con NVIDIA para usar RAPIDS y acelerar la aplicación de la ciencia de datos y el aprendizaje de máquinas, para lograr que los clientes obtengan mejores resultados de forma más rápida”.

— Antonio Neri, CEO, Hewlett Packard Enterprise

“IBM desarrolló la mejor plataforma del mundo para la IA empresarial, independientemente del modelo de implementación. Esperamos extender nuestra exitosa sociedad con NVIDIA y aprovechar RAPIDS para ofrecer herramientas de aprendizaje de máquinas a nuestros clientes”.

— Arvind Krishna, vicepresidente sénior de Nube híbrida y director de IBM Research

“El mundo actual de la computación requiere un potente procesamiento para resolver las cargas de trabajo complejas como el análisis y la ciencia de datos. Es un trabajo para las GPU de NVIDIA. RAPIDS acelera la velocidad del procesamiento y la capacitación del aprendizaje de máquinas. Estamos entusiasmados por ofrecer la compatibilidad nativa con este nuevo conjunto de software de código abierto en Oracle Cloud Infrastructure y esperamos trabajar con NVIDIA para que RAPIDS sea compatible en toda nuestra plataforma, lo que incluye Oracle Data Science Cloud, para continuar acelerando por completo los flujos de trabajo de ciencia de datos de nuestros clientes. El software RAPIDS se ejecuta a la perfección en Oracle Cloud, para que los clientes puedan realizar sus trabajos de ciencia de datos, IA y HPC aprovechando la cartera de instancias de GPU disponibles en Oracle Cloud Infrastructure”.

— Clay Magouyrk, vicepresidente sénior de Desarrollo de software, Oracle Cloud Infrastructure

Otros innovadores líderes, como Cisco, Dell EMC, Lenovo, NERSC, NetApp, Pure Storage, SAP y SAS0, además de una amplia variedad de pioneros de la ciencia de datos, también están trabajando con esta tecnología.

Disponibilidad

Acceso al conjunto de bibliotecas de código abierto de RAPIDS, que ya está disponible en http://www.rapids.ai, donde el código se lanza con la licencia Apache. Las versiones en contenedores de RAPIDS estarán disponibles esta semana en el registro de contenedores de NVIDIA GPU Cloud.