Cloudera Impala

Cloudera Impala es un motor de consultas SQL open source de Cloudera para el procesamiento masivo en paralelo (MPP) de los datos almacenados en un clúster de computadoras corriendo Apache Hadoop.^[1]

Cloudera Impala es un motor de consulta que corre en Apache Hadoop. El proyecto fue anunciado en octubre de 2012 con una distribución pública beta^[2]^[3] y se encuentra disponible para el público en general desde mayo de 2013.^[4]

El proyecto Impala con licencia Apache lleva la tecnología de base de datos escalable en paralelo a Hadoop, permitiendo a los usuarios realizar consultas SQL de baja latencia a los datos almacenados en HDFS y Apache HBase sin necesidad de movimiento o transformación de los datos. Impala está integrada con Hadoop para utilizar los mismos archivos y formato de datos, metadatos, seguridad y frameworks de gestión de recursos utilizados por MapReduce, Apache Hive, Apache Pig y otro software de Hadoop.

Impala está dirigido a los analistas y científicos de datos para realizar análisis en los datos almacenados en Hadoop a través de herramientas de SQL o business intelligence. El resultado es que el procesamiento de datos a gran escala (a través de MapReduce) y las consultas interactivas se pueden hacer en el mismo sistema utilizando los mismos datos y metadatos - eliminando la necesidad de migrar los conjuntos de datos a sistemas especializados y/o formatos propietarios solo para realizar el análisis.

Las características incluyen:

A principios de 2013, un formato de archivo orientado a columnas llamado Parquet se anunció para arquitecturas incluyendo entre ellas a Impala.^[6] En diciembre de 2013, Amazon Web Services anunció soporte para Impala.^[7] A principios de 2014, MapR agregó soporte para Impala.^[8]

Escribe un comentario o lo que quieras sobre Cloudera Impala (directo, no tienes que registrarte)

Comentarios
(de más nuevos a más antiguos)

Aún no hay comentarios, ¡deja el primero!