- Framework para trabajar con aplicaciones distribuidas en un ambiente de varios nodos para maneja de gran volumen de data
- Distribuido con gran tolerancia a la falla, escalable (HDFS)
- Usa modelo de programación MapReduce (procesamiento de big data, paralelo, distribuido, permite diferentes lenguajes)
- Bajo costo en los nodos por poder usar “commodity hardware”. Pudiendo guardar información por un periodo mas largo de tiempo con gran almacenamiento
- Buen rendimiento al evitar uso excesivo de networking
- Gran almacenamiento de data “cruda”, para ser procesado por Hadoop MapReduce o proyectos afines (Hive, Spark, Sqoop, etc.)
- Tiene perfil de ETL (sin ser uno con un gran performance), en donde puede tener procesamiento paralelo
- Convivencia con EDW, a través de Sqoop (xfr bulk data)
- Se puede ejecutar queries similares con el uso de Apache Hive que es un data-warehouse sobre Hadoop que sirve para hacer queries y análisis. (HiveQL, abstracción de SQL)
- Puede parsear diferentes tipos de inputs (web logs, IoT, etc.)
- No es un reemplazo directo de EDW, pero si en ciertas tareas pueden ser reemplazadas, así mejora el rendimiento
- Se puede explorar la data antes de llegar a EDW.
- Existe varios proyectos relacionados a Hadoop para diferentes tareas, cuales son open sources o propietarios tal como IBM BigInsights / Hortonworks HDP
- Genera un Time-to-Value menor
ETL = Extract, Transform and Load)
No comments :
Post a Comment