27 June 2018

Hadoop EDW 101

  • Framework para trabajar con aplicaciones distribuidas en un ambiente de varios nodos para maneja de gran volumen de data
  • Distribuido con gran tolerancia a la falla, escalable (HDFS)
  • Usa modelo de programación MapReduce (procesamiento de big data, paralelo, distribuido, permite diferentes lenguajes)
  • Bajo costo en los nodos por poder usar “commodity hardware”. Pudiendo guardar información por un periodo mas largo de tiempo con gran almacenamiento
  • Buen rendimiento al evitar uso excesivo de networking
  • Gran almacenamiento de data “cruda”, para ser procesado por Hadoop MapReduce o proyectos afines (Hive, Spark, Sqoop, etc.)
  • Tiene perfil de ETL (sin ser uno con un gran performance), en donde puede tener procesamiento paralelo
  • Convivencia con EDW, a través de Sqoop (xfr bulk data)
  • Se puede ejecutar queries similares con el uso de Apache Hive que es un data-warehouse sobre Hadoop que sirve para hacer queries y análisis. (HiveQL, abstracción de SQL)
  • Puede parsear diferentes tipos de inputs (web logs, IoT, etc.)
  • No es un reemplazo directo de EDW, pero si en ciertas tareas pueden ser reemplazadas, así mejora el rendimiento
  • Se puede explorar la data antes de llegar a EDW.
  • Existe varios proyectos relacionados a Hadoop para diferentes tareas, cuales son open sources o propietarios tal como IBM BigInsights / Hortonworks HDP
  • Genera un Time-to-Value menor
EDW = Enterprise Data Warehouse
ETL = Extract, Transform and Load)


No comments :

Blog Archive

Disclaimer

The views expressed on this blog are my own and do not necessarily reflect the views of Oracle.