Apache Hadoop y sus Componentes

A+ A-

Apache Hadoop es un marco de software de código abierto escrito en Java. Se utiliza sobre todo para el almacenamiento y procesamiento de grandes conjuntos de datos, mejor conocidos como los grandes datos. Se compone de varios componentes que permiten el almacenamiento y procesamiento de grandes volúmenes de datos en un entorno agrupado. Sin embargo, los dos componentes principales son Hadoop Distributed File System y programación MapReduce.

En este artículo, vamos a primero echar un vistazo a los componentes que forman Apache Hadoop y luego algunos de los sistemas y bases de datos integradas.

1. Componentes de Apache Hadoop

Hadoop, en su conjunto, se compone de las siguientes partes:

Hadoop Distributed File System - abreviado como HDFS, es sobre todo un sistema de archivos similar a muchos de los ya existentes. Sin embargo, también es un sistema de archivos virtual.

Hay una notable diferencia con otros sistemas de archivos populares, que es, cuando nos movemos en un archivo en HDFS, se divide automáticamente en archivos más pequeños. Estos archivos más pequeños se replican en un mínimo de tres servidores diferentes, de modo que se pueden utilizar como una alternativa a circunstancias imprevistas. Este recuento de replicación no es necesariamente fija duro, y puede decidirse según los requisitos.

Hadoop MapReduce - MapReduce es principalmente el aspecto de programación de Hadoop que permite el procesamiento de grandes volúmenes de datos.

También hay una disposición que descompone las solicitudes en las solicitudes más pequeñas, que luego se envían a varios servidores. Esto permite la utilización de la potencia escalable de la CPU.

Hbase - hbase pasa a ser una capa que se encuentra sobre el HDFS y ha sido desarrollado por medio del lenguaje de programación Java. Hbase tiene principalmente los siguientes aspectos -

  • no relacional
  • altamente escalable
  • La tolerancia a fallos

Cada hilera que existe en HBase se identifica por medio de una llave. El número de columnas también no está definida, sino que más bien agrupadas en familias de columna.

Zookeeper - Se trata básicamente de un sistema centralizado que mantiene -

  • La información de configuración
  • información de nombres
  • información de sincronización

Además de estos, Zookeeper es también responsable de los servicios de grupo y es utilizado por hbase. También viene de usar para los programas de MapReduce.

Solr / Lucene - Esto no es más que un motor de búsqueda. Sus bibliotecas son desarrollados por Apache y requieren más de 10 años en ser desarrollado en su forma sólida presente.

Lenguajes de Programación - Hay básicamente dos lenguajes de programación que son identificados como lenguajes de programación originales Hadoop,

  • Colmena
  • CERDO

Además de estos, hay algunos otros lenguajes de programación que se pueden utilizar para escribir programas, a saber, C, JAQL y Java. También podemos hacer uso directo de SQL para la interacción con la base de datos, a pesar de que requiere el uso de controladores JDBC o ODBC estándar.

2. Sistemas de operaciones integrada Hadoop

La mayoría de los vendedores de la empresa tienen sus propios productos de Hadoop que forman parte de la base de datos, así como ofertas analíticas. Estos servicios también no requieren que se Hadoop fuente de otros lugares, sino más bien lo proporcionan como un aspecto central de sus soluciones.

Algunos de estos son -

EMC Greenplum

Greenplum pasa a ser un muy nuevo participante en el negocio de la empresa y tiene una reputación de ser un fuerte proveedor de la analítica. Se presenta como una plataforma Unified Analytics, que consiste en -

  • la base de datos Greenplum - significaba para su uso en los datos estructurados
  • Greenplum HD - Su distribución Hadoop
  • Coro - Una capa de la productividad para los equipos de ciencia de datos.

IBM

distribución empresarial de IBM para Hadoop se conoce como Infosphere BigInsights. Se implementa una serie de características para Hadoop, como -

  • Herramientas para la gestión
  • Herramientas para la administración
  • También forma parte de una herramienta de análisis de datos textuales que ayudan en la resolución de entidades, tales como la identificación de las personas, números de teléfono, direcciones y mucho más.

Al hacer uso del lenguaje de consulta JAQL, se puede integrar Hadoop con varios productos de IBM como DB2, o incluso Netezza. BigSheets, también se ofrece una hoja de cálculo, como la aplicación de trabajo en los datos grande. En la actualidad, BigInsights sólo pueden ser utilizados una nube a través de Amazon, Rackspace, RightScale, etc.

microsoft

Hadoop forma la parte central de la gran oferta de datos de Microsoft. Siguiendo un enfoque integrado, que planea realizar grandes volúmenes de datos disponibles sobre su suite de herramientas para el análisis.

Soluciones Microsoft Big Data se han puesto en la plataforma Windows Server y también para la plataforma Windows Azure, que está basado en la nube. Integrado con el Centro de Sistemas de Windows y Active Directory, la empresa tiene su propio formato de distribución de Hadoop. Además, se integra Hadoop con su SQL Server, Visual Studio y .NET.

Oráculo

Oracle entró en el mundo de los grandes volúmenes de datos con un enfoque basado aparato en forma de Big Data Appliance. Esto asegura la integración Hadoop fácil, y viene junto con la nueva base de datos NoSQL, lo que permite la analítica y también tiene conexiones con bases de datos Oracle y la alineación de almacenamiento Exadata. NoSQL también se conoce como una oferta de base de datos basada en el valor clave escalable.

Oracle también pasa a tener la plataforma analítica R integrado con Hadoop, y eso hace que sea fácil de transportar. productos de I Empresa de Oracle es también uno que permite la integración de bases de datos fácil, y también con Hadoop.

3. Bases de datos para análisis de conectividad con Hadoop

Las bases de datos que soportan Massively Parallel Processing (MPP) son en gran parte la intención de procesar grandes volúmenes de datos estructurados, a diferencia de la de la especialización de Hadoop en los datos no estructurados. Greenplum, y el más viejo de datos Aster y Vertica, son los mejores ejemplos de los primeros pioneros en este sentido.

Estas bases de datos MPP son conocidos para manejar cargas de trabajo especializadas en términos de análisis, así como la integración de los datos. Estos proporcionan conectores a Hadoop y otras plataformas de almacenamiento de datos.

En los últimos tiempos estas soluciones de bases de datos han sido adquiridos por otros actores de la industria, -

  • Aster Data ha sido adquirida por Teradata
  • HP ha adquirido Vertica
  • Greenplum está ahora bajo EMC

4. Las compañías de Hadoop centrada

Con el fin de cumplir con el desarrollador impulsado ideal de la gran mundo de los datos, las distribuciones de Hadoop están muy a menudo se ofrecen en forma de ediciones para la comunidad. Tales tipos de ediciones no tienen un enfoque de gestión de la empresa, sino que todas las funcionalidades que pueden ser necesarios para el desarrollo y evaluación.

cloudera

Cloudera pasa a ser el establecimiento más antiguo que proporciona distribuciones de Hadoop. Se sabe que ofrecer soluciones empresariales, junto con la formación, los servicios y opciones de soporte. Además, Cloudera ha hecho numerosas contribuciones a la Hadoop mediante aportaciones de código abierto.

Hortonworks

Hortonworks tiene una larga historia asociada con Hadoop. Es principalmente un producto de Yahoo, y como un creador de Hadoop, que tiene como objetivo promover la tecnología de núcleo Hadoop. También se ha asociado con Microsoft para mejorar su integración Hadoop.

5. Conclusión

El artículo anterior explica claramente distintos módulos que componen Hadoop, junto con las numerosas ediciones de la empresa y la comunidad basados ​​en que están disponibles para su uso en la actualidad. Con Hadoop adquiriendo más importancia, es sólo una cuestión de tiempo antes de que más participantes se añaden a esta lista.

Ads

Compartir