Este artículo proviene de un motor de traducción automática.

Windows Azure

Hadoop en Windows Azure

Lynn Langit

 

Ha habido un montón de buzz sobre Hadoop últimamente, e interés en utilizarla para procesar conjuntos de datos muy grandes parece crecer día a día. Con eso en mente, voy a mostrarte cómo configurar un cluster de Hadoop en Windows Azure. Este artículo supone una familiaridad básica con tecnologías de Hadoop. Si eres nuevo en Hadoop, vea "¿Qué es Hadoop?" A partir de este escrito, Hadoop en Windows Azure está en beta privada. Para obtener una invitación, visite hadooponazure.com. La beta es compatible con Apache Hadoop (0.20.203+ instantánea).

¿Qué es Hadoop?

Hadoop es una biblioteca de código abierto diseñada para procesar por lotes grandes conjuntos de datos en paralelo. Se basa en el sistema de archivos distribuido de Hadoop (HDFS) y consiste en Utilidades y librerías para trabajar con datos almacenados en racimos. Estos procesos por lotes ejecutan utilizando un número de diferentes tecnologías, tales como mapa/reducir puestos de trabajo y pueden ser escritos en Java u otros lenguajes de alto nivel, como el Pig. También hay idiomas que se pueden utilizar para consultar los datos almacenados en un cluster de Hadoop. El idioma más común de consulta es HQL a través de la colmena.  Para obtener más información, visite hadoop.apache.org.

Configuración de clúster

Una vez que usted está invitado a participar en la beta, puede configurar el cluster de Hadoop. Vaya a hadooponazure.com e ingrese con su autorizado Windows Live ID. A continuación, rellene los cuadros de diálogo en el portal Web con los siguientes valores:

  1. Nombre de clúster (DNS): Introduzca el nombre en el formulario "< su cadena única > .cloudapp. "NET".
  2. Tamaño de clúster: elija el número de nodos, de 4 a 32 y sus asignaciones de almacenamiento de información asociado, de 2 TB a 16 TB por cluster.
  3. Nombre de usuario administrador y contraseña: Introduzca un nombre de usuario y una contraseña; restricciones de complejidad de contraseña se enumeran en la página. Una vez que esto se puede conectar mediante Escritorio remoto o Excel.
  4. Información de configuración de una instancia de SQL Azure: esta es una opción para guardar el Metastore Hive. Si está seleccionada, debe suministrar la dirección URL a la instancia del servidor SQL Azure, así como el nombre de las credenciales de inicio de sesión y bases de datos de destino. El inicio de sesión especificado debe tener los siguientes permisos en la base de datos de destino: ddl_ddladmin, ddl_datawriter, ddl_datareader.

Después de que has llenado en esta información, haga clic en solicitud de clúster. Verás una serie de actualizaciones de estado en el portal Web del clúster (llamado isótopos en la beta) está siendo asignados, creado y comenzó. Para cada cluster que asignar, verás muchos nodos de trabajador y un nodo principal, que es también conocido como el NameNode.

Después de un período de tiempo (cinco a 30 minutos en mi experiencia), el portal se actualizará para mostrar que el clúster está asignado y listo para usar. Simplemente, a continuación, puede explorar la interfaz Metro-estilo (haciendo clic en los botones grandes) para ver qué tipos de tareas de gestión y procesamiento de datos puede realizar (ver figura 1). Además de utilizar el portal Web para interactuar con el clúster, puede abrir los puertos disponibles (cerrados por defecto) para acceso FTP o servidor ODBC. Analizaré algunos métodos alternativos de conexión en un bit.

The Windows Azure Hadoop Portal
Figura 1 el Portal de Windows Azure Hadoop

En la sección de su clúster del portal, puede realizar tareas administrativas básicas como configurar acceso al clúster, importar datos y gestionar el cluster a través de la consola interactiva. La consola interactiva admite JavaScript o colmena. Como figura 1 muestra, también puede acceder a la sección de sus tareas. Aquí puede ejecutar un trabajo de MapReduce (a través de un archivo. jar) y ver el estado de los trabajos de MapReduce que se están ejecutando, así como aquellos han completado recientemente.

Los portales botones Mostrar información sobre tres trabajos de MapReduce recientemente terminados: ejemplo de Streaming de C#, ejemplo de contar palabras y ejemplo de Terasort de 10 GB. Cada botón muestra el estado de tanto el mapa y la porción de reducir de cada trabajo. Hay varias otras opciones para ver el estado de ejecución (o completadas) trabajos de MapReduce directamente desde el portal y a través de otros medios de conexión con el clúster, como el Protocolo de escritorio remoto (RDP).

Conexión a los datos

Puede hacer datos disponibles para su Hadoop en clúster de Windows Azure en varias formas, incluyendo directamente cargar en el clúster y acceder a los datos almacenados en otros lugares.

Aunque FTP permite subir teóricamente cualquier archivo de datos de tamaño, es aconsejable subir archivos que están en un rango de gigabyte-tamaño inferior. Si desea ejecutar trabajos por lotes de datos almacenados fuera de Hadoop, deberás realizar primero un par de pasos de configuración. Para configurar las conexiones externas, haga clic en el botón administrar clústeres en el portal principal y, a continuación, configurar las ubicaciones de almacenamiento que desea utilizar, como una ubicación de almacenamiento de Windows Azure Blob, resultado de una consulta de mercado de datos de Windows Azure o una ubicación de almacenamiento de Amazon Web Services (AWS) S3:

  1. Para configurar una conexión a un cubo de AWS S3, introduzca sus claves de seguridad (públicas y privadas) para que pueda acceder a datos almacenados en S3 en el cluster de Hadoop.
  2. Para trabajar con datos del mercado de datos de Windows Azure, rellena los valores de nombre de usuario (WLID), contraseña (para la fuente de datos que desea consultar y de importación), nombre de tabla de consulta de origen (extracto) y colmena (destino). Asegúrese de quitar el parámetro límite predeterminado de consulta (100 filas) de la consulta generada por las herramientas en el mercado de datos antes de entrar a la consulta en el cuadro de texto en el clúster.
  3. Para acceder a datos almacenados en almacenamiento de Windows Azure Blob, deberás ingresar el nombre de la cuenta de almacenamiento (URL) a las ubicaciones de almacenamiento Blob y su valor de clave de acceso (clave privada).

Ejecutar un trabajo de MapReduce

Después de configurar y verificar su cluster de Hadoop y disponibilidad de sus datos, probablemente deseará comenzar haciendo estos datos mediante la ejecución de uno o más puestos de trabajo de MapReduce. ¿La pregunta es, la mejor manera de empezar? Si eres nuevo en Hadoop, hay algunas muestras puede ejecutar para tener una idea de lo que es posible. Puede ver y ejecutar cualquiera de estas haciendo clic en el botón muestras en el portal Web.

Si eres experimentado con técnicas de Hadoop y desea ejecutar su propio trabajo de MapReduce, existen varios métodos. El método que seleccione dependerá de su familiaridad con las herramientas de Hadoop (como el símbolo de Hadoop) y su idioma preferido. Puede utilizar Java, Pig, JavaScript o C# para escribir un trabajo ejecutable de MapReduce de Hadoop en Windows Azure.

Usaré la muestra de recuento de palabras para demostrar cómo ejecutar un trabajo de MapReduce desde el portal mediante un archivo. jar. Como era de esperar, este trabajo cuenta palabras para algunos entrada — en este ejemplo de un archivo de texto grande (el contenido de un libro publicado completo) — y salidas el resultado. Haga clic en las muestras, luego WordCount para abrir la página de configuración de trabajo en el portal, como se muestra en figura 2.

Setting Up the WordCount Sample
Figura 2 Configuración de la muestra WordCount

Verá dos parámetros configurables para este trabajo, uno para la función (contar palabras) y otro para los datos de origen (el archivo de texto). Los datos de origen (parámetro 1) incluyen no sólo el nombre del archivo de entrada, sino también la ruta de su ubicación. Esta ruta para el archivo de origen de datos puede ser texto o puede ser "local", lo que significa que el fichero está guardado en este cluster de Hadoop Windows Azure. Alternativamente, se pueden recuperar los datos de origen de AWS S3 (a través de la S3n: / / o S3: / / Protocolo), desde el almacenamiento de Windows Azure Blob (a través de la ASV: / / Protocolo) o desde el mercado de datos de Windows Azure (importando primero los datos deseados mediante una consulta), o ser obtenido directamente de la HDFS tienda. Después de introducir la ruta de acceso a una ubicación remota, puede hacer clic en el icono de verificación (un triángulo) y recibirá un mensaje OK si puede conectarse utilizando la cadena proporcionada.

Después de configurar los parámetros, haga clic en ejecutar trabajo. Usted encontrará un número de maneras de controlar ambos estado del trabajo como el trabajo es los resultados de la ejecución y el trabajo una vez finalizada la tarea. Por ejemplo, en la página principal del portal, la sección de tareas de la muestra un botón con el estado de los trabajos más recientes durante la ejecución y después de terminar. Se añade un nuevo botón para cada trabajo, mostrando el nombre del trabajo, porcentaje completado para el mapa y las porciones de reducir durante la ejecución y el estado (OK, error y así sucesivamente) después de la terminación del trabajo.

La página de historial de trabajo, que se accede desde la sección de administrar su cuenta de la página principal, proporciona más detalles sobre el trabajo, incluido el texto (script) utilizado para ejecutar el trabajo y el estado, con información de fecha y hora. Puede hacer clic en el vínculo para cada trabajo obtener más información sobre la ejecución del trabajo.

Si decide ejecutar una muestra, asegúrese de leer las instrucciones detalladas para esa muestra en particular. Algunas muestras se pueden ejecutar desde el portal Web (su tareas | Crear trabajo); otros requieren una conexión RDP para el clúster.

Usar JavaScript para ejecutar los trabajos

Haga clic en el botón de la consola interactiva para abrir la consola de JavaScript. Aquí puede ejecutar trabajos de MapReduce ejecutando archivos .jar (Java) mediante la ejecución de un comando de Pig desde el símbolo del sistema, o por escrito y la ejecución de trabajos de MapReduce directamente en JavaScript.

También puede cargar datos de origen de la js > indicación mediante el comando fs.put. Este comando abre un cuadro de diálogo donde puede elegir un archivo para cargarlo en el clúster. IIS limita el tamaño del archivo que puede cargar a través de la consola de JavaScript a 4 GB.

También puede utilizar datos de origen de otras tiendas remotas (como Windows Azure Blobs) o de otros proveedores de nube. Para trabajar con datos de origen de AWS S3, utiliza una solicitud en el formato s3n: / / < nombre de balde > / < nombre >.

Utilizando la consola de JavaScript, puede comprobar conectividad a su cubo de AWS S3 mediante el comando ls # con la dirección de balde, así:

JS > # ls s3n: / / HadoopAzureTest/libros

2 Elementos encontrados

-rwxrwxrwx 1 0 2012-03-30 00:20 / libros

-rwxrwxrwx 1 1395667 2012-03-30 00:22 /Books/davinci.txt

 

Cuando lo hace, debe obtener una lista de los contenidos (carpetas y archivos) de su cubo como en este ejemplo.

Si desea revisar el contenido del archivo antes de ejecutar su trabajo, puede hacerlo desde la consola con el comando #cat:

JS > #Cat s3n://HadoopAzureTest/Books/davinci.txt

 

Después de comprobar que se puede conectar a los datos de origen, querrá ejecutar su trabajo de MapReduce. La siguiente es la sintaxis de JavaScript para el trabajo de MapReduce de muestra de recuento de palabras (usando un archivo .jar):

var map = function (key, value, context) {
  var words = value.split(/[^a-zA-Z]/);
  for (var i = 0; i < words.length; i++) {
    if (words[i] !== "") {
      context.write(words[i].toLowerCase(), 1);
    }
  }
};
var reduce = function (key, values, context) {
  var sum = 0;
  while (values.hasNext()) {
    sum += parseInt(values.
next());
  }
  context.write(key, sum);
};

En la parte del mapa, el script divide el texto de origen en palabras individuales; en la parte de reducir, palabras idénticas son agrupados y, a continuación, contados. Por último, se produce un archivo de salida (resumen) con las palabras superiores por Conde (y el recuento de esas palabras). Para ejecutar este trabajo WordCount directamente desde la consola de JavaScript interactiva, comience con la palabra clave de pig para indicar que desea ejecutar un trabajo de pig. A continuación, llamar el método, que es donde se pasa en la ubicación de los datos de origen. En este caso, podrá realizar la operación sobre los datos almacenados de forma remota — S3 de la AWS.

Ahora se llama el método de mapReduce en el trabajo de pig, pasando el nombre del archivo con el código JavaScript para este trabajo, incluyen­ing los parámetros requeridos. Los parámetros para este trabajo son el método de romper el texto — en cada palabra — y el valor y el tipo de datos de la agregación de reducir. En este caso, éste es un recuento (suma) de tipo de datos long.

A continuación, especifique el orden de salida usando el método de orderBy, nuevamente pasando los parámetros; aquí el recuento de cada grupo de palabras se emitirá en orden descendente. En el siguiente paso, el método de tomar especifica cuántos valores agregados deben devolverse — en este caso las 10 palabras más frecuente. Finalmente, llamar al método, pasando el nombre del archivo de salida que desea generar. Aquí está la sintaxis completa para ejecutar esta tarea:

Pig.from("s3n://HadoopAzureTest/Books").mapReduce("WordCount.js", "word, count:long").orderBy ("Conde DESC").take(10).to("DaVinciTop10Words.txt")

 

El trabajo se está ejecutando, verás las actualizaciones de estado en el explorador — el porcentaje completado de primera el mapa y, a continuación, el trabajo de reducir. También puede hacer clic en un vínculo para abrir otra ventana del explorador, donde verás un registro más detallado sobre el progreso del trabajo. Dentro de un par de minutos, aparecerá un mensaje indicando que el trabajo que se ha completado correctamente. Para validar aún más la salida del trabajo, a continuación, puede ejecutar una serie de comandos en la consola de JavaScript.

El primer comando, fs.read, muestra el archivo de salida, mostrando las palabras top 10 y recuento total de cada una en orden descendente. El comando siguiente, analizar, muestra la misma información y rellenará la variable de datos con la lista. El último comando, graph.bar, muestra un gráfico de barras de los resultados. Aquí es el aspecto de estos comandos:

JS > archivo = fs.read("DaVinciTop10Words.txt")

JS > datos = parse (file.data, "palabra, Conde: long")

JS > Graph.bar(Data)

 

Un aspecto interesante de usar JavaScript para ejecutar trabajos de MapReduce es el laconismo del código JavaScript en comparación con el de Java. El trabajo de Java MapReduce WordCount muestra contiene más de 50 líneas de código, pero el ejemplo de JavaScript contiene sólo 10 líneas. La funcionalidad de ambos trabajos es similar.

Utilizando C# con el Streaming de Hadoop

Otra forma puede ejecutar trabajos de MapReduce en Hadoop en Windows Azure es streaming C#. Encontrará un ejemplo que muestra cómo hacerlo en el portal. Como con el ejemplo anterior, para probar este ejemplo, deberá cargar los archivos necesarios (davinci.txt, cat.exe y wc.exe) a una ubicación de almacenamiento de información como HDFS, ASV o S3. También se necesita obtener la dirección IP de su HEADNODE de Hadoop. Para obtener el valor de uso de la consola interactiva, ejecute este comando:

JS > #cat apps/dist/conf/core-site.xml

 

Rellene los valores en la página de corredor de trabajo; su comando final se verá algo como esto:

Hadoop jarra hadoop-ejemplos-0.20.203.1-SNAPSHOT.jar

-los archivos "hdfs:///example/apps/wc.exe,hdfs:///example/apps/cat.exe"

-entrada "/ example/data/davinci.txt"

-salida "/ example/data/StreamingOutput/wc.txt"

-mapper "cat.exe"

-reductor "wc.exe"

 

En la muestra, el asignador y el reductor son archivos ejecutables que leen la entrada de stdin, línea por línea y emiten la salida stdout. Estos archivos de producen un trabajo de mapa/reducir, que se somete al cluster para su ejecución. Tanto el archivo mapper, cat.exe y el archivo de reductor, wc.exe, se muestran en figura 3.

The Mapper and Reducer Files
Figura 3 el asignador y archivos de reductor

Aquí es cómo funciona el trabajo. Primero el archivo mapper lanza como un proceso de inicialización de tarea mapper. Si hay múltiples mapeados, cada uno se iniciará como un proceso independiente de inicialización. En este caso, hay sólo un file—cat.exe único asignador. En exe­cution, la tarea de mapper convierte la entrada de líneas y alimenta las líneas a la porción de stdin del trabajo MapReduce. A continuación, el asignador reúne la línea salidas de stdout y convierte cada línea en un par de clave y valor. El comportamiento predeterminado (que puede ser cambiado) es que la clave se crea desde el prefijo de línea hasta el primer carácter de la ficha y el valor se crea desde el resto de la línea. Si no hay ninguna ficha en la línea, toda la línea se convierte en la clave y el valor será null.

Una vez finalizadas las tareas de mapeado, cada archivo de reductor se lanza como un proceso independiente de inicialización de tarea de reductor. En ejecución, el reductor convierte líneas de pares de clave y valor de entrada y alimenta las líneas para el proceso de stdin. A continuación, recoge el reductor de la línea -­salidas orientadas desde el stdout procesar y convierte cada línea en un par de clave y valor, que se recoge como la salida del reductor.

Uso de HiveQL para consultar una tabla de colmena

Utilizando la consola Web interactiva, puede ejecutar una consulta de colmena contra las tablas de la colmena que se ha definido en su cluster de Hadoop. Para obtener más información acerca de la colmena, consulte hive.apache.org.

Para utilizar la colmena, usted primero crea (y carga) una tabla de la colmena. Archivo de salida utilizando nuestro ejemplo WordCount MapReduce (DavinciTop10­Words.txt), puede ejecutar el siguiente comando para crear y, a continuación, comprobar su nueva mesa de colmena:

colmena > INPATH DE DATOS DE CARGA

'hdfs://lynnlangit.cloudapp.net:9000/user/lynnlangit/DaVinciTop10Words.txt'

SOBRESCRIBIR en la tabla wordcounttable;

colmena > Mostrar tablas;

colmena > describir la wordcounttable:

colmena > Seleccione * de wordcounttable;

 

Colmena sintaxis es similar a la sintaxis SQL y HiveQL proporciona funcionalidad de consulta similar. Tenga en cuenta que todos los datos distingue mayúsculas y minúsculas de forma predeterminada en Hadoop.

Otras maneras de conectarse a su Cluster

Usando RDP además de trabajar con el clúster a través del portal Web, también puede establecer una conexión de escritorio remoto al servidor de NameNode del clúster. Para conectar a través de RDP, usted haga clic en el botón de escritorio remoto en el portal, y luego haga clic en el archivo descargado de conexión RDP y, cuando se le solicite, introduzca su nombre de usuario administrador y la contraseña. Si se le solicita, abrir puertos del firewall en el equipo cliente. Después de establecida la conexión, puede trabajar directamente con NameNode del clúster usando el shell del explorador de Windows u otras herramientas que se incluyen con la instalación de Hadoop, tanto como lo haría con la experiencia de Hadoop predeterminado.

Mi servidor de NameNode ejecuta Windows Server 2008 R2 Enterprise SP1 en un servidor con dos procesadores y 14 GB de RAM, con Apache Hadoop versión 0.20.203.1 instantánea instalado. Tenga en cuenta que los recursos del clúster consisten del nombre nodo y los nodos de trabajador asociado, por lo que el número total de procesadores para mi cluster muestra es ocho.

La instalación incluye herramientas de gestión estándar Hadoop, como el Shell de comandos de Hadoop o interfaz de línea de comandos (CLI), el Rastreador de trabajo de Hadoop MapReduce (que se encuentra en http://[namenode]:50030) y el NameNode de Hadoop HDFS (encontrados en http://[namenode]:50070). Utilizando el Shell de comandos de Hadoop puede ejecutar trabajos de MapReduce u otras tareas administrativas (como la administración de su estado de clúster DFS) a través de su sesión RDP.

En este momento, puede conectarse a través de RDP usando sólo un equipo cliente de Windows. Actualmente, la conexión de RDP utiliza una cookie para habilitar el reenvío de puerto. Conexión a escritorio remoto para cliente de Mac no tiene la capacidad para utilizar esa cookie, por lo que no se puede conectar a la máquina virtual.

Utilizando el conector de Sqoop Microsoft envía varios conectores para Hadoop a SQL Server a finales de 2011 (para SQL Server 2008 R2 u o posterior para SQL Server paralelo Data Warehouse). El conector de base Sqoop SQL Server está diseñado para permitirle importar o exportar datos entre Hadoop en Linux y SQL Server. Puede descargar el conector de bit.ly/JgFmm3. Este conector se requiere que el controlador JDBC para SQL Server esté instalado en el mismo nodo que Sqoop. Descargar el controlador en bit.ly/LAIU4F.

Encontrará un ejemplo que muestra cómo utilizar Sqoop para importar o exportar datos entre SQL Azure y HDFS en la sección de muestras del portal.

Uso de FTP para utilizar FTP, primero tienes que abrir un puerto, lo que puede hacer clic en el botón Configurar puertos en el portal y arrastrando el control deslizante para abrir el puerto predeterminado de FTPS (puerto 2226). Para comunicarse con el servidor FTP, usted necesitará un hash MD5 de la contraseña para su cuenta. Conectar a través de RDP, abra el archivo users.conf, copiar el hash MD5 de la contraseña de la cuenta que se utilizará para transferir archivos en FTPS y utilizar este valor para conectarse. Observe que el hash MD5 de la contraseña utiliza un certificado en el servidor de Hadoop que no sea de plena confianza.

También puede abrir un puerto para conexiones de ODBC (tales como Excel) en esta sección del portal. El número de puerto predeterminado para las conexiones de servidor ODBC es 10000. Para configuraciones más complejas de puerto, sin embargo, utilizar conexión RDP para el clúster.

Utilizando el controlador ODBC para Hadoop (para conectarse a Excel y PowerPivot) puede descargar un controlador ODBC para Hadoop desde la página de descargas de portal. Este controlador, que incluye un complemento para Excel, puede conectarse desde Hadoop a Excel o PowerPivot. Figura 4 muestra el botón panel de colmena que se agrega al Excel después de instalar el complemento. El botón expone un panel de consulta de colmena donde puede establecer una conexión con un servidor de Hadoop hospedado localmente o una instancia remota. Después de hacerlo, puede escribir y ejecutar una consulta de la colmena (vía HiveQL) contra ese clúster y, a continuación, trabajar con los resultados que sean devueltos a Excel.


Figura 4 el panel de consulta de la colmena en Excel

También puede conectar a datos de Hadoop mediante PowerPivot para Excel. Para conectar con PowerPivot desde Hadoop, primero debe crear un OLE DB para conexión ODBC utilizando el proveedor de la colmena. En el panel de consulta de colmena, luego conecte al cluster de Hadoop usando la conexión que ha configurado previamente, a continuación, seleccione las tablas de la colmena (o escribir una consulta de HiveQL) y devolver los datos seleccionados a PowerPivot.

Asegúrese de descargar la versión correcta del controlador ODBC para el hardware de la máquina y Excel. El controlador está disponible en las ediciones de 32 bits y 64 bits.

Fácil y Flexible, pero con algunas incógnitas

El Hadoop en la versión beta de Windows Azure muestra varias fortalezas interesantes, incluyendo:

  • Configuración es fácil mediante el portal Web de Metro-estilo intuitivo.
  • Obtener opciones de lenguaje flexible para ejecutar consultas de puestos de trabajo y datos de MapReduce. Puede ejecutar trabajos de MapReduce usando Java, C#, Pig o JavaScript, y pueden ejecutar consultas utilizando la colmena (HiveQL).
  • Si está familiarizado con las tecnologías de Hadoop puede utilizar sus habilidades existentes. Esta aplicación es compatible con Apache Hadoop instantánea 0.203 +.
  • Hay una variedad de opciones de conectividad, incluyendo un controlador ODBC (SQL Server/Excel), RDP y otros clientes, así como conectividad a otros almacenes de datos de la nube de Microsoft (Windows Azure Blobs, el mercado de datos de Windows Azure) y otros (servicios de Web Amazon S3 baldes).

Sin embargo, existen muchas incógnitas en la versión de Hadoop en Windows Azure que será lanzado públicamente:

  • La versión actual es una beta privada solamente; hay poca información sobre un plan de trabajo y las características de la versión planificada.
  • Precios no ha sido anunciado.
  • Durante la beta, hay un límite para el tamaño de los archivos que puedes subir y Microsoft incluyó una renuncia que "la versión beta es para prueba de las funciones, no para las pruebas de cargas de datos de nivel de producción". Así que no está claro cuál será el rendimiento de la versión de lanzamiento.

Para ver demostraciones en vídeo (screencasts) de la funcionalidad de la versión beta de Hadoop en Windows Azure, vea mi lista de reproducción de BigData en YouTube en bit.ly/LyX7Sj.

Lynn Langit (LynnLangit.com) se ejecuta su propia formación técnica y consultora. Ella diseña y construye soluciones de datos que incluyen sistemas RDBMS y NoSQL. Recientemente regresó a la práctica privada después de trabajar como un evangelista de desarrollador de Microsoft durante cuatro años. Es autora de tres libros sobre SQL Server Business Intelligence, recientemente "Smart soluciones Business Intelligence con SQL Server 2008" (Microsoft Press, 2009). Ella es también el cofundador de la sin fines de lucro TKP (TeachingKidsProgramming.org).

Gracias al siguiente experto técnico por su ayuda en la revisión de este artículo: Denny Lee