Articolo
09/07/2015

Il presente articolo è stato tradotto automaticamente.

Windows Azure

Hadoop su Windows Azure

Ultimamente c'è stato un sacco di buzz su Hadoop, e interesse per usarlo per l'elaborazione di insiemi di dati estremamente grandi sembra crescere giorno per giorno. Con questo in mente, ho intenzione di mostrarvi come configurare un cluster Hadoop su Windows Azure. Questo articolo si presuppone base familiarità con le tecnologie di Hadoop. Se siete nuovi a Hadoop, vedere "Che cosa È Hadoop?" A partire da questa scrittura, Hadoop su Windows Azure è in beta privata. Per ottenere un invito, visitare hadooponazure.com. La beta è compatibile con Apache Hadoop (0.20.203+ snapshot).

Che cosa È Hadoop?

Hadoop è una libreria open source progettata per elaborare in batch enormi insiemi di dati in parallelo. Esso è basato su Hadoop distribuita file system (HDFS) e consiste di utility e librerie per lavorare con dati memorizzati in cluster. Questi processi batch eseguiti usando un certo numero di diverse tecnologie, come la mappa/ridurre i lavori e possono essere scritto in Java o altri linguaggi di alto livello, come il maiale. Ci sono anche lingue che possono essere utilizzato per eseguire query sui dati memorizzati in un cluster Hadoop. La lingua più comune per la query è HQL via dell'alveare. Per ulteriori informazioni, visitare hadoop.apache.org.

Creazione di Cluster

Una volta che siete invitati a partecipare alla beta, è possibile configurare il cluster Hadoop. Vai a hadooponazure.com e accedere con il tuo autorizzato Windows Live ID. Successivamente, compilare le finestre di dialogo sul portale Web utilizzando i seguenti valori:

Nome del cluster (DNS): immettere il nome nel formato "< stringa unica > .cloudapp. NET".
Dimensione del cluster: scegliere il numero di nodi, da 4 a 32 e loro assegnazioni di archiviazione associato, da 2TB a 16TB per cluster.
Amministratore username e password: inserire un nome utente e password; restrizioni di complessità password sono elencate nella pagina. Una volta impostato è possibile connettersi tramite desktop remoto o Excel.
Informazioni di configurazione per un'istanza di SQL Azure: questa è un'opzione per immagazzinare il Metastore Hive. Se è selezionata, è necessario fornire l'URL per l'istanza del server SQL Azure, come pure il nome delle credenziali target database ed effettuare il login. L'account di accesso specificato deve disporre delle seguenti autorizzazioni nel database di destinazione: ddl_ddladmin, ddl_datawriter, ddl_datareader.

Dopo aver compilato questo informazioni, fare clic su cluster di richiesta. Vedrai una serie di aggiornamenti di stato nel portale Web come essere allocato il cluster (chiamato isotopo in beta), creato e avviato. Per ogni cluster che è allocare, vedrete molti nodi di operaio e un nodo di testa, che è anche conosciuto come il NameNode.

Dopo un certo periodo di tempo (5-30 minuti nella mia esperienza), il portale verrà aggiornata per mostrare che il cluster è ripartita e pronti per l'uso. Quindi potete semplicemente esplorare l'interfaccia in stile Metro (cliccando sui pulsanti grandi) per vedere quali tipi di elaborazione dei dati e attività di gestione che è possibile eseguire (vedere Figura 1). Oltre a utilizzare il portale Web per interagire con il cluster, è possibile aprire le porte disponibili (chiuse per impostazione predefinita) per l'accesso FTP o Server ODBC. Tratterò alcuni metodi alternativi di collegamento in un po '.

The Windows Azure Hadoop Portal
Figura 1 il portale di Windows Azure Hadoop

Nella sezione del portale il tuo Cluster, è possibile eseguire attività amministrative di base come configurare l'accesso al cluster, importazione di dati e gestione di cluster tramite la console interattiva. La console interattiva supporta JavaScript o alveare. Come Figura 1 illustrato, si può anche accedere alla sezione attività il tuo. Qui è possibile eseguire un lavoro MapReduce (tramite un file. jar) e vedere lo stato di eventuali lavori di MapReduce che eseguono così come quelli che hanno recentemente completato.

I portale pulsanti visualizzano informazioni sui tre lavori MapReduce recentemente completati: C# esempio Streaming, esempio Word Count e 10 GB Terasort esempio. Ogni pulsante Mostra lo stato della mappa e la porzione di riduzione di ogni lavoro. Ci sono molte altre opzioni per la visualizzazione dello stato di esecuzione (o completati) MapReduce lavori direttamente dal portale e tramite altri mezzi di collegamento per il cluster, come Remote Desktop Protocol (RDP).

Connessione ai dati

È possibile rendere disponibili dati per il vostro Hadoop cluster Windows Azure in un certo numero di modi, tra cui direttamente caricare al cluster e l'accesso ai dati memorizzati in altri luoghi.

Sebbene FTP consente di caricare teoricamente qualsiasi file di dati di dimensioni, è consigliabile caricare i file che vengono in una gamma di gigabyte di dimensione inferiore. Se si desidera eseguire processi batch sui dati archiviati di fuori di Hadoop, è necessario eseguire prima un paio di passaggi di configurazione. Per impostare i collegamenti esterni, fare clic sul pulsante Gestisci Cluster sul portale principale e quindi configurare i percorsi di archiviazione che si desidera utilizzare, ad esempio un percorso di archiviazione Windows Azure Blob, risultato di una query di Windows Azure dati mercato o un percorso di archiviazione S3 Amazon Web Services (AWS):

Per configurare una connessione a un secchio di AWS S3, immettere le chiavi di sicurezza (pubbliche e private) così si possono accedere ai dati memorizzati su S3 cluster Hadoop.
Per lavorare con dati da Windows Azure dati mercato, inserire i valori per username (WLID), chiave di accesso (per l'origine dati che si desidera eseguire query e importare), nome di tabella query di origine (Estratto) e alveare (di destinazione). Assicurarsi di rimuovere il parametro per limite di query predefinita (100 righe) dalla query generate dagli strumenti nel mercato dei dati prima di immettere la query nella casella di testo sul cluster.
Per accedere ai dati archiviati in archiviazione Blob di Windows Azure, è necessario immettere il nome di account di archiviazione (URL) per i percorsi di archiviazione Blob e il tuo valore di chiave (chiave privata).

Esecuzione di un lavoro di MapReduce

Dopo impostazione e verifica il tuo cluster Hadoop e rendendo disponibili i dati, probabilmente si vorrà avviare stritola questo dati eseguendo uno o più processi di MapReduce. La domanda è, modo migliore per iniziare? Se siete nuovi a Hadoop, ci sono alcuni esempi che è possibile eseguire per ottenere una sensazione di ciò che è possibile. Si possono visualizzare ed eseguire uno qualsiasi di questi facendo clic sul pulsante campioni sul portale Web.

Se siete esperti con Hadoop tecniche e per eseguire il proprio lavoro MapReduce, ci sono diversi metodi. Il metodo che si seleziona dipenderà dalla vostra familiarità con gli strumenti di Hadoop (ad esempio, al prompt dei comandi di Hadoop) e la lingua preferita. È possibile utilizzare Java, maiale, JavaScript o c# per scrivere un lavoro MapReduce eseguibile per Hadoop su Windows Azure.

Utilizzerò il campione di conteggio di parola per illustrare come eseguire un lavoro di MapReduce dal portale utilizzando un file. jar. Come ci si potrebbe aspettare, questo lavoro conta parole per alcuni input — in questo esempio un file di testo di grandi dimensioni (il contenuto di un intero libro pubblicato) — e restituisce il risultato. Fare clic su campioni, quindi WordCount per aprire la pagina di configurazione di lavoro sul portale, come mostrato Figura 2.

Setting Up the WordCount Sample
Figura 2 impostazione dell'esempio WordCount

Vedrete due parametri configurabili per questo lavoro, uno per la funzione (word count) e l'altra per i dati di origine (file di testo). I dati di origine (parametro 1) includono non solo il nome del file di input, ma anche il suo percorso. Questo percorso per il file di dati di origine può essere testo, oppure può essere "locale", che significa che il file è memorizzato in questo cluster Hadoop Windows Azure. In alternativa, i dati di origine possono essere Estratto da AWS S3 (via il S3n: / / o S3: / protocollo), dall'archiviazione Windows Azure Blob (via l'ASV: / protocollo) o dal mercato di dati di Windows Azure (importando prima i dati desiderati utilizzando una query), o essere estratto direttamente dalla HDFS negozio. Dopo aver immesso il percorso a una posizione remota, è possibile fare clic sull'icona di verifica (un triangolo) e si dovrebbe ottenere un messaggio OK, se è possibile connettersi utilizzando la stringa specificata.

Dopo aver configurato i parametri, fare clic su Esegui processo. Troverete un certo numero di modi per monitorare lo stato del processo sia come il lavoro è in esecuzione e lavoro risultati al termine del lavoro. Ad esempio, sulla pagina principale del portale, la sezione della tua attività Visualizza un pulsante con lo stato dei lavori più recenti durante l'esecuzione e dopo il completamento. Per ogni lavoro, visualizzando il nome del lavoro, percentuale completa sia per la mappa e le porzioni di ridurre durante l'esecuzione e lo stato (OK, non riusciti e così via) dopo il completamento del lavoro viene aggiunto un nuovo pulsante.

La pagina di storia di lavoro, che si può arrivare dalla sezione Gestisci il tuo Account della pagina principale, fornisce più dettagli sul lavoro, compreso il testo (script) utilizzato per eseguire il lavoro e lo stato, con informazioni su data e ora. È possibile fare clic sul link per ogni lavoro di ottenere anche ulteriori informazioni sull'esecuzione del lavoro.

Se si decide di eseguire un campione, assicurarsi di leggere le istruzioni dettagliate per quel particolare campione. Alcuni esempi possono essere eseguiti da portale Web (tua attività | Creare lavoro); altri richiedono una connessione RDP al cluster.

Utilizzando JavaScript per eseguire i lavori

Fare clic sul pulsante per aprire la console JavaScript Console interattiva. Qui è possibile eseguire lavori di MapReduce eseguendo il file. jar (Java) tramite l'esecuzione di un comando di maiale dal prompt dei comandi, o di scrittura e l'esecuzione di lavori di MapReduce direttamente in JavaScript.

È possibile caricare direttamente anche i dati di origine da js > richiesta utilizzando il comando fs.put. Questo comando apre una finestra di dialogo dove è possibile scegliere un file da caricare per il cluster. IIS limita la dimensione del file che è possibile caricare tramite la console JavaScript a 4 GB.

È inoltre possibile utilizzare i dati di origine da altri archivi remoti (ad esempio Windows Azure Blob) o da altri fornitori di cloud. Per lavorare con dati di origine da AWS S3, si utilizza una richiesta nel formato s3n: / / < benna nome > / < nome cartella >.

Utilizzando la console JavaScript, è possibile verificare connettività per il vostro secchio AWS S3 utilizzando il comando ls # con l'indirizzo di secchio, in questo modo:

    js > # ls s3n: / / HadoopAzureTest/libri

    Trovati 2 articoli

    -rwxrwxrwx 1 0 2012-03-30 20:00 / libri

    -rwxrwxrwx 1 1395667 2012-03-30 00:22 /Books/davinci.txt

Quando si esegue questa operazione, si dovrebbe ottenere un elenco del contenuto (cartelle e file) del tuo secchio come in questo esempio.

Se volete rivedere il contenuto del file di origine prima di eseguire il tuo lavoro, è possibile farlo da console con il comando #cat:

js > #Cat s3n://HadoopAzureTest/Books/davinci.txt

Dopo aver verificato che è possibile connettersi a dati di origine, si desidera eseguire il tuo lavoro MapReduce. La seguente è la sintassi di JavaScript per il lavoro di MapReduce campione Word Count (utilizzando un file. jar):

var map = function (key, value, context) {
  var words = value.split(/[^a-zA-Z]/);
  for (var i = 0; i < words.length; i++) {
    if (words[i] !== "") {
      context.write(words[i].toLowerCase(), 1);
    }
  }
};
var reduce = function (key, values, context) {
  var sum = 0;
  while (values.hasNext()) {
    sum += parseInt(values.
next());
  }
  context.write(key, sum);
};

Nella porzione di mappa, lo script si divide il testo sorgente in singole parole; nella parte di ridurre, parole identiche sono raggruppati e quindi contati. Infine, viene prodotto un file di output (riassunto) con le prime parole di conteggio (e il conteggio di quelle parole). Per eseguire questo lavoro WordCount direttamente dalla console JavaScript interattiva, iniziare con la parola chiave di maiale per indicare che si desidera eseguire un lavoro di maiale. Successivamente, chiamare dal metodo, che è dove si passa il percorso dell'origine dati. In questo caso, potrai eseguire l'operazione sui dati memorizzati in remoto — S3 AWS.

Ora si chiama il metodo mapReduce sul lavoro maiale, passando il nome del file con il codice JavaScript per questo lavoro, includonoing i parametri necessari. I parametri per questo lavoro sono il metodo di rottura del testo — su ogni parola — e il valore e la proprietà datatype dell'aggregazione ridurre. In questo caso, quest'ultimo è un conteggio (somma) del tipo di dati long.

Specificare quindi l'ordine di uscita utilizzando il metodo orderBy, passando nuovamente i parametri; qui il conteggio di ogni gruppo di parole sarà output in ordine decrescente. Nel passaggio successivo, il metodo take specifica quanti valori aggregati devono essere restituiti — in questo caso le parole che si verificano più comunemente 10. Infine, chiamare il metodo, passando il nome del file di output si desidera generare. Ecco la sintassi completa per eseguire questo lavoro:

Pig.from("S3N://HadoopAzureTest/Books").mapReduce("WordCount.js", "word, count:long").orderBy ("Conte DESC").take(10).to("DaVinciTop10Words.txt")

Come il processo è in esecuzione, vedrai gli aggiornamenti di stato nel browser, la percentuale di completamento della prima mappa e quindi il lavoro di ridurre. Puoi anche cliccare un link per aprire un'altra finestra del browser, dove vedrete la registrazione più dettagliate circa i progressi del lavoro. Entro un paio di minuti, si dovrebbe vedere un messaggio che indica il lavoro completato. Per convalidare ulteriormente l'output del processo, è quindi possibile eseguire una serie di comandi nella console JavaScript.

Il primo comando, fs.read, viene visualizzato il file di output, mostrando la top 10 parole e il conteggio totale di ciascuno in ordine decrescente. Il comando successivo, analizzare, Mostra le stesse informazioni e popolerà la variabile di dati con l'elenco. L'ultimo comando, graph.bar, viene visualizzato un grafico a barre dei risultati. È qui che aspetto questi comandi:

    js > file = fs.read("DaVinciTop10Words.txt")

    js > dati = parse (file.data, "parola, conteggio: long")

    js > Graph.bar(Data)

Un aspetto interessante di usare JavaScript per eseguire lavori di MapReduce è la concisione del codice JavaScript rispetto a Java. Il lavoro di Java MapReduce WordCount campione contiene più di 50 righe di codice, ma l'esempio JavaScript contiene solo 10 righe. La funzionalità di entrambi i lavori è simile.

Utilizzando c# con Hadoop Streaming

Un altro modo è possibile eseguire lavori di MapReduce in Hadoop su Windows Azure è via c# in Streaming. Troverete un esempio che mostra come fare questo sul portale. Come nell'esempio precedente, per provare questo esempio, è necessario caricare i file necessari (davinci.txt, Cat e WC) in un percorso di archiviazione quali HDFS, ASV o S3. È inoltre necessario ottenere l'indirizzo IP del vostro HEADNODE Hadoop. Per ottenere il valore utilizzando la console interattiva, eseguire questo comando:

js > #cat apps/dist/conf/core-site.xml

Inserire i valori sulla pagina del corridore di lavoro; il comando finale avrà un aspetto come questo:

    Hadoop jar hadoop-esempi-0.20.203.1-snapshot. jar

    -file "hdfs:///example/apps/wc.exe,hdfs:///example/apps/cat.exe"

    -input "/ example/data/davinci.txt"

    -uscita "/ example/data/StreamingOutput/wc.txt"

    -mapper "Cat"

    -riduttore "WC"

Nell'esempio, il mapper e il riduttore sono file eseguibili che leggere l'input da stdin, riga per riga ed emettono l'output su stdout. Questi file di producono un lavoro mappa/Reduce, che è presentato al cluster per l'esecuzione. Sia il file di mapping, Cat e il file di riduttore, WC, sono mostrati in Figura 3.

The Mapper and Reducer Files
Figura 3 il Mapper e riduttore file

Ecco come funziona il lavoro. In primo luogo il file mapper lancia come un processo di inizializzazione attività mapper. Se ci sono mappatori multipli, ciascuno lancerà come un processo separato su inizializzazione. In questo caso, c'è solo un singolo mapper file—cat.exe. Su exescoop, il compito di mapper converte l'input in linee e alimenta quelle linee alla porzione del lavoro MapReduce stdin. Successivamente, il mappatore raccoglie la linea uscite da stdout e converte ogni riga in una coppia chiave/valore. Il comportamento predefinito (che può essere cambiato) è che la chiave viene creata dal prefisso linea fino al primo carattere di tabulazione e il valore è creato dal resto della linea. Se non non c'è alcuna scheda nella linea, tutta la linea diventa la chiave e il valore sarà null.

Dopo le attività mapper sono completate, ogni file riduttore lancia come un processo separato su inizializzazione attività riduttore. Durante l'esecuzione, il riduttore converte ingresso coppie chiave/valore in linee e alimenta quelle linee per il processo di stdin. Successivamente, il riduttore raccoglie la linea -uscite orientate da stdout elaborare e converte ogni riga in una coppia chiave/valore, che è raccolto come l'uscita del riduttore.

Utilizzo di HiveQL per Query di una tabella di alveare

Utilizzando la console Web interattiva, si può eseguire una query Hive Hive tabelle che aver definito cluster Hadoop. Per ulteriori informazioni sull'alveare, vedere hive.apache.org.

Per utilizzare alveare, si prima creare (e caricare) una tabella dell'alveare. File di output utilizzando il nostro campione WordCount MapReduce (DavinciTop10Words.txt), è possibile eseguire il comando seguente per creare e verificare il vostro nuovo tavolo alveare:

    alveare > CARICO DATI INPATH

    'hdfs://lynnlangit.cloudapp.net:9000/user/lynnlangit/DaVinciTop10Words.txt'

    SOVRASCRIVI nella tabella wordcounttable;

    alveare > Visualizza tabelle;

    alveare > descrivere wordcounttable:

    alveare > selezionare * da wordcounttable;

Sintassi dell'alveare è simile alla sintassi SQL, e HiveQL fornisce funzionalità di query simili. Tenete a mente che tutti i dati è case-sensitive per impostazione predefinita in Hadoop.

Altri modi per connettersi al Cluster

Utilizzando RDP In aggiunta al lavoro con il cluster tramite il portale Web, è anche possibile stabilire una connessione desktop remoto al server NameNode del cluster. Per connettersi tramite RDP, si clicca il pulsante Desktop remoto sul portale, poi clicca sul file scaricato per la connessione RDP e, quando richiesto, immettere il nome utente administrator e la password. Se richiesto, aprire le porte firewall sul computer client. Una volta stabilita la connessione, è possibile lavorare direttamente con NameNode del cluster utilizzando la shell di Windows Explorer o altri strumenti che sono inclusi con l'installazione di Hadoop, proprio come si farebbe con l'esperienza di Hadoop predefinito.

Mio NameNode server è in esecuzione Windows Server 2008 R2 Enterprise SP1 su un server con due processori e 14 GB di RAM, con Apache Hadoop release 0.20.203.1 istantanea installato. Nota che le risorse del cluster consistono del nome nodo e i nodi del lavoratore associato, così il numero totale di processori per il mio cluster campione è di otto.

L'installazione comprende strumenti standard di gestione Hadoop, come la Shell dei comandi Hadoop o Command-line interface (CLI), il tracker di lavoro Hadoop MapReduce (trovato a http://[namenode]:50030) e la NameNode di Hadoop HDFS (trovato a http://[namenode]:50070). Utilizzando la Shell dei comandi Hadoop è possibile eseguire lavori MapReduce o altre attività amministrative (ad esempio, gestire il tuo stato di cluster DFS) tramite la sessione RDP.

In questo momento, è possibile connettersi tramite RDP utilizzando solo una macchina client Windows. Attualmente, la connessione RDP utilizza un cookie per abilitare il port forwarding. Connessione Desktop remoto per Mac client non ha la possibilità di utilizzare il cookie, quindi essa non riesce a connettersi alla macchina virtuale.

Utilizzando il Sqoop connettore Microsoft spedito diversi connettori per Hadoop a SQL Server alla fine del 2011 (per SQL Server 2008 R2 o successive o per SQL Server Parallel Data Warehouse). Il connettore Sqoop basato su SQL Server è progettato per consentire di importare o esportare i dati tra SQL Server e Hadoop su Linux. È possibile scaricare il connettore da bit.ly/JgFmm3. Questo connettore richiede che il driver JDBC per SQL Server siano installati sullo stesso nodo come Sqoop. Scaricare il driver a bit.ly/LAIU4F.

Troverete un esempio che mostra come utilizzare Sqoop per importare o esportare i dati tra SQL Azure e HDFS nella sezione campioni del portale.

Utilizzando FTP per utilizzare FTP, devi prima aprire una porta, che si può fare clic sul pulsante Configura porte sul portale e quindi trascinando il cursore per aprire la porta di default per FTPS (porta 2226). Per comunicare con il server FTP, avrete bisogno di un hash MD5 della password per l'account. Connettere via RDP, aprire il file users.conf dll, copiare l'hash MD5 della password per l'account che verrà utilizzato per trasferire i file su FTPS e quindi utilizzare questo valore per connettersi. Si noti che l'hash MD5 della password utilizza un certificato autofirmato sul server Hadoop che potrebbero non essere completamente attendibile.

In questa sezione del portale, è inoltre possibile aprire una porta per le connessioni ODBC (per esempio, Excel). Il numero di porta predefinito per le connessioni ODBC Server è 10000. Per le più complesse configurazioni porta, però, utilizzare una connessione RDP al cluster.

Utilizzando il Driver ODBC per Hadoop (to Connect to Excel e PowerPivot) È possibile scaricare un driver ODBC per Hadoop dalla pagina di download del portale. Questo driver, che include an add-in for Excel, può connettersi da Hadoop Excel o in PowerPivot. Figura 4 Mostra il pulsante riquadro Hive che viene aggiunto all'Excel dopo aver installato l'add-in. Il pulsante espone un riquadro Query alveare dove si può stabilire una connessione a un server di Hadoop ospitate localmente o un'istanza remota. Dopo questo modo, è possibile scrivere ed eseguire una query dell'alveare (via HiveQL) contro tale cluster e quindi lavorare con i risultati che vengono restituiti a Excel.

Figura 4 riquadro Query alveare in Excel

È inoltre possibile collegare ai dati Hadoop utilizza PowerPivot per Excel. Per connettersi a PowerPivot da Hadoop, creare innanzitutto un OLE DB per connessione ODBC utilizzando il provider dell'alveare. Nel riquadro Query Hive, quindi connettersi al cluster Hadoop utilizzando la connessione che è configurato in precedenza, quindi selezionare le tabelle dell'alveare (o scrivere una query HiveQL) e restituire i dati selezionati a PowerPivot.

Assicuratevi di scaricare la versione corretta del driver ODBC per la vostra macchina hardware ed Excel. Il driver è disponibile in versioni sia a 32-bit e 64-bit.

Facile e flessibile, ma con alcune incognite

Hadoop su beta Windows Azure mostra diverse interessanti punti di forza, tra cui:

Setup è facile utilizzando il portale Web Metro-stile intuitivo.
Ottenete scelte linguistiche flessibile per l'esecuzione di query di posti di lavoro e dati MapReduce. È possibile eseguire lavori di MapReduce utilizzando Java, c#, maiale o JavaScript, e le query possono essere eseguite utilizzando Hive (HiveQL).
È possibile utilizzare il vostro competenze esistenti se avete familiarità con le tecnologie di Hadoop. Questa implementazione è compatibile con Apache Hadoop snapshot 0.203 +.
Ci sono una varietà di opzioni di connettività, compreso un driver ODBC (SQL Server/Excel), RDP e altri clienti, nonché la connettività ad altri archivi di dati cloud di Microsoft (BLOB di Windows Azure, il mercato dei dati di Windows Azure) e altri (Amazon Web Services S3 secchi).

Tuttavia, ci sono molte incognite nella versione di Hadoop su Windows Azure che verrà rilasciato pubblicamente:

L'attuale versione è una beta privata solo; ci sono poche informazioni su una tabella di marcia e caratteristiche di rilascio programmato.
Prezzi non è stato annunciato.
Durante la beta, c'è un limite per la dimensione dei file che è possibile caricare, e Microsoft ha incluso un disclaimer che «la beta è per i test di funzionalità, non per il testing a livello di produzione dati carichi». Così non è chiaro come saranno le prestazioni della versione di rilascio.

Per demo video (screencast) della funzionalità beta di Hadoop su Windows Azure, vedere la mia Playlist di BigData su YouTube a bit.ly/LyX7Sj.

Lynn Langit (LynnLangit.com) gestisce la propria formazione tecnica e società di consulenza. Lei progetta e realizza soluzioni di dati che includono sistemi RDBMS e di NoSQL. Recentemente tornato alla pratica privata dopo aver lavorato come developer evangelist per Microsoft per quattro anni. Lei è l'autore di tre libri su SQL Server Business Intelligence, più di recente "intelligenti soluzioni di Business Intelligence con SQL Server 2008" (Microsoft Press, 2009). Lei è anche il cofondatore del TKP senza scopo di lucro (TeachingKidsProgramming.org).

Grazie all'esperto tecnica seguente per la revisione di questo articolo: Denny Lee

Share via