Código criado para utilização junto a plataforma da Digital Innovation One.
Aula Mestrada pelo Cloud Architect Marcelo Marques.
O desafio faz parte do curso na plataforma da Digital Innovation One:
Criando um ecossistema Hadoop totalmente gerenciado com Google Cloud Platform
O desafio consiste em efetuar um processamento de dados utilizando o produto Dataproc do GCP. Esse processamento irá efetuar a contagem das palavras de um livro e informar quantas vezes cada palavra aparece no mesmo.
- 
Criar um bucket no Cloud Storage
 - 
Atualizar o arquivo
contador.pycom o nome do Bucket criado nas linhas que contém{SEU_BUCKET}. - 
Fazer o upload dos arquivos
contador.pyelivro.txtpara o bucket criado (instruções abaixo) - 
Utilizar o código em um cluster Dataproc, executando um Job do tipo PySpark chamando
gs://{SEU_BUCKET}/contador.py - 
O Job irá gerar uma pasta no bucket chamada
resultado. Dentro dessa pasta o arquivopart-00000irá conter a lista de palavras e quantas vezes ela é repetida em todo o livro.