Procurando Ferramentas para Data Mining? Confira o Data Science Toolkit
O Data Science Toolkit é um conjunto de ferramentas de dados e APIs abertas liderada pelo autor do RWW internacional Pete Warden. Você pode usá-lo para extrair textos de documentos, aprender os ensinamentos políticos de um determinado bairro, encontrar todos os nomes das pessoas mencionadas em um texto e mais. Ele o apresentou recentemente no GigaOM Structure Big Data em Nova York.
O toolkit está disponível como um serviço web, ou você pode fazer o download de uma máquina virtual e hospedá-la no seu próprio servidor.
As ferramentas incluídas neste momento são:
- Street Address to Coordinates (Endereços de Coordenadas) – Essa ferramenta calcula as coordenadas de latitude e longitude de um endereço postal.
- File to Text (Arquivo para Texto) – Converte PDFs, documentos de Word e tabelas do Excel para texto. Retira texto de imagens JPEG, PNG ou TIFF de documentos digitalizados.
- Geodict – A ferramenta retira nomes de países, cidades ou regiões de um texto em inglês desestruturado, e fornece suas coordenadas.
- IP Address to Coordinates (Endereços de IP para Coordenadas) – Essa ferramenta calcula as coordenadas de países, estados, cidades e latitude e longitude de endereços de IP.
- Text to Sentences (Textos para Sentenças) – Remove todas as partes do texto que parecem mais com clichês do que com frases reais.
- HTML to Text (HTML para Texto) – Retorna o texto integral que seria exibido no navegador quando um documento HTML foi renderizado.
- HTML to Story (HTML para História) – Retira um documento HTML que representa um artigo de notícia ou uma página similar, e extrai apenas o texto da história.
- Text to People (Texto para Pessoa) – Localiza fragmentos de textos que se parecem com os nomes das pessoas ou títulos, e sempre que possível adivinha o seu gênero.
Você pode aprender sobre as origens dessas ferramentas aqui.
Segundo Pete, “é essencialmente uma distribuição especializada do Linux, com uma grande quantidade de dados úteis de software pré-instalados e expostos numa interface simples.”
Se você quer fazer um data mining intensivo, você provavelmente vai querer o seu próprio servidor. O Data Science Toolkit está disponível tanto como uma máquina VMware como uma imagem Amazon EC2. Você pode descobrir mais sobre o toolkit aqui, e também pode encontrar a fonte no GitHub.