O Data Science Toolkit é um conjunto de ferramentas de dados e APIs abertas liderada pelo autor do RWW internacional Pete Warden. Você pode usá-lo para extrair textos de documentos, aprender os ensinamentos políticos de um determinado bairro, encontrar todos os nomes das pessoas mencionadas em um texto e mais. Ele o apresentou recentemente no GigaOM Structure Big Data em Nova York.

O toolkit está disponível como um serviço web, ou você pode fazer o download de uma máquina virtual e hospedá-la no seu próprio servidor.

As ferramentas incluídas neste momento são:

  • Street Address to Coordinates (Endereços de Coordenadas) – Essa ferramenta calcula as coordenadas de latitude e longitude de um endereço postal.
  • File to Text (Arquivo para Texto) – Converte PDFs, documentos de Word e tabelas do Excel para texto. Retira texto de imagens JPEG, PNG ou TIFF de documentos digitalizados.
  • Geodict – A ferramenta retira nomes de países, cidades ou regiões de um texto em inglês desestruturado, e fornece suas coordenadas.
  • IP Address to Coordinates (Endereços de IP para Coordenadas) – Essa ferramenta calcula as coordenadas de países, estados, cidades e latitude e longitude de endereços de IP.
  • Text to Sentences (Textos para Sentenças) – Remove todas as partes do texto que parecem mais com clichês do que com frases reais.
  • HTML to Text (HTML para Texto) – Retorna o texto integral que seria exibido no navegador quando um documento HTML foi renderizado.
  • HTML to Story (HTML para História) – Retira um documento HTML que representa um artigo de notícia ou uma página similar, e extrai apenas o texto da história.
  • Text to People (Texto para Pessoa) – Localiza fragmentos de textos que se parecem com os nomes das pessoas ou títulos, e sempre que possível adivinha o seu gênero.

Você pode aprender sobre as origens dessas ferramentas aqui.

Segundo Pete, “é essencialmente uma distribuição especializada do Linux, com uma grande quantidade de dados úteis de software pré-instalados e expostos numa interface simples.”

Se você quer fazer um data mining intensivo, você provavelmente vai querer o seu próprio servidor. O Data Science Toolkit está disponível tanto como uma máquina VMware como uma imagem Amazon EC2. Você pode descobrir mais sobre o toolkit aqui, e também pode encontrar a fonte no GitHub.