Analisando a Web Semântica em Tempo Real

Muitos de vocês provavelmente nunca ouviram falar do projeto Ellerdale até esta semana, com o anúncio do Twitter de que ele seria um dos novos parceiros da empresa para receber seus dados na firehose, um stream de todos os tweets passam pelo serviço que antes eram prioridade para os gigantes como Yahoo, Google e Microsoft.

É bastante interessante o que o Ellerdale está fazendo com os 50 milhões de tweets diários, o serviço usa um inteligente motor de análise de dados para analisar o contexto e os links dos tweets, combinando essas informações com outras fontes de dados como feeds RSS e conteúdo da Wikipedia. Tudo isso para criar um mecanismo de pesquisa em tempo real e um rastreador de tendências que fornece muito mais do que uma lista de tweets, mas uma visão geral das conversas que estão acontecendo no mundo.

Lançado no final de 2009, o Ellerdale que ainda está em fase de testes alfa, mas já rastreia fontes de dados por toda web, principalmente no Twitter, e examina os tópicos que estão sendo discutidos. Em seguida ele separa essas conversas em categorias como “pessoas”, “esportes”, “política”, “música”, “televisão” e muito mais. Cada categoria contém tópicos de conversação e sub-tópicos. Por exemplo, na categoria “pessoas”, “Sarah Palin” é um tema de conversa e os sub-tópicos são “Tonight Show” e “Jay Leno”, por sua recente aparição nestes programas de TV.

Você pode clicar em qualquer um dos tópicos ou sub-tópicos para saber mais sobre o que está sendo discutido. Embora a melhor característica do Ellerdale seja sua capacidade em destacar esses tipos de tendências, você também pode utilizá-lo para pesquisa na web em tempo real.

Qualquer página de tópicos do Ellerdale fornece uma grande quantidade de dados. Há resumos fornecidos por fontes como Wikipedia, Freebase (banco de dados semântico), New York Times e mais. Os tópicos relacionados são listados acima do fluxo de mensagens na página principal de cada tópico. À direita se encontra um gráfico da popularidade da palavra-chave ao longo do tempo, e você pode visualizar dados da última hora, dia, semana ou mês. Também à direita está uma lista top artigos de toda web, classificados pelo número de vezes que foram mencionados no Twitter. Essa lista pode até ser enviada via feed RSS.

E não vamos esquecer o prato principal, atualizações em tempo real do stream de tweets. Essa stream de mensagens mostra quem escreveu o que, quando e qual cliente do Twitter a pessoa usou, o que seria as mesmas informações que se vê no Twitter.com. No entanto, a homepage do Twitter e os resultados de busca precisam que você atualize para ver os novos tweets e resultados, essa stream atualiza em tempo real à medida que novos tweets são soltos.

Esse motor de busca é somente mais um de muitos que tem acesso ao fluxo de tweets do site. Os outros parceiros novos do Twitter também são serviços de busca e rastreamento incluindo o Collecta, Kosmix, Scoopler, twazzup, CrowdEye e Chainn Search, cada um analisa os dados do Twitter de sua própria maneira. Cada um tem seu próprio nicho, design e características que atraem grupos diferentes de pesquisadores. O Ellerdale é interessante devido a sua capacidade semântica, mas não é o único que oferece esse tipo de vantagem, Kosmix está desenvolvendo seu portal semântico de notícias já tem três anos.

A melhor parte de todas essas parcerias é que estamos prestes a ver surgir na web uma maneira inteiramente nova de pesquisa. Para obter resultados rápidos em tempo real, sempre haverá os principais motores de busca e suas listas básicas de tweets, mas para análise de dados verdadeiros, agora temos novas opções como o Ellendale e os outros.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *