A Web de Dados: Criando informações acessíveis para máquinas

Nos próximos anos, nós veremos uma revolução na habilidade das máquinas de acessar, processar e aplicar informação. Esta revolução vai emergir de três áreas de atividade relacionadas à Web Semântica: a Web de Dados, a Web de Serviços e a Web de Identidades. Estas redes visam tornar o conhecimento de dados semânticos acessível, os serviços semânticos disponíveis e conectáveis e o conhecimento semântico dos indivíduos processável, respectivamente. Neste post, nós vamos analisar a Web de dados e ver como tornar informações acessíveis para máquinas vai transformar a maneira como nós achamos informações.

O volume de informações e serviços disponíveis está crescendo exponencialmente. Cada dia fica mais difícil encontrar a informação que estamos procurando. E ainda por cima temos que aprender a dizer para as máquinas o que queremos. Por que uma máquina não pode entender qual website, tweet, foto do Flickr, mensagem do Facebook, ou restaurante nós estamos procurando?

Por que ela não pode. Ela não entende. Ela não tem acesso a maioria das fontes. Ela não possui o entendimento semântico e senso comum para construir pontes entre conceitos.

É critico que máquinas ganhem um novo nível de entendimento. Ao invés de calcular estatisticamente o quanto um termo de busca bate com um documento uma máquina precisa literalmente ser capaz de entender. Para que isso seja possível, bases de conhecimentos são necessárias. Exemplos destas bases de conhecimento incluem:

• uma enciclopédia de como buscar o significado semântico e contexto de um determinado termo (por exemplo, entender que Berlim é uma cidade, quantas pessoas vivem lá, e onde fica);

• páginas amarelas ou um repositório de serviços para buscar informações que mudam com freqüência e informações mais complexas. (por exemplo, a rota de Berlim para Porto de carro, a temperatura atual de Porto em Celsius);

• um banco de dados de pessoas para procurar por informações pessoais que, com a permissão dos usuários, pode melhorar sistemas de  personalização e de recomendação.

A Web dos Dados

A idéia de uma web dos dados surgiu com a web semântica. Tentaram resolver o problema da inerente incapacidade das máquinas de entender páginas web. Inicialmente, O objetivo da Web Semântica era invisivelmente marcar páginas web com um conjunto de meta-atributos e categorias para permitir as máquinas interpretar o texto e colocá-lo em algum tipo de contexto. Esta abordagem não foi bem sucedida por que as marcações eram muito complicadas para humanos sem treinamento técnico. Abordagens similares como microformatos simplificam o processo de marcação e por isso ajudam a eliminar esse problema.

Estas abordagens tem em comum o esforço de melhorar o acesso das máquinas ao conhecimento contido em páginas web que são originalmente projetadas para serem consumidas por humanos. Entretanto estes sites contém um monte de informações que não é relevante para as máquinas e estas precisam ser filtradas. Mas espere! Quem disse que as máquinas e nós humanos precisamos compartilhar a mesma web?

A idéia de uma Web de Dados apareceu como um resultado tanto destas limitações como da existência de um incontável conjunto de dados estruturados, espalhados pelo mundo e contendo todo tipo de informação.   Esses dados são propriedade de empresas, que optam por deixá-los acessíveis. Tipicamente um conjunto de dados contém conhecimento sobre um domínio em particular como livros, música, dados enciclopédicos, empresas, etc. Se estes conjuntos de dados forem interligados (tenham links como websites), uma máquina poderia atravessar esta web independente de dados estruturados para ganhar conhecimento semântico sobre entidades e domínios. O resultado seria uma base de conhecimentos livremente acessível formando a base de uma nova geração de aplicações e serviços.

Linked Open Data – Ligando dados abertos

web_data_apr09b

Uma abordagem promissora é o projetos de Linked Open Data (Dados Abertos Ligados), ou apenas LOD para os íntimos.  A imagem acima ilustra conjuntos de dados (data sets) participantes.

Todos os conjuntos de dados garantem acesso ao seu conhecimento e contém links para outros conjutnos de dados. O projeto segue os princípios básicos do design da World Wide Web: simplicidade, design modular e descentralização. O projeto atualmente conta com mais de 2 bilhões de fatos em RDF, o que é um monte de conhecimento (Cada fato no RDF é um pedaço de informação que consiste de 3 partes: sujeito, predicado e um objeto para expressar uma propriedade de um sujeito ou uma relação com outro sujeito).

O número de conjuntos de dados participantes  do LOD está crescendo rapidamente. Os conjuntos de dados podem ser acessados de várias formas, por exemplo, através de um browser semântico ou sendo indexados por buscadores semânticos.

Com todos os fatos disponíveis na Web de Dados, conhecimento fica acessível às máquinas que vão permitir um geração inteira de serviços serem criados. Buscas altamente sofisticadas se tornam processáveis por máquinas e acessíveis a próxima geração de serviços de busca.

Assistam a palestra introdutória que Tim Berners-Lee deu no TED :

Fica então a pergunta: quais novos serviços podem surgir explorando a Web de Dados?

0 responses to “A Web de Dados: Criando informações acessíveis para máquinas

  1. Linked open data é uma iniciativa importantíssima, e cada vez vem ganhando mais força. Tive o privilégio de ver a palestra do Tim Berners-lee na #cparty 2009 e dá pra perceber que o cara é um visionário. Estou curioso para saber se tem alguma empresa brasileira abrindo seus dados ou desenvolvendo aplicativos usando este tipo de material.

  2. Oi Diego,

    Ainda não vi nenhuma empresa brasileira realizando uma iniciativa assim. Fora do Brasil este ano vimos uma explosão de crescimento na Web de Dados graças a entrada de grandes players como o New York Times,BBC, Guardian . Como você mesmo disse Tim Berners-lee é um visionário, a Web de Dados terá um papel fundamental no futuro das aplicações web. Um fato importante que temos que lembrar é que a maior parte destes dados estão em inglês. Talvez exista uma oportunidade interessante em trazer esta tecnologia para o Brasil.

  3. Linked open data é uma iniciativa importantíssima, e cada vez vem ganhando mais força. Tive o privilégio de ver a palestra do Tim Berners-lee na #cparty 2009 e dá pra perceber que o cara é um visionário. Estou curioso para saber se tem alguma empresa brasileira abrindo seus dados ou desenvolvendo aplicativos usando este tipo de material.

  4. Oi Diego,

    Ainda não vi nenhuma empresa brasileira realizando uma iniciativa assim. Fora do Brasil este ano vimos uma explosão de crescimento na Web de Dados graças a entrada de grandes players como o New York Times,BBC, Guardian . Como você mesmo disse Tim Berners-lee é um visionário, a Web de Dados terá um papel fundamental no futuro das aplicações web. Um fato importante que temos que lembrar é que a maior parte destes dados estão em inglês. Talvez exista uma oportunidade interessante em trazer esta tecnologia para o Brasil.

  5. Linked open data é uma iniciativa importantíssima, e cada vez vem ganhando mais força. Tive o privilégio de ver a palestra do Tim Berners-lee na #cparty 2009 e dá pra perceber que o cara é um visionário. Estou curioso para saber se tem alguma empresa brasileira abrindo seus dados ou desenvolvendo aplicativos usando este tipo de material.

  6. Oi Diego,

    Ainda não vi nenhuma empresa brasileira realizando uma iniciativa assim. Fora do Brasil este ano vimos uma explosão de crescimento na Web de Dados graças a entrada de grandes players como o New York Times,BBC, Guardian . Como você mesmo disse Tim Berners-lee é um visionário, a Web de Dados terá um papel fundamental no futuro das aplicações web. Um fato importante que temos que lembrar é que a maior parte destes dados estão em inglês. Talvez exista uma oportunidade interessante em trazer esta tecnologia para o Brasil.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *