Como usuários, nós testemunhamos a transição de mecanismos de busca para mecanismos de resposta.  --Krisztian Balog

Bill Slawski, autor do blog SEO by the sea compartilhou o link para o livro "Entity-Oriented Search". O acesso online ao livro é gratuito e me inspirou a escrever um pequeno artigo para compartilhar alguns conceitos que acredito serem úteis para entender o funcionamento de recuperação de informação (information retrieval) dentro do universo de dados infinito da world wide web.

Em um mundo que fazemos buscas diariamente para obter informações, é importante entender algumas especificidades desse processo que parece tão comum e, ao mesmo tempo, é extremamente complexo e envolve uma infinidade de tópicos. Entre eles o NLP (Processamento de Linguagem Natural), a Web Semântica, a busca orientada a entidades, entre outros paradigmas e disciplinas.

Antes de tudo, esse texto é minha interpretação sobre o tema (querendo ou não, esse é meu site pessoal que eu mesma desenvolvi e pago pela hospedagem). Futuramente escreverei um post sobre o porquê eu defendo isso, explicando o meu processo de desenvolvimento web e de produção de conteúdo, para tentar incentivar mais mulheres a fazer o mesmo.

SEO e as disciplinas de marketing digital de forma geral são abertas a diferentes interpretações (estamos falando de tecnologia mas ao mesmo tempo existe um quê de ciências sociais aplicadas, com muito espaço para discussão e diferentes linhas de pensamento). O problema está no fato que muitas pessoas desconfiam do assunto, dada a quantidade de informações ilusórias que podem ser facilmente compartilhadas. Um bom exemplo disso são as fotos de pessoas sentadas na beira da praia com um MacBook, não é mesmo?

O meu intuito em escrever sobre a área tech está em trazer informações para ajudar as pessoas a entender um pouco mais sobre a área de SEO e quem sabe ajudar a formar uma opinião mais condizente sobre o tema, sem conteúdo patrocinado (ou originado por empresas que vendem softwares). Nada contra, mas geralmente há uma intenção secundária, e isso precisa ser posto na mesa toda vez que você buscar uma recomendação via buscadores ou redes sociais, sem consultar um profissional da área.

Também pretendo trazer scripts de python e open source (você não precisa saber programar para entender SEO). Por outro lado, se você quer saber mais sobre python, recomendo a comunidade PyLadies. Eu teria mais recomendações, mas acho que é um tema para um post inteiro, então vamos ao tópico deste post, segue abaixo o índice de conteúdos:

  1. Recuperação de Informação e Entidades
  2. Script para visualizar a relação entre entidades

1. Recuperação de Informação e entidades

O que é recuperação de informação (IR)?

De forma simples, o campo de recuperação de informação tem como objetivo combinar necessidades informacionais em objetos informacionais, de forma eficaz, determinando a relevância dos itens de acordo com a necessidade informacional do usuário.

A busca virou uma commodity e os usuários se acostumaram a expressar as suas necessidades informacionais utilizando poucas palavras-chaves e obtendo resultados relevantes quase que instantaneamente --Krisztian Balog


A frase acima é uma tradução do livro e é também a tradução da realidade atual da experiência do usuário ao escrever queries em mecanismos de busca. Mas onde que entram as entidades nesse processo?

Basicamente, antes de retornar a página com os resultados (interface do usuário), o sistema de recuperação de informação precisa acessar uma coleção de documentos e um repositório de conhecimento. O repositório funciona como uma espécie de catálogo de entidades com suas identidades e descrições.

Na busca orientada a entidades, o paradigma de organização e acesso à informação é centrado em torno das entidades, seus atributos e relacionamentos.

No livro, o sistema de busca orientado a entidades é ilustrado da seguinte forma:

Arquitetura de um sistema de busca orientado a entidades

Entre os agentes envolvidos no processo de busca, temos a pessoa com necessidade de alguma informação, o mecanismo de busca e por último, os dados. As entidades estão catalogadas no repositório de conhecimento e fazem parte, portanto, dos dados que são acessados pelo sistema de recuperação. Um exemplo clássico de repositório de conhecimento é a Wikipedia, em que cada artigo descreve uma entidade particular.

O que é uma entidade?

De forma pragmática, a entidade é um objeto ou uma coisa com uma identificação única caracterizada pelo seu nome, tipo, atributos e relações com outras entidades. Podem ser dividas entre entidades nomeadas e conceitos:

Entidades: objetos da vida real como pessoas específicas, locais, organizações, produtos, eventos, entre outros. Abaixo, um exemplo do resultado da página de busca para a query "alanis morissette", que é uma entidade pessoa cantora-compositora.

Exemplo de página de resultados para a query "Alanis Morissette" (entidade)

Conceitos: objetos abstratos como conceitos matemáticos filosóficos ("distância", "quantidade"), conceitos físicos ("gravidade", "força", "vento"), conceitos psicológicos ("emoção", "pensamento", "identidade"), conceitos sociais ("autoridade", "direitos humanos", "paz"). Abaixo um exemplo de página de busca para a query "distância entre montreal e toronto". É um exemplo de combinação entre conceito ("distância") e entidades (local).

Exemplo de página de resultados para a query "distância entre montreal e toronto" (conceito)

Como podemos ver, uma palavra-chave não está isolada e não se restringe a um resultado de uma página de busca. Entender como uma entidade se relaciona com outras informações e como pode variar de acordo com o perfil e a experiência de busca de cada usuário é algo bem interessante para analisar.

Entity-Oriented Search | SpringerLink
This open access book covers all facets of entity-oriented search—where “search” can be interpreted in the broadest sense of information access—from a unified point of view, and provides a coherent an
Link para baixar o livro Entity-Oriented Search de Krisztian Balog

Isso nos leva à segunda parte deste post, que é sobre mapear as associações entre entidades de forma visual.

2. Script para visualizar a relação entre entidades

Para visualizar a relação entre entidades, é necessário um modelo de relacionamento-entidade (entity-relationship model). Neste blog post do JR Oakes tem um passo a passo para construir uma visualização com as entidades da Wikipedia utilizando a API de linguagem natural do Google e Python (link para o google colab).

Com o script acima é possível criar gráficos de redes com as principais entidades relacionadas a um tópico ou a uma página da wikipedia. Além disso, também teremos acesso a dados como tipo de entidade (se é organização, pessoa, produto, local) e a saliência de entidade por URL.


Para concluir, é importante diferenciar a busca orientada a entidades de outros formatos (ela faz parte da busca semântica), pois permite um entendimento, ainda que superficial, de que os mecanismos de buscas tentam seguir uma "lógica estruturada" dentro da Web, um organismo que produz uma infinidade de dados constantemente.

O entendimento de entidades segue ainda como uma área super relevante para a disciplina de recuperação de informação.

Caroline Scholles | SEO em Porto Alegre
Pessoa focada em ajudar empresas a melhorarem a sua presença na web. vem ver meu site e conteúdos sobre viagem, lifestyle, tech e SEO 👩‍💻