Na área de Recuperação de Informação, é comum o uso de índices invertidos em sistemas que realizam a busca de objetos armazenados através de consultas compostas por palavras chave (termos). Nesse contexto, a busca por similaridade representa uma estratégia poderosa, uma vez que permite a
recuperação de objetos que não seriam recuperados se fosse empregada a busca por equivalência. Contudo, a quantidade de objetos armazenados, a maneira como a similaridade é calculada e o número de termos da consulta podem levar a tempos de execução proibitivos se o processamento não for distribuído. Assim, esse artigo explora a possibilidade de uso do Hadoop Map-Reduce como forma de distribuir o processamento envolvido nesse tipo de busca. Além de propor um algoritmo de mapeamento, o artigo discute experimentos de busca realizados sobre um repositório digital de objetos. Os resultados mostram os cenários de teste em que o processamento distribuído se sobressai em relação ao processamento centralizado.
O Computer on the Beach é um evento técnico-científico que visa reunir profissionais, pesquisadores e acadêmicos da área de Computação, a fim de discutir as tendências de pesquisa e mercado da computação em suas mais diversas áreas.