ESTUDO DA SIMILARIDADE DE PALAVRAS VIA ANÁLISE ESPECTRAL DA MATRIZ TERMO-DOCUMENTO

  • Beatriz Boto
  • Beatriz Silva Boto
  • Fernando Luis Dias
  • Vera Lucia Duarte Ferreira
Rótulo Matriz, ocorrência, Análise, Vetorial, Decomposição, valores, singulares, Similaridade, Termos

Resumo

A modelagem computacional da linguagem humana via análise vetorial possibilita medir a similaridade entre palavras, podendo ser utilizado para filtragem e/ou recuperação de informação através da indexação e classificação de relevâncias. A ideia central da modelagem consiste no mapeamento da frequência de ocorrência de termo (palavra) em documentos transformando-os em vetores. Este estudo piloto tem por objetivo avaliar o grau de similaridade entre palavras via análise espectral da matriz termo-documento. A metodologia aplicada foi a identificação dos fatores mais relevantes da matriz de ocorrência utilizando a decomposição SVD (Singular-Value Decomposition) para obter o espectro da correlação entre documentos no intuito de condensar em uma matriz menor, mas que mantenha as informações dos dados. Neste trabalho, o experimento computacional para exemplificar o desempenho do modelo buscou determinar a ocorrência de dois termos no contexto da literatura clássica mundial Romeu e Julieta de Shakespeare. Para consulta dos termos morte e adaga foi considerado um corpus constituído de cinco documentos identificados por di com i=1,2,...,5. Vale salientar que, nem todos documentos mencionam de forma explícita algum dos termos de busca. Porém, todos os documentos apresentam palavras que com alguma relação semântica com os termos de busca. A primeira etapa na construção da matriz termo-documento é gerar um dicionário constituído com as palavras de cada documento di. A segunda é introduzir um parâmetro local, tF(t,di), que quantifica a frequência do termo t no documento di. Após obtenção da referida matriz, a partir do corpus, foram utilizados os softwares livres Scilab e Geogebra, respectivamente, para realizar a decomposição em SVD e a representação gráfica dos vetores, visto que a métrica de similaridade escolhida foi o cosseno do ângulo entre os vetores que correspondem aos documentos. O gráfico do decaimento espectral mostrou os dois valores singulares de maior relevância em ordem de grandeza. Por fim realizamos a média aritmética dos dois termos de busca, chegando ao vetor chamado centróide que preserva as informações, utilizando-o como um representante dos dois termos. Para melhor identificação da aplicabilidade do método, os vetores foram plotados na janela de visualização, 2D, do Geogebra, assim como os cálculos das similaridades. O presente trabalho abordou a utilização da análise espectral de matriz na recuperação da informação de termos de busca, bem como na indexação dos cinco documentos. Como trabalho futuro seguiremos na implementação de um algoritmo mais genérico em linguagem Python.

Downloads

Não há dados estatísticos.
Publicado
2020-11-20
Como Citar
BOTO, B.; SILVA BOTO, B.; LUIS DIAS, F.; LUCIA DUARTE FERREIRA, V. ESTUDO DA SIMILARIDADE DE PALAVRAS VIA ANÁLISE ESPECTRAL DA MATRIZ TERMO-DOCUMENTO. Anais do Salão Internacional de Ensino, Pesquisa e Extensão, v. 12, n. 2, 20 nov. 2020.