Fundamentos em processamento de linguagem natural: uma proposta para extração de bigramas

  • Edson Marchetti da Silva Centro Federal de Educação Tecnológica de Minas Gerais.
  • Renato Rocha Souza Universidade Federal de Minas Gerais

Resumo

É senso comum que o texto escrito é uma importante forma de registrar as informações e que atualmente grande parte desse conteúdo informacional está disponível em meio digital. Entretanto, de maneira geral, os computadores lidam com o texto como sendo uma cadeia de caracteres que não têm nenhum significado. A área de Processamento de Linguagem Natural (PLN) vem se empenhando em extrair significados do texto. Nesse sentido este trabalho apresenta uma revisão desse tema e propõe um método automatizado que utiliza uma heurística determinística denominada Heudet que visa extrair bigramas do texto. A meta é extrair o significado do texto através de um conjunto de expressões multipalavras identificadas. Os resultados obtidos foram melhores se  comparados com aqueles que utilizam-se das técnicas de medidas de associação estatística obtidas pelo software Ngram Statistics Package (NSP).

 

Palavras-chave: Extração de expressões multipalavras. Medidas de associação estatísticas. Heudet.

 

Link para o texto completo (PDF)

https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2014v19n40p1


 

 

Biografia do Autor

Edson Marchetti da Silva, Centro Federal de Educação Tecnológica de Minas Gerais.
Doutorado em Ciências da Informação pela Universidade Federal de Minas Gerais.
Renato Rocha Souza, Universidade Federal de Minas Gerais
Pós-doutorado em Tecnologias Semânticas para Recuperação de Informação - University of South Wales, UK.
Publicado
2015-03-12
Seção
Resumos de artigos científicos