Um método de sumarização automática de textos através de dados estatísticos e Processamento de Linguagem Natural

Autores

  • Osvaldo de Souza Universidade Federal do Ceará
  • Hamilton Rodrigues Tabosa Universidade Federal do Ceará
  • Davi Martins de Oliveira Universidade Federal do Ceará
  • Mayra Helena de Souza Oliveira Universidade Federal do Ceará

Palavras-chave:

Sumarização automática de textos, Acessibilidade Informacional, PLN, Mediação da Informação

Resumo

Este artigo discute a mediação da informação em relação à sumarização automática de textos, examina técnicas de processamento de linguagem natural (PLN), e analisa o uso de técnicas de processamento de texto baseadas em métodos estatísticos de ocorrência de palavras do português brasileiro. Contextualiza o termo sumarização à Ciência da Informação. Propõe e apresenta um método de produção automática de sumários de textos baseado em técnicas de PLN e métodos estatísticos de uso de palavras. Para cada uma dessas técnicas, analisa e exemplifica, e oportunamente, apresenta as equações que governam o uso de tais técnicas. Como resultados obtidos na pesquisa, destaca-se um inédito corpus anotado, composto por aproximadamente meio milhão de palavras do português brasileiro, além dos resultados médios obtidos com os testes empíricos da ferramenta de sumarização, que indicam uma redução da dimensionalidade, para textos com até 500 palavras, da ordem de 53%. A análise geral dos achados da pesquisa indica que os resultados são promissores quanto à capacidade de redução e a preservação do valor semântico dos textos.

Downloads

Não há dados estatísticos.

Biografia do Autor

Osvaldo de Souza, Universidade Federal do Ceará

Professor do Departamento de Ciências da Informação da Universidade Federal do Ceará - UFC. Doutor em Engenharia de Teleinformática pela UFC. Coordenador do Grupo de Pesquisa de Aplicações em Tecnologias Assistivas e Usabilidade - CNPq. E-mail: osvaldo@ufc.br / osvsouza@gmail.com

Hamilton Rodrigues Tabosa, Universidade Federal do Ceará

Professor do Departamento de Ciências da Informação da Universidade Federal do Ceará. Doutor em Ciência da Informação pela Universidade Federal da Paraíba.  Brasil.

Davi Martins de Oliveira, Universidade Federal do Ceará

Graduado em Biblioteconomia na Universidade Federal do Ceará.

Mayra Helena de Souza Oliveira, Universidade Federal do Ceará

Graduanda em Biblioteconomia na Universidade Federal do Ceará.

Downloads

Publicado

2017-12-24

Como Citar

Souza, O. de, Tabosa, H. R., Oliveira, D. M. de, & Oliveira, M. H. de S. (2017). Um método de sumarização automática de textos através de dados estatísticos e Processamento de Linguagem Natural. Informação &Amp; Sociedade: Estudos, 27(3). Recuperado de https://periodicos.ufpb.br/ojs2/index.php/ies/article/view/32571

Edição

Seção

Relatos de Pesquisa