Desenvolvimento de Softwares de Indexação Automática: breve Avaliação dos Principais Critérios
Resumen
Este estudo apresenta um resultado de pesquisa sobre critérios utilizados na construção de softwares para indexação automática. O objetivo principal foi realizar um mapeamento panorâmico, a partir da análise de literatura da área, desde a década de 1950 até o ano de 2008, para verificar quais critérios foram apontados pelos autores como relevantes para o desenvolvimento dos softwares. Como suporte teórico e metodológico analisou-se: a semântica e a sintaxe; a Linguística computacional e o Tratamento de documentos textuais para fins de recuperação da informação. Para tal, utilizou-se do procedimento metodológico de Análise de Conteúdo, identificando os critérios de indexação automática desenvolvidos e utilizados no período através de relato de experiência dos próprios pesquisadores autores. Priorizaram-se aqueles que têm como preocupação central o tratamento das questões semânticas do documento textual. Como resultados finais, obteve-se o levantamento dos principais critérios e a proposição de possíveis combinações entre eles, visando auxiliar aos profissionais na primeira etapa do processo de indexação, que trata da extração de termos relevantes para representação de assuntos. Tornou-se possível, desta forma, a utilização dos critérios que estavam dispersos na literatura através de relatos de experiências e que nem sempre são divulgadas nas áreas de interseção com a Ciência da Informação - CI, tais como a Linguística e a Ciência da Computação. Entre os objetivos alcançados, encontram-se: (1) listagem dos critérios encontrados na literatura; (2) caracterização de cada critério e (3) listagem dos critérios mais recorrentes. Obteve-se um conjunto de critérios ideais para o desenvolvimento de softwares de extração automática.Descargas
Citas
BAXENDALE, P. B. Machine-made index for technical literature: an experiment. IBM Journal of Research and Development, n. 2, p. 354-361, 1958.
BORGES, G. S. Bruzinga. Indexação automática de documentos textuais: critérios essenciais. 2009. 111 f. Dissertação (Mestrado em Ciência da Informação)- Escola de Ciência da Informação, Universidade Federal de Minas Gerais, Belo Horizonte, 2009.
CROFT, W. B; RUGGLES, L. The implementation of a document retrieval system. In: ANNUAL ACM CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL,1982, West Berlin, Germany. Proceedings... New York, NY: Springer-Verlag New York, 1982. p. 28-37 .
EDMUNDSON, H. P. New methods in automatic extracting. J. ACM, v. 16, n. 2, p. 264-285, Apr. 1969.
FREDDY, Angel; VIERA, Godoy; VIRGIL, Johnny. Uma revisão dos algoritmos de radicalização em língua portuguesa. Information Research, v. 12, n. 3, p. 26-26, Apr. 2007.
GARVIN, P. L. et al. Some opinions concerning linguistics and reformation processing. Washington, D. C.: Center for Applied Linguistics, May 1969. Available from National Technical Information Service.
HONORATO, Daniel de F. et al. Utilização da indexação automática para auxílio à construção de uma base de dados para a extração de conhecimento aplicada à doenças pépticas. In: I WORKSHOP DE COMPUTAÇÃO, 1., 2004, Palhoça. Anais… Palhoça: WORKCOMP-SUL, 2004. p. 1-9.
LAKATOS, Eva Maria. MARCONI, M. de A. Fundamentos de metodologia científica. 3. ed. rev. e aum. São Paulo: Atlas, 1991.
LANCASTER, F. W. Indexação e resumos: teoria e prática. Brasília: Briquet de Lemos, 2004. 452p.
LANCASTER, F. W. Indexação e resumos: teoria e prática. Brasília: Briquet de Lemos, 1993. 347p.
LAPA, Remi; CORREA, Renato. Indexação automática no âmbito da Ciência da Informação no Brasil. Informação & Tecnologia (ITEC), Marília/João Pessoa, n. 1, v. 2, p. 59-76, jul./dez., 2014.
MAMFRIM, Flávia P. B. Representação de conteúdo via indexação automática em textos integrais em língua portuguesa. Ci. Inf., Brasília, v. 20, n. 2, p. 191-203, jul./dez. 1991.
MARCONI, M. D. A.; LAKATOS, E. M. Técnicas de pesquisa: planejamento e execução de pesquisas, amostragens e técnicas de pesquisas, elaboração, análise e interpretação de dados. 3. ed. São Paulo: Atlas, 1996.
MARON, M. E.; KUHNS, J. L.; RAY, L. C. Probabilistic indexing: a statistical approach to the library problem. In: NATIONAL MEETING OF THE ASSOCIATION FOR COMPUTING MACHINERY, 14., ACM, 1959, Cambridge, Massachusetts. Proceedings… New York, NY: ACM, 1959. p. 1-2.
MATTAR, F. N. Pesquisa de marketing. São Paulo: Altas, 1996.
MOENS, Marie-Francine; DUMORTIER, Jos. Automatic abstracting of magazine articles: the creation of ‘highlight’ abstracts. In: ANNUAL ACM CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, 21., ACM SIGIR, 1998, Melbourne, Australia. Proceedings… New York, NY: ACM, 1998. p. 359-360.
MOREIRO GONZÁLEZ, José Antonio. El contenido de los documentos textuales: su análisis y representación mediante el lenguaje natural. Gijón: Ediciones Trea, 2004.
O’CONNOR, J. Automatic subject recognition in scientific papers: an empirical study. Journal of the Association for Computing Machinery, n. 12, p. 490-515, 1965.
OLIVEIRA, Elias et al. Um modelo algébrico para representação, indexação e classificação automática de documentos digitais. Rev. Bras. Biblio. Doc., Nova Série, São Paulo, v. 3, n. 1, p. 73-98, jan./jun. 2007.
ROBREDO, Jaime. A indexação automática de textos: o presente já entrou no futuro. In: Machado, U. D. (Org.). Estudos avançados em ciência da informação, Brasília, DF: Associação dos Bibliotecários do Distrito Federal, 1982. v. 1, p. 235-274.
ROBREDO, Jaime; CUNHA, Murilo Bastos da. Aplicação de técnicas infométricas para identificar a abrangência do léxico básico que caracteriza os processos de indexação e recuperação da informação. Ci. Inf., Brasília, v. 27, n. 1, p. 11-27, jan./abr. 1998.
SACCONI, L. A. Nossa gramática: teoria. São Paulo, Brasil: Atual. 1991.
SALTON, Gerard. Automatic text analysis. Science, v. 168, n. 3929, p. 335-343, 17 Apr. 1970.
SALTON, Gerard. Introduction to moder information retrieval. McGraw-Hill. 1983.
SALTON, Gerard. Recent studies in automatic text analysis and document retrieval. Journal of the Association for Computing Machinery, v.20, n.2, p.258-27, Apr. 1973.
SALTON, Gerard; SMITH, Maria. On the application of syntactic methodologies in automatic text analysis. In: BELKIN, N. J.; RIJSBERGEN, C.,J. Van (Eds.). ANNUAL INTERNATIONAL ACMSIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, 12., 1989, Cambridge, MA. Proceedings… New York, NY, v. 23, n. SI, Jun. 25-28, 1989. p. 137-150.
SWANSON, D. R. Searching natural language text by computer. Science, v. 132, n. 3434, p. 1099-1104, 21 Oct. 1960.
VILES, Charles L; FRENCH, James C. Dissemination of collection wide information in a distributed information retrieval system. In: ANNUAL INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, 18, 1995, Seattle, Washington. USA. Proceedings... New York, NY, USA: ACM, 1995. p. 12 - 20 .
WIVES, Leandro K. Indexação de documentos textuais. 1997. 19 f. Trabalho Monográfico - Disciplina de Sistemas de Banco de Dados (Programa de Pós-Graduação em Ciência da Computação)- Instituto de Informática, Universidade Federal do Rio Grande do Sul, Porto Alegre, 1997.