Metodologia de Avaliação de Qualidade para Dados Conectados

  • Jessica Oliveira de Souza Ferreira Melo Programa de Pós-Graduação em Ciência da Informação, Universidade Estadual Paulista - UNESP
  • Leonardo Castro Botega Programa de Pós-Graduação em Ciência da Informação, Universidade Estadual Paulista - UNESP
  • José Eduardo Santarém Segundo Programa de Pós-Graduação em Ciência da Informação, Universidade Estadual Paulista - UNESP Universidade de São Paulo - USP http://orcid.org/0000-0003-3360-7872

Resumo

A Web Semântica sugere a utilização de padrões e tecnologias que atribuem estrutura e semântica aos dados, de modo que agentes computacionais possam fazer um processamento inteligente, automático, para cumprir tarefas específicas. Neste contexto, foi criado o projeto Linked Open Data (LOD), que consiste em uma iniciativa para promover a publicação de dados conectados. Com o evidente crescimento da publicação de dados conectados, a qualidade tornou-se essencial para que tais conjuntos atendam os objetivos básicos da Web Semântica. Isso porque problemas de qualidade nos conjuntos publicados constituem em um empecilho não somente para a sua utilização, mas também para aplicações que fazem uso de tais dados. Considerando que os dados conectados possibilitam um ambiente favorável para aplicações inteligentes, problemas de qualidade podem dificultar ou impedir a integração dos dados provenientes de diferentes conjuntos de dados. A literatura apresenta a aplicação de diversas dimensões de qualidade para dados conectados, porém, indaga-se a aplicabilidade de tais dimensões para avaliação de qualidade de dados conectados. Deste modo, esta pesquisa tem como objetivo propor uma metodologia para avaliação de qualidade nos conjuntos de dados conectados, bem como estabelecer um modelo do que pode ser considerado qualidade de dados no contexto da Web Semântica. Para isso, adotou-se uma abordagem exploratória e descritiva a fim de se estabelecer problemas, dimensões, requisitos de qualidade e métodos quantitativos na metodologia de avaliação, a fim de realizar a atribuição de índices de qualidade. O trabalho resultou na definição de 7 dimensões de qualidade e 14 fórmulas diferentes avaliar conjuntos de dados sobre publicações científicas. Acredita-se que a metodologia proposta consiste em um meio viável para quantificação dos problemas de qualidade em dados conectados, e que apesar dos diversos requisitos, podem existir conjuntos que não atendam determinados requisitos de qualidade, e por sua vez, não deveriam estar inclusos no diagrama do projeto LOD.

Referências

ACOSTA, M. et al. Crowdsourcing Linked Data quality assessment. In: INTERNATIONAL SEMANTIC WEB CONFERENCE, 12., 2013, Sydney. Proceedings... Berlin: Springer, 2013. p. 260-276.

BERNERS-LEE, T. Linked Data: design issues. 2006. Disponível em: <https://www.w3.org/DesignIssues/LinkedData.html>. Acesso em: 29 jun. 2016.

BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. The semantic web. Scientific American, v. 284, n. 5, p. 28-37, 2001.

BIZER, C.; CYGANIAK, R. Quality-driven information filtering using the WIQA policy framework. Web Semantics: Science, Services and Agents on the World Wide Web, v. 7, n. 1, p. 1-10, 2009.

BIZER, C.; HEATH, T.; BERNERS-LEE, T. Linked data: the story so far. International Journal on Semantic Web and Information Systems, v. 5, n. 3, p. 1-22, 2009.

FÜRBER, C.; HEPP, M. SWIQA: a semantic web information quality assessment framework. In: EUROPEAN CONFERENCE ON INFORMATION SYSTEMS, 18., 2011, Roksilde. Proceedings... [S.l.]: AISeL, 2011. p. 19.

HOGAN, A. et al. An empirical survey of linked data conformance. Web Semantics: Science, Services and Agents on the World Wide Web, v. 14, p. 14-44, 2012.

KONTOKOSTAS, D. et al. TripleCheckMate: a tool for crowdsourcing the quality assessment of linked data. In: INTERNATIONAL CONFERENCE ON KNOWLEDGE ENGINEERING AND THE SEMANTIC WEB, 4., 2013, St. Petersburg. Proceedings... Heidelberg: Springer, 2013. p. 265-272.

MENDES, P. N.; MÜHLEISEN, H.; BIZER, C. Sieve: linked data quality assessment and fusion. In: INTERNATIONAL CONFERENCE ON EXTENDING DATABASE TECHNOLOGY, 15.; INTERNATIONAL CONFERENCE ON DATABASE THEORY, 15., 2012, Berlin. Proceedings... New York: ACM, 2012. p. 116-123.

RULA, A.; ZAVERI, A. Methodology for Assessment of Linked Data Quality. In: INTERNATIONAL CONFERENCE ON SEMANTIC SYSTEMS, 10., 2014, Leipzig. Proceedings... Leipzig: LDQ, 2014.

SHADBOLT, Nigel; BERNERS-LEE, Tim; HALL, Wendy. The semantic web

revisited. IEEE intelligent systems 21, no. 3 (2006): 96-101.

ZAVERI, A. et al. Quality assessment for linked data: a survey. Semantic Web, v. 7, n. 1, p. 63-93, 2015.

ZAVERI, A. et al. User-driven quality evaluation of DBpedia. In: INTERNATIONAL CONFERENCE ON SEMANTIC SYSTEMS, 9., 2013, Graz. Proceedings... New York: ACM, 2012. p. 97-104.

AMICIS, Fabrizio; De, BATINI, C. (2004). A Methodology for Data Quality Assessment on Financial Data. Studies in Communication Sciences, p. 1–12.

LEE, Y. W et al. AIMQ: a methodology for information quality assessment. Information & Management. p. 133–146.

Publicado
2018-10-20