ONTOLOGIAS NA REPRESENTAÇÃO DE DOCUMENTOS:
um panorama atual para descrição de
conteúdo multimídia em rede

ONTOLOGIES IN DOCUMENT REPRESENTATION:
a current overview for description of network multimedia content

Daniela Lucas da Silva Lemos1

Renato Rocha Souza2

RESUMO

O artigo evidencia o fenômeno do crescimento de dados multimídia semanticamente relacionados e distribuídos na Web. Destaca um problema comumente verificado em instituições que fazem uso de acervos digitais em rede no que diz respeito ao tratamento integrado de bases de dados heterogêneas e a ausência de padronização nos formatos de descrição de seus dados. Encaminhamentos de pesquisa são apresentados, destacando padrões de metadados, ontologias, vocabulários controlados e modelos conceituais na exploração semântica da informação. O artigo se propõe a apresentar o resultado do estado da arte envolvendo ontologias para descrição de conteúdo multimídia na Web. Busca-se contribuir com propostas que estão explorando o uso de ontologias para agregar conhecimento em metadados a fim de realizar organização e integração de informações multimídia em diferentes domínios. Metodologicamente, a pesquisa foi classificada como sendo de natureza qualitativa, de caráter exploratório e descritivo à luz de literatura científica já publicada e material empírico específico, o que a torna bibliográfica e documental. Para a seleção e a análise das ontologias multimídia foi utilizado o guia NeOn Methodology que orientou juntamente com princípios do método de análise de conteúdo a definição de categorias de análise fundamentais ao procedimento de coleta e organização dos dados. Os vocabulários semânticos analisados e apresentados nesse estudo conseguem, em níveis diferenciados, organizar sistematicamente várias categorias de metadados existentes. Por fim, uma avaliação metódica, bem fundamentada e criteriosa realizada previamente em ontologias pode promover condições necessárias para decisões de seleção e reúso direcionadas à organização do conhecimento de um domínio.

Palavras chave: Anotação semântica. Interoperabilidade. Padrões de metadados. Ontologias. Multimídia.

ABSTRACT

In the scope of the ever growing semantically related multimedia data on the Web, this paper highlights the common problem of integration of heterogeneous databases and the absence of standardization in the formats for describing your data. Through the analysis of metadata patterns, ontologies, controlled vocabularies and conceptual models we propose to present the state of the art of ontologies to describe multimedia content on the Web. We seek to contribute to research exploring the use of ontologies to aggregate knowledge in metadata in order to perform organization and integration of multimedia information in different domains. Methodologically, the research is of qualitative nature, exploratory and descriptive in the light of scientific literature already published and specific empirical material, which makes it bibliographical and documentary as well. For the selection and analysis of multimedia ontologies, the NeOn Methodology guide was used, which following the principles of content analysis, aimed at the definition of categories of analysis relevant to data collection and organization. The semantic vocabularies analyzed and presented in this study can, at different levels, systematically organize several categories of existing metadata. Finally, a methodical, well-founded and judicious evaluation carried out previously in ontologies can promote the necessary conditions for selection and reuse decisions directed to the knowledge organization of a domain.

Keywords: Semantic Annotation. Interoperability. Metadata Standards. Ontologies. Multimedia.

Artigo submetido em 11/08/2019 e aceito em 11/12/2019

1 INTRODUÇÃO

Nos últimos anos têm-se observado um crescimento significativo de dados multimídia semanticamente relacionados e distribuídos na Web, o que se tem denominado na literatura de Linked Data ou dados interligados (BERNERS-LEE, 2006; SCHANDL et al., 2011; BIZER; HEATH; BERNERS-LEE, 2009). Instituições como bibliotecas, arquivos, museus, centros de documentação e memória, dentre outras, interessadas em tornar mais efetivo o acesso e a recuperação de informações contribuem para esse cenário por meio de projetos envolvendo a digitalização de coleções e disponibilização na Internet (HILDEBRAND et al., 2010; PATTUELLI, 2011; WINER; ROCHA, 2013), o que promove desafios ao processo de produção, organização e disseminação de informação em função da descaracterização do formato de produção e consumo de informação associado a seus usuários.

O conteúdo produzido e disponibilizado na rede pode se encontrar integrado em diferentes suportes, apresentando aspecto multimídia. A natureza da informação multimídia aqui discutida reflete um documento composto que faz referência a vários tipos de objetos, tais como vídeo, texto, som, imagem, modelo 3D, entre outros, e que pode ser dividido em outros fragmentos midiáticos da mesma natureza. Podem-se citar exemplos de aplicações multimídia voltadas a áreas de educação (ensino local e a distância; bibliotecas digitais), de saúde (telemedicina, bases de dados de imagens médicas), de entretenimento (bases de dados sobre músicas, jogos, vídeo sob demanda, TV interativa), de negócios (vídeo conferência, comércio eletrônico), de patrimônio cultural (coleções digitais organizadas em bases de dados oriundas de museus e outras instituições responsáveis pela guarda e divulgação de obras de arte e documentos históricos), dentre outras.

A aplicação de tecnologias da Web para uma variedade de domínios e áreas específicas impulsiona a inovação, resultando no aumento do número de adeptos, incorporando negócios, ciência, governo, mídia, cultura, dentre outros (DOMINGUE; FENSEL; HENDLER, 2011). Outra mudança que reflete as mídias digitais são os dispositivos eletrônicos (tablets, câmeras digitais, filmadoras, telefones inteligentes, MP3 players, televisores) integrados à Web que permitem o consumo e a gestão de conteúdo digital multimídia, propiciando um crescimento da disponibilidade da mídia. Tal crescimento torna-se incontrolável sem o apoio de tecnologias de informação e comunicação para seu armazenamento, organização e recuperação.

Contudo, um problema comumente verificado em instituições que fazem uso de acervos digitais das mais variadas naturezas (imagens, fotografias, cartas, desenhos, periódicos, entrevistas em áudio e vídeo, gravações de rádio, de vídeo, dentre outros) está no tratamento integrado das bases de dados heterogêneas e na ausência de padronização nos formatos de descrição. A descrição de inúmeros itens geralmente é realizada de maneira independente, com padrões idiossincráticos de descrição, ressaltando diferentes características a serem descritas e diferentes terminologias para descrevê-las. Tal prática culmina em situações problemáticas para os sistemas de recuperação da informação como, por exemplo: i) busca feita por palavras isoladas e descontextualizadas, o que dificulta maior visibilidade do acervo sob a ótica dos usuários e, consequentemente, dos mecanismos de busca; ii) falta de contexto nos itens midiáticos descritos (por exemplo, como fotos e vídeos se relacionam com o texto?); iii) ambiguidade conceitual (de qual conceito precisamente está se falando?); e iv) pouca relevância para o recurso recuperado.

Nessa perspectiva, pesquisas estão sendo desenvolvidas no campo da Ciência da Informação focando em estudos sobre a problemática do excesso de informações e sua organização, com o objetivo de melhorar a eficácia dos sistemas de recuperação de informação. Podem-se citar, dentre outras, algumas pesquisas nessa perspectiva voltadas à exploração semântica da informação, tais como: a) Web Semântica e sua proposta emergente de dados interligados ou, também, dados abertos interligados - Linked Open Data - LOD, que intencionam criar metodologias, tecnologias e padrões de metadados para aumentar o escopo da interoperabilidade (BERNERS-LEE; HENDLER; LASSILA, 2001; BERNERS-LEE, 2006; BIZER; HEATH; BERNERS-LEE, 2009); b) instrumentos voltados à representação de relacionamentos semânticos e conceituais como ontologias (GRUBER, 1993; GUARINO, 1998; SMITH, 2004; ALMEIDA, 2013; SOERGEL, 2017) e vocabulários controlados (ANSI 2005; SILVA; SOUZA; ALMEIDA, 2008; ABBAS, 2010) objetivando endereçar problemas relacionados à interoperabilidade de sistemas e bases de dados, além das dificuldades intrínsecas à manipulação da linguagem natural como, por exemplo, as questões de polissemia e sinonímia; e c) modelos conceituais, de referência e ontológicos que orientam a modelagem da realidade documental e o processo de busca e recuperação da informação em contextos digitais como o Functional Requirements for Bibliographic Records - FRBR (IFLA, 1998); o International Committee for Documentation/Conceptual Reference Model - CIDOC CRM (LE BOEUF, 2018); o Multimedia Metadata Ontology - M3O (SAATHOFF; SCHERP, 2010); e o Europeana Data Model – EDM (EUROPEANA, 2017).

Benjamins et al. (2011) destacam que no setor de mídia, a solução para problemas relacionados ao gerenciamento da explosão de conteúdos tanto textual quanto multimídia está na capacidade conceitual que o suporte automatizado oferece para um tratamento semântico adequado. Evain e Bürger (2011) afirmam que o elemento-chave para uma integração bem sucedida de dados multimídia está na adoção de ontologias como um meio formal de descrever seus conteúdos e características técnicas. Durante as últimas décadas, surgiram várias iniciativas na produção de ontologias baseadas em tecnologias da Web Semântica voltadas a descrever conteúdo multimídia (SILVA; SOUZA, 2014; LEMOS; SOUZA, 2018) cujos esforços objetivaram transformar padrões de metadados multimídia como o MPEG-7 em formatos semelhantes a ontologias.

Ontologias são de interesse como instrumento de organização de conhecimento que versa especialmente na análise de conceitos e relacionamentos de um domínio, dentre os quais são agregados de axiomas formais (através de declarações lógicas) que restringem a interpretação da terminologia. Assim, ontologias sendo vistas como sistemas de organização de conhecimento podem ser endereçadas, por exemplo, para organização e controle da terminologia usada em metadados destinados a mídias diversas; além de auxiliar usuários na produção de descrições mais sistemáticas e consistentes por meio de conhecimento explícito acerca de um domínio. Tal modelo é referenciado na literatura como anotação semântica de documentos (UREN et al. 2005; BÜRGER et al. 2009; DOMINGUE; FENSEL; HENDLER, 2011), o que os tornam inteligentes no sentido de possibilitar conhecimento sobre o conteúdo, viabilizando processamento pela máquina.

Este artigo tem como objetivo apresentar o resultado do estado da arte envolvendo ontologias para descrição de conteúdo multimídia na Web. Busca-se contribuir com proposições internacionais que estão explorando o uso de ontologias para agregar conhecimento em metadados a fim de realizar organização e integração de informações multimídia em diferentes domínios. A presente seção contextualiza, problematiza e traça o objetivo da pesquisa. As seções 2 e 3 se encarregam de elucidar conceitos fundamentais ao entendimento da pesquisa, incluindo padrões de metadados e ontologias destinados à representação de documentos multimídia. A seção 4 descreve os aspectos metodológicos que fundamentaram o percurso da pesquisa e a consolidação dos resultados. A seção 5 apresenta as ontologias multimídia juntamente com quadros sinópticos representando a análise documental e de conteúdo de cada uma delas. E a seção 6 se encarrega de traçar as considerações finais e direcionamentos futuros quanto à continuidade de pesquisas.

2 PADRÕES DE METADADOS MULTIMÍDIA

O uso de metadados é uma prática antiga na área de Biblioteconomia, uma vez que o processo de catalogação e indexação sempre foi realizado no intuito de organizar, descrever e melhorar o acesso à informação (GILLILAND, 2016; TAYLOR, 2004; BODOFF; HUNG; BEN-MENACHEM, 2005; ZENG; QIN, 2008; ABBAS, 2010; MILLER, 2011). Nesse sentido, metadados pode ser considerado produto do desenvolvimento histórico de regras bibliográficas, mantendo, portanto, conexões evolutivas com os Códigos e com as novas metodologias de tratamento da informação em diversas mídias, a exemplo do Resource Description and Access – RDA e das linguagens eXtensible Markup Language - XML, Resource Description Framework - RDF e Ontology Web Language - OWL para representações de características de objetos digitais, especialmente na Web (ALLEMANG; HENDLER, 2008; SIQUEIRA; SILVA, 2011).

Os modelos conceituais como o FRBR, o CRM/CIDOC e o EDM estão sendo usados em sistemas de informação voltados à gestão de acervos bibliográficos, museológicos e arquivísticos para agregar semântica aos dados e facilitar a interoperabilidade entre acervos digitais de diferentes instituições de memória e cultura (MARCONDES, 2016; CONEGLIAN; SANTAREM SEGUNDO, 2017; CARRASCO; VIDOTTI, 2018; SANTAREM SEGUNDO; SILVA; MARTINS, 2019). Nixon et al. (2011) esclarece interoperabilidade sobre dois aspectos: sintático e semântico. No primeiro caso, os dados precisam ser representados em estruturas e formatos similares; e no segundo, os esquemas de metadados e vocabulários associados precisam ter significado livre de ambiguidade. Assim, modelos conceituais, por terem semânticas específicas para seus dados e relações, também são importantes em soluções de interoperabilidade baseadas nas tecnologias da Web.

A necessidade de inclusão de metadados para além de recursos textuais, isto é, metadados destinados à descrição de conteúdo multimídia, especialmente na Web, viabilizou o esforço conjunto entre comunidades e entidades normativas interessadas em fornecer um framework comum de metadados para aplicações de mídias inteligentes. São os casos do World Wide Web Consortium - W3C e da International Organization for Standardization/ International Electrotechnical Commission - ISO/IEC, que buscam soluções inteligentes para descrição de conteúdo multimídia processável por máquina e baseada em semântica. Nesse sentido, destaca-se o padrão de metadados MPEG-7 ISO/IEC, comumente usado para descrição de conteúdo multimídia em rede (NACK; LINDSAY, 1999a; NACK; LINDSAY, 1999b; SALEMBIER, 2002; SALEMBIER; SMITH, 2001; CHANG; SIKORA; PURL, 2001; MARTÍNEZ; KOENEN; PEREIRA, 2002; MARTÍNEZ, 2004).

O MPEG-7, formalmente nomeado Multimedia Content Description Interface, teve sua origem no ano de 1998 e em 2001 tornou-se padrão internacional ISO/IEC 15938 sob-responsabilidade do Moving Picture Experts Group. O padrão fornece um vocabulário rico de conteúdo multimídia (audiovisual, em especial), incluindo descritores de nível baixo, extraídos da própria mídia e, de alto nível, destinados à descrição semântica de conteúdo multimídia, consistindo de uma combinação de características de áudio, dado visual, e dados textuais.

As comunidades de Biblioteca Digital, Representação do Conhecimento e Inteligência Artificial (uma parte da comunidade interessada em raciocínio automatizado sobre mídias) que interpretam, manipulam e geram arquivos de mídia audiovisuais têm participado intensamente em projetos de pesquisas voltados a modelos e tecnologias para processamento de metadados (OSSENBRUGGEN; NACK; HARDMAN, 2004; NACK; OSSENBRUGGEN; HARDMAN, 2005; BODOFF; HUNG; BEN-MENACHEM, 2005).

A comunidade de Biblioteca Digital utiliza metadados nos processos de catalogação e recuperação da informação em grandes coleções de documentos. O padrão Dublin Core é o comumente usado na comunidade com os seus elementos de metadados destinados principalmente a catálogos em bibliotecas, incluindo título, assunto e dados de criação da obra. Atualmente, as comunidades da Web Semântica e da Dublin Core Metadata Iniciative – DCMI progridem em caminhos paralelos e influenciam um ao outro em suas iniciativas de avanços tecnológicos (BODOFF; HUNG; BEN-MENACHEM, 2005). Para o W3C, a Web Semântica é uma tentativa de produzir resultados de pesquisas em Biblioteca Digital e representação do conhecimento que sejam aplicáveis à Web.

Por outro lado, a comunidade de Representação do Conhecimento ocupa-se com a infraestrutura tecnológica bem projetada para adicionar metadados a documentos Web com vistas à publicação formal e explícita de conhecimento na Web. Ontologias são estruturas-chave para compartilhar e comunicar conhecimento explícito por meio de um compromisso ontológico entre pessoas e aplicações (agentes computacionais) que irão usar a terminologia da ontologia de acordo com regras especificadas.

Em decorrência às realidades supracitadas, o padrão MPEG-7 necessitou ajustar-se com abordagens de diferentes comunidades. De um lado, as comunidades de Biblioteca Digital e Representação de Conhecimento enfatizando a necessidade de descrições de alto nível para conteúdo audiovisual; do outro lado, as comunidades de Processamento de Imagens, Visão Computacional e Processamento de Sinais de Áudio focando em técnicas de análise visual e de som, buscando padronizar somente a representação de características de conteúdo primitivo, de natureza quantitativa, além de pesquisas sobre algoritmos de detecção de características de mídia (NACK; LINDSAY, 1999a; OSSENBRUGGEN; NACK; HARDMAN, 2004).

Com efeito, as diferentes visões técnicas entre tais comunidades e os diferentes caminhos para formular os desafios apresentados pelo padrão acarretaram dificuldades e complexidade na especificação de elementos dentro do MPEG-7, conforme reflete a estrutura da norma. E, ainda, apesar de ser um padrão de descrição recomendado pela comunidade Multimídia, principalmente por seu background de conhecimento neste domínio, possui limitações de ordem semântica por ser baseado no formato XML Schema. Por outro lado, O W3C e comunidades afins vêm empregando esforços de pesquisas para ir além dos padrões de metadados correntes com a adoção de ontologias para anotação multimídia baseadas em RDF/OWL e no padrão MPEG-7 (SILVA; SOUZA, 2014).

Ontologias como modelo de anotação ou descrição de conteúdo multimídia são elucidadas na próxima seção.

3 ONTOLOGIAS COMO MODELO DE ANOTAÇÃO

Em ambientes digitais, um recurso (qualquer artefato identificável por um Uniform Resource Identifier - URI) pode ser descrito por meio de modelos de anotação expressos em tags, atributos, relações e ontologias dentre os quais se caracterizam por seus níveis de complexidade estrutural (BÜRGER, 2009). Um elemento de anotação baseado em tag caracteriza-se por uma palavra chave não hierárquica ou termo livre associado a um recurso. Um elemento de anotação baseado em “atributo” é representado por um par <AN, AV>, em que AN é o nome do atributo e AV é o seu valor. Já o modelo de anotação de relação é uma extensão do modelo de atributos, permitindo o usuário interligar recursos através de links. Exemplos de aplicações que fazem uso desses tipos de modelos são as redes sociais como Flickr e Instagram; a base de conhecimento Wikidata; e projetos como o Wikipedia.

Apesar de serem modelos comumente usados no contexto da Web, as anotações oriundas de tags, atributos e relações ficam sujeitas a problemas de heterogeneidade semântica devido à natureza ambígua da linguagem natural, resultando em questões como (i) polissemia, (ii) sinonímia e (iii) fatores hierárquicos. Em (i) os elementos de anotação podem ter interpretação ambígua, por exemplo, o termo “letra” pode ser usado para descrever um recurso sobre a “música de um artista” ou um recurso sobre a “caligrafia presente num manuscrito”; essa situação pode reduzir a precisão na busca em um sistema de recuperação da informação. Em (ii), os elementos de anotação podem ser sintaticamente diferentes, mas com o mesmo significado, por exemplo, os nomes de atributos “é imagem de” e “é pintura de” podem ser usados alternativamente por usuários e, portanto, deveriam ser ligados como atributos sinônimos. E em (iii), os termos usados na anotação e na busca são diferentes em suas especificidades, por exemplo, quando o usuário executa a busca com o termo “história da arte”, os recursos anotados com o termo “barroco”, caso não sejam vinculados, não serão encontrados no sistema.

Os problemas supracitados geralmente são endereçados usando-se de instrumentos como vocabulários controlados (ANSI, 2005) para identificar de forma unívoca e não ambíguos recursos ou documentos envolvidos em sistemas de recuperação de informação. Desse modo, no processo de anotação, o usuário utiliza elementos do vocabulário controlado (ex. termos, conceitos) para retirar ambiguidades dos termos destinados à descrição do recurso; já no processo de busca, o usuário produz uma consulta buscando o mesmo feito nos termos envolvidos a partir de elementos do vocabulário controlado e, em seguida, submete esta consulta a uma máquina de busca.

Ontologias como modelo de anotação podem ser usadas como vocabulários controlados, no entanto numa perspectiva de tratamento semântico, o que permite um usuário descrever e interligar recursos existentes por meio de qualificadores como conceitos, instâncias, propriedades e restrições mantidas entre tais recursos. O modelo é endereçado à anotação semântica de documentos, o que Shadbolt, Hall e Berners-Lee (2006) esclarecem ser uma abordagem subjacente aos conceitos preconizados pela Web Semântica no que tange ao fornecimento de significado à organização da informação por meio de conexões lógicas entre os termos, o que promove interoperabilidade entre sistemas. Assim, padrões internacionais relacionados a marcações de dados, a primitivas de modelagem e a linguagens de representação baseadas em XML são promovidos e mantidos pelo W3C para desenvolvimento de ontologias como OWL, além do esquema de anotação RDF.

As ontologias podem ser usadas tanto para promover anotações sobre recursos, quanto para auxiliar o processo de anotação. No primeiro caso, usuários (ou grupos de especialistas) constroem ontologias para fornecer seus componentes (ex. classes, instâncias, relações) como elementos de anotação. No segundo caso, usuários fornecem elementos de anotação (de forma simples e transparente) e promovem ligações dessas anotações a fontes de conhecimento subjacentes a ontologias. Nessa perspectiva, comentam-se a seguir sobre dois projetos que estão fazendo uso de ontologias visando integração semântica e interoperabilidade de dados na rede semântica LOD.

O projeto Europeana envolve uma grande biblioteca digital que oferece aos usuários acesso livre a milhões de livros, pinturas, coleções de museus e arquivos digitalizados e provenientes de instituições culturais e científicas européias (CARRASCO; VIDOTTI, 2018). Utiliza um modelo conceitual de dados denominado EDM (EUROPEANA, 2017) que busca promover alinhamento semântico entre variados padrões de metadados, tais como Lightweight Information Describing Objects - LIDO para museus, Encoded Archival Description - EAD para arquivos, MARC para as bibliotecas e Dublin Core para recursos Web, advindos de diversos acervos de instituições culturais. O EDM pode ser considerado um modelo conceitual baseado em ontologias a partir do momento em que promove o enriquecimento de dados culturais por meio da estrutura semântica subjacente aos padrões W3C.

O projeto do portal semântico do Centro de Pesquisa e Documentação de História Contemporânea do Brasil - CPDOC da Fundação Getúlio Vargas - FGV (SOUZA et al., 2012) envolve o desenvolvimento de ontologias para descrição multimídia e de domínio específico para possibilitar a integração de seus sistemas junto a Web de dados. O projeto prevê a migração de todo o acervo atual para uma base de dados comum em formato RDF triplestore, e a unificação dos padrões de descrição entre todos os fundos e sistemas. Desse modo, pretende-se oferecer uma interface única para buscas temáticas transversais e integradas, utilizando-se conceitos e categorias de conceitos relativos ao domínio da História Contemporânea Brasileira.

4 METODOLOGIA DE PESQUISA

A presente pesquisa foi classificada segundo a abordagem do seu problema, seus objetivos e seus procedimentos técnicos para coleta e análise dos dados. Com base no problema, esta pesquisa pode ser classificada como qualitativa, pois houve a necessidade de entender o fenômeno investigado do qual pouco se conhecia.

Com base em seus objetivos, esta pesquisa pode ser classificada em: i) exploratória, pois pretende investigar e aprimorar ideias sobre um assunto emergente no campo das ontologias – descrição semântica de documentos multimídia – em que se requer uma investigação minuciosa na literatura e em casos específicos que fazem uso de ontologias nessa perspectiva; e ii) descritiva, pois pretende levantar e descrever características do fenômeno a ser investigado à luz da literatura e de material empírico específico.

Em relação aos procedimentos técnicos para coleta e análise dos dados, esta pesquisa pode ser classificada como bibliográfica e documental, pois pretende usar como fonte de consulta materiais já publicados na literatura científica: artigos, anais de congressos, relatórios técnicos de pesquisa, teses, dissertações, normas e fontes documentais subjacentes aos recursos de conhecimento (padrões de metadados, modelos conceituais e ontologias) estudados.

Os métodos e as técnicas voltados à identificação, à seleção e à elaboração das categorias de análise envolvendo as ontologias multimídia foram oriundos da NeOn Methodology (SUÁREZ-FIGUEROA; GÓMEZ-PÉREZ; FERNÁNDEZ-LÓPEZ, 2012), um guia metodológico que orienta por meio de cenários, uma série de passos flexíveis para o desenvolvimento de vocabulários semânticos para a Web, focando a identificação, a seleção e a análise de recursos de conhecimento disponíveis. Para tal, propõe a busca, a seleção e a análise de recursos ontológicos para promover o uso e reúso destes em rede. Entende-se por recursos ontológicos, ontologias já definidas ou partes de ontologias disponíveis e úteis à resolução de problemas.

A justificativa da escolha da Neon Methodology se deu em função de ser um guia metodológico atual, testado e validado em diferentes domínios, especialmente no domínio pesquisado, além de ser oriundo de frameworks metodológicos amplamente aceitos em áreas maduras como Engenharia de Software e Engenharia do Conhecimento.

O primeiro passo foi realizar a atividade de aquisição de conhecimento sobre o assunto “descrição semântica de documento multimídia”, a qual envolveu um estudo acerca do domínio por meio de fontes documentais, incluindo normas, artigos e bibliotecas de esquemas XML relacionadas a padrões para descrição de documentos multimídia. Os padrões de metadados ISO MPEG-73 e Dublin Core4 foram selecionados como material de referência para aquisição de conhecimento sobre o domínio, pois em revisão recente de literatura (SILVA; SOUZA, 2014), evidenciou-se que grande parte de ontologias multimídia é construída com fundamentos advindos de tais padrões.

O segundo passo foi identificar ontologias multimídia fazendo-se um levantamento na literatura e buscas em repositórios da Web Semântica. O critério usado para a seleção de ontologias multimídia na literatura se baseou no conceito “multimídia”, conforme já elucidado neste artigo. Outro princípio adotado para o critério de seleção foi o de seguir diretrizes relevantes e recomendadas pelo padrão de metadados MPEG-7 no aspecto de descrição multimídia, a saber: i) descrições de conteúdo semântico; ii) descrições estruturais permitindo a decomposição de conteúdos e localização de seus segmentos; e iii) descrições de nível baixo cobrindo características audiovisuais.

Para a identificação e a seleção de ontologias em repositórios Web, o guia NeOn recomenda o uso de máquinas de busca para a recuperação de ontologias em repositórios da Web Semântica. As máquinas de busca selecionadas dentre as opções listadas pela comunidade LOD foram o Watson5 e o Swoogle6. Ambas são bem avaliadas em projetos LOD e validações de uso (SUÁREZ-FIGUEROA; GÓMEZ-PÉREZ; FERNÁNDEZ-LÓPEZ, 2012). Os termos chave usados para a busca de documentos semânticos foram determinados a partir da atividade de aquisição de conhecimento anteriormente comentada. A análise de conteúdo das ontologias identificadas foi realizada por meio do próprio navegador Web e do editor Protégé7 4.3.

As atividades de busca na literatura e em repositórios Web resultaram, num primeiro momento, em 17 ontologias multimídia candidatas a análise. Após um processo de refinamento8 frente às ontologias previamente selecionadas para análise, nove ontologias foram elencadas, a saber: Media Ontology, M3 Multimedia, M3O, projeto Boemie, COMM, projeto Polysema, MPEG-7 Hunter, projeto SmartWeb e projeto Rhizomik.

A atividade de análise das ontologias multimídia foi considerada um processo de auditoria, no qual as ontologias e documentações subjacentes foram inspecionadas e analisadas. No total, foram gastas 224 horas de análise sobre as nove ontologias envolvidas na pesquisa. O processo de análise e interpretação dos documentos relacionados a cada ontologia se deu através da utilização de técnicas de análise de conteúdo (BARDIN, 1977), que contempla um conjunto de métodos de análise das comunicações visando obter indicadores (quantitativos ou não) que permitam a inferência de conhecimentos presentes nas mensagens.

A principal técnica utilizada foi a determinação de categorias que subsidiariam a análise de conteúdo dos materiais envolvidos. As categorias para analisar as ontologias multimídia foram elaboradas a partir de casos de uso em diversas experiências de projeto envolvendo critérios para desenvolvimento de ontologias, descritos no do guia metodológico NeOn. O Quadro 1 apresenta e descreve as categorias responsáveis pela análise das fontes documentais envolvendo as ontologias multimídia e do conteúdo de seus códigos.

Quadro 1 - Categorias de análise destinadas às ontologias multimídia

Categorias de análise

Descrição

Análise de fontes documentais

Propósito de desenvolvimento da ontologia

Relacionado ao propósito de desenvolvimento da ontologia analisada. Por exemplo, ontologias desenvolvidas para fins acadêmicos são menos confiáveis do que àquelas desenvolvidas para serem usadas em projetos reais.

Disponibilidade de documentação da ontologia

Relacionado à existência de qualquer material usado para descrever a ontologia como, por exemplo, decisões de modelagem. A partir deste material, um não especialista do domínio deve entender o conhecimento representado na ontologia.

Recursos de conhecimento utilizados

Relacionado a recursos ontológicos (ex. ontologias de fundamentação, etc.) e não ontológicos (ex. padrões de metadados) usados na ontologia.

Disponibilidade de conhecimento externo

Relacionado à referência de fontes documentais externas em projetos que fazem uso da ontologia analisada e/ou acesso fácil a autores e especialistas.

Disponibilidade de testes

Relacionado à disponibilidade de testes para a ontologia analisada.

Disponibilidade de resultados de avaliação de testes

Relacionado à existência de um conjunto de unidades de testes usado na avaliação da ontologia.

Informação sobre a equipe de desenvolvimento

Relacionado à reputação da equipe de desenvolvimento da ontologia.

Informação sobre projetos e ontologias que fazem uso

Relacionado à existência de outros projetos conhecidos ou ontologias que reusam a ontologia analisada.

Análise de conteúdo (código da ontologia)

Natureza dos metadados multimídia

Relacionado a características multimídia cobertas pelas ontologias analisadas, apoiando, assim, o processo de uso e reúso de conceitos.

Linguagem de implementação

Relacionado à verificação da linguagem que representa os componentes da ontologia analisada.

Claridade no código

Relacionado à facilidade no entendimento e modificação do código; se as entidades contidas no código seguem um padrão, se são claras e coerentes; se existem comentários; e se o código é documentado.

Adequação a extração de conhecimento

Relacionado à facilidade de identificação e extração de partes do conhecimento na ontologia analisada.

Adequação a convenção de nomes

Relacionado à verificação de regras associadas à determinação de nomes (terminologia) dos componentes ontológicos (conceitos, relações, etc.).

Anotações existentes na terminologia

Relacionado à existência e à qualidade das anotações realizadas nos elementos da terminologia da ontologia analisada.

Axiomas existentes na terminologia

Relacionado à existência de axiomas nos elementos da ontologia, garantindo, assim, restrições acerca de suas interpretações.

Fonte: elaborado pela autora

Finalmente, a categoria de análise denominada “Natureza dos metadados multimídia” foi organizada em três subcategorias de tipos de metadados (com garantia literária), a saber: metadados independentes de conteúdo, metadados dependentes de conteúdo e metadados descritivos de conteúdo. Tais categorias serviram para organizar as características multimídia oriundas da composição de descritores e esquemas de descrição do MPEG-7 e elementos do Dublin Core.

A subcategoria metadados independentes de conteúdo é direcionada ao gerenciamento e a administração de recursos de informação e foi organizada em quatro tipos de descrição, a saber: i) criação e produção da mídia; ii) classificação da mídia; iii) informação da mídia; e iv) uso da mídia. Em (i) têm-se características envolvendo a criação do conteúdo da mídia e de recursos a ele associados; em (ii) têm-se características destinadas à classificação de materiais audiovisual, tais como gênero, assunto, propósito, idioma, além de classificação etária, orientação para pais e avaliação subjetiva; em (iii) as características são voltadas ao meios de armazenamento incluindo formato, compressão e codificação do conteúdo audiovisual; e em (iv) as características refletem direitos de uso, registro e disponibilidade de uso e informação financeira acerca do conteúdo audiovisual.

A subcategoria metadados dependentes de conteúdo foi organizada em metadados visuais e metadados para áudio, ambas consideradas de nível baixo e geralmente seus conteúdos são extraídos automaticamente por algoritmos computacionais. Os metadados visuais abrangeram as características: estruturas básicas, cor, textura, forma, movimento, localização e reconhecimento de rosto. Os metadados para áudio contemplaram as características: base espectral, timbre espectral, timbre temporal, paramétricos de sinal, espectral básico e básico.

E a subcategoria metadados descritivos de conteúdo se caracteriza por associar entidades da mídia com entidades do mundo real e contemplou os seguintes aspectos: i) segmentos de mídia; ii) semântica de conteúdo; iii) personalização de conteúdo; e iv) características de alto nível envolvendo áudio. Em (i) têm-se características relacionadas à estrutura de conteúdo em termos de segmentos (decomposição) de vídeo, de imagem estática e de áudio; em (ii) encontram-se características envolvendo objetos, eventos e noções do mundo real que podem ser abstraídos do conteúdo multimídia; em (iii) agregam características de modos de personalização de conteúdo multimídia a fim de facilitar navegação, acesso e interação de usuários em relação ao consumo de conteúdo; e em (iv) têm-se características voltadas à cobertura de domínios de conhecimento específicos envolvendo áudio.

5 ESTADO DA ARTE: ONTOLOGIAS MULTIMÍDIA

A presente seção apresenta as nove ontologias multimídia selecionadas na pesquisa. A apresentação de cada ontologia realiza-se a partir de orientações advindas das categorias de análise determinadas (elucidadas na seção sobre a metodologia de pesquisa) para extração de conteúdo presente nas documentações subjacentes bem como de informações pontuais sobre as análises das representações de conhecimento (inspeção no código) dessas ontologias, as quais foram realizadas no editor Protégé. Assim, buscou-se dissertar sobre os aspectos relacionados ao propósito dos projetos e suas ontologias, a estrutura dos vocabulários em conjunto com a natureza dos tipos de metadados que cada um representa, a presença de componentes importantes nas estruturas como axiomas e anotações, e a computação das horas consumidas para cada análise, sendo, sobretudo, um dado importante para decisões de reúso.

Destaca-se que, os Quadros 2 e 3 apresentam um resumo da análise de conteúdo documental das ontologias multimídia selecionadas. E o Quadro 4 apresenta um resumo da análise envolvendo a inspeção do código dessas ontologias. O valor “Ausente” direcionado à categoria nos quadros sinópticos correspondentes se deu em função de um vocabulário não apresentar a proposta correspondente.

Na definição da ordem para análise das ontologias e consequentes apresentações, foram observados os casos em que se praticam reúso de outras ontologias que se encontram no conjunto selecionado para análise, como é o caso, por exemplo, da M3 Multimedia que pratica reúso da Media Ontology, da COMM e da MDO Boemie. A observação se tornou necessária decorrente ao fato de que na análise da estrutura de conhecimento, poder-se-ia encontrar vocabulários ainda não examinados, dificultando o entendimento e a coerência na apresentação das análises.

A sequência das apresentações ocorre como se segue: a seção 5.1 apresenta a ontologia Media Ontology; a seção 5.2 discorre sobre a ontologia Core Ontology for Multimedia; a seção 5.3 expõe as ontologias multimídia do Projeto Boemie; a seção 5.4 apresenta a M3 Multimedia; a seção 5.5 elucida a Multimedia Metadata Ontology; a seção 5.6 apresenta a ontologia MPEG-7 de Jane Hunter; a seção 5.7 apresenta a ontologia MPEG-7 do projeto Rhizomik; a seção 5.8 trata das ontologias multimídia do projeto SmartWeb; e a seção ٥.٩ tece considerações sobre a ontologia MPEG-٧ MDS envolvida no projeto Polysema.

5.1 Media ontology

A Media Ontology é uma ontologia sobre mídia desenvolvida por membros do W3C Media Annotation Working Group (STEGMAIER et al., 2009), com versão recomendada e datada de 2012 pelo comitê. O grupo busca melhorar a interoperabilidade entre esquemas de metadados para recursos de mídia na Web, tais como vídeo, áudio e imagem. A ontologia foi construída utilizando-se padrões metodológicos de engenharia de ontologias com propósito de definir um conjunto de propriedades de anotação centrais para descrever conteúdo multimídia, juntamente com um conjunto de mapeamentos entre os principais formatos de metadados em uso atualmente, tais como Dublin Core, MPEG-7, EXIF, VRA, DIG35, EBUCore, etc.

A estrutura da ontologia inclui propriedades de anotação que contemplam metadados para identificação do recurso da mídia, criação e descrição do próprio conteúdo. Existem também propriedades voltadas à descrição de coleções de recursos, a relações para outros recursos, incluindo Simple Knowledge Organization System - SKOS, e a gerenciamento de direitos digitais. Propriedades de anotações podem ser realizadas na mídia como um todo ou em partes usando as especificações do Media Fragments URI para identificar fragmentos multimídia, além de propriedades consideradas técnicas, tais como tamanho do quadro de imagens e vídeos, duração da mídia, formato, tipo de compressão, etc.

Na análise da representação do conhecimento da Media Ontology, constatou-se que os metadados independentes de conteúdo são os mais representativos na ontologia, com destaque para descritores alinhados com o padrão Dublin Core. Os metadados descritivos de conteúdo foram representados quase que exclusivamente por descrições de segmentos de mídia e algumas associadas a aspectos semânticos de conteúdo e a personalização deste (descrição para coleções). Os metadados dependentes de conteúdo não tiveram cobertura, não sendo, portanto, o foco de interesse desta ontologia.

Observou-se que grande parte das classes da ontologia é possuidora de axiomas simples contendo declarações de restrições como owl:disjointWith para restringir a participação de suas instâncias em classes indevidas. As anotações são bem exploradas na ontologia, apoiando o ontologista na tarefa de exploração semântica de seus elementos. Finalmente, pela simplicidade em sua estrutura, além de comentários sobre a mesma, não se apresentou dificuldades para analisar o código da ontologia no Protégé. Foram consumidas 24 horas para as tarefas de análise e interpretação dos dados concernentes a Media Ontology.

5.2 COMM: Core Ontology for Multimedia

A COMM ou Core Ontology for Multimedia foi desenvolvida no ano de 2007 por um grupo de renomados pesquisadores nas áreas Multimídia, Bibliotecas Digitais e Web Semântica (ARNDT et al., 2009). O propósito principal da COMM é fornecer uma conceituação fundamental para descrição multimídia cobrindo de maneira genérica um domínio em específico que lida com conteúdo desta natureza. A sua equipe de desenvolvimento realizou uma reengenharia no padrão MPEG-7 buscando uma representação formal com a mesma convenção terminológica.

A abrangência semântica da COMM é alcançada pela utilização de princípios da engenharia de ontologias que sugere o emprego de ontologias de fundamentação e padrões de projeto de conteúdo ontológico (GANGEMI; PRESUTTI, 2009). Assim, os padrões de projeto multimídia da COMM são estendidos dos padrões de projeto da ontologia de fundamentação Descriptive Ontology for Linguistic and Cognitive Engineering - DOLCE, formando a seguinte estrutura modular: o padrão para decomposição orienta a estrutura de um documento multimídia, enquanto que os padrões de anotação da mídia, de anotação de conteúdo e de anotação semântica são úteis para anotar, respectivamente, a mídia, suas características e o conteúdo semântico do documento.

Na análise da representação do conhecimento da COMM, constatou-se que os metadados independentes de conteúdo são os mais representativos na ontologia. Os metadados dependentes de conteúdo vêm em seguida, sendo bem representados por características visuais, tais como cor, textura, forma, movimento e localizações espaço temporais em imagem e vídeo. E os metadados descritivos de conteúdo são bem representados pelos padrões multimídia para decomposição e para anotação semântica.

Observou-se que os conceitos da DOLCE e de seus padrões de projeto não foram disponibilizados com axiomas. Os axiomas encontram-se na maioria das classes dos padrões multimídia estendidos com declarações lógicas bem elaboradas nas especificações de suas subclasses. Por outro lado, as anotações são bem representadas nos elementos ontológicos da COMM por meio de comentários que indicam a fonte documental para equiparações com conceitos MPEG-7. Finalmente, a análise de conteúdo da COMM foi considerada custosa em termos de esforço no entendimento da complexa estrutura taxonômica de conceitos abstratos advindos da DOLCE e padrões multimídia estendidos. Foram consumidas 32 horas para as tarefas de análise e interpretação dos conceitos multimídia da ontologia.

5.3 BOEMIE: Multimedia Content Ontology and Descriptors Ontology

O projeto Bootstrapping Ontology Evolution with Multimedia Information - Boemie foi organizado e constituído por membros vinculados a renomados Centros de Pesquisa Europeus interessados em análise semântica multimídia (DASIOPOULOU et al., 2008). Teve seu início no ano de 2006 e relatório final publicado em 2008 na proposição de ontologias multimídia e de domínios visando o tratamento semântico em um cenário de aplicação específico.

O projeto inclui ontologias interligadas para descrever aspectos multimídia e de domínios específicos. No que diz respeito ao aspecto multimídia, têm-se a Multimedia Content Ontology - MCO e a Multimedia Descriptors Ontology - MDO. A primeira representa informação relacionada à estrutura de conteúdo; já a segunda representa informação sobre dados numéricos extraídos por meio de ferramentas computacionais de análise e extração de conteúdo multimídia. As ontologias de domínios Athletics Events Ontology - AEO e a Geographic Information Ontology – GIO descrevem, respectivamente, os domínios sobre eventos públicos de atletismo e informação geográfica.

Na análise da representação do conhecimento das ontologias do projeto Boemie, constatou-se que os metadados independentes de conteúdo são os menos representativos, contando com um número mínimo de descritores destinados a informação sobre o arquivo e o local de acesso à mídia. Os metadados descritivos de conteúdo tiveram um índice de cobertura satisfatório nas características de segmentação multimídia. Características de navegação e acesso, organização de conteúdo e interação de usuário não são cobertas pelas ontologias do projeto. E os metadados dependentes de conteúdo foram bem representados pelos descritores de cor, textura, forma, movimento, localização e reconhecimento de rosto.

Verificou-se que as ontologias multimídia do projeto Boemie possuem uma rica axiomatização em suas classes e propriedades, com declarações lógicas bem elaboradas, incluindo conectivos lógicos, quantificador existencial e universal, valores específicos, cardinalidade e características transitivas. Em relação às anotações, os comentários evidenciados são em sua maioria extraídos da norma MPEG-7. Destaca-se que os resultados da análise de conteúdo das ontologias multimídia pertencentes ao projeto foram obtidos com tranquilidade, obtendo-se um consumo de 24 horas para as tarefas de análise e interpretação dos conceitos multimídia envolvidos.

5.4 M3 Multimedia

A M3 Multimedia foi desenvolvida no ano de 2012 (ATEMEZING, 2011) como parte de uma ontologia abrangente denominada M3 Ontology Network. O projeto denominado Buscamedia objetivou criar um mecanismo de busca semântica de recursos multimídia visando progressos nas áreas de semântica, produção audiovisual e distribuição de mídia. A equipe de desenvolvimento contou com renomados pesquisadores da Facultad de Informática da Universidad Politecnica de Madrid e do W3C Media Annotations Working Group.

Os modelos multimídia da ontologia representam informações de nível baixo (ex. descritores MPEG-7), informações de estrutura (ex. decomposição de objetos) e informações sobre o conteúdo multimídia (ex. uma partida de futebol em um vídeo). Os modelos de aspecto multidomínio representam semânticas abstratas para eventos, agentes e ações em diferentes domínios. E os modelos multilíngue organizam a informação linguística necessária para apoiar a representação da M3 em diferentes linguagens naturais, tais como espanhol, catalão, galego, basco e inglês. O projeto seguiu práticas de reúso de ontologias como a COMM, a Media Ontology, as do projeto Boemie e a de alto nível DOLCE+DnS Ultralight.

Na análise da representação do conhecimento das ontologias envolvendo a M3 Multimedia, constatou-se que os metadados independentes de conteúdo são os mais representativos. Os metadados descritivos de conteúdo vêm em seguida representando de forma satisfatória as características de segmentação e semântica de conteúdo; além de cobrirem algumas características voltadas a personalização, especialmente para navegação e organização de conteúdo multimídia. E para os metadados dependentes de conteúdo, a cobertura ocorre na representação de características como cor, textura, forma, movimento, localização e reconhecimento de rosto.

Observou-se a existência de axiomas nas classes e propriedades da M3. Para os elementos reusados da Media Ontology, os axiomas foram considerados simples; para os conceitos oriundos da ontologia visual do projeto Boemie, da COMM e da DOLCE, os quais se somaram em maior número, os axiomas foram considerados complexos. Em relação às anotações, comentários foram identificados como sendo, em sua maioria, de pouca contribuição semântica. As restrições de propriedades indicam que a M3 emprega bem os recursos de domain e range RDFS/XML para promover integridade nos relacionamentos entre as classes. Finalmente, em decorrência da extensão da M3, foram consumidas 32 horas para as tarefas de análise e interpretação dos conceitos multimídia envolvidos.

5.5 M3O: Multimedia Metadata Ontology

A M3O ou Multimedia Metadata Ontology foi desenvolvida no ano de 2010 (SAATHOFF; SCHERP, 2010) por pesquisadores do departamento de Ciência da Computação da University of Koblenz-Landau. A proposta buscou criar um modelo semântico abrangente para representar dado multimídia, o que o torna distinto de outros projetos de ontologias multimídia em não focar na representação ontológica fundamentada em um padrão de metadado específico, como, por exemplo, o MPEG-7.

A M3O se fundamenta na ontologia de alto nível DOLCE+DnS Ultralight - DUL e em três padrões de projeto de ontologias denominados Description and Situation - DnS, Information and Realization Pattern e Data Value Pattern. A partir dessa fundamentação, a M3O consegue promover a separação entre objetos de informação e suas realizações. Segundo Saathoff e Scherp (2010), a separação entre objetos de informação e realização da informação para fins de anotação e decomposição torna-se relevante no sentido de fornecer uma distinção clara entre a semântica (conteúdo da mensagem) e o dado (formato do arquivo de mídia).

Na análise de conteúdo da representação do conhecimento da M3O, constatou-se que os metadados descritivos de conteúdo são os mais representativos, em função, principalmente, de suas características voltadas à decomposição de segmentos multimídia e a tratamento semântico de conteúdo. Para esta última, os metadados envolvidos foram cobertos pelas classes de alto nível da DUL envolvendo entidades como evento, objeto, agente e relações semânticas. Os metadados independentes de conteúdo são cobertos pelas características de informação da mídia representadas pelas classes objetos de informação e realização da informação da DUL. E em razão da natureza genérica da M3O, metadados dependentes de conteúdo voltados a descrições visuais e de áudio não estão explícitos na estrutura do modelo, entretanto podem ser criados a partir das classes do padrão de anotação da ontologia.

Ficou evidenciada a existência de axiomas complexos nas classes e propriedades da M3O para a representação de seus padrões. Foram observadas também anotações com declarações conceituais advindas das classes de sua ontologia de fundamentação, indicando que o modelo é bem documentado no que tange a esclarecimentos conceituais de sua estrutura. Finalmente, foram consumidas 24 horas para as tarefas de análise e interpretação dos padrões multimídia da ontologia.

5.6 MPEG-7 Hunter

A ontologia MPEG-7 foi proposta em 2001 por Jane Hunter no escopo de um projeto envolvendo biblioteca digital (HUNTER, 2001) em que propõe uma tradução manual do padrão de metadado MPEG-7 visando integração com tecnologias da Web Semântica.

A estrutura da ontologia compreende classes para entidades multimídia básicas como Audio, Audiovisual, Image, Multimedia e Video e descritores visuais oriundos do padrão, sendo ainda harmonizada com a ontologia de alto nível denominada ABC para possibilitar descrições semânticas vinculadas a ontologias de domínios específicos. Nesse sentido, projetos endereçados a anotação semântica de imagens envolvendo células pancreáticas e de combustível fizeram uso desta ontologia, incluindo descritores visuais de nível baixo como cor, textura e forma. Atualmente, sua versão compreende classes descritas em OWL Full para entidades multimídia básicas e advindas do esquema de descrição multimídia do MPEG-7. Ademais, a ontologia é referenciada no sítio Multimedia Vocabularies on the Semantic Web do W3C.

Na análise de conteúdo da representação do conhecimento da ontologia MPEG-7 Hunter, constatou-se que a categoria metadados dependentes de conteúdo representou características relacionadas à cor, textura, forma, movimento e localização de regiões espaço temporais em modalidades visuais. Os metadados para áudio não são cobertos pela ontologia. A categoria metadados descritivos de conteúdo representou exclusivamente características de segmentação de mídia. As subcategorias relacionadas à semântica de conteúdo, personalização e características de alto nível envolvendo áudio não são contempladas nos elementos ontológicos da MPEG-7 Hunter. A categoria metadados independentes de conteúdo representou quase que exclusivamente metadados relativos à criação e produção da mídia. Características como classificação e uso da mídia não foram verificadas na ontologia.

Observou-se que aspectos relacionados à utilização de construtores de expressões suportados pela OWL Full a fim de se conceber axiomas não foram explorados pela MPEG-7 Hunter na formalização de seus elementos ontológicos, limitando-se em restrições de propriedades (domain e range) e de relações subClassOf. Anotações foram identificadas na terminologia da ontologia como um todo, porém representadas em formato de comentários sem contribuições semânticas, o que promoveu dificuldades para a pessoa que analisa o código buscando entendimento sobre as entidades envolvidas na conceituação da ontologia. Finalmente, foram dedicadas 24 horas à tarefa de inspeção do seu código.

5.7 MPEG-7 Rhizomik

A ontologia MPEG-7 Rhizomik foi desenvolvida em 2005 no escopo de um projeto de mapeamento envolvendo linguagens da Web Semântica (GARCÍA; CELMA, 2005) com propósito de produzir ontologias fundamentadas no padrão MPEG-7 para integração com iniciativas de metadados multimídia existentes. O projeto teve uma abordagem diferenciada das propostas de tradução manual de partes do padrão MPEG-7, como ocorreu na ontologia de Hunter. Propõe, assim, uma tradução automática completa do esquema MPEG-7 em OWL. A ontologia tem sido aplicada na integração e recuperação semântica de metadados no domínio da música (MusicBrainz Metadata Initiative) e é referenciada no sítio Multimedia Vocabularies on the Semantic Web do W3C.

Por ser oriunda de uma tradução automática, a Rhizomiki preserva a flexibilidade das especificações do padrão MPEG-7 em capturar explicitamente múltiplas interpretações nas definições ontológicas. Nesse sentido, a ontologia permite, por exemplo, a interpretação das classes de tipos de segmentos como classes de conteúdo multimídia, bem como todos os casos de polissemia e sinonímia envolvendo as descrições, resultando nas mesmas ambiguidades presentes no padrão de metadado MPEG-7, tanto quanto a complexidade e a extensão do mesmo.

Na análise de conteúdo da representação do conhecimento da ontologia MPEG-7 Rhizomiki, constatou-se que a estrutura terminológica é quase que idêntica ao padrão de metadados MPEG-7 devido ao fato de ser oriunda de uma tradução automática completa do mesmo. Desse modo, as categorias de metadados independentes, dependentes e descritivos de conteúdo, também fundamentadas nesse padrão, são totalmente compatibilizadas com a ontologia.

Observou-se que axiomatização é um aspecto forte na ontologia MPEG-7 Rhizomiki, cujos elementos possuem declarações lógicas complexas buscando capturar as semânticas implícitas dos metadados XML e seus esquemas pertencentes ao padrão MPEG-7. Por outro lado, anotações não foram verificadas na estrutura, o que poderia ser benéfico ao documentar decisões de modelagem e explicitar significados conceituais para os elementos ontológicos. Outras considerações seriam o fato de as propriedades não possuírem restrições e de a taxonomia possuir termos repetidos, o que consome tempo e exige maior atenção na atividade de análise semântica do vocabulário. Finalmente, em decorrência do exposto, foram dedicadas 32 horas à inspeção do código e das documentações associadas.

5.8 Smartweb MPEG-7

A SmartMedia ontology foi proposta entre os anos de 2004 e 2007 no âmbito de um projeto que agregou conhecimento de diversas áreas, tais como interfaces inteligentes, tecnologias móveis, indústria automotiva, desenvolvimento de serviços Web, aprendizado de máquina, linguística computacional, extração de conhecimento, análise de dados multimídia, gestão do conhecimento e tecnologias semânticas. Dentre o conjunto de propostas para o projeto, surge a ontologia baseada no padrão MPEG-7 para anotação de conteúdo multimídia (OBERLE et al., 2007). Esta integra e alinha seus conceitos por meio de duas ontologias fundamentais, a DOLCE e a Suggested Upper Merged Ontology - SUMO.

Na análise de conteúdo da representação do conhecimento das ontologias multimídia do projeto SmartWeb, constatou-se que os metadados descritivos de conteúdo foram os mais representativos para aspectos de segmentação, decomposição de segmentos e semântica de conteúdo multimídia, oriundos do padrão MPEG-7. Destaca-se que as características semânticas foram cobertas pelo modelo ontológico de alto nível constituído pelas ontologias de fundamentação DOLCE e SUMO. Os metadados para personalização de conteúdo e características de alto nível envolvendo áudio não são tratados pelas ontologias multimídia do projeto. Para os metadados independentes de conteúdo, destacaram-se os descritores para criação e produção de mídia e informações de mídia realizada. As subcategorias classificação e uso da mídia não tiveram cobertura ontológica. E os metadados dependentes de conteúdo não tiveram cobertura satisfatória, sendo cobertos apenas por características visuais de cor. Os descritores de nível baixo para áudio não são tratados na conceituação da ontologia.

Observou-se a inexistência de axiomas nas terminologias das ontologias envolvidas. Acredita-se que tal ausência justifica-se pelo fato de a linguagem de implementação da ontologia (versão em RDFS) não possuir primitivas lógicas para formulação de declarações que permitam restrições em seus elementos. O único formato para restrições se deu com o elemento range em algumas propriedades envolvendo relações e atributos. Finalmente, a análise do conhecimento ontológico da SmartWeb não foi considerada custosa pelo fato de todos os seus elementos possuírem comentários satisfatórios, o que muito ajudou no processo de análise semântica sobre os vocabulários, e de todos os termos possuírem prefixos com a origem do recurso de conhecimento utilizado. Tais características tornam o código da ontologia mais claro, facilitando a identificação e a extração do conhecimento envolvido. Nesse sentido, foram dedicadas 24 horas à atividade de análise das ontologias do projeto.

5.9 Polysema MPEG-7 MDS

A ontologia MPEG-7 MDS foi desenvolvida no ano de 2006 dentro do projeto Polysema (VALKANAS; TSETSOS; HADJIEFTHYMIADES, 2007) conduzido por grupos de pesquisa da University of Athens (Pervasive Computing Research Group) e parcerias da indústria (ex. Siemens). O projeto propôs uma infraestrutura adequada para gerenciamento e processamento semântico de conteúdo multimídia com o uso de ontologias e padrões de metadados em ambientes interativos, especialmente serviços de TV digital e ferramentas para anotação de vídeos. O propósito da ontologia multimídia é cobrir descrições baseadas na parte 5 (Multimedia Description Schema, MDS) do padrão MPEG-7 e subsidiar a ferramenta de anotação de vídeo em testes endereçados à plataforma de TV digital interativa.

A estrutura da ontologia MPEG-7 MDS inclui uma classe (MultimediaContent) para organização dos tipos de conteúdo multimídia (AudioVisual, Image e Video) bem como classes que representam características associadas a segmentação de tipos de mídia e a decomposição temporal para tais segmentos.

Na análise de conteúdo da representação do conhecimento da ontologia MPEG-7 MDS do projeto Polysema, constatou-se que os metadados dependentes de conteúdo não tiveram cobertura. A categoria de metadados com maior índice de cobertura foi a independentes de conteúdo, destacando as subcategorias de criação, produção e classificação da mídia com participação satisfatória. A categoria metadados descritivos de conteúdo foi representada exclusivamente pelos metadados para segmentos de mídia, destacando a dimensão temporal como o único aspecto tratado na ontologia para decomposição de segmentos de vídeo e recursos audiovisuais. Os metadados para semântica de conteúdo, personalização de conteúdo e características de alto nível envolvendo áudio não são contemplados na ontologia multimídia.

Observou-se que axiomas não é uma característica presente no projeto Polysema pelo fato de não se explorar os construtores de expressões da linguagem OWL. O máximo que se representa são declarações envolvendo conectivos lógicos e restrições de cardinalidade em propriedades das classes. Situação semelhante ocorreu para as anotações cujos comentários não transmitem contribuições semânticas para o ontologista. As propriedades são restringidas pelos elementos RDFS domain e range. Finalmente, em decorrência da simplicidade da estrutura de conhecimento da ontologia, a atividade de análise consumiu 8 horas de pesquisa.

Quadro 2 - Quadro sinóptico da análise de conteúdo documental (a)

Categorias de análise

Media Ontology

COMM

Boemie

M3 Multimedia

M3O

Propósito de desenvolvimento

Definir descritores centrais para descrever conteúdo multimídia.

Cobrir genericamente um domínio que lida com conteúdo multimídia.

Representar semântica multimídia dentro de um cenário de aplicação integrada.

Criar um mecanismo de busca semântica de recursos multimídia.

Integrar modelos e padrões de metadados por meio de um framework genérico de modelagem semântica.

Disponibilidade de documentação

Informação sobre as propriedades de anotação determinadas.

Informação sobre os padrões multimídia especializados dos padrões de projeto da DOLCE.

Informações sobre a modelagem das conceituações das ontologias multimídia.

Informações sobre o projeto Buscamedia e sua perspectiva multimídia.

Informações sobre a modelagem dos padrões multimídia e de proveniência.

Recursos de conhecimento utilizados

Padrões de metadados W3C para mídia, destacando os padrões MPEG-7 e Dublin Core.

Padrão MPEG-7; DOLCE e padrões de projeto D&S e OIO.

Padrão MPEG-7

DUL; LIR; Media Ontology; Boemie VDO; COMM; FOAF; Dublin Core.

DUL e padrões de projeto DnS, Information and Realization e Data Value.

Disponibilidade de conhecimento externo

Lista de casos de uso compilados envolvendo vocabulários multimídia, com destaque à disponibilidade das especificações de requisitos que fundamentam a ontologia.

Organização conceitual (OWLDoc) de cada módulo da COMM reusado na ontologia M3 Multimedia.

Organização conceitual (OWLDoc) da MDO reusada na ontologia M3 Multimedia.

Sítio do Ontology Engineering Group.

Sítio sobre o framework SemanticMM4U e sua integração com a M3O.

Disponibilidade de testes

Conjunto de testes envolvendo todos os formatos contemplados no documento de especificação da ontologia.

Ausente

Ausente

Ausente

Informação sobre o método de integração de ontologias e padrões de metadados em casos reais de aplicação.

Disponibilidade de resultados de avaliação de testes

Arquivos de compatibilização de vocabulários disponíveis, testados e avaliados.

Ausente

Ausente

Ausente

Informação sobre os resultados de avaliações sobre os testes de integração.

Equipe de desenvolvimento

W3C Media Annotation Working Group

W3C Multimedia Annotation Interoperability. Ontologia referenciada no W3C Multimedia Vocabularies on the Semantic Web.

Centros de Pesquisa Europeus

Ontology Engineering Group

Grupo de pesquisa acadêmico

Projetos e ontologias que fazem uso

Projeto Buscamedia e sua ontologia multimídia denominada M3 multimedia; Multimedia Metadata Ontology (M3O).

Projetos X-Media, K-Space, Buscamedia e Organizações Globo. Multimedia Metadata Ontology (M3O).

Projeto Buscamedia e sua ontologia multimídia denominada M3 multimedia.

Projeto Buscamedia

Projeto WeKnowIt

Projeto X-Media.

Fonte: elaborado pela autora

Quadro 3 - Quadro sinóptico da análise de conteúdo documental (b)

Categorias de análise

MPEG-7 Hunter

MPEG-7 Rhizomik

SmartWeb MPEG-7

Polysema MPEG-7 MDS

Propósito de desenvolvimento

Propor uma tradução manual do padrão de metadado MPEG-7 visando integração com tecnologias da Web Semântica.

Produzir ontologias por meio de tradução automática e completa do padrão MPEG-7 para integração com iniciativas de metadados multimídia existentes.

Produzir ontologias fundamentadas no padrão MPEG-7 para anotação de conteúdo multimídia envolvido em dispositivos inteligentes e móveis.

Cobrir descrições baseadas no MDS MPEG-7 e subsidiar a ferramenta de anotação de vídeo.

Disponibilidade de documentação

Informação sobre as classes e propriedades relacionadas a conteúdo multimídia, decomposição de segmentos e descritores visuais.

Informação sobre a metodologia empregada para a tradução do padrão MPEG-7 em ontologia OWL.

Informação sobre as ontologias multimídia, de fundamentação e de domínio envolvidas no projeto.

Informação sobre o subconjunto de elementos MPEG-7 MDS contemplados na ontologia.

Recursos de conhecimento utilizados

Padrão MPEG-7; ontologia de alto nível ABC.

Padrão MPEG-7

Padrão MPEG-7; DOLCE; SUMO.

Padrão MPEG-7

Disponibilidade de conhecimento externo

Sítio W3C Multimedia Vocabularies on the Semantic Web.

Sítio W3C Multimedia Vocabularies on the Semantic Web.

Ausente

Ausente

Disponibilidade de testes

Ausente

Ausente

Ausente

Ausente

Disponibilidade de resultados de avaliação de testes

Ausente

Ausente

Ausente

Ausente

Equipe de desenvolvimento

Grupo de pesquisa acadêmico. Ontologia referenciada no W3C Multimedia Vocabularies on the Semantic Web.

Distributed Multimedia Application Group e Music Technology Group (Universitat Pompeu Fabra). Ontologia referenciada no W3C Multimedia Vocabularies on the Semantic Web.

German Research Center for Artificial Intelligence

Pervasive Computing Research Group, department of Informatics and Telecommunications (University of Athens)

Projetos e ontologias que fazem uso

Projetos Harmony, Fuel Cell e Visible Cell.

Projeto ReDeFer e ontologias associadas; Music Brainz ontology.

Projeto SmartWeb

Projeto Polysema

Fonte: elaborado pela autora

Quadro 4 - Quadro sinóptico da análise de conteúdo das ontologias multimídia

Categorias de análise

Media Ontology

COMM

Boemie

M3 Multimedia

M3O

MPEG-7 Hunter

MPEG-7 Rhizomik

SmartWeb MPEG-7

Polysema MPEG-7

Linguagem de implementação

OWL DL

OWL DL

OWL DL

OWL DL

OWL

OWL Full

OWL Full

RDFS

OWL

Claridade no código

Nomenclaturas claras para os conceitos.

Estrutura taxonômica complexa advinda da DOLCE e padrões multimídia.

Nomenclaturas claras para os conceitos.

Nomenclaturas claras para os conceitos.

Entidades organizadas por padrões de projeto de conteúdo de ontologias.

Definições das classes e propriedades sem comentários significativos.

Taxonomia extensa e com ausência de comentários em sua estrutura.

Taxonomia extensa, mas com comentários em sua estrutura.

Taxonomia simples, mas com ausência de comentá-rios em sua estrutura.

Adequação a extração de conhecimento

Subclasses específicas para características de mídia.

Modularização para padrões multimídia.

Modularização para segmentos e descritores de mídia.

Modularização para multimídia, multidomínio e multilingua.

Modularização para padrões multimídia e de proveniência.

Subclasses específicas para características de mídia.

Terminologia análoga ao padrão

MPEG-7.

Terminologia com prefixos dos recursos utilizados.

Taxonomia específica para descrição multimídia.

Adequação a convenção de nomes

Padrões de metadados W3C.

Padrão de metadado MPEG-7.

Padrão de metadado MPEG-7.

Padrões de metadados W3C;

MPEG-7.

Terminologia adotada pela equipe de projeto.

Padrão de metadado MPEG-7.

Padrão de metadado MPEG-7.

Padrão de metadado MPEG-7.

Padrão de metadado MPEG-7.

Representação de Metadados Multimídia

Independentes de conteúdo

Criação, produção, classificação, informação e uso da mídia.

Informação da mídia.

Local de acesso a mídia e arquivo da mídia.

Criação, produção, classificação, informação e uso da mídia.

Informação da mídia.

Criação e produção da mídia.

Criação, produção, classificação, informação e uso da mídia.

Criação, produção e informação da mídia.

Criação, produção e classifica-ção da mídia.

Dependentes de conteúdo

Ausente

Características visuais.

Características visuais e de áudio.

Características visuais e de áudio.

Ausente

Características visuais.

Características visuais e de áudio.

Características visuais.

Ausente

Descritivos de conteúdo

Segmentos de mídia.

Padrões multimídia de decomposição e anotação semântica.

Segmentação multimídia.

Segmentação, semântica de conteúdo e personalização.

Padrões multimídia de decomposição, anotação semântica e coleções.

Segmentos de mídia.

Segmentação, semântica de conteúdo, personalização e conteúdo falado.

Decomposição de segmentos e semântica de conteúdo multimídia.

Segmentos de mídia.

Características

Axiomas

Presente *

Presente

Presente

Presente

Presente

Ausente

Presente

Ausente

Presente *

Semânticas

Anotações

Presente

Presente

Presente

Presente **

Presente

Presente **

Ausente

Presente

Presente **

Fonte: elaborado pela autora

* - Presença de axiomas com declarações lógicas simples.

** - Presença de anotações, porém sem declarações conceituais consistentes.

6 CONSIDERAÇÕES FINAIS

O estado da arte aqui apresentado remete a resultados concernentes a um estudo analítico e criterioso sobre sistemas de organização do conhecimento, incluindo padrões de metadados e ontologias envolvidos na descrição de conteúdo multimídia em rede. Apesar do conceito abrangente e comumente empregado para metadado, a saber, “dado sobre dado” (GILLILAND, 2016), os usos, as sintaxes e as apropriações são diferentes em escala, complexidade e custo (OSSENBRUGGEN; NACK; HARDMAN, 2004). Os resultados alcançados nessa pesquisa conseguem contribuir em possíveis soluções para o tratamento dos variados tipos de metadados existentes para descrição de acervos multimídia. Conforme foi evidenciado no decorrer desta pesquisa, existem problemas significativos no tocante a metadados no contexto multimídia, principalmente pela convergência de processos de informação na Web. Alguns desses problemas são comentados em sequência.

A produção de metadados de qualidade é uma atividade dispendiosa e consome tempo. Metadados são, na maioria das vezes, obtidos por meio de processamento de linguagem natural e extração automática de características dependentes de conteúdo, porém muitas aplicações dependem de anotações de alto nível para representar entidades do mundo real, o que requer trabalho humano e, sendo assim, este deve ser realizado corretamente para fins de tratamento semântico da informação. Agregado a isto, anotações realizadas por humanos (como campo em texto livre) proporciona, geralmente, uma terminologia subjetiva, inconsistente e pouco aproveitada pela máquina, mesmo sendo apoiadas por alguma ferramenta. Anotadores geralmente têm visões específicas acerca do conteúdo e do contexto em que é usado. E, em se tratando da legibilidade da informação pela máquina, um esquema de metadados altamente formalizado contribui nessa perspectiva. Entretanto, para usuários humanos esse formato é geralmente restritivo.

A norma ISO MPEG-7 busca fornecer alguns encaminhamentos para as situações problemáticas comentadas acima, empreendendo esforços na proposição de uma interface comum para descrever material multimídia, refletindo informação sobre o conteúdo. Conforme se pôde verificar na pesquisa, o padrão, apesar de ser recomendado pelo seu background de conhecimento multimídia, possui limitações de ordem semântica e complexidade nos esquemas envolvendo as suas áreas de descrições. Para esta última, a complexidade estrutural se apresenta muito em função de se buscar satisfazer as necessidades de representações de variadas realidades, incluindo comunidades de Biblioteca Digital, Representação do Conhecimento, Visão Computacional, Processamento de Imagens e de Sinais de Áudio. Nesse direcionamento, O W3C e comunidades afins vêm empregando esforços na adoção de ontologias multimídia baseadas no padrão MPEG-7, conforme se mostrou na seção 5.

A elucidação de várias propostas de ontologias multimídia fundamentadas em padrões de metadados ISO evidenciou características relevantes que podem e devem ser descritas para melhor recuperação de recursos multimídia, principalmente no contexto da Web. Os vocabulários semânticos apresentados nesse estudo conseguem, em níveis diferenciados, organizar sistematicamente várias categorias de metadados existentes para descrição de conteúdo multimídia.

A categoria metadados independentes de conteúdo foi organizada e endereçada a metadados relacionados à gestão da mídia, incluindo produção, classificação, gestão de direitos a uso e informações técnicas, os quais podem ser aplicados na realização da mídia e no conteúdo desta. A categoria metadados dependente de conteúdo foi organizada e endereçada a metadados primitivos para aspectos visuais, de localização de regiões espaciais, temporais e espaço temporais no conteúdo da mídia, além de aspectos envolvendo processamento de sinais de áudio. E a categoria metadados descritivos de conteúdo foi organizada e endereçada a metadados para segmentos de mídia, anotação de conteúdo semântico, navegação e acesso por meio de sumários de conteúdo de mídia e características de áudio de alto nível, incluindo descritor para tratamento de conteúdo falado.

Assim, o estudo do estado da arte sobre padrões de metadados e ontologias no domínio da descrição de conteúdo multimídia apresentado nesse artigo reflete a inúmeras contribuições para o campo da Ciência da Informação, especialmente para a área de Organização e Representação da Informação e do Conhecimento. As contribuições podem ser desdobradas em trazer à luz os padrões existentes para descrição de documentos multimídia, através de uma extensa revisão de literatura e alinhamento de várias propostas e padrões existentes. A característica mais marcante envolvendo as propostas e padrões é a necessidade de integração semântica e disponibilização global de recursos multimídia na rede; e ainda de desvelar as características que poderiam, deveriam e não estão sendo descritas para caracterização desse tipo de recurso, refletindo nas decisões de seleção para reúso de recursos de conhecimento disponíveis.

Por fim, uma avaliação metódica, bem fundamentada e criteriosa realizada previamente em ontologias pode promover condições necessárias para decisões de seleção e reúso sobre vocabulários semânticos destinados à organização do conhecimento de um domínio que lida com documentos multimídia. A pesquisa aponta que o reúso é reconhecido como sendo um importante passo na construção de vocabulários semânticos, incluindo ontologias. Com o reúso de recursos poupa-se tempo e esforço, ao invés de se começar a construção do zero. Nesse sentido, o método aplicado na presente pesquisa seria uma estratégia interessante para o alinhamento eficiente de ontologias concebidas por comunidades distintas de modo a cobrir satisfatoriamente aspectos da realidade documental de tipo multimídia.

REFERÊNCIAS

ABBAS, June. Structures for organizing knowledge: exploring taxonomies, ontologies, and other schema. New York: Neal-Schuman Publishers, 2010.

ADJEROH, Donald A.; NWOSU, Kingsley C. Multimedia database management – requirements and Issues. IEEE Multimedia, [S.I.], v. 4, n. 3, p. 24-33, July/Sept. 1997

ALLEMANG, D.; HENDLER, J. Semantic web for the working ontologist: modeling in RDF, RDFS and OWL. MA, USA: Elsevier, 2008.

ALMEIDA, M. B. Revisiting ontologies: a necessary clarification. Journal of the American Society of Information Science and Technology, [S.I.], v. 64, n. 8., p. 1682-1693, 2013.

ANSI/NISO Z39.19-2005 (R2010). Guidelines for the construction, format, and management of monolingual controlled vocabularies. Baltimore: NISO Press, 2005. 184 p.

ARNDT, R. et al. COMM: a core ontology for multimedia annotation. 2009. Disponível em: <http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.154.5510>. Acesso em: 16 out. 2018.

ATEMEZING, Ghislain Auguste. Analyzing and ranking multimedia ontologies for their reuse. 2011. Tesis (Master) - Facultad de Informática,Universidad Politécnica de Madrid, Madrid, 2011.

BARDIN, Laurence. Análise de conteúdo. Lisboa: Edições 70, 1977.

BENJAMINS, V. Richard et al. Semantic technology adoption: a business perspective. In:

DOMINGUE, John; FENSEL, Dieter; HENDLER, James (Ed.). Handbook of semantic web technologies. Berlin: Springer-Verlag Berlin Heidelberg, 2011. cap. 15, p. 621-657.

BERNERS-LEE, T; HENDLER, J.; LASSILA, O. The semantic web. Scientific American, [S.l.], v. 284, n. 5, p. 34-43, May 2001.

BERNERS-LEE, Tim. Linked Data. In: BERNERS-LEE, Tim. Design Issues. 2006. Disponível em: <http://www.w3.org/DesignIssues/LinkedData.html>. Acesso em: 20 set. 2018.

BIZER, C.; HEATH, T.; BERNERS-LEE, T. Linked Data - the story so far. International Journal on Semantic Web and Information Systems, [S.l.], v. 5, n. 3, p. 1-22, 2009.

BODOFF, D.; HUNG, P.C.K.; BEN-MENACHEM. M. Web metadata standards: observations and prescriptions. IEEE Software, [S.I.], v. 22, n. 1, p. 78-85. Jan./Fev. 2005.

BÜRGER, T. et al. INSEMTIVES: deliverable 2.1.1, report on the state-of-the-art and requirements for annotation representation models. 2009. Disponível em: <http://eprints.biblio.unitn.it/1808/1/007.pdf>. Acesso em: 16 out. 2018.

CARRASCO, L. B.; VIDOTTI, S. A. B. G. Patrimônio cultural: um panorama do modelo de dados da Europeana. Encontro Nacional de Pesquisa em Ciência da Inf., n. XIX ENANCIB, 2018. Disponível em: <http://hdl.handle.net/20.500.11959/brapci/103564>. Acesso em: 13 jun. 2019.

CHANG, S.F.; SIKORA, T.; PURL, A. Overview of the MPEG-7 standard. IEEE Transactions on Circuits and Systems for Video Technology, [S.l.], v. 11, n. 6, p. 688-695, 2001.

CONEGLIAN, C.S.; SANTAREM SEGUNDO, J.E.. Europeana no Linked Open Data: conceitos de Web Semântica na dimensão aplicada das Humanidades Digitais. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, v. 22, n.48, p.88-99, jan./abr., 2017.

DASIOPOULOU, S. Multimedia content and descriptor ontologies: final version. 2008. Disponível em: <https://www.academia.edu/2721370/Multimedia_content_and_descriptor_ontologies-final_version>. Acesso em: 16 de out. 2018.

DOMINGUE, John; FENSEL, Dieter; HENDLER, James A. Handbook of semantic web technologies. Heidelberg: Springer-Verlag Berlin, 2011.

EUROPEANA. Definition of the Europeana Data Model v5.2.8. 2017. Disponível em: < https://pro.europeana.eu/files/Europeana_Professional/Share_your_data/Technical_requirements/EDM_Documentation//EDM_Definition_v5.2.8_102017.pdf > Acesso em: 17 maio 2019.

EVAIN, Jean-Pierre; BÜRGER, Tobias. Semantic web, linked data and broadcasting: more in common than you’d think!. EBU Technical Review, Genebra, 2011.

GANGEMI, Aldo; PRESUTTI, Valentina. Ontology design patterns. In: STAAB, S.; STUDER, R. (Ed.). Handbook on ontologies. 2nd ed. Berlin: Springer - Verlag. 2009. p. 221-243.

GARCÍA, R.; CELMA, O. semantic integration and retrieval of multimedia metadata. In: INTERNATIONAL WORKSHOP ON KNOWLEDGE MARKUP AND SEMANTIC ANNOTATION, 5th, 2005, Galway. Proceedings... Galway, 2005, p. 69–80.

GILLILAND, A. J. Setting the Stage. In: BACA, M. (Ed.). Introduction to metadata. 3. ed. Los Angeles: Getty Research Institute, 2016.

GUARINO, N. Formal ontology in information systems. 1998. Disponível em: <http://citeseer.ist.psu.edu/viewdoc/download;jsessionid= E88DA9B5B5A9797C83C1F2E3C907991F? doi=10.1.1.29.1776&rep=rep1&type=pdf>. Acesso em: 16 out. 2018.

GRUBER, T. R. What is an ontology? 1993. Disponível em: <http://www-ksl.stanford.edu/kst/what-is-an-ontology.html>. Acesso em: 16 out. 2018.

HILDEBRAND, M. et al. Searching in semantically rich linked data: a case study in cultural heritage. 2010. Disponível em: <http://citeseerx.ist.psu.edu/viewdoc/download; jsessionid=179DEB9CD4388DE9FC4074CDE7FF1BCE?doi= 10.1.1.154.3789&rep=rep1&type=pdf>. Acesso em: 2 out.2018.

HUNTER, J. Adding multimedia to the semantic web – building an MPEG-7 ontology. In: INTERNATIONAL SEMANTIC WEB WORKING SYMPOSIUM, 1st, 2001, Stanford. Proceedings... Disponível em: <https://files.ifi.uzh.ch/ddis/iswc_archive/iswc/ih/SWWS-2001/program/full/paper59a.pdf>. Acesso em: 16 out. 2018.

INTERNATIONAL FEDERATION OF LIBRARY ASSOCIATIONS AND INSTITUTIONS (IFLA). Functional requirements for bibliographic records.Munique: K.G. Sauer Verlag, 1998. 144 p. Study Group on the Functional Requirements for Bibliographic Records. Disponível em: <http://www.ifla.org/files/assets/cataloguing/frbr/frbr.pdf>. Acesso em: 16 outubro 2018.

LE BOEUF, Patrick et al. (Ed.). Definition of the CIDOC Conceptual Reference Model: version 6.2.3: International Council of Museums (ICOM); International Committee for Documentation(CIDOC), 2018. Documentation Standards Group. Disponível em: < http://www.cidoc-crm.org/Version/version-6.2.3-0>. Acesso em: 16 out. 2018.

LEMOS, D.L. da S.; SOUZA, R. R..Organização de Recursos Bibliográficos e Multimídia na Web: Contribuições Interdisciplinares. Informação&Informação, v.23, n.2, p.98-126, maio/ago. 2018 .

MARCONDES, C.H. Interoperabilidade entre acervos digitais de arquivos, bibliotecas e museus: potencialidades das tecnologias de dados abertos interligados. Perspectivas em Ciência da Informação, v.21, n.2, p.61-83, abr./jun. 2016.

MARTÍNEZ, J. M. MPEG-7 overview (version 10). 2004. Disponível em: < https://mpeg.chiariglione.org/standards/mpeg-7 >. Acesso em: 16 out. 2018.

MARTÍNEZ, J.; KOENEN, R.; PEREIRA, F. MPEG-7: the generic multimedia content description standard - part 1. IEEE Multimedia, [S.I.], v. 9, n. 2, p. 78-87, Apr./June 2002.

MILLER, Steven J. Metadata For Digital Collection: a how-to-do-it manual. New York; London: Neal-Schuman Publishers Inc., 2011.

NACK, F.; LINDSAY, A. T. Everything you wanted to know about MPEG-7: part 1. IEEE Multimedia, [S.I.], v. 6, n. 3, p. 65-77, July/Sept. 1999a.

NACK, F.; LINDSAY, A. T. Everything you wanted to know about MPEG-7: part 2. IEEE Multimedia, [S.I.], v. 6, n. 4, p. 64-73, Oct./Dec. 1999b.

NACK, F.; OSSENBRUGGEN, J.V.; HARDMAN, L.H. That obscure object of desire: multimedia metadata on the web -part 2. IEEE MultiMedia, [S.I.], v.. 12, n. 1 , p. 54-63, 2005.

NIXON, Lyndon et al. Multimedia, broadcasting, and eCulture. In: DOMINGUE, John; FENSEL, Dieter; HENDLER, James A. Handbook of semantic web technologies. Heidelberg: Springer-Verlag Berlin, 2011. cap. 21, p.911-975.

OBERLE, D. et al. On foundational and domain models in the smartweb integrated ontology (SWIntO). Journal of Web Semantics., [S.I.], v. 5, n. 3, p. 156-174, Sept. 2007.

OLIVER, Chris. Introdução à RDA: um guia básico. Brasília: Briquet de Lemos, 2011.

OSSENBRUGGEN, J. V.; NACK, F.; HARDMAN, L. H. That obscure object of desire: multimedia metadata on the web - part 1. IEEE MultiMedia, [S.I.], v. 11, n. 4, p. 38-48, Out./Dez. 2004.

PATTUELLI, Maria C. Modeling a domain ontology for cultural heritage resources: a user-centered approach. Journal of the American Society for Information Science and Technology, [S.l.], v. 62, n. 2, p. 314-342, 2011.

SAATHOFF, C.; SCHERP, A. Unlocking the semantics of multimedia presentations in the web with the multimedia metadata ontology. In: INTERNATIONAL CONFERENCE ON WORLD WIDE WEB, 19th, 2010, Raleigh. Proceedings...New York: ACM, 2010. p. 831-840.

SALEMBIER, P. Overview of the MPEG-7 standard and of future challenges for visual information analysis. EURASIP Journal on Advances in Signal Processing, New York, v. 2002, n. 2, p. 343-353, Apr. 2002. Disponível em: < https://link.springer.com/content/pdf/10.1155%2FS1110865702000781.pdf >. Acesso em: 16 out. 2018.

SALEMBIER, P.; SMITH, J. MPEG-7 multimedia description scheme. IEEE Transactions on Circuits and Systems for Video Tecnology, [S.I.], v. 11, n. 6, June 2001.

SANTARÉM SEGUNDO, J. E.; SILVA, M. F. ; MARTINS, D. L. . Revisitando a interoperabilidade no contexto dos acervos digitais. Informacao & Sociedade-Estudos , João Pessoa, v.29, n.2, p. 61-84, 2019.

SCHANDL, B. et al. Linked Data and multimedia: the state of affairs. Multimedia Tools and Applications, [S.l.], online first, p. 1-34, 2011.

SHADBOLT, N.; HALL, W.; BERNERS-LEE, T. The semantic web revisited. IEEE Intelligent Systems, [S.I.], v. 21, n. 3, p. 96-101, May/June 2006.

SILVA, D.L. da; SOUZA, R. R.; ALMEIDA, M. B. Ontologias e vocabulários controlados: comparação de metodologias para construção. Ciência da Informação, Brasília, v. 37, n.3, p. 60-75, set./dez. 2008.

SILVA, D.L. da ; SOUZA, R. R . Representação de documentos multimídia: dos metadados às anotações semânticas. Tendências da Pesquisa Brasileira em Ciência da Informação, v. 9, n.2, p. 1-22, 2014.

SMITH, Barry. Ontology and Information Systems. 2004. Disponível em: <http://ontology.buffalo.edu/ontology(PIC).pdf > Acesso em: 16 out. 2018.

SOERGEL, Dagoberto (Org.) . Ontologias na ciência da informação: estado da arte no Brasil [Ontology in Information Science: State of the art in Brazil] . In: Special number - Ciência da Informação, Brasília, DF, v.46, n.1, p.1-227, jan./abr. 2017. Disponível em: <http://revista.ibict.br/ciinf/issue/view/237/showToc> Acesso em: 16 out. 2018.

SOUZA, Renato R. et al. The CPDOC semantic portal: applying semantic and knowledge organization systems to the brazilian contemporary history domain. In: INTERNATIONAL

SOCIETY FOR KNOWLEDGE ORGANIZATION, 12th, 2012, Mysore. Proceedings... Mysore, [s.n.], 2012. Conference - Categories, Relations and Contexts in Knowledge Organization

SUÁREZ-FIGUEROA, M. C.; GÓMEZ-PÉREZ, A.; FERNÁNDEZ-LÓPEZ, M. The NeOn methodology for ontology engineering. In: SUÁREZ-FIGUEROA, M. C. et al. (Ed.). Ontology Engineering in a Networked World. Berlin: Springer, 2012. p. 9-34.

STEGMAIER, F. et al. How to align media metadata schemas? design and implementation of the media ontology. In: INTERNATIONAL CONFERENCE ON SEMANTIC AND DIGITAL MEDIA TECHNOLOGIES, 4th, 2009, Graz. Proceedings… [S.l.]: CEUR-WS.org, 2009. Workshop on semantic multimedia database technologies (SeMuDaTe 2009).

TAYLOR, A. G. The organization of the information. 2nd ed. Westport: Libraries Unlimited, 2004. 417 p.

UREN, V. et al. Semantic annotation for knowledge management: requirements and a survey of the state of the art. Journal of Web Semantics, [S.I.], v. 4, n. 1, p. 14-28, 2005.

VALKANAS, G.; TSETSOS, V.; HADJIEFTHYMIADES, S. The polysema MPEG-7 video annotator. In: INTERNATIONAL CONFERENCE ON SEMANTICS AND DIGITAL MEDIA TECHNOLOGIES, 2nd, 2007, Genova. Proceedings... Berlin: Springer, 2007. Demo.

WINER, D.; ROCHA, I. E. Europeana: um projeto de digitalização e democratização do patrimônio cultural europeu. Patrimônio e Memória, São Paulo, Unesp, v. 9, n. 1, p. 113-127, janeiro-junho, 2013.

ZENG, M. L.; QIN, J. Metadata. New York: Neal-Schuman Publishers, 2008.


1 Doutora em Ciências da Informação pela Universidade Federal de Minas Gerais, Brasil. Professora Adjunta da Universidade Federal do Espírito Santo, Brasil. E-mail: danielalucas@hotmail.com.

2 Doutor em Ciências da Informação pela Universidade Federal de Minas Gerais, Brasil. Professor e Pesquisador da Fundação Getúlio Vargas, Brasil. Bolsista de Produtividade em Pesquisa 2 CNPq. E-mail: rsouza.fgv@gmail.com.

3 http://mpeg.chiariglione.org/standards/mpeg-7

4 http://dublincore.org/documents/dces/

5 http://watson.kmi.open.ac.uk/WatsonWUI/

6 http://swoogle.umbc.edu/

7 http://protege.stanford.edu

8 Tentativas de abertura das ontologias no editor Protégé, visualização de anomalias em suas estruturas, e ontologias fora do escopo proposto foram consideradas no sentido de justificar a exclusão de algumas delas da lista.

artigo de revisão