Using a provenance model and spatiotemporal information to integrate heterogeneous biodiversity semantic data.

Amanqui, Flor Karina Mamani

doi:10.11606/T.55.2018.tde-30012018-093704

Início

Servicios

Tesis Doctoral

DOI

https://doi.org/10.11606/T.55.2018.tde-30012018-093704

Documento

Tesis Doctoral

Autor

Amanqui, Flor Karina Mamani (Catálogo USP)

Nombre completo

Flor Karina Mamani Amanqui

Instituto/Escuela/Facultad

Instituto de Ciências Matemáticas e de Computação

Área de Conocimiento

Ciencias de la Computación y Matemática Computacional

Fecha de Defensa

2017-11-20

Publicación

São Carlos, 2017

Director

Moreira, Dilvan de Abreu (Catálogo USP)

Tribunal

Moreira, Dilvan de Abreu (Presidente)
Fortes, Renata Pontin de Mattos
Gomes, Karine Reis Ferreira
Macedo, Alessandra Alaniz

Título en inglés

Using a provenance model and spatiotemporal information to integrate heterogeneous biodiversity semantic data.

Palabras clave en inglés

Biodiversidade
Dados abertos vinculados
Proveniência
Web semântica

Resumen en inglés

In the last few years, the Web of data is being rapidly populated with biodiversity data. However, when researchers need to retrieve, integrate, and visualize these data, they need to rely on semi-manual approaches. That is due to the fact that biodiversity repositories, such as GBIF, offer data as just strings in CSV format spreadsheets. There is no machine readable metadata that could add meaning (semantics) to data. Without this metadata, automatic solutions are impossible and labor intensive semi-manual approaches for data integration and visualization are unavoidable. To reduce this problem, we present a novel architecture, called STBioData, to automatically link spatiotemporal biodiversity data, from heterogeneous data sources, to enable easier searching, visualization and downloading of relevant data. It supports the generation of interactive maps and mapping between biodiversity data and ontologies describing them (such as Darwin Core, DBpedia, GeoSPARQL, Time and PROV-O). A new biodiversity provenance model (BioProv), extending the W3C PROV Data Model, was proposed. BioProv enables applications that deal with biodiversity data to incorporate provenance data in their information. A web based prototype, based on this architecture, was implemented. It supports biodiversity domain experts in tasks, such as identifying a species conservation status, by automating most of the necessary tasks. It uses collection data, from important Brazilian biodiversity research institutions, and species geographic distributions and conservation status, from the IUCN Red List of Threatened Species. These data are converted to linked data, enriched and saved as RDF Triples. Users can access the system, using a web interface, and search for collection and species distribution records based on species names, time ranges and geographic location. After a data set is recovered, it can be displayed in an interactive map. The records contents are also shown (including provenance data) together with links to the original records at GBIF and IUCN. Users can export datasets, as a CSV or RDF file, or get a print out in PDF (including the visualizations). Choosing different time ranges, users can, for instance, verify the evolution of a species distribution. The STBioData prototype was tested using use cases. For the tests, 46,211 collection records, from SpeciesLink, and 38,589 conservation status records (including maps), from IUCN, for marine mammal were converted to 2,233,782. RDF triples and linked using well known ontologies. 90% of biodiversity experts, using the tool to determine conservation status, were able to find information about dolphin species, with a satisfactory recovery time, and were able to understand the interactive map. In an information retrieval experiment, when compared with SpeciesLink keyword based search, the prototypes semantic based search performed, on average, 24% better in precision and 22% in recall tests. And that does not takes into account cases where only the prototype returned search results. These results demonstrate the value of having public available linked biodiversity data with semantics.

Título en inglés

Usando um modelo de proveniência e informações espaço-temporais para integrar dados semânticos heterogêneos sobre biodiversidade

Palabras clave en inglés

Biodiversidade
Dados abertos vinculados
Proveniência
Web semântica

Resumen en inglés

Nos últimos anos, a Web de dados está sendo rapidamente preenchida com dados de biodiversidade. No entanto, quando pesquisadores precisam recuperar, integrar e visualizar esses dados, eles precisam confiar em abordagens semi-manuais. Isso ocorre devido ao fato de que repositórios sobre biodiversidade, como GBIF, oferecem dados como cadeias de caracteres em planilhas no formato CSV. Não há nenhum metadado legível por máquinas que poderia acrescentar significado (semântico) aos dados. Sem os metadados, soluções automáticas são impossíveis, sendo necessário para visualização e integração dos dados, a utilização de abordagens semi-manuais. Para reduzir esse problema, apresentamos uma arquitetura chamada STBioData. Com ela é possível vincular automaticamente dados de biodiversidade, com informações espaço-temporais provenientes de fontes heterogêneas, tornando mais fácil a pesquisa, visualização e download dos dados relevantes. Ele suporta a geração de mapas interativos e o mapeamento entre dados de biodiversidade e ontologias que os descrevem (como Darwin Core, DBpedia, GeoSPARQL, Time e PROV-O). Foi proposto um novo modelo de proveniência para biodiversidade (BioProv), que estende o modelo de dados PROV W3C. BioProv permite que aplicativos que lidam com dados de biodiversidade incorporem os dados de proveniência em suas informações. Foi implementado um protótipo Web baseado nesta arquitetura. Ele oferece suporte aos especialistas do domínio de biodiversidade em tarefas como, identificação do status de conservação da espécie, além de automatizar a maioria das tarefas necessária. Foi utilizado coleções de dados de importantes pesquisas brasileiras sobre biodiversidade, juntamente com dados de distribuição geográfica das espécies e seu estado de conservação, provenientes da lista de espécies ameaçadas da IUCN (Red List). Esses dados são convertidos em dados conectados, enriquecidos e salvados como triplas RDF. Os usuários podem acessar o sistema, usando uma interface web que permite procurar, utilizando os nomes das espécies, intervalos de tempo e localização geográfica. Os dados recuperados podem ser visualizados no mapa interativo. O conteúdo de registros também é mostrado (incluindo dados de proveniência), juntamente com links para os registros originais no GBIF e IUCN. Os usuários podem exportar o conjunto de dados, como um arquivo CSV ou RDF, ou salvar em PDF (incluindo as visualizações). Escolhendo diferentes intervalos de tempo, os usuários podem por exemplo, verificar a evolução da distribuição das espécies. O protótipo STBioData foi testado usando casos de uso. Para esses testes, 46.211 registros de coleção do SpeciesLink e 38.589 registros de estado de conservação da IUCN (incluindo mapas), sobre mamíferos marinhos, foram convertidos em 2.233.782 triplas RDF. Essas triplas reutilizam ontologias representativas da área . 90% dos especialistas em biodiversidade, usaram a ferramenta para determinar o estado de conservação, eles foram capaz de encontrar as informações sobre determinada espécie de golfinho, com um tempo de recuperação satisfatório e também foram capaz de entender o mapa interativo gerado. Em um experimento sobre recuperação de informações, quando comparado com o sistema de busca por palavra-chave utilizado pela base SpeciesLink, a busca semântica realizada pelo protótipo STBioData, em média, é 24% melhor em testes de precisão e 22% melhor em testes de revocação. Não são considerados os casos onde o protótipo somente retornou o resultado da busca. Esses resultados demonstram o valor de ter dados conectados sobre biodiversidade disponíveis publicamente em um formato semântico.

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

FlorKarinaMamaniAmanqui_revisada.pdf (6.26 Mbytes)

Fecha de Publicación

2018-01-30

Trabajos derivados

ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.