MIDB: um modelo de integração de dados biológicos

Perlin, Caroline Beatriz

MIDB: um modelo de integração de dados biológicos

Detalhes bibliográficos
Autor(a) principal:	Perlin, Caroline Beatriz
Data de Publicação:	2012
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFSCAR
Texto Completo:	https://repositorio.ufscar.br/handle/ufscar/497
Resumo:	In bioinformatics, there is a huge volume of data related to biomolecules and to nucleotide and amino acid sequences that reside (in almost their totality) in several Biological Data Bases (BDBs). For a specific sequence, there are some informational classifications: genomic data, evolution-data, structural data, and others. Some BDBs store just one or some of these classifications. Those BDBs are hosted in different sites and servers, with several data base management systems with different data models. Besides, instances and schema might have semantic heterogeneity. In such scenario, the objective of this project is to propose a biological data integration model, that adopts new schema integration and instance integration techniques. The proposed integration model has a special mechanism of schema integration and another mechanism that performs the instance integration (with support of a dictionary) allowing conflict resolution in the attribute values; and a Clustering Algorithm is used in order to cluster similar entities. Besides, a domain specialist participates managing those clusters. The proposed model was validated through a study case focusing on schema and instance integration about nucleotide sequence data from organisms of Actinomyces gender, captured from four different data sources. The result is that about 97.91% of the attributes were correctly categorized in the schema integration, and the instance integration was able to identify that about 50% of the clusters created need support from a specialist, avoiding errors on the instance resolution. Besides, some contributions are presented, as the Attributes Categorization, the Clustering Algorithm, the distance functions proposed and the proposed model itself.

Metadados do item

id	SCAR_ac826c2873c6fc1f6320c19993d5e729
oai_identifier_str	oai:repositorio.ufscar.br:ufscar/497
network_acronym_str	SCAR
network_name_str	Repositório Institucional da UFSCAR
repository_id_str	4322
spelling	Perlin, Caroline BeatrizCiferri, Ricardo Rodrigueshttp://lattes.cnpq.br/8382221522817502http://lattes.cnpq.br/4988340588959213bd9439c1-bcb5-49d2-a27f-1489919d4c552016-06-02T19:05:56Z2012-05-312016-06-02T19:05:56Z2012-02-29PERLIN, Caroline Beatriz. MIDB : um modelo de integração de dados biológicos. 2012. 105 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2012.https://repositorio.ufscar.br/handle/ufscar/497In bioinformatics, there is a huge volume of data related to biomolecules and to nucleotide and amino acid sequences that reside (in almost their totality) in several Biological Data Bases (BDBs). For a specific sequence, there are some informational classifications: genomic data, evolution-data, structural data, and others. Some BDBs store just one or some of these classifications. Those BDBs are hosted in different sites and servers, with several data base management systems with different data models. Besides, instances and schema might have semantic heterogeneity. In such scenario, the objective of this project is to propose a biological data integration model, that adopts new schema integration and instance integration techniques. The proposed integration model has a special mechanism of schema integration and another mechanism that performs the instance integration (with support of a dictionary) allowing conflict resolution in the attribute values; and a Clustering Algorithm is used in order to cluster similar entities. Besides, a domain specialist participates managing those clusters. The proposed model was validated through a study case focusing on schema and instance integration about nucleotide sequence data from organisms of Actinomyces gender, captured from four different data sources. The result is that about 97.91% of the attributes were correctly categorized in the schema integration, and the instance integration was able to identify that about 50% of the clusters created need support from a specialist, avoiding errors on the instance resolution. Besides, some contributions are presented, as the Attributes Categorization, the Clustering Algorithm, the distance functions proposed and the proposed model itself.Na bioinformática, existe um imenso volume de dados sendo produzidos, os quais estão relacionados a sequências de nucleotídeos e aminoácidos que se encontram, em quase a sua totalidade, armazenados em Bancos de Dados Biológicos (BDBs). Para uma determinada sequência existem algumas classificações de informação: dados genômicos, dados evolutivos, dados estruturais, dentre outros. Existem BDBs que armazenam somente uma ou algumas dessas classificações. Tais BDBs estão hospedados em diferentes sites e servidores, com sistemas gerenciadores de banco de dados distintos e com uso de diferentes modelos de dados, além de terem instâncias e esquemas com heterogeneidade semântica. Dentro desse contexto, o objetivo deste projeto de mestrado é propor um Modelo de Integração de Dados Biológicos, com novas técnicas de integração de esquemas e integração de instâncias. O modelo de integração proposto possui um mecanismo especial de integração de esquemas, e outro mecanismo que realiza a integração de instâncias de dados (com um dicionário acoplado) permitindo resolução de conflitos nos valores dos atributos; e um Algoritmo de Clusterização é utilizado, com o objetivo de realizar o agrupamento de entidades similares. Além disso, o especialista de domínio participa do gerenciamento desses agrupamentos. Esse modelo foi validado por meio de um estudo de caso com ênfase na integração de esquemas e integração de instâncias com dados de sequências de nucleotídeos de genes de organismos do gênero Actinomyces, provenientes de quatro diferentes fontes de dados. Como resultado, obteve-se que aproximadamente 97,91% dos atributos foram categorizados corretamente na integração de esquemas e a integração de instâncias conseguiu identificar que aproximadamente 50% dos clusters gerados precisam de tratamento do especialista, evitando erros de resolução de entidades. Além disso, algumas contribuições são apresentadas, como por exemplo a Categorização de Atributos, o Algoritmo de Clusterização, as funções de distância propostas e o modelo MIDB em si.application/pdfporUniversidade Federal de São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarBRBanco de dadosBioinformáticaModelo de integração de dadosIntegração de esquemasIntegração de instânciasIntegração de Dados BiológicosBioinformaticsBiological DatabasesBiological Database IntegrationData Integration ModelSchema IntegrationInstance IntegrationCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOMIDB: um modelo de integração de dados biológicosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis-1-13b1d5172-8bf0-4d0b-8777-ab82599bbf09info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINAL4370.pdfapplication/pdf1089392https://repositorio.ufscar.br/bitstream/ufscar/497/1/4370.pdf82daa0e51d37184f8864bd92d9342ddeMD51TEXT4370.pdf.txt4370.pdf.txtExtracted texttext/plain0https://repositorio.ufscar.br/bitstream/ufscar/497/2/4370.pdf.txtd41d8cd98f00b204e9800998ecf8427eMD52THUMBNAIL4370.pdf.jpg4370.pdf.jpgIM Thumbnailimage/jpeg8889https://repositorio.ufscar.br/bitstream/ufscar/497/3/4370.pdf.jpgecb9d2986c0fe2bcb32bd21f5c6aa020MD53ufscar/4972023-09-18 18:31:27.758oai:repositorio.ufscar.br:ufscar/497Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:31:27Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv	MIDB: um modelo de integração de dados biológicos
title	MIDB: um modelo de integração de dados biológicos
spellingShingle	MIDB: um modelo de integração de dados biológicos Perlin, Caroline Beatriz Banco de dados Bioinformática Modelo de integração de dados Integração de esquemas Integração de instâncias Integração de Dados Biológicos Bioinformatics Biological Databases Biological Database Integration Data Integration Model Schema Integration Instance Integration CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short	MIDB: um modelo de integração de dados biológicos
title_full	MIDB: um modelo de integração de dados biológicos
title_fullStr	MIDB: um modelo de integração de dados biológicos
title_full_unstemmed	MIDB: um modelo de integração de dados biológicos
title_sort	MIDB: um modelo de integração de dados biológicos
author	Perlin, Caroline Beatriz
author_facet	Perlin, Caroline Beatriz
author_role	author
dc.contributor.authorlattes.por.fl_str_mv	http://lattes.cnpq.br/4988340588959213
dc.contributor.author.fl_str_mv	Perlin, Caroline Beatriz
dc.contributor.advisor1.fl_str_mv	Ciferri, Ricardo Rodrigues
dc.contributor.advisor1Lattes.fl_str_mv	http://lattes.cnpq.br/8382221522817502
dc.contributor.authorID.fl_str_mv	bd9439c1-bcb5-49d2-a27f-1489919d4c55
contributor_str_mv	Ciferri, Ricardo Rodrigues
dc.subject.por.fl_str_mv	Banco de dados Bioinformática Modelo de integração de dados Integração de esquemas Integração de instâncias Integração de Dados Biológicos
topic	Banco de dados Bioinformática Modelo de integração de dados Integração de esquemas Integração de instâncias Integração de Dados Biológicos Bioinformatics Biological Databases Biological Database Integration Data Integration Model Schema Integration Instance Integration CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.eng.fl_str_mv	Bioinformatics Biological Databases Biological Database Integration Data Integration Model Schema Integration Instance Integration
dc.subject.cnpq.fl_str_mv	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description	In bioinformatics, there is a huge volume of data related to biomolecules and to nucleotide and amino acid sequences that reside (in almost their totality) in several Biological Data Bases (BDBs). For a specific sequence, there are some informational classifications: genomic data, evolution-data, structural data, and others. Some BDBs store just one or some of these classifications. Those BDBs are hosted in different sites and servers, with several data base management systems with different data models. Besides, instances and schema might have semantic heterogeneity. In such scenario, the objective of this project is to propose a biological data integration model, that adopts new schema integration and instance integration techniques. The proposed integration model has a special mechanism of schema integration and another mechanism that performs the instance integration (with support of a dictionary) allowing conflict resolution in the attribute values; and a Clustering Algorithm is used in order to cluster similar entities. Besides, a domain specialist participates managing those clusters. The proposed model was validated through a study case focusing on schema and instance integration about nucleotide sequence data from organisms of Actinomyces gender, captured from four different data sources. The result is that about 97.91% of the attributes were correctly categorized in the schema integration, and the instance integration was able to identify that about 50% of the clusters created need support from a specialist, avoiding errors on the instance resolution. Besides, some contributions are presented, as the Attributes Categorization, the Clustering Algorithm, the distance functions proposed and the proposed model itself.
publishDate	2012
dc.date.available.fl_str_mv	2012-05-31 2016-06-02T19:05:56Z
dc.date.issued.fl_str_mv	2012-02-29
dc.date.accessioned.fl_str_mv	2016-06-02T19:05:56Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	PERLIN, Caroline Beatriz. MIDB : um modelo de integração de dados biológicos. 2012. 105 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2012.
dc.identifier.uri.fl_str_mv	https://repositorio.ufscar.br/handle/ufscar/497
identifier_str_mv	PERLIN, Caroline Beatriz. MIDB : um modelo de integração de dados biológicos. 2012. 105 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2012.
url	https://repositorio.ufscar.br/handle/ufscar/497
dc.language.iso.fl_str_mv	por
language	por
dc.relation.confidence.fl_str_mv	-1 -1
dc.relation.authority.fl_str_mv	3b1d5172-8bf0-4d0b-8777-ab82599bbf09
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal de São Carlos
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv	UFSCar
dc.publisher.country.fl_str_mv	BR
publisher.none.fl_str_mv	Universidade Federal de São Carlos
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR
instname_str	Universidade Federal de São Carlos (UFSCAR)
instacron_str	UFSCAR
institution	UFSCAR
reponame_str	Repositório Institucional da UFSCAR
collection	Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv	https://repositorio.ufscar.br/bitstream/ufscar/497/1/4370.pdf https://repositorio.ufscar.br/bitstream/ufscar/497/2/4370.pdf.txt https://repositorio.ufscar.br/bitstream/ufscar/497/3/4370.pdf.jpg
bitstream.checksum.fl_str_mv	82daa0e51d37184f8864bd92d9342dde d41d8cd98f00b204e9800998ecf8427e ecb9d2986c0fe2bcb32bd21f5c6aa020
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_	1802136244989198336

MIDB: um modelo de integração de dados biológicos

Registros relacionados