Mineração de texto, agrupamento de seqüências e integração de dados para o desenvolvimento da Plant Defense Mechanisms Database

Detalhes bibliográficos
Autor(a) principal: Adriano Barbosa da Silva
Data de Publicação: 2008
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/BUOS-8S4JGC
Resumo: Este trabalho visa descrever as tecnologias utilizadas para o desenvolvimento da base de dados Plant Defense Mechanisms, uma base de dados sobre mecanismos de defesa em plantas contra estresse biótico e abiótico. Para isso desenvolvemos o programa LAITOR para identificar as coocorrências de nomes de proteínas e estímulos abióticos (biointities) na literatura científica juntamente com termos indicativos de uma ação biológica (bioactions), validado aquelas coocorrências na mesma frase apenas. A ferramenta NLPROT foi usada para a marcação inicial das bioentities que foram a posteriori validadas pelo LAITOR. Em seguida, para aqueles termos protéicos pertencentes a base de dados NCBI Gene que possuíam um registro correspondente na base de dados UniProtKB, foi realizado agrupamento de seqüências relacionadas nos outros organismos pertencentes a mesma base de dados, para isso desenvolvemos o software Seed Linkage. Este software explora as ligações múltiplas diretas e indiretas das seqüências desses outros organismos para com a seed inicialmente determinada. Encontramos os parâmetros de escore 400 (bruto) e 0.3 (relativo) como sendo os que maximizam a inclusão de seqüências corretas em clusters manualmente inspecionados. Depois de identificarmos 780 termos protéicos a partir da análise de 7.306 resumos científicos com o programa LAITOR, 1.390 identificadores únicos do UniProtKB foram utilizados para agrupar 15.669 seqüências nos 611 grupos que compõem a PDM. Desenvolvemos uma biblioteca, denominada SRS.php, para adquirir as informações referentes a cada umas destas proteínas a partir do servidor SRS instalado no EMBL utilizando a tecnologia de Web Services. Com o uso desta biblioteca, um cliente SOAP acessa o servidor e recupera, de maneira programática, os dados lá depositados. Depois de efetuarmos a análise de mineração de texto com o programa LAITOR, o agrupamento das seqüências através do método Seed Linkage e a aquisição subseqüente dos dados usando o protocolo SOAP, todas essas informações foram disponibilizadas num servidor HTML no sítio http://www.biodados.icb.ufmg.br/pdm. Neste sítio, os usuários podem efetuar uma busca utilizando palavras-chaves bem como busca por similaridade de seqüência pelo método BLAST. Após terem os registros desejados visualizados, um link é criado para as co-ocorrências dos termos protéicos na análise de mineração de texto, bem como para uma árvore filogenética das proteínas presentes em cada agrupamento da PDM. Além disso, implementamos o servidor SOAP da PDM, que faz com que seus dados sejam distribuídos por meio de Web Services. Criamos um método, denomidado query_pdm, onde todos os registros da base de dados podem ser consultados via SOAP. Em suma, apresentamos uma série de métodos implementados como componentes de softwares e programas propriamente ditos, que podem ser utilizados em aplicações semelhantes aquelas da PDM, sendo, todos eles, distribuídos gratuitamente a comunidade científica interessada nessas técnicas
id UFMG_5bb143cf30903eba8b3ccfa6c421e797
oai_identifier_str oai:repositorio.ufmg.br:1843/BUOS-8S4JGC
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Jose Miguel OrtegaAna Tereza Ribeiro VasconcelosJurandir Vieira de MagalhaesSergio Vale Aguiar CamposGloria Regina FrancoAdriano Barbosa da Silva2019-08-14T01:21:44Z2019-08-14T01:21:44Z2008-05-26http://hdl.handle.net/1843/BUOS-8S4JGCEste trabalho visa descrever as tecnologias utilizadas para o desenvolvimento da base de dados Plant Defense Mechanisms, uma base de dados sobre mecanismos de defesa em plantas contra estresse biótico e abiótico. Para isso desenvolvemos o programa LAITOR para identificar as coocorrências de nomes de proteínas e estímulos abióticos (biointities) na literatura científica juntamente com termos indicativos de uma ação biológica (bioactions), validado aquelas coocorrências na mesma frase apenas. A ferramenta NLPROT foi usada para a marcação inicial das bioentities que foram a posteriori validadas pelo LAITOR. Em seguida, para aqueles termos protéicos pertencentes a base de dados NCBI Gene que possuíam um registro correspondente na base de dados UniProtKB, foi realizado agrupamento de seqüências relacionadas nos outros organismos pertencentes a mesma base de dados, para isso desenvolvemos o software Seed Linkage. Este software explora as ligações múltiplas diretas e indiretas das seqüências desses outros organismos para com a seed inicialmente determinada. Encontramos os parâmetros de escore 400 (bruto) e 0.3 (relativo) como sendo os que maximizam a inclusão de seqüências corretas em clusters manualmente inspecionados. Depois de identificarmos 780 termos protéicos a partir da análise de 7.306 resumos científicos com o programa LAITOR, 1.390 identificadores únicos do UniProtKB foram utilizados para agrupar 15.669 seqüências nos 611 grupos que compõem a PDM. Desenvolvemos uma biblioteca, denominada SRS.php, para adquirir as informações referentes a cada umas destas proteínas a partir do servidor SRS instalado no EMBL utilizando a tecnologia de Web Services. Com o uso desta biblioteca, um cliente SOAP acessa o servidor e recupera, de maneira programática, os dados lá depositados. Depois de efetuarmos a análise de mineração de texto com o programa LAITOR, o agrupamento das seqüências através do método Seed Linkage e a aquisição subseqüente dos dados usando o protocolo SOAP, todas essas informações foram disponibilizadas num servidor HTML no sítio http://www.biodados.icb.ufmg.br/pdm. Neste sítio, os usuários podem efetuar uma busca utilizando palavras-chaves bem como busca por similaridade de seqüência pelo método BLAST. Após terem os registros desejados visualizados, um link é criado para as co-ocorrências dos termos protéicos na análise de mineração de texto, bem como para uma árvore filogenética das proteínas presentes em cada agrupamento da PDM. Além disso, implementamos o servidor SOAP da PDM, que faz com que seus dados sejam distribuídos por meio de Web Services. Criamos um método, denomidado query_pdm, onde todos os registros da base de dados podem ser consultados via SOAP. Em suma, apresentamos uma série de métodos implementados como componentes de softwares e programas propriamente ditos, que podem ser utilizados em aplicações semelhantes aquelas da PDM, sendo, todos eles, distribuídos gratuitamente a comunidade científica interessada nessas técnicasThis work aims to describe the technologies used for the Plant Defense Mechnaisms Database development, a database about the defense mechanisms against biotic and abiotic types of stresses in plants. For this purpose we have developed the program LAITOR, this is used in order to identify in the scientific literature the protein terms and names of biotic and abiotic stimuli (bioentities) along with terms indicating of a biological action (bioaction), nevertheless, validating those occurrences in the same sentence only. The tool NLPROT has been used for the initial bioentities tagging which were validated a posteriori by LAITOR. Later, for those protein terms which belong to the NCBI Gene database and with a corresponding record in the UniProtKB database, it was performed the clustering of sequences belonging to other organisms deposited in the same UniProtKB database, to achieve this aim we developed the Seed Linkage software. This software exploits direct and indirect multiple links from the sequences of these organisms to the initially determined seed. We found that the raw and relative scores of 400 and 0.3, respectively, are those which maximizes the inclusion of correct sequences in the rebuilding of a manually inspected clusters dataset. After the identification of 780 protein terms from the analysis of 7,306 scientific abstracts using the program LAITOR, 1,390 unique UniProtKB identifiers were used to cluster 15,669 sequences in the 611 clusters of the PubMed database. We have developed a software library, named SRS.php, to acquire the information referring to each of these proteins, using for this purpose the SRS server installed at the EMBL using the Web Services technology. With the usage of this library, a SOAP client accesses the server and retrieve, in a programmatic manner, the available data. After to perform the text mining analysis with the program LAITOR, the sequence clustering using the Seed Linkage software, and the subsequent data acquisition using the SOAP protocol, all these information were made available by a HTML server at http://www.biodados.icb.ufmg.br/pdm. In this website, users are able to perform a search using keywords or a BLAST-based similarity search. After the visualization of the retrieved records, a link is created for the co-occurrence of the protein terms in the text mining analysis, as well as for the phylogenetic tree of the proteins grouped in each PDM cluster. Furthermore, we have implemented the PDM SOAP server, which enables the distribution of PDM data through Web Services. We have created a method, named query_pdm, where any record deposited in this database can be accessed using SOAP. Summarizing, we present a set of methods implemented as software components, or programs in fact, which can be used in similar applications to PDM, being, therefore, freely available for the scientific community interested in such techniquesUniversidade Federal de Minas GeraisUFMGHomologia (Biologia)Banco de dadosBioinformáticaProteínasMineração de dados (Computação)BioinformáticaMineração de texto, agrupamento de seqüências e integração de dados para o desenvolvimento da Plant Defense Mechanisms Databaseinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALadriano_2.pdfapplication/pdf7382324https://repositorio.ufmg.br/bitstream/1843/BUOS-8S4JGC/1/adriano_2.pdf6f1560bd0880f2a7827c15514aa0f79aMD51TEXTadriano_2.pdf.txtadriano_2.pdf.txtExtracted texttext/plain164752https://repositorio.ufmg.br/bitstream/1843/BUOS-8S4JGC/2/adriano_2.pdf.txt8404bfc37a39dcad14ed32e5941916f1MD521843/BUOS-8S4JGC2019-11-14 17:32:54.789oai:repositorio.ufmg.br:1843/BUOS-8S4JGCRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T20:32:54Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Mineração de texto, agrupamento de seqüências e integração de dados para o desenvolvimento da Plant Defense Mechanisms Database
title Mineração de texto, agrupamento de seqüências e integração de dados para o desenvolvimento da Plant Defense Mechanisms Database
spellingShingle Mineração de texto, agrupamento de seqüências e integração de dados para o desenvolvimento da Plant Defense Mechanisms Database
Adriano Barbosa da Silva
Bioinformática
Homologia (Biologia)
Banco de dados
Bioinformática
Proteínas
Mineração de dados (Computação)
title_short Mineração de texto, agrupamento de seqüências e integração de dados para o desenvolvimento da Plant Defense Mechanisms Database
title_full Mineração de texto, agrupamento de seqüências e integração de dados para o desenvolvimento da Plant Defense Mechanisms Database
title_fullStr Mineração de texto, agrupamento de seqüências e integração de dados para o desenvolvimento da Plant Defense Mechanisms Database
title_full_unstemmed Mineração de texto, agrupamento de seqüências e integração de dados para o desenvolvimento da Plant Defense Mechanisms Database
title_sort Mineração de texto, agrupamento de seqüências e integração de dados para o desenvolvimento da Plant Defense Mechanisms Database
author Adriano Barbosa da Silva
author_facet Adriano Barbosa da Silva
author_role author
dc.contributor.advisor1.fl_str_mv Jose Miguel Ortega
dc.contributor.referee1.fl_str_mv Ana Tereza Ribeiro Vasconcelos
dc.contributor.referee2.fl_str_mv Jurandir Vieira de Magalhaes
dc.contributor.referee3.fl_str_mv Sergio Vale Aguiar Campos
dc.contributor.referee4.fl_str_mv Gloria Regina Franco
dc.contributor.author.fl_str_mv Adriano Barbosa da Silva
contributor_str_mv Jose Miguel Ortega
Ana Tereza Ribeiro Vasconcelos
Jurandir Vieira de Magalhaes
Sergio Vale Aguiar Campos
Gloria Regina Franco
dc.subject.por.fl_str_mv Bioinformática
topic Bioinformática
Homologia (Biologia)
Banco de dados
Bioinformática
Proteínas
Mineração de dados (Computação)
dc.subject.other.pt_BR.fl_str_mv Homologia (Biologia)
Banco de dados
Bioinformática
Proteínas
Mineração de dados (Computação)
description Este trabalho visa descrever as tecnologias utilizadas para o desenvolvimento da base de dados Plant Defense Mechanisms, uma base de dados sobre mecanismos de defesa em plantas contra estresse biótico e abiótico. Para isso desenvolvemos o programa LAITOR para identificar as coocorrências de nomes de proteínas e estímulos abióticos (biointities) na literatura científica juntamente com termos indicativos de uma ação biológica (bioactions), validado aquelas coocorrências na mesma frase apenas. A ferramenta NLPROT foi usada para a marcação inicial das bioentities que foram a posteriori validadas pelo LAITOR. Em seguida, para aqueles termos protéicos pertencentes a base de dados NCBI Gene que possuíam um registro correspondente na base de dados UniProtKB, foi realizado agrupamento de seqüências relacionadas nos outros organismos pertencentes a mesma base de dados, para isso desenvolvemos o software Seed Linkage. Este software explora as ligações múltiplas diretas e indiretas das seqüências desses outros organismos para com a seed inicialmente determinada. Encontramos os parâmetros de escore 400 (bruto) e 0.3 (relativo) como sendo os que maximizam a inclusão de seqüências corretas em clusters manualmente inspecionados. Depois de identificarmos 780 termos protéicos a partir da análise de 7.306 resumos científicos com o programa LAITOR, 1.390 identificadores únicos do UniProtKB foram utilizados para agrupar 15.669 seqüências nos 611 grupos que compõem a PDM. Desenvolvemos uma biblioteca, denominada SRS.php, para adquirir as informações referentes a cada umas destas proteínas a partir do servidor SRS instalado no EMBL utilizando a tecnologia de Web Services. Com o uso desta biblioteca, um cliente SOAP acessa o servidor e recupera, de maneira programática, os dados lá depositados. Depois de efetuarmos a análise de mineração de texto com o programa LAITOR, o agrupamento das seqüências através do método Seed Linkage e a aquisição subseqüente dos dados usando o protocolo SOAP, todas essas informações foram disponibilizadas num servidor HTML no sítio http://www.biodados.icb.ufmg.br/pdm. Neste sítio, os usuários podem efetuar uma busca utilizando palavras-chaves bem como busca por similaridade de seqüência pelo método BLAST. Após terem os registros desejados visualizados, um link é criado para as co-ocorrências dos termos protéicos na análise de mineração de texto, bem como para uma árvore filogenética das proteínas presentes em cada agrupamento da PDM. Além disso, implementamos o servidor SOAP da PDM, que faz com que seus dados sejam distribuídos por meio de Web Services. Criamos um método, denomidado query_pdm, onde todos os registros da base de dados podem ser consultados via SOAP. Em suma, apresentamos uma série de métodos implementados como componentes de softwares e programas propriamente ditos, que podem ser utilizados em aplicações semelhantes aquelas da PDM, sendo, todos eles, distribuídos gratuitamente a comunidade científica interessada nessas técnicas
publishDate 2008
dc.date.issued.fl_str_mv 2008-05-26
dc.date.accessioned.fl_str_mv 2019-08-14T01:21:44Z
dc.date.available.fl_str_mv 2019-08-14T01:21:44Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/BUOS-8S4JGC
url http://hdl.handle.net/1843/BUOS-8S4JGC
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/BUOS-8S4JGC/1/adriano_2.pdf
https://repositorio.ufmg.br/bitstream/1843/BUOS-8S4JGC/2/adriano_2.pdf.txt
bitstream.checksum.fl_str_mv 6f1560bd0880f2a7827c15514aa0f79a
8404bfc37a39dcad14ed32e5941916f1
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1801676647331528704