Combinação de kernels para predição de interações em redes biológicas

Detalhes bibliográficos
Autor(a) principal: NASCIMENTO, André Câmara Alves do
Data de Publicação: 2015
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFPE
Texto Completo: https://repositorio.ufpe.br/handle/123456789/16781
Resumo: Redes droga-proteína têm recebido bastante atenção nos últimos anos, dada sua relevância para a inovação farmacêutica e produção de novos fármacos. Muitas abordagens in silico distintas para predição de interações droga-proteína têm sido propostas, muitas das quais baseadas em uma classe particular de métodos de aprendizagem de máquina chamada de métodos de kernel. Estes algoritmos de classificação de padrões são capazes de incorporar conhecimento prévio na forma de funções de similaridade, i.e., um kernel, e têm tido sucesso em diversos problemas de aprendizagem supervisionada. A seleção da função de kernel adequada e seus respectivos parâmetros pode ter grande influência no desempenho do classificador construído. Recentemente, a aprendizagem de múltiplos kernels (Multiple Kernel Learning - MKL) tem sido introduzida para solucionar este problema, permitindo a utilização de múltiplos kernels, ao invés de considerar apenas um kernel para uma dada tarefa. A principal motivação para tal abordagem é similar a considerada na combinação de múltiplos classificadores: ao invés de restringir-se a um único kernel, é preferível utilizar um conjunto de kernels distintos, e deixar que um algoritmo selecione os melhores, ou sua respectiva combinação. Abordagens MKL também podem ser vistas como uma estratégia de integração de dados. Apesar dos avanços técnicos nos últimos anos, as abordagens propostas anteriormente não são capazes de lidar com os grandes espaços de interação entre drogas e proteínas e integrar múltiplas fontes de informação simultaneamente. Neste trabalho, é proposto um método de aprendizagem de múltiplos kernels para a combinação não esparsa de kernels na predição de interações em redes droga-proteína. O método proposto permite a integração de múltiplas fontes heterogêneas de informação para a identificação de novas interações, e também pode ser aplicado em redes de tamanhos arbitrários. Além disso, o método proposto pode também selecionar automaticamente os kernels mais relevantes, retornando pesos que indiquem a sua importância na predição de interações droga-proteína na rede em questão. A análise empírica em quatro bases de dados, utilizando vinte kernels distintos indicou que o método proposto obteve desempenho comparável ou superior a todos os métodos avaliados. Ademais, os pesos associados aos kernels analisados refletiram a qualidade preditiva obtida por cada kernel em experimentos exaustivos para cada par de kernels, um indicativo do sucesso do método em identificar automaticamente fontes de informação biológica relevantes. Nossas análises demonstraram que a estratégia de integração de dados é capaz de melhorar a qualidade das interações preditas, e pode acelerar a identificação de novas interações, bem como identificar informações relevantes para a tarefa.
id UFPE_2c82e8e585b9e791adcfda2f007a4041
oai_identifier_str oai:repositorio.ufpe.br:123456789/16781
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str 2221
spelling NASCIMENTO, André Câmara Alves doPRUDÊNCIO, Ricardo Bastos CavalcanteCOSTA FILHO, Ivan Gesteira2016-04-22T19:31:30Z2016-04-22T19:31:30Z2015-11-09https://repositorio.ufpe.br/handle/123456789/16781Redes droga-proteína têm recebido bastante atenção nos últimos anos, dada sua relevância para a inovação farmacêutica e produção de novos fármacos. Muitas abordagens in silico distintas para predição de interações droga-proteína têm sido propostas, muitas das quais baseadas em uma classe particular de métodos de aprendizagem de máquina chamada de métodos de kernel. Estes algoritmos de classificação de padrões são capazes de incorporar conhecimento prévio na forma de funções de similaridade, i.e., um kernel, e têm tido sucesso em diversos problemas de aprendizagem supervisionada. A seleção da função de kernel adequada e seus respectivos parâmetros pode ter grande influência no desempenho do classificador construído. Recentemente, a aprendizagem de múltiplos kernels (Multiple Kernel Learning - MKL) tem sido introduzida para solucionar este problema, permitindo a utilização de múltiplos kernels, ao invés de considerar apenas um kernel para uma dada tarefa. A principal motivação para tal abordagem é similar a considerada na combinação de múltiplos classificadores: ao invés de restringir-se a um único kernel, é preferível utilizar um conjunto de kernels distintos, e deixar que um algoritmo selecione os melhores, ou sua respectiva combinação. Abordagens MKL também podem ser vistas como uma estratégia de integração de dados. Apesar dos avanços técnicos nos últimos anos, as abordagens propostas anteriormente não são capazes de lidar com os grandes espaços de interação entre drogas e proteínas e integrar múltiplas fontes de informação simultaneamente. Neste trabalho, é proposto um método de aprendizagem de múltiplos kernels para a combinação não esparsa de kernels na predição de interações em redes droga-proteína. O método proposto permite a integração de múltiplas fontes heterogêneas de informação para a identificação de novas interações, e também pode ser aplicado em redes de tamanhos arbitrários. Além disso, o método proposto pode também selecionar automaticamente os kernels mais relevantes, retornando pesos que indiquem a sua importância na predição de interações droga-proteína na rede em questão. A análise empírica em quatro bases de dados, utilizando vinte kernels distintos indicou que o método proposto obteve desempenho comparável ou superior a todos os métodos avaliados. Ademais, os pesos associados aos kernels analisados refletiram a qualidade preditiva obtida por cada kernel em experimentos exaustivos para cada par de kernels, um indicativo do sucesso do método em identificar automaticamente fontes de informação biológica relevantes. Nossas análises demonstraram que a estratégia de integração de dados é capaz de melhorar a qualidade das interações preditas, e pode acelerar a identificação de novas interações, bem como identificar informações relevantes para a tarefa.CAPESDrug-target networks are receiving a lot of attention in late years, given its relevance for pharmaceutical innovation and drug lead discovery. Many different in silico approaches for the identification of new drug-target interactions have been proposed, many of them based on a particular class of machine learning algorithms called kernel methods. These pattern classification algorithms are able to incorporate previous knowledge in the form of similarity functions, i.e., a kernel, and it has been successful in a wide range of supervised learning problems. The selection of the right kernel function and its respective parameters can have a large influence on the performance of the classifier. Recently, Multiple Kernel Learning algorithms have been introduced to address this problem, enabling one to use multiple kernels instead of a single one for a given task. The main motivation for such approach is similar to the one considered in ensemble methods: instead of being restricted to only one kernel, it is preferrable to use a set of distinct kernels, and let the algorithm choose the best ones, or its combination. The MKL approach can also be seen as a data integration strategy. Despite technical advances in the latest years, previous approaches are not able to cope with large drug-target interaction spaces and integrate multiple sources of biological information simultaneously. In this work, we propose a new multiple kernel learning algorithm for the non-sparse combination of kernels in bipartite link prediction on drug-target networks. This method allows the integration of multiple heterogeneous information sources for the identification of new interactions, and can also work with networks of arbitrary size. Moreover, our method can also automatically select the more relevant kernels, returning weights indicating their importance in the drug-target prediction at hand. Empirical analysis on four data sets, using twenty distinct kernels indicates that our method has higher or comparable predictive performance than all evaluated methods. Moreover, the predicted weights reflect the predictive quality of each kernel on exhaustive pairwise experiments, which indicates the success of the method to automatically indicate relevant biological information sources. Our analysis show that the proposed data integration strategy is able to improve the quality of the predicted interactions, and can speed up the identification of new drug-target interactions as well as identify relevant information for the taskporUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência artificialAprendizado de máquinaCombinação de kernels para predição de interações em redes biológicasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisdoutoradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILTESE André Câmara Alves do Nascimentos.pdf.jpgTESE André Câmara Alves do Nascimentos.pdf.jpgGenerated Thumbnailimage/jpeg1307https://repositorio.ufpe.br/bitstream/123456789/16781/5/TESE%20Andr%c3%a9%20C%c3%a2mara%20Alves%20do%20Nascimentos.pdf.jpge5860d299a4cba00588897713ae52d1eMD55ORIGINALTESE André Câmara Alves do Nascimentos.pdfTESE André Câmara Alves do Nascimentos.pdfapplication/pdf4823168https://repositorio.ufpe.br/bitstream/123456789/16781/1/TESE%20Andr%c3%a9%20C%c3%a2mara%20Alves%20do%20Nascimentos.pdf2c30ae331ec29f390824052ea069109bMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81232https://repositorio.ufpe.br/bitstream/123456789/16781/2/license_rdf66e71c371cc565284e70f40736c94386MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82311https://repositorio.ufpe.br/bitstream/123456789/16781/3/license.txt4b8a02c7f2818eaf00dcf2260dd5eb08MD53TEXTTESE André Câmara Alves do Nascimentos.pdf.txtTESE André Câmara Alves do Nascimentos.pdf.txtExtracted texttext/plain258644https://repositorio.ufpe.br/bitstream/123456789/16781/4/TESE%20Andr%c3%a9%20C%c3%a2mara%20Alves%20do%20Nascimentos.pdf.txt0d252e5d084e6e8c32c2a805d9ebb0ccMD54123456789/167812019-10-25 18:39:40.452oai:repositorio.ufpe.br:123456789/16781TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLMKgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUEUgaWRlbnRpZmljYXLDoSBjbGFyYW1lbnRlIG8ocykgbm9tZShzKSBkbyhzKSBhdXRvciAoZXMpIGRvcyBkaXJlaXRvcyBkbyBkb2N1bWVudG8gZW50cmVndWUgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRvIHByZXZpc3RvIG5hIGFsw61uZWEgYykuCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T21:39:40Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Combinação de kernels para predição de interações em redes biológicas
title Combinação de kernels para predição de interações em redes biológicas
spellingShingle Combinação de kernels para predição de interações em redes biológicas
NASCIMENTO, André Câmara Alves do
Inteligência artificial
Aprendizado de máquina
title_short Combinação de kernels para predição de interações em redes biológicas
title_full Combinação de kernels para predição de interações em redes biológicas
title_fullStr Combinação de kernels para predição de interações em redes biológicas
title_full_unstemmed Combinação de kernels para predição de interações em redes biológicas
title_sort Combinação de kernels para predição de interações em redes biológicas
author NASCIMENTO, André Câmara Alves do
author_facet NASCIMENTO, André Câmara Alves do
author_role author
dc.contributor.author.fl_str_mv NASCIMENTO, André Câmara Alves do
dc.contributor.advisor1.fl_str_mv PRUDÊNCIO, Ricardo Bastos Cavalcante
dc.contributor.advisor-co1.fl_str_mv COSTA FILHO, Ivan Gesteira
contributor_str_mv PRUDÊNCIO, Ricardo Bastos Cavalcante
COSTA FILHO, Ivan Gesteira
dc.subject.por.fl_str_mv Inteligência artificial
Aprendizado de máquina
topic Inteligência artificial
Aprendizado de máquina
description Redes droga-proteína têm recebido bastante atenção nos últimos anos, dada sua relevância para a inovação farmacêutica e produção de novos fármacos. Muitas abordagens in silico distintas para predição de interações droga-proteína têm sido propostas, muitas das quais baseadas em uma classe particular de métodos de aprendizagem de máquina chamada de métodos de kernel. Estes algoritmos de classificação de padrões são capazes de incorporar conhecimento prévio na forma de funções de similaridade, i.e., um kernel, e têm tido sucesso em diversos problemas de aprendizagem supervisionada. A seleção da função de kernel adequada e seus respectivos parâmetros pode ter grande influência no desempenho do classificador construído. Recentemente, a aprendizagem de múltiplos kernels (Multiple Kernel Learning - MKL) tem sido introduzida para solucionar este problema, permitindo a utilização de múltiplos kernels, ao invés de considerar apenas um kernel para uma dada tarefa. A principal motivação para tal abordagem é similar a considerada na combinação de múltiplos classificadores: ao invés de restringir-se a um único kernel, é preferível utilizar um conjunto de kernels distintos, e deixar que um algoritmo selecione os melhores, ou sua respectiva combinação. Abordagens MKL também podem ser vistas como uma estratégia de integração de dados. Apesar dos avanços técnicos nos últimos anos, as abordagens propostas anteriormente não são capazes de lidar com os grandes espaços de interação entre drogas e proteínas e integrar múltiplas fontes de informação simultaneamente. Neste trabalho, é proposto um método de aprendizagem de múltiplos kernels para a combinação não esparsa de kernels na predição de interações em redes droga-proteína. O método proposto permite a integração de múltiplas fontes heterogêneas de informação para a identificação de novas interações, e também pode ser aplicado em redes de tamanhos arbitrários. Além disso, o método proposto pode também selecionar automaticamente os kernels mais relevantes, retornando pesos que indiquem a sua importância na predição de interações droga-proteína na rede em questão. A análise empírica em quatro bases de dados, utilizando vinte kernels distintos indicou que o método proposto obteve desempenho comparável ou superior a todos os métodos avaliados. Ademais, os pesos associados aos kernels analisados refletiram a qualidade preditiva obtida por cada kernel em experimentos exaustivos para cada par de kernels, um indicativo do sucesso do método em identificar automaticamente fontes de informação biológica relevantes. Nossas análises demonstraram que a estratégia de integração de dados é capaz de melhorar a qualidade das interações preditas, e pode acelerar a identificação de novas interações, bem como identificar informações relevantes para a tarefa.
publishDate 2015
dc.date.issued.fl_str_mv 2015-11-09
dc.date.accessioned.fl_str_mv 2016-04-22T19:31:30Z
dc.date.available.fl_str_mv 2016-04-22T19:31:30Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/16781
url https://repositorio.ufpe.br/handle/123456789/16781
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv UFPE
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/16781/5/TESE%20Andr%c3%a9%20C%c3%a2mara%20Alves%20do%20Nascimentos.pdf.jpg
https://repositorio.ufpe.br/bitstream/123456789/16781/1/TESE%20Andr%c3%a9%20C%c3%a2mara%20Alves%20do%20Nascimentos.pdf
https://repositorio.ufpe.br/bitstream/123456789/16781/2/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/16781/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/16781/4/TESE%20Andr%c3%a9%20C%c3%a2mara%20Alves%20do%20Nascimentos.pdf.txt
bitstream.checksum.fl_str_mv e5860d299a4cba00588897713ae52d1e
2c30ae331ec29f390824052ea069109b
66e71c371cc565284e70f40736c94386
4b8a02c7f2818eaf00dcf2260dd5eb08
0d252e5d084e6e8c32c2a805d9ebb0cc
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1802310812106227712