Combinação de kernels para predição de interações em redes biológicas
Autor(a) principal: | |
---|---|
Data de Publicação: | 2015 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPE |
Texto Completo: | https://repositorio.ufpe.br/handle/123456789/16781 |
Resumo: | Redes droga-proteína têm recebido bastante atenção nos últimos anos, dada sua relevância para a inovação farmacêutica e produção de novos fármacos. Muitas abordagens in silico distintas para predição de interações droga-proteína têm sido propostas, muitas das quais baseadas em uma classe particular de métodos de aprendizagem de máquina chamada de métodos de kernel. Estes algoritmos de classificação de padrões são capazes de incorporar conhecimento prévio na forma de funções de similaridade, i.e., um kernel, e têm tido sucesso em diversos problemas de aprendizagem supervisionada. A seleção da função de kernel adequada e seus respectivos parâmetros pode ter grande influência no desempenho do classificador construído. Recentemente, a aprendizagem de múltiplos kernels (Multiple Kernel Learning - MKL) tem sido introduzida para solucionar este problema, permitindo a utilização de múltiplos kernels, ao invés de considerar apenas um kernel para uma dada tarefa. A principal motivação para tal abordagem é similar a considerada na combinação de múltiplos classificadores: ao invés de restringir-se a um único kernel, é preferível utilizar um conjunto de kernels distintos, e deixar que um algoritmo selecione os melhores, ou sua respectiva combinação. Abordagens MKL também podem ser vistas como uma estratégia de integração de dados. Apesar dos avanços técnicos nos últimos anos, as abordagens propostas anteriormente não são capazes de lidar com os grandes espaços de interação entre drogas e proteínas e integrar múltiplas fontes de informação simultaneamente. Neste trabalho, é proposto um método de aprendizagem de múltiplos kernels para a combinação não esparsa de kernels na predição de interações em redes droga-proteína. O método proposto permite a integração de múltiplas fontes heterogêneas de informação para a identificação de novas interações, e também pode ser aplicado em redes de tamanhos arbitrários. Além disso, o método proposto pode também selecionar automaticamente os kernels mais relevantes, retornando pesos que indiquem a sua importância na predição de interações droga-proteína na rede em questão. A análise empírica em quatro bases de dados, utilizando vinte kernels distintos indicou que o método proposto obteve desempenho comparável ou superior a todos os métodos avaliados. Ademais, os pesos associados aos kernels analisados refletiram a qualidade preditiva obtida por cada kernel em experimentos exaustivos para cada par de kernels, um indicativo do sucesso do método em identificar automaticamente fontes de informação biológica relevantes. Nossas análises demonstraram que a estratégia de integração de dados é capaz de melhorar a qualidade das interações preditas, e pode acelerar a identificação de novas interações, bem como identificar informações relevantes para a tarefa. |
id |
UFPE_2c82e8e585b9e791adcfda2f007a4041 |
---|---|
oai_identifier_str |
oai:repositorio.ufpe.br:123456789/16781 |
network_acronym_str |
UFPE |
network_name_str |
Repositório Institucional da UFPE |
repository_id_str |
2221 |
spelling |
NASCIMENTO, André Câmara Alves doPRUDÊNCIO, Ricardo Bastos CavalcanteCOSTA FILHO, Ivan Gesteira2016-04-22T19:31:30Z2016-04-22T19:31:30Z2015-11-09https://repositorio.ufpe.br/handle/123456789/16781Redes droga-proteína têm recebido bastante atenção nos últimos anos, dada sua relevância para a inovação farmacêutica e produção de novos fármacos. Muitas abordagens in silico distintas para predição de interações droga-proteína têm sido propostas, muitas das quais baseadas em uma classe particular de métodos de aprendizagem de máquina chamada de métodos de kernel. Estes algoritmos de classificação de padrões são capazes de incorporar conhecimento prévio na forma de funções de similaridade, i.e., um kernel, e têm tido sucesso em diversos problemas de aprendizagem supervisionada. A seleção da função de kernel adequada e seus respectivos parâmetros pode ter grande influência no desempenho do classificador construído. Recentemente, a aprendizagem de múltiplos kernels (Multiple Kernel Learning - MKL) tem sido introduzida para solucionar este problema, permitindo a utilização de múltiplos kernels, ao invés de considerar apenas um kernel para uma dada tarefa. A principal motivação para tal abordagem é similar a considerada na combinação de múltiplos classificadores: ao invés de restringir-se a um único kernel, é preferível utilizar um conjunto de kernels distintos, e deixar que um algoritmo selecione os melhores, ou sua respectiva combinação. Abordagens MKL também podem ser vistas como uma estratégia de integração de dados. Apesar dos avanços técnicos nos últimos anos, as abordagens propostas anteriormente não são capazes de lidar com os grandes espaços de interação entre drogas e proteínas e integrar múltiplas fontes de informação simultaneamente. Neste trabalho, é proposto um método de aprendizagem de múltiplos kernels para a combinação não esparsa de kernels na predição de interações em redes droga-proteína. O método proposto permite a integração de múltiplas fontes heterogêneas de informação para a identificação de novas interações, e também pode ser aplicado em redes de tamanhos arbitrários. Além disso, o método proposto pode também selecionar automaticamente os kernels mais relevantes, retornando pesos que indiquem a sua importância na predição de interações droga-proteína na rede em questão. A análise empírica em quatro bases de dados, utilizando vinte kernels distintos indicou que o método proposto obteve desempenho comparável ou superior a todos os métodos avaliados. Ademais, os pesos associados aos kernels analisados refletiram a qualidade preditiva obtida por cada kernel em experimentos exaustivos para cada par de kernels, um indicativo do sucesso do método em identificar automaticamente fontes de informação biológica relevantes. Nossas análises demonstraram que a estratégia de integração de dados é capaz de melhorar a qualidade das interações preditas, e pode acelerar a identificação de novas interações, bem como identificar informações relevantes para a tarefa.CAPESDrug-target networks are receiving a lot of attention in late years, given its relevance for pharmaceutical innovation and drug lead discovery. Many different in silico approaches for the identification of new drug-target interactions have been proposed, many of them based on a particular class of machine learning algorithms called kernel methods. These pattern classification algorithms are able to incorporate previous knowledge in the form of similarity functions, i.e., a kernel, and it has been successful in a wide range of supervised learning problems. The selection of the right kernel function and its respective parameters can have a large influence on the performance of the classifier. Recently, Multiple Kernel Learning algorithms have been introduced to address this problem, enabling one to use multiple kernels instead of a single one for a given task. The main motivation for such approach is similar to the one considered in ensemble methods: instead of being restricted to only one kernel, it is preferrable to use a set of distinct kernels, and let the algorithm choose the best ones, or its combination. The MKL approach can also be seen as a data integration strategy. Despite technical advances in the latest years, previous approaches are not able to cope with large drug-target interaction spaces and integrate multiple sources of biological information simultaneously. In this work, we propose a new multiple kernel learning algorithm for the non-sparse combination of kernels in bipartite link prediction on drug-target networks. This method allows the integration of multiple heterogeneous information sources for the identification of new interactions, and can also work with networks of arbitrary size. Moreover, our method can also automatically select the more relevant kernels, returning weights indicating their importance in the drug-target prediction at hand. Empirical analysis on four data sets, using twenty distinct kernels indicates that our method has higher or comparable predictive performance than all evaluated methods. Moreover, the predicted weights reflect the predictive quality of each kernel on exhaustive pairwise experiments, which indicates the success of the method to automatically indicate relevant biological information sources. Our analysis show that the proposed data integration strategy is able to improve the quality of the predicted interactions, and can speed up the identification of new drug-target interactions as well as identify relevant information for the taskporUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência artificialAprendizado de máquinaCombinação de kernels para predição de interações em redes biológicasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisdoutoradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILTESE André Câmara Alves do Nascimentos.pdf.jpgTESE André Câmara Alves do Nascimentos.pdf.jpgGenerated Thumbnailimage/jpeg1307https://repositorio.ufpe.br/bitstream/123456789/16781/5/TESE%20Andr%c3%a9%20C%c3%a2mara%20Alves%20do%20Nascimentos.pdf.jpge5860d299a4cba00588897713ae52d1eMD55ORIGINALTESE André Câmara Alves do Nascimentos.pdfTESE André Câmara Alves do Nascimentos.pdfapplication/pdf4823168https://repositorio.ufpe.br/bitstream/123456789/16781/1/TESE%20Andr%c3%a9%20C%c3%a2mara%20Alves%20do%20Nascimentos.pdf2c30ae331ec29f390824052ea069109bMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81232https://repositorio.ufpe.br/bitstream/123456789/16781/2/license_rdf66e71c371cc565284e70f40736c94386MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82311https://repositorio.ufpe.br/bitstream/123456789/16781/3/license.txt4b8a02c7f2818eaf00dcf2260dd5eb08MD53TEXTTESE André Câmara Alves do Nascimentos.pdf.txtTESE André Câmara Alves do Nascimentos.pdf.txtExtracted texttext/plain258644https://repositorio.ufpe.br/bitstream/123456789/16781/4/TESE%20Andr%c3%a9%20C%c3%a2mara%20Alves%20do%20Nascimentos.pdf.txt0d252e5d084e6e8c32c2a805d9ebb0ccMD54123456789/167812019-10-25 18:39:40.452oai:repositorio.ufpe.br:123456789/16781TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLMKgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUEUgaWRlbnRpZmljYXLDoSBjbGFyYW1lbnRlIG8ocykgbm9tZShzKSBkbyhzKSBhdXRvciAoZXMpIGRvcyBkaXJlaXRvcyBkbyBkb2N1bWVudG8gZW50cmVndWUgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRvIHByZXZpc3RvIG5hIGFsw61uZWEgYykuCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T21:39:40Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
dc.title.pt_BR.fl_str_mv |
Combinação de kernels para predição de interações em redes biológicas |
title |
Combinação de kernels para predição de interações em redes biológicas |
spellingShingle |
Combinação de kernels para predição de interações em redes biológicas NASCIMENTO, André Câmara Alves do Inteligência artificial Aprendizado de máquina |
title_short |
Combinação de kernels para predição de interações em redes biológicas |
title_full |
Combinação de kernels para predição de interações em redes biológicas |
title_fullStr |
Combinação de kernels para predição de interações em redes biológicas |
title_full_unstemmed |
Combinação de kernels para predição de interações em redes biológicas |
title_sort |
Combinação de kernels para predição de interações em redes biológicas |
author |
NASCIMENTO, André Câmara Alves do |
author_facet |
NASCIMENTO, André Câmara Alves do |
author_role |
author |
dc.contributor.author.fl_str_mv |
NASCIMENTO, André Câmara Alves do |
dc.contributor.advisor1.fl_str_mv |
PRUDÊNCIO, Ricardo Bastos Cavalcante |
dc.contributor.advisor-co1.fl_str_mv |
COSTA FILHO, Ivan Gesteira |
contributor_str_mv |
PRUDÊNCIO, Ricardo Bastos Cavalcante COSTA FILHO, Ivan Gesteira |
dc.subject.por.fl_str_mv |
Inteligência artificial Aprendizado de máquina |
topic |
Inteligência artificial Aprendizado de máquina |
description |
Redes droga-proteína têm recebido bastante atenção nos últimos anos, dada sua relevância para a inovação farmacêutica e produção de novos fármacos. Muitas abordagens in silico distintas para predição de interações droga-proteína têm sido propostas, muitas das quais baseadas em uma classe particular de métodos de aprendizagem de máquina chamada de métodos de kernel. Estes algoritmos de classificação de padrões são capazes de incorporar conhecimento prévio na forma de funções de similaridade, i.e., um kernel, e têm tido sucesso em diversos problemas de aprendizagem supervisionada. A seleção da função de kernel adequada e seus respectivos parâmetros pode ter grande influência no desempenho do classificador construído. Recentemente, a aprendizagem de múltiplos kernels (Multiple Kernel Learning - MKL) tem sido introduzida para solucionar este problema, permitindo a utilização de múltiplos kernels, ao invés de considerar apenas um kernel para uma dada tarefa. A principal motivação para tal abordagem é similar a considerada na combinação de múltiplos classificadores: ao invés de restringir-se a um único kernel, é preferível utilizar um conjunto de kernels distintos, e deixar que um algoritmo selecione os melhores, ou sua respectiva combinação. Abordagens MKL também podem ser vistas como uma estratégia de integração de dados. Apesar dos avanços técnicos nos últimos anos, as abordagens propostas anteriormente não são capazes de lidar com os grandes espaços de interação entre drogas e proteínas e integrar múltiplas fontes de informação simultaneamente. Neste trabalho, é proposto um método de aprendizagem de múltiplos kernels para a combinação não esparsa de kernels na predição de interações em redes droga-proteína. O método proposto permite a integração de múltiplas fontes heterogêneas de informação para a identificação de novas interações, e também pode ser aplicado em redes de tamanhos arbitrários. Além disso, o método proposto pode também selecionar automaticamente os kernels mais relevantes, retornando pesos que indiquem a sua importância na predição de interações droga-proteína na rede em questão. A análise empírica em quatro bases de dados, utilizando vinte kernels distintos indicou que o método proposto obteve desempenho comparável ou superior a todos os métodos avaliados. Ademais, os pesos associados aos kernels analisados refletiram a qualidade preditiva obtida por cada kernel em experimentos exaustivos para cada par de kernels, um indicativo do sucesso do método em identificar automaticamente fontes de informação biológica relevantes. Nossas análises demonstraram que a estratégia de integração de dados é capaz de melhorar a qualidade das interações preditas, e pode acelerar a identificação de novas interações, bem como identificar informações relevantes para a tarefa. |
publishDate |
2015 |
dc.date.issued.fl_str_mv |
2015-11-09 |
dc.date.accessioned.fl_str_mv |
2016-04-22T19:31:30Z |
dc.date.available.fl_str_mv |
2016-04-22T19:31:30Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufpe.br/handle/123456789/16781 |
url |
https://repositorio.ufpe.br/handle/123456789/16781 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.publisher.program.fl_str_mv |
Programa de Pos Graduacao em Ciencia da Computacao |
dc.publisher.initials.fl_str_mv |
UFPE |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
instname_str |
Universidade Federal de Pernambuco (UFPE) |
instacron_str |
UFPE |
institution |
UFPE |
reponame_str |
Repositório Institucional da UFPE |
collection |
Repositório Institucional da UFPE |
bitstream.url.fl_str_mv |
https://repositorio.ufpe.br/bitstream/123456789/16781/5/TESE%20Andr%c3%a9%20C%c3%a2mara%20Alves%20do%20Nascimentos.pdf.jpg https://repositorio.ufpe.br/bitstream/123456789/16781/1/TESE%20Andr%c3%a9%20C%c3%a2mara%20Alves%20do%20Nascimentos.pdf https://repositorio.ufpe.br/bitstream/123456789/16781/2/license_rdf https://repositorio.ufpe.br/bitstream/123456789/16781/3/license.txt https://repositorio.ufpe.br/bitstream/123456789/16781/4/TESE%20Andr%c3%a9%20C%c3%a2mara%20Alves%20do%20Nascimentos.pdf.txt |
bitstream.checksum.fl_str_mv |
e5860d299a4cba00588897713ae52d1e 2c30ae331ec29f390824052ea069109b 66e71c371cc565284e70f40736c94386 4b8a02c7f2818eaf00dcf2260dd5eb08 0d252e5d084e6e8c32c2a805d9ebb0cc |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
repository.mail.fl_str_mv |
attena@ufpe.br |
_version_ |
1802310812106227712 |