Eye and skin color prediction for Brazilian population using single nucleotide polymorphisms

Detalhes bibliográficos
Autor(a) principal: Alves, Juliane da Rocha
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: eng
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/254817
Resumo: Quando um crime está sob investigação, especialmente quando muitas perguntas não são respondidas, é necessário reduzir o número de suspeitos para poder resolver a investigação. Para reduzir o número de suspeitos, qualquer detalhe encontrado na cena do crime é importante, como um fio de cabelo, DNA ou até uma impressão digital. Quando o DNA encontrado não possui as informações completas para poder determinar a identidade do suspeito, algumas informações ainda podem ser extraídas dele, como a informação da cor dos olhos ou da pele. Este trabalho apresenta a aplicação de algoritmos de Aprendizado de Máquina, como Random Forest e Support Vector Machine para determinar a pigmen tação do olho e da pele usando Polimorfismos de Nucleotídeo Único (SNPs) a partir de uma amostra de DNA para uso forense. Os capítulos seguintes apresentarão os estudos necessários para investigar uma solução para o problema proposto. São apresentadas as bases teóricas de genéticas e de aprendizado de máquina, bem como trabalhos relaciona dos, experimentos e resultados. Cada conjunto de dados contém sessenta e seis SNPs e três classes: Azul, Intermediário e Marrom Escuro são as classes relacionadas à cor dos olhos, e Branco, Intermediário e Marrom são as classes relacionadas à cor da pele. Foram executados 144 experimentos (72 para olho e 72 para classificação de pele), combinando diferentes abordagens de seleção de features, balanceamento de classe e classificadores para definir a melhor solução. Os dados utilizados para este estudo foram coletados da população do Sul do Brasil. Os resultados finais mostraram que 4 SNPs podem ser utili zados para prever as classes Azul e Marrom Escuro. Para classificação da pele, 56 SNPs podem ser utilizados quando SMOTE é aplicado para equilibrar as classes, mas é neces sária uma investigação mais aprofundada para entender se o SMOTE está impactando na seleção dos SNPs. O uso de 36 SNPs sem balanceamento de classe também obteve um resultado próximo. Todos os experimentos tiveram um desempenho ruim para as classes Intermediárias. Para trabalhos futuros, é necessária uma melhor investigação de cores intermediárias.
id UFRGS-2_744f4adc04b055ad8e5e11f461edc357
oai_identifier_str oai:www.lume.ufrgs.br:10183/254817
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Alves, Juliane da RochaDorn, Márcio2023-02-17T03:21:15Z2022http://hdl.handle.net/10183/254817001162501Quando um crime está sob investigação, especialmente quando muitas perguntas não são respondidas, é necessário reduzir o número de suspeitos para poder resolver a investigação. Para reduzir o número de suspeitos, qualquer detalhe encontrado na cena do crime é importante, como um fio de cabelo, DNA ou até uma impressão digital. Quando o DNA encontrado não possui as informações completas para poder determinar a identidade do suspeito, algumas informações ainda podem ser extraídas dele, como a informação da cor dos olhos ou da pele. Este trabalho apresenta a aplicação de algoritmos de Aprendizado de Máquina, como Random Forest e Support Vector Machine para determinar a pigmen tação do olho e da pele usando Polimorfismos de Nucleotídeo Único (SNPs) a partir de uma amostra de DNA para uso forense. Os capítulos seguintes apresentarão os estudos necessários para investigar uma solução para o problema proposto. São apresentadas as bases teóricas de genéticas e de aprendizado de máquina, bem como trabalhos relaciona dos, experimentos e resultados. Cada conjunto de dados contém sessenta e seis SNPs e três classes: Azul, Intermediário e Marrom Escuro são as classes relacionadas à cor dos olhos, e Branco, Intermediário e Marrom são as classes relacionadas à cor da pele. Foram executados 144 experimentos (72 para olho e 72 para classificação de pele), combinando diferentes abordagens de seleção de features, balanceamento de classe e classificadores para definir a melhor solução. Os dados utilizados para este estudo foram coletados da população do Sul do Brasil. Os resultados finais mostraram que 4 SNPs podem ser utili zados para prever as classes Azul e Marrom Escuro. Para classificação da pele, 56 SNPs podem ser utilizados quando SMOTE é aplicado para equilibrar as classes, mas é neces sária uma investigação mais aprofundada para entender se o SMOTE está impactando na seleção dos SNPs. O uso de 36 SNPs sem balanceamento de classe também obteve um resultado próximo. Todos os experimentos tiveram um desempenho ruim para as classes Intermediárias. Para trabalhos futuros, é necessária uma melhor investigação de cores intermediárias.When a crime is under investigation, especially when too many questions are unanswered, it is necessary to reduce the number of suspects to be able to solve the investigation. To reduce the number of suspects, any detail found at the crime scene is important, such as a strand of hair, DNA, or even a fingerprint. When the DNA found does not have the com plete information to be able to determine the identity of the suspect, some information can still be extracted from it, like the information of eye color or skin color. This work presents the application of Machine Learning algorithms, such as Random Forest, and Support Vector Machine to determine the pigmentation of the eye and skin using Single Nucleotide Polymorphisms (SNPs) from a DNA sample for forensics use. The follow ing chapters will present the necessary studies to investigate a solution for the proposed problem. Genetic and machine learning theoretical basis are presented, as well as related works, experiments, and results. Each dataset contains sixty-six SNPs and three classes: Blue, Intermediate, and Dark Brown are the classes related to eye color, and White, Inter mediate, and Brown are the classes related to skin color. 144 experiments were executed (72 for eye and 72 for skin classification), combining different approaches of feature se lection, class balanced, and classifiers to define the best solution. The data used for this study were collected from the Southern Brazilian population. The final results showed that 4 SNPs can be used to predict Blue and Dark Brown classes. For skin classification, 56 SNPs can be used when SMOTE is applied to balance the classes, but a further inves tigation is necessary to understand if the SMOTE is impacting the selection of the SNPs. Using 36 SNPs without class balance also achieved a close result. All the experiments had a bad performance for the Intermediate classes. For future work, a better investigation of intermediate colors is necessary.application/pdfengAlgoritmosAprendizado de máquinaDadoSingle Nucleotide PolymorphismsForensicEye colorSkin colorEye and skin color prediction for Brazilian population using single nucleotide polymorphismsPrevisão da cor dos olhos e da pele para a população brasileiros utilizando polimorfismos de nucleotídeo único info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2022Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001162501.pdf.txt001162501.pdf.txtExtracted Texttext/plain211345http://www.lume.ufrgs.br/bitstream/10183/254817/2/001162501.pdf.txtcff45e7eafa1c616bc3cef40def3624eMD52ORIGINAL001162501.pdfTexto completo (inglês)application/pdf7092653http://www.lume.ufrgs.br/bitstream/10183/254817/1/001162501.pdf7a5dc08b8fee164f1c09a72bf07e4799MD5110183/2548172023-02-18 04:28:21.554172oai:www.lume.ufrgs.br:10183/254817Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2023-02-18T06:28:21Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Eye and skin color prediction for Brazilian population using single nucleotide polymorphisms
dc.title.alternative.en.fl_str_mv Previsão da cor dos olhos e da pele para a população brasileiros utilizando polimorfismos de nucleotídeo único
title Eye and skin color prediction for Brazilian population using single nucleotide polymorphisms
spellingShingle Eye and skin color prediction for Brazilian population using single nucleotide polymorphisms
Alves, Juliane da Rocha
Algoritmos
Aprendizado de máquina
Dado
Single Nucleotide Polymorphisms
Forensic
Eye color
Skin color
title_short Eye and skin color prediction for Brazilian population using single nucleotide polymorphisms
title_full Eye and skin color prediction for Brazilian population using single nucleotide polymorphisms
title_fullStr Eye and skin color prediction for Brazilian population using single nucleotide polymorphisms
title_full_unstemmed Eye and skin color prediction for Brazilian population using single nucleotide polymorphisms
title_sort Eye and skin color prediction for Brazilian population using single nucleotide polymorphisms
author Alves, Juliane da Rocha
author_facet Alves, Juliane da Rocha
author_role author
dc.contributor.author.fl_str_mv Alves, Juliane da Rocha
dc.contributor.advisor1.fl_str_mv Dorn, Márcio
contributor_str_mv Dorn, Márcio
dc.subject.por.fl_str_mv Algoritmos
Aprendizado de máquina
Dado
topic Algoritmos
Aprendizado de máquina
Dado
Single Nucleotide Polymorphisms
Forensic
Eye color
Skin color
dc.subject.eng.fl_str_mv Single Nucleotide Polymorphisms
Forensic
Eye color
Skin color
description Quando um crime está sob investigação, especialmente quando muitas perguntas não são respondidas, é necessário reduzir o número de suspeitos para poder resolver a investigação. Para reduzir o número de suspeitos, qualquer detalhe encontrado na cena do crime é importante, como um fio de cabelo, DNA ou até uma impressão digital. Quando o DNA encontrado não possui as informações completas para poder determinar a identidade do suspeito, algumas informações ainda podem ser extraídas dele, como a informação da cor dos olhos ou da pele. Este trabalho apresenta a aplicação de algoritmos de Aprendizado de Máquina, como Random Forest e Support Vector Machine para determinar a pigmen tação do olho e da pele usando Polimorfismos de Nucleotídeo Único (SNPs) a partir de uma amostra de DNA para uso forense. Os capítulos seguintes apresentarão os estudos necessários para investigar uma solução para o problema proposto. São apresentadas as bases teóricas de genéticas e de aprendizado de máquina, bem como trabalhos relaciona dos, experimentos e resultados. Cada conjunto de dados contém sessenta e seis SNPs e três classes: Azul, Intermediário e Marrom Escuro são as classes relacionadas à cor dos olhos, e Branco, Intermediário e Marrom são as classes relacionadas à cor da pele. Foram executados 144 experimentos (72 para olho e 72 para classificação de pele), combinando diferentes abordagens de seleção de features, balanceamento de classe e classificadores para definir a melhor solução. Os dados utilizados para este estudo foram coletados da população do Sul do Brasil. Os resultados finais mostraram que 4 SNPs podem ser utili zados para prever as classes Azul e Marrom Escuro. Para classificação da pele, 56 SNPs podem ser utilizados quando SMOTE é aplicado para equilibrar as classes, mas é neces sária uma investigação mais aprofundada para entender se o SMOTE está impactando na seleção dos SNPs. O uso de 36 SNPs sem balanceamento de classe também obteve um resultado próximo. Todos os experimentos tiveram um desempenho ruim para as classes Intermediárias. Para trabalhos futuros, é necessária uma melhor investigação de cores intermediárias.
publishDate 2022
dc.date.issued.fl_str_mv 2022
dc.date.accessioned.fl_str_mv 2023-02-17T03:21:15Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/254817
dc.identifier.nrb.pt_BR.fl_str_mv 001162501
url http://hdl.handle.net/10183/254817
identifier_str_mv 001162501
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/254817/2/001162501.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/254817/1/001162501.pdf
bitstream.checksum.fl_str_mv cff45e7eafa1c616bc3cef40def3624e
7a5dc08b8fee164f1c09a72bf07e4799
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1815447330604711936