Eye and skin color prediction for Brazilian population using single nucleotide polymorphisms
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | eng |
Título da fonte: | Repositório Institucional da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/254817 |
Resumo: | Quando um crime está sob investigação, especialmente quando muitas perguntas não são respondidas, é necessário reduzir o número de suspeitos para poder resolver a investigação. Para reduzir o número de suspeitos, qualquer detalhe encontrado na cena do crime é importante, como um fio de cabelo, DNA ou até uma impressão digital. Quando o DNA encontrado não possui as informações completas para poder determinar a identidade do suspeito, algumas informações ainda podem ser extraídas dele, como a informação da cor dos olhos ou da pele. Este trabalho apresenta a aplicação de algoritmos de Aprendizado de Máquina, como Random Forest e Support Vector Machine para determinar a pigmen tação do olho e da pele usando Polimorfismos de Nucleotídeo Único (SNPs) a partir de uma amostra de DNA para uso forense. Os capítulos seguintes apresentarão os estudos necessários para investigar uma solução para o problema proposto. São apresentadas as bases teóricas de genéticas e de aprendizado de máquina, bem como trabalhos relaciona dos, experimentos e resultados. Cada conjunto de dados contém sessenta e seis SNPs e três classes: Azul, Intermediário e Marrom Escuro são as classes relacionadas à cor dos olhos, e Branco, Intermediário e Marrom são as classes relacionadas à cor da pele. Foram executados 144 experimentos (72 para olho e 72 para classificação de pele), combinando diferentes abordagens de seleção de features, balanceamento de classe e classificadores para definir a melhor solução. Os dados utilizados para este estudo foram coletados da população do Sul do Brasil. Os resultados finais mostraram que 4 SNPs podem ser utili zados para prever as classes Azul e Marrom Escuro. Para classificação da pele, 56 SNPs podem ser utilizados quando SMOTE é aplicado para equilibrar as classes, mas é neces sária uma investigação mais aprofundada para entender se o SMOTE está impactando na seleção dos SNPs. O uso de 36 SNPs sem balanceamento de classe também obteve um resultado próximo. Todos os experimentos tiveram um desempenho ruim para as classes Intermediárias. Para trabalhos futuros, é necessária uma melhor investigação de cores intermediárias. |
id |
UFRGS-2_744f4adc04b055ad8e5e11f461edc357 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/254817 |
network_acronym_str |
UFRGS-2 |
network_name_str |
Repositório Institucional da UFRGS |
repository_id_str |
|
spelling |
Alves, Juliane da RochaDorn, Márcio2023-02-17T03:21:15Z2022http://hdl.handle.net/10183/254817001162501Quando um crime está sob investigação, especialmente quando muitas perguntas não são respondidas, é necessário reduzir o número de suspeitos para poder resolver a investigação. Para reduzir o número de suspeitos, qualquer detalhe encontrado na cena do crime é importante, como um fio de cabelo, DNA ou até uma impressão digital. Quando o DNA encontrado não possui as informações completas para poder determinar a identidade do suspeito, algumas informações ainda podem ser extraídas dele, como a informação da cor dos olhos ou da pele. Este trabalho apresenta a aplicação de algoritmos de Aprendizado de Máquina, como Random Forest e Support Vector Machine para determinar a pigmen tação do olho e da pele usando Polimorfismos de Nucleotídeo Único (SNPs) a partir de uma amostra de DNA para uso forense. Os capítulos seguintes apresentarão os estudos necessários para investigar uma solução para o problema proposto. São apresentadas as bases teóricas de genéticas e de aprendizado de máquina, bem como trabalhos relaciona dos, experimentos e resultados. Cada conjunto de dados contém sessenta e seis SNPs e três classes: Azul, Intermediário e Marrom Escuro são as classes relacionadas à cor dos olhos, e Branco, Intermediário e Marrom são as classes relacionadas à cor da pele. Foram executados 144 experimentos (72 para olho e 72 para classificação de pele), combinando diferentes abordagens de seleção de features, balanceamento de classe e classificadores para definir a melhor solução. Os dados utilizados para este estudo foram coletados da população do Sul do Brasil. Os resultados finais mostraram que 4 SNPs podem ser utili zados para prever as classes Azul e Marrom Escuro. Para classificação da pele, 56 SNPs podem ser utilizados quando SMOTE é aplicado para equilibrar as classes, mas é neces sária uma investigação mais aprofundada para entender se o SMOTE está impactando na seleção dos SNPs. O uso de 36 SNPs sem balanceamento de classe também obteve um resultado próximo. Todos os experimentos tiveram um desempenho ruim para as classes Intermediárias. Para trabalhos futuros, é necessária uma melhor investigação de cores intermediárias.When a crime is under investigation, especially when too many questions are unanswered, it is necessary to reduce the number of suspects to be able to solve the investigation. To reduce the number of suspects, any detail found at the crime scene is important, such as a strand of hair, DNA, or even a fingerprint. When the DNA found does not have the com plete information to be able to determine the identity of the suspect, some information can still be extracted from it, like the information of eye color or skin color. This work presents the application of Machine Learning algorithms, such as Random Forest, and Support Vector Machine to determine the pigmentation of the eye and skin using Single Nucleotide Polymorphisms (SNPs) from a DNA sample for forensics use. The follow ing chapters will present the necessary studies to investigate a solution for the proposed problem. Genetic and machine learning theoretical basis are presented, as well as related works, experiments, and results. Each dataset contains sixty-six SNPs and three classes: Blue, Intermediate, and Dark Brown are the classes related to eye color, and White, Inter mediate, and Brown are the classes related to skin color. 144 experiments were executed (72 for eye and 72 for skin classification), combining different approaches of feature se lection, class balanced, and classifiers to define the best solution. The data used for this study were collected from the Southern Brazilian population. The final results showed that 4 SNPs can be used to predict Blue and Dark Brown classes. For skin classification, 56 SNPs can be used when SMOTE is applied to balance the classes, but a further inves tigation is necessary to understand if the SMOTE is impacting the selection of the SNPs. Using 36 SNPs without class balance also achieved a close result. All the experiments had a bad performance for the Intermediate classes. For future work, a better investigation of intermediate colors is necessary.application/pdfengAlgoritmosAprendizado de máquinaDadoSingle Nucleotide PolymorphismsForensicEye colorSkin colorEye and skin color prediction for Brazilian population using single nucleotide polymorphismsPrevisão da cor dos olhos e da pele para a população brasileiros utilizando polimorfismos de nucleotídeo único info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2022Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001162501.pdf.txt001162501.pdf.txtExtracted Texttext/plain211345http://www.lume.ufrgs.br/bitstream/10183/254817/2/001162501.pdf.txtcff45e7eafa1c616bc3cef40def3624eMD52ORIGINAL001162501.pdfTexto completo (inglês)application/pdf7092653http://www.lume.ufrgs.br/bitstream/10183/254817/1/001162501.pdf7a5dc08b8fee164f1c09a72bf07e4799MD5110183/2548172023-02-18 04:28:21.554172oai:www.lume.ufrgs.br:10183/254817Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2023-02-18T06:28:21Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Eye and skin color prediction for Brazilian population using single nucleotide polymorphisms |
dc.title.alternative.en.fl_str_mv |
Previsão da cor dos olhos e da pele para a população brasileiros utilizando polimorfismos de nucleotídeo único |
title |
Eye and skin color prediction for Brazilian population using single nucleotide polymorphisms |
spellingShingle |
Eye and skin color prediction for Brazilian population using single nucleotide polymorphisms Alves, Juliane da Rocha Algoritmos Aprendizado de máquina Dado Single Nucleotide Polymorphisms Forensic Eye color Skin color |
title_short |
Eye and skin color prediction for Brazilian population using single nucleotide polymorphisms |
title_full |
Eye and skin color prediction for Brazilian population using single nucleotide polymorphisms |
title_fullStr |
Eye and skin color prediction for Brazilian population using single nucleotide polymorphisms |
title_full_unstemmed |
Eye and skin color prediction for Brazilian population using single nucleotide polymorphisms |
title_sort |
Eye and skin color prediction for Brazilian population using single nucleotide polymorphisms |
author |
Alves, Juliane da Rocha |
author_facet |
Alves, Juliane da Rocha |
author_role |
author |
dc.contributor.author.fl_str_mv |
Alves, Juliane da Rocha |
dc.contributor.advisor1.fl_str_mv |
Dorn, Márcio |
contributor_str_mv |
Dorn, Márcio |
dc.subject.por.fl_str_mv |
Algoritmos Aprendizado de máquina Dado |
topic |
Algoritmos Aprendizado de máquina Dado Single Nucleotide Polymorphisms Forensic Eye color Skin color |
dc.subject.eng.fl_str_mv |
Single Nucleotide Polymorphisms Forensic Eye color Skin color |
description |
Quando um crime está sob investigação, especialmente quando muitas perguntas não são respondidas, é necessário reduzir o número de suspeitos para poder resolver a investigação. Para reduzir o número de suspeitos, qualquer detalhe encontrado na cena do crime é importante, como um fio de cabelo, DNA ou até uma impressão digital. Quando o DNA encontrado não possui as informações completas para poder determinar a identidade do suspeito, algumas informações ainda podem ser extraídas dele, como a informação da cor dos olhos ou da pele. Este trabalho apresenta a aplicação de algoritmos de Aprendizado de Máquina, como Random Forest e Support Vector Machine para determinar a pigmen tação do olho e da pele usando Polimorfismos de Nucleotídeo Único (SNPs) a partir de uma amostra de DNA para uso forense. Os capítulos seguintes apresentarão os estudos necessários para investigar uma solução para o problema proposto. São apresentadas as bases teóricas de genéticas e de aprendizado de máquina, bem como trabalhos relaciona dos, experimentos e resultados. Cada conjunto de dados contém sessenta e seis SNPs e três classes: Azul, Intermediário e Marrom Escuro são as classes relacionadas à cor dos olhos, e Branco, Intermediário e Marrom são as classes relacionadas à cor da pele. Foram executados 144 experimentos (72 para olho e 72 para classificação de pele), combinando diferentes abordagens de seleção de features, balanceamento de classe e classificadores para definir a melhor solução. Os dados utilizados para este estudo foram coletados da população do Sul do Brasil. Os resultados finais mostraram que 4 SNPs podem ser utili zados para prever as classes Azul e Marrom Escuro. Para classificação da pele, 56 SNPs podem ser utilizados quando SMOTE é aplicado para equilibrar as classes, mas é neces sária uma investigação mais aprofundada para entender se o SMOTE está impactando na seleção dos SNPs. O uso de 36 SNPs sem balanceamento de classe também obteve um resultado próximo. Todos os experimentos tiveram um desempenho ruim para as classes Intermediárias. Para trabalhos futuros, é necessária uma melhor investigação de cores intermediárias. |
publishDate |
2022 |
dc.date.issued.fl_str_mv |
2022 |
dc.date.accessioned.fl_str_mv |
2023-02-17T03:21:15Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/254817 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001162501 |
url |
http://hdl.handle.net/10183/254817 |
identifier_str_mv |
001162501 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Repositório Institucional da UFRGS |
collection |
Repositório Institucional da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/254817/2/001162501.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/254817/1/001162501.pdf |
bitstream.checksum.fl_str_mv |
cff45e7eafa1c616bc3cef40def3624e 7a5dc08b8fee164f1c09a72bf07e4799 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
|
_version_ |
1815447330604711936 |