Criação de Bases de Dados de Imagens Histológicas Anotadas e Desenvolvimento de um Modelo de Classificação Automática de Patologias Mamárias

Detalhes bibliográficos
Autor(a) principal: Moreira, Cristina Isabel da Silva
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.22/24328
Resumo: O Cancro da Mama é uma das patologias mais prevalentes mundialmente e uma das principais causas de mortalidade por cancro associado ao sexo feminino em Portugal. O diagnóstico de patologias mamárias que é feito através de biópsias é uma tarefa complexa e detalhada para os Patologistas e como tal suscetível a erros. É exigido uma análise meticulosa e especializada de múltiplos campos microscópicos, onde a precisão é vital e os atrasos podem ser críticos. Neste sentido, o desenvolvimento de plataformas que auxiliem a um diagnóstico rápido e preciso é cada vez mais essencial. Neste projeto foi desenvolvido um dataset de imagens histológicas de biópsias mamárias para o diagnóstico de patologias mamárias, com o objetivo de aplicar e avaliar a eficácia das redes neuronais na classificação e análise destes tecidos. O processo de criação do dataset resume-se à recolha do tecido, seguindo o seu processamento laboratorial onde as lâminas obtidas foram digitalizadas e submetidas a um processo de conversão e segmentação para formatos compatíveis com a posterior análise. A organização e categorização das imagens foi efetuada em código Python para a classificação automatizada, garantindo a integridade e precisão dos dados. A fase de pré-processamento e organização do dataset foram essenciais para assegurar a qualidade e representatividade dos dados. A precisão das categorizações e a distribuição equilibrada das imagens nas respetivas categorias para treino e validação dos modelos foram cruciais. A normalização das imagens e a extração adequadas dos segmentos de interesse foram etapas fundamentais para preparar os dados para a análise das redes neuronais. Esta preparação dos dados assegurou que os modelos fossem treinados com as informações corretas e essenciais para garantir a eficácia da aprendizagem. Para a aplicação das redes neuronais, foram selecionados os modelos SqueezeNet e InceptionV3, onde foram testados quatros cenários de classificação em ambas as arquiteturas e utilizadas quatro classes patológicas diferentes (Doença Fibrocística, Fibroadenoma, Carcinoma Lobular Invasivo e Carcinoma Ductal Invasivo). Estes modelos foram adaptados com camadas de entrada e saída personalizadas. A eficácia destes modelos foi avaliada com métricas estatísticas e gráficas incluindo a matriz de confusão, exatidão (accuracy), precisão (precision), sensibilidade (recall), F1-score e ainda as curvas de ROC e Precision-Recall. Ambos os modelos demonstraram uma boa performance com uma accuracy que variou entre os 88% e os 98% para todos os cenários testados. Porém, foi observado que o modelo InceptionV3 é o mais bem-sucedido, obtendo na maioria dos casos os valores mais altos de accuracy apesar de se ter observado alguma variação devido a fenómenos como overfitting. Os resultados obtidos indicam que as redes neuronais podem ser ferramentas eficazes no diagnóstico de patologias mamárias a partir de imagens histológicas. A accuracy elevada dos modelos utilizados para desenvolvimento deste projeto, refletem a capacidade de reconhecer e classificar de forma precisa as características morfológicas relevantes nas imagens, demonstrando que a Inteligência Artificial tem um potencial significativo para melhorar a precisão e eficácia dos diagnósticos em Anatomia Patológica.
id RCAP_2cd360d83cdb52d979c454985d7cb0b8
oai_identifier_str oai:recipp.ipp.pt:10400.22/24328
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Criação de Bases de Dados de Imagens Histológicas Anotadas e Desenvolvimento de um Modelo de Classificação Automática de Patologias MamáriasCreation of a Database of Annotated Histological Images and Development of an Automatic Classification Model for Breast PathologiesBreast CancerNeural NetworksMachine LearningSqueezeNetInceptionV3Domínio/Área Científica::Engenharia e TecnologiaO Cancro da Mama é uma das patologias mais prevalentes mundialmente e uma das principais causas de mortalidade por cancro associado ao sexo feminino em Portugal. O diagnóstico de patologias mamárias que é feito através de biópsias é uma tarefa complexa e detalhada para os Patologistas e como tal suscetível a erros. É exigido uma análise meticulosa e especializada de múltiplos campos microscópicos, onde a precisão é vital e os atrasos podem ser críticos. Neste sentido, o desenvolvimento de plataformas que auxiliem a um diagnóstico rápido e preciso é cada vez mais essencial. Neste projeto foi desenvolvido um dataset de imagens histológicas de biópsias mamárias para o diagnóstico de patologias mamárias, com o objetivo de aplicar e avaliar a eficácia das redes neuronais na classificação e análise destes tecidos. O processo de criação do dataset resume-se à recolha do tecido, seguindo o seu processamento laboratorial onde as lâminas obtidas foram digitalizadas e submetidas a um processo de conversão e segmentação para formatos compatíveis com a posterior análise. A organização e categorização das imagens foi efetuada em código Python para a classificação automatizada, garantindo a integridade e precisão dos dados. A fase de pré-processamento e organização do dataset foram essenciais para assegurar a qualidade e representatividade dos dados. A precisão das categorizações e a distribuição equilibrada das imagens nas respetivas categorias para treino e validação dos modelos foram cruciais. A normalização das imagens e a extração adequadas dos segmentos de interesse foram etapas fundamentais para preparar os dados para a análise das redes neuronais. Esta preparação dos dados assegurou que os modelos fossem treinados com as informações corretas e essenciais para garantir a eficácia da aprendizagem. Para a aplicação das redes neuronais, foram selecionados os modelos SqueezeNet e InceptionV3, onde foram testados quatros cenários de classificação em ambas as arquiteturas e utilizadas quatro classes patológicas diferentes (Doença Fibrocística, Fibroadenoma, Carcinoma Lobular Invasivo e Carcinoma Ductal Invasivo). Estes modelos foram adaptados com camadas de entrada e saída personalizadas. A eficácia destes modelos foi avaliada com métricas estatísticas e gráficas incluindo a matriz de confusão, exatidão (accuracy), precisão (precision), sensibilidade (recall), F1-score e ainda as curvas de ROC e Precision-Recall. Ambos os modelos demonstraram uma boa performance com uma accuracy que variou entre os 88% e os 98% para todos os cenários testados. Porém, foi observado que o modelo InceptionV3 é o mais bem-sucedido, obtendo na maioria dos casos os valores mais altos de accuracy apesar de se ter observado alguma variação devido a fenómenos como overfitting. Os resultados obtidos indicam que as redes neuronais podem ser ferramentas eficazes no diagnóstico de patologias mamárias a partir de imagens histológicas. A accuracy elevada dos modelos utilizados para desenvolvimento deste projeto, refletem a capacidade de reconhecer e classificar de forma precisa as características morfológicas relevantes nas imagens, demonstrando que a Inteligência Artificial tem um potencial significativo para melhorar a precisão e eficácia dos diagnósticos em Anatomia Patológica.Breast cancer is one of the most prevalent pathologies worldwide and a leading cause of cancer related mortality among women in Portugal. Diagnosing breast pathologies through biopsies is a complex and detailed task for Pathologists and thus prone to errors. It requires meticulous and specialized analysis of multiple microscopic fields, where accuracy is vital, and delays can be critical. In this sense, the development of platforms that aid in rapid and precise diagnosis is increasingly essential. In this project, a dataset of histological images from breast biopsies for the diagnosis of breast pathologies was developed, aiming to apply and evaluate the effectiveness of neural networks in classifying and analyzing these tissues. The dataset creation process involved tissue collection, followed by laboratory processing where the obtained slides were digitized and subjected to a conversion and segmentation process into formats compatible with subsequent analysis. The organization and categorization of the images were carried out using Python code for automated classification, ensuring the integrity and accuracy of the data. The pre-processing and organization phase of the dataset were essential to ensure the quality and representativeness of the data. The accuracy of the categorizations and the balanced distribution of images in their respective categories for training and validating the models were crucial. Normalization of the images and proper extraction of the segments of interest were fundamental steps in preparing the data for neural network analysis. This data preparation ensured that the models were trained with the correct and essential information to guarantee the effectiveness of the learning. For the application of neural networks, the SqueezeNet and InceptionV3 models were selected. Four classification scenarios were tested in both architectures using four different pathological classes (Fibrocystic Disease, Fibroadenoma, Invasive Lobular Carcinoma, and Invasive Ductal Carcinoma). These models were adapted with custom input and output layers. The efficacy of these models was evaluated using statistical and graphical metrics including the confusion matrix, accuracy, precision, recall, F1-score, and the ROC and Precision-Recall curves. Both models demonstrated good performance, with accuracy ranging between 88% and 98% for all tested scenarios. However, it was observed that the InceptionV3 model is the most successful, achieving the highest accuracy values in most cases, despite some variation due to phenomena such as overfitting. The results indicate that neural networks can be effective tools in diagnosing breast pathologies from histological images. The high accuracy of the models used for this project's development reflects their ability to accurately recognize and classify relevant morphological characteristics in the images, demonstrating that Artificial Intelligence has significant potential to improve the precision and efficiency of diagnoses in Anatomical Pathology.Coelho, Luís Filipe Martins PintoRepositório Científico do Instituto Politécnico do PortoMoreira, Cristina Isabel da Silva2023-12-20T12:04:10Z2023-11-282023-11-28T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/24328TID:203435877porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-12-27T01:49:17Zoai:recipp.ipp.pt:10400.22/24328Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T00:56:14.252728Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Criação de Bases de Dados de Imagens Histológicas Anotadas e Desenvolvimento de um Modelo de Classificação Automática de Patologias Mamárias
Creation of a Database of Annotated Histological Images and Development of an Automatic Classification Model for Breast Pathologies
title Criação de Bases de Dados de Imagens Histológicas Anotadas e Desenvolvimento de um Modelo de Classificação Automática de Patologias Mamárias
spellingShingle Criação de Bases de Dados de Imagens Histológicas Anotadas e Desenvolvimento de um Modelo de Classificação Automática de Patologias Mamárias
Moreira, Cristina Isabel da Silva
Breast Cancer
Neural Networks
Machine Learning
SqueezeNet
InceptionV3
Domínio/Área Científica::Engenharia e Tecnologia
title_short Criação de Bases de Dados de Imagens Histológicas Anotadas e Desenvolvimento de um Modelo de Classificação Automática de Patologias Mamárias
title_full Criação de Bases de Dados de Imagens Histológicas Anotadas e Desenvolvimento de um Modelo de Classificação Automática de Patologias Mamárias
title_fullStr Criação de Bases de Dados de Imagens Histológicas Anotadas e Desenvolvimento de um Modelo de Classificação Automática de Patologias Mamárias
title_full_unstemmed Criação de Bases de Dados de Imagens Histológicas Anotadas e Desenvolvimento de um Modelo de Classificação Automática de Patologias Mamárias
title_sort Criação de Bases de Dados de Imagens Histológicas Anotadas e Desenvolvimento de um Modelo de Classificação Automática de Patologias Mamárias
author Moreira, Cristina Isabel da Silva
author_facet Moreira, Cristina Isabel da Silva
author_role author
dc.contributor.none.fl_str_mv Coelho, Luís Filipe Martins Pinto
Repositório Científico do Instituto Politécnico do Porto
dc.contributor.author.fl_str_mv Moreira, Cristina Isabel da Silva
dc.subject.por.fl_str_mv Breast Cancer
Neural Networks
Machine Learning
SqueezeNet
InceptionV3
Domínio/Área Científica::Engenharia e Tecnologia
topic Breast Cancer
Neural Networks
Machine Learning
SqueezeNet
InceptionV3
Domínio/Área Científica::Engenharia e Tecnologia
description O Cancro da Mama é uma das patologias mais prevalentes mundialmente e uma das principais causas de mortalidade por cancro associado ao sexo feminino em Portugal. O diagnóstico de patologias mamárias que é feito através de biópsias é uma tarefa complexa e detalhada para os Patologistas e como tal suscetível a erros. É exigido uma análise meticulosa e especializada de múltiplos campos microscópicos, onde a precisão é vital e os atrasos podem ser críticos. Neste sentido, o desenvolvimento de plataformas que auxiliem a um diagnóstico rápido e preciso é cada vez mais essencial. Neste projeto foi desenvolvido um dataset de imagens histológicas de biópsias mamárias para o diagnóstico de patologias mamárias, com o objetivo de aplicar e avaliar a eficácia das redes neuronais na classificação e análise destes tecidos. O processo de criação do dataset resume-se à recolha do tecido, seguindo o seu processamento laboratorial onde as lâminas obtidas foram digitalizadas e submetidas a um processo de conversão e segmentação para formatos compatíveis com a posterior análise. A organização e categorização das imagens foi efetuada em código Python para a classificação automatizada, garantindo a integridade e precisão dos dados. A fase de pré-processamento e organização do dataset foram essenciais para assegurar a qualidade e representatividade dos dados. A precisão das categorizações e a distribuição equilibrada das imagens nas respetivas categorias para treino e validação dos modelos foram cruciais. A normalização das imagens e a extração adequadas dos segmentos de interesse foram etapas fundamentais para preparar os dados para a análise das redes neuronais. Esta preparação dos dados assegurou que os modelos fossem treinados com as informações corretas e essenciais para garantir a eficácia da aprendizagem. Para a aplicação das redes neuronais, foram selecionados os modelos SqueezeNet e InceptionV3, onde foram testados quatros cenários de classificação em ambas as arquiteturas e utilizadas quatro classes patológicas diferentes (Doença Fibrocística, Fibroadenoma, Carcinoma Lobular Invasivo e Carcinoma Ductal Invasivo). Estes modelos foram adaptados com camadas de entrada e saída personalizadas. A eficácia destes modelos foi avaliada com métricas estatísticas e gráficas incluindo a matriz de confusão, exatidão (accuracy), precisão (precision), sensibilidade (recall), F1-score e ainda as curvas de ROC e Precision-Recall. Ambos os modelos demonstraram uma boa performance com uma accuracy que variou entre os 88% e os 98% para todos os cenários testados. Porém, foi observado que o modelo InceptionV3 é o mais bem-sucedido, obtendo na maioria dos casos os valores mais altos de accuracy apesar de se ter observado alguma variação devido a fenómenos como overfitting. Os resultados obtidos indicam que as redes neuronais podem ser ferramentas eficazes no diagnóstico de patologias mamárias a partir de imagens histológicas. A accuracy elevada dos modelos utilizados para desenvolvimento deste projeto, refletem a capacidade de reconhecer e classificar de forma precisa as características morfológicas relevantes nas imagens, demonstrando que a Inteligência Artificial tem um potencial significativo para melhorar a precisão e eficácia dos diagnósticos em Anatomia Patológica.
publishDate 2023
dc.date.none.fl_str_mv 2023-12-20T12:04:10Z
2023-11-28
2023-11-28T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.22/24328
TID:203435877
url http://hdl.handle.net/10400.22/24328
identifier_str_mv TID:203435877
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799136447671828480