Criação de Bases de Dados de Imagens Histológicas Anotadas e Desenvolvimento de um Modelo de Classificação Automática de Patologias Mamárias
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.22/24328 |
Resumo: | O Cancro da Mama é uma das patologias mais prevalentes mundialmente e uma das principais causas de mortalidade por cancro associado ao sexo feminino em Portugal. O diagnóstico de patologias mamárias que é feito através de biópsias é uma tarefa complexa e detalhada para os Patologistas e como tal suscetível a erros. É exigido uma análise meticulosa e especializada de múltiplos campos microscópicos, onde a precisão é vital e os atrasos podem ser críticos. Neste sentido, o desenvolvimento de plataformas que auxiliem a um diagnóstico rápido e preciso é cada vez mais essencial. Neste projeto foi desenvolvido um dataset de imagens histológicas de biópsias mamárias para o diagnóstico de patologias mamárias, com o objetivo de aplicar e avaliar a eficácia das redes neuronais na classificação e análise destes tecidos. O processo de criação do dataset resume-se à recolha do tecido, seguindo o seu processamento laboratorial onde as lâminas obtidas foram digitalizadas e submetidas a um processo de conversão e segmentação para formatos compatíveis com a posterior análise. A organização e categorização das imagens foi efetuada em código Python para a classificação automatizada, garantindo a integridade e precisão dos dados. A fase de pré-processamento e organização do dataset foram essenciais para assegurar a qualidade e representatividade dos dados. A precisão das categorizações e a distribuição equilibrada das imagens nas respetivas categorias para treino e validação dos modelos foram cruciais. A normalização das imagens e a extração adequadas dos segmentos de interesse foram etapas fundamentais para preparar os dados para a análise das redes neuronais. Esta preparação dos dados assegurou que os modelos fossem treinados com as informações corretas e essenciais para garantir a eficácia da aprendizagem. Para a aplicação das redes neuronais, foram selecionados os modelos SqueezeNet e InceptionV3, onde foram testados quatros cenários de classificação em ambas as arquiteturas e utilizadas quatro classes patológicas diferentes (Doença Fibrocística, Fibroadenoma, Carcinoma Lobular Invasivo e Carcinoma Ductal Invasivo). Estes modelos foram adaptados com camadas de entrada e saída personalizadas. A eficácia destes modelos foi avaliada com métricas estatísticas e gráficas incluindo a matriz de confusão, exatidão (accuracy), precisão (precision), sensibilidade (recall), F1-score e ainda as curvas de ROC e Precision-Recall. Ambos os modelos demonstraram uma boa performance com uma accuracy que variou entre os 88% e os 98% para todos os cenários testados. Porém, foi observado que o modelo InceptionV3 é o mais bem-sucedido, obtendo na maioria dos casos os valores mais altos de accuracy apesar de se ter observado alguma variação devido a fenómenos como overfitting. Os resultados obtidos indicam que as redes neuronais podem ser ferramentas eficazes no diagnóstico de patologias mamárias a partir de imagens histológicas. A accuracy elevada dos modelos utilizados para desenvolvimento deste projeto, refletem a capacidade de reconhecer e classificar de forma precisa as características morfológicas relevantes nas imagens, demonstrando que a Inteligência Artificial tem um potencial significativo para melhorar a precisão e eficácia dos diagnósticos em Anatomia Patológica. |
id |
RCAP_2cd360d83cdb52d979c454985d7cb0b8 |
---|---|
oai_identifier_str |
oai:recipp.ipp.pt:10400.22/24328 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Criação de Bases de Dados de Imagens Histológicas Anotadas e Desenvolvimento de um Modelo de Classificação Automática de Patologias MamáriasCreation of a Database of Annotated Histological Images and Development of an Automatic Classification Model for Breast PathologiesBreast CancerNeural NetworksMachine LearningSqueezeNetInceptionV3Domínio/Área Científica::Engenharia e TecnologiaO Cancro da Mama é uma das patologias mais prevalentes mundialmente e uma das principais causas de mortalidade por cancro associado ao sexo feminino em Portugal. O diagnóstico de patologias mamárias que é feito através de biópsias é uma tarefa complexa e detalhada para os Patologistas e como tal suscetível a erros. É exigido uma análise meticulosa e especializada de múltiplos campos microscópicos, onde a precisão é vital e os atrasos podem ser críticos. Neste sentido, o desenvolvimento de plataformas que auxiliem a um diagnóstico rápido e preciso é cada vez mais essencial. Neste projeto foi desenvolvido um dataset de imagens histológicas de biópsias mamárias para o diagnóstico de patologias mamárias, com o objetivo de aplicar e avaliar a eficácia das redes neuronais na classificação e análise destes tecidos. O processo de criação do dataset resume-se à recolha do tecido, seguindo o seu processamento laboratorial onde as lâminas obtidas foram digitalizadas e submetidas a um processo de conversão e segmentação para formatos compatíveis com a posterior análise. A organização e categorização das imagens foi efetuada em código Python para a classificação automatizada, garantindo a integridade e precisão dos dados. A fase de pré-processamento e organização do dataset foram essenciais para assegurar a qualidade e representatividade dos dados. A precisão das categorizações e a distribuição equilibrada das imagens nas respetivas categorias para treino e validação dos modelos foram cruciais. A normalização das imagens e a extração adequadas dos segmentos de interesse foram etapas fundamentais para preparar os dados para a análise das redes neuronais. Esta preparação dos dados assegurou que os modelos fossem treinados com as informações corretas e essenciais para garantir a eficácia da aprendizagem. Para a aplicação das redes neuronais, foram selecionados os modelos SqueezeNet e InceptionV3, onde foram testados quatros cenários de classificação em ambas as arquiteturas e utilizadas quatro classes patológicas diferentes (Doença Fibrocística, Fibroadenoma, Carcinoma Lobular Invasivo e Carcinoma Ductal Invasivo). Estes modelos foram adaptados com camadas de entrada e saída personalizadas. A eficácia destes modelos foi avaliada com métricas estatísticas e gráficas incluindo a matriz de confusão, exatidão (accuracy), precisão (precision), sensibilidade (recall), F1-score e ainda as curvas de ROC e Precision-Recall. Ambos os modelos demonstraram uma boa performance com uma accuracy que variou entre os 88% e os 98% para todos os cenários testados. Porém, foi observado que o modelo InceptionV3 é o mais bem-sucedido, obtendo na maioria dos casos os valores mais altos de accuracy apesar de se ter observado alguma variação devido a fenómenos como overfitting. Os resultados obtidos indicam que as redes neuronais podem ser ferramentas eficazes no diagnóstico de patologias mamárias a partir de imagens histológicas. A accuracy elevada dos modelos utilizados para desenvolvimento deste projeto, refletem a capacidade de reconhecer e classificar de forma precisa as características morfológicas relevantes nas imagens, demonstrando que a Inteligência Artificial tem um potencial significativo para melhorar a precisão e eficácia dos diagnósticos em Anatomia Patológica.Breast cancer is one of the most prevalent pathologies worldwide and a leading cause of cancer related mortality among women in Portugal. Diagnosing breast pathologies through biopsies is a complex and detailed task for Pathologists and thus prone to errors. It requires meticulous and specialized analysis of multiple microscopic fields, where accuracy is vital, and delays can be critical. In this sense, the development of platforms that aid in rapid and precise diagnosis is increasingly essential. In this project, a dataset of histological images from breast biopsies for the diagnosis of breast pathologies was developed, aiming to apply and evaluate the effectiveness of neural networks in classifying and analyzing these tissues. The dataset creation process involved tissue collection, followed by laboratory processing where the obtained slides were digitized and subjected to a conversion and segmentation process into formats compatible with subsequent analysis. The organization and categorization of the images were carried out using Python code for automated classification, ensuring the integrity and accuracy of the data. The pre-processing and organization phase of the dataset were essential to ensure the quality and representativeness of the data. The accuracy of the categorizations and the balanced distribution of images in their respective categories for training and validating the models were crucial. Normalization of the images and proper extraction of the segments of interest were fundamental steps in preparing the data for neural network analysis. This data preparation ensured that the models were trained with the correct and essential information to guarantee the effectiveness of the learning. For the application of neural networks, the SqueezeNet and InceptionV3 models were selected. Four classification scenarios were tested in both architectures using four different pathological classes (Fibrocystic Disease, Fibroadenoma, Invasive Lobular Carcinoma, and Invasive Ductal Carcinoma). These models were adapted with custom input and output layers. The efficacy of these models was evaluated using statistical and graphical metrics including the confusion matrix, accuracy, precision, recall, F1-score, and the ROC and Precision-Recall curves. Both models demonstrated good performance, with accuracy ranging between 88% and 98% for all tested scenarios. However, it was observed that the InceptionV3 model is the most successful, achieving the highest accuracy values in most cases, despite some variation due to phenomena such as overfitting. The results indicate that neural networks can be effective tools in diagnosing breast pathologies from histological images. The high accuracy of the models used for this project's development reflects their ability to accurately recognize and classify relevant morphological characteristics in the images, demonstrating that Artificial Intelligence has significant potential to improve the precision and efficiency of diagnoses in Anatomical Pathology.Coelho, Luís Filipe Martins PintoRepositório Científico do Instituto Politécnico do PortoMoreira, Cristina Isabel da Silva2023-12-20T12:04:10Z2023-11-282023-11-28T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/24328TID:203435877porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-12-27T01:49:17Zoai:recipp.ipp.pt:10400.22/24328Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T00:56:14.252728Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Criação de Bases de Dados de Imagens Histológicas Anotadas e Desenvolvimento de um Modelo de Classificação Automática de Patologias Mamárias Creation of a Database of Annotated Histological Images and Development of an Automatic Classification Model for Breast Pathologies |
title |
Criação de Bases de Dados de Imagens Histológicas Anotadas e Desenvolvimento de um Modelo de Classificação Automática de Patologias Mamárias |
spellingShingle |
Criação de Bases de Dados de Imagens Histológicas Anotadas e Desenvolvimento de um Modelo de Classificação Automática de Patologias Mamárias Moreira, Cristina Isabel da Silva Breast Cancer Neural Networks Machine Learning SqueezeNet InceptionV3 Domínio/Área Científica::Engenharia e Tecnologia |
title_short |
Criação de Bases de Dados de Imagens Histológicas Anotadas e Desenvolvimento de um Modelo de Classificação Automática de Patologias Mamárias |
title_full |
Criação de Bases de Dados de Imagens Histológicas Anotadas e Desenvolvimento de um Modelo de Classificação Automática de Patologias Mamárias |
title_fullStr |
Criação de Bases de Dados de Imagens Histológicas Anotadas e Desenvolvimento de um Modelo de Classificação Automática de Patologias Mamárias |
title_full_unstemmed |
Criação de Bases de Dados de Imagens Histológicas Anotadas e Desenvolvimento de um Modelo de Classificação Automática de Patologias Mamárias |
title_sort |
Criação de Bases de Dados de Imagens Histológicas Anotadas e Desenvolvimento de um Modelo de Classificação Automática de Patologias Mamárias |
author |
Moreira, Cristina Isabel da Silva |
author_facet |
Moreira, Cristina Isabel da Silva |
author_role |
author |
dc.contributor.none.fl_str_mv |
Coelho, Luís Filipe Martins Pinto Repositório Científico do Instituto Politécnico do Porto |
dc.contributor.author.fl_str_mv |
Moreira, Cristina Isabel da Silva |
dc.subject.por.fl_str_mv |
Breast Cancer Neural Networks Machine Learning SqueezeNet InceptionV3 Domínio/Área Científica::Engenharia e Tecnologia |
topic |
Breast Cancer Neural Networks Machine Learning SqueezeNet InceptionV3 Domínio/Área Científica::Engenharia e Tecnologia |
description |
O Cancro da Mama é uma das patologias mais prevalentes mundialmente e uma das principais causas de mortalidade por cancro associado ao sexo feminino em Portugal. O diagnóstico de patologias mamárias que é feito através de biópsias é uma tarefa complexa e detalhada para os Patologistas e como tal suscetível a erros. É exigido uma análise meticulosa e especializada de múltiplos campos microscópicos, onde a precisão é vital e os atrasos podem ser críticos. Neste sentido, o desenvolvimento de plataformas que auxiliem a um diagnóstico rápido e preciso é cada vez mais essencial. Neste projeto foi desenvolvido um dataset de imagens histológicas de biópsias mamárias para o diagnóstico de patologias mamárias, com o objetivo de aplicar e avaliar a eficácia das redes neuronais na classificação e análise destes tecidos. O processo de criação do dataset resume-se à recolha do tecido, seguindo o seu processamento laboratorial onde as lâminas obtidas foram digitalizadas e submetidas a um processo de conversão e segmentação para formatos compatíveis com a posterior análise. A organização e categorização das imagens foi efetuada em código Python para a classificação automatizada, garantindo a integridade e precisão dos dados. A fase de pré-processamento e organização do dataset foram essenciais para assegurar a qualidade e representatividade dos dados. A precisão das categorizações e a distribuição equilibrada das imagens nas respetivas categorias para treino e validação dos modelos foram cruciais. A normalização das imagens e a extração adequadas dos segmentos de interesse foram etapas fundamentais para preparar os dados para a análise das redes neuronais. Esta preparação dos dados assegurou que os modelos fossem treinados com as informações corretas e essenciais para garantir a eficácia da aprendizagem. Para a aplicação das redes neuronais, foram selecionados os modelos SqueezeNet e InceptionV3, onde foram testados quatros cenários de classificação em ambas as arquiteturas e utilizadas quatro classes patológicas diferentes (Doença Fibrocística, Fibroadenoma, Carcinoma Lobular Invasivo e Carcinoma Ductal Invasivo). Estes modelos foram adaptados com camadas de entrada e saída personalizadas. A eficácia destes modelos foi avaliada com métricas estatísticas e gráficas incluindo a matriz de confusão, exatidão (accuracy), precisão (precision), sensibilidade (recall), F1-score e ainda as curvas de ROC e Precision-Recall. Ambos os modelos demonstraram uma boa performance com uma accuracy que variou entre os 88% e os 98% para todos os cenários testados. Porém, foi observado que o modelo InceptionV3 é o mais bem-sucedido, obtendo na maioria dos casos os valores mais altos de accuracy apesar de se ter observado alguma variação devido a fenómenos como overfitting. Os resultados obtidos indicam que as redes neuronais podem ser ferramentas eficazes no diagnóstico de patologias mamárias a partir de imagens histológicas. A accuracy elevada dos modelos utilizados para desenvolvimento deste projeto, refletem a capacidade de reconhecer e classificar de forma precisa as características morfológicas relevantes nas imagens, demonstrando que a Inteligência Artificial tem um potencial significativo para melhorar a precisão e eficácia dos diagnósticos em Anatomia Patológica. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-12-20T12:04:10Z 2023-11-28 2023-11-28T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.22/24328 TID:203435877 |
url |
http://hdl.handle.net/10400.22/24328 |
identifier_str_mv |
TID:203435877 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799136447671828480 |