Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português

Detalhes bibliográficos
Autor(a) principal: Portolese, Giuseppe
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da Universidade Estadual de Maringá (RI-UEM)
Texto Completo: http://repositorio.uem.br:8080/jspui/handle/1/5905
Resumo: Orientadora: Profª. Drª. Valéria Delisandra Feltrim
id UEM-10_971ea42da407fdb096dbe69e1bd7484f
oai_identifier_str oai:localhost:1/5905
network_acronym_str UEM-10
network_name_str Repositório Institucional da Universidade Estadual de Maringá (RI-UEM)
repository_id_str
spelling Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em PortuguêsProcessamento da linguagemBase de dadosGêneros cinematográficos005.133Ciências Exatas e da TerraCiência da ComputaçãoOrientadora: Profª. Drª. Valéria Delisandra FeltrimDissertação (mestrado em Ciência da Computação) - Universidade Estadual de Maringá, 2019RESUMO: Devido ao progresso tecnológico observado recentemente e a disponibilidade de grandes quantidades de dados, a necessidade da classificação automática de mídias digitais tem aumentado pois em muitos casos uma anotação manual é inviável devido ao tamanho de bases de tais dados. A classificação multirrótulo, na qual cada instância contida na base estudada pode ser classificada com diversos rótulos não-exclusivos, já é uma área estudada na literatura atual com diversos estudos avaliando problemas como a classificação de gêneros cinematográficos, no qual é comum que características audiovisuais sejam utilizadas para rotular filmes em gêneros pré-estabelecidos. No entanto, a análise de sinopses ainda é uma área pouco explorada nesse domínio, com o problema específico do estudo de sinopses na língua portuguesa recebendo pouca atenção. Neste trabalho são apresentadas três novas bases de dados de sinopses em português, sendo uma delas extraída de uma base internacional de filmes e as demais derivadas por rebalanceamento. Um total de 85 experimentos são conduzidos avaliando o uso de características provenientes de 9 grupos distintos em conjunto com 4 classificadores multirrótulo presentes na literatura, explorando técnicas de fusão tardia e imediata em experimentos individuais e combinatoriais. Valores de medida-F de 0,478 para a base originalmente estudada, e 0,611 para bases derivadas por rebalanceamento são obtidos, mostrando que os métodos utilizados são condizentes com aqueles encontrados no estado da arte da literatura.ABSTRACT: Due to the recent technological progress in recent years and to the availability of large data quantities, the need for the automatic classification of digital media has been increased as a result of the fact that a manual approach to such classification is unviable considering the size of such databases. Multi-label classification, in which each instance in a dataset can be classified as belonging to several non-exclusive labels is a domain that is already studied in the current literature, with several studies assessing the performance of tasks such as film genre classification, in which audiovisual features are commonly used to label films with a set of preestablished genres. Studies using approaches based on synopsis analysis are, however, much rarer in the current literature, with even fewer publications dedicated specifically to the study of Portuguese language synopses. In this work we present three new Portuguese language synopses datasets, with one of them extracted from an international movie database and the remaining two being resampled versions of the original one. A total of 85 experiments were conducted, assessing the performance of features from 9 different groups when used in combination with 4 multi-label classifiers, exploring early and late fusion techniques in individual and combinatorial experiments. Results from the conducted experiments present F-measure scores of up to 0,478 for the original dataset and 0,611 for the resampled datasets, demonstrating that the implemented methods have similar performance to those found in the state of the art of the movie genre classification task.99 f. : il. color., figs, tabs.Universidade Estadual de MaringáDepartamento de InformáticaPrograma de Pós-Graduação em Ciência da ComputaçãoMaringá, PRCentro de TecnologiaFeltrim, Valéria DelisandraDomingues, Marcos AurélioPaetzold, Gustavo HenriquePortolese, Giuseppe2020-09-28T17:14:15Z2020-09-28T17:14:15Z2019info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfPORTOLESE, Giuseppe. Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português. 2019. 99 f. Dissertação (mestrado em Ciência da Computação) - Universidade Estadual de Maringá, 2019, Maringá, PR.http://repositorio.uem.br:8080/jspui/handle/1/5905info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Estadual de Maringá (RI-UEM)instname:Universidade Estadual de Maringá (UEM)instacron:UEM2020-09-28T17:22:06Zoai:localhost:1/5905Repositório InstitucionalPUBhttp://repositorio.uem.br:8080/oai/requestopendoar:2024-04-23T14:58:56.751372Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) - Universidade Estadual de Maringá (UEM)false
dc.title.none.fl_str_mv Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português
title Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português
spellingShingle Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português
Portolese, Giuseppe
Processamento da linguagem
Base de dados
Gêneros cinematográficos
005.133
Ciências Exatas e da Terra
Ciência da Computação
title_short Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português
title_full Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português
title_fullStr Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português
title_full_unstemmed Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português
title_sort Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português
author Portolese, Giuseppe
author_facet Portolese, Giuseppe
author_role author
dc.contributor.none.fl_str_mv Feltrim, Valéria Delisandra
Domingues, Marcos Aurélio
Paetzold, Gustavo Henrique
dc.contributor.author.fl_str_mv Portolese, Giuseppe
dc.subject.por.fl_str_mv Processamento da linguagem
Base de dados
Gêneros cinematográficos
005.133
Ciências Exatas e da Terra
Ciência da Computação
topic Processamento da linguagem
Base de dados
Gêneros cinematográficos
005.133
Ciências Exatas e da Terra
Ciência da Computação
description Orientadora: Profª. Drª. Valéria Delisandra Feltrim
publishDate 2019
dc.date.none.fl_str_mv 2019
2020-09-28T17:14:15Z
2020-09-28T17:14:15Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv PORTOLESE, Giuseppe. Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português. 2019. 99 f. Dissertação (mestrado em Ciência da Computação) - Universidade Estadual de Maringá, 2019, Maringá, PR.
http://repositorio.uem.br:8080/jspui/handle/1/5905
identifier_str_mv PORTOLESE, Giuseppe. Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português. 2019. 99 f. Dissertação (mestrado em Ciência da Computação) - Universidade Estadual de Maringá, 2019, Maringá, PR.
url http://repositorio.uem.br:8080/jspui/handle/1/5905
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual de Maringá
Departamento de Informática
Programa de Pós-Graduação em Ciência da Computação
Maringá, PR
Centro de Tecnologia
publisher.none.fl_str_mv Universidade Estadual de Maringá
Departamento de Informática
Programa de Pós-Graduação em Ciência da Computação
Maringá, PR
Centro de Tecnologia
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Estadual de Maringá (RI-UEM)
instname:Universidade Estadual de Maringá (UEM)
instacron:UEM
instname_str Universidade Estadual de Maringá (UEM)
instacron_str UEM
institution UEM
reponame_str Repositório Institucional da Universidade Estadual de Maringá (RI-UEM)
collection Repositório Institucional da Universidade Estadual de Maringá (RI-UEM)
repository.name.fl_str_mv Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) - Universidade Estadual de Maringá (UEM)
repository.mail.fl_str_mv
_version_ 1813258682621755392