Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) |
Texto Completo: | http://repositorio.uem.br:8080/jspui/handle/1/5905 |
Resumo: | Orientadora: Profª. Drª. Valéria Delisandra Feltrim |
id |
UEM-10_971ea42da407fdb096dbe69e1bd7484f |
---|---|
oai_identifier_str |
oai:localhost:1/5905 |
network_acronym_str |
UEM-10 |
network_name_str |
Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) |
repository_id_str |
|
spelling |
Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em PortuguêsProcessamento da linguagemBase de dadosGêneros cinematográficos005.133Ciências Exatas e da TerraCiência da ComputaçãoOrientadora: Profª. Drª. Valéria Delisandra FeltrimDissertação (mestrado em Ciência da Computação) - Universidade Estadual de Maringá, 2019RESUMO: Devido ao progresso tecnológico observado recentemente e a disponibilidade de grandes quantidades de dados, a necessidade da classificação automática de mídias digitais tem aumentado pois em muitos casos uma anotação manual é inviável devido ao tamanho de bases de tais dados. A classificação multirrótulo, na qual cada instância contida na base estudada pode ser classificada com diversos rótulos não-exclusivos, já é uma área estudada na literatura atual com diversos estudos avaliando problemas como a classificação de gêneros cinematográficos, no qual é comum que características audiovisuais sejam utilizadas para rotular filmes em gêneros pré-estabelecidos. No entanto, a análise de sinopses ainda é uma área pouco explorada nesse domínio, com o problema específico do estudo de sinopses na língua portuguesa recebendo pouca atenção. Neste trabalho são apresentadas três novas bases de dados de sinopses em português, sendo uma delas extraída de uma base internacional de filmes e as demais derivadas por rebalanceamento. Um total de 85 experimentos são conduzidos avaliando o uso de características provenientes de 9 grupos distintos em conjunto com 4 classificadores multirrótulo presentes na literatura, explorando técnicas de fusão tardia e imediata em experimentos individuais e combinatoriais. Valores de medida-F de 0,478 para a base originalmente estudada, e 0,611 para bases derivadas por rebalanceamento são obtidos, mostrando que os métodos utilizados são condizentes com aqueles encontrados no estado da arte da literatura.ABSTRACT: Due to the recent technological progress in recent years and to the availability of large data quantities, the need for the automatic classification of digital media has been increased as a result of the fact that a manual approach to such classification is unviable considering the size of such databases. Multi-label classification, in which each instance in a dataset can be classified as belonging to several non-exclusive labels is a domain that is already studied in the current literature, with several studies assessing the performance of tasks such as film genre classification, in which audiovisual features are commonly used to label films with a set of preestablished genres. Studies using approaches based on synopsis analysis are, however, much rarer in the current literature, with even fewer publications dedicated specifically to the study of Portuguese language synopses. In this work we present three new Portuguese language synopses datasets, with one of them extracted from an international movie database and the remaining two being resampled versions of the original one. A total of 85 experiments were conducted, assessing the performance of features from 9 different groups when used in combination with 4 multi-label classifiers, exploring early and late fusion techniques in individual and combinatorial experiments. Results from the conducted experiments present F-measure scores of up to 0,478 for the original dataset and 0,611 for the resampled datasets, demonstrating that the implemented methods have similar performance to those found in the state of the art of the movie genre classification task.99 f. : il. color., figs, tabs.Universidade Estadual de MaringáDepartamento de InformáticaPrograma de Pós-Graduação em Ciência da ComputaçãoMaringá, PRCentro de TecnologiaFeltrim, Valéria DelisandraDomingues, Marcos AurélioPaetzold, Gustavo HenriquePortolese, Giuseppe2020-09-28T17:14:15Z2020-09-28T17:14:15Z2019info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfPORTOLESE, Giuseppe. Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português. 2019. 99 f. Dissertação (mestrado em Ciência da Computação) - Universidade Estadual de Maringá, 2019, Maringá, PR.http://repositorio.uem.br:8080/jspui/handle/1/5905info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Estadual de Maringá (RI-UEM)instname:Universidade Estadual de Maringá (UEM)instacron:UEM2020-09-28T17:22:06Zoai:localhost:1/5905Repositório InstitucionalPUBhttp://repositorio.uem.br:8080/oai/requestopendoar:2024-04-23T14:58:56.751372Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) - Universidade Estadual de Maringá (UEM)false |
dc.title.none.fl_str_mv |
Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português |
title |
Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português |
spellingShingle |
Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português Portolese, Giuseppe Processamento da linguagem Base de dados Gêneros cinematográficos 005.133 Ciências Exatas e da Terra Ciência da Computação |
title_short |
Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português |
title_full |
Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português |
title_fullStr |
Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português |
title_full_unstemmed |
Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português |
title_sort |
Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português |
author |
Portolese, Giuseppe |
author_facet |
Portolese, Giuseppe |
author_role |
author |
dc.contributor.none.fl_str_mv |
Feltrim, Valéria Delisandra Domingues, Marcos Aurélio Paetzold, Gustavo Henrique |
dc.contributor.author.fl_str_mv |
Portolese, Giuseppe |
dc.subject.por.fl_str_mv |
Processamento da linguagem Base de dados Gêneros cinematográficos 005.133 Ciências Exatas e da Terra Ciência da Computação |
topic |
Processamento da linguagem Base de dados Gêneros cinematográficos 005.133 Ciências Exatas e da Terra Ciência da Computação |
description |
Orientadora: Profª. Drª. Valéria Delisandra Feltrim |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019 2020-09-28T17:14:15Z 2020-09-28T17:14:15Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
PORTOLESE, Giuseppe. Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português. 2019. 99 f. Dissertação (mestrado em Ciência da Computação) - Universidade Estadual de Maringá, 2019, Maringá, PR. http://repositorio.uem.br:8080/jspui/handle/1/5905 |
identifier_str_mv |
PORTOLESE, Giuseppe. Uso de características textuais para a classificação multirrótulo de gêneros cinematográficos em Português. 2019. 99 f. Dissertação (mestrado em Ciência da Computação) - Universidade Estadual de Maringá, 2019, Maringá, PR. |
url |
http://repositorio.uem.br:8080/jspui/handle/1/5905 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Estadual de Maringá Departamento de Informática Programa de Pós-Graduação em Ciência da Computação Maringá, PR Centro de Tecnologia |
publisher.none.fl_str_mv |
Universidade Estadual de Maringá Departamento de Informática Programa de Pós-Graduação em Ciência da Computação Maringá, PR Centro de Tecnologia |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) instname:Universidade Estadual de Maringá (UEM) instacron:UEM |
instname_str |
Universidade Estadual de Maringá (UEM) |
instacron_str |
UEM |
institution |
UEM |
reponame_str |
Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) |
collection |
Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) |
repository.name.fl_str_mv |
Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) - Universidade Estadual de Maringá (UEM) |
repository.mail.fl_str_mv |
|
_version_ |
1813258682621755392 |