Coleta automática de corpora Web classificados por grau de legibilidade para o portugês

Wagner Filho, Jorge Alberto

Coleta automática de corpora Web classificados por grau de legibilidade para o portugês

Detalhes bibliográficos
Autor(a) principal:	Wagner Filho, Jorge Alberto
Data de Publicação:	2016
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UFRGS
Texto Completo:	http://hdl.handle.net/10183/147619
Resumo:	Este trabalho apresenta um estudo de diferentes abordagens de Aprendizado de Máquina para a tarefa de avaliação de legibilidade de textos em português, utilizando o conceito de criação de corpora a partir da Web (Iniciativa Wacky) para propor um framework de geração automática de grandes corpora classificados por legibilidade. Para isto, é apresentada uma série de experimentos focados na seleção de atributos, no treinamento de modelos de aprendizado e na avaliação dos corpora resultantes. Em uma comparação entre métricas textuais rasas e profundas, observamos que as primeiras apresentaram um ótimo desempenho na classificação, embora o conjunto completo o supere na maioria dos casos. Em um teste comparativo com o inglês, observou-se que fórmulas clássicas de legibilidade tendem a apresentar maior relevância naquela língua. A regressão logística apresentou, em geral, os melhores resultados de classificação, mas foi observada uma grande diferença de desempenho entre classificadores para duas e três classes de legibilidade, especialmente em relação à classe intermediária. Analisando a questão da generalização, foi observada uma grande discordância entre modelos treinados em diferentes corpora de referência, demonstrando a profunda ligação entre o treino do modelo e a classificação desejada no corpus final. No entanto, mostramos que a avaliação da concordância entre múltiplos modelos pode ser uma abordagem proveitosa na geração de uma classificação mais rigorosa do corpus final. Como resultado deste trabalho, foi construído um corpus WaC de grandes proporções para o português, composto por 1,4 milhão de documentos e cerca de 1,5 bilhão de tokens, sendo destes 720 mil documentos e 769 milhões de tokens já anotados com um analisador sintático e com 134 diferentes atributos textuais, e classificados por quatro diferentes modelos de aprendizado com diferentes características, podendo contribuir para novos estudos.

Metadados do item

id	UFRGS-2_8f0d3181da2190acf5ce935127303e4b
oai_identifier_str	oai:www.lume.ufrgs.br:10183/147619
network_acronym_str	UFRGS-2
network_name_str	Repositório Institucional da UFRGS
repository_id_str
spelling	Wagner Filho, Jorge AlbertoVillavicencio, AlineWilkens, Rodrigo Souza2016-08-25T02:16:11Z2016http://hdl.handle.net/10183/147619000999681Este trabalho apresenta um estudo de diferentes abordagens de Aprendizado de Máquina para a tarefa de avaliação de legibilidade de textos em português, utilizando o conceito de criação de corpora a partir da Web (Iniciativa Wacky) para propor um framework de geração automática de grandes corpora classificados por legibilidade. Para isto, é apresentada uma série de experimentos focados na seleção de atributos, no treinamento de modelos de aprendizado e na avaliação dos corpora resultantes. Em uma comparação entre métricas textuais rasas e profundas, observamos que as primeiras apresentaram um ótimo desempenho na classificação, embora o conjunto completo o supere na maioria dos casos. Em um teste comparativo com o inglês, observou-se que fórmulas clássicas de legibilidade tendem a apresentar maior relevância naquela língua. A regressão logística apresentou, em geral, os melhores resultados de classificação, mas foi observada uma grande diferença de desempenho entre classificadores para duas e três classes de legibilidade, especialmente em relação à classe intermediária. Analisando a questão da generalização, foi observada uma grande discordância entre modelos treinados em diferentes corpora de referência, demonstrando a profunda ligação entre o treino do modelo e a classificação desejada no corpus final. No entanto, mostramos que a avaliação da concordância entre múltiplos modelos pode ser uma abordagem proveitosa na geração de uma classificação mais rigorosa do corpus final. Como resultado deste trabalho, foi construído um corpus WaC de grandes proporções para o português, composto por 1,4 milhão de documentos e cerca de 1,5 bilhão de tokens, sendo destes 720 mil documentos e 769 milhões de tokens já anotados com um analisador sintático e com 134 diferentes atributos textuais, e classificados por quatro diferentes modelos de aprendizado com diferentes características, podendo contribuir para novos estudos.This work presents a study of different Machine Learning approaches to the task of readability assessment of texts in Portuguese, applying the relatively recent concept of building corpora from the Web (Wacky Initiative) to propose a framework for automatic generation of large corpora classified by readability. In order to accomplish this, a series of experiments is presented focusing in aspects such as feature selection, learning models training and evaluation of the resultant corpora. In a comparison between superficial and complex text attributes, we observed that the first achieved an excellent classification performance, although the full set overcomes it in most cases. In a comparative test with English, we observed that classic readability formulas tend to show greater classification relevance in that language. Logistic regression exhibited, in general, the best classification results, but we observed great differences between performances in two and three-classes classifiers, specially regarding the intermediary class. Assessing the topic of generalization, we observed a large disagreement between models trained in different reference corpora, demonstrating a great association between the model training and the desired classification in the final corpus. However, we showed that assessing the agreement between different models can be an efficient approach to achieve a stricter classification of the final corpus. As a result of this work, a large WaC corpus was built, including 1.4 million documents and about to 1.5 billion tokens, being 720 thousand documents and 769 million tokens already annotated with a syntactic analyser and 134 different textual attributes, and classified with four different learning models with different characteristics, what can contribute to further studies.application/pdfporProcessamento : Linguagem naturalAprendizagem : MaquinaReadability assessmentReadability assessment in PortugueseReadability assessment in EnglishPortuguese corpusAutomatic readability assessmentAutomatic corpus creationText classificationWeb as CorpusColeta automática de corpora Web classificados por grau de legibilidade para o portugêsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2016Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000999681.pdf000999681.pdfTexto completoapplication/pdf642213http://www.lume.ufrgs.br/bitstream/10183/147619/1/000999681.pdf08ec19bbb32a70bcbd9d7887e5405073MD51TEXT000999681.pdf.txt000999681.pdf.txtExtracted Texttext/plain166742http://www.lume.ufrgs.br/bitstream/10183/147619/2/000999681.pdf.txt28610ebe18025e0769d9687e051f957fMD52THUMBNAIL000999681.pdf.jpg000999681.pdf.jpgGenerated Thumbnailimage/jpeg1082http://www.lume.ufrgs.br/bitstream/10183/147619/3/000999681.pdf.jpge92f1e12748fe1db290a7f82b176c0c4MD5310183/1476192018-10-29 08:39:41.199oai:www.lume.ufrgs.br:10183/147619Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2018-10-29T11:39:41Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Coleta automática de corpora Web classificados por grau de legibilidade para o portugês
title	Coleta automática de corpora Web classificados por grau de legibilidade para o portugês
spellingShingle	Coleta automática de corpora Web classificados por grau de legibilidade para o portugês Wagner Filho, Jorge Alberto Processamento : Linguagem natural Aprendizagem : Maquina Readability assessment Readability assessment in Portuguese Readability assessment in English Portuguese corpus Automatic readability assessment Automatic corpus creation Text classification Web as Corpus
title_short	Coleta automática de corpora Web classificados por grau de legibilidade para o portugês
title_full	Coleta automática de corpora Web classificados por grau de legibilidade para o portugês
title_fullStr	Coleta automática de corpora Web classificados por grau de legibilidade para o portugês
title_full_unstemmed	Coleta automática de corpora Web classificados por grau de legibilidade para o portugês
title_sort	Coleta automática de corpora Web classificados por grau de legibilidade para o portugês
author	Wagner Filho, Jorge Alberto
author_facet	Wagner Filho, Jorge Alberto
author_role	author
dc.contributor.author.fl_str_mv	Wagner Filho, Jorge Alberto
dc.contributor.advisor1.fl_str_mv	Villavicencio, Aline
dc.contributor.advisor-co1.fl_str_mv	Wilkens, Rodrigo Souza
contributor_str_mv	Villavicencio, Aline Wilkens, Rodrigo Souza
dc.subject.por.fl_str_mv	Processamento : Linguagem natural Aprendizagem : Maquina
topic	Processamento : Linguagem natural Aprendizagem : Maquina Readability assessment Readability assessment in Portuguese Readability assessment in English Portuguese corpus Automatic readability assessment Automatic corpus creation Text classification Web as Corpus
dc.subject.eng.fl_str_mv	Readability assessment Readability assessment in Portuguese Readability assessment in English Portuguese corpus Automatic readability assessment Automatic corpus creation Text classification Web as Corpus
description	Este trabalho apresenta um estudo de diferentes abordagens de Aprendizado de Máquina para a tarefa de avaliação de legibilidade de textos em português, utilizando o conceito de criação de corpora a partir da Web (Iniciativa Wacky) para propor um framework de geração automática de grandes corpora classificados por legibilidade. Para isto, é apresentada uma série de experimentos focados na seleção de atributos, no treinamento de modelos de aprendizado e na avaliação dos corpora resultantes. Em uma comparação entre métricas textuais rasas e profundas, observamos que as primeiras apresentaram um ótimo desempenho na classificação, embora o conjunto completo o supere na maioria dos casos. Em um teste comparativo com o inglês, observou-se que fórmulas clássicas de legibilidade tendem a apresentar maior relevância naquela língua. A regressão logística apresentou, em geral, os melhores resultados de classificação, mas foi observada uma grande diferença de desempenho entre classificadores para duas e três classes de legibilidade, especialmente em relação à classe intermediária. Analisando a questão da generalização, foi observada uma grande discordância entre modelos treinados em diferentes corpora de referência, demonstrando a profunda ligação entre o treino do modelo e a classificação desejada no corpus final. No entanto, mostramos que a avaliação da concordância entre múltiplos modelos pode ser uma abordagem proveitosa na geração de uma classificação mais rigorosa do corpus final. Como resultado deste trabalho, foi construído um corpus WaC de grandes proporções para o português, composto por 1,4 milhão de documentos e cerca de 1,5 bilhão de tokens, sendo destes 720 mil documentos e 769 milhões de tokens já anotados com um analisador sintático e com 134 diferentes atributos textuais, e classificados por quatro diferentes modelos de aprendizado com diferentes características, podendo contribuir para novos estudos.
publishDate	2016
dc.date.accessioned.fl_str_mv	2016-08-25T02:16:11Z
dc.date.issued.fl_str_mv	2016
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/147619
dc.identifier.nrb.pt_BR.fl_str_mv	000999681
url	http://hdl.handle.net/10183/147619
identifier_str_mv	000999681
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Repositório Institucional da UFRGS
collection	Repositório Institucional da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/147619/1/000999681.pdf http://www.lume.ufrgs.br/bitstream/10183/147619/2/000999681.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/147619/3/000999681.pdf.jpg
bitstream.checksum.fl_str_mv	08ec19bbb32a70bcbd9d7887e5405073 28610ebe18025e0769d9687e051f957f e92f1e12748fe1db290a7f82b176c0c4
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_	1801224515597893632

Coleta automática de corpora Web classificados por grau de legibilidade para o portugês

Registros relacionados