Distinção de grupos linguísticos através de desempenho da linguagem

Wilkens, Rodrigo Souza

Distinção de grupos linguísticos através de desempenho da linguagem

Detalhes bibliográficos
Autor(a) principal:	Wilkens, Rodrigo Souza
Data de Publicação:	2016
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/150040
Resumo:	A aquisição e o desempenho de linguagem humana é um processo pelo qual todas as pessoas passam. No entanto, esse processo não é completamente entendido, o que gera amplo espaço para pesquisa nessa área. Além disso, mesmo após o processo de aquisição da linguagem pela criança estar completo, ainda não há garantia de domínio da língua em suas diferentes modalidades, especialmente de leitura e escrita. Recentemente, em 2016, divulgou-se que 49,3% dos estudantes brasileiros não possuem proficiência de compreensão de leitura plena em português. Isso é particularmente importante ao considerarmos a quantidade de textos disponíveis, mas não acessíveis a pessoas com diferentes tipos de problemas de proficiência na língua. Sob o ponto de vista computacional, há estudos que visam modelar os processos de aquisição da linguagem e medir o nível do falante, leitor ou redator. Em vista disso, neste trabalho propomos uma abordagem computacional independente de idioma para modelar o nível de desenvolvimento linguístico de diferentes tipos de usuários da língua, de crianças e adultos, sendo a nossa proposta fortemente baseada em características linguísticas. Essas características são dependentes de corpora orais transcritos, no segmento de crianças, e de corpora escritos, no segmento de adultos. Para alcançar esse modelo abrangente, são considerados como objetivos a identificação de atributos e valores que diferenciam os níveis de desenvolvimento da linguagem do indivíduo, assim como o desenvolvimento de um modelo capaz de indicá-los. Para a identificação dos atributos, utilizamos métodos baseados em estatística, como o teste de hipóteses e divergência de distribuição. A fim de comprovar a abrangência da abordagem, realizamos experimentos com os corpora que espelham diferentes etapas do desenvolvimento da linguagem humana: (1) etapa de aquisição da linguagem oral de pela criança e (2) etapa pós aquisição, através da percepção de complexidade da linguagem escrita. Como resultados, obtivemos um grande conjunto anotado de dados sobre aquisição e desempenho de linguagem que podem contribuir para outros estudos. Assim como um perfil de atributos para os vários níveis de desenvolvimento. Também destacamos como resultados, os modelos computacionais que identificam textos quanto ao nível de desenvolvimento de linguagem. Em especial, o são resultados do trabalho o modelo de identificação de palavras complexas, que ultrapassou o estado da arte para o corpus estudado, e o modelo de identificação de idade de crianças que ultrapassou os baselines utilizados, incluindo uma medida clássica de desenvolvimento linguístico.

Metadados do item

id	URGS_06f7e0cb38c37f0594edf4df0e9b6ebb
oai_identifier_str	oai:www.lume.ufrgs.br:10183/150040
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Wilkens, Rodrigo SouzaVillavicencio, Aline2016-12-10T02:20:41Z2016http://hdl.handle.net/10183/150040001008086A aquisição e o desempenho de linguagem humana é um processo pelo qual todas as pessoas passam. No entanto, esse processo não é completamente entendido, o que gera amplo espaço para pesquisa nessa área. Além disso, mesmo após o processo de aquisição da linguagem pela criança estar completo, ainda não há garantia de domínio da língua em suas diferentes modalidades, especialmente de leitura e escrita. Recentemente, em 2016, divulgou-se que 49,3% dos estudantes brasileiros não possuem proficiência de compreensão de leitura plena em português. Isso é particularmente importante ao considerarmos a quantidade de textos disponíveis, mas não acessíveis a pessoas com diferentes tipos de problemas de proficiência na língua. Sob o ponto de vista computacional, há estudos que visam modelar os processos de aquisição da linguagem e medir o nível do falante, leitor ou redator. Em vista disso, neste trabalho propomos uma abordagem computacional independente de idioma para modelar o nível de desenvolvimento linguístico de diferentes tipos de usuários da língua, de crianças e adultos, sendo a nossa proposta fortemente baseada em características linguísticas. Essas características são dependentes de corpora orais transcritos, no segmento de crianças, e de corpora escritos, no segmento de adultos. Para alcançar esse modelo abrangente, são considerados como objetivos a identificação de atributos e valores que diferenciam os níveis de desenvolvimento da linguagem do indivíduo, assim como o desenvolvimento de um modelo capaz de indicá-los. Para a identificação dos atributos, utilizamos métodos baseados em estatística, como o teste de hipóteses e divergência de distribuição. A fim de comprovar a abrangência da abordagem, realizamos experimentos com os corpora que espelham diferentes etapas do desenvolvimento da linguagem humana: (1) etapa de aquisição da linguagem oral de pela criança e (2) etapa pós aquisição, através da percepção de complexidade da linguagem escrita. Como resultados, obtivemos um grande conjunto anotado de dados sobre aquisição e desempenho de linguagem que podem contribuir para outros estudos. Assim como um perfil de atributos para os vários níveis de desenvolvimento. Também destacamos como resultados, os modelos computacionais que identificam textos quanto ao nível de desenvolvimento de linguagem. Em especial, o são resultados do trabalho o modelo de identificação de palavras complexas, que ultrapassou o estado da arte para o corpus estudado, e o modelo de identificação de idade de crianças que ultrapassou os baselines utilizados, incluindo uma medida clássica de desenvolvimento linguístico.Language acquisition and language performance is a process by which all the people experience. However, this process is not completely understood, which creates room for research in this area. Moreover, even after the acquisition process by a child is completed, there is still no guarantee of language proficiency in different modalities, specially reading and writing. Recently, in 2016, OECD/PIAAC released that 49,3% of Brazilian students do not have written and read proficiency in Portuguese. This is more important when we take into account the large number of available text, but they are not accessible by people with different types of language proficiency issues. In computational point of view, there are some studies which aim to model the language acquisition process and measure the speaker level. For that, we propose an computational approach independent of language to model language development level of different types of language users, children and adults. In that sense our proposal is highly based on linguistics features. Those features dependents of transcript oral corpora from children and adults. To achieve this model, we considered aim to identify attributes and values able to differentiate between leves of development by an individual, as well the desenvolvimento of a model able to indicate them. The attribute identification are based on statistical methods such as hypothesis testing and divergence distribution. Aiming to validate our approach, we performed experiments with the corpora that reflect at different stages of development of human language: (1) oral language acquisition by a child and (2) post-acquisition stage, through the perception of difficulty of written language. With this work, we obtained a large corpus of annotated language acquisition data that can contribute to the acquisition of other studies. We also build an attribute profile of the development levels. From all of our results we highlight the computer models that identify texts and language development level. In particular, the complex word identification model that exceeded the state of the art for the studied corpus, and the children age identifier model, who exceeded the baselines, including a classic measure of language development.application/pdfporLinguística computacionalProcessamento : Linguagem naturalNatural language processingCHILDES-DBMachine learningFeature selectionDevelopment level classificationComplex word identificationDistinção de grupos linguísticos através de desempenho da linguagemDistinction of linguistic groups through linguistic performance info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2016doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL001008086.pdf001008086.pdfTexto completoapplication/pdf3084531http://www.lume.ufrgs.br/bitstream/10183/150040/1/001008086.pdf4e8124288a9bab50255e4466404e407aMD51TEXT001008086.pdf.txt001008086.pdf.txtExtracted Texttext/plain313068http://www.lume.ufrgs.br/bitstream/10183/150040/2/001008086.pdf.txt37869b1b6c0ac91bb1cb00b383c07da4MD52THUMBNAIL001008086.pdf.jpg001008086.pdf.jpgGenerated Thumbnailimage/jpeg1079http://www.lume.ufrgs.br/bitstream/10183/150040/3/001008086.pdf.jpg443303e792ae84f2787746673a1b74ffMD5310183/1500402018-10-30 07:52:50.042oai:www.lume.ufrgs.br:10183/150040Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532018-10-30T10:52:50Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Distinção de grupos linguísticos através de desempenho da linguagem
dc.title.alternative.en.fl_str_mv	Distinction of linguistic groups through linguistic performance
title	Distinção de grupos linguísticos através de desempenho da linguagem
spellingShingle	Distinção de grupos linguísticos através de desempenho da linguagem Wilkens, Rodrigo Souza Linguística computacional Processamento : Linguagem natural Natural language processing CHILDES-DB Machine learning Feature selection Development level classification Complex word identification
title_short	Distinção de grupos linguísticos através de desempenho da linguagem
title_full	Distinção de grupos linguísticos através de desempenho da linguagem
title_fullStr	Distinção de grupos linguísticos através de desempenho da linguagem
title_full_unstemmed	Distinção de grupos linguísticos através de desempenho da linguagem
title_sort	Distinção de grupos linguísticos através de desempenho da linguagem
author	Wilkens, Rodrigo Souza
author_facet	Wilkens, Rodrigo Souza
author_role	author
dc.contributor.author.fl_str_mv	Wilkens, Rodrigo Souza
dc.contributor.advisor1.fl_str_mv	Villavicencio, Aline
contributor_str_mv	Villavicencio, Aline
dc.subject.por.fl_str_mv	Linguística computacional Processamento : Linguagem natural
topic	Linguística computacional Processamento : Linguagem natural Natural language processing CHILDES-DB Machine learning Feature selection Development level classification Complex word identification
dc.subject.eng.fl_str_mv	Natural language processing CHILDES-DB Machine learning Feature selection Development level classification Complex word identification
description	A aquisição e o desempenho de linguagem humana é um processo pelo qual todas as pessoas passam. No entanto, esse processo não é completamente entendido, o que gera amplo espaço para pesquisa nessa área. Além disso, mesmo após o processo de aquisição da linguagem pela criança estar completo, ainda não há garantia de domínio da língua em suas diferentes modalidades, especialmente de leitura e escrita. Recentemente, em 2016, divulgou-se que 49,3% dos estudantes brasileiros não possuem proficiência de compreensão de leitura plena em português. Isso é particularmente importante ao considerarmos a quantidade de textos disponíveis, mas não acessíveis a pessoas com diferentes tipos de problemas de proficiência na língua. Sob o ponto de vista computacional, há estudos que visam modelar os processos de aquisição da linguagem e medir o nível do falante, leitor ou redator. Em vista disso, neste trabalho propomos uma abordagem computacional independente de idioma para modelar o nível de desenvolvimento linguístico de diferentes tipos de usuários da língua, de crianças e adultos, sendo a nossa proposta fortemente baseada em características linguísticas. Essas características são dependentes de corpora orais transcritos, no segmento de crianças, e de corpora escritos, no segmento de adultos. Para alcançar esse modelo abrangente, são considerados como objetivos a identificação de atributos e valores que diferenciam os níveis de desenvolvimento da linguagem do indivíduo, assim como o desenvolvimento de um modelo capaz de indicá-los. Para a identificação dos atributos, utilizamos métodos baseados em estatística, como o teste de hipóteses e divergência de distribuição. A fim de comprovar a abrangência da abordagem, realizamos experimentos com os corpora que espelham diferentes etapas do desenvolvimento da linguagem humana: (1) etapa de aquisição da linguagem oral de pela criança e (2) etapa pós aquisição, através da percepção de complexidade da linguagem escrita. Como resultados, obtivemos um grande conjunto anotado de dados sobre aquisição e desempenho de linguagem que podem contribuir para outros estudos. Assim como um perfil de atributos para os vários níveis de desenvolvimento. Também destacamos como resultados, os modelos computacionais que identificam textos quanto ao nível de desenvolvimento de linguagem. Em especial, o são resultados do trabalho o modelo de identificação de palavras complexas, que ultrapassou o estado da arte para o corpus estudado, e o modelo de identificação de idade de crianças que ultrapassou os baselines utilizados, incluindo uma medida clássica de desenvolvimento linguístico.
publishDate	2016
dc.date.accessioned.fl_str_mv	2016-12-10T02:20:41Z
dc.date.issued.fl_str_mv	2016
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/150040
dc.identifier.nrb.pt_BR.fl_str_mv	001008086
url	http://hdl.handle.net/10183/150040
identifier_str_mv	001008086
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/150040/1/001008086.pdf http://www.lume.ufrgs.br/bitstream/10183/150040/2/001008086.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/150040/3/001008086.pdf.jpg
bitstream.checksum.fl_str_mv	4e8124288a9bab50255e4466404e407a 37869b1b6c0ac91bb1cb00b383c07da4 443303e792ae84f2787746673a1b74ff
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1800309096543420416

Distinção de grupos linguísticos através de desempenho da linguagem

Registros relacionados