Distinção de grupos linguísticos através de desempenho da linguagem

Detalhes bibliográficos
Autor(a) principal: Wilkens, Rodrigo Souza
Data de Publicação: 2016
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/150040
Resumo: A aquisição e o desempenho de linguagem humana é um processo pelo qual todas as pessoas passam. No entanto, esse processo não é completamente entendido, o que gera amplo espaço para pesquisa nessa área. Além disso, mesmo após o processo de aquisição da linguagem pela criança estar completo, ainda não há garantia de domínio da língua em suas diferentes modalidades, especialmente de leitura e escrita. Recentemente, em 2016, divulgou-se que 49,3% dos estudantes brasileiros não possuem proficiência de compreensão de leitura plena em português. Isso é particularmente importante ao considerarmos a quantidade de textos disponíveis, mas não acessíveis a pessoas com diferentes tipos de problemas de proficiência na língua. Sob o ponto de vista computacional, há estudos que visam modelar os processos de aquisição da linguagem e medir o nível do falante, leitor ou redator. Em vista disso, neste trabalho propomos uma abordagem computacional independente de idioma para modelar o nível de desenvolvimento linguístico de diferentes tipos de usuários da língua, de crianças e adultos, sendo a nossa proposta fortemente baseada em características linguísticas. Essas características são dependentes de corpora orais transcritos, no segmento de crianças, e de corpora escritos, no segmento de adultos. Para alcançar esse modelo abrangente, são considerados como objetivos a identificação de atributos e valores que diferenciam os níveis de desenvolvimento da linguagem do indivíduo, assim como o desenvolvimento de um modelo capaz de indicá-los. Para a identificação dos atributos, utilizamos métodos baseados em estatística, como o teste de hipóteses e divergência de distribuição. A fim de comprovar a abrangência da abordagem, realizamos experimentos com os corpora que espelham diferentes etapas do desenvolvimento da linguagem humana: (1) etapa de aquisição da linguagem oral de pela criança e (2) etapa pós aquisição, através da percepção de complexidade da linguagem escrita. Como resultados, obtivemos um grande conjunto anotado de dados sobre aquisição e desempenho de linguagem que podem contribuir para outros estudos. Assim como um perfil de atributos para os vários níveis de desenvolvimento. Também destacamos como resultados, os modelos computacionais que identificam textos quanto ao nível de desenvolvimento de linguagem. Em especial, o são resultados do trabalho o modelo de identificação de palavras complexas, que ultrapassou o estado da arte para o corpus estudado, e o modelo de identificação de idade de crianças que ultrapassou os baselines utilizados, incluindo uma medida clássica de desenvolvimento linguístico.
id URGS_06f7e0cb38c37f0594edf4df0e9b6ebb
oai_identifier_str oai:www.lume.ufrgs.br:10183/150040
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Wilkens, Rodrigo SouzaVillavicencio, Aline2016-12-10T02:20:41Z2016http://hdl.handle.net/10183/150040001008086A aquisição e o desempenho de linguagem humana é um processo pelo qual todas as pessoas passam. No entanto, esse processo não é completamente entendido, o que gera amplo espaço para pesquisa nessa área. Além disso, mesmo após o processo de aquisição da linguagem pela criança estar completo, ainda não há garantia de domínio da língua em suas diferentes modalidades, especialmente de leitura e escrita. Recentemente, em 2016, divulgou-se que 49,3% dos estudantes brasileiros não possuem proficiência de compreensão de leitura plena em português. Isso é particularmente importante ao considerarmos a quantidade de textos disponíveis, mas não acessíveis a pessoas com diferentes tipos de problemas de proficiência na língua. Sob o ponto de vista computacional, há estudos que visam modelar os processos de aquisição da linguagem e medir o nível do falante, leitor ou redator. Em vista disso, neste trabalho propomos uma abordagem computacional independente de idioma para modelar o nível de desenvolvimento linguístico de diferentes tipos de usuários da língua, de crianças e adultos, sendo a nossa proposta fortemente baseada em características linguísticas. Essas características são dependentes de corpora orais transcritos, no segmento de crianças, e de corpora escritos, no segmento de adultos. Para alcançar esse modelo abrangente, são considerados como objetivos a identificação de atributos e valores que diferenciam os níveis de desenvolvimento da linguagem do indivíduo, assim como o desenvolvimento de um modelo capaz de indicá-los. Para a identificação dos atributos, utilizamos métodos baseados em estatística, como o teste de hipóteses e divergência de distribuição. A fim de comprovar a abrangência da abordagem, realizamos experimentos com os corpora que espelham diferentes etapas do desenvolvimento da linguagem humana: (1) etapa de aquisição da linguagem oral de pela criança e (2) etapa pós aquisição, através da percepção de complexidade da linguagem escrita. Como resultados, obtivemos um grande conjunto anotado de dados sobre aquisição e desempenho de linguagem que podem contribuir para outros estudos. Assim como um perfil de atributos para os vários níveis de desenvolvimento. Também destacamos como resultados, os modelos computacionais que identificam textos quanto ao nível de desenvolvimento de linguagem. Em especial, o são resultados do trabalho o modelo de identificação de palavras complexas, que ultrapassou o estado da arte para o corpus estudado, e o modelo de identificação de idade de crianças que ultrapassou os baselines utilizados, incluindo uma medida clássica de desenvolvimento linguístico.Language acquisition and language performance is a process by which all the people experience. However, this process is not completely understood, which creates room for research in this area. Moreover, even after the acquisition process by a child is completed, there is still no guarantee of language proficiency in different modalities, specially reading and writing. Recently, in 2016, OECD/PIAAC released that 49,3% of Brazilian students do not have written and read proficiency in Portuguese. This is more important when we take into account the large number of available text, but they are not accessible by people with different types of language proficiency issues. In computational point of view, there are some studies which aim to model the language acquisition process and measure the speaker level. For that, we propose an computational approach independent of language to model language development level of different types of language users, children and adults. In that sense our proposal is highly based on linguistics features. Those features dependents of transcript oral corpora from children and adults. To achieve this model, we considered aim to identify attributes and values able to differentiate between leves of development by an individual, as well the desenvolvimento of a model able to indicate them. The attribute identification are based on statistical methods such as hypothesis testing and divergence distribution. Aiming to validate our approach, we performed experiments with the corpora that reflect at different stages of development of human language: (1) oral language acquisition by a child and (2) post-acquisition stage, through the perception of difficulty of written language. With this work, we obtained a large corpus of annotated language acquisition data that can contribute to the acquisition of other studies. We also build an attribute profile of the development levels. From all of our results we highlight the computer models that identify texts and language development level. In particular, the complex word identification model that exceeded the state of the art for the studied corpus, and the children age identifier model, who exceeded the baselines, including a classic measure of language development.application/pdfporLinguística computacionalProcessamento : Linguagem naturalNatural language processingCHILDES-DBMachine learningFeature selectionDevelopment level classificationComplex word identificationDistinção de grupos linguísticos através de desempenho da linguagemDistinction of linguistic groups through linguistic performance info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2016doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL001008086.pdf001008086.pdfTexto completoapplication/pdf3084531http://www.lume.ufrgs.br/bitstream/10183/150040/1/001008086.pdf4e8124288a9bab50255e4466404e407aMD51TEXT001008086.pdf.txt001008086.pdf.txtExtracted Texttext/plain313068http://www.lume.ufrgs.br/bitstream/10183/150040/2/001008086.pdf.txt37869b1b6c0ac91bb1cb00b383c07da4MD52THUMBNAIL001008086.pdf.jpg001008086.pdf.jpgGenerated Thumbnailimage/jpeg1079http://www.lume.ufrgs.br/bitstream/10183/150040/3/001008086.pdf.jpg443303e792ae84f2787746673a1b74ffMD5310183/1500402018-10-30 07:52:50.042oai:www.lume.ufrgs.br:10183/150040Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532018-10-30T10:52:50Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Distinção de grupos linguísticos através de desempenho da linguagem
dc.title.alternative.en.fl_str_mv Distinction of linguistic groups through linguistic performance
title Distinção de grupos linguísticos através de desempenho da linguagem
spellingShingle Distinção de grupos linguísticos através de desempenho da linguagem
Wilkens, Rodrigo Souza
Linguística computacional
Processamento : Linguagem natural
Natural language processing
CHILDES-DB
Machine learning
Feature selection
Development level classification
Complex word identification
title_short Distinção de grupos linguísticos através de desempenho da linguagem
title_full Distinção de grupos linguísticos através de desempenho da linguagem
title_fullStr Distinção de grupos linguísticos através de desempenho da linguagem
title_full_unstemmed Distinção de grupos linguísticos através de desempenho da linguagem
title_sort Distinção de grupos linguísticos através de desempenho da linguagem
author Wilkens, Rodrigo Souza
author_facet Wilkens, Rodrigo Souza
author_role author
dc.contributor.author.fl_str_mv Wilkens, Rodrigo Souza
dc.contributor.advisor1.fl_str_mv Villavicencio, Aline
contributor_str_mv Villavicencio, Aline
dc.subject.por.fl_str_mv Linguística computacional
Processamento : Linguagem natural
topic Linguística computacional
Processamento : Linguagem natural
Natural language processing
CHILDES-DB
Machine learning
Feature selection
Development level classification
Complex word identification
dc.subject.eng.fl_str_mv Natural language processing
CHILDES-DB
Machine learning
Feature selection
Development level classification
Complex word identification
description A aquisição e o desempenho de linguagem humana é um processo pelo qual todas as pessoas passam. No entanto, esse processo não é completamente entendido, o que gera amplo espaço para pesquisa nessa área. Além disso, mesmo após o processo de aquisição da linguagem pela criança estar completo, ainda não há garantia de domínio da língua em suas diferentes modalidades, especialmente de leitura e escrita. Recentemente, em 2016, divulgou-se que 49,3% dos estudantes brasileiros não possuem proficiência de compreensão de leitura plena em português. Isso é particularmente importante ao considerarmos a quantidade de textos disponíveis, mas não acessíveis a pessoas com diferentes tipos de problemas de proficiência na língua. Sob o ponto de vista computacional, há estudos que visam modelar os processos de aquisição da linguagem e medir o nível do falante, leitor ou redator. Em vista disso, neste trabalho propomos uma abordagem computacional independente de idioma para modelar o nível de desenvolvimento linguístico de diferentes tipos de usuários da língua, de crianças e adultos, sendo a nossa proposta fortemente baseada em características linguísticas. Essas características são dependentes de corpora orais transcritos, no segmento de crianças, e de corpora escritos, no segmento de adultos. Para alcançar esse modelo abrangente, são considerados como objetivos a identificação de atributos e valores que diferenciam os níveis de desenvolvimento da linguagem do indivíduo, assim como o desenvolvimento de um modelo capaz de indicá-los. Para a identificação dos atributos, utilizamos métodos baseados em estatística, como o teste de hipóteses e divergência de distribuição. A fim de comprovar a abrangência da abordagem, realizamos experimentos com os corpora que espelham diferentes etapas do desenvolvimento da linguagem humana: (1) etapa de aquisição da linguagem oral de pela criança e (2) etapa pós aquisição, através da percepção de complexidade da linguagem escrita. Como resultados, obtivemos um grande conjunto anotado de dados sobre aquisição e desempenho de linguagem que podem contribuir para outros estudos. Assim como um perfil de atributos para os vários níveis de desenvolvimento. Também destacamos como resultados, os modelos computacionais que identificam textos quanto ao nível de desenvolvimento de linguagem. Em especial, o são resultados do trabalho o modelo de identificação de palavras complexas, que ultrapassou o estado da arte para o corpus estudado, e o modelo de identificação de idade de crianças que ultrapassou os baselines utilizados, incluindo uma medida clássica de desenvolvimento linguístico.
publishDate 2016
dc.date.accessioned.fl_str_mv 2016-12-10T02:20:41Z
dc.date.issued.fl_str_mv 2016
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/150040
dc.identifier.nrb.pt_BR.fl_str_mv 001008086
url http://hdl.handle.net/10183/150040
identifier_str_mv 001008086
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/150040/1/001008086.pdf
http://www.lume.ufrgs.br/bitstream/10183/150040/2/001008086.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/150040/3/001008086.pdf.jpg
bitstream.checksum.fl_str_mv 4e8124288a9bab50255e4466404e407a
37869b1b6c0ac91bb1cb00b383c07da4
443303e792ae84f2787746673a1b74ff
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1800309096543420416