Aspectos estatísticos da distribuição espacial de palavras em linguagem escrita

Detalhes bibliográficos
Autor(a) principal: SANTOS, Maelyson Rolim Fonseca dos
Data de Publicação: 2014
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRPE
Texto Completo: http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/6857
Resumo: The investigation of the process of evolution and characterization of diferent human languages has been one of the most active research elds in recent decades. Although the search for linguistic patterns that can establish a phylogeny of languages is much older, the statistical characterization of the written language, commonly called quantitative linguistic, has a newer tradition that relies on the work developed by Claude Shannon and George Zipf, written at the end of the 1940s. In this work we investigate some statistical aspects of the frequencies and positions for words in texts and the function of this quantities into the information contained in written language. Initially we explored the scaling relationship between the vocabulary V and the text sizes T, called Heaps' Law, which according to our results is typical for each language. We establish, empirically, a functional relationship between maximum frequency kmax and the total number of words in the text. Secondly we analyze morphological features of symbols, obtaining the word sizes distribution and from its respective entropy. We conclude that this procedure allows us to categorize diferent linguistic groups. Finally we introduce two models able to provide universal limiting behaviors to the relationship between standard deviation and frequency k. The models were designed to describe the behavior of correlated and uncorrelated words, reproducing various properties of texts as the fraction f of correlated words and the structural entropy H. All our theoretical results were compared with those obtained from 500 texts that include wikipedia articles and literary works from various epochs in 10 languages distributed in three linguistic families: germanic (german, danish, swedish and english), romanic (spanish, italian, french and portuguese) and uralic ( nnish and hungarian).
id URPE_d44ac93bb147a545ce610799a4d0aeb9
oai_identifier_str oai:tede2:tede2/6857
network_acronym_str URPE
network_name_str Biblioteca Digital de Teses e Dissertações da UFRPE
repository_id_str
spelling FIGUEIRÊDO, Pedro Hugo dehttp://lattes.cnpq.br/7695601627426320SANTOS, Maelyson Rolim Fonseca dos2017-05-15T13:39:11Z2014-08-13SANTOS, Maelyson Rolim Fonseca dos. Aspectos estatísticos da distribuição espacial de palavras em linguagem escrita. 2014. 102 f. Dissertação (Programa de Pós-Graduação em Física Aplicada) - Universidade Federal Rural de Pernambuco, Recife.http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/6857The investigation of the process of evolution and characterization of diferent human languages has been one of the most active research elds in recent decades. Although the search for linguistic patterns that can establish a phylogeny of languages is much older, the statistical characterization of the written language, commonly called quantitative linguistic, has a newer tradition that relies on the work developed by Claude Shannon and George Zipf, written at the end of the 1940s. In this work we investigate some statistical aspects of the frequencies and positions for words in texts and the function of this quantities into the information contained in written language. Initially we explored the scaling relationship between the vocabulary V and the text sizes T, called Heaps' Law, which according to our results is typical for each language. We establish, empirically, a functional relationship between maximum frequency kmax and the total number of words in the text. Secondly we analyze morphological features of symbols, obtaining the word sizes distribution and from its respective entropy. We conclude that this procedure allows us to categorize diferent linguistic groups. Finally we introduce two models able to provide universal limiting behaviors to the relationship between standard deviation and frequency k. The models were designed to describe the behavior of correlated and uncorrelated words, reproducing various properties of texts as the fraction f of correlated words and the structural entropy H. All our theoretical results were compared with those obtained from 500 texts that include wikipedia articles and literary works from various epochs in 10 languages distributed in three linguistic families: germanic (german, danish, swedish and english), romanic (spanish, italian, french and portuguese) and uralic ( nnish and hungarian).A investigação do processo de evolução e caracterização das diversas linguagens humanas tem sido um dos campos mais ativos de pesquisa nas últimas décadas. Embora a busca por padrões linguísticos que possam estabelecer uma filogenia as línguas seja bem mais antiga, a caracterização estatística da linguagem escrita, comumente denominada linguística quantitativa, possui uma tradição ao mais recente que se apoia nos trabalhos desenvolvidos por George Zipf e Claude Shannon, escritos no final da década de 1940. Nesta disserta c~ao investigamos aspectos frequencistas e espaciais da distribuição de verbetes em textos e o papel destas quantidades sobre a informação contida em linguagem escrita. Num primeiro momento exploramos a relação de escala entre o vocabulário V e o tamanho dos textos T, denominada Lei de Heaps, que segundo nossos resultados e t pica para cada língua. Estabelecemos empiricamente, uma relação funcional entre a frequência máxima kmax e o número total de palavras do texto T. Num segundo momento analisamos características morfológicas dos símbolos obtendo a distribuição de tamanho P(l) dos verbetes e a partir desta a sua respectiva entropia, concluímos que este procedimento nos permite categorizar diferentes grupos linguísticos. Por m introduzimos dois modelos capazes de fornecer comportamentos limitantes universais, para a relação entre a intermitência e a frequência k dos verbetes. Os modelos foram concebidos de forma a descrever o comportamento de verbetes correlacionados e não correlacionados, reproduzindo diversas propriedades de textos como a fração de verbetes correlacionada f e a entropia estrutural H. Ao longo de nossa abordagem, todos os nossos resultados teóricos foram comparados com aqueles obtidos de um corpus composto por 500 textos, que incluem artigos da wikipédia e obras literárias de diversas épocas em 10 idiomas distribuídos em três famílias linguísticas: germânica (alemão, dinamarquês, inglês e sueco), latina (espanhol, italiano, francês e português) e urálica (finlandês e húngaro).Submitted by Mario BC (mario@bc.ufrpe.br) on 2017-05-15T13:39:11Z No. of bitstreams: 1 Maelyson Rolim Fonseca dos Santos.pdf: 7542534 bytes, checksum: 8d86996d3992af0946425f4f3b1ceca5 (MD5)Made available in DSpace on 2017-05-15T13:39:11Z (GMT). No. of bitstreams: 1 Maelyson Rolim Fonseca dos Santos.pdf: 7542534 bytes, checksum: 8d86996d3992af0946425f4f3b1ceca5 (MD5) Previous issue date: 2014-08-13Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESapplication/pdfporUniversidade Federal Rural de PernambucoPrograma de Pós-Graduação em Física AplicadaUFRPEBrasilDepartamento de FísicaLinguagem escritaEntropiaLinguística quantitativaMecânica estatísticaCIENCIAS EXATAS E DA TERRA::FISICAAspectos estatísticos da distribuição espacial de palavras em linguagem escritainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis2948194971945047520600600600600-748177341945315287-83271462965037459292075167498588264571info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRPEinstname:Universidade Federal Rural de Pernambuco (UFRPE)instacron:UFRPELICENSElicense.txtlicense.txttext/plain; charset=utf-82165http://www.tede2.ufrpe.br:8080/tede2/bitstream/tede2/6857/1/license.txtbd3efa91386c1718a7f26a329fdcb468MD51ORIGINALMaelyson Rolim Fonseca dos Santos.pdfMaelyson Rolim Fonseca dos Santos.pdfapplication/pdf7542534http://www.tede2.ufrpe.br:8080/tede2/bitstream/tede2/6857/2/Maelyson+Rolim+Fonseca+dos+Santos.pdf8d86996d3992af0946425f4f3b1ceca5MD52tede2/68572017-05-15 10:39:11.848oai:tede2:tede2/6857Tk9UQTogQ09MT1FVRSBBUVVJIEEgU1VBIFBSw5NQUklBIExJQ0VOw4dBCkVzdGEgbGljZW7Dp2EgZGUgZXhlbXBsbyDDqSBmb3JuZWNpZGEgYXBlbmFzIHBhcmEgZmlucyBpbmZvcm1hdGl2b3MuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgClhYWCAoU2lnbGEgZGEgVW5pdmVyc2lkYWRlKSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IApkaXN0cmlidWlyIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIAplbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhbnNwb3IgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIApwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIHRhbWLDqW0gY29uY29yZGEgcXVlIGEgU2lnbGEgZGUgVW5pdmVyc2lkYWRlIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBhIHN1YSB0ZXNlIG91IApkaXNzZXJ0YcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyAKbmVzdGEgbGljZW7Dp2EuIFZvY8OqIHRhbWLDqW0gZGVjbGFyYSBxdWUgbyBkZXDDs3NpdG8gZGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBuw6NvLCBxdWUgc2VqYSBkZSBzZXUgCmNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiAKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSAKb3MgZGlyZWl0b3MgYXByZXNlbnRhZG9zIG5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIAppZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBubyBjb250ZcO6ZG8gZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFRFU0UgT1UgRElTU0VSVEHDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSAKQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBTSUdMQSBERSAKVU5JVkVSU0lEQURFLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyAKVEFNQsOJTSBBUyBERU1BSVMgT0JSSUdBw4fDlUVTIEVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpBIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgCmRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIApjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://www.tede2.ufrpe.br:8080/tede/PUBhttp://www.tede2.ufrpe.br:8080/oai/requestbdtd@ufrpe.br ||bdtd@ufrpe.bropendoar:2024-05-28T12:34:53.602477Biblioteca Digital de Teses e Dissertações da UFRPE - Universidade Federal Rural de Pernambuco (UFRPE)false
dc.title.por.fl_str_mv Aspectos estatísticos da distribuição espacial de palavras em linguagem escrita
title Aspectos estatísticos da distribuição espacial de palavras em linguagem escrita
spellingShingle Aspectos estatísticos da distribuição espacial de palavras em linguagem escrita
SANTOS, Maelyson Rolim Fonseca dos
Linguagem escrita
Entropia
Linguística quantitativa
Mecânica estatística
CIENCIAS EXATAS E DA TERRA::FISICA
title_short Aspectos estatísticos da distribuição espacial de palavras em linguagem escrita
title_full Aspectos estatísticos da distribuição espacial de palavras em linguagem escrita
title_fullStr Aspectos estatísticos da distribuição espacial de palavras em linguagem escrita
title_full_unstemmed Aspectos estatísticos da distribuição espacial de palavras em linguagem escrita
title_sort Aspectos estatísticos da distribuição espacial de palavras em linguagem escrita
author SANTOS, Maelyson Rolim Fonseca dos
author_facet SANTOS, Maelyson Rolim Fonseca dos
author_role author
dc.contributor.advisor1.fl_str_mv FIGUEIRÊDO, Pedro Hugo de
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/7695601627426320
dc.contributor.author.fl_str_mv SANTOS, Maelyson Rolim Fonseca dos
contributor_str_mv FIGUEIRÊDO, Pedro Hugo de
dc.subject.por.fl_str_mv Linguagem escrita
Entropia
Linguística quantitativa
Mecânica estatística
topic Linguagem escrita
Entropia
Linguística quantitativa
Mecânica estatística
CIENCIAS EXATAS E DA TERRA::FISICA
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::FISICA
description The investigation of the process of evolution and characterization of diferent human languages has been one of the most active research elds in recent decades. Although the search for linguistic patterns that can establish a phylogeny of languages is much older, the statistical characterization of the written language, commonly called quantitative linguistic, has a newer tradition that relies on the work developed by Claude Shannon and George Zipf, written at the end of the 1940s. In this work we investigate some statistical aspects of the frequencies and positions for words in texts and the function of this quantities into the information contained in written language. Initially we explored the scaling relationship between the vocabulary V and the text sizes T, called Heaps' Law, which according to our results is typical for each language. We establish, empirically, a functional relationship between maximum frequency kmax and the total number of words in the text. Secondly we analyze morphological features of symbols, obtaining the word sizes distribution and from its respective entropy. We conclude that this procedure allows us to categorize diferent linguistic groups. Finally we introduce two models able to provide universal limiting behaviors to the relationship between standard deviation and frequency k. The models were designed to describe the behavior of correlated and uncorrelated words, reproducing various properties of texts as the fraction f of correlated words and the structural entropy H. All our theoretical results were compared with those obtained from 500 texts that include wikipedia articles and literary works from various epochs in 10 languages distributed in three linguistic families: germanic (german, danish, swedish and english), romanic (spanish, italian, french and portuguese) and uralic ( nnish and hungarian).
publishDate 2014
dc.date.issued.fl_str_mv 2014-08-13
dc.date.accessioned.fl_str_mv 2017-05-15T13:39:11Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SANTOS, Maelyson Rolim Fonseca dos. Aspectos estatísticos da distribuição espacial de palavras em linguagem escrita. 2014. 102 f. Dissertação (Programa de Pós-Graduação em Física Aplicada) - Universidade Federal Rural de Pernambuco, Recife.
dc.identifier.uri.fl_str_mv http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/6857
identifier_str_mv SANTOS, Maelyson Rolim Fonseca dos. Aspectos estatísticos da distribuição espacial de palavras em linguagem escrita. 2014. 102 f. Dissertação (Programa de Pós-Graduação em Física Aplicada) - Universidade Federal Rural de Pernambuco, Recife.
url http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/6857
dc.language.iso.fl_str_mv por
language por
dc.relation.program.fl_str_mv 2948194971945047520
dc.relation.confidence.fl_str_mv 600
600
600
600
dc.relation.department.fl_str_mv -748177341945315287
dc.relation.cnpq.fl_str_mv -8327146296503745929
dc.relation.sponsorship.fl_str_mv 2075167498588264571
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal Rural de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Física Aplicada
dc.publisher.initials.fl_str_mv UFRPE
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Departamento de Física
publisher.none.fl_str_mv Universidade Federal Rural de Pernambuco
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRPE
instname:Universidade Federal Rural de Pernambuco (UFRPE)
instacron:UFRPE
instname_str Universidade Federal Rural de Pernambuco (UFRPE)
instacron_str UFRPE
institution UFRPE
reponame_str Biblioteca Digital de Teses e Dissertações da UFRPE
collection Biblioteca Digital de Teses e Dissertações da UFRPE
bitstream.url.fl_str_mv http://www.tede2.ufrpe.br:8080/tede2/bitstream/tede2/6857/1/license.txt
http://www.tede2.ufrpe.br:8080/tede2/bitstream/tede2/6857/2/Maelyson+Rolim+Fonseca+dos+Santos.pdf
bitstream.checksum.fl_str_mv bd3efa91386c1718a7f26a329fdcb468
8d86996d3992af0946425f4f3b1ceca5
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRPE - Universidade Federal Rural de Pernambuco (UFRPE)
repository.mail.fl_str_mv bdtd@ufrpe.br ||bdtd@ufrpe.br
_version_ 1810102243189325824