JESS : uma ferramenta para detecção de linguagem em textos

Detalhes bibliográficos
Autor(a) principal: Santos, Aline Graciela Lermen dos
Data de Publicação: 2013
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/66081
Resumo: Com a expansão da Internet nos últimos anos, surgem textos na web de diversas fontes, acarretando um aumento na quantidade de idiomas. Ao se deparar com um destes textos, um problema relevante consiste em saber qual é o idioma dele. Este trabalho tem como objetivo abordar o problema da identificação do idioma de textos, como posts de blog e jornais online, entre inglês e português, utilizando técnicas e abordagens provenientes da área de Recuperação de Informação. A detecção de linguagem é uma variação da classificação de textos, e aqui será utilizado o treinamento com aprendizado supervisionado. A detecção de idioma é feita por três esquemas de ponderação diferentes: tf-idf, booleano e tf, além de analisar o melhor desempenho quanto ao uso de palavra inteira ou n-gramas. Com essas técnicas, deseja-se saber qual análise terá melhor resultadona classificação, através da quantidade de acertos de cada uma. Os experimentos realizados mostram que a análise com palavras inteiras e com peso booleano possui o melhor desempenho no menor tempo de processamento.
id UFRGS-2_442719cd3128559e008b3e70c9f130bb
oai_identifier_str oai:www.lume.ufrgs.br:10183/66081
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Santos, Aline Graciela Lermen dosWives, Leandro Krug2013-02-05T01:38:53Z2013http://hdl.handle.net/10183/66081000870782Com a expansão da Internet nos últimos anos, surgem textos na web de diversas fontes, acarretando um aumento na quantidade de idiomas. Ao se deparar com um destes textos, um problema relevante consiste em saber qual é o idioma dele. Este trabalho tem como objetivo abordar o problema da identificação do idioma de textos, como posts de blog e jornais online, entre inglês e português, utilizando técnicas e abordagens provenientes da área de Recuperação de Informação. A detecção de linguagem é uma variação da classificação de textos, e aqui será utilizado o treinamento com aprendizado supervisionado. A detecção de idioma é feita por três esquemas de ponderação diferentes: tf-idf, booleano e tf, além de analisar o melhor desempenho quanto ao uso de palavra inteira ou n-gramas. Com essas técnicas, deseja-se saber qual análise terá melhor resultadona classificação, através da quantidade de acertos de cada uma. Os experimentos realizados mostram que a análise com palavras inteiras e com peso booleano possui o melhor desempenho no menor tempo de processamento.With the growth of the Internet in recent years, web texts arise from various sources, resulting in multiple languages as well. When facing one of these texts, one important issue is related to knowing the language used in a specific document. This work aims to approach the problem of identifying the language of online texts, as blog posts and online newspapers, between English and Portuguese, using techniques and approaches from Information Retrieval for this. Language detection is a variation of text classification, and here will be used training with supervised learning. The detection is performed by three different weighting schemes: tf-idf, boolean and tf weights, besides analyzing the best performance over the use of whole word or n-grams. With these techniques, it is desirable to know which analysis will result in better classification by the number of hits each one gets. The experiments show that the analysis with whole words and the boolean weight has the best performance in the shortest processing time.application/pdfporLinguagem naturalLinguística computacionalLanguage detectionOnline textN-gramsWeighting schemesJESS : uma ferramenta para detecção de linguagem em textosLanguage detection in online texts info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2013Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000870782.pdf000870782.pdfTexto completoapplication/pdf768824http://www.lume.ufrgs.br/bitstream/10183/66081/1/000870782.pdf00242561714991ab2f274f4a67469d7aMD51TEXT000870782.pdf.txt000870782.pdf.txtExtracted Texttext/plain83101http://www.lume.ufrgs.br/bitstream/10183/66081/2/000870782.pdf.txt279e257ff0a53aa6c2fcb65665dc3745MD52THUMBNAIL000870782.pdf.jpg000870782.pdf.jpgGenerated Thumbnailimage/jpeg1004http://www.lume.ufrgs.br/bitstream/10183/66081/3/000870782.pdf.jpg4789c320492d5383833560db669ce7c4MD5310183/660812018-10-17 07:35:51.089oai:www.lume.ufrgs.br:10183/66081Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2018-10-17T10:35:51Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv JESS : uma ferramenta para detecção de linguagem em textos
dc.title.alternative.en.fl_str_mv Language detection in online texts
title JESS : uma ferramenta para detecção de linguagem em textos
spellingShingle JESS : uma ferramenta para detecção de linguagem em textos
Santos, Aline Graciela Lermen dos
Linguagem natural
Linguística computacional
Language detection
Online text
N-grams
Weighting schemes
title_short JESS : uma ferramenta para detecção de linguagem em textos
title_full JESS : uma ferramenta para detecção de linguagem em textos
title_fullStr JESS : uma ferramenta para detecção de linguagem em textos
title_full_unstemmed JESS : uma ferramenta para detecção de linguagem em textos
title_sort JESS : uma ferramenta para detecção de linguagem em textos
author Santos, Aline Graciela Lermen dos
author_facet Santos, Aline Graciela Lermen dos
author_role author
dc.contributor.author.fl_str_mv Santos, Aline Graciela Lermen dos
dc.contributor.advisor1.fl_str_mv Wives, Leandro Krug
contributor_str_mv Wives, Leandro Krug
dc.subject.por.fl_str_mv Linguagem natural
Linguística computacional
topic Linguagem natural
Linguística computacional
Language detection
Online text
N-grams
Weighting schemes
dc.subject.eng.fl_str_mv Language detection
Online text
N-grams
Weighting schemes
description Com a expansão da Internet nos últimos anos, surgem textos na web de diversas fontes, acarretando um aumento na quantidade de idiomas. Ao se deparar com um destes textos, um problema relevante consiste em saber qual é o idioma dele. Este trabalho tem como objetivo abordar o problema da identificação do idioma de textos, como posts de blog e jornais online, entre inglês e português, utilizando técnicas e abordagens provenientes da área de Recuperação de Informação. A detecção de linguagem é uma variação da classificação de textos, e aqui será utilizado o treinamento com aprendizado supervisionado. A detecção de idioma é feita por três esquemas de ponderação diferentes: tf-idf, booleano e tf, além de analisar o melhor desempenho quanto ao uso de palavra inteira ou n-gramas. Com essas técnicas, deseja-se saber qual análise terá melhor resultadona classificação, através da quantidade de acertos de cada uma. Os experimentos realizados mostram que a análise com palavras inteiras e com peso booleano possui o melhor desempenho no menor tempo de processamento.
publishDate 2013
dc.date.accessioned.fl_str_mv 2013-02-05T01:38:53Z
dc.date.issued.fl_str_mv 2013
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/66081
dc.identifier.nrb.pt_BR.fl_str_mv 000870782
url http://hdl.handle.net/10183/66081
identifier_str_mv 000870782
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/66081/1/000870782.pdf
http://www.lume.ufrgs.br/bitstream/10183/66081/2/000870782.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/66081/3/000870782.pdf.jpg
bitstream.checksum.fl_str_mv 00242561714991ab2f274f4a67469d7a
279e257ff0a53aa6c2fcb65665dc3745
4789c320492d5383833560db669ce7c4
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224437379366912