Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem

Dias, Duarte; Anastácio, Ivo; Martins, Bruno

Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem

Detalhes bibliográficos
Autor(a) principal:	Dias, Duarte
Data de Publicação:	2012
Outros Autores:	Anastácio, Ivo, Martins, Bruno
Tipo de documento:	Artigo
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	https://linguamatica.com/index.php/linguamatica/article/view/139
Resumo:	A maioria dos documentos textuais, produzidos no contexto das mais diversas aplicações, encontra-se relacionado com algum tipo de contexto geográfico. Contudo, os métodos tradicionais para a prospecção de informação em colecções de documentos vêem os textos como conjuntos de termos, ignorando outros aspectos. Mais recentemente, a recuperação de informação com suporte ao contexto geográfico tem capturado a atenção de diversos investigadores em áreas relacionadas com a prospecção de informação e o processamento de linguagem natural, envisionando o suporte para tarefas como a pesquisa e visualização de informação textual, com base em representações cartográficas. Neste trabalho, comparamos experimentalmente diferentes técnicas automáticas, as quais utilizam classificadores baseados em modelos de linguagem, para a atribuição de coordenadas geoespaciais de latitude e longitude a novos documentos, usando apenas o texto dos documentos como evidência de suporte. Medimos os resultados obtidos com modelos de linguagem baseados em n-gramas de caracteres ou de termos, usando colecções de artigos georreferenciados da Wikipédia em três línguas distintas, nomeadamente em Inglês, Espanhol e Português. Experimentamos também diferentes métodos de pós-processamento para atribuir as coordenadas geoespaciais com base nas classificações. O melhor método utiliza modelos de linguagem baseados em n-gramas de caracteres, em conjunto com uma técnica de pós-processamento que utiliza as coordenadas dos knn documentos mais similares, obtendo um erro de previsão médio de 265 Kilómetros, e um erro mediano de apenas 22 Kilómetros, para o caso da colecção da Wikipédia Inglesa. Para as colecções Portuguesa e Espanhola, as quais são significativamente mais pequenas, o mesmo método obteve um erro de previsão médio de 278 e 273 Kilómetros, respectivamente, e um erro de previsão mediano de 28 e de 45 Kilómetros.

Metadados do item

id	RCAP_451063513249b96529a40e03dac981c8
oai_identifier_str	oai:linguamatica.com:article/139
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de LinguagemProcessamento de TextoRecuperação de Informação GeográficaGeocodificação de DocumentosA maioria dos documentos textuais, produzidos no contexto das mais diversas aplicações, encontra-se relacionado com algum tipo de contexto geográfico. Contudo, os métodos tradicionais para a prospecção de informação em colecções de documentos vêem os textos como conjuntos de termos, ignorando outros aspectos. Mais recentemente, a recuperação de informação com suporte ao contexto geográfico tem capturado a atenção de diversos investigadores em áreas relacionadas com a prospecção de informação e o processamento de linguagem natural, envisionando o suporte para tarefas como a pesquisa e visualização de informação textual, com base em representações cartográficas. Neste trabalho, comparamos experimentalmente diferentes técnicas automáticas, as quais utilizam classificadores baseados em modelos de linguagem, para a atribuição de coordenadas geoespaciais de latitude e longitude a novos documentos, usando apenas o texto dos documentos como evidência de suporte. Medimos os resultados obtidos com modelos de linguagem baseados em n-gramas de caracteres ou de termos, usando colecções de artigos georreferenciados da Wikipédia em três línguas distintas, nomeadamente em Inglês, Espanhol e Português. Experimentamos também diferentes métodos de pós-processamento para atribuir as coordenadas geoespaciais com base nas classificações. O melhor método utiliza modelos de linguagem baseados em n-gramas de caracteres, em conjunto com uma técnica de pós-processamento que utiliza as coordenadas dos knn documentos mais similares, obtendo um erro de previsão médio de 265 Kilómetros, e um erro mediano de apenas 22 Kilómetros, para o caso da colecção da Wikipédia Inglesa. Para as colecções Portuguesa e Espanhola, as quais são significativamente mais pequenas, o mesmo método obteve um erro de previsão médio de 278 e 273 Kilómetros, respectivamente, e um erro de previsão mediano de 28 e de 45 Kilómetros.Universidade do Minho e Universidade de Vigo2012-12-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://linguamatica.com/index.php/linguamatica/article/view/139Linguamática; Vol. 4 No. 2; 13-25Linguamática; Vol. 4 Núm. 2; 13-25Linguamática; v. 4 n. 2; 13-251647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/139https://linguamatica.com/index.php/linguamatica/article/view/139/200Dias, DuarteAnastácio, IvoMartins, Brunoinfo:eu-repo/semantics/openAccess2023-09-08T13:46:28Zoai:linguamatica.com:article/139Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:35.595021Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem
title	Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem
spellingShingle	Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem Dias, Duarte Processamento de Texto Recuperação de Informação Geográfica Geocodificação de Documentos
title_short	Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem
title_full	Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem
title_fullStr	Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem
title_full_unstemmed	Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem
title_sort	Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem
author	Dias, Duarte
author_facet	Dias, Duarte Anastácio, Ivo Martins, Bruno
author_role	author
author2	Anastácio, Ivo Martins, Bruno
author2_role	author author
dc.contributor.author.fl_str_mv	Dias, Duarte Anastácio, Ivo Martins, Bruno
dc.subject.por.fl_str_mv	Processamento de Texto Recuperação de Informação Geográfica Geocodificação de Documentos
topic	Processamento de Texto Recuperação de Informação Geográfica Geocodificação de Documentos
description	A maioria dos documentos textuais, produzidos no contexto das mais diversas aplicações, encontra-se relacionado com algum tipo de contexto geográfico. Contudo, os métodos tradicionais para a prospecção de informação em colecções de documentos vêem os textos como conjuntos de termos, ignorando outros aspectos. Mais recentemente, a recuperação de informação com suporte ao contexto geográfico tem capturado a atenção de diversos investigadores em áreas relacionadas com a prospecção de informação e o processamento de linguagem natural, envisionando o suporte para tarefas como a pesquisa e visualização de informação textual, com base em representações cartográficas. Neste trabalho, comparamos experimentalmente diferentes técnicas automáticas, as quais utilizam classificadores baseados em modelos de linguagem, para a atribuição de coordenadas geoespaciais de latitude e longitude a novos documentos, usando apenas o texto dos documentos como evidência de suporte. Medimos os resultados obtidos com modelos de linguagem baseados em n-gramas de caracteres ou de termos, usando colecções de artigos georreferenciados da Wikipédia em três línguas distintas, nomeadamente em Inglês, Espanhol e Português. Experimentamos também diferentes métodos de pós-processamento para atribuir as coordenadas geoespaciais com base nas classificações. O melhor método utiliza modelos de linguagem baseados em n-gramas de caracteres, em conjunto com uma técnica de pós-processamento que utiliza as coordenadas dos knn documentos mais similares, obtendo um erro de previsão médio de 265 Kilómetros, e um erro mediano de apenas 22 Kilómetros, para o caso da colecção da Wikipédia Inglesa. Para as colecções Portuguesa e Espanhola, as quais são significativamente mais pequenas, o mesmo método obteve um erro de previsão médio de 278 e 273 Kilómetros, respectivamente, e um erro de previsão mediano de 28 e de 45 Kilómetros.
publishDate	2012
dc.date.none.fl_str_mv	2012-12-04
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/article
format	article
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://linguamatica.com/index.php/linguamatica/article/view/139
url	https://linguamatica.com/index.php/linguamatica/article/view/139
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	https://linguamatica.com/index.php/linguamatica/article/view/139 https://linguamatica.com/index.php/linguamatica/article/view/139/200
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade do Minho e Universidade de Vigo
publisher.none.fl_str_mv	Universidade do Minho e Universidade de Vigo
dc.source.none.fl_str_mv	Linguamática; Vol. 4 No. 2; 13-25 Linguamática; Vol. 4 Núm. 2; 13-25 Linguamática; v. 4 n. 2; 13-25 1647-0818 reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799133553196269568

Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem

Registros relacionados