Extração automática de conceitos a partir de textos em língua portuguesa

Lopes, Lucelene

Extração automática de conceitos a partir de textos em língua portuguesa

Detalhes bibliográficos
Autor(a) principal:	Lopes, Lucelene
Data de Publicação:	2012
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da PUC_RS
Texto Completo:	http://tede2.pucrs.br/tede2/handle/tede/5175
Resumo:	This thesis describes a process to extract concepts from texts in portuguese language. The proposed process starts with linguistic annotated corpora from specific domains, and it generates lists of concepts for each corpus. The proposal of a linguistic oriented extraction procedure based on noun phrase detection, and a set of heuristics to improve the overall quality of concept candidate extraction is made. The improvement in precision and recall of extracted term list is from approximatively from 10% to more more than 60%. A new index (tf-dcf) based on contrastive corpora is proposed to sort the concept candidate terms according to the their relevance to their respective domain. The precision results achieved by this new index are superior to to the results achieved by indices proposed in similar works. Cut-off points are proposed in order to identify, among extracted concept candidate terms sorted according to their relevance, which of them will be considered concepts. A hybrid approach to choose cut-off points delivers reasonable F-measure values, and it brings quality to the concept identification process. Additionally, four applications are proposed in order to facilitate the comprehension, handling, and visualization of extracted terms and concepts. Such applications enlarge this thesis contributions available to a broader community of researchers and users of Natural Language Processing area. The proposed process is described in detail, and experiments empirically evaluate each process step. Besides the scientific contribution made with the process proposal, this thesis also delivers extracted concept lists for five different domain corpora, and the prototype of a software tool (EχATOLP) implementing all steps of the proposed process.

Metadados do item

id	P_RS_df6c69c964005a71af3307e19128af66
oai_identifier_str	oai:tede2.pucrs.br:tede/5175
network_acronym_str	P_RS
network_name_str	Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling	Vieira, RenataCPF:45133433034http://lattes.cnpq.br/6218967777630412CPF:81014694949http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4717807J4Lopes, Lucelene2015-04-14T14:49:48Z2013-06-272012-01-26LOPES, Lucelene. Extração automática de conceitos a partir de textos em língua portuguesa. 2012. 156 f. Tese (Doutorado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2012.http://tede2.pucrs.br/tede2/handle/tede/5175This thesis describes a process to extract concepts from texts in portuguese language. The proposed process starts with linguistic annotated corpora from specific domains, and it generates lists of concepts for each corpus. The proposal of a linguistic oriented extraction procedure based on noun phrase detection, and a set of heuristics to improve the overall quality of concept candidate extraction is made. The improvement in precision and recall of extracted term list is from approximatively from 10% to more more than 60%. A new index (tf-dcf) based on contrastive corpora is proposed to sort the concept candidate terms according to the their relevance to their respective domain. The precision results achieved by this new index are superior to to the results achieved by indices proposed in similar works. Cut-off points are proposed in order to identify, among extracted concept candidate terms sorted according to their relevance, which of them will be considered concepts. A hybrid approach to choose cut-off points delivers reasonable F-measure values, and it brings quality to the concept identification process. Additionally, four applications are proposed in order to facilitate the comprehension, handling, and visualization of extracted terms and concepts. Such applications enlarge this thesis contributions available to a broader community of researchers and users of Natural Language Processing area. The proposed process is described in detail, and experiments empirically evaluate each process step. Besides the scientific contribution made with the process proposal, this thesis also delivers extracted concept lists for five different domain corpora, and the prototype of a software tool (EχATOLP) implementing all steps of the proposed process.Essa tese descreve um processo para extrair conceitos de textos em língua portuguesa. O processo proposto inicia com corpora de domínio linguisticamente anotados, e gera listas de conceitos dos domínios de cada corpus. Utiliza-se uma abordagem linguística, que baseia-se na identificação de sintagmas nominais e um conjunto de heurísticas que melhoram a qualidade da extração de candidatos a conceitos. Essa melhora é expressa por incrementos aproximadamente de 10% para mais de 60% nos valores de precisão e abrangência das listas de termos extraídas. Propõe-se um novo índice (tf-dcf) baseado na comparação com corpora contrastantes, para ordenar os termos candidatos a conceito extraídos de acordo com suas relevâncias para o corpus de domínio. Os resultados obtidos com esse novo índice são superiores aos resultados obtidos com índices propostos em trabalhos similares. Aplicam-se pontos de corte para identificar, dentre os termos candidatos classificados segundo sua relevância, quais serão considerados conceitos. O uso de uma abordagem híbrida para escolha de pontos de corte fornece valores adequados de medida F, trazendo qualidade ao processo de identificação de conceitos. Adicionalmente. propõem-se quatro aplicações para facilitar a compreensão, manipulação e visualização dos termos e conceitos extraídos. Essas aplicações tornam as contribuições dessa tese acessíveis a um maior número de pesquisadores e usuários da área de Processamento de Linguagem Natural. Todo o processo proposto é descrito em detalhe, e experimentos avaliam empiricamente cada passo. Além das contribuições científicas feitas com a proposta do processo, essa tese também apresenta listas de conceitos extraídos para cinco diferentes corpora de domínio, e o protótipo de numa ferramenta de software (EXATOLP) que implementa todos os passos propostos.Made available in DSpace on 2015-04-14T14:49:48Z (GMT). No. of bitstreams: 1 439085.pdf: 7508888 bytes, checksum: c69f67a5ec361212f83a17a4407866ce (MD5) Previous issue date: 2012-01-26application/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/16032/439085.pdf.jpgporPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBRFaculdade de InformácaINFORMÁTICAONTOLOGIAPROCESSAMENTO DA LINGUAGEM NATURALRECUPERAÇÃO DA INFORMAÇÃOCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOExtração automática de conceitos a partir de textos em língua portuguesainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis19749965330812744705006001946639708616176246info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAIL439085.pdf.jpg439085.pdf.jpgimage/jpeg3448http://tede2.pucrs.br/tede2/bitstream/tede/5175/2/439085.pdf.jpgae622191ddb441004b0039ae3def51afMD52ORIGINAL439085.pdfapplication/pdf7508888http://tede2.pucrs.br/tede2/bitstream/tede/5175/1/439085.pdfc69f67a5ec361212f83a17a4407866ceMD51tede/51752015-04-17 11:57:32.545oai:tede2.pucrs.br:tede/5175Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br\|\|opendoar:2015-04-17T14:57:32Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.por.fl_str_mv	Extração automática de conceitos a partir de textos em língua portuguesa
title	Extração automática de conceitos a partir de textos em língua portuguesa
spellingShingle	Extração automática de conceitos a partir de textos em língua portuguesa Lopes, Lucelene INFORMÁTICA ONTOLOGIA PROCESSAMENTO DA LINGUAGEM NATURAL RECUPERAÇÃO DA INFORMAÇÃO CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short	Extração automática de conceitos a partir de textos em língua portuguesa
title_full	Extração automática de conceitos a partir de textos em língua portuguesa
title_fullStr	Extração automática de conceitos a partir de textos em língua portuguesa
title_full_unstemmed	Extração automática de conceitos a partir de textos em língua portuguesa
title_sort	Extração automática de conceitos a partir de textos em língua portuguesa
author	Lopes, Lucelene
author_facet	Lopes, Lucelene
author_role	author
dc.contributor.advisor1.fl_str_mv	Vieira, Renata
dc.contributor.advisor1ID.fl_str_mv	CPF:45133433034
dc.contributor.advisor1Lattes.fl_str_mv	http://lattes.cnpq.br/6218967777630412
dc.contributor.authorID.fl_str_mv	CPF:81014694949
dc.contributor.authorLattes.fl_str_mv	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4717807J4
dc.contributor.author.fl_str_mv	Lopes, Lucelene
contributor_str_mv	Vieira, Renata
dc.subject.por.fl_str_mv	INFORMÁTICA ONTOLOGIA PROCESSAMENTO DA LINGUAGEM NATURAL RECUPERAÇÃO DA INFORMAÇÃO
topic	INFORMÁTICA ONTOLOGIA PROCESSAMENTO DA LINGUAGEM NATURAL RECUPERAÇÃO DA INFORMAÇÃO CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.cnpq.fl_str_mv	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description	This thesis describes a process to extract concepts from texts in portuguese language. The proposed process starts with linguistic annotated corpora from specific domains, and it generates lists of concepts for each corpus. The proposal of a linguistic oriented extraction procedure based on noun phrase detection, and a set of heuristics to improve the overall quality of concept candidate extraction is made. The improvement in precision and recall of extracted term list is from approximatively from 10% to more more than 60%. A new index (tf-dcf) based on contrastive corpora is proposed to sort the concept candidate terms according to the their relevance to their respective domain. The precision results achieved by this new index are superior to to the results achieved by indices proposed in similar works. Cut-off points are proposed in order to identify, among extracted concept candidate terms sorted according to their relevance, which of them will be considered concepts. A hybrid approach to choose cut-off points delivers reasonable F-measure values, and it brings quality to the concept identification process. Additionally, four applications are proposed in order to facilitate the comprehension, handling, and visualization of extracted terms and concepts. Such applications enlarge this thesis contributions available to a broader community of researchers and users of Natural Language Processing area. The proposed process is described in detail, and experiments empirically evaluate each process step. Besides the scientific contribution made with the process proposal, this thesis also delivers extracted concept lists for five different domain corpora, and the prototype of a software tool (EχATOLP) implementing all steps of the proposed process.
publishDate	2012
dc.date.issued.fl_str_mv	2012-01-26
dc.date.available.fl_str_mv	2013-06-27
dc.date.accessioned.fl_str_mv	2015-04-14T14:49:48Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	LOPES, Lucelene. Extração automática de conceitos a partir de textos em língua portuguesa. 2012. 156 f. Tese (Doutorado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2012.
dc.identifier.uri.fl_str_mv	http://tede2.pucrs.br/tede2/handle/tede/5175
identifier_str_mv	LOPES, Lucelene. Extração automática de conceitos a partir de textos em língua portuguesa. 2012. 156 f. Tese (Doutorado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2012.
url	http://tede2.pucrs.br/tede2/handle/tede/5175
dc.language.iso.fl_str_mv	por
language	por
dc.relation.program.fl_str_mv	1974996533081274470
dc.relation.confidence.fl_str_mv	500 600
dc.relation.department.fl_str_mv	1946639708616176246
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Pontifícia Universidade Católica do Rio Grande do Sul
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv	PUCRS
dc.publisher.country.fl_str_mv	BR
dc.publisher.department.fl_str_mv	Faculdade de Informáca
publisher.none.fl_str_mv	Pontifícia Universidade Católica do Rio Grande do Sul
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS
instname_str	Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str	PUC_RS
institution	PUC_RS
reponame_str	Biblioteca Digital de Teses e Dissertações da PUC_RS
collection	Biblioteca Digital de Teses e Dissertações da PUC_RS
bitstream.url.fl_str_mv	http://tede2.pucrs.br/tede2/bitstream/tede/5175/2/439085.pdf.jpg http://tede2.pucrs.br/tede2/bitstream/tede/5175/1/439085.pdf
bitstream.checksum.fl_str_mv	ae622191ddb441004b0039ae3def51af c69f67a5ec361212f83a17a4407866ce
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv	biblioteca.central@pucrs.br\|\|
_version_	1799765306038550528

Extração automática de conceitos a partir de textos em língua portuguesa

Registros relacionados