[en] ALGORITHMS FOR TABLE STRUCTURE RECOGNITION

Detalhes bibliográficos
Autor(a) principal: YOSVENI ESCALONA ESCALONA
Data de Publicação: 2020
Tipo de documento: Outros
Idioma: eng
Título da fonte: Repositório Institucional da PUC-RIO (Projeto Maxwell)
Texto Completo: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48789@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48789@2
http://doi.org/10.17771/PUCRio.acad.48789
Resumo: [pt] Tabelas são uma forma bastante comum de organizar e publicar dados. Por exemplo, a Web possui um enorme número de tabelas publicadas em HTML, embutidas em documentos em PDF, ou que podem ser simplesmente baixadas de páginas Web. Porém, tabelas nem sempre são fáceis de interpretar pois possuem uma grande variedade de características e são organizadas de diversas formas. De fato, um grande número de métodos e ferramentas foram desenvolvidos para interpretação de tabelas. Esta dissertação apresenta a implementação de um algoritmo, baseado em Conditional Random Fields (CRFs), para classificar as linhas de uma tabela em linhas de cabeçalho, linhas de dados e linhas de metadados. A implementação é complementada por dois algoritmos para reconhecimento de tabelas em planilhas, respectivamente baseados em regras e detecção de regiões. Por fim, a dissertação descreve os resultados e os benefícios obtidos pela aplicação dos algoritmos a tabelas em formato HTML, obtidas da Web, e a tabelas em forma de planilhas, baixadas do Web site da Agência Nacional de Petróleo.
id PUC_RIO-1_f6d98096be5e7f0bd261eb6de2b719a4
oai_identifier_str oai:MAXWELL.puc-rio.br:48789
network_acronym_str PUC_RIO-1
network_name_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str 534
spelling [en] ALGORITHMS FOR TABLE STRUCTURE RECOGNITION [pt] ALGORITMOS PARA RECONHECIMENTO DE ESTRUTURAS DE TABELAS [pt] APRENDIZADO DE MAQUINA[pt] PLANILHA[pt] TABELA HTML[pt] DADOS TABULARES[pt] CONDITIONAL RANDOM FIELD[en] MACHINE LEARNING[en] SPREADSHEET[en] HTML TABLES[en] TABULAR DATA[en] CONDITIONAL RANDOM FIELD[pt] Tabelas são uma forma bastante comum de organizar e publicar dados. Por exemplo, a Web possui um enorme número de tabelas publicadas em HTML, embutidas em documentos em PDF, ou que podem ser simplesmente baixadas de páginas Web. Porém, tabelas nem sempre são fáceis de interpretar pois possuem uma grande variedade de características e são organizadas de diversas formas. De fato, um grande número de métodos e ferramentas foram desenvolvidos para interpretação de tabelas. Esta dissertação apresenta a implementação de um algoritmo, baseado em Conditional Random Fields (CRFs), para classificar as linhas de uma tabela em linhas de cabeçalho, linhas de dados e linhas de metadados. A implementação é complementada por dois algoritmos para reconhecimento de tabelas em planilhas, respectivamente baseados em regras e detecção de regiões. Por fim, a dissertação descreve os resultados e os benefícios obtidos pela aplicação dos algoritmos a tabelas em formato HTML, obtidas da Web, e a tabelas em forma de planilhas, baixadas do Web site da Agência Nacional de Petróleo.[en] Tables are widely adopted to organize and publish data. For example, the Web has an enormous number of tables, published in HTML, imbedded in PDF documents, or that can be simply downloaded from Web pages. However, tables are not always easy to interpret because of the variety of features and formats used. Indeed, a large number of methods and tools have been developed to interpret tables. This dissertation presents the implementation of an algorithm, based on Conditional Random Fields (CRFs), to classify the rows of a table as header rows, data rows or metadata rows. The implementation is complemented by two algorithms for table recognition in a spreadsheet document, respectively based on rules and on region detection. Finally, the dissertation describes the results and the benefits obtained by applying the implemented algorithms to HTML tables, obtained from the Web, and to spreadsheet tables, downloaded from the Brazilian National Petroleum Agency.MAXWELLMARCO ANTONIO CASANOVAMARCO ANTONIO CASANOVAMARCO ANTONIO CASANOVAYOSVENI ESCALONA ESCALONA2020-06-26info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/otherhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48789@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48789@2http://doi.org/10.17771/PUCRio.acad.48789engreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2022-08-26T00:00:00Zoai:MAXWELL.puc-rio.br:48789Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342022-08-26T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.none.fl_str_mv [en] ALGORITHMS FOR TABLE STRUCTURE RECOGNITION
[pt] ALGORITMOS PARA RECONHECIMENTO DE ESTRUTURAS DE TABELAS
title [en] ALGORITHMS FOR TABLE STRUCTURE RECOGNITION
spellingShingle [en] ALGORITHMS FOR TABLE STRUCTURE RECOGNITION
YOSVENI ESCALONA ESCALONA
[pt] APRENDIZADO DE MAQUINA
[pt] PLANILHA
[pt] TABELA HTML
[pt] DADOS TABULARES
[pt] CONDITIONAL RANDOM FIELD
[en] MACHINE LEARNING
[en] SPREADSHEET
[en] HTML TABLES
[en] TABULAR DATA
[en] CONDITIONAL RANDOM FIELD
title_short [en] ALGORITHMS FOR TABLE STRUCTURE RECOGNITION
title_full [en] ALGORITHMS FOR TABLE STRUCTURE RECOGNITION
title_fullStr [en] ALGORITHMS FOR TABLE STRUCTURE RECOGNITION
title_full_unstemmed [en] ALGORITHMS FOR TABLE STRUCTURE RECOGNITION
title_sort [en] ALGORITHMS FOR TABLE STRUCTURE RECOGNITION
author YOSVENI ESCALONA ESCALONA
author_facet YOSVENI ESCALONA ESCALONA
author_role author
dc.contributor.none.fl_str_mv MARCO ANTONIO CASANOVA
MARCO ANTONIO CASANOVA
MARCO ANTONIO CASANOVA
dc.contributor.author.fl_str_mv YOSVENI ESCALONA ESCALONA
dc.subject.por.fl_str_mv [pt] APRENDIZADO DE MAQUINA
[pt] PLANILHA
[pt] TABELA HTML
[pt] DADOS TABULARES
[pt] CONDITIONAL RANDOM FIELD
[en] MACHINE LEARNING
[en] SPREADSHEET
[en] HTML TABLES
[en] TABULAR DATA
[en] CONDITIONAL RANDOM FIELD
topic [pt] APRENDIZADO DE MAQUINA
[pt] PLANILHA
[pt] TABELA HTML
[pt] DADOS TABULARES
[pt] CONDITIONAL RANDOM FIELD
[en] MACHINE LEARNING
[en] SPREADSHEET
[en] HTML TABLES
[en] TABULAR DATA
[en] CONDITIONAL RANDOM FIELD
description [pt] Tabelas são uma forma bastante comum de organizar e publicar dados. Por exemplo, a Web possui um enorme número de tabelas publicadas em HTML, embutidas em documentos em PDF, ou que podem ser simplesmente baixadas de páginas Web. Porém, tabelas nem sempre são fáceis de interpretar pois possuem uma grande variedade de características e são organizadas de diversas formas. De fato, um grande número de métodos e ferramentas foram desenvolvidos para interpretação de tabelas. Esta dissertação apresenta a implementação de um algoritmo, baseado em Conditional Random Fields (CRFs), para classificar as linhas de uma tabela em linhas de cabeçalho, linhas de dados e linhas de metadados. A implementação é complementada por dois algoritmos para reconhecimento de tabelas em planilhas, respectivamente baseados em regras e detecção de regiões. Por fim, a dissertação descreve os resultados e os benefícios obtidos pela aplicação dos algoritmos a tabelas em formato HTML, obtidas da Web, e a tabelas em forma de planilhas, baixadas do Web site da Agência Nacional de Petróleo.
publishDate 2020
dc.date.none.fl_str_mv 2020-06-26
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/other
format other
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48789@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48789@2
http://doi.org/10.17771/PUCRio.acad.48789
url https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48789@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48789@2
http://doi.org/10.17771/PUCRio.acad.48789
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv MAXWELL
publisher.none.fl_str_mv MAXWELL
dc.source.none.fl_str_mv reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)
instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron:PUC_RIO
instname_str Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str PUC_RIO
institution PUC_RIO
reponame_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_ 1814822622292082688