Combining data and text mining techniques for automatic analysis of financial reports

Detalhes bibliográficos
Autor(a) principal: Pinto, Marcelo Queirós
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/79952
Resumo: Dissertação de mestrado em Computer Science and Engineering
id RCAP_286045ad4e87bd0271649370ac9330b8
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/79952
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Combining data and text mining techniques for automatic analysis of financial reportsData scienceFinancial performance predictionNatural language processingReadability evaluationStock marketsAvaliação da legibilidadeCiência de DadosMercado de açõesPrevisão do desempenho financeiroProcessamento de linguagem naturalEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em Computer Science and EngineeringThe application of Data Science techniques, specifically Natural Language Process ing (NLP) and Machine Learning, in financial markets is of immense interest to in vestors, as these techniques can have a potential economic impact. In particular, stock markets represent an opportunity that has been exploited in several ways, such as us ing market opinions (e.g., news, blogs) to predict the direction of price movement or even volatility. This study analyses the 10-K documents of the S&P 100 index for 10 years (2008-2017), which contains the 102 largest companies in the United States of America. The 10-K is an annual financial report required by the United States Securities and Ex change Commission (SEC), which describes the financial performance of a company. Recent research suggests that the readability of a company’s 10-K text document may influence its future financial performance, since the way the market perceives textual information also depends on the readability of that text. In this sense, this work aims to understand the relationship between 48 readability metrics applied to these reports and the corresponding future financial performance of these companies. A clustering approach was applied over these readability metrics, aiming to identify distinct and valuable readability clusters. As an external evaluation, we assessed the information value of the clusters by analyzing 3 future crash risk metrics, that are often used to assess the companies’ financial performance.A aplicação das técnicas de Ciência de Dados, especificamente Processamento de Linguagem Natural e Machine Learning, nos mercados financeiros é de imenso interesse para os investidores, uma vez que podem ter um potencial impacto económico. Em particular, os mercados de ações representam uma oportunidade que tem sido explorada de várias formas, como no uso de informações de mercado (por exemplo notícias, blogs) para prever a direção do movimento dos preços ou mesmo o movimento da volatilidade. Este estudo analisa os documentos io-K do índice S&P 100 durante 10 anos (20°8- 2017), que contém as ioz maiores empresas dos Estados Unidos da América. O 10-K é um relatório financeiro anual exigido pela Comissão de Valores Mobiliários dos Estados Unidos (SEC), que descreve o desempenho financeiro de uma empresa. Pesquisas recentes sugerem que a legibilidade do documento de texto 10-K de uma empresa pode influenciar o seu desempenho financeiro futuro, uma vez que a forma como o mercado perceciona as informações textuais também depende da legibilidade desse texto. Neste sentido, este trabalho visa compreender a relação entre 48 métricas de legibilidade aplicadas a esses relatórios e o desempenho financeiro futuro correspondente dessas empresas. Uma abordagem de agrupamento de dados foi aplicada nestas métricas de legibilidade, com o objetivo de identificar grupos de legibilidade distintos e relevantes. Com uma avaliação externa, avaliamos o valor das informações desses grupos analisando três métricas de crash risk futuro, que são frequentemente usadas para avaliar o desempenho financeiro das empresas.Cortez, PauloAreal, NelsonUniversidade do MinhoPinto, Marcelo Queirós2020-01-092020-01-09T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/79952eng203018141info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-12-09T01:19:42Zoai:repositorium.sdum.uminho.pt:1822/79952Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T18:50:34.524060Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Combining data and text mining techniques for automatic analysis of financial reports
title Combining data and text mining techniques for automatic analysis of financial reports
spellingShingle Combining data and text mining techniques for automatic analysis of financial reports
Pinto, Marcelo Queirós
Data science
Financial performance prediction
Natural language processing
Readability evaluation
Stock markets
Avaliação da legibilidade
Ciência de Dados
Mercado de ações
Previsão do desempenho financeiro
Processamento de linguagem natural
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Combining data and text mining techniques for automatic analysis of financial reports
title_full Combining data and text mining techniques for automatic analysis of financial reports
title_fullStr Combining data and text mining techniques for automatic analysis of financial reports
title_full_unstemmed Combining data and text mining techniques for automatic analysis of financial reports
title_sort Combining data and text mining techniques for automatic analysis of financial reports
author Pinto, Marcelo Queirós
author_facet Pinto, Marcelo Queirós
author_role author
dc.contributor.none.fl_str_mv Cortez, Paulo
Areal, Nelson
Universidade do Minho
dc.contributor.author.fl_str_mv Pinto, Marcelo Queirós
dc.subject.por.fl_str_mv Data science
Financial performance prediction
Natural language processing
Readability evaluation
Stock markets
Avaliação da legibilidade
Ciência de Dados
Mercado de ações
Previsão do desempenho financeiro
Processamento de linguagem natural
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Data science
Financial performance prediction
Natural language processing
Readability evaluation
Stock markets
Avaliação da legibilidade
Ciência de Dados
Mercado de ações
Previsão do desempenho financeiro
Processamento de linguagem natural
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Dissertação de mestrado em Computer Science and Engineering
publishDate 2020
dc.date.none.fl_str_mv 2020-01-09
2020-01-09T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/79952
url https://hdl.handle.net/1822/79952
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 203018141
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132275162480640