Combining data and text mining techniques for automatic analysis of financial reports
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://hdl.handle.net/1822/79952 |
Resumo: | Dissertação de mestrado em Computer Science and Engineering |
id |
RCAP_286045ad4e87bd0271649370ac9330b8 |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/79952 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Combining data and text mining techniques for automatic analysis of financial reportsData scienceFinancial performance predictionNatural language processingReadability evaluationStock marketsAvaliação da legibilidadeCiência de DadosMercado de açõesPrevisão do desempenho financeiroProcessamento de linguagem naturalEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em Computer Science and EngineeringThe application of Data Science techniques, specifically Natural Language Process ing (NLP) and Machine Learning, in financial markets is of immense interest to in vestors, as these techniques can have a potential economic impact. In particular, stock markets represent an opportunity that has been exploited in several ways, such as us ing market opinions (e.g., news, blogs) to predict the direction of price movement or even volatility. This study analyses the 10-K documents of the S&P 100 index for 10 years (2008-2017), which contains the 102 largest companies in the United States of America. The 10-K is an annual financial report required by the United States Securities and Ex change Commission (SEC), which describes the financial performance of a company. Recent research suggests that the readability of a company’s 10-K text document may influence its future financial performance, since the way the market perceives textual information also depends on the readability of that text. In this sense, this work aims to understand the relationship between 48 readability metrics applied to these reports and the corresponding future financial performance of these companies. A clustering approach was applied over these readability metrics, aiming to identify distinct and valuable readability clusters. As an external evaluation, we assessed the information value of the clusters by analyzing 3 future crash risk metrics, that are often used to assess the companies’ financial performance.A aplicação das técnicas de Ciência de Dados, especificamente Processamento de Linguagem Natural e Machine Learning, nos mercados financeiros é de imenso interesse para os investidores, uma vez que podem ter um potencial impacto económico. Em particular, os mercados de ações representam uma oportunidade que tem sido explorada de várias formas, como no uso de informações de mercado (por exemplo notícias, blogs) para prever a direção do movimento dos preços ou mesmo o movimento da volatilidade. Este estudo analisa os documentos io-K do índice S&P 100 durante 10 anos (20°8- 2017), que contém as ioz maiores empresas dos Estados Unidos da América. O 10-K é um relatório financeiro anual exigido pela Comissão de Valores Mobiliários dos Estados Unidos (SEC), que descreve o desempenho financeiro de uma empresa. Pesquisas recentes sugerem que a legibilidade do documento de texto 10-K de uma empresa pode influenciar o seu desempenho financeiro futuro, uma vez que a forma como o mercado perceciona as informações textuais também depende da legibilidade desse texto. Neste sentido, este trabalho visa compreender a relação entre 48 métricas de legibilidade aplicadas a esses relatórios e o desempenho financeiro futuro correspondente dessas empresas. Uma abordagem de agrupamento de dados foi aplicada nestas métricas de legibilidade, com o objetivo de identificar grupos de legibilidade distintos e relevantes. Com uma avaliação externa, avaliamos o valor das informações desses grupos analisando três métricas de crash risk futuro, que são frequentemente usadas para avaliar o desempenho financeiro das empresas.Cortez, PauloAreal, NelsonUniversidade do MinhoPinto, Marcelo Queirós2020-01-092020-01-09T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/79952eng203018141info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-12-09T01:19:42Zoai:repositorium.sdum.uminho.pt:1822/79952Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T18:50:34.524060Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Combining data and text mining techniques for automatic analysis of financial reports |
title |
Combining data and text mining techniques for automatic analysis of financial reports |
spellingShingle |
Combining data and text mining techniques for automatic analysis of financial reports Pinto, Marcelo Queirós Data science Financial performance prediction Natural language processing Readability evaluation Stock markets Avaliação da legibilidade Ciência de Dados Mercado de ações Previsão do desempenho financeiro Processamento de linguagem natural Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
title_short |
Combining data and text mining techniques for automatic analysis of financial reports |
title_full |
Combining data and text mining techniques for automatic analysis of financial reports |
title_fullStr |
Combining data and text mining techniques for automatic analysis of financial reports |
title_full_unstemmed |
Combining data and text mining techniques for automatic analysis of financial reports |
title_sort |
Combining data and text mining techniques for automatic analysis of financial reports |
author |
Pinto, Marcelo Queirós |
author_facet |
Pinto, Marcelo Queirós |
author_role |
author |
dc.contributor.none.fl_str_mv |
Cortez, Paulo Areal, Nelson Universidade do Minho |
dc.contributor.author.fl_str_mv |
Pinto, Marcelo Queirós |
dc.subject.por.fl_str_mv |
Data science Financial performance prediction Natural language processing Readability evaluation Stock markets Avaliação da legibilidade Ciência de Dados Mercado de ações Previsão do desempenho financeiro Processamento de linguagem natural Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
topic |
Data science Financial performance prediction Natural language processing Readability evaluation Stock markets Avaliação da legibilidade Ciência de Dados Mercado de ações Previsão do desempenho financeiro Processamento de linguagem natural Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
description |
Dissertação de mestrado em Computer Science and Engineering |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-01-09 2020-01-09T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1822/79952 |
url |
https://hdl.handle.net/1822/79952 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
203018141 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799132275162480640 |