Developing reliability metrics and validation tools for datasets with deep linguistic information
Autor(a) principal: | |
---|---|
Data de Publicação: | 2011 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10451/8688 |
Resumo: | Tese de mestrado em Engenharia Informática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2011 |
id |
RCAP_db5b66542257a24cc2b2798a448d5eda |
---|---|
oai_identifier_str |
oai:repositorio.ul.pt:10451/8688 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Developing reliability metrics and validation tools for datasets with deep linguistic informationProcessamento de linguagem naturalTaxa de concordância entre anotadoresAnotação de corpora com informação gramatical profundaTeses de mestrado - 2011Tese de mestrado em Engenharia Informática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2011Grande parte das ferramentas de processamento de linguagem natural utilizadas hoje em dia, desde os anotadores morfossintácticos (POS taggers) até aos analisadores sintáticos (parsers), necessita de corpora anotados com a informação linguística necessária para efeitos de treino e avaliação. A qualidade dos resultados obtidos por estas ferramentas está directamente ligada à qualidade dos corpora utilizados no seu treino ou avaliação. Como tal, é do mais alto interesse construir corpora anotados para treino ou avaliação com o maior nível de qualidade. Tal como as técnicas e as ferramentas da área do processamento de linguagem natural se vão tornando mais sofisticadas e tecnicamente mais complexas, também a quantidade e profundidade da informação contida nos corpora anotados tem vindo a crescer. O estado da arte actual consiste em corpora anotados com informação gramatical profunda, isto é anotação que contém não só a função ou tipo de cada elemento mas também os tipos das relações entre os diferentes elementos, sejam estas directas ou de longa distância. Esta quantidade crescente de informação contida na anotação dos corpora torna a tarefa da sua anotação crescentemente mais complexa, daí existir a necessidade de garantir que este processo resulta em corpora da melhor qualidade possível. No seguimento desta crescente complexidade, as técnicas utilizadas para o processo de anotação também tem sofrido alterações. A quantidade de informação a ser introduzida no corpus é demasiado complexa para ser introduzida manualmente, portanto este processo é agora conduzido por uma gramática computacional, que produz todas as possíveis representações gramaticais para cada frase, e de seguida um ou mais anotadores humanos escolhem a representação gramatical que melhor se aplica a frase em questão. Este processo garante uma uniformidade no formato da anotação, bem como consistência total nas etiquetas utilizadas, problemas recorrentes em corpus anotados manualmente. O objectivo desta dissertação é o de identificar um método ou uma métrica que possibilite a avaliação da tarefa de anotação de corpora com informação gramatical profunda, bem como uma aplicação que permita a recolha dos dados necessários referentes à tarefa de anotação, e que calcule a métrica ou métricas necessárias para validação e avaliação da tarefa. Com este objectivo em mente, foi inicialmente explorado o trabalho de fundo da tarefa de anotação, tanto na vertente linguística como na vertente de processamento de linguagem natural. Na vertente linguística, devem ser realçadas algumas noções base, tais como a de corpus, que se trata de um acervo de material linguístico originário de múltiplas fontes, tais como emissões de rádio, imprensa escrita e até conversas do dia-a-dia. Um corpus anotado é um corpus em que o material foi explicitamente enriquecido com informação linguística que é implícita para um falante nativo da língua, com o objectivo de auxiliar ao processamento do material por parte de máquinas. A anotação de corpus por parte do grupo NLX está a ser feita recorrendo a um esquema de anotação duplamente cego, em que dois anotadores escolhem de um conjunto de possíveis representações gramaticais atribuídas a cada frase pela gramática LXGram, a que para si é a mais correcta. Estas representações são posteriormente adjudicadas por um terceiro anotador. O resultado desta adjudicação é a representação que integra o corpus anotado. O foco deste trabalho é o de avaliar a qualidade e fiabilidade do material resultante deste processo de anotação. O processo de anotação pode ser visto como o processo de atribuição de categorias a itens, neste caso, a atribuição de categorias ou informação linguística a palavras ou multi-palavras de uma frase. Neste caso concreto, dada uma lista de discriminantes semânticos, os anotadores devem decidir quais pertencem ou não à melhor representação gramatical de uma dada frase. Na literatura, existem várias abordagens para a avaliação de anotação com esquemas de anotação simples, por exemplo, com anotação morfossintáctica (POS tagging), como é o caso do Cohen’s Kappa (Cohen, 1960), ou k, e suas variantes, tais como o S (Bennett et al., 1954), _ (Scott, 1955) ou o próprio k. Todas estas métricas se baseiam na mesma ideia de que a taxa de concordância entre anotadores (inter-annotator agreement) pode ser calculada tendo em conta dois valores: a concordância observada (Ae), isto é a quantidade de informação em relação à qual os anotadores concordam; e a concordância esperada (Ao), ou seja a quantidade de informação que se esperaria obter entre os anotadores se a anotação fosse feita aleatoriamente. Todas as métricas derivadas directamente do Cohen’s Kappa, calculam também a taxa de concordância da mesma forma, recorrendo à fórmula: concordância = Ao–Ae 1–Ae. O ponto de divergência entre as diferentes abordagens está na maneira de calcular a taxa de concordância esperada. Estas divergências consistem na representação da taxa de concordância esperada através de diferentes distribuições estatísticas. Existe outro tipo de métricas, normalmente utilizado para a avaliação de análises sintáticas que também são aplicadas neste tipo de tarefa. Métricas como são o caso do Parseval (Black et al., 1991) e do Leaf Ancestor (Sampson and Babarczy, 2003) que frase a frase comparam a análise sintática dada pelo analisador sintático automático com um padrão dourado (análise sintática considerada correcta para a frase). Contudo, a complexidade da tarefa a ser avaliada exige não só uma métrica sólida, mas também que a sua granularidade seja suficiente para distinguir pequenas divergências que podem sustentar resultados que aparentam ser contraditórios. Tendo em conta a tarefa a ser avaliada, a abordagem mais granular possível é a que consiste em comparar individualmente cada decisão sobre cada discriminante para uma dada frase. Portanto, visto que o objectivo é obter a maior granularidade possível, para a métrica desenvolvida Y-Option Kappa, a taxa de acordo observado pode ser calculada pela razão entre o número de discriminantes com decisões idênticas, ou opções, e o número total de discriminantes disponíveis para uma dada frase. Como cada discriminantes tem dois valores possíveis, isto é, ou pertence ou não à melhor representação gramatical, a taxa de concordância esperada pode ser considerada uma distribuição uniforme de decisões binárias, o que significa que o acordo esperado para caso de decisão aleatória será 0,5. A métrica Y-Option Kappa é calculada através da mesma fórmula utilizada pelo Cohen’s K e suas variantes. A tarefa de anotação é auxiliada por um pacote de ferramentas linguísticas designado LOGON, pacote este que permite a anotação dinâmica de corpus, isto é as frases são analisadas dinamicamente pela gramática computacional conforme as decisões sobre os discriminantes são tomadas pelos anotadores. Isto permite ter acesso às representações gramaticais resultantes, possibilitando assim uma melhor percepção do resultado das decisões tomadas. A informação resultante do processo de anotação é guardada em ficheiros de log que podem ser utilizados para reconstruir a representação gramatical resultante para a frase. Este pacote é bastante útil e fornece uma ajuda preciosa no processo de anotação. Contudo, os ficheiros de log guardam apenas a informação necessária para a reconstrução da representação gramatical final, o que resulta numa lista de discriminantes que pode ser incompleta para os propósitos de avaliação do processo de anotação. Por exemplo, quando um anotador rejeita uma frase, ou seja, considera que não existe no conjunto possível de representações gramaticais uma que seja considerada correcta, apenas os discriminantes considerados até ao momento da rejeição são registados no ficheiro de log. Para resolver este problema, algumas adaptações tiveram de ser feitas à ideia original da métrica Y-Options K para que esta fosse aplicável aos dados recolhidos. Existem três casos gerais que resultam em conjuntos de informação concretos nos ficheiros de log. Estes três casos são: • Cada anotador aceita uma representação gramatical como óptima para a frase: Todas as opções estão presentes e podem ser comparadas correctamente • Pelo menos um dos anotadores rejeita qualquer representação gramatical para a frase: Existe apenas uma lista parcial das opções tomadas (para esse anotador). Para resolver estes casos, são estimados sobre os casos em que toda a informação está disponível valores médios que são depois aplicados a casos em que a informação não esteja disponível. A métrica é assim calculada frase a frase, e o resultado final apresentado é a média aritmética da métrica para todas as frases. Foi desenvolvida uma aplicação que permite através dos ficheiros de log determinar o valor da métrica, bem como alguma informação adicional para auxílio da tarefa de adjudicação. Um objectivo futuro seria o de alterar as aplicações do pacote LOGON, mais concretamente o [incr tsdb()] de modo a que este guarde todos os discriminantes para cada frase, podendo assim dispensar o cálculo de estimativas.The purpose of this dissertation is to propose a reliability metric and respective validation tools for corpora annotated with deep linguistic information. The annotation of corpus with deep linguistic information is a complex task, and therefore is aided by a computational grammar. This grammar generates all the possible grammatical representations for sentences. The human annotators select the most correct analysis for each sentence, or reject it if no suitable representation is achieved. This task is repeated by two human annotators under a double-blind annotation scheme and the resulting annotations are adjudicated by a third annotator. This process should result in reliable datasets since the main purpose of this dataset is to be the training and validation data for other natural language processing tools. Therefore it is necessary to have a metric that assures such reliability and quality. In most cases, the metrics uses for shallow annotation or parser evaluation have been used for this same task. However the increased complexity demands a better granularity in order to properly measure the reliability of the dataset. With that in mind, I suggest the usage of a metric based on the Cohen’s Kappa metric that instead of considering the assignment of tags to parts of the sentence, considers the decision at the level of the semantic discriminants, the most granular unit available for this task. By comparing each annotator’s options it is possible to evaluate with a high degree of granularity how close their analysis were for any given sentence. An application was developed that allowed the application of this model to the data resulting from the annotation process which was aided by the LOGON framework. The output of this application not only has the metric for the annotated dataset, but some information related with divergent decision with the intent of aiding the adjudication process.Branco, António Manuel Horta, 1963-Repositório da Universidade de LisboaCastro, Sérgio Ricardo de, 1981-2013-06-26T12:04:52Z20112011-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/8688enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T15:52:34Zoai:repositorio.ul.pt:10451/8688Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:33:06.208686Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Developing reliability metrics and validation tools for datasets with deep linguistic information |
title |
Developing reliability metrics and validation tools for datasets with deep linguistic information |
spellingShingle |
Developing reliability metrics and validation tools for datasets with deep linguistic information Castro, Sérgio Ricardo de, 1981- Processamento de linguagem natural Taxa de concordância entre anotadores Anotação de corpora com informação gramatical profunda Teses de mestrado - 2011 |
title_short |
Developing reliability metrics and validation tools for datasets with deep linguistic information |
title_full |
Developing reliability metrics and validation tools for datasets with deep linguistic information |
title_fullStr |
Developing reliability metrics and validation tools for datasets with deep linguistic information |
title_full_unstemmed |
Developing reliability metrics and validation tools for datasets with deep linguistic information |
title_sort |
Developing reliability metrics and validation tools for datasets with deep linguistic information |
author |
Castro, Sérgio Ricardo de, 1981- |
author_facet |
Castro, Sérgio Ricardo de, 1981- |
author_role |
author |
dc.contributor.none.fl_str_mv |
Branco, António Manuel Horta, 1963- Repositório da Universidade de Lisboa |
dc.contributor.author.fl_str_mv |
Castro, Sérgio Ricardo de, 1981- |
dc.subject.por.fl_str_mv |
Processamento de linguagem natural Taxa de concordância entre anotadores Anotação de corpora com informação gramatical profunda Teses de mestrado - 2011 |
topic |
Processamento de linguagem natural Taxa de concordância entre anotadores Anotação de corpora com informação gramatical profunda Teses de mestrado - 2011 |
description |
Tese de mestrado em Engenharia Informática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2011 |
publishDate |
2011 |
dc.date.none.fl_str_mv |
2011 2011-01-01T00:00:00Z 2013-06-26T12:04:52Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10451/8688 |
url |
http://hdl.handle.net/10451/8688 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799134224478896128 |