Implementação de recuperação por retorno de aplicações distribuídas baseada em checkpoints coordenados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2005 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/5018 |
Resumo: | A recuperação por retorno baseada em checkpointing é largamente usada como técnica de tolerância a falhas. O modelo complexo de sistemas distribuídos tem motivado o desenvolvimento de diversos algoritmos na tentativa de encontrar soluções mais simples e eficientes. Os processos que formam o sistema distribuído podem coordenar suas operações para garantir que o conjunto de checkpoints locais componha um estado global consistente (linha de recuperação). A partir desse estado, no caso de ocorrência de falhas, o sistema pode ser recuperado e a computação retomada a partir de um momento anterior ao da manifestação da falha, evitando o retrocesso para o estado inicial da computação e prevenindo a ocorrência de prejuízos com a perda de todo processamento até então realizado. No Grupo de Tolerância a Falhas da UFRGS foi proposto recentemente um algoritmo que é voltado para aplicações que executam em sistemas distribuídos assíncronos que se comunicam exclusivamente pela troca de mensagens. Ele opera com salvamento coordenado de checkpoints (não bloqueando as aplicações) e prevê o tratamento de mensagens órfãs e perdidas. Os mecanismos do algoritmo sugerem que nenhuma alteração deveria ser realizada no código das aplicações, criando a possibilidade de implementação transparente sob o ponto de vista dos usuários e dos programadores das aplicações. Como o algoritmo não requer o bloqueio das aplicações, a sobrecarga imposta pelos mecanismos à execução livre de falhas é pequena. Além disso, o processo de recuperação tende a ser efetuado rapidamente, uma vez que é garantida a existência de uma linha de recuperação consistente, facilmente identificada Este trabalho apresenta as decisões de projeto, a implementação, os resultados e a avaliação de desempenho desse algoritmo. A avaliação das alternativas de implementação resultou na decisão de uma implementação então realizada diretamente sobre o sistema operacional Linux, sem recorrer a protocolos auxiliares para garantir a execução dos serviços e sem a necessidade de adaptações no código das aplicações nem no código do sistema operacional. Adicionalmente, os resultados comprovaram a expectativa inicial de que o algoritmo causaria pouca sobrecarga no sistema (menos de 2%), embora ele ainda apresente alta dependência do tamanho dos checkpoints salvos. |
id |
URGS_4ad69ca80b72ebfb2993450447ee7fbf |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/5018 |
network_acronym_str |
URGS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
repository_id_str |
1853 |
spelling |
Buligon, ClairtonJansch-Porto, Ingrid Eleonora SchreiberCechin, Sergio Luis2007-06-06T17:41:48Z2005http://hdl.handle.net/10183/5018000507940A recuperação por retorno baseada em checkpointing é largamente usada como técnica de tolerância a falhas. O modelo complexo de sistemas distribuídos tem motivado o desenvolvimento de diversos algoritmos na tentativa de encontrar soluções mais simples e eficientes. Os processos que formam o sistema distribuído podem coordenar suas operações para garantir que o conjunto de checkpoints locais componha um estado global consistente (linha de recuperação). A partir desse estado, no caso de ocorrência de falhas, o sistema pode ser recuperado e a computação retomada a partir de um momento anterior ao da manifestação da falha, evitando o retrocesso para o estado inicial da computação e prevenindo a ocorrência de prejuízos com a perda de todo processamento até então realizado. No Grupo de Tolerância a Falhas da UFRGS foi proposto recentemente um algoritmo que é voltado para aplicações que executam em sistemas distribuídos assíncronos que se comunicam exclusivamente pela troca de mensagens. Ele opera com salvamento coordenado de checkpoints (não bloqueando as aplicações) e prevê o tratamento de mensagens órfãs e perdidas. Os mecanismos do algoritmo sugerem que nenhuma alteração deveria ser realizada no código das aplicações, criando a possibilidade de implementação transparente sob o ponto de vista dos usuários e dos programadores das aplicações. Como o algoritmo não requer o bloqueio das aplicações, a sobrecarga imposta pelos mecanismos à execução livre de falhas é pequena. Além disso, o processo de recuperação tende a ser efetuado rapidamente, uma vez que é garantida a existência de uma linha de recuperação consistente, facilmente identificada Este trabalho apresenta as decisões de projeto, a implementação, os resultados e a avaliação de desempenho desse algoritmo. A avaliação das alternativas de implementação resultou na decisão de uma implementação então realizada diretamente sobre o sistema operacional Linux, sem recorrer a protocolos auxiliares para garantir a execução dos serviços e sem a necessidade de adaptações no código das aplicações nem no código do sistema operacional. Adicionalmente, os resultados comprovaram a expectativa inicial de que o algoritmo causaria pouca sobrecarga no sistema (menos de 2%), embora ele ainda apresente alta dependência do tamanho dos checkpoints salvos.application/pdfporSistemas distribuídosAlgoritmos computacionaisRecuperacao : ProcessosTolerancia : FalhasImplementação de recuperação por retorno de aplicações distribuídas baseada em checkpoints coordenadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2005.mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000507940.pdf000507940.pdfTexto completoapplication/pdf729060http://www.lume.ufrgs.br/bitstream/10183/5018/1/000507940.pdf617a7a70d2ecca81106236ceeb872933MD51TEXT000507940.pdf.txt000507940.pdf.txtExtracted Texttext/plain315369http://www.lume.ufrgs.br/bitstream/10183/5018/2/000507940.pdf.txt071752022ca21c2191c2ccdf92a84472MD52THUMBNAIL000507940.pdf.jpg000507940.pdf.jpgGenerated Thumbnailimage/jpeg1095http://www.lume.ufrgs.br/bitstream/10183/5018/3/000507940.pdf.jpg9e59102036f701a46b30153e3623f854MD5310183/50182022-02-22 05:13:44.825435oai:www.lume.ufrgs.br:10183/5018Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532022-02-22T08:13:44Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Implementação de recuperação por retorno de aplicações distribuídas baseada em checkpoints coordenados |
title |
Implementação de recuperação por retorno de aplicações distribuídas baseada em checkpoints coordenados |
spellingShingle |
Implementação de recuperação por retorno de aplicações distribuídas baseada em checkpoints coordenados Buligon, Clairton Sistemas distribuídos Algoritmos computacionais Recuperacao : Processos Tolerancia : Falhas |
title_short |
Implementação de recuperação por retorno de aplicações distribuídas baseada em checkpoints coordenados |
title_full |
Implementação de recuperação por retorno de aplicações distribuídas baseada em checkpoints coordenados |
title_fullStr |
Implementação de recuperação por retorno de aplicações distribuídas baseada em checkpoints coordenados |
title_full_unstemmed |
Implementação de recuperação por retorno de aplicações distribuídas baseada em checkpoints coordenados |
title_sort |
Implementação de recuperação por retorno de aplicações distribuídas baseada em checkpoints coordenados |
author |
Buligon, Clairton |
author_facet |
Buligon, Clairton |
author_role |
author |
dc.contributor.author.fl_str_mv |
Buligon, Clairton |
dc.contributor.advisor1.fl_str_mv |
Jansch-Porto, Ingrid Eleonora Schreiber |
dc.contributor.advisor-co1.fl_str_mv |
Cechin, Sergio Luis |
contributor_str_mv |
Jansch-Porto, Ingrid Eleonora Schreiber Cechin, Sergio Luis |
dc.subject.por.fl_str_mv |
Sistemas distribuídos Algoritmos computacionais Recuperacao : Processos Tolerancia : Falhas |
topic |
Sistemas distribuídos Algoritmos computacionais Recuperacao : Processos Tolerancia : Falhas |
description |
A recuperação por retorno baseada em checkpointing é largamente usada como técnica de tolerância a falhas. O modelo complexo de sistemas distribuídos tem motivado o desenvolvimento de diversos algoritmos na tentativa de encontrar soluções mais simples e eficientes. Os processos que formam o sistema distribuído podem coordenar suas operações para garantir que o conjunto de checkpoints locais componha um estado global consistente (linha de recuperação). A partir desse estado, no caso de ocorrência de falhas, o sistema pode ser recuperado e a computação retomada a partir de um momento anterior ao da manifestação da falha, evitando o retrocesso para o estado inicial da computação e prevenindo a ocorrência de prejuízos com a perda de todo processamento até então realizado. No Grupo de Tolerância a Falhas da UFRGS foi proposto recentemente um algoritmo que é voltado para aplicações que executam em sistemas distribuídos assíncronos que se comunicam exclusivamente pela troca de mensagens. Ele opera com salvamento coordenado de checkpoints (não bloqueando as aplicações) e prevê o tratamento de mensagens órfãs e perdidas. Os mecanismos do algoritmo sugerem que nenhuma alteração deveria ser realizada no código das aplicações, criando a possibilidade de implementação transparente sob o ponto de vista dos usuários e dos programadores das aplicações. Como o algoritmo não requer o bloqueio das aplicações, a sobrecarga imposta pelos mecanismos à execução livre de falhas é pequena. Além disso, o processo de recuperação tende a ser efetuado rapidamente, uma vez que é garantida a existência de uma linha de recuperação consistente, facilmente identificada Este trabalho apresenta as decisões de projeto, a implementação, os resultados e a avaliação de desempenho desse algoritmo. A avaliação das alternativas de implementação resultou na decisão de uma implementação então realizada diretamente sobre o sistema operacional Linux, sem recorrer a protocolos auxiliares para garantir a execução dos serviços e sem a necessidade de adaptações no código das aplicações nem no código do sistema operacional. Adicionalmente, os resultados comprovaram a expectativa inicial de que o algoritmo causaria pouca sobrecarga no sistema (menos de 2%), embora ele ainda apresente alta dependência do tamanho dos checkpoints salvos. |
publishDate |
2005 |
dc.date.issued.fl_str_mv |
2005 |
dc.date.accessioned.fl_str_mv |
2007-06-06T17:41:48Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/5018 |
dc.identifier.nrb.pt_BR.fl_str_mv |
000507940 |
url |
http://hdl.handle.net/10183/5018 |
identifier_str_mv |
000507940 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/5018/1/000507940.pdf http://www.lume.ufrgs.br/bitstream/10183/5018/2/000507940.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/5018/3/000507940.pdf.jpg |
bitstream.checksum.fl_str_mv |
617a7a70d2ecca81106236ceeb872933 071752022ca21c2191c2ccdf92a84472 9e59102036f701a46b30153e3623f854 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
_version_ |
1810085047512858624 |