Reconhecimento de Ações Humanas utilizando Redes Convolucionais de Grafos e Fluxo de Ricci

Nome: MATHEUS VIEIRA LESSA RIBEIRO

Data de publicação: 05/12/2025

Banca:

Nomeordem decrescente Papel
CLEBESON CANUTO DOS SANTOS Examinador Externo
FILIPE WALL MUTZ Examinador Interno
LUCAS PASCOTTI VALEM Examinador Externo
MARCIA HELENA MOREIRA PAIVA Examinador Interno
RAQUEL FRIZERA VASSALLO Presidente

Resumo: Esta tese investiga a classificação de gestos por meio de Redes Neurais de Grafos (Graph Neural Networks – GNNs), utilizando as coordenadas tridimensionais das juntas do esqueleto. O trabalho aborda desafios relacionados à propagação de informações em
estruturas de grafos, em especial o fenômeno de oversquashing, que resulta do acúmulo de informações na passagem de mensagens entre as juntas com o aumento de camadas de GNN. Para mitigar essas limitações, foi proposta uma abordagem de reconfiguração da topologia do grafo, baseada na curvatura de Ricci e na técnica Augmentations Forman- Ricci Curvature (AFRC), visando melhorar o fluxo de informações e o desempenho do modelo. A tese está estruturada em três propostas, validadas nos conjuntos de dados Chalearn e NTU RGB+D 60. A primeira investigou se as informações das juntas vizinhas contribuem para a expressividade de cada junta e a melhor arquitetura para a GNN nesses casos. A segunda proposta abordou a ocorrência do efeito de oversquashing, propondo um algoritmo baseado no AFRC com adição e remoção aleatória de arestas na topologia do
esqueleto para aumentar a capacidade descritiva do modelo. Por fim, a terceira proposta utilizou o algoritmo StarRGB como pipeline complementar aplicado aos dados das juntas. Originalmente projetado para imagens, o método foi adaptado para sintetizar a evolução temporal das juntas em múltiplos canais, gerando uma nova representação do gesto. Apesar de distintas, as três metodologias compartilham a mesma estrutura geral, composta por três blocos: Construtor de Grafos, Extrator de Características e Classificador. As juntas são conectadas segundo uma topologia e processadas por uma GNN que extrai um vetor
de características por frame. A sequência desses vetores forma uma pseudoimagem que representa a evolução temporal do gesto e é, por fim, classificada por uma Rede Neural Convolucional (Convolutioal Neural Networks – CNN). Os experimentos mostraram que a arquitetura GraphConv apresentou o melhor desempenho, embora o aumento de camadas reduza a acurácia devido ao oversquashing. O algoritmo proposto, baseado na curvatura de Ricci, mitigou esse efeito, ampliando a expressividade da rede. Além disso, o uso do StarRGB como via auxiliar aprimorou o desempenho do classificador, configurando-se como alternativa para aplicações que envolvem dados de juntas do esqueleto.

Acesso ao documento

Acesso à informação
Transparência Pública

© 2013 Universidade Federal do Espírito Santo. Todos os direitos reservados.
Av. Fernando Ferrari, 514 - Goiabeiras, Vitória - ES | CEP 29075-910