Reconhecimento de Ações Humanas utilizando Redes Convolucionais de Grafos e Fluxo de Ricci
Nome: MATHEUS VIEIRA LESSA RIBEIRO
Data de publicação: 05/12/2025
Banca:
| Nome |
Papel |
|---|---|
| CLEBESON CANUTO DOS SANTOS | Examinador Externo |
| FILIPE WALL MUTZ | Examinador Interno |
| LUCAS PASCOTTI VALEM | Examinador Externo |
| MARCIA HELENA MOREIRA PAIVA | Examinador Interno |
| RAQUEL FRIZERA VASSALLO | Presidente |
Resumo: Esta tese investiga a classificação de gestos por meio de Redes Neurais de Grafos (Graph Neural Networks – GNNs), utilizando as coordenadas tridimensionais das juntas do esqueleto. O trabalho aborda desafios relacionados à propagação de informações em
estruturas de grafos, em especial o fenômeno de oversquashing, que resulta do acúmulo de informações na passagem de mensagens entre as juntas com o aumento de camadas de GNN. Para mitigar essas limitações, foi proposta uma abordagem de reconfiguração da topologia do grafo, baseada na curvatura de Ricci e na técnica Augmentations Forman- Ricci Curvature (AFRC), visando melhorar o fluxo de informações e o desempenho do modelo. A tese está estruturada em três propostas, validadas nos conjuntos de dados Chalearn e NTU RGB+D 60. A primeira investigou se as informações das juntas vizinhas contribuem para a expressividade de cada junta e a melhor arquitetura para a GNN nesses casos. A segunda proposta abordou a ocorrência do efeito de oversquashing, propondo um algoritmo baseado no AFRC com adição e remoção aleatória de arestas na topologia do
esqueleto para aumentar a capacidade descritiva do modelo. Por fim, a terceira proposta utilizou o algoritmo StarRGB como pipeline complementar aplicado aos dados das juntas. Originalmente projetado para imagens, o método foi adaptado para sintetizar a evolução temporal das juntas em múltiplos canais, gerando uma nova representação do gesto. Apesar de distintas, as três metodologias compartilham a mesma estrutura geral, composta por três blocos: Construtor de Grafos, Extrator de Características e Classificador. As juntas são conectadas segundo uma topologia e processadas por uma GNN que extrai um vetor
de características por frame. A sequência desses vetores forma uma pseudoimagem que representa a evolução temporal do gesto e é, por fim, classificada por uma Rede Neural Convolucional (Convolutioal Neural Networks – CNN). Os experimentos mostraram que a arquitetura GraphConv apresentou o melhor desempenho, embora o aumento de camadas reduza a acurácia devido ao oversquashing. O algoritmo proposto, baseado na curvatura de Ricci, mitigou esse efeito, ampliando a expressividade da rede. Além disso, o uso do StarRGB como via auxiliar aprimorou o desempenho do classificador, configurando-se como alternativa para aplicações que envolvem dados de juntas do esqueleto.
