Sistema de Reconhecimento de Gestos e Ações em Tempo Real Baseado em Visão Computacional

Nome: Clebeson Canuto dos Santos
Tipo: Tese de doutorado
Data de publicação: 17/12/2020
Orientador:

Nomeordem decrescente Papel
Raquel Frizera Vassallo Orientador

Banca:

Nomeordem decrescente Papel
Alexandre José Malheiro Bernardino Examinador Externo
Douglas Almonfrey Examinador Externo
Jose Alberto Rosado dos Santos-Victor Coorientador
Jugurta Rosa Montalvão Filho Examinador Externo
Patrick Marques Ciarelli Examinador Interno
Raquel Frizera Vassallo Orientador

Resumo: Esta tese tem como objetivo investigar e propor mecanismos de reconhecimento e antecipação de gestos dinâmicos e ações baseando-se apenas em visão computacional. Três propostas objetivaram o reconhecimento de gestos: Star RGB - uma representação de movimento que condensa os frames de um vídeo em uma imagem RGB; Star iRGB - uma versão iterativa da Star RGB que pode ser usada por modelos de aprendizagem de natureza
sequencial; e Star iRGBhand - um modelo iterativo para o reconhecimento de gestos que utiliza a forma das mãos como contexto. Para a antecipação de ações, foram apresentados modelos bayesianos, baseados em redes neurais recorrentes, que usam informações de contexto para diminuir a ambiguidade entre movimentos semelhantes, além de um limiar sobre a incerteza epistêmica estimada como mecanismo de tomada de decisão quanto ao
momento da antecipação. Nesse contexto, foram propostos dois modelos para reconhecer e antecipar gestos de forma online. Todas as propostas foram validadas por meio de diversos experimentos cujos resultados foram comparados a vários baselines. Nesse sentido, foram utilizados três conjuntos de dados principais: o Montalbano, para os gestos capturados por apenas uma câmera; o IS-Gesture, para gestos capturados em um ambiente multicâmeras;
e o Acticipate, para a antecipação de ações. Os resultados alcançados com os modelos para reconhecimento de gestos foram os melhores para o conjunto Montalbano quando se consideram os trabalhos que utilizam apenas imagens RGB. Mesmo quando comparados aos modelos multimodais, baseados em CNN 3D, os resultados estão entre os melhores, ficando levemente atrás (menos de 1%) de apenas duas propostas multimodais. Na tarefa de antecipação de ações, as acurácias de reconhecimento e antecipação obtidas sobre o
Acticipate são as melhores alcançadas nesse conjunto de dados até o presente momento. Finalmente, considerando os modelos que objetivam reconhecer e antecipar os gestos de modo online, para o Montalbano, o modelo proposto também conseguiu resultados entre os melhores da literatura. Já em relação ao IS-Gesture, o qual representa o desafio de maior complexidade devido ao ambiente multicâmeras, as acurácias médias de reconhecimento e antecipação dos gestos foram consideradas satisfatórias, havendo ainda indícios claros
de onde devem ser realizadas melhorias para se atingir melhores resultados. Quanto ao tempo de execução, os modelos propostos mostraram-se viáveis para fornecer informações para uma aplicação que demanda uma taxa de atualização de até 10 FPS. Assim, é possível a utilização de tais modelos em uma aplicação interacional em tempo real, em um ambiente com uma ou várias câmeras. Em resumo, todas as propostas mostraram-se bem promissoras, além de obterem resultados que ultrapassam os principais trabalhos da literatura que abordam os conjuntos de dados anteriormente mencionados. Em tempo real, os gestos e/ou ações em um ambiente interacional real.

Acesso ao documento

Acesso à informação
Transparência Pública

© 2013 Universidade Federal do Espírito Santo. Todos os direitos reservados.
Av. Fernando Ferrari, 514 - Goiabeiras, Vitória - ES | CEP 29075-910