Estudo e Comparação de Técnicas de Segmentação de Textos em Imagens

Nome: Bruno Légora Souza da Silva
Tipo: Dissertação de mestrado acadêmico
Data de publicação: 08/12/2016
Orientador:

Nomeordem decrescente Papel
Patrick Marques Ciarelli Orientador

Banca:

Nomeordem decrescente Papel
Kelly Assis de Souza Gazolli Examinador Externo
Klaus Fabian Coco Examinador Externo
Patrick Marques Ciarelli Orientador

Resumo: Localização de texto em imagens do mundo real é um problema muito abordado na atualidade, já que pode ser empregado em diversas aplicações, como geolocalização, indexação de imagens, identificação de produtos através de seus rótulos e auxílio aos deficientes visuais, melhorando a qualidade de vida destes. Atualmente, existem diversas pesquisas nesta área, além de uma competição realizada na International Conference of Document Analysis and Recognition para acompanhar os avanços destas, o que mostra relevância da área. Este trabalho apresenta técnicas de segmentação de texto em imagens do mundo real, onde texto ocorre de diversas formas, orientações e tamanhos. Tais técnicas são baseadas em análise de componentes conectados, utilizando detecção de bordas ou técnicas como as Maximally Stable Extremal Regions ou a técnica FASText, que encontra keypoints baseado no detector FAST, baseadas em janelas deslizantes ou a combinação destas duas abordagens. Uma comparação experimental de três diferentes técnicas de segmentação de texto é feita. Estas possuem um custo computacional reduzido, de modo que não causem um grande impacto no custo computacional de um sistema que as usem. Para esta comparação, três bases de dados são utilizadas: as duas divisões da base de dados da competição ICDAR 2013 e a base KAIST Scene Text, analisando métricas como área de texto extraída, tempo de processamento, número de caracteres sem segmentação e a imprecisão do detector, definida como a razão entre o número de segmentações e a quantidade de caracteres presentes na base de dados. Os resultados obtidos nas bases mostraram que todas as técnicas analisadas obtiveram uma boa segmentação nas bases de dados, quando as imagens apresentavam caracteres bem definidos, sem problemas de iluminação, oclusão ou caracteres muito pequenos. Em imagens que apresentam estes últimos, as técnicas analisadas obtiveram seu desempenho prejudicado.

Acesso ao documento

Acesso à informação
Transparência Pública

© 2013 Universidade Federal do Espírito Santo. Todos os direitos reservados.
Av. Fernando Ferrari, 514 - Goiabeiras, Vitória - ES | CEP 29075-910