Detecção de Novidades em Mídias Sociais pela Fusão de Texto e Imagem em uma Única Estrutura de Dados
Nome: MARTA TALITHA CARVALHO FREIRE MENDES
Tipo: Tese de doutorado
Data de publicação: 17/08/2020
Orientador:
Nome | Papel |
---|---|
PATRICK MARQUES CIARELLI | Orientador |
Banca:
Nome | Papel |
---|---|
ADRIÃO DUARTE DÓRIA NETO | Examinador Externo |
CLAUDINE SANTOS BADUE | Examinador Externo |
ELIAS SILVA DE OLIVEIRA | Examinador Externo |
LUIZ ALBERTO PINTO | Examinador Externo |
PATRICK MARQUES CIARELLI | Orientador |
Resumo: As mídias sociais têm desempenhado um papel muito importante na detecção de novidades ou eventos, pois se mostram vastamente disponíveis, além de possibilitarem rápida propagação de diversos tipos de informações. Contudo, os dados são não estruturados, então surge o desafio de minerar eventos
em uma grande massa de dados que está constantemente em crescimento. Diante disso, é necessário não apenas identificar informações, mas também detectar as informações mais relevantes. A relevância de uma
informação pode estar relacionada com vários aspectos e características das aplicações, tais como: temporal, audiência, contexto, entre outras. Tais aplicações procuram identificar padrões novos ou não familiares em conjuntos de dados, alguns exemplos são: cobertura de notícias, tendência de produtos,
comportamentos suspeitos em mídias sociais para detecção de crimes, entre outras. Esta pesquisa propõe duas novas arquiteturas de detecção de novidades em dados de redes sociais, baseadas em três pilares: fusão de dados, janelas temporais e um modelo para qualificar a audiência da novidade. Ambas as arquiteturas possuem em comum os seguintes pipelines: codificação, fusão e detecção. A codificação utiliza redes neurais para representar os dados não estruturados em vetores densos. A fusão transforma distintas estruturas de dados em uma única estrutura ou faz a combinação das pontuações (ou
probabilidades) na saída dos classificadores. A detecção utiliza algoritmos não supervisionados para
identificar as novidades.
A principal diferença entre as duas arquiteturas está na fusão. A primeira arquitetura realiza a fusão dos
dados na entrada dos algoritmos não supervisionados. A segunda arquitetura realiza a fusão na saída dos
algoritmos não supervisionados. Os seguintes algoritmos não supervisionados são utilizados: HBOS, Feature
Bagging, Isolation Foresting, Autoencoders, e versões não supervisionadas do kNN e do LSTM. A principal
contribuição neste trabalho é uma abordagem baseada em redes neurais profundas que realiza fusão de
dados e detecção de novidade em dados não estruturados e heterogêneos. As inovações do trabalho estão
na criação de uma nova arquitetura para detecção de novidades das redes sociais, realizar uma nova fusão
com dados não estruturados, criação de uma base de dados com dados não estruturados para a tarefa de
detecção de novidades, e um método livre de contexto para definir o que é novidade. A etapa de
experimentos mostrou que a fusão proposta teve uma melhoria de aproximadamente 11% em relação ao
não uso da fusão na detecção de novidades.