Methodologies to Improve One-Class Classifier Performance Applied to Multivariate Time Series
Nome: ANDRÉ PAULO FERREIRA MACHADO
Data de publicação: 05/04/2024
Banca:
Nome | Papel |
---|---|
SERGIO LIMA NETTO | Examinador Externo |
Páginas
Resumo: Este trabalho propõe metodologias inovadoras para melhorar o desempenho de classificadores One-Class aplicados a dados de séries temporais multivariadas. O método principal se baseia no agrupamento de séries temporais multivariadas. Conjuntos de dados provenientes de processos reais vêm de sensores disponíveis e são afetados por muitos fatores, como o mudança do processo, mudanças na região de operação e mau funcionamento do equipamento. Apesar disso, espera-se que as classes representadas por esses dados tão diversos possam ser reveladas por meio de classificadores treinados. Este trabalho levanta a hipótese de que o desempenho geral pode ser aprimorado treinando conjuntos de classificadores One-Class com subconjuntos de dados agrupados por similaridade, obtidos pela Média da Centroide de Distorção Temporal Dinâmica (DTW Barycenter Averaging - DBA), usada para medir a similaridade entre as séries temporais e de cada grupo. O método proposto é aplicado a classificadores One-Class, pois eles são treinados apenas com a classe alvo, que é agrupada com base na similaridade da série temporal usando Distorção Temporal Dinâmica (DBA) e k-means. Além disso, uma segunda abordagem é proposta, chamada
deslocamento temporal de rótulos, para melhorar a diferenciação entre dados normais e defeituosos. Este método é aplicado durante a fase de treinamento e foca em situações específicas envolvendo a transição da normalidade para dados defeituosos, onde os limites são difíceis de diferenciar (dados sobrepostos). Os resultados do deslocamento temporal mostram uma mitigação do efeito dos dados sobrepostos. As vantagens das técnicas são ilustradas por meio de sua aplicação em dois conjuntos de dados públicos: um da indústria de petróleo com instâncias que caracterizam oito classes de dados representadas por cinco
séries temporais (conjunto de dados 3W) e outro de um sistema hidráulico para o estudo de falhas típicas de sistemas hidráulicos com cinco classes e dezessete séries temporais (conjunto de dados Monitoramento de condições de sistemas hidráulicos - ICM). Para o conjunto de dados 3W, sete classes são selecionadas para treinar classificadores LSTM (Long Short-Term Memory) usando o agrupamento de séries temporais. Os resultados demonstram que o aumento da similaridade dos dados de treinamento tende a melhorar o desempenho do classificador LSTM, alcançando um aumento de 10% no desempenho geral no conjunto de dados 3W. Em um caso específico, onde o modelo de agrupamento aumentou a similaridade em 84%, o desempenho da classificação melhorou em 21%. Para o monitoramento da condição de dados do sistema hidráulico, o método proposto alcançou uma melhoria significativa de desempenho de mais de 40% em comparação com o modelo base. Notavelmente, no caso específico de falha de vazamento, a melhoria do desempenho da classificação aumentou em 64%.