Curso XI

Ministrantes: João Paulo Papa (UNESP/Bauru) e  Danilo Jodas (UNESP/Bauru – pós-doc);  Leandro Passos (UNESP/Bauru – pós-doc);  Marcos Santana (UNESP/Bauru – pós-doc); Gustavo Rosa (UNESP/Bauru – doutorando)

Resumo: Técnicas de aprendizado de máquina, usualmente, requerem uma quantidade de dados que seja suficiente para a sua etapa de treinamento e, consequentemente, uma maior generalização no conjunto de dados de teste. Entretanto, é bastante comum encontrarmos bases de dados que não possuem dados rotulados suficientes e, muitas vezes, encontram-se desbalanceadas. O presente mini-curso objetiva introduzir conceitos sobre aumento de dados utilizando técnicas tradicionais e mais recentes baseadas em aprendizado em profundidade. Outrossim, apresentaremos abordagens recentes baseadas em Floresta de Caminhos Ótimos para tratar o problema do desbalanceamento de dados.

Conteúdo:

  1. Introdução
  2. Aumento de dados com técnicas tradicionais
  3. Aumento de dados com OPF
    • 1. OPF Supervisionado
    • 2. OPF Não supervisionado
    • 3. Abordagens baseadas em OPF para aumento de dados
  4. Aumento de dados de imagens
    • 1. Abordagens tradicionais (rotação, flipping, cropping)
    • 2. Autoencoders
    • 3. GANs
  5. Aumento de dados textuais
    • 1. Processamento de Linguagem Natural
    • 2. Modelagem de Linguagem Natural
    • 3. RNNs (LSTM e GRU)
    • 4. Transformadores
  6. Conclusões

Referências:

[1] J. P. Papa, A. X. Falcão, and C. T. N. Suzuki, “Supervised pattern classification based on optimum-path forest,” International Journal of Imaging Systems and Technology, vol. 19, no. 2, pp. 120–131, 2009.

[2] L. M. Rocha, F. A. M. Cappabianco, and A. X. Falcão, “Data clustering as an optimum-path forest problem with applications in image analysis,” International Journal of Imaging Systems and Technology, vol. 19, no. 2, pp. 50–68, 2009.

[3] L. A. Passos, D. S. Jodas, L. C. F. Ribeiro, T. Pinheiro, and J. P. Papa, “O2PF: Oversampling via Optimum-Path Forest for Breast Cancer Detection,” in 2020 IEEE 33th International Symposium on Computer-Based Medical Systems. IEEE, in press.

[4] SHORTEN, Connor; KHOSHGOFTAAR, Taghi M. A survey on image data augmentation for deep learning. Journal of Big Data, v. 6, n. 1, p. 60, 2019.

[5] LIU, Xiaofeng et al. Data augmentation via latent space interpolation for image classification. In: 2018 24th International Conference on Pattern Recognition (ICPR). IEEE, 2018. p. 728-733.

[6] GOODFELLOW, Ian et al. Generative adversarial nets. In: Advances in neural information processing systems. 2014. p. 2672-2680.

[7] A. Gosain and S. Sardana. Handling class imbalance problem using oversampling techniques: A review, in: 2017 International Conference on Advances in Computing, Communications and Informatics (ICACCI), IEEE, 2017, pp. 79-85.

[8] S. Barua, M. M. Islam, X. Yao and K. Murase, MWMOTE–Majority Weighted Minority Oversampling Technique for Imbalanced Data Set Learning, in IEEE Transactions on Knowledge and Data Engineering, vol. 26, no 2, pp. 405-425, Feb. 2014.

[9] György Kovács. Smote-variants: A python implementation of 85 minority oversampling techniques. Neurocomputing, vol. 366, pp. 352-354, 2019.

[10] J. Elman. Finding structure in time. Cognitive science, 14(2):179–211, 1990.

[11] S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997.

[12] K. Cho, B. Van Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio. Learning phrase representations using rnn encoder-decoder for statistical machine translation. arXiv preprint arXiv:1406.1078, 2014.

[13] A. Vaswani et al. Attention is all you need. In: Advances in neural information processing systems. 2017. p. 5998-6008.

Mini CV:

João Paulo Papa possui graduação em Sistemas de Informação pela Universidade Estadual Paulista “Júlio de Mesquita Filho” (2002), mestrado em Ciência da Computação pela Universidade Federal de São Carlos (2005), e doutorado em Ciência da Computação pela Universidade Estadual de Campinas (2008). Possui, também, pós-doutorados pela Universidade Estadual de Campinas em 2009 e pela Universidade de Harvard em 2015. Atualmente, é membro IEEE sênior, membro da Fundação Alexander von Humboldt (Alemanha) e presidente do capítulo brasileiro junto à Associação International de Reconhecimento de Padrões.

Danilo Samuel Jodas é bacharel em Ciência da Computação pelo Centro Universitário do Norte Paulista (UNORP), São José do Rio Preto (SP). Mestre em Ciência da Computação pela Universidade Estadual Paulista Júlio de Mesquita Filho (UNESP), São José do Rio Preto (SP). Doutor em Engenharia Informática pela Faculdade de Engenharia da Universidade do Porto (FEUP), Portugal, tendo trabalhado com técnicas de processamento de imagens para a  segmentação de estruturas das artérias carótida e coronária para a identificação de patologias associadas ao desenvolvimento de doenças cardiovasculares. Atualmente faz pós-doutorado na Universidade Estadual Paulista Júlio de Mesquita Filho, Faculdade de Ciências de Bauru, com ênfase em aprendizado de máquina.

Leandro Aparecido Passos Júnior: possui graduação em Informatica com gestão em produção industrial pela Faculdade de Tecnologia de Jau – FATEC (SP) (2009), mestrado em Ciência da Computação pela Universidade Estadual Paulista Júlio de Mesquita Filho (2015), e doutorado em Ciência da Computação pela Universidade Federal de São Carlos (UFSCAR). Atualmente cursando Pós-Doutorado em ciência da computação pela Universidade Estadual Paulista Júlio de Mesquita Filho fazendo parte do grupo de pesquisa RECOGNA. Tem experiência na área de Ciência da Computação, com ênfase em Processamento de imagens e Aprendizagem de máquinas, atuando principalmente nos seguintes temas: data imbalance, deep learning, clustering, Optimum-Path Forest e Restricted Boltzmann Machine.

Marcos Cleison Silva Santana:  possui bacharelado em Física com ênfase em Modelagem de Campos Cristalinos pela  Universidade Federal de Sergipe (2009). Mestre em Física da Matéria Condensada com ênfase em Caracterização Magnética de Mullitas (2011).  Doutorado em  Física com ênfase em Sistemas Magnéticos Complexos também pela Universidade Federal de Sergipe (2015). Atualmente, é  pós-doutorando em Ciência da Computação pela Universidade Estadual Paulista Júlio de Mesquita Filho e integrante do grupo de pesquisa Recogna onde executa pesquisas relacionadas ao uso de aprendizagem profunda aplicada ao processamento de imagem/vídeo e mecânica estatística. Também, tem experiência no desenvolvimento de sistemas computacionais com integração de sistemas inteligentes.  

Gustavo Henrique de Rosa é Bacharel em Ciência da Computação pela Universidade Estadual Paulista Júlio de Mesquita Filho, FC/Bauru (2016) com ênfase em processamento de imagens, reconhecimento de padrões, classificação de padrões, aprendizado de máquina e otimização meta-heurística. Mestre em Ciência da Computação pela Universidade Estadual Paulista Júlio de Mesquita Filho, IBILCE/Rio Preto (2018) na área de redes neurais artificiais e aprendizado em profundidade. Atualmente, é estudante de Doutorado em Ciência da Computação pela Universidade Estadual Paulista Júlio de Mesquita Filho, IBILCE/Rio Preto e está focado em processamento de linguagem natural e aprendizado adversarial.