Pattern recognition using small annotated data sets

This project proposes the development of new approaches to deal with pattern recognition in applications that require the processing of large sets of images but which have restrictions regarding the number of labeled samples available. The research focus efforts on: (1) the study and development of techniques for transferring knowledge from pre-existing bases as a way to enrich the initial sample set; (2) the study of image indexing algorithms and structures to ensure scalability of the developed approaches; and (3) developing approaches based on active learning to assist expert users in annotating relevant samples.

Full Title: LittleBigData – Pattern recognition in large image databases using small annotated data sets. Funding: Minas Gerais Research Foundation (FAPEMIG). Duration: 2018-current.

[In Portuguese] A área de reconhecimento de padrões em imagens vêm obtendo diversos avanços nos últimos anos. O desenvolvimento de tecnologias como as abordagens baseadas em aprendizado profundo (deep learning) têm estabelecido o estado da arte em diversas aplicações de Visão Computacional. No entanto, essas abordagens necessitam de grandes conjuntos de amostras para treinamento e isso impossibilita seu uso direto para resolver problemas em áreas mais específicas como medicina, forense digital, agricultura ou biodiversidade. A anotação de amostras nas principais aplicações dessas áreas deve ser feita por usuários especialistas (médicos, peritos, pesquisadores, etc). Esse processo geralmente é custoso e até mesmo inviável em diversas ocasiões. Detecção de câncer, por exemplo, depende do diagnóstico e do registro preciso de diversos pacientes ao longo dos anos para a obtenção de um conjunto de amostras representativo. Em aplicações agrícolas e de biodiversidade é comum a necessidade de deslocar equipes de especialistas em áreas de difícil acesso para anotar adequadamente uma determinada espécie de planta. Desse modo, esse projeto propõe o desenvolvimento de novas abordagens para lidar com o reconhecimento de padrões em aplicações que requerem o processamento de grande conjuntos de imagens mas que possuem restrição com relação à quantidade de amostras disponíveis. A pesquisa focará esforços nas seguintes frentes visando mitigar os problemas do aprendizado supervisionado à partir de poucas amostras em grandes bases de imagens: (1) estudo e desenvolvimento de técnicas para transferência de conhecimento de bases pré existentes como forma de enriquecer o conjunto de amostras inicial; (2) estudo de algoritmos e estruturas de indexação de imagens para garantir escalabilidade das abordagens desenvolvidas; e (3) desenvolvimento de abordagens baseadas em aprendizado ativo para auxiliar usuários especialistas na anotação de amostras relevantes.


Related Publications:

  • Oliveira, H., Silva, C., Machado, G. L., Nogueira, K., & dos Santos, J. A. (2020). Fully convolutional open set segmentation. Mach Learn (2021) (Early). [PDF]
  • Oliveira, H. N., Ferreira, E., & Dos Santos, J. A. (2020). Truly generalizable radiograph segmentation with conditional domain adaptation. IEEE Access8, 84037-84062. [PDF]
  • Oliveira, H., Mota, V., Machado, A. M., & dos Santos, J. A. (2020). From 3D to 2D: Transferring knowledge for rib segmentation in chest X-rays. Pattern Recognition Letters140, 10-17. [PDF]
  • Ferreira, E., Oliveira, H., Alvim, M. S., & dos Santos, J. A. (2018, November). A Comparative Study on Unsupervised Domain Adaptation for Coffee Crop Mapping. In Iberoamerican Congress on Pattern Recognition (pp. 72-80). Springer, Cham. [PDF]
  • Nogueira, K., dos Santos, J. A., Menini, N., Silva, T. S., Morellato, L. P. C., & Torres, R. D. S. (2019). Spatio-Temporal Vegetation Pixel Classification by Using Convolutional Networks. IEEE Geoscience and Remote Sensing Letters16(10), 1665-1669. [PDF]