Curso VI

Ministrante: Rudinei Goularte

Resumo: Sistemas cotidianos que produzem, exibem e compartilham conteúdo multimídia são atualmente acessíveis via as mais diferentes plataformas,  fazendo com que o volume de dados aumente continamente a taxas alarmantes. Surge então a necessidade de tratar computacionalmente esses grandes volumes de dados. Em áreas correlatas (como Multimedia Big Data, Ciência de Dados e Recuperação de Informação Multimídia) um pré-requisito comum é a Análise Multimídia em Big Data, onde o objetivo é encontrar um modo mais compacto de representar o conteúdo e que seja, ao mesmo tempo, representativo da informação original.

Conteúdo: Ao analisar conteúdo multimídia existe a dificuldade adicional das diferentes modalidades dos dados (visual, auditiva e textual, por exemplo), que devem ser tratadas em conjunto, objetivando melhoria de resultados dos serviços associados (Recomendação de Música e de Vídeos, Sumarização, Recuperação de Informação, entre outros). Este minicurso aborda ferramentas e técnicas para indexação, extração e processamento de conteúdo multimídia multimodal. As técnicas são exemplificadas em OpenCV Python, podendo ser aplicadas a diferentes conteúdos (imagens, áudio, texto e vídeo) e contextos (como os de Netflix, Google e YouTube), motivando pesquisadores e desenvolvedores.

Referências:

Atrey, P. K.; Hossain, M. A.; Saddik, A. E.; Kankanhalli, M. S. Multimodal fusion for multimedia analysis: a survey. Multimedia Systems, v. 16, n. 6, p. 345–379, Nov 2010. ISSN 1432-1882.

Baeza-Yates, R and Ribeiro-Neto, B., Modern Informatin Retrieval, Addison-Wesley, 2008.

Baraldi L, Grana C, Cucchiara R (2017) Recognizing and Presenting the Storytelling Video Structure with Deep Multimodal Networks. IEEE Transactions on Multimedia 19(5):955{968, DOI 10.1109/TMM.2016.2644872, URL http://ieeexplore.ieee.org/document/7797131/

Blanken, H. M., Vries, A. P., Blok, H. E. and Feng, L., Multimedia Retrieval, Springer, 2010.

Carletti, V.; Foggia, P.; Percannella, G.; Saggese, A.; Strisciuglio, N.; Vento, M. Audio surveillance using a bag of aural words classifier. In: 2013 10th IEEE International Conference on Advanced Video and Signal Based Surveillance. Krakow, Poland: IEEE, 2013. p. 81–86.

Chasanis, V., Kalogeratos, A. and Likas, A. (2009) “Movie segmentation into scenes and chapters using locally weighted bag of visual words”, International Conference on Image and Video Retrieval, p.35:1-35:7.

Grauman, K.; Leibe, B. Visual Object Recognition. 1st. ed. United States: Morgan & Claypool Publishers, 2011. ISBN 1598299689, 9781598299687

Havaldar, P.; Medioni, G. Multimedia Systems: Algorithms, Standards, and Industry Practices. Cengage Learning; 2009. ISBN: 1418835943.

Kishi, R. M., Trojahn, T. H., Goularte, R. 2019. Correlation based feature fusion for the temporal video scene segmentation task. Multimedia Tools and Applications 78, 1 (jun 2019), 15623–15646. https://doi.org/10.1007/s11042-018-6959-4

Leng, C.;  Zhang, H.; Li, B.; Cai, G.; Pei, Z.; He, L. “Local feature descriptor for image matching: A Survey”, IEEE Access, vol. 7, p. 6424-6434, 2019.

Lowe, D. G. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, v. 60, n. 2, p. 91–110, Nov 2004. ISSN 1573-1405. Disponível em: <https://doi.org/10.1023/B:VISI.0000029664.99615.94>

Mandal, M. K. Multimedia Signals and Systems. Kluwer Academic Publishers, 2002. ISBN: 1402072708.

Pouyanfar, S., Yang, Y., Chen, S., Shyu, M. and Iyengar, S. S. 2018. Multimedia Big Data Analytics: A Survey. ACM Comput. Surv. 51, 1, Article 10 (January 2018), 34 pages. DOI: https://doi.org/10.1145/3150226

Rezende, S. O.; Marcacini, R. M.; Moura, M. F. O uso da mineração de textos para extração e organização não supervisionada de conhecimento. Revista de Sistemas de Informação da FSMA, v. 7, p. 7–21, 2011. ISSN 19835604. Disponível em: http://www.fsma.edu.br/si/7edicao.html.

Sakarya, U. and Telatar, Z. (2010) “Video scene detection using graph-based representations” In: Signal Processing – Image Communication, v.25, p. 774-783.

Sharma, D.; Ali, I. A modified mfcc feature extraction technique for robust speaker recognition. In: 2015 International Conference on Advances in Computing, Communications and Informatics (ICACCI). Kochi, India: IEEE, 2015. p. 1052–1057

Stockman, G.; Shapiro, L. G. Computer Vision. 1st. ed. Upper Saddle River, NJ, USA: Prentice Hall PTR, 2001. ISBN 0130307963.

Tapu, R. and Zaharia, T. (2011) “High level video temporal segmentation”, International Conference on Advances in Visual Computing, p. 224-235.

Vestman, V.;  Gowda, D.; Sahidullah, M.;  Alku, P.; Kinnunen, T. Speaker recognition from whispered speech: A tutorial survey and an application of time-varying linear prediction, Speech Communication, v. 99, 2018, p. 62-79. ISSN 0167-6393, https://doi.org/10.1016/j.specom.2018.02.009.

Yang, L.; Wang, Y.; Dunne, D.; Sobolev, M.; Naaman, M.; Estrin, D. More than just words: Modeling non-textual characteristics of podcasts. In: Proceedings of the Twelfth ACM International Conference on Web Search and Data Mining. New York, NY, USA: ACM, 2019. (WSDM ’19), p. 276–284. ISBN 978-1-4503-5940-5. Disponível em: http://doi.acm.org/10.1145/3289600.3290993

Mini-CV:

Rudinei Goularte possui graduação em Ciência da Computação pela Universidade Federal de Mato Grosso do Sul (1995). Possui mestrado (1998), doutorado (2003) e livre-docência (2011) pela Universidade de São Paulo, campus São Carlos, todos em Ciência da Computação. Atualmente é professor associado do ICMC/USP em regime de dedicação integral à docência e à pesquisa, atuando também como orientador pleno de mestrado e doutorado. Atua como consultor ad hoc da Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) e do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq). Desenvolve pesquisa em Multimídia nas linhas: codificação de vídeo digital, vídeo 3D, recuperação de informação multimídia, multimedia big data e análise multimodal.