Video Question Answering with Iterative Video-Text Co-Tokenization

Published in European Conference on Computer Vision (ECCV), 2022

Recommended citation: AJ Piergiovanni, Kairo Morton, Weicheng Kuo, Michael Ryoo, and Anelia Angelova. Video question answering with iterative video-text co-tokenization. ECCV, 2022.