VasileiosMezaris

5 Followers

deep learning video summarization explainable ai video event recognition unsupervised learning generative adversarial networks artificial intelligence tvsum summe attention mechanisms ca-sum image classification video event explanation sum-gan-aae attention auto-encoder sum-gan-sl deep neural networks video forensics disinformation video deepfake detection manipulation detection manipulation localization image forensics 360-degrees video dual softmax graph attention network cross-modal deep network gated-vigat vigat attention xai ad-hoc video search cross-modal retrieval saliency detection video objects lstm evaluation measures dual encoding network video analysis migration invid verification plugin unsupervised video summarization reverse video search fake news multimodal prompting image semantic descriptions clip embeddings vision language models minigpt-4 large multimodal models av scene discrepancies verification plug-in pgl-sum ai-based summarization annotation tool benchmarking dataset adversarial image generation evaluation framework visual explanations video deepfakes object removal/inpainting splicing copy-move forgeries late fusion early fusion srm bayar convolution noiseprint multi-modal fusion benchmarking news images data augmentation fine-tuning image-text matching equirectangular projection video understanding masked feature modelling masked image modelling newsimages task mediaeval t-times-v clip post-hoc explanation class-specific explanation class activation maps image classifier explanation cnn explanation trainable explanation frame selection policy gating mechanism bottom-up event recognition discoverability measures explaining video summarization inherent attention explainability attention mechanism dual-softmax trecvid video feature encoders video feature extractors free-text query object-level explanation frame-level explanation saliency map tame l-cam-img l-cam-fm l-cam learning-based xai bias deep convolutional neural nets class activation map dual softmax operation multiple space learning feature encoders cross-modal video retrieval text-based video search frame diversity frame uniqueness concentrated attention social media video consumption devices video adaptation online web service video smart cropping video aspect ratio transformation supervised learning positional encoding multi-head attention self-attention reinforcement learning video thumbnail selection improved marginal ranking loss hard-negative samples ad-hoc video retrieval ai explainability social media; cross-modal retrieval; concept textu video dataset clustering video cropping video aspect ratio retargeting multimedia and multimodal retrieval graph convolutional network ai4media invid video verification misinformation audiovisual concept detection geometric median eigenanalysis automatic structured pruning mobile multimedia video summarization evaluation f-score performance over random migration-related semantic concepts migration theories video retrieval semantic concepts deep network pruning class-separability criteria asymptotic filter pruning deep convolutional neural networks web demo content re-purposing content adaptation sum-gan demo video annotation video fragmentation video fragmentation and reverse web search news journalism sum-gan-vaae variational auto-encoder adversarial learning neglection criterion youtube-8m svhn cifar100 cifar10 subclass dnns neglected classes multimedia classification deep fakes artificiali intelligence

Activity
About

Are all combinations equal? Combining textual and visual features with multiple space learning for text-based video retrieval

1 year ago • 12 Views

Masked Feature Modelling for the unsupervised pre-training of a Graph Attention Network block for bottom-up video event recognition

6 months ago • 27 Views

VasileiosMezaris

Presentations

Video & AI: capabilities and limitations of AI in detecting video manipulations

Subclass deep neural networks

Unsupervised Video Summarization via Attention-Driven Adversarial Learning

Video, AI and News: video analysis and verification technologies for supporting journalism

Icme2020 tutorial video_summarization_part1

Fractional step discriminant pruning

Migration-related video retrieval

GAN-based video summarization

PoR_evaluation_measure_acm_mm_2020

LSTM Structured Pruning

Misinformation on the internet: Video and AI

Hard-Negatives Selection Strategy for Cross-Modal Retrieval

Video Thumbnail Selector

PGL SUM Video Summarization

Video smart cropping web application

CA-SUM Video Summarization

Are all combinations equal? Combining textual and visual features with multiple space learning for text-based video retrieval

Learning visual explanations for DCNN-based image classifiers using an attention mechanism

Explaining the decisions of image/video classifiers

Combining textual and visual features for Ad-hoc Video Search

Explaining video summarization based on the focus of attention

Gated-ViGAT

TAME: Trainable Attention Mechanism for Explanations

Cross-modal Networks and Dual Softmax Operation for MediaEval NewsImages 2022

Masked Feature Modelling for the unsupervised pre-training of a Graph Attention Network block for bottom-up video event recognition

Spatio-Temporal Summarization of 360-degrees Videos

CERTH-ITI at MediaEval 2023 NewsImages Task

Multi-Modal Fusion for Image Manipulation Detection and Localization

Explainable Deepfake Image/Video Detection

Dataset and methods for 360-degree video summarization