The 36th British Machine Vision Conference 2025: Monday, 24th November

Keynote 1 - Phil Torr

14:00 - 15:00

14:00 - 15:00	Title: AI for the People Abstract: As artificial intelligence — and soon robotics — becomes woven into every aspect of our lives, it will rapidly reshape our world in profound ways. This transformation could bring immense benefits, or it could lead us toward a future marked by deepening inequality and the growing concentration of power. As technologists, we have a duty to advocate for a positive path — one in which AI enhances human potential, promotes fairness, and strengthens rather than undermines society. In this talk, Professor Philip Torr examines the mounting social and political challenges posed by AI, and explores how we might steer these technologies toward a fairer, more open, and more human future. Location: Main Hall

Title: AI for the People

Abstract: As artificial intelligence — and soon robotics — becomes woven into every aspect of our lives, it will rapidly reshape our world in profound ways. This transformation could bring immense benefits, or it could lead us toward a future marked by deepening inequality and the growing concentration of power. As technologists, we have a duty to advocate for a positive path — one in which AI enhances human potential, promotes fairness, and strengthens rather than undermines society. In this talk, Professor Philip Torr examines the mounting social and political challenges posed by AI, and explores how we might steer these technologies toward a fairer, more open, and more human future.

Location: Main Hall

Oral Session 1 - Multimodal Learning

10:00 - 11:00

Chair: Asra Aslam (University of Sheffield)	10:00	717	From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects Zizhao Li, Zhengkang Xiang, Joseph West, Kourosh Khoshelham
	10:15	768	Interpretable Text-Guided Image Clustering via Iterative Search Bingchen Zhao, Oisin Mac Aodha
	10:30	509	Dynamic Convolution and Graph-Coupled Attention for Cross-Subject EEG-Vision Decoding Tianyu Zhang, FAN WAN, Kaili Sun, Xingyu Miao, Yueming Sun, Minye Shao, Yang Long
	10:45	69	TACTFL: Temporal Contrastive Training for Multi-modal Federated Learning with Similarity-guided Model Aggregation Guanxiong Sun, Majid Mirmehdi, Zahraa S. Abdallah, Raúl Santos-Rodriguez, Ian James Craddock, Telmo M Silva Filho
	Location: Main Hall

Poster Session 1 - Multimodal Learning

11:00 - 12:30

Drawing Room Posters

69	TACTFL: Temporal Contrastive Training for Multi-modal Federated Learning with Similarity-guided Model Aggregation (Oral Presentation, Optional Poster)	Guanxiong Sun, Majid Mirmehdi, Zahraa S. Abdallah, Raúl Santos-Rodriguez, Ian James Craddock, Telmo M Silva Filho
509	Dynamic Convolution and Graph-Coupled Attention for Cross-Subject EEG-Vision Decoding (Oral Presentation, Optional Poster)	Tianyu Zhang, FAN WAN, Kaili Sun, Xingyu Miao, Yueming Sun, Minye Shao, Yang Long
705	ALSA: Anchors in Logit Space for Out-of-Distribution Accuracy Estimation (Oral Presentation, Optional Poster)	Chenzhi Liu, Mahsa Baktashmotlagh, Yanran Tang, Zi Huang, Ruihong Qiu
717	From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects (Oral Presentation, Optional Poster)	Zizhao Li, Zhengkang Xiang, Joseph West, Kourosh Khoshelham
768	Interpretable Text-Guided Image Clustering via Iterative Search (Oral Presentation, Optional Poster)	Bingchen Zhao, Oisin Mac Aodha
37	Cross-Modal Scene Semantic Alignment for Image Complexity Assessment	Yuqing Luo, YIXIAO LI, Jiang Liu, Jun Fu, Hadi Amirpour, Guanghui Yue, Baoquan Zhao, Padraig Corcoran, Hantao Liu, Wei Zhou
43	Split Matching for Inductive Zero-shot Semantic Segmentation	Jialei Chen, Xu Zheng, Dongyue Li, Chong Yi, Seigo Ito, Danda Pani Paudel, Luc Van Gool, Hiroshi Murase, Daisuke Deguchi
84	Continual Vision-and-Language Navigation	SeongJun Jeong, Gi-Cheon Kang, Seongho Choi, Joochan Kim, Byoung-Tak Zhang
113	Prompt-Based Exemplar Super-Compression and Regeneration for Class-Incremental Learning	Ruxiao Duan, Jieneng Chen, Adam Kortylewski, Alan Yuille, Yaoyao Liu
124	Mask2Act: Predictive Multi-Object Tracking as Video Pre-Training for Robot Manipulation	Junbo Zhang, Kaisheng Ma
232	Unsupervised Video Continual Learning via Non-Parametric Deep Embedded Clustering	Nattapong Kurpukdee, Adrian G. Bors
281	CLIP meets DINO for Tuning Zero-Shot Classifier using Unlabeled Image Collections	Mohamed Fazli Mohamed Imam, Rufael Fekadu Marew, Jameel Hassan Abdul Samadh, Mustansar Fiaz, Alham Fikri Aji, Hisham Cholakkal
284	Multimodal Feature Collaboration and Fusion for Fine-Grained Action Recognition	Xinyu Bian, Dongliang Chang, Yuqi Yang, Lei Chen, Zhanyu Ma
294	Task Progressive Curriculum Learning for Robust Visual Question Answering	Ahmed Akl, Abdelwahed Khamis, Zhe Wang, Ali Cheraghian, Sara Khalifa, Kewen Wang
357	What Can We Learn from Harry Potter? An Exploratory Study of Visual Representation Learning from Atypical Videos	Qiyang Sun, Qiming Huang, Yang Yang, Hongjun Wang, Jianbo Jiao
364	Learning from Silence and Noise for Visual Sound Source Localization	Xavier Juanola, Giovana Morais, Magdalena Fuentes, Gloria Haro
370	RGB-Event Fusion for Robust Lane Detection	Jingtao Dong, Hao Zhuang, Hao Yang, Liyuan Pan
373	Back To The Drawing Board: Rethinking Scene-Level Sketch-Based Image Retrieval	Emil Demić, Luka Čehovin Zajc
376	Multi-Rationale Explainable Object Recognition via Contrastive Conditional Inference	Ali Rasekh, Sepehr Kazemi Ranjbar, Simon Gottschalk
392	UMM: A Unified Multi-Modal Model for Low-Level Vision Tasks with Dual-Driven Prompting	Ziqi Luo, Jinxiang Lai, Ruitao Chen, Jinyu Yang, Bin-Bin Gao, Qiang Nie, Jun Liu, Jinfan Wang, Feng Zheng
408	Multimodal Hate Detection Using Dual-Stream Graph Neural Networks	Jiangbei Yue, Shuonan Yang, Tailin Chen, Jianbo Jiao, ZEYU FU
458	Intra-Modal Divergence-Weighted Distillation for Vision-Language Models	Youva Addad, Alexis Lechervy, Frédéric Jurie
479	CleverDistiller: Simple and Spatially Consistent Cross-modal Distillation	Hariprasath Govindarajan, Maciej Wozniak, Marvin Klingner, Camille Maurice, B Ravi Kiran, Senthil Yogamani

Location: Drawing Room

11:00 - 12:30

Hadfield Hall Posters

493	Audio-Visual Separation with Hierarchical Fusion and Representation Alignment	Han Hu, Dongheng Lin, Qiming Huang, Yuqi Hou, Hyung Jin Chang, Jianbo Jiao
517	Catching the Unknown with Limited Data: Bi-Directional Prompt Tuning in CLIP for Few-Shot Open-Set Adaptation	Moloud Abdar, Md Mehedi Hasan, Biplab Banerjee, Abbas Khosravi, Pietro Lio
588	CoT-SD: Chain-of-Thought Semantic Denoising	Yanlin Jiang, Yuchen Liu, Mingren Liu
644	Solving Zero-Shot 3D Visual Grounding as Constraint Satisfaction Problems	Qihao Yuan, Kailai Li, Jiaming Zhang
650	Prompt-Informed Reinforcement Learning for Visual Coverage Path Planning	Venkat Margapuri
666	Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization	Alberto Compagnoni, Davide Caffagni, Nicholas Moratelli, Lorenzo Baraldi, Marcella Cornia, Rita Cucchiara
722	Unsupervised Multimodal Deepfake Detection Through Explicit Intra-Modal and Cross-Modal Inconsistency Discovery	Mulin Tian, Mahyar Khayatkhoei, Joe Mathai, Wael AbdAlmageed
828	Leveraging Modality Tags for Enhanced Cross-Modal Video Retrieval	Adriano Fragomeni, Dima Damen, Michael Wray
857	Lost in Time: A New Temporal Benchmark for VideoLLMs	Daniel Cores, Michael Dorkenwald, Manuel Mucientes, Cees G. M. Snoek, Yuki M Asano
859	Improving Multimodal Distillation for 3D Semantic Segmentation under Domain Shift	Björn Michele, Alexandre Boulch, Gilles Puy, Tuan-Hung VU, Renaud Marlet, Nicolas Courty
866	Image Recognition with Vision and Language Embeddings of VLMs	Illia Volkov, Nikita Kisel, Klara Janouskova, Jiri Matas
875	Lost in Translation? Vocabulary Alignment for Source-Free Adaptation in Open-Vocabulary Semantic Segmentation	Silvio Mazzucco, Carl Persson, Mattia Segu, Pier Luigi Dovesi, Federico Tombari, Luc Van Gool, Matteo Poggi
898	FaceCPT: Toward Cross-Modal Facial Representation Learning with Face-Caption Pre-Training	Md Mahedi Hasan, Shoaib Meraj Sami, Nasser Nasrabadi, Jeremy M. Dawson
903	Toward Robust Audio-Visual Synchronization Detection in Egocentric Video with Sparse Synchronization Events	Jordan Voas, Wei-Cheng Tseng, Benoit Vallade, Alex Mackin, David Higham, David Harwath
922	FSLC: Fast Scoring with Learnable Coreset for Zero-shot Industrial Anomaly Detection	Songtao Ni, Yuxin Li, Xu Zhao
949	Prompt Image to Watch and Hear: Multimodal Prompting for Parameter-Efficient Audio-Visual Learning	Kai Wang, Shentong Mo, Yapeng Tian, Dimitrios Hatzinakos
992	Dual Polarity Prompts with Stochastic Entropy Perturbation for Label Noise	Changhui Hu, Bhalaji Nagarajan, Ricardo Marques, Petia Radeva Ivanova
1030	Language-Guided Decision Override for Adaptive and Retraining-Free Video Anomaly Detection	Ryo Moriyama, Shin Suzuki, Naoshi Kaneko, Kazuhiko Sumi
1037	Generative Data Augmentation for Object Point Cloud Segmentation	Dekai Zhu, Stefan Gavranovic, Flavien Boussuge, Benjamin Busam, Slobodan Ilic
1071	Stabilizing Open-Set Test-Time Adaptation via Primary-Auxiliary Filtering and Knowledge-Integrated Prediction	Byung-Joon Lee, Jin-Seop Lee, Jee-Hyong Lee
1081	ImProvShow: Multimodal Fusion for Image Provenance Summarization	Alexander Black, Jing Shi, Yifei Fan, John Collomosse
1123	Evaluating Self-Supervised Learning in Medical Imaging: A Systematic Investigation of Robustness, Generalizability, and Multi-Domain Impact	Valay Bundele, Karahan Sarıtaş, Bora Kargi, Oğuz Ata Çal, Kıvanç Tezören, Zohreh Ghaderi, Hendrik Lensch
1137	ETTA: Efficient Test-Time Adaptation for Vision-Language Models through Dynamic Embedding Updates	Hamidreza Dastmalchi, Aijun An, Ali Cheraghian
1209	Language-Guided Reinforcement Learning for Hard Attention in Few-Shot Learning	Bahareh Nikpour, Narges Armanfard

Location: Hadfield Hall

Oral Session 2 - Generative Models and Synthesis

16:30 - 17:30

Chair: Diego Marcos (INRIA)	16:30	26	Guiding a diffusion model with itself using sliding windows Nikolas Adaloglou, Tim Kaiser, Damir Iagudin, Markus Kollmann
	16:45	931	Diffusion Transformer-to-Mamba Distillation for High-Resolution Image Generation Yuan Yao, Yicong Hong, Difan Liu, Long Mai, Feng Liu, Jiebo Luo
	17:00	700	Q-Align: Alleviating Attention Leakage in Zero-Shot Appearance Transfer via Query-Query Alignment Namu Kim, Wonbin Kweon, Minsoo Kim, Hwanjo Yu
	17:15	182	eXtended Multimodal Composite Association Score (xMCAS): A Gender Inclusive Approach to Measurement of Bias in Text-To-Image Diffusion Models Abhishek Mandal, Susan Leavy, Suzanne Little
	Location: Main Hall

Poster Session 2 - Generative Models and Synthesis

15:00 - 16:30

Drawing Room Posters

26	Guiding a diffusion model with itself using sliding windows (Oral Presentation, Optional Poster)	Nikolas Adaloglou, Tim Kaiser, Damir Iagudin, Markus Kollmann
182	eXtended Multimodal Composite Association Score (xMCAS): A Gender Inclusive Approach to Measurement of Bias in Text-To-Image Diffusion Models (Oral Presentation, Optional Poster)	Abhishek Mandal, Susan Leavy, Suzanne Little
700	Q-Align: Alleviating Attention Leakage in Zero-Shot Appearance Transfer via Query-Query Alignment (Oral Presentation, Optional Poster)	Namu Kim, Wonbin Kweon, Minsoo Kim, Hwanjo Yu
931	Diffusion Transformer-to-Mamba Distillation for High-Resolution Image Generation (Oral Presentation, Optional Poster)	Yuan Yao, Yicong Hong, Difan Liu, Long Mai, Feng Liu, Jiebo Luo
28	Gen4Gen: Generative Data Pipeline for Generative Multi-Concept Composition	Chun-Hsiao Yeh, Ta-Ying Cheng, He-Yen Hsieh, David Chuan-En Lin, Yi Ma, Andrew Markham, Niki Trigoni, H. T. Kung, Yubei Chen
38	GC-Font: Few-Shot Font Generation via Global Contextual Feature Modelling	Weiran Chen, Guiqian Zhu, Ying Li, Yi Ji, Chunping Liu
77	Training-Free Synthetic Data Generation with Dual IP-Adapter Guidance	Luc Boudier, Loris Manganelli, Eleftherios Tsonis, Nicolas Dufour, Vicky Kalogeiton
83	RPD-Diff: Region-Adaptive Physics-Guided Diffusion Model for Visibility Enhancement under Dense and Non-Uniform Haze	Ruicheng Zhang, Puxin Yan, Zeyu Zhang, Yicheng Chang, Hongyi Chen, Zhi Jin
88	CRCE: Coreference-Retention Concept Erasure in Text-to-Image Diffusion Models	Yuyang Xue, Edward Moroshko, Feng Chen, Jingyu Sun, Steven G. McDonagh, Sotos Tsaftaris
128	Uncertainty Diffusion: Parameter-Efficient Depth Refinement via Uncertainty-Guided Diffusion Models	Jeng-Huo Tzeng, Chuan-Yuan Huang, Kuan-Wen Chen
138	SemanticControl: A Training-Free Approach for Handling Loosely Aligned Visual Conditions in ControlNet	Woosung Joung, Daewon Chae, Jinkyu Kim
154	Seed-to-Seed: Unpaired Image Translation in Diffusion Seed Space	Or Greenberg, Eran Kishon, Dani Lischinski
159	Identity-Motion Trade-offs in Text-to-Video Generation	Yuval Atzmon, Rinon Gal, Yoad Tewel, Yoni Kasten, Gal Chechik
211	Efficient Image Restoration via Latent Consistency Flow Matching	Elad Cohen, Idan Achituve, Idit Diamant, Arnon Netzer, Hai Victor Habi
257	S2V2V: Training-Free Video-to-Video with Sparse Points and Motion Guidance	Xinyu Zhang, Zicheng Duan, Dong Gong, Lingqiao Liu
261	ADIR: Adaptive Diffusion for Image Reconstruction	Shady Abu-Hussein, Tom Tirer, Raja Giryes
330	FaceCrafter: Identity-Conditional Diffusion with Disentangled Control over Facial Pose, Expression, and Emotion	Kazuaki Mishima, Antoni Bigata Casademunt, Stavros Petridis, Maja Pantic, Kenji Suzuki
348	PosBridge: Multi-View Positional Embedding Transplant for Identity-Aware Image Editing	PEILIN XIONG, Junwen Chen, HONGHUI YUAN, Keiji Yanai
366	HuGeDiff: 3D Human Generation via Diffusion with Gaussian Splatting	Maksym Ivashechkin, Oscar Mendez, Richard Bowden
558	EZIGen: Enhancing zero-shot personalized image generation with precise subject encoding and decoupled guidance	Zicheng Duan, Yuxuan Ding, Chenhui Gou, Ziqin Zhou, Ethan Smith, Lingqiao Liu
593	PanoHair: Detailed Hair Strand Synthesis on Volumetric Heads	Shashikant Verma, Shanmuganathan Raman

Location: Drawing Room

15:00 - 16:30

Hadfield Hall Posters

594	Video Dataset Condensation with Diffusion Models	Zhe Li, Hadrien Reynaud, Mischa Dombrowski, Sarah Cechnicka, Franciskus Xaverius Erick, Bernhard Kainz
602	Dynamic Try-On: Taming Video Virtual Try-on with Dynamic Attention Mechanism	Jun Zheng, Jing Wang, Fuwei Zhao, Xujie Zhang, Xiaodan Liang
627	TopoDiT-3D: Topology-Aware Diffusion Transformer with Bottleneck Structure for 3D Point Cloud Generation	ZechaoGuan, Feng yan, Shuai Du, Lin Ma, Qingshan Liu
628	MuDG: Taming Multi-modal Diffusion with Gaussian Splatting for Urban Scene Reconstruction	Yingshuang Zou, Yikang Ding, Chuanrui Zhang, Jiazhe Guo, Bohan Li, Xiaoyang Lyu, Feiyang Tan, Xiaojuan Qi, Haoqian Wang
704	JOG3R: Towards 3D-Consistent Video Generators	Chun-Hao Paul Huang, Niloy J. Mitra, Hyeonho Jeong, Jae Shin Yoon, Duygu Ceylan
718	PADS: Plug-and-Play 3D Human Pose Analysis via Diffusion Generative Modeling	Haorui Ji, Hongdong Li
732	TryOffDiff: Virtual-Try-Off via High-Fidelity Garment Reconstruction using Diffusion Models	Riza Velioglu, Petra Bevandić, Robin Chan, Barbara Hammer
753	Boosting Camera Motion Control for Video Diffusion Transformers	Soon Yau Cheong, Duygu Ceylan, Armin Mustafa, Andrew Gilbert, Chun-Hao Paul Huang
755	Audio-Guided Visual Editing with Complex Multi-Modal Prompts	Hyeonyu Kim, Seokhoon Jeong, Seonghee Han, Chanhyuk Choi, Taehwan Kim
766	Specify and Edit: Overcoming Ambiguity in Text-Based Image Editing	Ekaterina Iakovleva, Fabio Pizzati, Philip Torr, Stéphane Lathuilière
782	Is Safety Checker Still Safe? A Study on the Covert NSFW Text	Xin Li, Kai Chen, XUE YANG, Weijun Shan, Jun Yu, Qing Li
784	UDT : Unsupervised Discovery of Transformations between Fine-Grained Classes in Diffusion Models	Youngjae Choi, Hyunsuh Koh, Hojae Jeong, ByungKwan Chae, Sungyong Park, Heewon Kim
831	LOGen: Toward LiDAR Object Generation by Point Diffusion	Ellington Kirby, Mickael Chen, Renaud Marlet, Nermin Samet
832	SIMULDITEX: Single Image Multiscale & Lightweight Diffusion for Texture Modelling	Pierrick Chatillon, Julien Rabin, David Tschumperlé
852	LoFT: LoRA-fused Training Dataset Generation with Few-shot Guidance	Jae Myung Kim, Stephan Alaniz, Cordelia Schmid, Zeynep Akata
864	Geometry-Aware Diffusion Models for Multiview Scene Inpainting	Ahmad Salimi, Tristan Ty Aumentado-Armstrong, Marcus A Brubaker, Konstantinos G. Derpanis
896	Llama Learns to Direct: DirectorLLM for Human-Centric Video Generation	Kunpeng Song, Tingbo Hou, Zecheng He, Haoyu Ma, Jialiang Wang, Animesh Sinha, Sam Tsai, Yaqiao Luo, Xiaoliang Dai, Li Chen, Xide Xia, Peizhao Zhang, Peter Vajda, Ahmed M. Elgammal, Felix Juefei-Xu
962	LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba	Yunxiang Fu, Chaoqi Chen, Yizhou Yu
1006	Verifier Matters: Enhancing Inference-Time Scaling for Video Diffusion Models	Lorenzo Baraldi, Davide Bucciarelli, Zifan Zeng, Chongzhe Zhang, Qunli Zhang, Marcella Cornia, Lorenzo Baraldi, Feng Liu, zheng hu, Rita Cucchiara
1064	3D-WAG: Hierarchical Wavelet-Guided Autoregressive Generation for High-Fidelity 3D Shapes	Tejaswini Medi, Arianna Rampini, Pradyumna Reddy, Pradeep Kumar Jayaraman, Margret Keuper

Location: Hadfield Hall