Publications

Preprint Papers, Accept Articles

(*) beside authors' names indicates equal contributions.
(✉) beside authors' names indicates the corresponding author.
(†) beside authors' names indicates the project lead.

Preprint Papers

Beyond Surface Artifacts: Capturing Shared Latent Forgery Knowledge Across Modalities.
J. Dou^†, C. Shi^†, J. Wang, F. Shen^✉, Z. Wang, T.-S. Chua
Under Review.
VersaVogue: Visual Expert Orchestration and Preference Alignment for Unified Fashion Synthesis.
J. Yu, F. Shen^†, C. Wang, Y. Xin, S. Shen, X. Du, J. Tang
Under Review.
Latent Anomaly Knowledge Excavation: Unveiling Sparse Sensitive Neurons in Vision-Language Models.
S. Li, S. Li, C. Shi, W. Wu, Y. Wu, X. Yu, F. Shen^✉, T.-S. Chua
Under Review.
Transport and Merge: Cross-Architecture Merging for Large Language Models.
C. Cui, B. Yang, F. Shen^✉, Y. Chen, J. Zheng, X. Wang, A. Zhang, T.-S. Chua
Under Review.
Who Transfers Safety? Identifying and Targeting Cross-Lingual Shared Safety Neurons.
X. Zhang, C. Xie, L. Zhu, Y. Yang, W. Zhao, Z. Cheng, C. Wang, F. Shen^✉, T.-S. Chua
Under Review.
DNA: Uncovering Universal Latent Forgery Knowledge.
J. Dou, C. Shi, Y. Wang, S. Guo, A. Yi, W. Wu, L. Zhang, F. Shen^✉, T.-S. Chua
Under Review.
Progressive Local Self-Attention for Content-Aligned Super-Resolution.
D. Huang, X. Zhu, F. Chen, F. Shen^✉, T. Lai, H. Zeng, J. Hou
Under Review.
Lingua-SafetyBench: A Benchmark for Safety Evaluation of Multilingual Vision-Language Models.
E. Shi, P. Shao, Y. Zhang, C. Cui, J. Lyu, X. Xie, X. Xia, F. Shen^✉, T.-S. Chua
Under Review.
OrthoEraser: Coupled-Neuron Orthogonal Projection for Concept Erasure.
C. Shi, W. Wu, F. Shen^✉, X. Zhu, K. Hu, Z. Wang
Under Review.
High-Fidelity One-Step Real-Image Super-Resolution via Decoupled Optimization and Latent Adaptation.
D. Huang, Y. Guo, Y. Huang, F. Shen^✉, Z. Hu, H. Zeng
Under Review.
TraceRouter: Robust Safety for Large Foundation Models via Path-Level Intervention.
C. Shi, S. Li, W. Lu, W. Wu, C. Wang, Z. Cheng, F. Shen^✉, T.-S. Chua
Under Review.
Selection, Aggregation, and Enhancement: Trajectory Consistent Diffusion Model for Image Super-Resolution.
D. Huang, Y. Guo, Y. Huang, L. Dai, F. Shen^✉, and H. Zeng
Under Review.
Pure Vision Language Action (VLA) Models: A Comprehensive Survey.
D. Zhang, J. Sun, C. Hu, X. Wu, Z. Yuan, R. Zhou, F. Shen^✉, Q. Zhou
Under Review.
Reasoning-VLA: A Fast and General Vision-Language-Action Reasoning Model for Autonomous Driving.
D. Zhang, Z. Yuan, Z. Chen, C.-T. Liao, Y. Chen, F. Shen^✉, Q. Zhou, T.-S. Chua
Under Review.
Curiosity Meets Cooperation: A Game-Theoretic Approach to Long-Tail Multi-Label Learning.
C. Xiao, C. Zhao, Z. Ke, F. Shen^✉
Under Review.
IMAGagent: Orchestrating Multi-Turn Image Editing via Constraint-Aware Planning and Reflection.
F. Shen, C. Xie, L. Wang, Z. Zhang, X. Jiang, X. Du, J. Tang
Under Review.
Chain-of-Trajectories: Unlocking the Intrinsic Generative Optimality of Diffusion Models via Graph-Theoretic Planning.
P. Chen, X. Liu, X. Zhang, F. Shen, X. Gong, Z. Liu, Z. Chen, H. Hu, K. Wang, S. Lian
Under Review.
RS-WorldModel: A Unified Model for Remote Sensing Understanding and Future Sense Forecasting.
L. Xu, Z. Wang, F. Shen, G. Xu, H. Zhuang, M. Li, H. Li
Under Review.
Maximizing Local Entropy Where It Matters: Prefix-Aware Localized LLM Unlearning.
N. Zhai, P. Shao, B. Zheng, Y. Yang, F. Shen, L. Bai, X. Yang
Under Review.
CLEAR: Null-Space Projection for Cross-Modal De-Redundancy in Multimodal Recommendation.
H. Zhan, Y. Wang, Y. Yang, D. Yue, Y. Wang, P. Shao, F. Shen, F. Liu, L. Wu
Under Review.
FreeAct: Freeing Activations for LLM Quantization.
X. Liu, X. Xia, M. Zhang, J.-F. Li, X. Yu, F. Shen, X. Su, S.-K. Ng, T.-S. Chua
Under Review.
Active Zero: Self-Evolving Vision-Language Models through Active Environment Exploration.
J. He, J. Fang, F. Xiong, Z. Yao, F. Shen, H. Guo, J. Wang, T.-S. Chua
Under Review.
NExT-Guard: Training-Free Streaming Safeguard without Token-Level Labels.
J. Fang, N. Chen, H. Jiang, D. Zhang, F. Shen, X. Wang, X. He, T.-S. Chua
Under Review.
CharacterShot: Controllable and Consistent 4D Character Animation.
J. Gao, J. Li, W. Liu, Y. Zeng, F. Shen, K. Chen, Y. Sun, C. Zhao
Under Review.
IMAGHarmony: Controllable Image Editing with Consistent Object Quantity and Layout.
F. Shen, X. Du, Y. Gao, J. Yu, Y. Cao, X. Lei, J. Tang
Under Review.
Bridging Supervised and Temporal Difference Learning with Q-Conditioned Maximization.
X. Lei, Z. Zhuang, S. Yang, S. Xu, Y. Luo, F. Shen, X. Zhang, D. Wang
Under Review.
R-Genie: Reasoning-Guided Generative Image Editing.
D. Zhang, L. He, R. Yan, F. Shen, J. Tang
Under Review.
V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation.
C. Wang, K. Tian, J. Zhang, Y. Guan, F. Luo, F. Shen, Z. Jiang, Q. Gu, X. Han, W. Yang
Under Review.
(This code has received 2k stars.)

Accept Articles

IMAGGarment: Fine-Grained Garment Generation for Controllable Fashion Design.
F. Shen, J. Yu, C. Wang, X. Jiang, X. Du, J. Tang
IEEE Transactions on Visualization and Computer Graphics (TVCG), 2026.
Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation.
C. Shi, S. Li, S. Guo, S. Xie, W. Wu, J. Dou, C. Wu, C. Xiao, C. Wang, Z. Cheng, F. Shen^✉, T.-S. Chua
In The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2026).
Progressive Feature Encoding with Background Perturbation Learning for Ultra-Fine-Grained Visual Categorization.
X. Jiang, Z. Fang, F. Shen, J. Gao, Z. Li
IEEE Transactions on Image Processing (TIP), 2026.
HarmoniAD: Harmonizing Local Structures and Global Semantics for Anomaly Detection.
N. Zhang, C. Shi, J. Dou, W. Wu, F. Shen, J. Cao
In IEEE International Conference on Multimedia and Expo (ICME 2026).
Jointly Conditioned Diffusion Model for Multi-View Pose-Guided Person Image Synthesis.
C. Xie, Z. Gong, J. Ren, L. Yu, S. Shen, X. Du, F. Shen
In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2026).
SGMHand: Structure-Guided Modulation for Structure-Aware Hand Inpainting.
C. Shi, S. Guo, Y. Chen, K. Shui, F. Shen^✉
In AAAI Conference on Artificial Intelligence (AAAI 2026).
IMAGGarment+: Efficient Attribute-Wise Diffusion for Garment Generation.
J. Yu, F. Shen^*, C. Wang, Y. Sun, H. Tang, Q. Guo, X. Du
In AAAI Conference on Artificial Intelligence (AAAI 2026).
HiMo-CLIP: Modeling Semantic Hierarchy and Monotonicity in Vision-Language Alignment.
R. Wu, P. Chen, F. Shen, S. Zhao, Q. Hui, H. Gao, T. Lu, Z. Liu, F. Zhao, K. Wang, S. Lian
In AAAI Conference on Artificial Intelligence (AAAI 2026).
Cross-modal Proxy Evolving for OOD Detection with Vision-Language Models.
H. Tang, Y. Liu, S. Yan, F. Shen, S. He, J. Qin
In AAAI Conference on Artificial Intelligence (AAAI 2026).
Seeing through the Conflict: Transparent Knowledge Conflict Handling in Retrieval-Augmented Generation.
H. Ye, S. Chen, Z. Zhong, C. Xiao, H. Zhang, Y. Wu, F. Shen
In AAAI Conference on Artificial Intelligence (AAAI 2026).
StyleTailor: Towards Personalized Fashion Styling via Hierarchical Negative Feedback.
H. Ma, F. Shen, H. Xu, X. Wang, G. Xu, J. Zheng, L. Qu, M. Li
In AAAI Conference on Artificial Intelligence (AAAI 2026).
Fine-grained Image Retrieval via Dual-Vision Adaptation.
X. Jiang, M. Cao, H. Tang, F. Shen, Z. Li
In AAAI Conference on Artificial Intelligence (AAAI 2026).
CoC-VLA: Delving into Adversarial Domain Transfer for Explainable Autonomous Driving via Chain-of-Causality Visual-Language-Action Model.
D. Zhang, F. Shen^✉, R. Zhao, Y. Chen, P. Zhi, C. Li, R. Zhou, Q. Zhou
In Neural Information Processing Systems (NeurIPS 2025).
SceneDecorator: Towards Scene-Oriented Story Generation with Scene Planning and Scene Consistency.
Q. Song, D. Zhou, J. Lin, F. Shen, J. Wang, X. Hu, C. Chen, P.-A. Heng
In Neural Information Processing Systems (NeurIPS 2025).
Advanced Sign Language Video Generation with Compressed and Quantized Multi-Condition Tokenization.
C. Wang, Z. Deng, Z. Jiang, F. Shen, Y. Yin, S. Gan, Z. Cheng, S. Ge, Q. Gu
In Neural Information Processing Systems (NeurIPS 2025).
Long-Term TalkingFace Generation via Motion-Prior Conditional Diffusion Model.
F. Shen, C. Wang, J. Gao, Q. Guo, J. Dang, J. Tang, T.-S. Chua
In International Conference on Machine Learning (ICML 2025).
UniMC: Taming Diffusion Transformer for Unified Keypoint-Guided Multi-Class Image Generation.
Q. Guo, A. Zeng, D. Yue, C. Yang, Y. Cao, H. Guo, F. Shen, W. Liu, X. Liu, D. Xu
In International Conference on Machine Learning (ICML 2025).
Visual Content Generation in the Era of Large Foundation Models.
L. Qu, F. Shen, Z. Zhou, J. Lyu, W. Wang, L. Jiang
In International Conference on Multimedia Retrieval (ICMR 2025).
IMAGDressing-v1: Customizable Virtual Dressing.
F. Shen, X. Jiang, X. He, H. Ye, C. Wang, X. Du, Z. Li, J. Tang
In AAAI Conference on Artificial Intelligence (AAAI 2025).
(This code has received 1k stars.)
Boosting Consistency in Story Visualization with Rich-Contextual Conditional Diffusion Models.
F. Shen, H. Ye, S. Liu, J. Zhang, C. Wang, X. Han, Y. Wei
In AAAI Conference on Artificial Intelligence (AAAI 2025).
MSP-MVS: Multi-granularity Segmentation Prior Guided Multi-View Stereo.
Z. Yuan, C. Liu, F. Shen, Z. Li, J. Luo, T. Mao, Z. Wang
In AAAI Conference on Artificial Intelligence (AAAI 2025).
DVP-MVS: Synergize Depth-Edge and Visibility Prior for Multi-View Stereo.
Z. Yuan, J. Luo, F. Shen, Z. Li, C. Liu, T. Mao, Z. Wang
In AAAI Conference on Artificial Intelligence (AAAI 2025).
Exploring the Potential of Large Vision-Language Models for Unsupervised Text-Based Person Retrieval.
Z. Li, J. Li, Y. Shi, J. Chen, S. Huang, L. Tu, F. Shen, H. Ling
In AAAI Conference on Artificial Intelligence (AAAI 2025).
FaceShot: Bring Any Character into Life.
J. Gao, Y. Sun, F. Shen, X. Jiang, Z. Xing, K. Chen, C. Zhao
In International Conference on Learning Representations (ICLR 2025).
Ensembling Diffusion Models via Adaptive Feature Aggregation.
C. Wang, K. Tian, Y. Guan, F. Shen, Z. Jiang, Q. Gu, J. Zhang
In International Conference on Learning Representations (ICLR 2025).
AS-Memory: Adaptive Sparse Memory Meeting Video-Language Models.
B. Wang, H. Song, J. Dang, F. Shen, H. Zhang, L. Wang, M. Xie, J. Liu, J. Weng
In IEEE International Conference on Multimedia & Expo (ICME 2025).
Visual Content Generation in the Era of Large Foundation Models.
L. Qu, F. Shen, Z. Zhou, J. Lyu, W. Wang, L. Jiang
In ACM International Conference on Multimedia Retrieval (ICMR 2025).
SPEAK: Speech-Driven Pose and Emotion-Adjustable Talking Head Generation.
C. Cai, G. Guo, J. Li, J. Su, F. Shen, C. He, J. Xiao, Y. Chen, L. Dai, F. Zhu
In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2025).
Towards Maximizing Semantic Coverage for Image-Text Retrieval.
J. Xu, Z. Liu, Z. Chen, F. Shen
In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2025).
PrimeK-Net: Multi-scale Spectral Learning via Group Prime-Kernel Convolutional Neural Networks for Single Channel Speech Enhancement.
Z. Lin, J. Wang, R. Li, F. Shen, X. Xuan
In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2025).
IMAGPose: A unified conditional framework for pose-guided person generation.
F. Shen, J. Tang
In Neural Information Processing Systems (NeurIPS 2024).
Triplet contrastive representation learning for unsupervised vehicle re-identification.
F. Shen, X. Du, L. Zhang, X. Shu, J. Tang
In ACM Transactions on Multimedia Computing, Communications and Applications (ACM TOMM 2024).
Enhancing Aerial Object Detection with Selective Frequency Interaction Network.
W. Weng, M. Wei, J. Ren, F. Shen^✉
In IEEE Transactions on Artificial Intelligence (IEEE TAI 2024).
Exploring LR-FPN: Enhancing Remote Sensing Object Detection with Location Refined Feature Pyramid Network.
H. Li, R. Zhang, Y. Pan, J. Ren, F. Shen^✉
In International Joint Conference on Neural Networks (IJCNN 2024).
Exploring warping-guided features via adaptive latent diffusion model for virtual try-on.
B. Gao, J. Ren, F. Shen^✉, M. Wei, Z. Huang
In IEEE International Conference on Multimedia & Expo (ICME 2024).
Advancing pose-guided image synthesis with progressive conditional diffusion models.
F. Shen, H. Ye, J. Zhang, C. Wang, X. Han, W. Yang
In International Conference on Learning Representations (ICLR 2024).
Pedestrian-specific bipartite-aware similarity learning for text-based person retrieval.
F. Shen, X. Shu, X. Du, J. Tang
In ACM International Conference on Multimedia (ACM MM 2023).
GiT: Graph interactive transformer for vehicle re-identification.
F. Shen, Y. Xie, J. Zhu, X. Zhu, H. Zeng
In IEEE Transactions on Image Processing (IEEE TIP 2023).
A rubust method for roof extraction and height estimation.
J. Hu, Z. Huang, F. Shen^✉, D. He, Q. Xian
In International Geoscience and Remote Sensing Symposium (IGRSS 2023).
A bag of tricks for fine-grained roof extraction.
J. Hu, Z. Huang, F. Shen^✉, D. He, Q. Xian
In International Geoscience and Remote Sensing Symposium (IGRSS 2023).
A sample‐proxy dual triplet loss function for object re‐identification.
H. Wu, F. Shen, J. Zhu, H. Zeng, X. Zhu, Z. Lei
In IET Image Processing (IET IP 2022).
A novel multi-frequency coordinated module for sar ship detection.
C. Qiao, F. Shen, X. Wang, R. Wang, F. Cao, S. Zhao, C. Li
In International Conference on Tools with Artificial Intelligence (ICTAI 2022).
A Competitive Method for Dog Nose-print Re-identification.
F. Shen, Z. Wang, Z. Huang, X. Fu, J. Chen, X. Du, J. Tang
In IEEE Computer Vision and Pattern Recognition Workshop (CVPRW 2022).
An efficient multiresolution network for vehicle reidentification.
F. Shen, J. Zhu, X. Zhu, J. Huang, H. Zeng, Z. Lei, C. Cai
In IEEE Internet of Things Journal (IOTJ 2022).
Enhancing part features via contrastive attention module for vehicle re-identification.
M. Li, M. Wei, X. He, F. Shen^✉
In International Conference on Image Processing (ICIP 2022).
Hsgm: A hierarchical similarity graph module for object re-identification.
F. Shen, X. Peng, L. Wang, X. Hao, M. Shu, Y. Wang
In IEEE International Conference on Multimedia & Expo (ICME 2022).
Object Re-identification Using Teacher-Like and Light Students.
Y. Xie, H. Wu, F. Shen, J. Zhu, H. Zeng
In British Machine Vision Conference (BMVC 2022).
A Competitive Method to VIPriors Object Detection Challenge.
F. Shen, X. He, M. Wei, Y. Xie
In European Conference on Computer Vision (ECCVW 2022).
Exploring spatial significance via hybrid pyramidal graph network for vehicle re-identification.
F. Shen, J. Zhu, X. Zhu, Y. Xie, J. Huang
In IEEE Transactions on Intelligent Transportation Systems (IEEE TITS 2022).

Fei Shen

Publications

Preprint Papers

Accept Articles