MCG@NJU Multimedia Computing Group, Nanjing University

Research Paper

2025

Lei Chen, Zhan Tong, Yibing Song, Gangshan Wu, Limin Wang. CycleACR: Cycle Modeling of Actor-Context Relations for Video Action Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), to appear.
Shuai Wang, Yao Teng, Limin Wang. Deep Equilibrium Object Detection and Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), to appear.
Jiashuo Yu, Yue Wu, Meng Chu, Zhifei Ren, Zizheng Huang, Pei Chu, Ruijie Zhang, Yinan He, Qirui Li, Songze Li, Zhenxiang Li, Zhongying Tu, Conghui He, Yu Qiao, Yali Wang, Yi Wang, Limin Wang. VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos. IEEE International Conference on Computer Vision (ICCV 2025). [paper][code]
Chenting Wang, Kunchang Li, Tianxiang Jiang, Xiangyu Zeng, Yi Wang, Limin Wang. Make Your Training Flexible: Towards Deployment-Efficient Video Models. IEEE International Conference on Computer Vision (ICCV 2025). [paper][code]
Fengyuan Shi, Zhuoyan Luo, Yixiao Ge, Yujiu Yang, Ying Shan, Limin Wang. Scalable Image Tokenization with Index Backpropagation Quantization. IEEE International Conference on Computer Vision (ICCV 2025). [paper][code]
Jun Zhang, Desen Meng, Ji Qi, Zhenpeng Huang, Tao Wu, Limin Wang. p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay. IEEE International Conference on Computer Vision (ICCV 2025). [paper][code]
Min Yang, Zihan Jia, Zhilin Dai, Sheng Guo, Limin Wang. MobileViCLIP: An Efficient Video-Text Model for Mobile Devices. IEEE International Conference on Computer Vision (ICCV 2025). [paper]
Shuai Wang, Zexian Li, Qipeng zhang, Tianhui Song, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang. Differentiable Solver Search for Fast Diffusion Sampling. The Forty-Second International Conference on Machine Learning (ICML 2025). [paper][code]
Zizheng Huang, Haoxing Chen, Jiaqi Li, Jun Lan, Huijia Zhu, Weiqiang Wang, Limin Wang. Stochastic Layer-Wise Shuffle for Improving Vision Mamba Training. The Forty-Second International Conference on Machine Learning (ICML 2025). [paper][code]
Jiaming Zhang, Yutao Cui, Gangshan Wu, Limin Wang. JointFormer: A Unified Framework with Joint Modeling for Video Object Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), to appear. [paper][code]
Jiange Yang, Haoyi Zhu, Yating Wang, Gangshan Wu, Tong He, Limin Wang. Tra-MoE: Learning Trajectory Prediction Model from Multiple Domains for Adaptive Policy Conditioning. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2025). [paper]
Hanlin Wang, Zhan Tong, Kecheng Zheng, Yujun Shen, Limin Wang. Contextual AD Narration with Interleaved Multimodal Sequence. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2025). [paper]
Hanlin Wang, Hao Ouyang, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Qifeng Chen, Yujun Shen, Limin Wang. LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2025). [paper][code]
Zhenpeng Huang, Xinhao Li, Jiaqi Li, Jing Wang, Xiangyu Zeng, Cheng Liang, Tao Wu, Xi Chen, Liang Li, Limin Wang. Online Video Understanding: A Comprehensive Benchmark and Memory-Augmented Method. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2025). [paper]
Ruopeng Gao, Ji Qi, Limin Wang. Multiple Object Tracking as ID Prediction. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2025). [paper][code]
Ziang Yan, Zhilin Li, Yinan He, Chenting Wang, Kunchang Li, Xinhao Li, Xiangyu Zeng, Zilei Wang, Yali Wang, Yu Qiao, Limin Wang, Yi Wang. Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2025). [paper][code]
Xin Liu, Jie Liu, Jie Tang, and Gangshan Wu. CATANet: Efficient Content-Aware Token Aggregation for Lightweight Image Super-Resolution. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2025).
Yuheng Xu, Shijie Yang, Xin Liu, Jie Liu, Jie Tang, and Gangshan Wu. AutoLUT: LUT-Based Image Super-Resolution with Automatic Sampling and Adaptive Residual Learning. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2025). [paper][code]
Xiangyu Zeng, Kunchang Li, Chenting Wang, Xinhao Li, Tianxiang Jiang, Ziang Yan, Songze Li, Yansong Shi, Zhengrong Yue, Yi Wang, Yali Wang, Yu Qiao, Limin Wang. CTimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning. The Thirteenth International Conference on Learning Representations (ICLR 2025). [paper]
Guo Chen, Yicheng Liu, Yifei Huang, Yuping He, Baoqi Pei, Jilan Xu, Yali Wang, Tong Lu, Limin Wang. CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding. The Thirteenth International Conference on Learning Representations (ICLR 2025). [paper][code]
Baoqi Pei, Yifei Huang, Jilan Xu, Guo Chen, Yuping He, Lijin Yang, Yali Wang, Weidi Xie, Yu Qiao, Fei Wu, Limin Wang. Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning. The Thirteenth International Conference on Learning Representations (ICLR 2025). [paper]
Zun Wang, Jialu Li, Yicong Hong, Songze Li, Kunchang Li, Shoubin Yu, Yi Wang, Yu Qiao, Yali Wang, Mohit Bansal, Limin Wang. Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel. The Thirteenth International Conference on Learning Representations (ICLR 2025). [paper][code]
Haoyi Zhu, Honghui Yang, Yating Wang, Jiange Yang, Limin Wang, Tong He. SPA: 3D Spatial-Awareness Enables Effective Embodied Representation. The Thirteenth International Conference on Learning Representations (ICLR 2025). [paper][code]
Qingyun Li, many other authors, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai. OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text. The Thirteenth International Conference on Learning Representations (ICLR 2025). [paper]

2024

Hanlin Wang, Yilu Wu, Sheng Guo, Limin Wang. PDPP: Projected Diffusion for Procedure Planning in Instructional Videos. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), to appear. [paper][code]
Shuai Wang, Zexian Li, Tianhui Song, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang. Exploring DCN-like Architectures for Fast Image Generation with Arbitrary Resolution. Thirty-eighth Conference on Neural Information Processing Systems (NeurIPS 2024). [paper][code]
Yuhan Zhu, Yuyang Ji, Zhiyu Zhao, Gangshan Wu, Limin Wang. AWT: Transferring Vision-Language Models via Augmentation, Weighting, and Transportation. Thirty-eighth Conference on Neural Information Processing Systems (NeurIPS 2024). [paper][code]
Guozhen Zhang, Chunxu Liu, Yutao Cui, Xiaotong Zhao, Kai Ma, Limin Wang. VFIMamba: Video Frame Interpolation with State Space Models. Thirty-eighth Conference on Neural Information Processing Systems (NeurIPS 2024). [paper][code]
Qingsong Zhao, Yi Wang, Jilan Xu, Yinan He, Zifan Song, Limin Wang, Yu Qiao, Cairong Zhao. Does Video-Text Pretraining Help Open-Vocabulary Online Action Detection? Thirty-eighth Conference on Neural Information Processing Systems (NeurIPS 2024). [paper][code]
Yi Wang, Kunchang Li, Xinhao Li, Jiashuo Yu, Yinan He, Chenting Wang, Guo Chen, Baoqi Pei, Ziang Yan, Rongkun Zheng, Jilan Xu, Zun Wang, Yansong Shi, Tianxiang Jiang, Songze Li, Hongjie Zhang, Yifei Huang, Yu Qiao, Yali Wang, Limin Wang. InternVideo2: Scaling Foundation Models for Multimodal Video Understanding. European Conference on Computer Vision (ECCV 2024). [paper][code]
Kunchang Li, Xinhao Li, Yi Wang, Yinan He, Yali Wang, Limin Wang, Yu Qiao. VideoMamba: State Space Model for Efficient Video Understanding. European Conference on Computer Vision (ECCV 2024). [paper][code]
Xinhao Li, Yuhan Zhu, Limin Wang. ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to Video. European Conference on Computer Vision (ECCV 2024). [paper]
Haisong Liu, Yang Chen, Haiguang Wang, Zetong Yang, Tianyu Li, Jia Zeng, Li Chen, Hongyang Li, Limin Wang. Fully Sparse 3D Occupancy Prediction. European Conference on Computer Vision (ECCV 2024). [paper][code]
Chen Xu, Tianhui Song, Weixin Feng, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang. Accelerating Image Generation with Sub-path Linear Approximation Model. European Conference on Computer Vision (ECCV 2024). [paper]
Yutao Cui, Xiaotong Zhao, Guozhen Zhang, Shengming Cao, Kai Ma, Limin Wang. StableDrag: Stable Dragging for Point-based Image Editing. European Conference on Computer Vision (ECCV 2024). [paper]
Haonan Wang, Jie Liu, Jie Tang, Gangshan Wu, Bo Xu, Yanbing Chou, Yong Wang. GTPT: Group-based Token Pruning Transformer for Efficient Human Pose Estimation. European Conference on Computer Vision (ECCV 2024). [paper]
Chen Xu, Yuhan Zhu, Haocheng Shen, Boheng Chen, Yixuan Liao, Xiaoxin Chen, Limin Wang. Progressive Visual Prompt Learning with Contrastive Feature Re-formation. International Journal of Computer Vision (IJCV), to appear. [paper]
Yixuan Li, Zhenzhi Wang, Zhifeng Li, Limin Wang. Sparse Action Tube Detection. IEEE Transactions on Image Processing (TIP), Volume 33, Pages 1740-1752, 2024. [paper]
Jintao Lin, Zhaoyang Liu, Wenhai Wang, Wayne Wu, Limin Wang. VLG: General Video Recognition with Web Textual Knowledge. International Journal of Computer Vision (IJCV), to appear.
Tao Wu, Mengqi Cao, Ziteng Gao, Gangshan Wu, Limin Wang. STMixer: A One-Stage Sparse Action Detector. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), to appear.
Tao Lu, Mulin Yu, Linning Xu, Yuanbo Xiangli, Limin Wang, Dahua Lin, Bo Dai. Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2024). [paper]
Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang, Yi Liu, Zun Wang, Jilan Xu, Guo Chen, Ping Luo, Limin Wang, Yu Qiao. MVBench: A Comprehensive Multi-modal Video Understanding Benchmark. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2024). [paper]
Fengyuan Shi, Jiaxi Gu, Hang Xu, Songcen Xu, Wei Zhang, Limin Wang. BIVDiff: A Training-free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion Models. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2024). [paper]
Zhiyu Zhao, Bingkun Huang, Sen Xing, Gangshan Wu, Yu Qiao, Limin Wang. Asymmetric Masked Distillation for Pre-Training Small Foundation Models. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2024). [paper]
Min Yang, Huan Gao, Ping Guo, Limin Wang. Adapting Short-Term Transformers for Action Detection in Untrimmed Videos. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2024). [paper]
Yuhan Zhu, Guozhen Zhang, Jing Tan, Gangshan Wu, Limin Wang. Dual DETRs for Multi-Label Temporal Action Detection. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2024).
Chunxu Liu, Guozhen Zhang, Rui Zhao, Limin Wang. Sparse Global Matching for Video Frame Interpolation with Large Motion. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2024). [paper][code]
Tao Wu, Runyu He, Gangshan Wu, Limin Wang. SportsHHI: A Dataset for Human-Human Interaction Detection in Sports Videos. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2024).
Yifei Huang, Guo Chen, Jilan Xu, Mingfang Zhang, Lijin Yang, Baoqi Pei, Hongjie Zhang, Lu Dong, Yali Wang, Limin Wang, Yu Qiao. EgoBridge: A Dataset for Bridging Asynchronous First- and Third-Person View of Activities in Real World. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2024).
Ziqi Huang, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang, Tianxing Wu, Qingyang Jin, Nattapol Chanpaisit, Yaohui Wang, Xinyuan Chen, Limin Wang, Dahua Lin, Yu Qiao, Ziwei Liu. VBench: Comprehensive Benchmark Suite for Video Generative Models. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2024). [paper][code]
Ziteng Gao, Zhan Tong, Limin Wang, Mike Zheng Shou. SparseFormer: Sparse Visual Recognition via Limited Latent Tokens. The Twelfth International Conference on Learning Representations (ICLR 2024). [paper][code]
Yi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinhao Li, Guo Chen, Xinyuan Chen, Yaohui Wang, Conghui He, Ping Luo, Ziwei Liu, Yali Wang, Limin Wang, Yu Qiao. InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation. The Twelfth International Conference on Learning Representations (ICLR 2024). [paper][code]
Yutao Cui, Cheng Jiang, Gangshan Wu, Limin Wang. MixFormer: End-to-End Tracking with Iterative Mixed Attention. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), to appear. [paper]

2023

Liang Zhao, Yao Teng, Limin Wang. Logit Normalization for Long-tail Object Detection. International Journal of Computer Vision (IJCV), to appear. [paper]
Haisong Liu, Tao Lu, Yihui Xu, Jia Liu, Limin Wang. Learning Optical Flow and Scene Flow with Bidirectional Camera-LiDAR Fusion. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), to appear. [paper][code]
Tao Lu, Chunxu Liu, Youxin Chen, Gangshan Wu, Limin Wang. APP-Net: Auxiliary-point-based Push and Pull Operations for Efficient Point Cloud Classification. IEEE Transactions on Image Processing (TIP), to appear. [paper][code]
Fengyuan Shi, Ruopeng Gao, Weilin Huang, Limin Wang. Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), to appear. [paper]
Keqiang Sun, Junting Pan, Yuying Ge, Hao Li, Haodong Duan, Xiaoshi Wu, Renrui Zhang, Aojun Zhou, Zipeng Qin, Yi Wang, Jifeng Dai, Yu Qiao, Limin Wang, Hongsheng Li. JourneyDB: A Benchmark for Generative Image Understanding. Thirty-seventh Conference on Neural Information Processing Systems (NeurIPS), 2023. [paper]
Yutao Cui, Tianhui Song, Gangshan Wu, Limin Wang. MixFormerV2: Efficient Fully Transformer Tracking. Thirty-seventh Conference on Neural Information Processing Systems (NeurIPS), 2023. [paper][code]
Jun Tu, Gangshan Wu, Limin Wang. Dual Graph Networks for Pose Estimation in Crowded Scenes. International Journal of Computer Vision (IJCV), to appear.
Zuxian Huang, Gangshan Wu, Limin Wang. Webly-Supervised Semantic Segmentation via Curriculum Learning in Computer Vision and Image Understanding. Computer Vision and Image Understanding (CVIU), to appear.
Hongjie Zhang, Yi Liu, Yali Wang, Limin Wang, Yu Qiao. Learning Discriminative Feature Representation for Open Set Action Recognition. ACM International Conference on Multimedia (ACM MM 2023). [paper]
Yue Feng, Zhengye Zhang, Rong Quan, Limin Wang, Jie Qin. RefineTAD: Learning Proposal-free Refinement for Temporal Action Detection. ACM International Conference on Multimedia (ACM MM 2023). [paper]
Runze Liu, Yaqun Fang, Fan Yu, Ruiqi Tian, Tongwei Ren, Gangshan Wu. Deep Video Understanding with Video-Language Model. ACM International Conference on Multimedia (ACM MM 2023). [paper]
Haonan Wang, Jie Liu, Jie Tang, and Gangshan Wu. Lightweight Super-Resolution Head for Human Pose Estimation. ACM International Conference on Multimedia (ACM MM 2023). [paper]
Yating Tian, Hongwen Zhang, Yebin Liu, Limin Wang. Recovering 3D Human Mesh from Monocular Images: A Survey. Transactions on Pattern Analysis and Machine Intelligence (TPAMI), to appear. [paper]
Bingkun Huang, Zhiyu Zhao, Guozhen Zhang, Yu Qiao, Limin Wang. MGMAE: Motion Guided Masking for Video Masked Autoencoding. IEEE International Conference on Computer Vision (ICCV 2023).
Lei Chen, Zhan Tong, Yibing Song, Gangshan Wu, Limin Wang. Efficient Video Action Detection with Token Dropout and Context Refinement. IEEE International Conference on Computer Vision (ICCV 2023). [paper]
Ruopeng Gao, Limin Wang. MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking. IEEE International Conference on Computer Vision (ICCV 2023).
Yutao Cui, Chenkai Zeng, Xiaoyu Zhao, Yichun Yang, Gangshan Wu, Limin Wang. SportsMOT: A Large Multi-Object Tracking Dataset in Diverse Sports Scenes. IEEE International Conference on Computer Vision (ICCV 2023). [paper]
Haisong Liu, Yao Teng, Tao Lu, Haiguang Wang, Limin Wang. SparseBEV: Sparse 3D Object Detection from Multi-Camera Videos. IEEE International Conference on Computer Vision (ICCV 2023).
Yao Teng, Haisong Liu, Sheng Guo, Limin Wang. StageInteractor: Query-based Object Detector with Cross-stage Interaction. IEEE International Conference on Computer Vision (ICCV 2023). [paper]
Shuai Wang, Yao Teng, Limin Wang. Deep Equilibrium Object Detection. IEEE International Conference on Computer Vision (ICCV 2023).
Jiahao Wang, Guo Chen, Yifei Huang, Limin Wang, Tong Lu. Memory-and-Anticipation Transformer. IEEE International Conference on Computer Vision (ICCV 2023).
Kunchang Li, Yali Wang, Yizhuo Li, Yi Wang, Yinan He, Limin Wang, Yu Qiao. Unmasked Teacher: Towards Training-Efficient Video Foundation Models. IEEE International Conference on Computer Vision (ICCV 2023). [paper]
Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang, Limin Wang, Yu Qiao. UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer. IEEE International Conference on Computer Vision (ICCV 2023). [paper]
Yidong Cai, Jie Liu, Jie Tang, Gangshan Wu. Robust Object Modeling for Visual Tracking. IEEE International Conference on Computer Vision (ICCV 2023).
Jing Tan, Yuhong Wang, Gangshan Wu, Limin Wang. Temporal Perceiver: A General Architecture for Arbitrary Boundary Detection. Transactions on Pattern Analysis and Machine Intelligence (TPAMI), to appear. [paper]
Chang Zhou, Jie Liu, Jie Tang, and Gangshan Wu. Video Frame Interpolation with Densely Queried Bilateral Correlation. International Joint Conference on Artificial Intelligence (IJCAI 2023). [paper]
Limin Wang, Bingkun Huang, Zhiyu Zhao, Zhan Tong, Yinan He, Yi Wang, Yali Wang, Yu Qiao. VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2023). [paper]
Tao Wu, Mengqi Cao, Ziteng Gao, Gangshan Wu, Limin Wang. STMixer: A One-Stage Sparse Action Detector. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2023). [paper]
Guozhen Zhang, Yuhan Zhu, Haonan Wang, Youxin Chen, Gangshan Wu, Limin Wang. Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame Interpolation. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2023). [paper][code]
Hanlin Wang, Yilu Wu, Sheng Guo, Limin Wang. PDPP: Projected Diffusion for Procedure Planning in Instructional Videos. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2023). [paper]
Tao Lu, Xiang Ding, Haisong Liu, Gangshan Wu, Limin Wang. LinK: Linear Kernel for LiDAR-based 3D Perception. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2023). [paper][code]
Jiange Yang, Sheng Guo, Gangshan Wu, Limin Wang. CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets. AAAI Conference on Artificial Intelligence (AAAI 2023). [paper]
Jie Liu, Chao Chen, Jie Tang, Gangshan Wu. From Coarse to Fine: Hierarchical Pixel Integration for Lightweight Image Super-Resolution. AAAI Conference on Artificial Intelligence (AAAI 2023). [paper]
Haoyue Cheng, Zhaoyang Liu, Wayne Wu, Limin Wang. Filter-Recovery Network for Multi-Speaker Audio-Visual Speech Separation. The Eleventh International Conference on Learning Representations (ICLR 2023). [paper]
Ziteng Gao, Limin Wang, Gangshan Wu. LIP: Local Importance-based Pooling. International Journal of Computer Vision (IJCV), Volume 131, Issue 1, Pages 363-384, 2023. [paper][code]

2022

Yi Liu, Limin Wang, Yali Wang, Xiao Ma, Yu Qiao. FineAction: A Fine-Grained Video Dataset for Temporal Action Localization. IEEE Transactions on Image Processing (TIP), Volume 31, 2022. [paper]
Zhan Tong, Yibing Song, Jue Wang, Limin Wang. VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training. Thirty-sixth Conference on Neural Information Processing Systems (NeurIPS), 2022. [paper][code]
Jing Tan, Xiaotong Zhao, Xintian Shi, Bin Kang, Limin Wang. PointTAD: Multi-Label Temporal Action Detection with Learnable Query Points. Thirty-sixth Conference on Neural Information Processing Systems (NeurIPS), 2022. [paper]
Yutao Cui, Cheng Jiang, Limin Wang, Gangshan Wu. Fully Convolutional Online Tracking. Computer Vision and Image Understanding (CVIU), Nov 2022. [paper][code]
Dapeng Du, Jiawei Chen, Yuexiang Li, Kai Ma, Gangshan Wu, Yefeng Zheng, Limin Wang. Cross-Domain Gated Learning for Domain Generalization. International Journal of Computer Vision (IJCV), Volume 130, Issue 11, Pages 2842–2857, 2022. [paper]
Haoyue Cheng, Zhaoyang Liu, Hang Zhou, Chen Qian, Wayne Wu, Limin Wang. Joint-Modal Label Denoising for Weakly-Supervised Audio-Visual Video Parsing. European Conference on Computer Vision (ECCV'22), Tel-Aviv, Israel, 2022. [paper]
Zongcai Du, Ding Liu, Jie Liu, Jie Tang, Gangshan Wu, Lean Fu. Fast and Memory-Efficient Network Towards Efficient Image Super-Resolution. IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPR'22 Workshops), New Orleans, Louisiana, USA, 2022. [paper]
Yawei Li, Kai Zhang, Radu Timofte, Luc Van Gool, Fangyuan Kong, Mingxi Li, Songwei Liu, Zongcai Du, Ding Liu, Chenhui Zhou, Jingyi Chen, Qingrui Han, Zheyuan Li, Yingqi Liu, Xiangyu Chen, Haoming Cai, Yu Qiao, Chao Dong, Long Sun, Jinshan Pan, Yi Zhu, Zhikai Zong, Xiaoxiao Liu, Zheng Hui, Tao Yang, Peiran Ren, Xuansong Xie, Xian-Sheng Hua, Yanbo Wang, Xiaozhong Ji, Chuming Lin, Donghao Luo, Ying Tai, Chengjie Wang, Zhizhong Zhang, Yuan Xie, Shen Cheng, Ziwei Luo, Lei Yu, Zhihong Wen, Qi Wu, Youwei Li, Haoqiang Fan, Jian Sun, Shuaicheng Liu, Yuanfei Huang, Meiguang Jin, Hua Huang, Jing Liu, Xinjian Zhang, Yan Wang, Lingshun Long, Gen Li, Yuanfan Zhang, Zuowei Cao, Lei Sun, Panaetov Alexander, Yucong Wang, Minjie Cai, Li Wang, Lu Tian, Zheyuan Wang, Hongbing Ma, Jie Liu, Chao Chen, Yidong Cai, Jie Tang, Gangshan Wu, Weiran Wang, Shirui Huang, Honglei Lu, Huan Liu, Keyan Wang, Jun Chen, Shi Chen, Yuchun Miao, Zimo Huang, Lefei Zhang, Mustafa Ayazoglu, Wei Xiong, Chengyi Xiong, Fei Wang, Hao Li, Ruimian Wen, Zhijing Yang, Wenbin Zou, Weixin Zheng, Tian Ye, Yuncheng Zhang, Xiangzhen Kong, Aditya Arora, Syed Waqas Zamir, Salman H. Khan, Munawar Hayat, Fahad Shahbaz Khan, Dandan Gao, Dengwen Zhou, Qian Ning, Jingzhu Tang, Han Huang, Yufei Wang, Zhangheng Peng, Haobo Li, Wenxue Guan, Shenghua Gong, Xin Li, Jun Liu, Wanjun Wang, Kun Zeng, Hanjiang Lin, Xinyu Chen, Jinsheng Fang. NTIRE 2022 Challenge on Efficient Super-Resolution: Methods and Results. IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPR'22 Workshops), New Orleans, Louisiana, USA, 2022. [paper]
Yutao Cui, Cheng Jiang, Limin Wang, Gangshan Wu. MixFormer: End-to-End Tracking with Iterative Mixed Attention. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'22), New Orleans, Louisiana, USA, 2022. [paper]
Ziteng Gao, Limin Wang, Bing Han, Sheng Guo. AdaMixer: A Fast-Converging Query-Based Object Detector. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'22), New Orleans, Louisiana, USA, 2022. [paper]
Liang Zhao, Limin Wang. Task-specific Inconsistency Alignment for Domain Adaptive Object Detection. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'22), New Orleans, Louisiana, USA, 2022. [paper]
Yao Teng, Limin Wang. Structured Sparse R-CNN for Direct Scene Graph Generation. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'22), New Orleans, Louisiana, USA, 2022. [paper]
Jintao Lin, Haodong Duan, Kai Chen, Dahua Lin, Limin Wang. OCSampler: Compressing Videos to One Clip with Single-step Sampling. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'22), New Orleans, Louisiana, USA, 2022. [paper]
Jiaqi Tang, Zhaoyang Liu, Chen Qian, Wayne Wu, Limin Wang. Progressive Attention on Multi-Level Dense Difference Maps for Generic Event Boundary Detection. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'22), New Orleans, Louisiana, USA, 2022. [paper]
Sheng Guo, Zihua Xiong, Yujie Zhong, Limin Wang, Xiaobo Guo, Bing Han, Weilin Huang. Cross-Architecture Self-supervised Video Representation Learning. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'22), New Orleans, Louisiana, USA, 2022. [paper]
Haisong Liu, Tao Lu, Yihui Xu, Jia Liu, Wenjie Li, Lijun Chen. CamLiFlow: Bidirectional Camera-LiDAR Fusion for Joint Optical Flow and Scene Flow Estimation. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'22), New Orleans, Louisiana, USA, 2022. [paper]
Guo Chen, Yindong Zheng, Limin Wang, Tong Lu. DCAN: Improving Temporal Action Detection via Dual Context Aggregation. AAAI Conference on Artificial Intelligence (AAAI’22), Vancouver, BC, Canada, 2022. [paper]
Zhenzhi Wang, Limin Wang, Tao Wu, Tianhao Li, Gangshan Wu. Negative Sample Matters: A Renaissance of Metric Learning for Temporal Grounding. AAAI Conference on Artificial Intelligence (AAAI’22), Vancouver, BC, Canada, 2022. [paper]

2021

Zhe Zhang, Jie Tang, Gangshan Wu. Lightweight Human Pose Estimation under Resource-Limited Scenes. International Conference on Acoustics, Speech, and Signal Processing (ICASSP'21), Singapore, 2021. [paper]
Zhe Feng, Jie Tang, Yishun Dou, Gangshan Wu. Learning Discriminative Features for Semi-Supervised Anomaly Detection. International Conference on Acoustics, Speech, and Signal Processing (ICASSP'21), Singapore, 2021. [paper]
Fan Yu, Haonan Wang, Tongwei Ren, Jinhui Tang, Gangshan Wu, Jingjing Chen, Zhenzhong Kuang. Reproducibility Companion Paper: Visual Relation of Interest Detection. ACM International Conference on Multimedia (MM'21), Chengdu, China, 2021. [paper]
Beibei Zhang, Fan Yu, Yanxin Gao, Tongwei Ren, Gangshan Wu. Joint Learning for Relationship and Interaction Analysis in Video with Multimodal Feature Fusion. ACM International Conference on Multimedia (MM'21), Chengdu, China, 2021. [paper]
Liwei Jin, Haoyue Cheng, Su Xu, Wayne Wu, Limin Wang. NJU MCG - Sensetime Team Submission to Pre-training for Video Understanding Challenge Track II. ACM International Conference on Multimedia (MM'21), Chengdu, China, 2021. [paper]
Zhenxi Zhu, Limin Wang, Sheng Guo, Gangshan Wu. A Closer Look at Few-Shot Video Classification: A New Baseline and Benchmarks. The British Machine Vision Conference (BMVC'21), Virtual, 2021. [paper]
Yixuan Li, Lei Chen, Runyu He, Zhenzhi Wang, Gangshan Wu, Limin Wang. MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions. IEEE International Conference on Computer Vision (ICCV'21), Virtual, 2021. [paper]
Tianhao Li, Limin Wang, Gangshan Wu. Self Supervision to Distillation for Long-Tailed Visual Recognition. IEEE International Conference on Computer Vision (ICCV'21), Virtual, 2021. [paper]
Ziteng Gao, Limin Wang, Gangshan Wu. Mutual Supervision for Dense Object Detection. IEEE International Conference on Computer Vision (ICCV'21), Virtual, 2021. [paper]
Yao Teng, Limin Wang, Zhifeng Li, Gangshan Wu. Target Adaptive Context Aggregation for Video Scene Graph Generation. IEEE International Conference on Computer Vision (ICCV'21), Virtual, 2021. [paper]
Zhaoyang Liu, Limin Wang, Wayne Wu, Chen Qian, Tong Lu. TAM: Temporal Adaptive Module for Video Recognition. IEEE International Conference on Computer Vision (ICCV'21), Virtual, 2021. [paper]
Jing Tan, Jiaqi Tang, Limin Wang, Gangshan Wu. Relaxed Transformer Decoders for Direct Action Proposal Gen. IEEE International Conference on Computer Vision (ICCV'21), Virtual, 2021. [paper]
Yuan Zhi, Zhan Tong, Limin Wang, Gangshan Wu. MGSampler: An Explainable Sampling Strategy for Video Action Recognition. IEEE International Conference on Computer Vision (ICCV'21), Virtual, 2021. [paper]
Hongwen Zhang, Yating. Tian, Xinchi. Zhou, Wanli Ouyang, Yebin Liu, Limin Wang, Zhenan Sun. 3D Human Pose and Shape Regression with Pyramidal Mesh Alignment Feedback Loop. IEEE International Conference on Computer Vision (ICCV'21), Virtual, 2021. [paper]
Zeyu Ruan, Changqing Zou, Longhai Wu, Gangshan Wu, Limin Wang. SADRNet: Self-Aligned Dual Face Regression Networks for Robust 3D Face Alignment and Reconstruction. IEEE Transactions on Image Processing (TIP), to appear. [paper]
Dapeng Du, Limin Wang, Zhaoyang Li, Gangshan Wu. Cross-Modal Pyramid Translation for RGB-D Scene Recognition. International Journal of Computer Vision (IJCV), to appear. [paper]
Tao Lu, Limin Wang, Gangshan Wu. CGA-Net: Category Guided Aggregation for Point Cloud Semantic Segmentation. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'21), Virtual, 2021. [paper]
Limin Wang, Zhan Tong, Bin Ji, Gangshan Wu. TDN: Temporal Difference Networks for Efficient Action Recognition. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'21), Virtual, 2021. [paper]

2020

Fan Yu, Haonan Wang, Tongwei Ren, Jinhui Tang, Gangshan Wu. Visual Relation of Interest Detection. ACM International Conference on Multimedia (MM'20), Seattle, USA, 2020. [paper]
Jie Liu, Minqiang Zou, Jie Tang, Gangshan Wu. Memory Recursive Network for Single Image Super-Resolution. ACM International Conference on Multimedia (MM'20), Seattle, USA, 2020. [paper]
Fan Yu, Dandan Wang, Haonan Wang, Tongwei Ren, Jinhui Tang, Gangshan Wu, Jingjing Chen, Michael Riegler. Reproducibility Companion Paper: Instance of Interest Detection. ACM International Conference on Multimedia (MM'20-Repro), Seattle, USA, 2020. [paper]
Jie Liu, Yishun Dou, Wenjie Zhang, Jie Tang, Gangshan Wu. Belief Map Enhancement Network for Accurate Human Pose Estimation. European Conference on Artificial Intelligence (ECAI'2020), Santiago de Compostela, Spain, 2020. [paper]
Yixuan Li, Zixu Wang, Limin Wang, Gangshan Wu. Actions as Moving Points. European Conference on Computer Vision (ECCV'20), Glasgow, United Kingdom, 2020. [paper]
Jianchao Wu, Zhanghui Kuang, Limin Wang, Wayne Zhang, Gangshan Wu. Context-Aware RCNN: A Baseline for Action Detection in Videos. European Conference on Computer Vision (ECCV'20), Glasgow, United Kingdom, 2020. [paper]
Zhenzhi Wang, Ziteng Gao, Limin Wang, Zhifeng Li, Gangshan Wu. Boundary-Aware Cascade Networks for Temporal Action Segmentation. European Conference on Computer Vision (ECCV'20), Glasgow, United Kingdom, 2020. [paper]
Yin-Dong Zheng, Zhaoyang Liu, Tong Lu, and Limin Wang. Dynamic Sampling Networks for Efficient Action Recognition in Videos. IEEE Transactions on Image Processing (TIP), in press, 2020. [paper]
Jie Liu, Wenjie Zhang, Yuting Tang, Jie Tang and Gangshan Wu. Residual Feature Aggregation Network for Image Super-Resolution. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'20), Seattle, Washington, USA, 2020. [paper]
Chengying Gao, Qi Liu, Qi Xu, Limin Wang, Jianzhuang Liu, Changqing Zou. SketchyCOCO: Image Generation from Freehand Scene Sketches. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'20), Seattle, Washington, USA, 2020. [paper]
Yan Li, Bin Ji, Xintian Shi, Jianguo Zhang, Bin Kang, Limin Wang. TEA: Temporal Excitation and Aggregation for Action Recognition. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'20), Seattle, Washington, USA, 2020. [paper]
Minqiang Zou, Jie Tang, Gangshan Wu. Low Complexity Single Image Super-Resolution With Channel Splitting And Fusion Network. International Conference on Acoustics, Speech, and Signal Processing (ICASSP'20), Barcelona, Spain, 2020. [paper]
Shiwen Zhang, Sheng Guo, Weilin Huang, Matthew R. Scott, Limin Wang. V4D: 4D Convolutional Neural Networks for Video-Level Representation Learning. International Conference on Learning Representations (ICLR'20), Addis Ababa, Ethiopia, 2020. [paper]
Yuxi Li, Weiyao Lin, Tao Wang, John See, Rui Qian, Ning Xu, Limin Wang, Shugong Xu. Finding Action Tubes with a Sparse-to-Dense Framework. AAAI Conference on Artificial Intelligence (AAAI’20), New York, USA, 2020. [paper]
Shiwen Zhang, Sheng Guo, Limin Wang, Weilin Huang, Matthew R. Scott. Knowledge Integration Networks for Action Recognition. AAAI Conference on Artificial Intelligence (AAAI’20), New York, USA, 2020. [paper]
Zhaoyang Liu, Donghao Luo, Yabiao Wang, Limin Wang, Ying Tai, Chengjie Wang, Jilin Li, Feiyue Huang, Tong Lu. TEINet: Towards an Efficient Architecture for Video Recognition. AAAI Conference on Artificial Intelligence (AAAI’20), New York, USA, 2020. [paper]

2019

Xu Sun, Yuan Zi, Tongwei Ren, Jinhui Tang, and Gangshan Wu. Hierarchical Visual Relationship Detection. ACM International Conference on Multimedia (MM'19), Nice, France, 2019. [paper]
Xin Tan, Chun Tao, Tongwei Ren, Jinhui Tang, and Gangshan Wu. Crowd Counting via Multi-layer Regression. ACM International Conference on Multimedia (MM'19), Nice, France, 2019. [paper]
Fan Yu, Haonan Wang, Tongwei Ren, Jinhui Tang, Gangshan Wu. Instance of Interest Detection. ACM International Conference on Multimedia (MM'19), Nice, France, 2019. [paper]
Xu Sun, Tongwei Ren, Yuan Zi, and Gangshan Wu. Video Visual Relation Detection via Multi-modal Feature Fusion. ACM International Conference on Multimedia (MM'19), Nice, France, 2019. [paper]
Yazhou Yao, Zeren Sun, Fumin Shen, Li Liu, Limin Wang, Fan Zhu, Lizhong Ding, Gangshan Wu, Ling Shao. Dynamically Visual Disambiguation of Keyword-based Image Search. International Joint Conference on Artificial Intelligence (IJCAI'19), Macao, China, 2019. [paper]
Ziteng Gao, Limin Wang, and Gangshan Wu. LIP: Local Importance-based Pooling. IEEE International Conference on Computer Vision (ICCV'19), Seoul, Korea, 2019. [paper]
Yue Zhao, Yuanjun Xiong, Limin Wang, Zhirong Wu, Xiaoou Tang, and Dahua Lin. Temporal Action Detection with Structured Segment Networks. International Journal of Computer Vision (IJCV'19), 2019. [paper]
Dapeng Du, Limin Wang, Huiling Wang, Kai Zhao, Gangshan Wu. Translate-to-Recognize Networks for RGB-D Scene Recognition. IEEE Conference on Computer Vision and Pattern Recognition (CVPR’19), Long Beach, California, USA, 2019. [paper]
Jianchao Wu, Limin Wang, Li Wang, Jie Guo, Gangshan Wu. Learning Actor Relation Graphs for Group Activity Recognition. IEEE Conference on Computer Vision and Pattern Recognition (CVPR’19), Long Beach, California, USA, 2019. [paper]
Dongliang He, Zhichao Zhou, Chuang Gan, Fu Li, Xiao Liu, Yandong Li, Limin Wang, Shilei Wen. StNet: Local and Global Spatial-Temporal Modeling for Action Recognition. AAAI Conference on Artificial Intelligence (AAAI’19), 2019. [paper]
Limin Wang, Yuanjun Xiong, Zhe Wang, Yu Qiao, Dahua Lin, Xiaoou Tang, and Luc Van Gool. Temporal Segment Networks for Action Recognition in Videos. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), Volume 41, Issue 11, Pages 2740-2755, 2019. [paper]

2018

Xingyu Liu, Jingfan Guo, Tongwei Ren, Yahong Han, Lei Huang, and Gangshan Wu. HeterStyle: a heterogeneous video style transfer application. ACM International Conference on Multimedia Demo (MM’18 Demo), Seoul, Korea, 2018.
Fan Yu, Xin Tan, Tongwei Ren, and Gangshan Wu. Human-centric visual relation segmentation using Mask R-CNN and VTransE. Proceedings of European Conference on Computer Vision Workshop and Challenge on Person In Context (ECCVW'18-PIC), Munich, Germany, 2018. [paper]
Xu Sun, Yuantian Wang, Tongwei Ren, Zhi Liu, Zheng-Jun Zha, and Gangshan Wu. Object trajectory proposal via hierarchical volume grouping. Proceedings of ACM International Conference on Multimedia Retrieval (ICMR'18), Yokohama, Japan, 2018. [paper]
Yuantian Wang, Tongwei Ren, Sheng-Hua Zhong, Yan Liu, and Gangshan Wu. Adaptive saliency cuts. Multimedia Tools and Applications (MTAP), 2018. [paper]
Jie Guo, Zuojian Zhou, and Limin Wang. Single Image Highlight Removal with a Sparse and Low-Rank Reflection Model. European Conference on Computer Vision (ECCV'18), 2018. [paper]
Limin Wang, Wei Li, Wen Li, and Luc Van Gool. Appearance-and-Relation Networks for Video Classification. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'18), Salt Lake City, Utah, USA, 2018. [paper]
Dapeng Du, Xiangyang Xu, Tongwei Ren and Gangshan Wu. Depth Images Could Tell Us More: Enhancing Depth Discriminability for RGB-D Indoor Scene Recognition. Proceedings of IEEE International Conference on Multimedia and Expo (ICME'18), San Diego, USA, 2018. [paper]
Xingzhou Luo, Dapeng Du, and Gangshan Wu. Robust and Real-Time Visual Tracking Based on Complementary Learners. International Conference on Multimedia Modeling (MMM'18), Bangkok, Thailand, 2018. [paper]

2017

Dapeng Du, Na Liu, Xiangyang Xu, Gangshan Wu. Don’t Be Confused: Region Mapping Based Visual Place Recognition. Proceedings of Pacific Rim Conference on Multimedia (PCM'17), Harbin, China, 2017. [paper]
Xiangyang Xu, Yuncheng Li, Gangshan Wu and Jiebo Luo. Multi-modal Deep Feature Learning for RGB-D Object Detection. Submitted to Pattern Recognition.
Xiaojia Pu, Gangshan Wu, and Chunfeng Yuan. User-aware topic modeling of online reviews. Multimedia Systems, 2017. [paper]
Xiaojia Pu, Gangshan Wu, and Chunfeng Yuan. Exploring overall opinions for document level sentiment classification with structural SVM. Multimedia Systems, 2017. [paper]
Wenjing Geng, Chunlong Zhang, Gangshan Wu. Adaptive video object proposals by a context-aware model. Multimedia Tools and Applications, 2017. [paper]
Jingfan Guo, Tongwei Ren, Lei Huang, Xingyu Liu, Ming-Ming Cheng, and Gangshan Wu. Video salient object detection via cross-frame cellular automata. IEEE International Conference on Multimedia and Expo (ICME'17), Hong Kong, China, 2017. [paper]
Xindi Shang, Tongwei Ren, Hanwang Zhang, Gangshan Wu, and Tat-Seng Chua. Object trajectory proposal. IEEE International Conference on Multimedia and Expo (ICME'17), Hong Kong, China, 2017.
Jie Liu, Xingkun Gao, Nianyuan Bao, Jie Tang, and Gangshan Wu. Deep convolutional neural networks for pedestrian detection with skip pooling. International Joint Conference on Neural Networks (IJCNN'17), Alaska, USA, 2017. [paper]
Xiaojia Pu, Gangshan Wu, and Chunfeng Yuan. Sentiment analysis with the exploration of overall opinion sentences. International Joint Conference on Neural Networks (IJCNN'17), Alaska, USA, 2017. [paper]

2016

Wenjing Geng, Gangshan Wu. Context-aware video object proposals. International Symposium on Artificial Intelligence and Robotics (ISAIR'16), Wuhan, China, 2016. (best paper) [paper]
Xingkun Gao, Nianyuan Bao, Jie Liu, Jie Tang, and Gangshan Wu. Scalable single-source SimRank computation for large graphs. IEEE International Conference on Parallel and Distributed Systems (ICPADS'16), Wuhan, China, 2016. [paper]
Na Liu, Ran Ju, Tongwei Ren, and Gangshan Wu. A saliency-guided automatic algorithm for single-image refocusing. Proceedings ofInternational Conference on Internet Multimedia Computing and Service (ICIMCS'16), Xi'an, China, 2016. (poster) [paper]
Ben Zhang, Ran Ju, Tongwei Ren, and Gangshan Wu. Say cheese: Personal photography layout recommendation using 3D aesthetics estimation. Proceedings of Pacific Rim Conference on Multimedia (PCM'16), Xi'an, China, 2016. [paper]
Changtian Sun and Gangshan Wu. Depth extraction from a light field camera using weighted median filtering. Proceedings of Pacific Rim Conference on Multimedia (PCM'16), Xi'an, China, 2016. [paper]
Wenjing Geng, Shuzhen Li, Tongwei Ren, and Gangshan Wu. Object proposals using SVM-based integrated model. Proceedings of International Joint Conference on Neural Networks (IJCNN'16), Vancouver, Canada, 2016. [paper]
Wenjing Geng, Dapeng Du, Tongwei Ren, and Gangshan Wu. User-oriented stereo video refocusing by computational cinematographic model. Proceedings of IEEE International Conference on Multimedia and Expo (ICME'16), Seattle, USA, 2016. (poster) [paper]
Tongwei Ren, Yan Liu, Ran Ju, and Gangshan Wu. How important is location information in saliency detection of natural images. Multimedia Tools and Applications, 2016, 75(5):2543-2564. [paper]

2015

Nianyuan Bao, Jie Tang, Xiaoyu Zhang, and Gangshan Wu. A new data replication scheme for PVFS2. Proceedings of International Conference on Algorithms and Architectures for Parallel Processing (ICA3PP'15), Zhangjiajie, China. [paper]
Chen Yang, Jie Tang, Heng Gao, and Gangshan Wu. Pre-stack kirchhoff time migration on Hadoop and Spark. Proceedings of International Conference on Algorithms and Architectures for Parallel Processing (ICA3PP'15), Zhangjiajie, China. [paper]
Xiaoyu Zhang, Jie Tang, Heng Gao, and Gangshan Wu. A dynamic extension and data migration method based on PVFS. Proceedings of International Conference on Algorithms and Architectures for Parallel Processing (ICA3PP'15), Zhangjiajie, China. [paper]
Ran Ju, Tongwei Ren, and Gangshan Wu. StereoSnakes: Contour based consistent object extraction for stereo images. Proceedings of IEEE International Conference on Computer Vision (ICCV'15), Santiago, Chile, 2015. (poster) [paper] [poster] [demo]
Xiaojia Pu, Rong Jin, Gangshan Wu, Dingyi Han, and Gui-Rong Xue. Topic modeling in semantic space with keywords. Proceedings of ACM International Conference on Information and Knowledge Management (CIKM'15), Melbourne, Australia, 2015. [paper]
Ling Ge, Ran Ju, Tongwei Ren, and Gangshan Wu. Interactive RGB-D image segmentation using hierarchical graph cut and geodesic distance. Proceedings of Pacific Rim Conference on Multimedia (PCM'15), Gwangju, Korea, 2015. (best paper runner-up) [paper] [slide]
Ling Ge, Ran Ju, and Gangshan Wu. Combination of region and contour interactive image segmentation. Proceedings of International Conference on Internet Multimedia Computing and Service (ICIMCS'15), Zhangjiajie, China, 2015. [paper]
Heng Gao, Jie Tang, and Gangshan Wu. Parallel surface reconstruction on GPU. Proceedings of International Conference on Internet Multimedia Computing and Service (ICIMCS'15), Zhangjiajie, China, 2015. (best paper honorable mention) [paper]
Ran Ju, Yang Liu, Tongwei Ren, Ling Ge, and Gangshan Wu. Depth-aware salient object detection using anisotropic center-surround difference. Signal Processing: Image Communication, 2015, 38:115-126. [paper]
Danny Z. Chen, Xuehou Tan, Haitao Wang, and Gangshan Wu. Optimal point movement for covering circular regions. Algorithmica, 2015, 72(2):379-399. [paper]
Shuzhen Li, Ran Ju, Tongwei Ren, and Gangshan Wu. Saliency cuts based on adaptive triple thresholding. IEEE International Conference on Image Processing (ICIP'15), Quebec, Canada, 2015. (poster) [paper] [poster]
Xiangyang Xu, Ling Ge, Tongwei Ren and Gangshan Wu. Adaptive integration of depth and color for objectness estimation. IEEE International Conference on Multimedia and Expo (ICME'15), Torino, Italy, 2015. (poster) [paper] [poster]
Wenjing Geng, Ran Ju, Xiangyang Xu, Tongwei Ren, and Gangshan Wu. Flat3D: Browsing stereo images on a conventional screen. International Conference on Multimedia Modeling (MMM'15), Sydney, Australia, 2015. [paper] [webpage]

2014

Yang Yang, Linjun Yang, Gangshan Wu, and Shipeng Li. Image relevance prediction using query-context bag-of-object retrieval model. IEEE Transactions on Multimedia, 2014, 16(6):1700-1712. [paper]
Qiao-Jin Guo, Ning Li, Yu-Bin Yang, Gang-Shan Wu. Image annotation by modeling supporting region graph. Applied Intelligence, 2014, 40(3):389-403. [paper]
Xiangyang Xu, Wenjing Geng, Ran Ju, Yang Yang, Tongwei Ren, and Gangshan Wu. OBSIR: Object-based stereo image retrieval. IEEE International Conference on Multimedia and Expo (ICME'14), Chengdu, China, 2014. (poster) [paper] [slide] [poster] [webpage]
Ran Ju, Ling Ge, Wenjing Geng, Tongwei Ren, and Gangshan Wu. Depth saliency based on anisotropic center-surround difference. IEEE International Conference on Image Processing (ICIP'14), Paris, France, 2014. (poster) [paper] [code] [dataset] [webpage]
Tongwei Ren, Ran Ju, Yan Liu, and Gangshan Wu. How important is location in saliency detection. International Conference on Internet Multimedia Computing and Service (ICIMCS'14), Xiamen, China. (best paper honorable mention) [paper] [slide]
Xiangyang Xu, Tongwei Ren, and Gangshan Wu. CLSH: Cluster-based Locality-Sensitive Hashing. International Conference on Internet Multimedia Computing and Service (ICIMCS'14), Xiamen, China. [paper] [slide]
Wenjing Geng, Yang Yang, Ran Ju, Tongwei Ren, and Gangshan Wu. Fast binocular depth inference via bidirectional motion based interpolation. International Conference on Internet Multimedia Computing and Service (ICIMCS'14), Xiamen, China. (poster) [paper] [slide] [poster]

2013

Xuehou Tan and Gangshan Wu. Approximation algorithms for cutting a convex polyhedron out of a sphere. Theoretical Computer Science, 2013, 508:66-73. [paper]
Yang Yang, Linjun Yang, and Gangshan Wu. Smart thumbnail: Automatic image cropping by mining canonical query objects. Pacific-Rim Conference on Multimedia (PCM'13), Nanjing, China, 2013, 418-429. (best student paper) [paper]
Ran Ju, Yang Yang, Xiangyang Xu, Chunrong Xia, and Gangshan Wu. A complementary aggregation approach for local stereo matching using color and correlation cues. Pacific-Rim Conference on Multimedia (PCM'13), Nanjing, China, 2013, 372-383. [paper] [slide]
Ran Ju, Xiangyang Xu, Yang Yang, and Gangshan Wu. Stereo GrabCut: Interactive and consistent object extraction for stereo images. Pacific-Rim Conference on Multimedia (PCM'13), Nanjing, China, 2013, 418-429. [paper] [slide]
Chunrong Xia, Yang Yang, Ran Ju, and Gangshan Wu. Effective local stereo matching by extended triangular interpolation. IEEE International Conference on Multimedia and Expo (ICME'13), San Jose, USA, 2013, 1-6. (poster) [paper]
Sheng-hua Zhong, Yan Liu, Feifei Ren, Jinghuan Zhang, and Tongwei Ren. Video saliency detection via dynamic consistent spatio-temporal attention modelling. AAAI Conference on Artificial Intelligence (AAAI'13), Bellevue, USA, 2013. [paper] [slide]
Heng Gao, Jie Tang, and Gangshan Wu. A MapReduce computing framework based on GPU cluster. High Performance Computing and Communications & IEEE International Conference on Embedded and Ubiquitous Computing (HPCC_EUC'13), Zhangjiajie, China, 2013, 1902-1907. [paper]
Ying Lin, Yang Yang, Kang Lin, Jinwei Xiao, Gangshan Wu. Video copy detection based on multiple visual features synthesizing. Journal of Image and Graphics, 2013, 18(5):591-599. (in Chinese) [paper]

2012

Yang Yang, Linjun Yang, Gangshan Wu, and Shipeng Li. A bag-of-objects retrieval model for web image search. ACM international conference on Multimedia (MM'12), 2012, 49-58. [paper]
Sheng-hua Zhong, Yan Liu, Fu-lai Chung, and Gangshan Wu. Semiconducting bilinear deep learning for incomplete image recognition. ACM International Conference on Multimedia Retrieval (ICMR'12), 2012, 32. [paper]
Sheng-hua Zhong, Yan Liu, Gangshan Wu. S-SIFT: A shorter SIFT without least discriminative visual orientation. IEEE/WIC/ACM International Conference on Web Intelligence (WI'12), 2012. [paper]
Yu Jin, Xiaoxiang Hu, and GangShan Wu. A Tai Chi training system based on fast skeleton matching algorithm. European Conference on Computer Vision - Workshops and Demonstrations (ECCV'12-D), 2012. [paper]
Danny Z. Chen, Xuehou Tan, Haitao Wang, and Gangshan Wu. Optimal point movement for covering circular regions. International Symposium on Algorithms and Computation (ISAAC'12), Taipei, China, 2012, 332-341. [paper]
Jie Tang, Bo Xu, Zhongliang Gong, Gangshan Wu. Fast fairing of 3D point clouds using CUDA. Journal of System Simulation, 2012, 24(8):1633-1642. (in Chinese) [paper]
Qiaojin Guo, Ning Li, Yubin Yang, Gangshan Wu. LDA-CRF: Object detection based on graphical model. Journal of Computer Research and Development, 2012, 49(11):2296-2304. (in Chinese) [paper]
Pei Yang, Gangshan Wu, Yang Yang, Tongwei Ren. A parallel algorithm for generating template representation based on non-orthogonal binary subspace. Journal of Image and Graphics, 2012, 17(10):1237-1244. (in Chinese) [paper]

2011

Sheng-hua Zhong, Yan Liu, Ling Shao, and Gangshan Wu. Unsupervised saliency detection based on 2D Gabor and Curvelets transforms. International Conference on Internet Multimedia Computing and Service (ICIMCS'11), 2011, 146-149. [paper]
Qiaojin Guo, Ning Li, Yubin Yang, and Gangshan Wu. Supervised LDA for image annotation. IEEE International Conference on Systems, Man, and Cybernetics (SMC'11), Anchorage, USA, 2011, 471-476. [paper]
Jinwei Xiao, and Gangshan Wu. A robust and compact descriptor based on center-symmetric LBP. International Conference on Image and Graphics (ICIG'11), Heifei, China 2011, 388-393. [paper]
Qiaojin Guo, Ning Li, Yubin Yang, and Gangshan Wu. Image annotation with multiple quantization. International Conference on Image and Graphics (ICIG'11), Heifei, China, 2011, 631-635. [paper]
Kang Ling, and Gangshan Wu. Frequency based locality sensitive hashing. International Conference on Multimedia Technology (ICMT'11), Hangzhou, China, 2011, 4929-4932. [paper]
Shaochun Dong, Xiaoqi Wang, Shijin Xu, Gangshan Wu, and Hongwei Yin. The development and evaluation of Chinese digital science and technology museum. Journal of Cultural Heritage, 2011, 12(1):111–115. [paper]
Xuehou Tan, and Gangshan Wu. Approximation algorithms for cutting a convex polyhedron out of a sphere. Frontiers in Algorithmics and Algorithmic Aspects in Information and Management (FAW-AAIM'11), Jinhua, China, 2011, 6681:125-135. [paper]

2010

Xiaojia Pu, Qi Mao, Gangshan Wu and Chunfeng Yuan. Chinese Named Entiy Recognition with the Improved Smoothed Conditional Random Fields. International Conference on Intelligent Text Processing and Computational Linguistics (CICLing'10), Iasi, Romania, 2010, 91-104. (poster) [paper]
Tongwei Ren, Yan Liu, and Gangshan Wu. Video summary quality evaluation based on 4C assessment and user interaction. Book Chapter of Multimedia Interaction and Intelligent User Interfaces: Principles, Methods and Applications, Edited by Ling Shao, Caifeng Shan, Jiebo Luo and Minoru Etoh, 2010, 243-269. [paper]
Tongwei Ren and Gangshan Wu. Automatic image retargeting evaluation based on user perception. IEEE International Conference on Image Processing (ICIP'10), Hongkong, China, 2010. [paper]
Tongwei Ren, Yan Liu, and Gangshan Wu. Rapid image retargeting based on curve-edge grid representation. IEEE International Conference on Image Processing (ICIP'10), Hongkong, China, 2010. [paper]
Jie Tang, Gangshan Wu, Bo Xu, and Zhongliang Gong. Fast mesh similarity measuring based on CUDA. IEEE International Conference on Progress in Informatics and Computing (PIC'10), 2010, 2, 911-915. [paper]
Tang Jie, Wu Gangshan, Xu Bo, and Gong Zhongliang. Interective point clouds fairing on many-core system. International Symposium on Parallel and Distributed Processing with Applications (ISPA'10), Taipei, China 2010, 557-562. [paper]
Xuehou Tan, and Gangshan Wu. New algorithms for barrier coverage with mobile sensors. International Workshop on Frontiers in Algorithmics (FAW'10), Wuhan, China, 2010, 327-338. [paper]
TongWei Ren, Yan Liu, Gangshan Wu. Image retargeting based on region relation graph. Journal of Software, 2010, 21(9):2237-2249. (in Chinese) [paper]

2009

Tongwei Ren, Yan Liu, and Gangshan Wu. Image retargeting using multi-map constrained region warping. ACM International Conference on Multimedia (MM'09), Beijing, China, 2009. (short) [paper]
Tongwei Ren, Yan Liu, and Gangshan Wu. Image retargeting based on global energy optimization. IEEE International Conference on Multimedia and Expo (ICME'09), New York, USA, 2009. [paper]
Zhigeng Pan, Wenzhi Chen, Mingmin Zhang, Jianfeng Liu, and Gangshan Wu. Virtual reality in the digital olympic museum. IEEE Computer Graphics and Applications, 2009, 29(5):91-95. [paper]
Yaqiong Wang, Yang Yang, Tongwei Ren, and Gangshan Wu. A motion-insensitive dissolve detection method with SURF. International Conference on Image and Graphics (ICIG'09), Xi'an, China, 2009. [paper]
Yang Yang, Jinwei Xiao, Kang Lin, Gangshan Wu, Tongwei Ren, and Yaqiong Wang. Nanjing University in TRECVID 2009. TRECVID Copy Detection (TCD'09), Gaithersburg, USA, 2009. [paper]
Lian Zhu, Jie Tang, Chunfeng Yuan. Construction of coherent structure from 3D geological model. Journal of Image and Graphics, 2009, 14(12):2582-2587. (in Chinese) [paper]
Xiang Wang, Yanwen Guo, Zhenlong Du, Gangshan Wu, Fuyan Zhang, Qunsheng Peng. Automatic brightness adjustment for image and video. Acta Electronica Sinica, 2009, 37(4A):79-86. (in Chinese) [paper]

2008

Tongwei Ren, Yan Liu, and Gangshan Wu. Full-reference quality assessment for video summary. International Workshop on Video Mining (ICDM'08-WVM), Pisa, Italy, 2008. [paper]
Tongwei Ren, Yanwen Guo, Gangshan Wu and Fuyan Zhang. Constrained sampling for image retargeting. IEEE International Conference on Multimedia and Expo (ICME'08), Hannover, Germany, 2008. [paper]
Yang Liu, Yan Liu, Tongwei Ren, and Keith C.C. Chan. Rushes video summarization using audio-visual information and sequence alignment. ACM TRECVID Video Summarization Workshop (MM'08-TVS), Vancouver, Canada, 2008. (poster) [paper]
Kunwu Huang, Jie Tang, Gangshan Wu. Skeleton extraction algorithm using reeb graph based on facets. Journal of System Simulation, 2008, 18(z1):52-56. (in Chinese) [paper]

～2007

Jie Tang, Gang-Shan Wu, Fu-Yan Zhang, and Ming-Min Zhang. Fast approximate geodesic paths on triangle mesh. International Journal of Automation and Computing, 2007, 4(1):8-13. [paper]
Suyun Li, Jie Tang, and Gangshan Wu. Geologic surface reconstruction based on fault constraints. Workshop on Digital Media and its Application in Museum and Heritages (DMAMH'07), Chongqing, China, 2007. [paper]
Mingyong Pang, Wenjun Dai, Gangshan Wu, Fuyan Zhang. 3D model retrieval based on matching characters of volume distribution. Journal of System Simulation, 2007, 19(1):30-34. (in Chinese) [paper]
Yanwen Guo, Hanqiu Sun, Qunsheng Peng, Gangshan Wu. Mesh optimization based image texture replacement. Chinese Journal of computers, 2007, 30(9):1580-1587. (in Chinese) [paper]
Jie Tang, and Fuyan Zhang. Content-based 3D model retrieval for digital museum. International Conference on E-learning and Games (Edutainment'06), Hangzhou, China, 2006. [paper]
Tongwei Ren and Gangshan Wu. Content-based retrieval of cultural relic images in digital museum. International Conference on Artificial Reality and Telexistence (ICAT'06), Hangzhou, China, 2006, 1108-1117. [paper]
Mingyong Pang, Wenjun Dai, Gangshan Wu, and Fuyan Zhang. On volume distribution features based 3D model retrieval. International Conference on Artificial Reality and Telexistence (ICAT'06), Hangzhou, China, 2006, 928-937. [paper]
Liang Ji, Gangshan Wu, and Wenjun Dai. An efficient mechanism for 3D model retrieval. International Conference on Artificial Reality and Telexistence Workshops (ICAT'06-W), Hangzhou, China, 2006, 928-937. [paper]
Tang Jie, and Zhang Fuyan. Anisotropic feature-preserving smoothing of 3D mesh. International Conference on Computer Graphics, Imaging and Vision: New Trends (CGIV'05), Beijing, China, 2005, 373-378. [paper]
Jie Tang, and Fuyan Zhang. An algorithm for generating multiresolution model of mesh based on error control. Chinese Journal of Computers, 2005, 28(9):1534-1539. (in Chinese) [paper]
Jie Tang, and Fuyan Zhang. An algorithm to generate selective refinement of arbitrary mesh. Journal of Computer Aided Design & Computer Graphics, 2005, 17(1):28-33. (in Chinese) [paper]
Jie Tang, and Fuyan Zhang. Evaluation of similarity between arbitrary meshes. Journal of System Simulation, 2005, 17(1):16-19. (in Chinese) [paper]
Kang Chen, and Gangshan Wu. Research of ontology-based information retrieval. Journal of Chinese Information Processing, 2005, 19(2):51-57. (in Chinese) [paper]
Jicheng Wang, Gangshan Wu, Yuanyuan Zhou, and Fuyan Zhang. Research on automatic summarization of web document guided by discourse. Journal of Computer Research and Development. 2003, 40(3):398-405. (in Chinese) [paper]
Wu Gangshan, and Zhang Fuyan. Synchronization validation mechanism in multimedia document presentation. IEEE International Conference on Systems, Man, and Cybernetics (SMC'00), Nashville, Japan, 2000, 137-141. [paper]
Jingchun Li, Gangshan Wu, Qiang Wang, and Fuyan Zhang. Research on markup document-oriented document transformation technology. Journal of Chinese Information Processing, 2000, 14(4):53-58. (in Chinese) [paper]
Wu Gangshan, Huang Yuan, Shian-Shyong Tseng, and Zhang Fuyan. A knowledge sharing and collaboration system model based on Internet. IEEE International Conference on Systems, Man, and Cybernetics (SMC'99), Tokyo, Japan, 1999, 137-141. [paper]
Wang Jicheng, Huang Yuan, Wu Gangshan, and Zhang Fuyan. Web mining: knowledge discovery on the Web. IEEE International Conference on Systems, Man, and Cybernetics (SMC'99), Tokyo, Japan, 1999, 137-141. [paper]
Huang Yuan, Shian-Shyong Tseng, Wu Gangshan, and Zhang Fuyan. A two-phase feature selection method using both filter and wrapper. IEEE International Conference on Systems, Man, and Cybernetics (SMC'99), Tokyo, Japan, 1999, 137-141. [paper]
Gangshan Wu, and Jingchun Li. Data organization of a CD-ROM document library based on SGML specification. Journal of Software, 1997, A00:340-344. (in Chinese) [paper]
Shulu Pan, Wendong Zhu, Gangshan Wu. The physical structure and principle of a compact disk-read only memory. Journal of Computer Research and Development, 1996, 33(2):940-944. (in Chinese) [paper]
Qiang Wang, Gangshan Wu. Extension of pattern locating capability in XPath. Journal of Computer Research and Development, 1995, 38(6):19-24. (in Chinese) [paper]
Changyuan Hu, Gangshan Wu, Fuyan Zhang. Some approach to improve the rasterization quality of outline Chinese characters. Journal of Computer Research and Development, 1994, 32(3):19-24. (in Chinese) [paper]
Gangshan Wu, Xiaolu Ye, Shijie Cai, and Bo Lu. An automatic curve-outlined typeface generating system for DENXIANTI and YUANTOUTI. Journal of Chinese Information Processing, 1994, 8(4):1-8. (in Chinese) [paper]
Changyuan Hu, Gangshan Wu, and Fuyan Zhang. Grid-fitting of outline Chinese characters. Journal of Chinese Information Processing, 1994, 8(4):25-33. (in Chinese) [paper]
Hua Yue, Shijie Cai, Jin Gu, Gangshan Wu, and Weirong Yan. The design and implementation of a Chinese character deriving system for Heiti. Journal of Chinese Information Processing, 1994, 3:1-8. (in Chinese) [paper]

Patent

Jie Tang, Nianyuan Bao, and Gangshan Wu. A new method for replacing file systems of Hadoop with PVFS. Application ID: CN201510229869. (in Chinese)
Jie Tang, Xuejiao Kong, Gangshan Wu, and Qiang Wei. A constrained batch horizon extraction method for 3D seismic interpretation. Application ID: CN201410214969. (in Chinese)
Gangshan Wu, Xiaoxiang Hu, and Yu Jin. A adaptive continuous action training method using Kinect. Application ID: CN201310745454. (in Chinese)
Gangshan Wu, Chunrong Xia, and Ran Ju. A stereo image segmentation method based on fast local matching. Application ID: CN201310745606. (in Chinese)
Gangshan Wu, and Xiangyang Xu. A distributed indexing method based on location sensitive hashing. Application ID: CN201310746690. (in Chinese)
Keli Zhou, Jie Tang, and Gangshan Wu. A lock-free message queue implementation method based on reversed single-linked list. Application ID: CN201310102077. (in Chinese)
Lin Lu, Jie Tang, and Gangshan Wu. A real-time ray-casting volume rendering method for 3D seismic volume data. Application ID: CN201310097258. (in Chinese)
Jie Tang, Gangshan Wu, and Suyun Li. A horizon fitting method based on quadratic error measurement. Patent ID: CN200910213093. (in Chinese)
Jie Tang, Gangshan Wu, and Lian Zhu. A load balancing method for parallel rendering on arbitrarily divided regions. Patent ID: CN200910213092. (in Chinese)
Jun Wang, Jicheng Wang, Gangshan Wu, and Hong Jintian. A method and device for webpage information block extraction. Patent ID: CN200410057064. (in Chinese)