Publication

MetaScenes: Towards Automated Replica Creation for Real-world 3D Scans

Huangyue Yu* , Baoxiong Jia* , Yixin Chen* , Yandan Yang , Puhao Li , Rongpeng Su , Jiaxin Li , Qing Li , Wei Liang , Song-Chun Zhu , Tengyu Liu , Siyuan Huang .

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2025
(* indicates equal contribution.)

Project Code Paper

Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis

Jiangyong Huang* , Baoxiong Jia* , Yan Wang , Ziyu Zhu , Xiongkun Linghu , Qing Li , Song-Chun Zhu , Siyuan Huang .

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2025
(* indicates equal contribution.)

Project Paper

Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding

Yan Wang* , Baoxiong Jia* , Ziyu Zhu , Siyuan Huang .

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2025
(* indicates equal contribution.)

Project Paper

RoboVerse: Towards a Unified Platform, Dataset and Benchmark for Scalable and Generalizable Robot Learning

Haoran Geng* , Feishi Wang* , Songlin Wei* , Yuyang Li* , Bangjun Wang* , Boshi An* , Charlie Tianyue Cheng* , Haozhe Lou , Peihao Li , Yen-Jen Wang , Yutong Liang , Dylan Goetting , Chaoyi Xu , Haozhe Chen , Yuxi Qian , Yiran Geng , Jiageng Mao , Weikang Wan , Mingtong Zhang , Jiangran Lyu , Siheng Zhao , Jiazhao Zhang , Jialiang Zhang , Chengyang Zhao , Haoran Lu , Yufei Ding , Ran Gong , Yuran Wang , Yuxuan Kuang , Ruihai Wu , Baoxiong Jia , Carlo Sferrazza , Hao Dong , Siyuan Huang# , Yue Wang# , Jitendra Malik# , Pieter Abbeel# .

Robotics Science and Systems (RSS) 2025
(* indicates equal contribution.)

Paper

MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes

Ruijie Lu* , Yixin Chen* , Junfeng Ni , Baoxiong Jia , Yu Liu , Diwen Wan , Gang Zeng , Siyuan Huang .

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2025
(* indicates equal contribution.)

Project Paper

Buliding Interactable Replicas of Complex Articulated Objects via Gaussian Splatting

Yu Liu* , Baoxiong Jia* , Ruijie Lu , Junfeng Ni , Song-Chun Zhu , Siyuan Huang .

International Conference on Learning Representations (ICLR) 2025
(* indicates equal contribution.)

Project

Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V

Peiyuan Zhi* , Zhiyuan Zhang* , Yu Zhao , Muzhi Han , Zeyu Zhang , Zhitian Li , Ziyuan Jiao , Baoxiong Jia# , Siyuan Huang# .

International Conference on Robotics and Automation (ICRA) 2025
(* indicates equal contribution. # indicates corresponding author.)

PhysPart: Physically Plausible Part Completion for Interactable Objects

Rundong Luo* , Haoran Geng* , Congyue Deng , Puhao Li , Zan Wang , Baoxiong Jia , Leonidas Guibas , Siyuan Huang .

International Conference on Robotics and Automation (ICRA) 2025
(* indicates equal contribution.)

Project Code Paper

MSR3D: Multi-modal Situated Reasoning in 3D Scenes

Xiongkun Linghu* , Jiangyong Huang* , Xuesong Niu* , Xiaojian Ma , Baoxiong Jia# , Siyuan Huang# .

Advances in Neural Information Processing Systems (NeurIPS) 2024
(* indicates equal contribution. # indicates corresponding author.)

Project Code Supp Paper

SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding

Baoxiong Jia* , Yixin Chen* , Huangyue Yu , Yan Wang , Xuesong Niu , Tengyu Liu , Qing Li , Siyuan Huang .

European Conference on Computer Vision (ECCV) 2024
OpenSUN3D @ ECCV 2024 (* indicates equal contribution)

Project Paper

SlotLifter: Slot-guided Feature Lifting for Learning Object-centric Radiance Fields

Yu Liu* , Baoxiong Jia* , Yixin Chen , Siyuan Huang .

European Conference on Computer Vision (ECCV) 2024
Wild3D @ ECCV 2024 (* indicates equal contribution.)

Project Code Paper

Unifying 3D Vision-Language Understanding via Promptable Queries

Ziyu Zhu , Zhuofan Zhang , Xiaojian Ma , Xuesong Niu , Yixin Chen , Baoxiong Jia , Zhidong Deng , Siyuan Huang , Qing Li .

European Conference on Computer Vision (ECCV) 2024
OpenSUN3D @ ECCV 2024

Project Code Paper

An Embodied Generalist Agent in 3D World

Jiangyong Huang* , Silong Yong* , Xiaojian Ma* , Xiongkun Linghu , Puhao Li , Yan Wang , Qing Li , Song-Chun Zhu , Baoxiong Jia , Siyuan Huang .

International Conference on Machine Learning (ICML) 2024
GenAI4DM & AGI @ ICLR 2024 (* indicates equal contribution.)

Paper

Human-level Few-shot Concept Induction through Minimax Entropy Learning

Chi Zhang , Baoxiong Jia , Yixin Zhu , Song-Chun Zhu .

Science Advances (SciAdv) 2024

Project Code Paper

PhyScene: Physically Interactable 3D Scene Synthesis for Embodied AI

Yandan Yang* , Baoxiong Jia* , Peiyuan Zhi , Siyuan Huang .

Conference on Computer Vision and Pattern Recognition (CVPR) 2024 (Highlight)
AI3DG @ CVPR 2024 (* indicates equal contribution.)

Project Code Paper

Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance

Zan Wang , Yixin Chen , Baoxiong Jia , Puhao Li , Jinlu Zhang , Jingze Zhang , Tengyu Liu , Yixin Zhu , Wei Liang , Siyuan Huang .

Conference on Computer Vision and Pattern Recognition (CVPR) 2024 (Highlight)
HuMoGen @ CVPR 2024

Project Code Paper

ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab

Jieming Cui* , Ziren Gong* , Baoxiong Jia* , Siyuan Huang , Zilong Zheng , Jianzhu Ma , Yixin Zhu .

Advances in Neural Information Processing System (NeurIPS) 2023
(* indicates equal contribution.)

Project Code Paper

X-VoE: Measuring eXplanatory Violation of Expectation in Physical Events

Bo Dai , Linge Wang , Baoxiong Jia , Zeyu Zhang , Chi Zhang , Yixin Zhu , Song-Chun Zhu .

International Conference on Computer Vision (ICCV) 2023 (Oral)

Project Code Paper

ARNOLD: A Benchmark for Language-Grounded Task Learning with Continuous States in Realistic Scenes

Ran Gong* , Jiangyong Huang* , Yizhou Zhao , Haoran Geng , Xiaofeng Gao , Qingyang Wu , Wensi Ai , Ziheng Zhou , Demetri Terzopoulos , Song-Chun Zhu , Baoxiong Jia# , Siyuan Huang# .

International Conference on Computer Vision (ICCV) 2023
LangRob @ CoRL 2022 (* indicates equal contribution. # indicates corresponding author.)

Paper

Learning a Causal Transition Model for Object Cutting

Zeyu Zhang* , Muzhi Han* , Baoxiong Jia , Ziyuan Jiao , Yixin Zhu , Song-Chun Zhu , Hangxin Liu .

International Conference on Intelligent Robots and Systems (IROS) 2023
(* indicates equal contribution.)

Project Code Paper

Diffusion-based Generation, Optimization, and Planning in 3D Scenes

Siyuan Huang* , Zan Wang* , Puhao Li , Baoxiong Jia , Tengyu Liu , Yixin Zhu , Wei Liang , Song-Chun Zhu .

Conference on Computer Vision and Pattern Recognition (CVPR) 2023
(* indicates equal contribution.)

Project Code Paper

Improving Unsupervised Object-centric Learning with Query Optimization

Baoxiong Jia* , Yu Liu* , Siyuan Huang .

International Conference on Learning Represetnations (ICLR) 2023
(* indicates equal contribution.)

Project Code Paper

EgoTaskQA: Understanding Human Tasks in Egocentric Videos

Baoxiong Jia , Ting Lei , Song-Chun Zhu , Siyuan Huang .

Advances in Neural Information Processing System (NeurIPS) 2022

Project Code Supp Paper

Learning Algebraic Representation for Systematic Generalization in Contextual Decision Processes

Chi Zhang* , Sirui Xie* , Baoxiong Jia* , Yixin Zhu , Song-Chun Zhu , Ying Nian Wu .

European Conference on Computer Vision (ECCV) 2022
(* indicates equal contribution.)

Code Paper

Latent Diffusion Energy-Based Model for Interpretable Text Modeling

Peiyu Yu , Sirui Xie , Xiaojian Ma , Baoxiong Jia , Bo Pang , Ruiqi Gao , Yixin Zhu , Song-Chun Zhu , Ying Nian Wu .

International Conference on Machine Learning (ICML) 2022

Project Code Supp Paper

ACRE: Abstract Causal REasoning Beyond Covariation

Chi Zhang , Baoxiong Jia , Mark Edmonds , Song-Chun Zhu , Yixin Zhu .

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2021
(* indicates equal contribution.)

Project Code Supp Paper

Abstract Spatial-Temporal Reasoning via Probabilistic Abduction and Execution

Chi Zhang* , Baoxiong Jia* , Song-Chun Zhu , Yixin Zhu .

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2021
(* indicates equal contribution.)

Project Code Paper

LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task Activities

Baoxiong Jia , Yixin Chen , Siyuan Huang , Yixin Zhu , Song-Chun Zhu .

European Conference on Computer Vision (ECCV) 2020

Code Paper

A Generalized Earley Parser for Human Activity Parsing and Prediction

Siyuan Qi , Baoxiong Jia , Siyuan Huang , Ping Wei , Song-Chun Zhu .

Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 2020

Project Code Paper

Learning Perceptual Inference by Contrasting

Chi Zhang* , Baoxiong Jia* , Feng Gao , Yixin Zhu , Hongjing lu , Song-Chun Zhu .

Conference on Neural Information Processing Systems (NeurIPS) 2019 (Spotlight)
(* indicates equal contribution.)

Project Code Supp Paper

RAVEN: A Dataset for Relational and Analogical Visual rEasoNing

Chi Zhang* , Feng Gao* , Baoxiong Jia , Yixin Zhu , Song-Chun Zhu .

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2019
(* indicates equal contribution.)

Code Paper

Learning Human-Object Interactions by Graph Parsing Neural Networks

Siyuan Qi* , Wenguan Wang* , Baoxiong Jia , Jianbin Shen , Song-Chun Zhu .

European Conference on Computer Vision (ECCV) 2018
(* indicates equal contribution.)

Project Code Supp Paper

Generalized Earley Parser: Bridging Symbolic Grammars and Sequence Data for Future Prediction

Siyuan Qi , Baoxiong Jia , Song-Chun Zhu .

International Conference on Machine Learning (ICML) 2018

Project Paper

Mining User Reviews for Mobile App Comparison

Yuanchun Li , Baoxiong Jia , Yao Guo , Xiangqun Chen .

ACM International Joint Conference on Pervasive and Ubiquitous Computing (UbiComp) 2017

MetaScenes: Towards Automated Replica Creation for Real-world 3D Scans

Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis

Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding

RoboVerse: Towards a Unified Platform, Dataset and Benchmark for Scalable and Generalizable Robot Learning

MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes

Buliding Interactable Replicas of Complex Articulated Objects via Gaussian Splatting

Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V

PhysPart: Physically Plausible Part Completion for Interactable Objects

MSR3D: Multi-modal Situated Reasoning in 3D Scenes

SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding

SlotLifter: Slot-guided Feature Lifting for Learning Object-centric Radiance Fields

Unifying 3D Vision-Language Understanding via Promptable Queries

An Embodied Generalist Agent in 3D World

Human-level Few-shot Concept Induction through Minimax Entropy Learning

PhyScene: Physically Interactable 3D Scene Synthesis for Embodied AI

Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance

ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab

X-VoE: Measuring eXplanatory Violation of Expectation in Physical Events

ARNOLD: A Benchmark for Language-Grounded Task Learning with Continuous States in Realistic Scenes

Learning a Causal Transition Model for Object Cutting

Diffusion-based Generation, Optimization, and Planning in 3D Scenes

Improving Unsupervised Object-centric Learning with Query Optimization

EgoTaskQA: Understanding Human Tasks in Egocentric Videos

Learning Algebraic Representation for Systematic Generalization in Contextual Decision Processes

Latent Diffusion Energy-Based Model for Interpretable Text Modeling

ACRE: Abstract Causal REasoning Beyond Covariation

Abstract Spatial-Temporal Reasoning via Probabilistic Abduction and Execution

LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task Activities

A Generalized Earley Parser for Human Activity Parsing and Prediction

Learning Perceptual Inference by Contrasting

RAVEN: A Dataset for Relational and Analogical Visual rEasoNing

Learning Human-Object Interactions by Graph Parsing Neural Networks

Generalized Earley Parser: Bridging Symbolic Grammars and Sequence Data for Future Prediction

Mining User Reviews for Mobile App Comparison

Templates (for web app):

Error