Publication

LARA: Latent Action Representation Alignment for Vision-Language-Action Models

Mengya Liu^* , Baoxiong Jia^*,✉,† , Jiangyong Huang , Jingze Zhang , Siyuan Huang .

International Conference on Machine Learning (ICML) 2026
(* indicates equal contribution. ✉ indicates corresponding author. † indicates project lead.)

Project Code

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

Xiongkun Linghu^* , Jiangyong Huang^* , Baoxiong Jia^✉ , Siyuan Huang^✉ .

International Conference on Machine Learning (ICML) 2026
(* indicates equal contribution. ✉ indicates corresponding author.)

Project Code

OmniXtreme: Breaking the Generality Barrier in High-Dynamic Humanoid Control

Yunshen Wang^* , Shaohang Zhu^* , Peiyuan Zhi , Yuhan Li , Jiaxin Li , Yong-Lu Li , Yuchen Xiao , Xingxing Wang , Baoxiong Jia^✉ , Siyuan Huang^✉ .

Robotics Science and Systems (RSS) 2026
(* indicates equal contribution. ✉ indicates corresponding author.)

Project Code Paper

Lifting Unlabeled Internet-scale Data for 3D Scene Understanding

Yixin Chen , Yaowei Zhang , Huangyue Yu , Junchao He , Yan Wang , Jiangyong Huang , Hongyu Shen , Junfeng Ni , Shaofei Wang , Baoxiong Jia , Song-Chun Zhu , Siyuan Huang .

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2026

Project Code Paper

Learning Human-Humanoid Coordination for Collaborative Object Carrying

Yushi Du^* , Yixuan Li^* , Baoxiong Jia^*,✉ , Yutang Lin , Pei Zhou , Wei Liang^✉ , Yanchao Yang^✉ , Siyuan Huang^✉ .

International Conference on Robotics and Automation (ICRA) 2026
(* indicates equal contribution. ✉ indicates corresponding author.)

Project Code Paper

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

Xiongkun Linghu , Jiangyong Huang , Ziyu Zhu , Baoxiong Jia^✉ , Siyuan Huang^✉ .

International Conference on Learning Representations (ICLR) 2026
(✉ indicates corresponding author.)

Project Code Paper

SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

Yandan Yang^* , Baoxiong Jia^*,✉,† , Shujie Zhang , Siyuan Huang^✉ .

Advances in Neural Information Processing Systems (NeurIPS) 2025 ( RoboGen@IROS 2025 Best Paper Award )
(* indicates equal contribution. ✉ indicates corresponding author. † indicates project lead.)

Project Paper

Learning Unified Force and Position Control for Legged Loco-Manipulation

Peiyuan Zhi^* , Peiyang Li^* , Jianqin Yin , Baoxiong Jia^✉,† , Siyuan Huang^✉ .

Conference on Robot Learning (CoRL) 2025 ( Best Paper Award )
(* indicates equal contribution. ✉ indicates corresponding author. † indicates project lead.)

Project Paper

GWM: Toward Scalable Gaussian World Models for Robotic Manipulation

Guanxing Lu^* , Baoxiong Jia^*,✉,† , Puhao Li^* , Yixin Chen , Ziwei Wang , Yansong Tang^✉ , Siyuan Huang^✉ .

International Conference on Computer Vision (ICCV) 2025
(* indicates equal contribution. ✉ indicates corresponding author. † indicates project lead.)

Project Code Paper

Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation

Ziyu Zhu , Xilin Wang , Yixuan Li , Zhuofan Zhang , Xiaojian Ma , Yixin Chen , Baoxiong Jia , Wei Liang , Qian Yu , Zhidong Deng , Siyuan Huang , Qing Li .

International Conference on Computer Vision (ICCV) 2025
OpenSUN3D @ ECCV 2024

Project Paper

MetaScenes: Towards Automated Replica Creation for Real-world 3D Scans

Huangyue Yu^* , Baoxiong Jia^*,† , Yixin Chen^* , Yandan Yang , Puhao Li , Rongpeng Su , Jiaxin Li , Qing Li , Wei Liang , Song-Chun Zhu , Tengyu Liu , Siyuan Huang .

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2025
(* indicates equal contribution. † indicates project lead.)

Project Code Paper

Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis

Jiangyong Huang^* , Baoxiong Jia^*,† , Yan Wang , Ziyu Zhu , Xiongkun Linghu , Qing Li , Song-Chun Zhu , Siyuan Huang .

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2025
(* indicates equal contribution. † indicates project lead.)

Project Paper

Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding

Yan Wang^* , Baoxiong Jia^*,† , Ziyu Zhu , Siyuan Huang .

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2025
(* indicates equal contribution. † indicates project lead.)

Paper

MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes

Ruijie Lu^* , Yixin Chen^* , Junfeng Ni , Baoxiong Jia , Yu Liu , Diwen Wan , Gang Zeng , Siyuan Huang .

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2025
(* indicates equal contribution.)

Project Paper

RoboVerse: Towards a Unified Platform, Dataset and Benchmark for Scalable and Generalizable Robot Learning

Haoran Geng^* , Feishi Wang^* , Songlin Wei^* , Yuyang Li^* , Bangjun Wang^* , Boshi An^* , Charlie Tianyue Cheng^* , Haozhe Lou , Peihao Li , Yen-Jen Wang , Yutong Liang , Dylan Goetting , Chaoyi Xu , Haozhe Chen , Yuxi Qian , Yiran Geng , Jiageng Mao , Weikang Wan , Mingtong Zhang , Jiangran Lyu , Siheng Zhao , Jiazhao Zhang , Jialiang Zhang , Chengyang Zhao , Haoran Lu , Yufei Ding , Ran Gong , Yuran Wang , Yuxuan Kuang , Ruihai Wu , Baoxiong Jia , Carlo Sferrazza , Hao Dong , Siyuan Huang^✉ , Yue Wang^✉ , Jitendra Malik^✉ , Pieter Abbeel^✉ .

Robotics Science and Systems (RSS) 2025 ( RoboGen@IROS2 2025 Best Open-source Award )
(* indicates equal contribution. ✉ indicates corresponding author.)

Project Paper

Buliding Interactable Replicas of Complex Articulated Objects via Gaussian Splatting

Yu Liu^* , Baoxiong Jia^*,† , Ruijie Lu , Junfeng Ni , Song-Chun Zhu , Siyuan Huang .

International Conference on Learning Representations (ICLR) 2025
(* indicates equal contribution. † indicates project lead.)

Project

Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V

Peiyuan Zhi^* , Zhiyuan Zhang^* , Yu Zhao , Muzhi Han , Zeyu Zhang , Zhitian Li , Ziyuan Jiao , Baoxiong Jia^✉,† , Siyuan Huang^✉ .

International Conference on Robotics and Automation (ICRA) 2025
(* indicates equal contribution. ✉ indicates corresponding author. † indicates project lead.)

PhysPart: Physically Plausible Part Completion for Interactable Objects

Rundong Luo^* , Haoran Geng^* , Congyue Deng , Puhao Li , Zan Wang , Baoxiong Jia , Leonidas Guibas , Siyuan Huang .

International Conference on Robotics and Automation (ICRA) 2025
(* indicates equal contribution.)

Project Code Paper

MSR3D: Multi-modal Situated Reasoning in 3D Scenes

Xiongkun Linghu^* , Jiangyong Huang^* , Xuesong Niu^* , Xiaojian Ma , Baoxiong Jia^✉ , Siyuan Huang^✉ .

Advances in Neural Information Processing Systems (NeurIPS) 2024
(* indicates equal contribution. ✉ indicates corresponding author.)

Project Code Supp Paper

SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding

Baoxiong Jia^*,† , Yixin Chen^* , Huangyue Yu , Yan Wang , Xuesong Niu , Tengyu Liu , Qing Li , Siyuan Huang .

European Conference on Computer Vision (ECCV) 2024
OpenSUN3D @ ECCV 2024 (* indicates equal contribution. † indicates project lead.)

Project Paper

SlotLifter: Slot-guided Feature Lifting for Learning Object-centric Radiance Fields

Yu Liu^* , Baoxiong Jia^*,† , Yixin Chen , Siyuan Huang .

European Conference on Computer Vision (ECCV) 2024
Wild3D @ ECCV 2024 (* indicates equal contribution. † indicates project lead.)

Project Code Paper

Unifying 3D Vision-Language Understanding via Promptable Queries

Ziyu Zhu , Zhuofan Zhang , Xiaojian Ma , Xuesong Niu , Yixin Chen , Baoxiong Jia , Zhidong Deng , Siyuan Huang , Qing Li .

European Conference on Computer Vision (ECCV) 2024
OpenSUN3D @ ECCV 2024

Project Code Paper

An Embodied Generalist Agent in 3D World

Jiangyong Huang^* , Silong Yong^* , Xiaojian Ma^* , Xiongkun Linghu , Puhao Li , Yan Wang , Qing Li , Song-Chun Zhu , Baoxiong Jia , Siyuan Huang .

International Conference on Machine Learning (ICML) 2024
GenAI4DM & AGI @ ICLR 2024 (* indicates equal contribution.)

Paper

Human-level Few-shot Concept Induction through Minimax Entropy Learning

Chi Zhang , Baoxiong Jia , Yixin Zhu , Song-Chun Zhu .

Science Advances (SciAdv) 2024

Project Code Paper

PhyScene: Physically Interactable 3D Scene Synthesis for Embodied AI

Yandan Yang^* , Baoxiong Jia^*,† , Peiyuan Zhi , Siyuan Huang .

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2024 ( Highlight )
AI3DG @ CVPR 2024 (* indicates equal contribution. † indicates project lead.)

Project Code Paper

Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance

Zan Wang , Yixin Chen , Baoxiong Jia , Puhao Li , Jinlu Zhang , Jingze Zhang , Tengyu Liu , Yixin Zhu , Wei Liang , Siyuan Huang .

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2024 ( Highlight )
HuMoGen @ CVPR 2024

Project Code Paper

ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab

Jieming Cui^* , Ziren Gong^* , Baoxiong Jia^* , Siyuan Huang , Zilong Zheng , Jianzhu Ma , Yixin Zhu .

Advances in Neural Information Processing Systems (NeurIPS) 2023
(* indicates equal contribution.)

Project Code Paper

X-VoE: Measuring eXplanatory Violation of Expectation in Physical Events

Bo Dai , Linge Wang , Baoxiong Jia , Zeyu Zhang , Chi Zhang , Yixin Zhu , Song-Chun Zhu .

International Conference on Computer Vision (ICCV) 2023 ( Oral )

Project Code Paper

ARNOLD: A Benchmark for Language-Grounded Task Learning with Continuous States in Realistic Scenes

Ran Gong^* , Jiangyong Huang^* , Yizhou Zhao , Haoran Geng , Xiaofeng Gao , Qingyang Wu , Wensi Ai , Ziheng Zhou , Demetri Terzopoulos , Song-Chun Zhu , Baoxiong Jia^✉ , Siyuan Huang^✉ .

International Conference on Computer Vision (ICCV) 2023
LangRob @ CoRL 2022 (* indicates equal contribution. ✉ indicates corresponding author.)

Paper

Learning a Causal Transition Model for Object Cutting

Zeyu Zhang^* , Muzhi Han^* , Baoxiong Jia , Ziyuan Jiao , Yixin Zhu , Song-Chun Zhu , Hangxin Liu .

International Conference on Intelligent Robots and Systems (IROS) 2023
(* indicates equal contribution.)

Project Code Paper

Diffusion-based Generation, Optimization, and Planning in 3D Scenes

Siyuan Huang^* , Zan Wang^* , Puhao Li , Baoxiong Jia , Tengyu Liu , Yixin Zhu , Wei Liang , Song-Chun Zhu .

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2023
(* indicates equal contribution.)

Project Code Paper

Improving Unsupervised Object-centric Learning with Query Optimization

Baoxiong Jia^*,† , Yu Liu^* , Siyuan Huang .

International Conference on Learning Representations (ICLR) 2023
(* indicates equal contribution. † indicates project lead.)

Project Code Paper

EgoTaskQA: Understanding Human Tasks in Egocentric Videos

Baoxiong Jia , Ting Lei , Song-Chun Zhu , Siyuan Huang .

Advances in Neural Information Processing Systems (NeurIPS) 2022

Project Code Supp Paper

Learning Algebraic Representation for Systematic Generalization in Contextual Decision Processes

Chi Zhang^* , Sirui Xie^* , Baoxiong Jia^* , Yixin Zhu , Song-Chun Zhu , Ying Nian Wu .

European Conference on Computer Vision (ECCV) 2022
(* indicates equal contribution.)

Code Paper

Latent Diffusion Energy-Based Model for Interpretable Text Modeling

Peiyu Yu , Sirui Xie , Xiaojian Ma , Baoxiong Jia , Bo Pang , Ruiqi Gao , Yixin Zhu , Song-Chun Zhu , Ying Nian Wu .

International Conference on Machine Learning (ICML) 2022

Project Code Supp Paper

ACRE: Abstract Causal REasoning Beyond Covariation

Chi Zhang , Baoxiong Jia , Mark Edmonds , Song-Chun Zhu , Yixin Zhu .

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2021

Project Code Supp Paper

Abstract Spatial-Temporal Reasoning via Probabilistic Abduction and Execution

Chi Zhang^* , Baoxiong Jia^* , Song-Chun Zhu , Yixin Zhu .

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2021
(* indicates equal contribution.)

Project Code Paper

LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task Activities

Baoxiong Jia , Yixin Chen , Siyuan Huang , Yixin Zhu , Song-Chun Zhu .

European Conference on Computer Vision (ECCV) 2020

Code Paper

A Generalized Earley Parser for Human Activity Parsing and Prediction

Siyuan Qi , Baoxiong Jia , Siyuan Huang , Ping Wei , Song-Chun Zhu .

Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 2020

Project Code Paper

Learning Perceptual Inference by Contrasting

Chi Zhang^* , Baoxiong Jia^* , Feng Gao , Yixin Zhu , Hongjing lu , Song-Chun Zhu .

Advances in Neural Information Processing Systems (NeurIPS) 2019 ( Spotlight )
(* indicates equal contribution.)

Project Code Supp Paper

RAVEN: A Dataset for Relational and Analogical Visual rEasoNing

Chi Zhang^* , Feng Gao^* , Baoxiong Jia , Yixin Zhu , Song-Chun Zhu .

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2019
(* indicates equal contribution.)

Code Paper

Learning Human-Object Interactions by Graph Parsing Neural Networks

Siyuan Qi^* , Wenguan Wang^* , Baoxiong Jia , Jianbin Shen , Song-Chun Zhu .

European Conference on Computer Vision (ECCV) 2018
(* indicates equal contribution.)

Project Code Supp Paper

Generalized Earley Parser: Bridging Symbolic Grammars and Sequence Data for Future Prediction

Siyuan Qi , Baoxiong Jia , Song-Chun Zhu .

International Conference on Machine Learning (ICML) 2018

Project Paper

Mining User Reviews for Mobile App Comparison

Yuanchun Li , Baoxiong Jia , Yao Guo , Xiangqun Chen .

ACM International Joint Conference on Pervasive and Ubiquitous Computing (IMWUT) 2017

LARA: Latent Action Representation Alignment for Vision-Language-Action Models

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

OmniXtreme: Breaking the Generality Barrier in High-Dynamic Humanoid Control

Lifting Unlabeled Internet-scale Data for 3D Scene Understanding

Learning Human-Humanoid Coordination for Collaborative Object Carrying

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

Learning Unified Force and Position Control for Legged Loco-Manipulation

GWM: Toward Scalable Gaussian World Models for Robotic Manipulation

Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation

MetaScenes: Towards Automated Replica Creation for Real-world 3D Scans

Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis

Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding

MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes

RoboVerse: Towards a Unified Platform, Dataset and Benchmark for Scalable and Generalizable Robot Learning

Buliding Interactable Replicas of Complex Articulated Objects via Gaussian Splatting

Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V

PhysPart: Physically Plausible Part Completion for Interactable Objects

MSR3D: Multi-modal Situated Reasoning in 3D Scenes

SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding

SlotLifter: Slot-guided Feature Lifting for Learning Object-centric Radiance Fields

Unifying 3D Vision-Language Understanding via Promptable Queries

An Embodied Generalist Agent in 3D World

Human-level Few-shot Concept Induction through Minimax Entropy Learning

PhyScene: Physically Interactable 3D Scene Synthesis for Embodied AI

Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance

ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab

X-VoE: Measuring eXplanatory Violation of Expectation in Physical Events

ARNOLD: A Benchmark for Language-Grounded Task Learning with Continuous States in Realistic Scenes

Learning a Causal Transition Model for Object Cutting

Diffusion-based Generation, Optimization, and Planning in 3D Scenes

Improving Unsupervised Object-centric Learning with Query Optimization

EgoTaskQA: Understanding Human Tasks in Egocentric Videos

Learning Algebraic Representation for Systematic Generalization in Contextual Decision Processes

Latent Diffusion Energy-Based Model for Interpretable Text Modeling

ACRE: Abstract Causal REasoning Beyond Covariation

Abstract Spatial-Temporal Reasoning via Probabilistic Abduction and Execution

LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task Activities

A Generalized Earley Parser for Human Activity Parsing and Prediction

Learning Perceptual Inference by Contrasting

RAVEN: A Dataset for Relational and Analogical Visual rEasoNing

Learning Human-Object Interactions by Graph Parsing Neural Networks

Generalized Earley Parser: Bridging Symbolic Grammars and Sequence Data for Future Prediction

Mining User Reviews for Mobile App Comparison

Templates (for web app):

Error