Sitao Cheng

Hi, I am Sitao Cheng. I am a first-year Ph.D. Student at University of Waterloo, fortunate to be advised by Prof. Victor Zhong. I closely work with Prof. Liangming Pan and Prof. Jie Fu. Previously, I was a research scholar at UCSB NLP Group, advised by Prof. William Wang. I obtained my Master’s degree from Nanjing University. I also worked as a research intern at Microsoft Research Asia.

My research interest lies in advancing the reasoning capabilities of language models (LMs). I have experience on Language Agents, Reinforcement Learning, RAG and Neural-Symbolic Reasoning. Currently, I am doing research on the following topics:

Automatic Reward Modeling (e.g., exploration of differentiable evolutionary meta-reward).
RL in Compositional Generalization (e.g., building robust GUI Agents, how training strategies affect generalizability, the mechanism of RL).
Language Agents (e.g., reasoning on real-world environments).

Please feel free to reach out and discuss research! Please check out my CV.

Preprints

From Atomic to Composite: Reinforcement Learning Enables Generalization in Complementary Reasoning.
Sitao Cheng, Xunjian Yin, Ruiwen Zhou, Yuxuan Li, Xinyi Wang, Liangming Pan, William Yang Wang, Victor Zhong [paper][code][data]
Differentiable Evolutionary Reinforcement Learning.
Sitao Cheng*, Tianle Li*, Xuhan Huang*, Xunjian Yin, Difan Zou [paper][code][model]
Epistemic Context Learning: Building Trust the Right Way in LLM-Based Multi-Agent Systems.
Ruiwen Zhou*, Maojia Song*, Xiaobao Wu, Sitao Cheng, Xunjian Yin, Yuxi Xie, Zoey Hao, Wenyue Hua, Liangming Pan, Soujanya Poria, Min-Yen Kan [paper][code]
LEDOM: An Open and Fundamental Reverse Language Model
Xunjian Yin, Sitao Cheng, Yuxi Xie, Xinyu Hu, Li Lin, Xinyi Wang, Liangming Pan, William Yang Wang, Xiaojun Wan [paper][model]

Publications

[KnowFM Workshop of ACL’25 (Oral)] Understanding the Interplay between Parametric and Contextual Knowledge for Large Language Models
Sitao Cheng, Liangming Pan, Xunjian Yin, Xinyi Wang, William Yang Wang
[paper] [code]
[ACL’24 Findings] Call Me When Necessary: LLMs can Efficiently and Faithfully Reason over Structured Environments
Sitao Cheng, Ziyuan Zhuang, Yong Xu, Fangkai Yang, Chaoyun Zhang, Xiaoting Qin, Xiang Huang, Ling Chen, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
[paper] [code]
[ACL’24 Oral] QueryAgent: A Reliable and Efficient Reasoning Framework with Environmental Feedback based Self-Correction
Xiang Huang*, Sitao Cheng*, Shanshan Huang, Jiayu Shen, Yong Xu, Chaoyun Zhang, Yuzhong Qu
[paper] [code]
[EMNLP’25 Findings] Dynamic Evaluation for Oversensitivity in LLMs
Sophia Xiao Pu, Sitao Cheng, Xin Eric Wang, William Yang Wang [paper] [data]
[EMNLP’23] MarkQA: A Large Scale KBQA Dataset with Numerical Reasoning
Xiang Huang, Sitao Cheng, Yuheng Bao, Shanshan Huang, Yuzhong Qu
[paper] [code] [homepage]
[AAAI’23 Oral] Question Decomposition Tree for Answering Complex Questions over Knowledge Bases
Xiang Huang, Sitao Cheng, Yiheng Shu, Yuheng Bao, Yuzhong Qu
[paper] [code]
[ACL’25] Disentangling Memory and Reasoning Ability in Large Language Models
Mingyu Jin, Weidi Luo, Sitao Cheng, Xinyi Wang, Wenyue Hua, Ruixiang Tang, William Yang Wang, Yongfeng Zhang
[paper] [code]
[EMNLP’24] EfficientRAG: Efficient Retriever for Multi-Hop Question Answering
Ziyuan Zhuang, Zhiyang Zhang, Sitao Cheng, Fangkai Yang, Jia Liu, Shujian Huang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
[paper] [code]
[ACL’25] RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios
Ruiwen Zhou, Wenyue Hua, Liangming Pan, Sitao Cheng, Xiaobao Wu, En Yu, William Yang Wang
[paper] [code]
[ACL’25] TARGA: Targeted Synthetic Data Generation for Practical Reasoning over Structured Data
Xiang Huang, Jiayu Shen, Shanshan Huang, Sitao Cheng, Xiaxia Wang, Yuzhong Qu
[paper]
[EMNLP’25] Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation
Kaikai An, Fangkai Yang, Liqun Li, Junting Lu, Sitao Cheng, Shuzheng Si, Lu Wang, Pu Zhao, Lele Cao, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang, Baobao Chang
[paper]

Services

Reviewer: ARR, ICLR 2024
ACL 2024 Volunteer

Sitao Cheng

Preprints

Publications

Recent News

Services