About me

Hi there! I am a first-year Ph.D. student in Artificial Intelligence at Shanghai Jiao Tong University (SJTU). I received my B.Eng. from Beijing University of Posts and Telecommunications (BUPT) in 2025 with GPA 3.86/4.00 (Rank: 2/329).

I am currently a research intern at ByteDance Seed, working on code agents. Previously, I worked at Tencent WeChat AI and Shanghai Artificial Intelligence Laboratory.

Currently, my interest lies in Code Agents, Alignment, Reinforcement Learning, and Pre-Training. If you are interested in these topics, feel free to reach out to me!

News

2026.06: Seed 2.1 is released, a new generation of agent-capable models built for real-world productivity.
2026.03: I joined ByteDance Seed as a research intern!
2026.01: Three papers are accepted by ICLR 2026! 🎉
2026.01: One paper is accepted by ICASSP 2026!
2025.09: Starting my Ph.D. journey at SJTU! 🎉
2025.08: We release SSRL, the first full-sim RL algorithm for Search Agent with Sim2Real to further boost its performance.
2025.07: I joined Tencent WeChat AI as a research intern!
2025.01: We release PRIME, a scalable reinforcement learning method with implicit process rewards.
2024.10: I joined Shanghai Artificial Intelligence Laboratory as a researcher!
2024.07: I joined frontis.ai as a researcher!
2024.04: Two papers are accepted by COLING 2024!
2023.09: I win the National Scholarship (Top 1%) in China!

Publications (Full List)

LFQA-E: Carefully Benchmarking Long-form QA Evaluation

Yuchen Fan, Chen Ling, Xin Zhong, Shuo Zhang, Heng Zhou, Yuchen Zhang, Mingyu Liang, Chengxing Xie, Ermo Hua, Zhizhou He, Cheng Huang, Gang Chen, Ning Ding, Bowen Zhou

ICLR 2026

MARTI: A Framework for Multi-Agent LLM Systems Reinforced Training and Inference

Kaiyan Zhang, Kai Tian, Runze Liu, Sihang Zeng, Xuekai Zhu, Guoli Jia, Yuchen Fan (Core Contributor), Xingtai Lv, Yuxin Zuo, Che Jiang, Yuru Wang, Jianyu Wang, Ermo Hua, Xinwei Long, Junqi Gao, Youbang Sun, Zhiyuan Ma, Ganqu Cui, Ning Ding, Biqing Qi, Bowen Zhou

ICLR 2026

How Far Can Unsupervised RLVR Scale LLM Training?

Yuxin Zuo, Bingxiang He, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Cheng Qian, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Lifan Yuan, Zhiyuan Liu, Bowen Zhou

ICLR 2026

EVA-Score: Evaluation of Long-form Summarization on Informativeness

Yuchen Fan, Xin Zhong, Yazhe Wan, Chengsi Wang, Haonan Cheng, Gaochen Wu, Bowen Zhou

ICASSP 2026

Untangle the KNOT: Interweaving Conflicting Knowledge and Reasoning Skills in LLMs

Yantao Liu, Zijun Yao, Xin Lv, Yuchen Fan, Shulin Cao, Jifan Yu, Lei Hou, Juanzi Li

COLING 2024

Evaluating Generative Language Models in Information Extraction as Subjective Question Correction

Yuchen Fan, Yantao Liu, Zijun Yao, Jifan Yu, Lei Hou, Juanzi Li

COLING 2024

SSRL: Self-Search Reinforcement Learning

Yuchen Fan, Kaiyan Zhang, Heng Zhou, Yuxin Zuo, Yanxu Chen, Yu Fu, Xinwei Long, Xuekai Zhu, Che Jiang, Yuchen Zhang, Li Kang, Gang Chen, Cheng Huang, Zhizhou He, Bingning Wang, Lei Bai, Ning Ding, Bowen Zhou

Preprint

Process Reinforcement through Implicit Rewards

Ganqu Cui, Lifan Yuan, Zefan Wang, Hanbin Wang, Wendi Li, Bingxiang He, Yuchen Fan (Core Contributor), Tianyu Yu, Qixin Xu, Weize Chen, Jiarui Yuan, Huayu Chen, Kaiyan Zhang, Xingtai Lv, Shuo Wang, Yuan Yao, Xu Han, Hao Peng, Yu Cheng, Zhiyuan Liu, Maosong Sun, Bowen Zhou, Ning Ding

Preprint

LiveSearchBench: An Automatically Constructed Benchmark for Retrieval and Reasoning over Dynamic Knowledge

Heng Zhou, Ao Yu, Yuchen Fan, Jianing Shi, Li Kang, Hejia Geng, Yongting Zhang, Yutao Fan, Yuhao Wu, Tiancheng He, Yiran Qin, Lei Bai, Zhenfei Yin

Preprint

A Survey of Reinforcement Learning for Large Reasoning Models

Kaiyan Zhang, Yuxin Zuo, Bingxiang He, Youbang Sun, Runze Liu, Che Jiang, Yuchen Fan (Core Contributor), Kai Tian, Guoli Jia, Pengfei Li, Yu Fu, Xingtai Lv, Yuchen Zhang, Sihang Zeng, Shang Qu, Haozhan Li, Shijie Wang, Yuru Wang, Xinwei Long, Fangfu Liu, Xiang Xu, Jiaze Ma, Xuekai Zhu, Ermo Hua, Yihao Liu, Zonglin Li, Huayu Chen, Xiaoye Qu, Yafu Li, Weize Chen, Zhenzhao Yuan, Junqi Gao, Dong Li, Zhiyuan Ma, Ganqu Cui, Zhiyuan Liu, Biqing Qi, Ning Ding, Bowen Zhou

Preprint

Honors and Awards

2025 WanshanHu Scholarship (Top 3%)
2023 National Scholarship (Top 1%)
2022 First Class Scholarship (Top 3%)

Working Experiences

2026.03 - Present, ByteDance Seed, Research Intern. Research in code agents.
2025.07 - 2026.03, Tencent WeChat AI, Research Intern. Research in pre-training and agentic reinforcement learning. Supervised by Bingning Wang.
2024.10 - 2026.03, Shanghai Artificial Intelligence Laboratory, Researcher. Research in alignment, reinforcement learning, and pre-training. Supervised by Ganqu Cui and Ning Ding.
2024.07 - 2024.08, Frontis.ai, Researcher.
2024.03 - 2024.08, WestlakeNLP, Westlake University, Visiting Student. Research in long-context generation. Supervised by Cunxiang Wang and Yue Zhang.
2023.12 - 2024.09, C3I, Tsinghua University, Research Intern. Research on hallucination and tool learning in large language models. Supervised by Gaochen Wu and Bowen Zhou.
2022.10 - 2023.10, KEG, Tsinghua University, Research Intern. Research in natural language processing and knowledge graphs. Supervised by Zijun Yao and Juanzi Li.

Academic Services

Reviewer: ICLR 2025, ICLR 2026, ACL 2026, ICML 2026