Zhaoyang Yu

DeepWisdom

I am a Research Intern at DeepWisdom, where I work with Chenglin Wu, Jiayi Zhang, and Yifan Wu. I am fortunate to collaborate with Bang Liu and Yuyu Luo.

I received my B.E. from the Renmin University of China. As a Co-Founder of OpenManus and a member of Foundation Agents, I am committed to advancing open-source agent infrastructure and research. Currently, my research interest focuses on developing LLM-based agents that can operate effectively across diverse environments and tasks.

Focus

Agent learning. Learning is key to cross-environment capabilities. Learning environment dynamics requires complex optimization approaches, signals, and targets beyond model parameters, like AFlow optimizing decision workflows and SPO exploring new reward signals for prompt optimization.
Decision-making. Human decision-making naturally enables cross-environment learning and generalization. We explore agent decision structures that mirror human reasoning, potentially unlocking similar learning advantages. AoT atomizes reasoning to address context limitations, while ReCode unifies planning and action for more natural decision-making.
Environment scaling. Agent environments are inevitably simplified versions of human environments, lacking complexity, dynamics, and rich reward signals that make agent learning inherently challenging. We aim to scale environments, like AutoEnv, to provide richer dynamics, diverse distributions, and more abundant rewards for effective learning.

Selected Publications

ReCode: Unify Plan and Action for Universal Granularity Control.

Zhaoyang Yu, Jiayi Zhang, Huixue Su, Yufan Zhao, Yifan Wu, Mingyi Deng, Jinyu Xiang, Yizhang Lin, Lingxiao Tang, Yuyu Luo, Bang Liu, Chenglin Wu.

[paper] · [code]
AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning.

Jiayi Zhang, Yiran Peng, Fanqi Kong, Yang Cheng, Yifan Wu, Zhaoyang Yu, Jinyu Xiang, Jianhao Ruan, Jinlin Wang, Maojia Song, HongZhang Liu, Xiangru Tang, Bang Liu, Chenglin Wu, Yuyu Luo.

[paper] · [code]
AFlow: Automating Agentic Workflow Generation.

Jiayi Zhang, Jinyu Xiang, Zhaoyang Yu, Fengwei Teng, Xionghui Chen, Jiaqi Chen, Mingchen Zhuge, Xin Cheng, Sirui Hong, Jinlin Wang, Bingnan Zheng, Bang Liu, Yuyu Luo, Chenglin Wu.

The International Conference on Learning Representations (ICLR), 2025. Oral

[paper] · [code]
Self-supervised Prompt Optimization.

Jinyu Xiang, Jiayi Zhang, Zhaoyang Yu, Xinbing Liang, Fengwei Teng, Jinhao Tu, Fashen Ren, Xiangru Tang, Sirui Hong, Chenglin Wu, Yuyu Luo.

The Conference on Empirical Methods in Natural Language Processing (EMNLP), 2025.

[paper] · [code]
Atom of Thoughts for Markov LLM Test-Time Scaling.

Fengwei Teng, Zhaoyang Yu, Quan Shi, Jiayi Zhang, Chenglin Wu, Yuyu Luo.

The Thirty-Ninth Annual Conference on Neural Information Processing Systems (NeurIPS), 2025.

[paper] · [code]
Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems.

Bang Liu, Xinfeng Li, Jiayi Zhang, Jinlin Wang, Tanjin He, Sirui Hong, Hongzhang Liu, Shaokun Zhang, Kaitao Song, Kunlun Zhu, Yuheng Cheng, Suyuchen Wang, Xiaoqiang Wang, Yuyu Luo, Haibo Jin, Peiyan Zhang, Ollie Liu, Jiaqi Chen, Huan Zhang, Zhaoyang Yu, Haochen Shi, Boyan Li, Dekun Wu, Fengwei Teng, Xiaojun Jia, Jiawei Xu, Jinyu Xiang, Yizhang Lin, Tianming Liu, Tongliang Liu, Yu Su, Huan Sun, Glen Berseth, Jianyun Nie, Ian Foster, Logan Ward, Qingyun Wu, Yu Gu, Mingchen Zhuge, Xiangru Tang, Haohan Wang, Jiaxuan You, Chi Wang, Jian Pei, Qiang Yang, Xiaoliang Qi, Chenglin Wu.

[paper] · [code]
Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks.

Cheng Yang, Haiyuan Wan, Yiran Peng, Xin Cheng, Zhaoyang Yu, Jiayi Zhang, Junchi Yu, Xinlei Yu, Xiawu Zheng, Dongzhan Zhou, Chenglin Wu

[paper] · [code]
InteractComp: Evaluating Search Agents With Ambiguous Queries.

Mingyi Deng, Lijun Huang, Yani Fan, Jiayi Zhang, Fashen Ren, Jinyi Bai, Fuzhen Yang, Dayi Miao, Zhaoyang Yu, Yifan Wu, Yanfei Zhang, Fengwei Teng, Yingjia Wan, Song Hu, Yude Li, Xin Jin, Conghao Hu, Haoyu Li, Qirui Fu, Tai Zhong, Xinyu Wang, Xiangru Tang, Nan Tang, Chenglin Wu, Yuyu Luo

[paper] · [code]
VisJudge-Bench: Aesthetics and Quality Assessment of Visualizations.

Yupeng Xie, Zhiyang Zhang, Yifan Wu, Sirong Lu, Jiayi Zhang, Zhaoyang Yu, Jinlin Wang, Sirui Hong, Bang Liu, Chenglin Wu, Yuyu Luo.

[paper] · [code]

Selected Projects

OpenManus

52.9k stars · 9.3k forks

No fortress, purely open ground. OpenManus is Coming.
ReCode

529 stars · 59 forks

Next paradigm for LLM Agent. Unify plan and action through recursive code generation for adaptive, human-like decision-making.
Awesome-Foundation-Agents

1.9k stars · 185 forks

About Awesome things towards foundation agents. Papers / Repos / Blogs / ...
AFlow

394 stars · 79 forks

🔥🔥🔥 ICLR 2025 Oral. Automating Agentic Workflow Generation.

Experience

Research Intern, DeepWisdom
Feb 2025 – Present · Shenzhen
with Chenglin Wu, Jiayi Zhang, and Yifan Wu
Algorithm Engineer Intern, Xiaomi
Jan 2024 – Apr 2024 · Beijing
with MiRoboticsLab
Research Assistant, GeWu Lab (Renmin Univ)
Jun 2022 – Aug 2023 · Beijing
with Prof. Di Hu

Service

Reviewer: ICLR 2026; ICML 2025 MAS Workshop

Talks

“Advances and Challenges in Foundation Agents”
Invited talk at 2025 X-AGI & The 18th China-R Conference, Beijing (Oct 2025)

Blogs

规划与行动统一：ReCode 对 Agent 决策的重新思考 2025.11.03 · Chinese

用代码统一表示 plan 和 action，结合动态展开机制，可能为 foundation agent 的 learning 提供一个更好的 decision-making 基础，但这只是一个初步探索。

[read more]
【小米CyberDog二次开发】让你的机器狗有自己的小情绪！ 2022.09.14 · Chinese

基于小米CyberDog和文澜预训练模型，我们实现了铁蛋根据不同场景而做出不同的富有情绪动作的能力。下面是保姆级教程（基于Python实现），无需ROS相关知识，让你的铁蛋也拥有自己的情绪！

[read more]