Bio

I am currently a PHD Student at Shanghai Jiao Tong University, working with Professor Pengfei Liu. I received my B.E. in Electronic Engineering from Tsinghua University and my M.S. in Electrical and Computer Engineering from Carnegie Mellon University, where I worked with Professor Graham Neubig. My research interests lie in LLM pretraining and data engineering. I am currently focused on open and transparent pretraining at progressively larger scale, including dense and MoE architectures.

Publications

-daVinci-LLM:Towards the Science of Pretraining
Yiwei Qin, Yixiu Liu, Tiantian Mi, Muhang Xie, Zhen Huang, Weiye Si, Pengrui Lu, Siyuan Feng, Xia Wu, Liming Liu, Ye Luo, Jinlong Hou, Qipeng Guo, Yu Qiao, Pengfei Liu
arXiv, 2026

-Data Darwinism Part II: DataEvolve – AI can Autonomously Evolve Pretraining Data Curation
Tiantian Mi, Dongming Shan, Zhen Huang, Yiwei Qin, Muhang Xie, Yuxuan Qiao, Yixiu Liu, Chenyang Zhou, Pengfei Liu
arXiv, 2026

-Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training
Yiwei Qin, Zhen Huang, Tiantian Mi, Weiye Si, Chenyang Zhou, Qipeng Guo, Siyuan Feng, Pengfei Liu
arXiv, 2026 (short version accepted at ACL Main 2026 as “SciPedia: Unlocking the Value of Scientific Data for Pre-training”)

-Generative AI Act II: Test Time Scaling Drives Cognition Engineering
Shijie Xia, Yiwei Qin, Xuefeng Li, Yan Ma, Run-Ze Fan, Steffi Chern, Haoyang Zou, Fan Zhou, Xiangkun Hu, Jiahe Jin, Yanheng He, Yixin Ye, Yixiu Liu, Pengfei Liu arXiv, 2025

-DIVE: Diversified Iterative Self-Improvement
Yiwei Qin, Yixiu Liu, Pengfei Liu
arXiv, 2025

-O1 Replication Journey: A Strategic Progress Report–Part 1
Yiwei Qin, Xuefeng Li, Haoyang Zou, Yixiu Liu, Shijie Xia, Zhen Huang, Yixin Ye, Weizhe Yuan, Hector Liu, Yuanzhi Li, and Pengfei Liu
arXiv, 2024

-O1 replication journey – part 2: Surpassing o1-preview through simple distillation, big progress or bitter lesson?
Zhen Huang, Haoyang Zou, Xuefeng Li, Yixiu Liu, Yuxiang Zheng, Ethan Chern, Shijie Xia, Yiwei Qin, Weizhe Yuan, and Pengfei Liu
arXiv, 2024

-OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI
Zhen Huang, Zengzhi Wang, Shijie Xia, Xuefeng Li, Haoyang Zou, Ruijie Xu, Run-Ze Fan, Lyumanshan Ye, Ethan Chern, Yixin Ye, Yikai Zhang, Yuqing Yang, Ting Wu, Binjie Wang, Shichao Sun, Yang Xiao, Yiyuan Li, Fan Zhou, Steffi Chern, Yiwei Qin, Yan Ma, Jiadi Su, Yixiu Liu, Yuxiang Zheng, Shaoting Zhang, Dahua Lin, Yu Qiao, Pengfei Liu
NeurIPS Datasets and Benchmarks Track, 2024

-InFoBench: Evaluating Instruction Following Ability in Large Language Models
Yiwei Qin, Kaiqiang Song, Yebowen Hu, Wenlin Yao, Sangwoo Cho, Xiaoyang Wang, Xuansheng Wu, Fei Liu, Pengfei Liu, Dong Yu
ACL Findings, 2024

-T5SCORE: Discriminative Fine-tuning of Generative Evaluation Metrics
Yiwei Qin, Weizhe Yuan, Graham Neubig, Pengfei Liu
EMNLP Findings, 2023

-Searching for Effective Tuning Strategies for Multilingual Summarization
Yiwei Qin, Graham Neubig, Pengfei Liu
arXiv, 2022

-Automating Claim Construction in Patent Applications: The CMUmine Dataset
Ozan Tonguz, Yiwei Qin, Yimeng Gu, Hyun Hannah Moon
Natural Legal Language Processing Workshop, 2021