Haoyue Bai

About Me

I am a Research Assistant at Arizona State University. My research focuses on machine learning, data mining, and AI applications in simulation and decision-making systems.

I have published multiple papers in top-tier venues including ACM MM, SIGIR, KDD, IJCAI, and IEEE TBD. My work spans across recommender systems, feature transformation, and AI for simulation.

Education

Arizona State University - Research Assistant (Aug 2024 - Present)
Hefei University of Technology - M.Eng. Software Engineering (Sep 2021 - Jun 2024)
Central South University - B.Eng. Data Science and Big Data Technology (Sep 2016 - Jun 2020)

Research Areas

Stage 1: Recommender Systems

Past research focused on addressing cold-start problems and bias mitigation in recommender systems through generative models, graph neural networks, and fairness-aware approaches.

Stage 2: AI for Simulation & Data-Centric AI

Previous work on developing data-driven simulators for high-stakes decision-making in complex environments, including supply chain optimization and geological CO₂ storage planning, as well as data-centric AI approaches for feature transformation and privacy preservation.

Current: LLM Agent Workflow & Safety

Currently exploring LLM agent workflow optimization and safety mechanisms.

Publications

2025

NeurIPS 2025

Sculpting Features from Noise: Reward-Guided Hierarchical Diffusion for Task-Optimal Feature Transformation

Nanxu Gong, Zijun Li, Sixun Dong, Haoyue Bai, Wangyang Ying, Xinyuan Wang, Yanjie Fu

Paper

WSC 2025

Supply Chain Optimization via Generative Simulation and Iterative Decision Policies

Haoyue Bai, Haoyu Wang, Nanxu Gong, Xinyuan Wang, Wangyang Ying, Haifeng Chen, Yanjie Fu

Paper

WWW 2025

Fair Personalized Learner Modeling Without Sensitive Attributes

Hefei Xu, Min Hou, Le Wu, Fei Liu, Yonghui Yang, Haoyue Bai, Richang Hong, Meng Wang

Paper

IJCAI 2025

Unsupervised Feature Transformation via In-context Generation, Generator-critic LLM Agents, and Duet-play Teaming

Nanxu Gong, Xinyuan Wang, Wangyang Ying, Haoyue Bai, Sixun Dong, Haifeng Chen, Yanjie Fu

Paper

npj Artificial Intelligence 2025

Privacy-Preserving Generative Feature Transformation

Haoyue Bai, Wangyang Ying, Nanxu Gong, Xinyuan Wang, Hao Liu, Yanjie Fu

Paper

ACM TKDD 2025

Towards Data-Centric AI: A Comprehensive Survey of Traditional, Reinforcement, and Generative Approaches for Tabular Data Transformation

Dongjie Wang, Yanyong Huang, Wangyang Ying, Haoyue Bai, Nanxu Gong, Xinyuan Wang, Sixun Dong, Tao Zhe, Kunpeng Liu, Meng Xiao, Pengfei Wang, Pengyang Wang, Hui Xiong, Yanjie Fu

Paper

2024

SIGIR 2024

Multimodality Invariant Learning for Multimedia-Based New Item Recommendation

Haoyue Bai, Le Wu, Min Hou, Miaomiao Cai, Zhuangzhuang He, Yuyang Zhou, Richang Hong, Meng Wang

Paper

KDD 2024

Double Correction Framework for Denoising Recommendation

Zhuangzhuang He, Yifan Wang, Yonghui Yang, Peijie Sun, Le Wu, Haoyue Bai, Jinqi Gong, Richang Hong, Min Zhang

Paper

KDD 2024

Popularity-Aware Alignment and Contrastive for Mitigating Popularity Bias

Miaomiao Cai, Lei Chen, Yifan Wang, Haoyue Bai, Peijie Sun, Le Wu, Min Zhang, Meng Wang

Paper

IEEE TBD 2024

Unified Representation Learning for Discrete Attribute Enhanced Completely Cold-Start Recommendation

Haoyue Bai, Min Hou, Le Wu, Yonghui Yang, Kun Zhang, Richang Hong, Meng Wang

Paper

ACM TIST 2024

Mitigating Recommendation Biases via Group-Alignment and Global-Uniformity in Representation Learning

Miaomiao Cai, Min Hou, Lei Chen, Le Wu, Haoyue Bai, Yong Li, Meng Wang

Paper

2023

ACM MM 2023

GoRec: A Generative Cold-Start Recommendation Framework

Haoyue Bai, Min Hou, Le Wu, Yonghui Yang, Kun Zhang, Richang Hong, Meng Wang

Paper

Preprints

arXiv 2025

Learning to Route: A Rule-Driven Agent Framework for Hybrid-Source Retrieval-Augmented Generation

Haoyue Bai, Haoyu Wang, Yanjie Fu, Haifeng Chen

Paper

arXiv 2025

From Language Model to Capable Agent: A Survey of Agent Training Frontiers

Zhuangzhuang He, Haoyue Bai, Kaiyu Zhou, Yonghui Yang

Paper

arXiv 2025

Brownian Bridge Augmented Surrogate Simulation and Injection Planning for Geological CO₂ Storage

Haoyue Bai, Guodong Chen, Wangyang Ying, Xinyuan Wang, Nanxu Gong, Sixun Dong, Giulia Pedrielli, Haifeng Chen

Paper

arXiv 2025

Bridging the Domain Gap in Equation Distillation with Reinforcement Feedback

Wangyang Ying, Haoyue Bai, Nanxu Gong, Xinyuan Wang, Sixun Dong, Haifeng Chen, Yanjie Fu

Paper

arXiv 2025

Agentic Feature Augmentation: Unifying Selection and Generation with Teaming, Planning, and Memories

Nanxu Gong, Zijun Li, Sixun Dong, Haoyue Bai, Wangyang Ying, Xinyuan Wang, Yanjie Fu

Paper

arXiv 2025

LLM-ML Teaming: Integrated Symbolic Decoding and Gradient Search for Valid and Stable Generative Feature Transformation

Xinyuan Wang, Haoyue Bai, Nanxu Gong, Wangyang Ying, Sixun Dong, Xiquan Cui, Yanjie Fu

Paper

arXiv 2025

Efficient Post-Training Refinement of Latent Reasoning in Large Language Models

Xinyuan Wang, Dongjie Wang, Wangyang Ying, Haoyue Bai, Nanxu Gong, Sixun Dong, Kunpeng Liu, Yanjie Fu

Paper

arXiv 2024

Topology-aware Reinforcement Feature Space Reconstruction for Graph Data

Wangyang Ying, Haoyue Bai, Kunpeng Liu, Yanjie Fu

Paper

Experience

Research Intern

NEC Laboratories America

May 2025 - Aug 2025

Working on cyberattack simulation and defense optimization, as well as LLM enhancement via strategic RAG-database integration.

Research Assistant

KDD Lab, Arizona State University

Aug 2024 - Present

Conducting research in AI for simulation and data-centric AI under the supervision of Prof. Yanjie Fu.

Research Assistant

Lab for Media Computing, Hefei University of Technology

Sep 2021 - Jun 2024

Focused on cold-start recommender systems and bias mitigation in recommendation systems under Prof. Le Wu's supervision.

Research Assistant

About Me

Education

Research Areas

Stage 1: Recommender Systems

Stage 2: AI for Simulation & Data-Centric AI

Current: LLM Agent Workflow & Safety

Publications

2025

Sculpting Features from Noise: Reward-Guided Hierarchical Diffusion for Task-Optimal Feature Transformation

Supply Chain Optimization via Generative Simulation and Iterative Decision Policies

Fair Personalized Learner Modeling Without Sensitive Attributes

Unsupervised Feature Transformation via In-context Generation, Generator-critic LLM Agents, and Duet-play Teaming

Privacy-Preserving Generative Feature Transformation

Towards Data-Centric AI: A Comprehensive Survey of Traditional, Reinforcement, and Generative Approaches for Tabular Data Transformation

2024

Multimodality Invariant Learning for Multimedia-Based New Item Recommendation

Double Correction Framework for Denoising Recommendation

Popularity-Aware Alignment and Contrastive for Mitigating Popularity Bias

Unified Representation Learning for Discrete Attribute Enhanced Completely Cold-Start Recommendation

Mitigating Recommendation Biases via Group-Alignment and Global-Uniformity in Representation Learning

2023

GoRec: A Generative Cold-Start Recommendation Framework

Preprints

Learning to Route: A Rule-Driven Agent Framework for Hybrid-Source Retrieval-Augmented Generation

From Language Model to Capable Agent: A Survey of Agent Training Frontiers

Brownian Bridge Augmented Surrogate Simulation and Injection Planning for Geological CO₂ Storage

Bridging the Domain Gap in Equation Distillation with Reinforcement Feedback

Agentic Feature Augmentation: Unifying Selection and Generation with Teaming, Planning, and Memories

LLM-ML Teaming: Integrated Symbolic Decoding and Gradient Search for Valid and Stable Generative Feature Transformation

Efficient Post-Training Refinement of Latent Reasoning in Large Language Models

Topology-aware Reinforcement Feature Space Reconstruction for Graph Data

Experience

Research Intern

Research Assistant

Research Assistant

Contact