GPT 图像团队背后:一张华人师徒网

收录于 前沿科技 持续更新中
当GPT Image 2正式登场,AI图像生成领域的格局被彻底改写——从此只有两个梯队:GPT Image 2,以及所有追赶者。它以241分的绝对优势霸榜跑分榜单,但比起冰冷的数字,支撑
当GPT Image 2正式登场,AI图像生成领域的格局被彻底改写——从此只有两个梯队:GPT Image 2,以及所有追赶者。它以241分的绝对优势霸榜跑分榜单,但比起冰冷的数字,支撑这份领先的13人核心团队,才是真正的「宝藏」。
这支出自OpenAI的精锐之师,规模精简到极致,却藏着一个令人瞩目的事实:华人成员占据半壁江山。深挖他们的履历会发现,这些顶尖研究者的人生轨迹,早已在海外求学、科研深耕的路上交织,形成一张紧密的人才网络。AI圈从不是孤立的竞技场,而是一个由师门、同窗、前同事织就的「熟人局」,流水的大厂迭代,铁打的师徒相携、同伴相成就。


华人核心:从「传帮带」到「同门并肩」,撑起半壁江山

陈博远,堪称GPT Image 2的「灵魂人物」,而他的成长之路,正是华人学术圈「传帮带」精神的生动缩影。高中时期,尚未接触编程的他,在无锡一场科研夏令营中与华人学者夏斐结缘——彼时已在AI领域崭露头角的夏斐,向他推开了深度学习的大门,成为他科研路上的第一位引路人。这份缘分并未随着夏令营结束而中断,反而成为陈博远前行的重要支撑。
本科阶段,陈博远考入UC Berkeley计算机科学与数学专业,凭借3.96的优异GPA跻身EECS荣誉班,师从知名学者Pieter Abbeel深耕相关研究,还曾创办机器人教育公司,积累了扎实的工程实践经验。
可进入MIT攻读博士的第一年,他便遭遇瓶颈,因无论文产出陷入迷茫。关键时刻,夏斐再次伸出援手,不仅为他提供学术指导,更协助他发表了第一篇有影响力的论文《NLMap》。此后,夏斐两次邀请他前往DeepMind实习,2023年实习期间,陈博远主导搭建的多模态大语言模型数据合成管线,其总结的指令微调技术,更直接应用于Gemini 2.0的研发。
2025年6月,带着深厚的学术积累与工程经验,陈博远加入OpenAI,不仅成为GPT Image 2的核心成员,还身兼Sora视频生成团队的重要职责,一人支撑起两大核心项目。而在MIT期间,他师从助理教授Vincent Sitzmann,在计算机科学与人工智能实验室(CSAIL)深耕「世界模型」研究——所谓世界模型,就是让AI通过心理模拟预判物理世界的变化,而非单纯模仿像素,这种前沿思路,也为GPT Image 2的技术突破埋下了伏笔。
在Sitzmann实验室,陈博远还有一位同门师兄——Kiwhan Song,两人在博士期间并肩作战,联合发表了《History-Guided Video Diffusion》与《Large Video Planner》两篇重磅论文,核心探索如何将扩散模型与序列生成深度结合,让AI在生成内容前,先理清时序与空间上的因果逻辑,这一研究成果,成为GPT Image 2实现高质量生成的关键技术支撑。
有趣的是,Kiwhan Song还是网络上流行的「长脖子」贴纸风格漫画头像的创作者,在严谨的科研之外,藏着一份鲜活的创意。


跨界力量:工业界老兵加持,少走数年弯路

除了陈博远与Kiwhan Song这对同门,GPT Image 2团队中还有两位来自工业界的华人研究员,他们带来的不仅是个人能力,更有竞争对手多年积累的工程经验与避坑指南,为团队节省了大量试错成本。
Jianfeng Wang在微软深耕近9年,以首席研究员的身份专注于大规模多模态表示学习,在DALL-E 3研发期间,便与OpenAI团队有过深度协作,对多模态模型的技术痛点与优化方向了如指掌。
加入OpenAI后,他将重心放在提升GPT Image 2的指令遵循能力与世界知识理解上,让模型更贴合人类需求,减少生成偏差。其学术成果可通过谷歌学术(https://scholar.google.com/citations?user=vJWEw_8AAAAJ&hl=en)查询,不过目前该网页暂无法正常解析。
另一位华人研究员Bing Liang,则在谷歌积累了5年多的核心经验,以高级软件工程师的身份参与了Imagen 3、Veo视频模型及Gemini多模态系列的研发,对图像生成与多模态融合有着深刻的理解。2025年8月,他正式加入OpenAI,专注于GPT Image 2的图像生成相关研究,为模型的工程化落地提供了有力支撑。其领英主页(https://www.linkedin.com/in/bing-liang/)目前暂无法正常解析,相关细节有待进一步披露。


浙大学子:跨学科积累,解锁多模态新可能

在团队中,Weixin Liang与Yuguang Yang的组合同样引人注目——两人均毕业于浙江大学竺可桢学院,相同的本科背景,让他们在学术理念与工作节奏上高度契合,成为团队中不可或缺的跨学科力量。
Yuguang Yang的履历堪称「跨界典范」。本科阶段在竺可桢学院攻读工程专业,为他奠定了扎实的工程基础;博士阶段,他远赴约翰斯·霍普金斯大学,跨界攻读计算化学物理与机器学习专业,拓宽了学术边界;毕业后,他先后任职于亚马逊Alexa(负责语音识别方向的深度学习研究)与微软Bing(负责查询理解与大规模检索),积累了丰富的工业界经验。此外,他还曾在清华大学开展访问研究,聚焦于纳米机器人在人体血管中导航的强化学习算法,期间发表7篇同行评审期刊论文。这种跨工程、化学、AI、医学的积累,让他在GPT Image 2的研发中,能够跳出传统图像生成的框架,为模型注入更多创新思路。
与Yuguang Yang的跨界路径不同,Weixin Liang的成长轨迹更偏向学术深耕。他在斯坦福AI实验室(SAIL)攻读博士期间,与Christopher Manning、Li Fei-Fei、James Zou等多位AI领域顶尖教授深度合作(其个人主页:https://ai.stanford.edu/~wxliang/),在多模态领域积累了深厚的学术功底。
在Meta实习期间,Weixin Liang主导发表了论文《Mixture-of-Transformers(MoT)》(https://arxiv.org/abs/2411.04996),这一成果被称为「推动多模态理解与生成统一的奠基性贡献」。论文提出的MoT架构,通过引入模态解耦的混合专家模型,对Transformer的每一个非嵌入参数(包括前馈网络、注意力矩阵和层归一化)实施模态感知的稀疏化处理,最终将多模态预训练的计算成本降低66%,并在30B参数规模下完成预训练验证。要知道,多模态模型需同时处理文本与高分辨率图像,计算量极易呈指数级增长,而MoT凭借模态解耦的注意力机制,在预训练阶段就实现了不同模态权重的高效分配,完美解决了这一行业痛点,也为GPT Image 2的高效训练提供了核心技术支撑。


全员精锐:多元背景交织,铸就无敌团队

除了上述华人成员,GPT Image 2的13人团队中,其余成员也各有专长,凭借多元的背景与丰富的经验,共同铸就了这支「无敌之师」:
  • Kenji Hata:斯坦福计算机科学硕士,曾任职于Google Research,加入OpenAI后,先后参与4o图像生成(即GPT-Image-1)、Sora 2等多款模型研发,是团队中模型迭代经历最完整的成员之一,熟悉模型从研发到落地的全流程。
  • Ayaan Haque:加入OpenAI前为Luma AI研究员,主导过视频生成模型Dream Machine的训练,具备极强的高维时序数据处理能力,目前负责GPT Image 2及模型思考模式的研发,为模型的时序一致性提供保障。
  • Dibya Bhattacharjee:耶鲁计算机科学本硕,在谷歌深耕近5年,2024年2月加入OpenAI后专注于图像生成研究,在GPT Image 2的发布活动中,亲自演示了模型的多规格生成能力,是实现模型输出「开箱即用」的关键人物。
  • Mengchao Z.:上海交大本科、德克萨斯A&M大学硕士,工程背景扎实,加入OpenAI前主导大规模推荐系统架构设计,目前负责将GPT Image 2的技术能力转化为可落地的产品形态,搭建技术与用户之间的桥梁。
此外,团队中还有多名成员的身份信息暂未公开,但其在模型研发、工程落地等环节中,同样发挥着不可替代的作用。


AI竞争的本质:不是挖人,是搭建「相遇与成就」的生态

复盘这支13人团队的构成,不难发现其核心竞争力:师门脉络沉淀了共同的研究品味,高校背景奠定了一致的基础认知,而同窗、前同事的羁绊,又形成了极高密度的信任。这种天然的联结,让团队成员拥有统一的价值观与工程语言,创新的磨合成本几乎为零,也让前沿想法能够快速落地。
如今,清华姚班、浙大竺可桢学院、中科大学少年班、上海交大等国内顶尖高校的毕业生,已成为OpenAI、Anthropic、DeepMind、Meta等海外AI实验室的核心力量。但这背后,更值得思考的是:AI的竞争,归根结底是「人」的竞争,而人的成长与创新,离不开一个能够让天才们自然相遇、互相成就的生态。
重金挖走一两个「陈博远」,或许能解一时之需,却无法复制这支团队的凝聚力与创新力——没有同伴的支撑,没有师门的传承,没有开放的探索环境,再顶尖的人才也难以发挥最大价值。大厂的层级化结构,适合商业化目标的快速落地,却往往束缚了基础研究所需的自由探索。
GPT Image 2的成功,从来不是某一个人的功劳,而是一个优质生态的自然产物。比起寻找下一个顶尖人才,我们更需要搭建一个平台,让更多「陈博远们」能在本土相遇、相知、相助,让创新在羁绊中自然涌现——这,才是AI竞争的核心密码。



本文来自微信公众号: APPSO ,作者:发现明日产品的

推荐前沿科技

苏公网安备 11011xxxxx号 苏ICP备2025192616号-1