纠结点菜不用愁：费曼 50 年前一张草稿，数千人实验证明管用

一、一顿泰国菜引发的数学谜题

上世纪70年代末，美国加州格伦代尔的一家名为Indra的泰国菜馆里，一场源于日常点餐的思考，埋下了一个经典决策理论谜题的伏笔。物理学家理查德·费曼与好友拉尔夫·莱顿是这家餐馆的常客，熟稔店内菜品的口味与品质。

图1.拉尔夫·莱顿（左）和理查德·费曼（右），两人在表演无实物打鼓。｜图源：图瓦之友协会。

每次点餐，莱顿总会陷入两难的选择困境：是坚守招牌爆款姜汁鸡，稳妥规避踩雷风险，还是大胆尝试菜单里的新品？固定选择熟悉的美味，固然稳定无差错，但也可能错过更优质的菜品；可一味探索新品，又要承担口味不佳的风险。
这是每个人生活中都会遇到的取舍难题。大多数人的本能决策逻辑十分朴素：前期多尝试、多探索，积累足够体验后，锁定最优选项长期沿用。先广泛试错，再稳定收益，成为普通人应对未知选择的通用直觉。
但费曼并未止步于感性直觉。作为极致追求严谨逻辑的物理学家，他试图用精准的数学模型，解答这个生活化的问题：探索到哪个临界点，停止试错、固守最优选择，能实现长期收益最大化？
当即，费曼拿起纸笔展开演算，搭建了一套简化决策模型。他假设餐厅所有菜品的口味评分遵循均匀分布，同时提出核心决策规则：以剩余点餐次数为核心变量，算出一套专属的决策阈值。若过往尝试的所有菜品分数均低于该阈值，就继续探索新品；一旦出现超越阈值的高分菜品，便停止冒险，长期选择这款最优菜品。

图2.理查德·费曼“餐厅问题”的手写笔记，最后一张框住的部分即答案。｜图源：参考文献[2]

这份写满潦草演算公式的草稿，被好友莱顿悉心珍藏数十年。2000年，莱顿曾整理手稿并附上个人解读，却并未引发学界关注。直到近些年，科研人员重新破译这份尘封近半世纪的手写笔记，才发现费曼早已独立提出并完整解答了决策理论中的最优停止问题，比诸多系统性的学术研究更早落地生活化场景。

二、从相亲到摘玉米：经典最优停止问题

最优停止问题是决策理论的经典核心命题，其中流传最广、最通俗易懂的便是秘书问题，也被大众称作相亲问题。民间更形象的类比，则是经典的“寻找最大玉米问题”。
这个经典场景可以简单概括为：一人穿行玉米地，只能向前、无法回头，全程仅有一次采摘机会，如何最大概率摘到整片田地最大的玉米？数学给出的最优策略极具辨识度：遵循自然底数e的规律，先观察前37%的玉米、绝不采摘，后续行进中，只要遇到比前期所有玉米都更大的果实，便立刻摘取。这套策略能将选中最优选项的概率最大化，是公认的最优决策方案。
该问题最早由运筹学先驱梅里尔·弗洛德口头提出，他也是囚徒困境模型的联合提出者，在上世纪50年代在数学界悄然流传。1960年，著名数学科普作家马丁·加德纳在《科学美国人》专栏正式公开该问题，并将其命名为Googol游戏。至此，最优停止问题正式进入大众视野，在60年代衍生出各类延伸变体，成为学界重点研究的严肃数学问题。
从历史脉络来看，费曼大概率早已熟知这套经典的数学游戏与成熟结论。他未曾将这份餐厅问题的研究成果发表，并非研究价值不足，更多是出于随性的心态：仅仅是想用数学巧思，帮好友解决生活里的小烦恼，契合了他低调随性、热爱用硬核知识拆解日常小事的个人风格。

三、费曼餐厅问题：和经典理论的核心差异

后世学者为了方便开展行为学实验，将费曼原始的“单餐厅多菜品”模型，优化为“单城市多餐厅、每晚随机选择一家用餐”的场景，问题本质未发生改变，并正式将其命名为费曼餐厅问题。
虽然它与秘书问题同属最优停止问题体系，但二者存在三处本质区别，彻底区分了单次最优选择与长期最优收益的逻辑：
第一，信息基础不同。费曼餐厅问题中，菜品、餐厅的评分概率分布是已知且确定的，决策者拥有稳定的决策参考依据；而经典相亲、摘玉米问题，全程无任何已知概率参考，完全基于实时观察决策。
第二，选择权限不同。餐厅问题支持回溯选择，用餐者可以反复回访过往体验过的优质餐厅；但相亲、摘玉米问题严格遵循“不可逆规则”，无法回头选择过往错过的选项。
第三，决策目标不同。这是两类问题最核心的差异。经典最优停止问题，目标是单次选出绝对最优解，追求一击即中；而费曼餐厅问题，目标是长期多次决策的总收益最大化，不执着于单次极致最优，重在整体收益最优。
用相亲场景类比更易理解：传统相亲问题是“择一人终老”，机会唯一、不容反悔，是极致的结果导向；而费曼餐厅式的决策，是多次体验、可复盘回溯，重在全程体验收益最大化，是典型的过程体验导向。
后续研究中，学者突破了费曼原始的均匀分布设定，将评分规律拓展为指数分布、幂分布、三角分布三类常见模型，并求解出四种分布对应的决策阈值解析解。验证结果显示，均匀分布下的最优阈值，与费曼40多年前手动演算的结果完全吻合，印证了其推导的精准性。

图3.（左）不同餐厅评分分布函数图，（右）不同分布下理论计算出来的阈值随着剩余尝试次数减少的阈值曲线。橙色代表均匀分布，蓝色代表指数分布，绿色表达幂分布，紫色代表三角分布。｜图源：参考文献[2]

从数据曲线能清晰看出，无论遵循哪种概率分布，决策阈值都不是固定数值，会随着剩余尝试次数的减少持续线性下降。这完全契合现实决策逻辑：当试错机会越来越少，人们会主动下调心理预期，放弃极致追求，换取稳定收益，如同婚恋中年龄增长后，会理性调整择偶标准，规避一无所获的风险。

四、大规模行为实验：普通人的真实决策逻辑

严谨的数学最优策略早已被证实，但普通人日常决策，绝不会精准演算概率公式。大众的直觉决策究竟是无序盲从，还是暗藏贴合最优解的规律？为解答这一问题，科研团队开展了大规模真人行为实验，还原普通人的选择逻辑。
研究者通过专业在线实验平台Prolific，招募了2520名覆盖全年龄段的志愿者，年龄跨度18岁至94岁，平均年龄40.4岁，性别分布均衡，最大程度保证实验样本的普遍性与代表性。
实验设定了统一的虚拟场景：志愿者需在一座陌生城市短期生活，每晚必须选择一家餐厅用餐。所有餐厅均有固定质量评分，但未消费前无法知晓分数，仅体验后可获取评分并永久记录，后续可随时复购任意已体验过的餐厅。志愿者的核心任务，是在有限停留周期内，通过合理选择，实现用餐总评分最大化。
为控制变量、保证实验严谨性，研究者做了精细化分组设计：四种餐厅评分分布（均匀、指数、幂、三角）搭配三种停留时长（7晚、14晚、28晚），共划分12组实验场景，且所有分布模型均统一平均值为50分，排除基础分数差异的干扰。
正式实验前，所有志愿者会先观察84个随机抽取的餐厅评分样本，提前感知评分分布特征，贴合普通人“先初步了解、再逐步决策”的真实习惯。
实验过程中，志愿者每晚仅有两种合规选择：要么探索全新餐厅，获取新的评分数据；要么复购已体验过的最优评分餐厅，锁定稳定高收益。若选择非最优的旧餐厅，会被系统警告甚至淘汰，以此确保所有决策均聚焦“探索”与“最优利用”的核心取舍。
全程追踪志愿者的决策行为后，研究者通过Logistic模型拟合数据分析，最终得出核心结论：普通人的决策阈值呈现稳定的线性下降规律。评分分布类型、总尝试次数，仅会微调线性函数的斜率与截距，不会改变整体线性下降的核心趋势。

图4.根据被试者行为拟合出的阈值曲线，可以看到统计意义上人们采用了线性的阈值策略。｜图源：参考文献[2]

实验还发现了一个极具生活化的有趣现象：所有志愿者都存在明显的早期探索偏向。在决策初期，人们的探索意愿会远高于理论线性阈值，即便已经吃到高分餐厅，依然执着于尝试新选项，不愿过早固守现有最优解。
这种现象本质是好奇心驱动的本能决策。决策初期，人们会主动赋予探索行为更高价值，渴望获取更多未知信息、拓宽选择边界，而这种探索冲动会随着剩余机会的减少，快速衰减，最终转向保守求稳。研究者通过在线性阈值模型中加入时间指数衰减项，完美拟合了这一人性化决策特征。

五、直觉的智慧：低认知成本，近乎最优的收益

大众凭直觉形成的线性阈值策略，看似简单粗放、毫无精密计算支撑，但其收益效果却远超预期。数据显示，普通人的直觉决策收益，能稳定达到理论最优策略收益的95%以上。
换言之，即便没有费曼的数学推演能力，不懂概率最优模型，普通人依靠长期生活形成的直觉经验，也能以极低的认知成本，拿到接近满分的决策结果。复杂的精密演算可以实现100%最优收益，而简单的线性直觉策略，足以覆盖绝大多数生活场景的决策需求。
同时，研究者也客观指出了本次实验的理想化局限。实验中预设餐厅评分永久固定、单次体验即可精准判定评分，且完全忽略交通、时间、金钱等现实成本；同时仅记录单次决策序列，未考虑人在反复试错中的学习成长曲线。
但这些局限，并不影响研究的核心价值。它清晰印证了：人类的直觉决策并非盲目随性，而是一套经过长期演化形成的、高效且精准的启发式决策体系。

六、结语：平凡直觉里的顶级决策智慧

从费曼在加州餐馆的即兴演算，到后世学者的理论验证与真人实验，这场跨越近半个世纪的谜题探索，最终给出了温暖又治愈的答案。
顶尖物理学家用严谨数学推导的最优决策模型，与普通人日常凭直觉、凭经验的选择逻辑高度契合。我们无需精通复杂的概率论，无需精准计算决策阈值，与生俱来的探索本能与取舍直觉，就足以帮我们在无数次日常选择中，实现近乎最优的结果。
生活里那些随性的取舍、顺其自然的选择，从来不是鲁莽的侥幸，而是人类演化出的高效生存智慧。哪怕没有顶级学者的思维与能力，我们的直觉决策，也早已暗藏最优逻辑，从未辜负每一次用心的选择。

注释

[1]拉尔夫·莱顿（Ralph Leighton），1949年出生，美国传记作家，也是物理学家理查德·费曼的朋友，他与费曼合著了《别逗了，费曼先生！》。莱顿还是一名业余鼓手，“图瓦之友”团体的创始人。1991年，他出版了《理查德·费曼的最后旅程》（Tuva or Bust!Richard Feynman's Last Journey）。他的父亲罗伯特·莱顿（Robert Benjamin Leighton，1919-1997）是加州理工的物理学教授，费曼的同事，也是著名《费曼物理学讲义》的作者之一。

参考文献

[1]Davide Castelvecchi,Feynman solved the‘restaurant dilemma’50 years ago—now astudy confirms his mathematics,https://www.nature.com/articles/d41586-026-00821-4

[2]Brian Christian,Evan M.Russekand Thomas L.Griffiths,Resolving Feynman’s restaurant problem reveals optimal solutions and human strategiesProc.Natl Acad.Sci.USA123,e2509612123(2026).https://www.pnas.org/doi/epdf/10.1073/pnas.2509612123

[3]Thomas S.Ferguson.Who Solved the SecretaryProblem?.Statist.Sci.4(3)282-289,August,1989.https://doi.org/10.1214/ss/1177012493