一、一顿泰国菜引发的数学谜题
上世纪70年代末,美国加州格伦代尔的一家名为Indra的泰国菜馆里,一场源于日常点餐的思考,埋下了一个经典决策理论谜题的伏笔。物理学家理查德·费曼与好友拉尔夫·莱顿是这家餐馆的常客,熟稔店内菜品的口味与品质。
图1.拉尔夫·莱顿(左)和理查德·费曼(右),两人在表演无实物打鼓。|图源:图瓦之友协会。
每次点餐,莱顿总会陷入两难的选择困境:是坚守招牌爆款姜汁鸡,稳妥规避踩雷风险,还是大胆尝试菜单里的新品?固定选择熟悉的美味,固然稳定无差错,但也可能错过更优质的菜品;可一味探索新品,又要承担口味不佳的风险。
这是每个人生活中都会遇到的取舍难题。大多数人的本能决策逻辑十分朴素:前期多尝试、多探索,积累足够体验后,锁定最优选项长期沿用。先广泛试错,再稳定收益,成为普通人应对未知选择的通用直觉。
但费曼并未止步于感性直觉。作为极致追求严谨逻辑的物理学家,他试图用精准的数学模型,解答这个生活化的问题:探索到哪个临界点,停止试错、固守最优选择,能实现长期收益最大化?
当即,费曼拿起纸笔展开演算,搭建了一套简化决策模型。他假设餐厅所有菜品的口味评分遵循均匀分布,同时提出核心决策规则:以剩余点餐次数为核心变量,算出一套专属的决策阈值。若过往尝试的所有菜品分数均低于该阈值,就继续探索新品;一旦出现超越阈值的高分菜品,便停止冒险,长期选择这款最优菜品。

图2.理查德·费曼“餐厅问题”的手写笔记,最后一张框住的部分即答案。|图源:参考文献[2]
这份写满潦草演算公式的草稿,被好友莱顿悉心珍藏数十年。2000年,莱顿曾整理手稿并附上个人解读,却并未引发学界关注。直到近些年,科研人员重新破译这份尘封近半世纪的手写笔记,才发现费曼早已独立提出并完整解答了决策理论中的最优停止问题,比诸多系统性的学术研究更早落地生活化场景。
二、从相亲到摘玉米:经典最优停止问题
最优停止问题是决策理论的经典核心命题,其中流传最广、最通俗易懂的便是秘书问题,也被大众称作相亲问题。民间更形象的类比,则是经典的“寻找最大玉米问题”。这个经典场景可以简单概括为:一人穿行玉米地,只能向前、无法回头,全程仅有一次采摘机会,如何最大概率摘到整片田地最大的玉米?数学给出的最优策略极具辨识度:遵循自然底数e的规律,先观察前37%的玉米、绝不采摘,后续行进中,只要遇到比前期所有玉米都更大的果实,便立刻摘取。这套策略能将选中最优选项的概率最大化,是公认的最优决策方案。
该问题最早由运筹学先驱梅里尔·弗洛德口头提出,他也是囚徒困境模型的联合提出者,在上世纪50年代在数学界悄然流传。1960年,著名数学科普作家马丁·加德纳在《科学美国人》专栏正式公开该问题,并将其命名为Googol游戏。至此,最优停止问题正式进入大众视野,在60年代衍生出各类延伸变体,成为学界重点研究的严肃数学问题。
从历史脉络来看,费曼大概率早已熟知这套经典的数学游戏与成熟结论。他未曾将这份餐厅问题的研究成果发表,并非研究价值不足,更多是出于随性的心态:仅仅是想用数学巧思,帮好友解决生活里的小烦恼,契合了他低调随性、热爱用硬核知识拆解日常小事的个人风格。
三、费曼餐厅问题:和经典理论的核心差异
后世学者为了方便开展行为学实验,将费曼原始的“单餐厅多菜品”模型,优化为“单城市多餐厅、每晚随机选择一家用餐”的场景,问题本质未发生改变,并正式将其命名为费曼餐厅问题。虽然它与秘书问题同属最优停止问题体系,但二者存在三处本质区别,彻底区分了单次最优选择与长期最优收益的逻辑:
第一,信息基础不同。费曼餐厅问题中,菜品、餐厅的评分概率分布是已知且确定的,决策者拥有稳定的决策参考依据;而经典相亲、摘玉米问题,全程无任何已知概率参考,完全基于实时观察决策。
第二,选择权限不同。餐厅问题支持回溯选择,用餐者可以反复回访过往体验过的优质餐厅;但相亲、摘玉米问题严格遵循“不可逆规则”,无法回头选择过往错过的选项。
第三,决策目标不同。这是两类问题最核心的差异。经典最优停止问题,目标是单次选出绝对最优解,追求一击即中;而费曼餐厅问题,目标是长期多次决策的总收益最大化,不执着于单次极致最优,重在整体收益最优。
用相亲场景类比更易理解:传统相亲问题是“择一人终老”,机会唯一、不容反悔,是极致的结果导向;而费曼餐厅式的决策,是多次体验、可复盘回溯,重在全程体验收益最大化,是典型的过程体验导向。
后续研究中,学者突破了费曼原始的均匀分布设定,将评分规律拓展为指数分布、幂分布、三角分布三类常见模型,并求解出四种分布对应的决策阈值解析解。验证结果显示,均匀分布下的最优阈值,与费曼40多年前手动演算的结果完全吻合,印证了其推导的精准性。

图3.(左)不同餐厅评分分布函数图,(右)不同分布下理论计算出来的阈值随着剩余尝试次数减少的阈值曲线。橙色代表均匀分布,蓝色代表指数分布,绿色表达幂分布,紫色代表三角分布。|图源:参考文献[2]
从数据曲线能清晰看出,无论遵循哪种概率分布,决策阈值都不是固定数值,会随着剩余尝试次数的减少持续线性下降。这完全契合现实决策逻辑:当试错机会越来越少,人们会主动下调心理预期,放弃极致追求,换取稳定收益,如同婚恋中年龄增长后,会理性调整择偶标准,规避一无所获的风险。
四、大规模行为实验:普通人的真实决策逻辑
严谨的数学最优策略早已被证实,但普通人日常决策,绝不会精准演算概率公式。大众的直觉决策究竟是无序盲从,还是暗藏贴合最优解的规律?为解答这一问题,科研团队开展了大规模真人行为实验,还原普通人的选择逻辑。研究者通过专业在线实验平台Prolific,招募了2520名覆盖全年龄段的志愿者,年龄跨度18岁至94岁,平均年龄40.4岁,性别分布均衡,最大程度保证实验样本的普遍性与代表性。
实验设定了统一的虚拟场景:志愿者需在一座陌生城市短期生活,每晚必须选择一家餐厅用餐。所有餐厅均有固定质量评分,但未消费前无法知晓分数,仅体验后可获取评分并永久记录,后续可随时复购任意已体验过的餐厅。志愿者的核心任务,是在有限停留周期内,通过合理选择,实现用餐总评分最大化。
为控制变量、保证实验严谨性,研究者做了精细化分组设计:四种餐厅评分分布(均匀、指数、幂、三角)搭配三种停留时长(7晚、14晚、28晚),共划分12组实验场景,且所有分布模型均统一平均值为50分,排除基础分数差异的干扰。
正式实验前,所有志愿者会先观察84个随机抽取的餐厅评分样本,提前感知评分分布特征,贴合普通人“先初步了解、再逐步决策”的真实习惯。
实验过程中,志愿者每晚仅有两种合规选择:要么探索全新餐厅,获取新的评分数据;要么复购已体验过的最优评分餐厅,锁定稳定高收益。若选择非最优的旧餐厅,会被系统警告甚至淘汰,以此确保所有决策均聚焦“探索”与“最优利用”的核心取舍。
全程追踪志愿者的决策行为后,研究者通过Logistic模型拟合数据分析,最终得出核心结论:普通人的决策阈值呈现稳定的线性下降规律。评分分布类型、总尝试次数,仅会微调线性函数的斜率与截距,不会改变整体线性下降的核心趋势。
图4.根据被试者行为拟合出的阈值曲线,可以看到统计意义上人们采用了线性的阈值策略。|图源:参考文献[2]
实验还发现了一个极具生活化的有趣现象:所有志愿者都存在明显的早期探索偏向。在决策初期,人们的探索意愿会远高于理论线性阈值,即便已经吃到高分餐厅,依然执着于尝试新选项,不愿过早固守现有最优解。
这种现象本质是好奇心驱动的本能决策。决策初期,人们会主动赋予探索行为更高价值,渴望获取更多未知信息、拓宽选择边界,而这种探索冲动会随着剩余机会的减少,快速衰减,最终转向保守求稳。研究者通过在线性阈值模型中加入时间指数衰减项,完美拟合了这一人性化决策特征。
五、直觉的智慧:低认知成本,近乎最优的收益
大众凭直觉形成的线性阈值策略,看似简单粗放、毫无精密计算支撑,但其收益效果却远超预期。数据显示,普通人的直觉决策收益,能稳定达到理论最优策略收益的95%以上。换言之,即便没有费曼的数学推演能力,不懂概率最优模型,普通人依靠长期生活形成的直觉经验,也能以极低的认知成本,拿到接近满分的决策结果。复杂的精密演算可以实现100%最优收益,而简单的线性直觉策略,足以覆盖绝大多数生活场景的决策需求。
同时,研究者也客观指出了本次实验的理想化局限。实验中预设餐厅评分永久固定、单次体验即可精准判定评分,且完全忽略交通、时间、金钱等现实成本;同时仅记录单次决策序列,未考虑人在反复试错中的学习成长曲线。
但这些局限,并不影响研究的核心价值。它清晰印证了:人类的直觉决策并非盲目随性,而是一套经过长期演化形成的、高效且精准的启发式决策体系。
六、结语:平凡直觉里的顶级决策智慧
从费曼在加州餐馆的即兴演算,到后世学者的理论验证与真人实验,这场跨越近半个世纪的谜题探索,最终给出了温暖又治愈的答案。顶尖物理学家用严谨数学推导的最优决策模型,与普通人日常凭直觉、凭经验的选择逻辑高度契合。我们无需精通复杂的概率论,无需精准计算决策阈值,与生俱来的探索本能与取舍直觉,就足以帮我们在无数次日常选择中,实现近乎最优的结果。
生活里那些随性的取舍、顺其自然的选择,从来不是鲁莽的侥幸,而是人类演化出的高效生存智慧。哪怕没有顶级学者的思维与能力,我们的直觉决策,也早已暗藏最优逻辑,从未辜负每一次用心的选择。
注释
[1]拉尔夫·莱顿(Ralph Leighton),1949年出生,美国传记作家,也是物理学家理查德·费曼的朋友,他与费曼合著了《别逗了,费曼先生!》。莱顿还是一名业余鼓手,“图瓦之友”团体的创始人。1991年,他出版了《理查德·费曼的最后旅程》(Tuva or Bust!Richard Feynman's Last Journey)。他的父亲罗伯特·莱顿(Robert Benjamin Leighton,1919-1997)是加州理工的物理学教授,费曼的同事,也是著名《费曼物理学讲义》的作者之一。参考文献
[1]Davide Castelvecchi,Feynman solved the‘restaurant dilemma’50 years ago—now astudy confirms his mathematics,https://www.nature.com/articles/d41586-026-00821-4
[2]Brian Christian,Evan M.Russekand Thomas L.Griffiths,Resolving Feynman’s restaurant problem reveals optimal solutions and human strategiesProc.Natl Acad.Sci.USA123,e2509612123(2026).https://www.pnas.org/doi/epdf/10.1073/pnas.2509612123
[3]Thomas S.Ferguson.Who Solved the SecretaryProblem?.Statist.Sci.4(3)282-289,August,1989.https://doi.org/10.1214/ss/1177012493
