首页 >> 正文

decision用法总结

来源：baiyundou.net 日期：2024-08-22

Wenqi Zhang 投稿

量子位 | 公众号 QbitAI

基于大模型的Agent，已经成为了大型的博弈游戏的高级玩家，而且玩的还是德州扑克、21点这种非完美信息博弈。

来自浙江大学、中科院软件所等机构的研究人员提出了新的Agent进化策略，从而打造了一款会玩德州扑克的“狡猾”智能体Agent-Pro。

通过不断优化自我构建的世界模型和行为策略，Agent-Pro掌握了虚张声势、主动放弃等人类高阶游戏策略。

Agent-Pro以大模型为基座，通过自我优化的Prompt来建模游戏世界模型和行为策略。

相比传统的Agent框架，Agent-Pro能够变通地应对复杂的动态的环境，而不是仅专注于特定任务。

而且，Agent-Pro还可以通过与环境互动来优化自己的行为，从而更好地达成人类设定的目标。

同时作者还指出，在竞争、公司谈判和安全等现实世界中遇到的情景，大多可以抽象为multi-agent博弈任务，而Agent-Pro通过对这类情境的研究，为解决众多现实世界的问题提供了有效策略。

那么，Agent-Pro在博弈游戏中的表现究竟如何呢？

进化出游戏世界模型

在研究中，作者使用了“21点”和“有限注德州扑克”这两款游戏对Agent进行了评估。

首先简要介绍下两个博弈游戏的基本规则。

21点

游戏中包含一个庄家和至少一名玩家。
玩家可以看到自己的两张手牌, 以及庄家的一张明牌，庄家还隐藏了一张暗牌。玩家需要决定是继续要牌（Hit）还是停牌（Stand）。
游戏的目标是在总点数不超过21点的前提下，尽量使总点数超过庄家。

有限注德州扑克

游戏开始阶段为Preflop阶段，每位玩家将获得两张只属于自己且对其他玩家保密的私牌（Hand）。
随后，会有五张公共牌面(Public Cards)依次发出：首先翻牌（Flop）3 张，其次转牌（Turn）1张，最后是河牌(River）1张。
玩家有四种选择：弃牌（fold）、过牌（check）、跟注（call）或加注（raise）。
目标是利用自己的两张Hand和五张Public Cards任意组合，尽可能构造出最佳的五张扑克牌组合。

在“21点”当中，同样是使用GPT-4作为基础模型，Agent-Pro的表现超过了ReAct框架。

在手牌相同的情况下，二者的表现如下图所示。

Agent-Pro通过分析得出自我信念（Self-Belief）和对外部世界的信念（World-Belief），正确认识到自己的手牌已接近21点，合理的选择了停牌。

而ReAct则未能及时停牌，导致最终爆牌，输掉了游戏。

从游戏中能够看出Agent-Pro更好的理解了游戏的规则，并给出了合理的选择。

接下来再看看在德州扑克中Agent-Pro的表现。

一次牌局中，参赛选手分别是训练后的DQN、DMC策略，原生GPT3.5和Agent-Pro（基于GPT-4），他们的手牌和公共牌如下图所示：

△S、H、C、D分别代表黑桃、红桃、梅花、方块

在当前游戏状态（Current game state）下，Agent-Pro分析得出Self-Belief、World-Belief和最终的Action，并随着游戏状态的变化，不断更新Belief，根据自身和对手的情况，做出灵活合理的选择。

△相同牌局同一位置的Baseline（原始大模型）结果为-13

统计数据上看，21点游戏中，在使用GPT、Llama等多种大模型的情况下，Agent-Pro的表现都显著超过了原始模型和其他参与对比的Agents框架。

在更为复杂的德州扑克游戏中，Agent-Pro不仅超过了原始大模型，还击败了DMC等训练后的强化学习Agent。

那么，Agent-Pro是如何学习和进化的呢？

三管齐下提高Agent表现

Agent-Pro包括“基于信念的决策”“策略层面的反思”和“世界模型和行为策略优化”这三个组件。

基于信念的决策（Belief-aware Decision-making）

Agent-Pro根据环境信息，首先形成Self-Belief和World-Belief，然后基于这些Belief做出决策（Action）。

在后续环境交互中，Agent-Pro动态更新Belief，进而使做出的Action适应环境的变化。

例如，德州扑克游戏中：

环境信息可包括手牌（Private State）、公共牌（Public State）、行动轨迹（Trajectory）等；
Agent-Pro对手牌（State）、出牌计划（Plan）及潜在风险（Risk）的预估等信息构成了它的Self-Belief；
而Agent-Pro对对手（Opponent）、环境（Environment）和规则（Rule）的理解则构成了它的World-Belief；
这些Belief在每一个决策周期中都会被更新，从而影响下个周期中Action的产生

策略层面的反思（Policy-Level Reflection)

与人类一样，Agent-Pro 会从历史经验、历史认知和历史结果中进行反思和优化。它自主调整自己的Belief，寻找有用的提示指令，并将其整合到新的策略Policy中。

首先，Agent-Pro以文字的形式设计了一个对任务世界的建模以及对行为准则的描述，他们一起被当做Policy：

World Modeling：任务世界的建模，例如对游戏环境的理解、对手们的风格分析、环境中其他Agent的策略估计等；
Behavioral Guideline：行为准则的描述，例如对游戏目标的认识、自己策略规划、未来可能面临的风险等

其次，为了更新World Modeling和Behavioral Guideline，Agent-Pro设计了一个Policy-level Reflection过程。

与Action-level Reflection不同，在Policy-level的反思中，Agent-Pro被引导去关注内在和外在信念是否对齐最终结果，更重要的是，反思背后的世界模型是否准确，行为准则是否合理，而非针对单个Action。

例如，德州扑克游戏中Policy-level的反思是这样的：

在当前世界模型和行为准则(World Modeling & Behavioral Guideline)的指导下，Agent-Pro观察到外部状态，然后生成Self-Belief和World-Belief，最后做出Action。但如果Belief不准确，则可能导致不合逻辑的行动和最终结果的失败；
Agent-Pro根据每一次的游戏来审视Belief的合理性，并反思导致最终失败的原因（Correct，Consistent，Rationality…）；
然后，Agent-Pro将反思和对自身及外部世界的分析整理，生成新的行为准则Behavioral Guideline和世界建模World Modeling；
基于新生成的Policy（World Modeling & Behavioral Guideline），Agent-Pro重复进行相同游戏，来进行策略验证。如果最终分数有所提高，则将更新后的World Modeling & Behavioral Guideline和保留在提示中。

世界模型和行为准则的优化（World Modeling & Behavioral Guideline Evolution）

在Policy-level Reflection之上，面对动态的环境，Agent-Pro还采用了深度优先搜索（DFS）和策略评估，来持续优化世界模型和行为准则，从而找到更优的策略。

策略评估是指Agent-Pro 在新的采样的轨迹中对新Policy进行更全面的评估，从而考察新策略的泛化能力。例如，德州扑克游戏中，新采样多条游戏轨迹。

通过交换玩家位置或手牌，来消除由于运气带来的随机因素，从而更全面评估新策略的能力。

而DFS搜索则在新策略不能在新的场景中带来预期的改进（策略评估）时使用，按照DFS搜索策略，从其他候选策略中寻找更优的策略。

论文地址：

https://arxiv.org/abs/2402.17574

Github:

https://github.com/zwq2018/Agent-Pro

— 完 —

量子位 QbitAI · 头条号签约

","gnid":"95771076cc735ea73","img_data":[{"flag":2,"img":[{"desc":"","height":"345","title":"","url":"https://p0.ssl.img.360kuai.com/t01a68ef6f3b049ddde.jpg","width":"1080"},{"desc":"","height":911,"title":"","url":"https://p0.ssl.img.360kuai.com/t013bd262e0a713896a.jpg","width":1080},{"desc":"","height":"611","title":"","url":"https://p0.ssl.img.360kuai.com/t01f507809c8f0577e8.jpg","width":"1080"},{"desc":"","height":"206","title":"","url":"https://p0.ssl.img.360kuai.com/t01c8ff992c62ad8569.jpg","width":"1080"},{"desc":"","height":"1109","title":"","url":"https://p0.ssl.img.360kuai.com/t01932c0b9ee31b26ef.jpg","width":"1080"},{"desc":"","height":"433","title":"","url":"https://p0.ssl.img.360kuai.com/t017a14d980d7854a76.jpg","width":"1080"},{"desc":"","height":"351","title":"","url":"https://p0.ssl.img.360kuai.com/t01710e9c5ce9c5407d.jpg","width":"1080"},{"desc":"","height":"285","title":"","url":"https://p0.ssl.img.360kuai.com/t01c07a8146c6489755.jpg","width":"1080"},{"desc":"","height":"456","title":"","url":"https://p0.ssl.img.360kuai.com/t0121483a1c8c3a4e46.jpg","width":"1080"},{"desc":"","height":"254","title":"","url":"https://p0.ssl.img.360kuai.com/t0107791166174abaed.jpg","width":"1080"}]}],"original":0,"pat":"art_src_3,fts0,sts0","powerby":"pika","pub_time":1710228960000,"pure":"","rawurl":"http://zm.news.so.com/2a2e4b498e1c08e179bd8da846844a48","redirect":0,"rptid":"ebb2419535ee5055","rss_ext":[],"s":"t","src":"量子位","tag":[{"clk":"ktechnology_1:游戏","k":"游戏","u":""}],"title":"浙大&中科院让Agent学会自我进化，玩德州扑克心机尽显

冀邰昌753虚拟语气语法规则
洪崔忠18061794341 ______ 虚拟语气是一种动词形式,表示说话人的一种愿望,假设,怀疑,猜测, 建议等含义,虚拟语气所表示的含义不是客观存在的事实. If I were you, I'd take them away. 如果我是你的话,我就会带走他们. If I had met Li Hua, I could have told him. ...

冀邰昌753关于虚拟语气的用法
洪崔忠18061794341 ______ Subjunctive Mood] 中文译作＂虚拟语气＂.它是一种动词形式,表示说话人的某种假设、愿望、怀疑、猜测、建议等含义. 语法结构 1.if结构(非真实条件句——表示的是假设的或实际可能性不大的情况) 与..事实相反 If从句主句过去 Had ...

冀邰昌753初中英语重点语法有那几个 -
洪崔忠18061794341 ______ 最重点的应该就是定语从句、宾语从句、动词不定式了吧.【本人已上高中,但是发现学的都是初中知识的衍伸】 ①定语从句: 重点掌握 a.先行词【大多是名词,有时可能为一句话】例如:The man who/that wears a black hat is her father.【这...

冀邰昌753英语句型和语法?
洪崔忠18061794341 ______ 英语中六大从句用法总结 1.主语从句 1)主语从句可直接位于主语的位置,如果从句较长,谓语又较短,可用it作形式主语,而将从句放在句末.常见的句型有: *It is a fact\a pity\a question\good news that... *It seems\appears\happened\has ...

冀邰昌753英语从句中what、where、that、which等怎么用?详细 -
洪崔忠18061794341 ______ 英语中六大从句用法总结 1.主语从句 1)主语从句可直接位于主语的位置,如果从句较长,谓语又较短,可用it作形式主语,而将从句放在句末.常见的句型有: *It is a facta pitya questiongood news that... *It seemsappearshappenedhas turned ...

冀邰昌753小弟不才,哪位好心人给我发几个Decision Cube控件组的使用方法的演示程
洪崔忠18061794341 ______ DecisionCube,DecisionQuery,DecisionSource的使用方法和data access 的query,datasource 的控件都是应用于数据库方面,但是使用方法不同在于前者对SQL有特殊要求,一般要求加入函数,是用在统计方面效果较好! 现在我没有现成的程序,不过可以提供SQL的大概模式,比如:select field1,field2,field3,count/sum(field) where .. group by field1,field2,field3.这样可以汇总出field字段的数据,不清楚的话,可以参考书本.

冀邰昌753怎样区分主句和从句 -
洪崔忠18061794341 ______ 英语中六大从句用法总结 1.主语从句 1)主语从句可直接位于主语的位置,如果从句较长,谓语又较短,可用it作形式主语,而将从句放在句末.常见的句型有: *It is a fact\a pity\a question\good news that... *It seems\appears\happened\has ...

冀邰昌753虚拟语气总结 -
洪崔忠18061794341 ______ 一、虚拟语气表示一种不能实现的假设.该语法主要用于if条件状语从句.也可用于主语从句、表语从句、宾语从句等. 二、if条件状语从句中虚拟语气的判断判断是真实条件句还是非真实条件句.只有在非真实条件句中才使用虚拟语气.通过...

冀邰昌753关于if的虚拟语气 -
洪崔忠18061794341 ______ 原发布者:cyz091214 如果上天能够再给我一次机会,我会对那个女孩说:“我爱你”.IfIhadonemorechance,Iwouldsaytothegirl“Iloveyou”.IfIhadonemorechance,Iwouldgotouniversityagain.虚拟语气定义:用来表示说的话不是事实,或者是不...

冀邰昌753英语从句的资料 -
洪崔忠18061794341 ______ 英语中六大从句用法总结 2009-05-23 资料摘抄:英语学习园地 1.主语从句 1)主语从句可直接位于主语的位置,如果从句较长,谓语又较短,可用it作形式主语,而将从句放在句末.常见的句型有: *It is a facta pitya questiongood news that......

（编辑：自媒体）