AI Agent 是什么?
🗒️AI Agent 是什么?
2024-7-16
| 2024-9-19
0  |  阅读时长 0 分钟
date
category
tag
summary
notion image

AI Agent是什么?

为了解释这一点,我们必须看一看在生成式 AI 领域看到的各种转变(Shift)

从单一模型向复合 AI 系统的转变

单一模型(monolithic models)受限于其训练数据,这影响了它们对世界的认知以及它们可以解决的任务类型。
而且,这些模型也难以适应变化(adapted)。尽管可以对模型进行微调,但这需要大量的数据和资源投资。
notion image

示例:查询假期天数

例如,我想要为今年夏天计划一次假期,想知道我有多少假期天数可以用。我可以将我的查询输入到一个可以生成回应的模型中。
然而,答案会不正确,因为模型并不知道我的身份,也无法访问我的个人信息。
因此,模型本身可能对一些任务有所帮助,例如总结文档、撰写电子邮件初稿和各种报告初稿。
但当我们围绕模型构建系统,并将模型集成到现有流程中时,魔力便显现出来。
设计一个系统(system)来解决前面提到的问题,需要让模型能访问存储我假期数据的数据库。
这样,虽然输入到语言模型中的查询相同,但模型会被提示创建一个搜索查询(search query),这个查询可以访问我的数据库。程序会获取信息并得到答案,再将答案输入语言模型中,生成回答句子,如:“Maya,你的假期数据库里还剩下十天。”这样,我能得到正确的答案。
notion image

复合 AI 系统(Compound AI systems)

“系统”意味着有多个组件,因此系统本质上是模块化(Modular)的。
我可以有一个模型,选择微调模型、大语言模型、图像生成模型,但也可以有围绕它的程序化组件。
可以有输出验证器、解析查询的程序、与数据库搜索结合的工具、与不同工具结合的程序等。
当我们谈论系统方法时,我可以分解希望程序完成的任务,选择合适的组件(Component)来解决问题。
这比微调一个模型要容易得多,使过程更快、更方便。
notion image

检索增强生成(RAG)

一个最常用且流行的复合 AI 系统例子是检索增强生成(Retrieval-Augmented Generation)
如果在前面提到的例子里,我提出一个完全不同的查询,如问天气情况,这会失败,因为程序的运行路径总是搜索假期数据库,而这与天气无关。
因此,大部分复合 AI 系统都有程序控制逻辑(Control Logic),并且是由人类定义的(human-defined)逻辑。

AI智能体的作用

另一种控制复合 AI 系统的逻辑方式是让大语言模型(Large Language Model)负责,这在大语言模型的推理能力显著提高时才可能实现。
大语言模型可以处理复杂问题,能根据提示词(Prompt)要求将问题分解(Break down)制定计划(Plan)来解决问题。
另一种方式来思考AI智能体的作用:
notion image
在一个极端中,我要求系统快速思考(Think Fast),按照设定的规则行动,即程序化(Programmatic)
在另一个极端中,可以让系统慢慢思考(Think Slow),制定计划,逐步解决每一部分,理解困难点并调整计划,即智能体(Agent)
如果我提供一个复杂的问题,程序只给出了第一个按照设定的规则行动而给出的答案,那很有可能是错误的。但它可以通过把问题分解,然后理解在哪些地方需要外部帮助,并花时间解决问题,使得成功机率变高。
让大语言模型负责复合AI系统的控制逻辑,这就是我们所说的采取了以智能体为中心的方法(Agentic approach)。
也就是说,AI智能体本质就是一个由大型语言模型负责控制逻辑的复合AI系统。

大语言模型智能体的组成部分

notion image

推理(Reason)能力

推理能力将模型置于解决问题的核心位置,在设定计划的过程中对每一步进行推理。

行动(Act)能力

行动能力通过称为“工具”的外部程序实现。
这些工具是程序的外部模块,模型可以确定何时及如何调用它们,以便最有效地解决提出的问题。
例如,网络搜索工具、数据库搜索工具、计算器工具、操纵数据库的程序代码、甚至是其他用于翻译任务的语言模型等等。

访问记忆(Access Memory)能力

“记忆”可以表示几种含义。
模型可以通过程序进行思考,类似于自言自语的内部日志,可以存储并随时取用。
这也可以是与智能体互动的对话历史,使体验更加个性化。

ReACT 方法

配置智能体的受欢迎方法之一是 ReACT 方法,将LLM智能体的推理(Reasoning)行动组件(Act Components)结合在一起。

流程(Pipeline)

你将用户查询输入到模型中,然后模型会收到一段提示词。
所给的指令是:
不要给出第一个浮现在你脑海中的答案,而是要缓慢地思考你的工作计划。
然后尝试按照计划执行操作,尝试采取行动。
当你想要行动的时候,你可以确定是否需要外部工具来帮助你找出解决方案。
一旦你从调用的外部工具中得到答案,它可能给你一个错误的答案或者它出现了错误。
因此,LLM可以观察并判断它是否回答了当前的问题,从而选择是否终止或者重新规划直到得到最终的答案为止。
notion image
用户查询(user query) 👉🔁计划/思考(plan/think)👉行动(act)➕工具(tools)👉观察(observe)👉🔁👉回答(answer)

示例:度假计划

例如,我计划下个月去佛罗里达,想知道需要带多少瓶两盎司的防晒霜。
这是个复杂的问题,有多步计划:
  1. 我打算休多少天假?
  1. 我计划在阳光下待多少小时?查看佛罗里达的天气预报。
  1. 尝试了解每小时在阳光下的推荐防晒剂剂量。
  1. 进行数学运算,确定防晒霜数量。
这个系统非常模块化,可以解决更复杂的问题。

复合 AI 系统的未来

复合 AI 系统将一直存在,2024 年将看到它们变得更加智能(Agent Tech)
你可以根据问题的复杂程度在 AI 自治程度(Autonomy)上做出权衡。
对于狭窄(narrow)定义明确(well-defined)的问题,程序化(Programmatic)方法更有效。而对于需要独立解决复杂任务的系统,智能体(Agent)方法更有帮助。当然,在大多数情况下,人工仍会参与这些循环以提高准确性。

参考

 
  • LLM
  • Agent
  • Mistral Large 123B很接近Meta Llama 405B的能力,甚至编程更强Claude Artifact 10个创作实例
    Loading...
    目录