none.gif

d0d13441

现在的搜索实在是太封闭闭塞了

最近的AutoGPT不知道有没有人用过 https://github.com/reworkd/AgentGPT
中文介绍在这里https://zhuanlan.zhihu.com/p/621608363
其实是和早前LangChain Agent是一个原理 https://python.langchain.com/en/latest/modules/agents.html
具体是怎么实现的呢?
引用
LangChain Agent中,内部是一套问题模板:

PREFIX = """Answer the following questions as best you can. You have access to the following tools:"""
FORMAT_INSTRUCTIONS = """Use the following format:

Question: the input question you must answer
Thought: you should always think about what to do
Action: the action to take, should be one of [{tool_names}]
Action Input: the input to the action
Observation: the result of the action
... (this Thought/Action/Action Input/Observation can repeat N times)
Thought: I now know the final answer
Final Answer: the final answer to the original input question"""
SUFFIX = """Begin!

Question: {input}
Thought:{agent_scratchpad}"""
通过这个模板,加上我们的问题以及自定义的工具

同理NewBing和目前许多的GPTplugins也是在通过prompt来控制展现输出结果。

那么问题来了,有没有一套更好的UI或是逻辑链条或是非prompt来控制这套逻辑实现对目前搜索架构的一个颠覆或是实现私有化搜索引擎
总所周知,现在的搜索架构其实是召回+排序为主要核心的,和实际推理有非常多的不同,而且私人数据/隐私对公共搜索系统的提升不会非常大(即搜索个性化),而在现有LLM的对话体系中,可以构建出私人数据库的形式从而使搜索结果更符合个人预期,即对之后的搜索引擎来说,已经不需要实现排序只需要召回一批搜索结果来让私人数据排序,变成一个彻底的基础公共设施,只需要收集内容与索引内容
而对于目前更长尾的搜索需求(文本理解/音视频理解/需要推理逻辑的问题),在日后也会变成主流
欢迎来畅所欲言

1246081.jpg

小黄

我一直以为粗排召回长尾效应这些只是推荐系统里的大学,没想到搜索引擎也在用啊

none.gif

d0d13441

回 1楼(小黄) 的帖子

搜索推荐都会有长尾啊,冷门词就是长尾词呗,这里特指是目前搜索引擎难以处理的结果,像基于理解的音视频/图片搜索,或是是对于个人习惯而言常见但在全局来说冷门而排序靠后的结果,还有就是像目前LLM这类型基于理解+推理的结果

none.gif

91919

B3F  2023-04-16 07:57
(麻了 麻了 麻麻了)
受教。token消耗量?

1418922.jpg

15守高地

B4F  2023-04-16 08:01
(我这个人老实,技术凶得很)
能不能用小学生都能听懂的语言简单介绍一下你这话题?

none.gif

61e0fb59

这个是目前是真没啥用 噱头更多吧 套壳chatgpt 不过是把任务细化 分步执行 验证 这个玩意token消耗量惊人目前也很难完成复杂问题

none.gif

d0d13441

回 4楼(15守高地) 的帖子

简单理解就是将chatGPT这类型的模型拆分成私人的模型,用于对搜索引擎的改造,用私人模型向搜索引擎获取一些大致的搜索结果后,不依赖于搜索引擎的排序,而是利用私人的模型进行排序,比较类似Web3.0的概念吧

none.gif

d0d13441

回 5楼(61e0fb59) 的帖子

因为目前都是依赖在prompt上,我理解是成本会进一步下降,像模型蒸馏或是低精度方案,且依赖在模型逻辑能力进一步上升(其实我理解很快逻辑理解能力也会到顶,在GPT3.5大量对话语料进入训练模型后的GPT4,对人类对话习惯塑造之后的语料再次训练的GPT5的迭代应该会到一个瓶颈)。
对于非prompt控制的场景可能还是得找一些新的应用方式