你是否因为 ChatGPT 无法“学习”超过 4096 个 token 的上下文而感到困扰?如果是的话,不妨看看这个开源例子。
它的基本原理是,通过 Embedding 模型和数据库在大量物料中搜索可能与用户回答相关的段落,然后从这些段落中生成 prompt,以便 ChatGPT 进行回答。
https://github.com/mckaywrigley/paul-graham-gpt
https://paul-graham-gpt.vercel.app/
这个开源项目的作者 嵌入了 http://www.paulgraham.com/articles.html 的所有文章
大约是 605,870 个 tokens
另外 openai cookbook 推荐学习