为了可靠地评估与 rag 相关的上下文问答任务中的 llm,我们还发布了contextualbench,这是一套评估套件,包含 7 个上下文基准,例如hotpotqa和2wikihopqa,这些基准使用一致的设置进行测量。
sfr-rag 超越了 gpt-4o,在 contextualbench 的 7 个基准测试中有 3 个达到了最佳水平,并且以少 10 倍的参数量压倒性地超越了 command-r+。sfr-rag 还显示出在忠实地尊重上超过了显着的基线,即使上下文事实是捏造、更改、删除或矛盾的。
具有新聊天模板的可靠 rag 应用程序
大多数语言模型都带有一个标准聊天模板,其中包含 3 个对话角色:系统、用户和助手。然而,随着 llm 承担更复杂的用例(如rag),模型必须执行多个推理步骤和工具使用才能得出最终答案。常见的实现通常将这些非对话步骤放在助手回合中。这种设计有几个缺点:
如果此类内部数据处理步骤涉及敏感信息,则可能会出现安全和隐 海湾电话号码 私问题,因为这些步骤可能会显示给用户。
应用程序可靠性是不确定的,因为这些推理步骤和工具使用输出需要使用助手回合中产生的关键字进行解析,而模型可能无法生成这些关键字。
训练 llm 以完成复杂的 rag 任务并不简单,因为我们需要对 assistant 部分操作执行自定义标记掩码。当恶意提示和指令可能作为上下文内容的一部分注入时,很难对 llm 进行安全微调。
为了解决这些问题,我们建议对聊天模板进行简单的修改,引入两个可选角色:思考和观察。