Appearance
每轮提示词工程都涉及到“选择合适的模型”:
“选择合适的模型”流程
包括三个步骤:
- 合规隐私要求:筛选符合条件的模型
- 领域能力评估:构建评估指标
- 验证与测试:评估并筛选最终的模型
合规隐私要求
对于 2C 国内业务,满足“输出内容合规要求”有两个途径:
- 使用国内模型
- 在产品设计上,不要将大模型能力包装成产品,而是利用模型能力提效。
对于数据不能出境的业务,主要考虑:
- 使用合规模型
- 部署开源模型
领域能力评估
专业模型:
以 wuxia-comment 举例
什么模型在“生成武侠风格的代码注释”上是最佳选择?
benchmark 的架构
课后作业
用你在第五课自己实现的 chain 执行 benchmark,评选出最适合你需求的大模型。