当我们开始考虑生成式 AI 时,我们会想到两件事,一是与 GenAI 模型本身相关的无数可能性,二是具有明确目标或目的或需要利用 GenAI 来满足或解决的问题的应用程序模型。
那么,接下来的问题是,对于这种情况必须遵循什么测试策略。这篇文章旨在回答这个问题并列出一个简单的路线图。
我们还需要记住,与输出是固定且可预测的传统测试不同,GenAI 模型产生的输出是不同的且不可预测的。法学硕士以各种方式产生创造性的响应,其中相同的输入提示不会产生相同的输出响应。
测试类别
让我们看看典型的测试类别:
- 单元测试
- 发布测试
- 系统测试
- 数据质量测试
- 模型评估
- 回归测试
- 非功能测试
- 用户验收测试
在上述类别中,新增了两个独特的类别——数据质量测试和模型评估。虽然对于具有用户界面/屏幕、负责编排、日志记录等的业务层以及数据所在的数据库层的任何应用程序来说,通常都遵循其他类别,但这两个数据质量和模型评估类别与 GenAI 功能相关。
法学硕士测试
让我们仔细看看数据质量测试,现在业务应用程序需要来自其数据库的数据,而不是来自其他地方的随机数据。该数据需要输入 LLM,然后根据输入提示形成输出响应。因此,这些数据至关重要,因为它被输入到 LLM 模型中,并且仅使用这些数据以类似人类的形式来构建响应。该数据的边界需要进行验证,并确保无论法学硕士以何种变化响应,都在响应中给出相关数据。
接下来是模型评估。市场上有不同供应商提供的不同型号。每个都有独特的功能和特点。选择模型后,下一步就是比较和评分哪个模型更接近推荐的答案或解决方案。模型评估又可以分为手动评估和自动评估。
人工评估
手动评估是黄金标准,尽管它是缓慢且昂贵的方法。领域专家可以提供详细的反馈并对法学硕士输出进行评分。评分范围为 1 到 5,其中 1 为最低/不匹配,5 为最佳匹配,如果手动完成,专家会根据标准输出验证响应。评估必须由不同的用户进行评分比较或反馈,才能得到满意的分数。
自动评估
自动评估是指测试涉及另一个法学硕士和护栏来进行监控和测试,因为并非所有请求响应都可以手动监控。这种方法在上线后也很有用,并提供实时数据监控分数的视图。还可以遵循统计评估技术收集指标,然后进行基准测试。 Perplexity、BLEU、BERT、ROUGE 等是一些可用的方法。市场上的一些工具嵌入了这些方法,作为带有仪表板的包提供,以便于查看。护栏虽然不是一种测试方法,但可以确保法学硕士的一些警告(例如毒性、准确性、偏见和幻觉)得到控制。 Guardrail 分数也可用于评估法学硕士。
结论
在 GenAI 的新兴未来中,工具的功能得到增强,但测试边界需要到位,以确保准确性和相关性。测试方法需要结合手动和自动,以获得最佳结果和覆盖范围。
关键词:Finextra,新闻,在线,银行,银行,技术,金融,金融,fin,科技,fintech,IT, )打破(t)最新(t)零售(t)t交易,贸易,执行,头条新闻,区块链,数字,投资,移动,商业,挑战者,支付,监管科技,保险科技( t) 服务