测试 Gen AI 应用：作者：Pratheepan Raju

分析与观点

By Prof.Brand On 12 月 23, 2024

当我们开始考虑生成式 AI 时，我们会想到两件事，一是与 GenAI 模型本身相关的无数可能性，二是具有明确目标或目的或需要利用 GenAI 来满足或解决的问题的应用程序模型。

那么，接下来的问题是，对于这种情况必须遵循什么测试策略。这篇文章旨在回答这个问题并列出一个简单的路线图。

我们还需要记住，与输出是固定且可预测的传统测试不同，GenAI 模型产生的输出是不同的且不可预测的。法学硕士以各种方式产生创造性的响应，其中相同的输入提示不会产生相同的输出响应。

测试类别

让我们看看典型的测试类别：

单元测试
发布测试
系统测试
数据质量测试
模型评估
回归测试
非功能测试
用户验收测试

在上述类别中，新增了两个独特的类别——数据质量测试和模型评估。虽然对于具有用户界面/屏幕、负责编排、日志记录等的业务层以及数据所在的数据库层的任何应用程序来说，通常都遵循其他类别，但这两个数据质量和模型评估类别与 GenAI 功能相关。

法学硕士测试

让我们仔细看看数据质量测试，现在业务应用程序需要来自其数据库的数据，而不是来自其他地方的随机数据。该数据需要输入 LLM，然后根据输入提示形成输出响应。因此，这些数据至关重要，因为它被输入到 LLM 模型中，并且仅使用这些数据以类似人类的形式来构建响应。该数据的边界需要进行验证，并确保无论法学硕士以何种变化响应，都在响应中给出相关数据。

接下来是模型评估。市场上有不同供应商提供的不同型号。每个都有独特的功能和特点。选择模型后，下一步就是比较和评分哪个模型更接近推荐的答案或解决方案。模型评估又可以分为手动评估和自动评估。

人工评估

手动评估是黄金标准，尽管它是缓慢且昂贵的方法。领域专家可以提供详细的反馈并对法学硕士输出进行评分。评分范围为 1 到 5，其中 1 为最低/不匹配，5 为最佳匹配，如果手动完成，专家会根据标准输出验证响应。评估必须由不同的用户进行评分比较或反馈，才能得到满意的分数。

自动评估

自动评估是指测试涉及另一个法学硕士和护栏来进行监控和测试，因为并非所有请求响应都可以手动监控。这种方法在上线后也很有用，并提供实时数据监控分数的视图。还可以遵循统计评估技术收集指标，然后进行基准测试。 Perplexity、BLEU、BERT、ROUGE 等是一些可用的方法。市场上的一些工具嵌入了这些方法，作为带有仪表板的包提供，以便于查看。护栏虽然不是一种测试方法，但可以确保法学硕士的一些警告（例如毒性、准确性、偏见和幻觉）得到控制。 Guardrail 分数也可用于评估法学硕士。

结论

在 GenAI 的新兴未来中，工具的功能得到增强，但测试边界需要到位，以确保准确性和相关性。测试方法需要结合手动和自动，以获得最佳结果和覆盖范围。

关键词：Finextra,新闻,在线,银行,银行,技术,金融,金融,fin,科技,fintech,IT, ）打破（t）最新（t）零售（t）t交易,贸易,执行,头条新闻,区块链,数字,投资,移动,商业,挑战者,支付,监管科技,保险科技( t) 服务