ML模型需要更好的培训数据：Genai解决方案

By Halo Research Team On 3 月 17, 2025

我们对金融市场的理解本质上受历史经验的限制，这是一个可以展现的无数可能性中实现的时间表。每个市场周期，地缘政治事件或政策决策仅代表潜在结果的一种表现。

当训练机器学习（ML）模型时，这种限制变得特别敏锐，该模型可以无意间从历史文物中学习而不是潜在的市场动态。随着复杂的ML模型在投资管理中变得越来越普遍，它们过度适应特定历史条件的趋势会给投资成果带来日益增长的风险。

基于生成AI的合成数据（Genai综合数据）正在作为应对这一挑战的潜在解决方案。尽管Genai主要关注自然语言处理，但其生成复杂的合成数据的能力可能证明对定量投资流程更有价值。通过创建有效代表“平行时间表”的数据，可以设计和设计这种方法，以提供更丰富的培训数据集，以保留重要的市场关系，同时探索反事实场景。

挑战：超越单时间轴训练

传统的定量模型面临着固有的限制：他们从导致当前条件的一系列历史序列中学习。这创造了我们所说的“经验偏见”。复杂的机器学习模型的挑战变得更加明显，其学习复杂模式的能力使它们特别容易在有限的历史数据上过度拟合。另一种方法是考虑反事实情况：如果某些情况，任意事件，决定或冲击的情况有所不同，则可能展开的情况。

为了说明这些概念，请考虑主动国际股票投资组合基准为MSCI EAFE。图1显示了截至2025年1月31日的过去五年中，多个投资组合的性能特征 – 上行捕获，下行捕获和整体相对回报。

图1：经验数据。 EAFE基准的投资组合，截至2025年1月31日的五年性能特征。

该经验数据集仅代表可能的投资组合的一小部分，而潜在结果的较小样本的事件则不同。扩展该数据集的传统方法具有重大局限性。

图2.基于结构的方法：K-Nearest邻居（左），Smote（右）。

传统的合成数据：了解限制

综合数据生成的常规方法试图解决数据限制，但通常没有捕获金融市场的复杂动态。使用我们的EAFE投资组合示例，我们可以检查不同的方法的执行方式：

基于实例的方法（例如K-NN和SMOTE）通过局部采样扩展了现有数据模式，但从根本上仍受到观察到的数据关系的约束。他们无法产生训练示例之外的场景，从而限制了他们了解潜在的未来市场状况的实用性。

图3：更灵活的方法通常会改善结果，但努力捕获复杂的市场关系：GMM（左），KDE（右）。

传统的合成数据生成方法，无论是通过基于实例的方法还是密度估计，都面临基本限制。尽管这些方法可以逐步扩展模式，但它们无法产生现实的市场场景，从而在探索真正不同的市场条件的同时，可以保留复杂的相互关系。当我们检查密度估计方法时，这种限制变得特别清楚。

诸如GMM和KDE之类的密度估计方法在扩展数据模式方面具有更大的灵活性，但仍然难以捕获金融市场的复杂，相互联系的动态。当历史关系可能发展时，这些方法在政权变化期间尤其动摇。

Genai合成数据：更强大的培训

在纽约大学ACM国际金融AI会议（ICAIF）上发表的最新研究表明，Genai如何更好地估算市场的基本数据生成功能。通过神经网络体系结构，这种方法旨在学习有条件的分布，同时保持持续的市场关系。

研究与政策中心（RPC）将很快发布一份报告，该报告定义合成数据并概述可用于创建它的生成AI方法。该报告将重点介绍评估合成数据质量的最佳方法，并使用对现有学术文献的参考来突出潜在用例。

图4：Genai综合数据的插图在维持关键关系的同时，扩大了现实可能结果的空间。

可以扩展这种合成数据生成的方法，以提供几种潜在的优势：

扩大的训练集： 现实的增加财务数据集的
方案探索： 生成合理的市场条件，同时保持持久关系
尾巴分析： 创造多样化但现实的压力情景

如图4所示，Genai合成数据方法旨在扩大可能的投资组合绩效特征的空间，同时尊重基本的市场关系和现实的界限。这为机器学习模型提供了更丰富的培训环境，可能会减少其对历史文物的脆弱性，并提高其在市场条件上概括的能力。

安全选择中的实现

对于尤其容易学习虚假历史模式的公平选择模型，Genai合成数据提供了三个潜在的好处：

减少过度拟合：通过对各种市场条件进行培训，模型可以更好地区分持久信号和临时工件。
增强的尾巴风险管理： 培训数据中更多样化的情况可以改善市场压力期间的模型鲁棒性。
更好的概括： 维持现实市场关系的扩展培训数据可能有助于模型适应不断变化的条件。

有效的Genai合成数据生成的实施提出了自己的技术挑战，可能超出了投资模型本身的复杂性。但是，我们的研究表明，成功解决这些挑战可以通过更健壮的模型培训显着改善风险调整后的回报。

Genai进行更好模型训练的路径

Genai合成数据有可能为投资和风险模型提供更强大，前瞻性的见解。通过基于神经网络的架构，它旨在更好地近似市场的数据生成功能，从而有可能更准确地表示未来的市场状况，同时保持持续的相互关系。

尽管这可以使大多数投资和风险模型受益，但它代表现在这么重要的创新的一个关键原因是由于投资管理中机器学习的采用越来越多，并且相关的过度风险。 Genai合成数据可以产生合理的市场场景，在探索不同条件的同时，可以保持复杂的关系。该技术为更强大的投资模型提供了一条途径。

但是，即使是最先进的合成数据也无法弥补幼稚的机器学习实现。没有安全的解决方案可以解决过度复杂性，不透明的模型或弱投资理由。

研究与政策中心将于明天3月18日举办网络研讨会，其中包括MarcosLópezde Prado，这是金融机器学习和定量研究的世界知名专家。

关键词：

ML模型需要更好的培训数据Genai解决方案