统计学习中的误分类偏差

By Murphy On 12 月 17, 2024

有两个相互矛盾的发展影响着官方统计领域。一方面，对快速获得详细且高度准确的统计信息的需求日益增长。当前对因 COVID-19 导致的超额死亡的准确信息的渴望就是一个显着的例子。另一方面，提供此类主题官方统计数据的国家统计机构（NSI）必须承受预算削减，并有义务减轻企业和公民的调查负担。这两种相互冲突的发展的结果是，NSI 将不得不越来越依赖新类型的数据（即大数据），而这些数据必须通过新类型的方法（即统计学习方法）进行处理和分析。

本论文重点研究一组特定的统计学习方法，即分类器。当分类器的输出被聚合时，可以获得基于分类器的统计数据。如果分类器不完美，则基于分类器的统计结果会出现错误分类偏差。为了纠正这种偏差，需要一个包含真实分类的完美信息的测试集。一个关键的挑战是选择校正方法，特别是在处理非平稳时间序列（即遭受概念漂移）时。文献中提出了以下开放性问题：对于纠正有限群体中的错误分类偏差的方法，不存在可靠的理论分析。因此，问题陈述如下：我们如何减少统计学习中的错误分类偏差，从而获得更准确的基于分类器的统计数据？

本文的结论是，只要充分纠正错误分类偏差，统计学习方法就可以用于官方统计领域。我们的建议是实施统计学习方法（以及本文讨论的错误分类偏差的纠正方法），以创建新的官方统计数据或改进现有统计数据。最后，我们认为领域专家对于官方统计中统计学习方法的成功实施至关重要。

米尔滕斯，质量保证 (2021)。统计学习中的误分类偏差。论文，阿姆斯特丹大学，句柄：11245.1/4b031bbd-5a46-4181-b0f1-52b38a3b63a6

关键词：分类,编码,估计,统计研究,网上购物

估计分类统计学习中的误分类偏差统计研究编码网上购物