室内空气质量模型统计评价标准指南（D5157-19）

📋 概述与适用范围

本标准编号为 D5157‑19，2024 年经复审确认继续有效，全称为《室内空气质量模型统计评价标准指南》。该指南由美国材料与试验协会（ASTM）发布，旨在为室内空气质量模型的开发者与使用者提供一套系统化的统计评价工具。标准的内容涵盖模型整体性能的定量与定性评估方法、特定缺陷的识别技术、数据集的合理选择原则以及评价工具的具体应用与结果解读。需要特别指出的是，本指南的关注核心在于模型预测的最终结果——即室内污染物浓度的预测精度，而非模型实施难易或计算耗时等操作细节。

💡 提示：本标准借鉴了室外空气质量模型与气象模型的评价经验，在室内空气质量领域属于开创性指导文件，填补了该方向标准化评价方法的空白。

从适用范围来看，本指南适用于描述任意室内空间（单箱或多箱）污染物浓度变化的数学模型，包括基于质量平衡的解析解与数值解算法。标准不限定污染物种类，适用于气态污染物、颗粒物、生物气溶胶等多种对象的浓度预测。在与其它标准的关系上，本标准直接引用术语标准 D1356《大气采样与分析术语》作为定义基础，同时大量引用室外模型评价文献作为方法论来源，确保了术语体系的统一性与方法的权威性。

⚙️ 评价原理与方法

本指南推荐的模型评价流程可归纳为四个步骤：数据集准备、残差计算、统计指标分析与图形诊断。首先，评价者应选择具有代表性的实测数据集，数据需覆盖模型实际应用场景中的典型浓度范围与时间变化特征。其次，计算模型残差——定义为同一时刻、同一空间位置上模型预测浓度与实测浓度之差，正值表示预测偏高，负值表示偏低。残差是后续所有统计分析的基础。

定量评价方面，指南建议采用一系列标准化统计指标，包括：标准化平均偏差（反映系统偏差方向与幅度）、标准化平均绝对误差（体现平均误差幅度）、均方根误差（对大误差赋予更高权重）、相关系数（衡量预测与实测线性关联程度）以及模型效率系数（评价相对基准模型的改进程度）。这些指标能够从不同维度刻画模型性能，避免单一指标的片面性。例如，标准化平均偏差接近零表明无显著系统偏置，而均方根误差与数据平均值之比可用于不同模型间的相对比较。

⚠️ 注意：单凭数值统计指标可能掩盖模型在某些浓度区间的表现缺陷，因此指南强调必须辅以图形诊断工具（如散点图、时间序列图、残差分布图），以识别异方差性、非线性偏差等异常情况。

定性评估是定量分析的重要补充。通过绘制预测值对实测值的散点图，可在标准 1:1 线两侧直观判断整体偏差趋势；时间序列图能揭示模型在特定时段（如峰值时刻）的跟踪能力；残差对预测值的散点图则有助于检测方差是否恒定。此外，指南建议对残差进行正态性检验，因为许多统计推断假设残差服从正态分布。若残差明显偏离正态，则需谨慎解释基于正态假设的性能指标。

📊 技术参数与指标

下表汇总了本标准中定义的核心术语及其技术内涵，这些概念是理解模型评价的基础。所有定义均直接译自标准原文 3.2 条款。

🔍 术语	📏 定义	🎯 说明
室内空气质量模型	用于计算特定情境下单个或多个室内空间平均或时变污染物浓度的方程、算法或系列算法	涵盖解析模型与数值模型，单箱或多箱均可
模型箱室	模型计算中定义的确定体积的室内空气空间	单箱模型定义一个箱室，多箱模型定义多个相互连接的箱室
模型评价	模型开发人员或使用者针对选定情境评估模型性能的一系列步骤	包括定量计算与定性诊断，本指南核心内容
模型参数	模型中需由使用者提前估计才能执行计算的数学项	如换气次数、释放率等，需通过实测或经验赋值
模型残差	模型预测浓度与代表性实测浓度之差，应注明正负号	正值表示预测大于实测，负值相反
模型验证	机构或组织为特定应用认可某一（或某些）模型而进行的一系列评价	评价的高级形式，通常涉及更多场景与更严格的指标
观测模型偏差	通过残差系统性呈现的模型预测与实测浓度之间的系统差异	如预测值普遍偏高，即为正偏差
污染物浓度	污染物出现程度或描述参数的数值，以特征单位表示	如 mg/m³、ppm、Bq/m³、菌落形成单位/m³ 等

在实际模型评价中，以下定量统计指标被广泛采用。虽然标准未强制规定指标阈值，但基于工程经验与同类文献，下表给出了常见的可接受范围参考。

📐 指标名称	⚡ 计算公式（文字描述）	🎯 理想值	📌 工程参考范围
标准化平均偏差（NMB）	所有残差之和 ÷ 实测浓度之和 × 100%	0（无系统偏差）	±15% 以内（优），±30% 以内（可接受）
标准化平均绝对误差（NMAE）	所有 \|残差\| 之和 ÷ 实测浓度之和 × 100%	越小越好	< 30%（优），< 50%（可接受）
均方根误差（RMSE）	√（所有残差平方之和 ÷ 数据点数）	趋近于测量不确定度	与平均浓度之比 < 0.3（优）
相关系数（R）	预测与实测的协方差 ÷（两者标准差之积）	接近 1	R > 0.8（强相关）
模型效率系数（MEF）	1 −（残差平方和 ÷ 实测值对其均值偏差平方和）	接近 1	MEF > 0.6（模型优于均值预测）

✅ 成功要点：评价时应结合多个指标，避免单一指标失效。例如低均方根误差但高偏差同样不可接受，必须同时检查标准化平均偏差与均方根误差。

🔬 工程应用与注意事项

本指南在暖通空调设计、室内环境污染控制、突发事件源项反演等领域具有广泛应用。工程人员可使用本标准对新开发的模型进行性能认证，或对既有模型在特定场景下的适用性进行评判。例如在绿色建筑认证中，评价自然通风模型的预测精度；在工业卫生中，验证局部排风模型是否满足职业暴露限值评估要求。标准提供的统计框架也能指导模型参数敏感性分析，帮助识别影响预测精度的主导因素。

实际应用中有几个关键质量控制点：第一，实测数据必须经过严格的质量审核，包括采样不确定度分析、时间同步校准、背景浓度扣除等操作，否则残差中会叠加测量误差，导致模型评价失真。第二，数据集应覆盖目标应用中的典型场景，例如低浓度背景、高浓度事件、稳定与过渡状态，否则评价结论外推性不足。第三，当残差呈现明显异方差性（即残差幅度随浓度水平变化）时，不宜直接使用等权重的整体指标，建议分层计算或使用加权指标。

🚨 关键注意：模型“验证”与“评价”在本标准中有严格区分：验证是机构层面的认可程序，通常要求多场景、多指标的综合结论；评价则是开发或使用过程中的自我评估，二者不能混用。

常见工程误区包括：仅依靠相关系数判断模型优劣（高相关不一定低偏差）；使用同一数据集进行参数校准与性能评价（导致乐观偏差）；忽略残差的时间自相关性（低估模型不确定性）。正确做法是将数据分为训练集与评估集，或采用交叉验证策略。同时，报告应完整呈现样本量、浓度范围、统计指标及图形诊断结果，以便第三方复现与评判。

❓ 常见问题解答

🔍 问：模型残差多大算合格？是否有统一标准？
答：本指南未给出绝对合格阈值，因为不同应用场景对精度要求差异很大。但工程实践中，建议标准化平均偏差控制在 ±15%~±30% 以内，标准化平均绝对误差小于 30%~50%，具体需结合模型用途（如筛选评估还是精确定量）以及测量不确定度综合判定。

💡 问：本标准与模型“验证”有何区别？
答：标准明确定义“模型评价”是开发者或使用者自身进行的性能评估过程，而“模型验证”是外部机构为特定用途认可模型而进行的更正式评价。验证通常基于更多数据集、更严格的指标，并形成官方背书。本指南主要服务于评价过程，但验证可参照其方法框架。

⚡ 问：评价时至少需要多少组实测数据？
答：标准未规定最低样本量，但根据统计意义，建议至少 15~20 组覆盖不同工况的时间匹配数据对。若数据太少，统计指标的不确定性过大，无法区分随机误差与模型缺陷。对于多箱模型或时变模拟，数据点数应更多。

📌 问：能否只用一个指标（如均方根误差）来评价模型？
答：不可行。均方根误差对异常值敏感且不反映偏差方向。本标准要求同时使用标准化平均偏差与标准化平均绝对误差或相关系数等多维度指标，并辅以图形分析。单一指标可能掩盖模型系统性偏离或特定区间表现差的问题。

🎯 问：本指南是否适用于计算机流体动力学（CFD）模型？
答：本指南针对箱室平均浓度模型，对于 CFD 这种空间分布模型，原则上可以借鉴浓度预测值与实测点对比的统计方法，但需额外考虑空间非均匀性带来的采样代表性问题。建议结合其他 CFD 验证指南（如 AIAA 标准）配套使用。

综上所述，D5157‑19 为室内空气质量模型的统计评价提供了系统、规范的工具箱，填补了该技术领域的标准化空白。正确运用本指南不仅能提升模型开发质量，也为工程决策提供了可信的量化依据。

📥 标准文件下载

🔒

请等待 10 秒，广告加载完成后将自动显示下载链接