基于公开数据集的建筑能耗预测与可解释 AI 决策支持——一个面向 HVAC 运维场景的 MVP 实践

项目简介

HVAC（暖通空调）系统是建筑能耗的主要来源之一，也是当前 AI 与建筑能源管理交叉研究的核心场景。随着大语言模型与预测分析技术的发展，这一领域正在经历从规则控制向数据驱动决策的转变——这篇来自"暖通空调"公众号的文章对此有较为系统的梳理。基于这一背景，我尝试从公开数据出发，构建一个可落地、可复现的 HVAC 能耗预测原型，验证完整技术链路的可行性。

以下链接可直达项目 Demo。若页面提示"应用休眠"，唤醒后等待约 1~2 分钟即可正常使用。

Demo：HVAC Energy AI MVP

本项目是一个面向 HVAC 运维场景的建筑能耗预测与可解释 AI 决策支持原型。目标不是直接完成冷站优化或闭环控制，而是先构建一个可运行、可复现、可展示的 MVP：从公开建筑能耗数据出发，完成数据处理、机器学习预测、误差分析、特征解释、运维报告生成，并通过 Streamlit Web Demo 呈现完整流程。

双阶段数据策略

项目采用两个数据集，分别承担不同功能。

第一个是 UCI Energy Efficiency 数据集，包含 768 条样本和 8 个建筑形态参数，预测目标是建筑制冷负荷（cooling_load）。这个数据集规模小、结构干净，适合快速验证完整技术流程，作为保底演示模块——即使主数据集出现问题，这个模块也能独立展示从数据读取、模型训练、可解释性分析到 Web 展示的完整路径。

第二个是 ASHRAE Great Energy Predictor III 风格的建筑小时级能耗数据，作为主实验模块。数据包含建筑能耗表计读数、建筑元数据和气象数据，构建小时级总电耗预测任务。为保证 MVP 可落地，当前只抽取了部分建筑的 meter=0（建筑总电耗）数据进行实验。

需要说明的是：meter=0 表示建筑总电耗，不等同于 HVAC 分项能耗或冷站能耗。这一区分直接决定了结果的解释边界，读者在对照 HVAC 精细化预测场景时需留意这一前提。

特征构造与模型结果

主数据集的特征分为四类：时间特征（小时、星期、月份、是否周末）、天气特征、建筑静态特征，以及历史负荷滞后特征（lag_1、lag_24、rolling_mean_24）。训练集与测试集按时间顺序划分，严格避免未来信息泄漏。

模型对比结果如下：

模型	MAE	RMSE	MAPE	R²
Naive Lag-1 Baseline	11.23	20.10	9.05%	0.9977
Linear Regression	11.97	19.84	11.40%	0.9978
Random Forest	15.93	30.80	13.31%	0.9946
Gradient Boosting	13.55	32.13	12.06%	0.9941

lag_1（上一小时能耗）对预测的贡献尤为突出，说明建筑能耗具有较强的时间连续性。在此类强自相关的时序场景中，Naive Lag-1 Baseline 表现占优并不罕见——历史负荷特征本身已承载了大量信息，复杂模型相对于线性基线的提升空间因此受限。本实验的价值不在于刷新指标，而在于验证从特征工程、模型训练到可解释性分析的完整技术流程是否可以跑通。

UCI 制冷负荷预测模块使用 Gradient Boosting Regressor，R² 达到 0.9741，MAE 为 1.07。

可解释性分析与运维报告

系统支持特征重要性分析，在特征重要性分析的基础上，系统进一步识别高误差时段与高负荷时段，为报告生成提供结构化输入，最终生成中文运维分析报告。报告生成采用规则模板，基于结构化的误差统计和负荷统计输出运维建议，不依赖外部 LLM API，以保证稳定性和可复现性。

需要说明一个边界：特征重要性反映的是统计意义上的预测贡献，不等于工程意义上的因果诊断。当前系统输出的是辅助分析建议，不代表完整的工程诊断结论。

Demo 页面

项目通过 Streamlit 搭建了 Web Demo，包含九个页面：项目概览、样例数据、模型结果、可解释性分析、手动预测、批量预测、主数据集结果、运维报告、运维助手。

其中运维助手模块基于本地预测结果和结构化统计表回答常见运维分析问题，当前不调用外部 LLM API。代码仓库暂未公开，Demo 链接对外可访问，可直接通过 Demo 感受完整流程。

当前边界与后续方向

当前系统是 MVP 原型，主动划定了以下边界：预测目标是建筑总电耗而非 HVAC 分项能耗；不输出控制策略；未接入实时 BMS 数据和设备级数据；未验证真实节能率。这些是阶段性约束，不是系统缺陷。

后续可沿两个方向扩展。数据侧，接入真实 BMS 数据，将预测目标细化到 HVAC 分项能耗或冷站 COP（能效系数）；分析侧，引入 SHAP 做更完整的可解释性分析，并将预测偏差作为运行异常的预警信号。更远期的方向包括接入 LLM API 形成交互式运维问答助手、嵌入 MPC 控制框架，以及用 EnergyPlus 等仿真环境验证策略效果。

项目简介#

双阶段数据策略#

特征构造与模型结果#

可解释性分析与运维报告#

Demo 页面#

当前边界与后续方向#