2024钉钉杯A题思路浅析
前言
钉钉杯大数据挑战赛以企业真实场景和实际数据为基础,利用大数据技术分析行业面临的真实问题,尝试创新大数据技术,推动大数据的产学研用。这种实践导向的竞赛模式使得其成果在行业中具有较高的认可度。
这个比赛比数模国赛简单,更多专向训练大数据预测题型,因为我们队伍准备做C题,就选择参加了这个比赛。总体而言,在打完这个比赛以后,我们对于时间序列模型有了更通透的认识,在A题中,我们需要对五种香烟销售数据进行时间序列模型的预测。在比赛过程中,我们找了很多的文献,但有些模型要么效果不好,要么代码难以实现(队伍水平能力有限)。最终是按照我们提交成品思路写下这篇文章。
本篇文章只讲述思路,仅供参考,如有不足之处,还望批评指正,欢迎私信留言。
题目:
问题背景
烟草是我国重要的国家税收和财政收入来源。在现有市场中占有极为稳定的根基。据统计,近年来我国卷烟销售收入逐年增长。现在国家对烟草实行专卖制度,对烟草专卖品的生产、销售、进出口依法实行专卖管理,并实行烟草专卖许可制度。因为烟草是一种特殊的商品,国家对其实行专卖专营政策,对烟草及其制品的生产和流通进行严格管理,所以卷烟不能像其它商品那样随意生产和流通。由于烟草产品的特殊属性,必须实行行政管制,集中统一生产销售才有更好的控制力和经营秩序,故实行由国家管制发展的烟草专卖制度不是权宜之计,而是力求社会目标和经济目标最优的制度安排。国家管制、计划生产、许可经营和政企合一体制成为烟草专卖制度的主要内容。
我国的烟草产业链由烟叶种植与购销、烟标制造、烟叶加工与卷烟制造、卷烟批发、卷烟零售五个主要环节构成。上游以烟叶种植与购销为核心,我国卷烟制造所使用烟叶基本依靠国产,由中国烟草总公司下属的各省烟草公司集中采购。上游另一生产活动为卷烟包装,主要包括卷烟工业用纸和烟标两大产品的产销经营。中游为各省级中烟工业公司负责卷烟的加工和生产,将集中采购的原材料按类型分配至各卷烟复烤企业和卷烟材料生产企业,最后由卷烟生产企业制成品。下游为成烟销售活动,由国家烟草专卖局统筹规划,再由各省级烟草专卖公司通过颁发烟草专卖许可证管控批发与零售渠道。
该数据来自某地区近些年多种品牌的烟草销售情况,已经做了脱敏和数据变换处理。每种烟草的数据为1个excel文件,共5个文件,每个文件内共5列,记录了各类烟草品牌各月的销售情况等。具体说明见表1。
问题一
对未来销量进行预测:使用历史销售数据构建2个不同类型的时间序列预测模型,分别对A1、A2香烟品牌的未来销量进行数据预测,目标为表中最后空白项。自行选择和设计模型类型、参数、结构。
模型
时序预测模型LSTM、ARIMA等;传统预测模型:随机森林、支持向量机等。
目标
对A1和A2数据集中销量数据进行预测。
问题二
对销售金额进行预测:使用历史销售数据构建2个不同类型的时间序列预测模型,分别对A3、A4香烟品牌的销售金额进行数据预测,目标为表中最后空白项。自行选择和设计模型类型、参数、结构
模型
时序预测模型LSTM、ARIMA等;传统预测模型:随机森林、支持向量机等。
目标
对A3和A4数据集中销量数据进行预测。
问题三
集成学习:分别对销量及销售金额预测模型的基础上,构建集成学习模型,实现对A5香烟品牌的销量和销售金额的联合预测。集成学习模型不局限于上述问题中建立的模型,可新增,以最终性能为评判标准。
模型
使用前述预测模型的结果作为输入,Bagging、Boosting、Stacking模型
目标
实现对A5品牌的销量和销售金额的联合预测。
要求:
数据处理与模型选择
数据预处理:处理缺失值、异常值,进行数据归一化。
特征选择:选择影响销量和销售金额的重要特征,进行特征工程。
模型评估:使用准确率(Accuracy)、F1-score、AUC面积等指标评估模型性能。
数据处理
在建模前,本文通过箱线图法筛选了数据中的异常 值,并使用周期因子算法和多元非线性回归方程进行处理,确保数据的可靠性。
缺失值分析
在已给的五种品牌香烟的销售数据中,存在部分月份数据缺失的现象,因 为需要建立时间序列模型,所给出的时间应该呈现统一规律。所以在缺失比例 可接受的范围内,缺失数据也能对模型提供重要帮助。
异常值的分析
采用了箱线图(Box-plot)来检测五组数据的异常值。箱线图通过展示数据 的五个关键统计量(最小值、上四分位数 Q1、中位数 Q2、下四分位数 Q3和最大 值)直观地显示数据分布及其离群值。中位数 Q2 表示数据的中心位置,四分位 数 Q1 和 Q3 划分数据的四分位距 IQR。上边缘(UL)和下边缘(LL)延伸到非离群 值的数据范围,异常值(离群值)是那些超出上下边缘范围的数据点。
所有的缺失值和异常值都包含重要信息,为了简化运算,我们将缺失值也
认为是异常值。其中绿和香烟的数据无缺失值,但其他品牌的数据均有缺失值,
且有着明显不一样的趋势,我们将二者分开进行了处理。
绿和品牌香烟的异常值处理
采用周期因子算法,计算前一年后一年月销售占比,并求出平均占比。该计算方法主要是利用了数据具有周期性的特点,以及需要调整的异常数据前后两年数据已知的情况下,通过销量年占比与当年月环比来求出合理的替代值。
其他品牌香烟的异常值处理
其他品牌并没有明显的周期性趋势,因此采用更通用的多元非线性回归方程进行异常值处理。可以通过确定缺失值的时间,基于求解所得的回归方程计算得对应的销量及金额。
模型建立
绿和烟草销量预测模型的建立与求解
每一年绿和香烟销量趋势大致呈上升趋势,多年中不同月份销量增减趋势的验证了总体数据具有一定周期性。这主要表现在:每一年中,1月的销量最大,这可能是春节前后绿和烟草比较受欢迎,购买人数较多的。在2 月到 8 月销量的波动基本不大,在 8 月到 10 之间会再次出现销量的极大值,最后 10 月到 12 销量大多数呈现缓慢的下降趋势。
通过可视化分析,发现绿和香烟销量数据具有非平稳和季节性特点,且为
单变量数据,这适合使用 SARIMA 模型进行预测。SARIMA 模型是一种强大的时间序列预测工具,专为捕捉和预测数据中的季节性模式而设计。它通过结合非季节性和季节性自回归、差分和移动平均项,能够适应具有周期性变化的复杂时间序列数据。
硬香烟销量预测模型的建立与求解
硬烟草销量数据具有一定的平稳趋势和长期依赖的特点,且为单变量数据,这适合使用 LSTM 模型进行预测。在当前的实际应用中,循环神经网络(RNN)的高效形态当属门控循环神经网络,它们包括长短期记忆网络(LSTM)和门控循环单元(GRU)。LSTM 通过引入独特的门控机制,将传统 RNN 中的隐状态单元替换为 LSTM 神经元。这种设计巧妙地将时间步之间的信息传递由简单的累积转变为累加和更新机制,有效缓解了传统 RNN 在处理长序列时常见的梯度消失问题。得益于此,LSTM 能够构建更加深层的网络结构,进
而应对和解决更为复杂的序列预测和建模任务。
硬蓝爱你香烟销售金额预测模型的建立与求解
硬蓝爱你香烟销售金额数据具有一定的周期性。这具体表现为:销售金额总体呈现上升趋势,并伴有一定的季节性变化特征。有趣的是,这一周期性特征与前文中硬香烟销售数量相似的长期性依赖规律:在 1-3 月销售金额会先下降后上升,而在 3-9 月销量基于平稳,有先下降后上升的微小趋势;特别是在 9-12 月,销售金额会逐步下降。
通过可视化分析,我们发现硬蓝爱你香烟销售金额数据与硬香烟销量数据增长情况特性有高度相似,故该数据仍适合使用问题一中建立的 LSTM 模型进行预测。下图附:硬蓝爱你香烟的销售金额预测值与实际值的对比图
硬蓝爱你香烟销售金额预测模型的建立与求解
该种香烟总体数据具有一定的周期性。这具体表现为:销售金额总体呈现上升趋势,又有一定的季度周期。特别是在 7-9 月,销售金额会大大上涨,这可能是因为烟草在 6-9 月成熟,会有更多烟草流入市场,而且在 5-10 月中节假日比较集中,会激发更多销量。
通过可视化分析,我们发现长征烟草销量金额数据具有非平稳和季节性特点,且为单变量数据,这适合使用 Prophet 模型进行预测 [9]。Prophet 模型采用了加法模型的框架,结合了趋势的非线性增长和季节性的影响。它主要包括三个关键组成部分:趋势模型、季节性模型和节假日效应模型。通过分段线性回归来捕捉时间序列数据中的非线性趋势。
新版香烟销量与销售金额数据可视化分析
- 对比新版新版香烟销售金额堆叠折线图,两数据具有高度相似性,故可以忽略单价的变化情况,对量数
据进行同种建模。数据的总体趋势表现为:在 2-9 月有微小幅度变化,在 9-12月有减少趋势。故可以选择构建集成学习模型对两数据进行分析预测。 - Stacking 是一种高效的模型集成技术,其核心理念在于借助一个元模型来综合多个基模型的预测输出,以此减小单个模型在泛化过程中可能产生的误差。遵循 Stacking 方法的原理,本研究提出了一种创新的模型融合策略,该策略整合了 LightGBM、XGBoost 以及 LSTM 三种迥异的模型。LightGBM 和XGBoost 作为集成树模型的代表,以其强大的特征处理能力和优秀的预测性能著称;而 LSTM 作为神经网络模型,特别擅长捕捉时间序列数据中的动态特征。由于这些基础模型在设计和功能上存在显著差异,它们各自生成的预测结果自然具有较低的相关性。正是这种低相关性,使得它们的融合能够相互补充,从而显著提升预测精度,实现更为精确的预测效果。
在本问题中,一个严重的问题是过拟合,我们发现模型在训练样本中表现优越,但是在验证数据集以及测试数据集中表现不佳,在采取了特征,样本抽样进入训练,减少树深度和正则化参数后等有效方法后,我们发现和验证以下创新的方法可以进一步减少过拟合。随后进行K折交叉验证(附下图)。
模型评价
模型的优点
1.参考大量相关领域的文献,选取恰当的经济学模型对数据进行分析预测。时间序列通过对导入历史数据进行自回归、差分、移动平均模型拟合,能够利用过去的模式和趋势推断未来的行为。
2.基于数据特征选择合适的优化模型,其中 SARIMAX 模型具有极大的灵活性、LSTM 模型能够有效的捕捉和保留长期依赖关系、Prophet 模型能够自适应处理多个季节性和突发事件、Stacking 模型的自动化的大型集成策略可以通过添加正则项有效的对抗过拟合。使用这些先进的算法技术能够更好地贴合题目信息。
3.本文中的多种模型不仅适用于本题,也适用于其他预测问题中,可拓展性强,适应范围广。
4.模型求解用到 Python、MATLAB、LSTOPT 和 Excel 等多种软件,使求解过程更清晰、专业,运用多种绘图使得数据表达更加清晰明了。
模型的缺点
1.销量和金额缺失值和异常值的数据预处理仍会与真实值有所偏差,并且箱线法并不能完整剔除异常值,这些都会对模型的预测结果造成影响。
2.所示烟草销量数据总体波动比较大,不具有平稳性,这会对 SAMRIMA模型的预测造成影响;数据的数量对 Prophet 模型模型的预测结果造成影响;多个重要的超参数的调整加大 LSTM 模型预测难度以及拟合效果。
3.所建立模型只考虑时间对于香烟销量产生影响,未考虑到现实中商品竞争关系以及替代品与互 补品等销售情况,应同时考虑商品销量的交叉弹性。