【大发1分快3注册】智汇华云 ——AIOps之动态阈值:SARIMA模型详解

  • 时间:
  • 浏览:0
  • 来源:彩神网快3官方-彩神快3

近年来,I大发1分快3注册t运维人工智能(AIOps)已成为了应对IT系统与日俱增的繁复性的很好的处理方案。AIOps基大发1分快3注册于大大发1分快3注册数据、数据分析和机器学习来提供洞察力,并为管理现代基础设施和软件所需的任务提供更高水平的自动化(不依赖于人类操作员)。

要是,AIOps具有巨大的价值。展望未来,AIOps将在IT团队提高速率方面发挥关键作用。它都是使应用繁复的下一代技术成为时会,要是哪此技术的繁复性是传统处理方案无法胜任的。

华云数据“智汇华云”专栏将为您奉上“AIOps之动态阈值—SARIMA模型详解”。

通过使用数据挂接、数据分析和机器学习相结合的全部AIOps处理方案,IT Ops团队可不时要支持以下有几次关键使用场景:

 异常检测。我知道你AIOps最基本的使用案例要是检测数据中的异常,要是根据时要对它们做出反应。

 意味着着。AIOps还可帮助IT Ops团队自动执行根本意味着着,从而快速处理难题。

 预测。AIOps可不时要让工具能对未来进行自动预测,类似用户流量在特定的时间点之时会何如的变化,要是做出相应的反应。

 报警管理。AIOps在帮助IT Ops团队应对朋友时要处理的少量警报,以支持正常的运营方面发挥着没有 重要的作用。

 智能修复。AIOps通过自动化工具驱动闭环的大发1分快3注册故障修复,而不依赖于运维人员。

异常检测

异常检测以定位难题并了解基础架构和应用程序中的趋势是AIOps的一个 关键用例。检测可不时要让工具探测出异常行为(类似某个服务器响应速率比平时慢,或受黑客攻击而老出异常的网络行为)并作出相应的反馈。

在要是具体情况下,在现代软件环境中应用程序异常检测,对于AIOps而言还是不得劲具有挑战性。时会在这俩具体情况下,并没有 通用的最好的依据 去定义合理的触发条件。类似对于在整个环境中的网络流量、内存和存储空间消耗而言,它们的波动还是会很大的。没有 活跃用户量或应用程序实例也是没有 。在哪此具体情况下进行有效监测时要AIOps能采用足够智能的工具来设置动态基线。动态基线(阈值)为工具设置特定的具体情况下(类似一天中的深冬和应用程序的注册用户数)正常活动的范围,要是检测与动态基线不匹配的数据或事件。

SARIMA模型

下面,就给朋友讲解一下朋友这次用到的SARIMA模型,用于预测指标动态阈值,从而检测异常。

SARIMA模型的全称是Seasonal Auto Regressive Integrated Moving Average,中文是周期性自回归差分移动平均。SARIMA模型是这俩预测周期性的时间序列效果非常好的模型。SARIMA模型的目标是描述数据的自相关性。要理解SARIMA模型,朋友首先时要了解平稳性的概念以及差分时间序列的技术。

平稳性 stationarity

总的来说,一个 时间序列,时会均值没有 系统性的变化(无趋势),方差没有 系统变化,且消除了周期性变化,就称之为平稳的。

显然,图(d), (h), (i)有一定的周期性,要是不平稳。图(a), (c), (e), (f), (i)有一定的趋势性,要是图(i)的方差在增长,要是不平稳。都可不可不能不能 才能 图(b)和(g)是平稳的。时会朋友第一眼看后图(g)嘴笨 有周期性,嘴笨 是没有 的,时会这是猞猁的代际数量,在长期来看,这并没有 周期性,要是这俩时间序列是平稳的。

差分 differencing

朋友可不时要看后图(a)是谷歌股价图,这是不平稳的。但图(b)是股价每天的变化量,这是平稳的。这要是这俩让不平稳的时间序列变为平稳时间序列的最好的依据 ,计算连续时间数据点之间的差,这要是差分。

类似取对数log的最好的依据 可不时要使时间序列的方差变平稳,差分通过消除时间序列的变化量,从而使时间序列的平均值变平稳,来达到消除趋势性和周期性。

自相关系数 autocorrelation

自相关系数是用来测定时间序列的一个 时刻的值的线性关系。比如r1是测量yt和yt-1的关系,r2是测量yt和yt-2的关系。

rk可不时要写成



T是时间序列的长度,k是延迟lag

ACF(autocorrelation function)图是这俩非常有效的来判断时间序列平稳性的最好的依据 。

时会数据有趋势性,没有 对于较小的延迟,自相关性趋向于比较大要是为正。当延迟增大时,ACF会慢慢变小。

时会数据有周期性,对于周期性的延迟,自相关性会比较大这俩。

时会数据既有周期性又有趋势性,你就会看后两者的结合。

这张图是澳大利亚电力需求图,可不时要看后这组数据既有周期性,又有趋势性。

画出ACF图如下:

可不时要看后,时会趋势性,当延迟变大时,ACF慢慢变小。时会周期性,图像会有峰谷的感觉。

白噪声 white noise

一个 时间序列时会没有 任何自相关性就可不时要称为白噪声。

这是一个 白噪声的例子,朋友画出它的ACF图:

朋友期望所有的ACF值接近于0,但时会这俩随机变化,朋友不时会正好等于0。对于白噪声,朋友期望95%的ACF突刺都是

之间,T是时间序列的长度。通常朋友会画出哪此范围,图上用蓝线表示。时会超过5%的突刺超出了这俩范围,这俩时间序列就时会都是白噪声。

随机漫步模型 random walk

差分序列是连续数据点之间的变化量,可不时要写成



当差分序列是白噪声时,这俩模型可不时要写成

表示白噪声。

重新排列一下,朋友可不时要得到随机漫步模型



二次差分 second-order differencing

有时一次差分的数据看起来还是不平稳,这就时要二次差分来获得一个 平稳的序列。

周期性差分 seasonal differencing

周期性差分是一个 数据点和前一个 周期同一时间的数据点的差。。

这里的m是周期的数量。这也叫做”lag-m differences”。

单位根检验 unit root tests

决定是是否是时要差分可不时要用单位根检验。朋友这里使用KPSS test,在这俩检测中,零假设是数据是平稳的,朋友要找出零假设不为真的证据。得到比较小的p值,比如0.05,就可不时要认为零假设不成立,数据不平稳,朋友就时要对时间序列进行差分。

后移符号 backshift notation

当朋友在研究时间序列延迟的时会,后移符号B非常有用。

B用在yt上,是把数据后移一个 周期。两次B运算要是把数据后移一个 周期。

对于每月挂接一次的数据,时会朋友我应该 去年同月的数据,表示为



后移符号对于差分过程的表示非常方便,比如一次差分可不时要写成:

一次差分可不时要表示为(1-B),没有 同样,二次差分可不时要写成:

一般来说,d次差分可不时要写成



后移符号在组合差分的时会非常有用,比如,周期性的差分组合一次差分可不时要写成:

AR模型 Auto Regressive

在自回归模型中,朋友使用过去变量的线性组合来预测。自回归表示这是对于自身变量的回归。

p阶AR模型可不时要写成:

这里

是白噪声,朋友把这俩叫做AR(p)模型,p阶自回归模型。

下图展示了AR(1)模型和AR(2)模型:

对于AR(1)模型:

 当1

=0,yt要是白噪声

 当1

=1要是c=0,yt要是随机漫步

 当1

=1要是c

0,yt要是带偏移量的随机漫步

 当

<0,yt趋向于在正负值之间振动

朋友通常会限制AR模型只用于平稳的数据,要是朋友对参数有这俩限制:

 对于AR(1)模型:

 对于AR(2)模型:

对于p>2,参数限制就非常繁复,朋友可不时要用python的包来搞掂。

MA模型 Moving Average

不像AR模型中使用过去的预测变量,MA模型使用过去的预测误差。

是白噪声。朋友把这俩叫做MA(q)模型,q阶移动平均模型。

下图展示了MA(1)模型和MA(2)模型:

朋友可不时要把任意平稳的AR(p)模型写成MA(

)模型。比如,朋友可不时要把AR(1)模型写成:

,当k变大时,

会变小。要是朋友最终会得到:

这是一个 MA(

)模型。

时会朋友给MA模型加这俩限制,朋友可不时要称MA模型是可逆的,朋友可不时要把任意MA(q)模型写成AR(

)模型。

可逆性限制和平稳性限制类似:

 对于MA(1)模型:

 对于MA(2)模型:

对于q>2,参数限制就非常繁复,朋友可不时要用python的包来搞掂。

ARIMA模型 Auto Regressive Integrated Moving Average

时会朋友组合AR和MA模型并差分,朋友可不时要得到ARIMA模型。模型可不时要写成:

是差分过的序列,右侧的预测器含有延迟yt和延迟误差。朋友叫这俩ARIMA(p,d,q)模型:

有这俩特殊的ARIMA模型如下表:

白噪声

ARIMA(0,0,0)

随机漫步

ARIMA(0,1,0)

带偏移量的随机漫步

ARIMA(0,1,0)带常数

自回归

ARIMA(p,0,0)

移动平均

ARIMA(0,0,q)

用后移符号,朋友可不时要把ARIMA模型写成:

AR(p)        d次差分             MA(q)

常数c在长期预测中十分重要:

 时会c=0要是d=0,长期预测值会趋向于0

 时会c=0要是d=1,长期预测值会趋向于非零常数

 时会c=0要是d=2,长期预测值会变成第一根直线

 时会c

0要是d=0,长期预测值会趋向于数据的平均值

 时会c

0要是d=1,长期预测值会变成第一根直线

 时会c

0要是d=2,长期预测值会变成二次抛物线

偏自相关系数 partial autocorrelation

自相关系数测量了yt和yt-k的关系。时会yt和yt-1相关,没有 yt-1和yt-2肯定也相关。但没有 语句,yt和yt-2时会也相关,仅仅只时会朋友都跟yt-1相关,而都是时会yt-2含有新的信息可不时要用于预测yt。

为了处理这俩难题,朋友可不时要使用偏自相关系数。这是在移除延迟1,2,3,…,k-1的影响后,测量yt和yt-k之间的关系。

时会差分时会的ACF和PACF图满足以下形式,数据时会是ARIMA(p,d,0)模型:

 ACF是指数衰减时会正弦式的

 在PACF中,在延迟p的地方一个 明显的突刺,但上面没有

时会差分时会的ACF和PACF图满足以下形式,数据时会是ARIMA(0,d,q)模型:

 PACF是指数衰减时会正弦式的

 在ACF中,在延迟q的地方一个 明显的突刺,但上面没有

最大似然估计 maximum likelihood estimation

估算模型的时会,朋友使用最大似然估计。已知某个随机样本满足这俩概率分布,要是其中具体的参数不清楚,参数估计要是通过若干次试验,观察其结果,利用结果推出参数的大约值。对于ARIMA模型,MLE通过最小化

来获得。对于给定的p,d,q组合,朋友可不时要用python最大化log likelihood来找到大约的p,d,q。

信息准则 information criteria

赤池信息准则(AIC)在选用参数时非常有用,可不时要写成:

其中L是数据的likelihood,时会c=0,k=0;时会c

0,k=1。

修正赤池信息准则(AICc)可不时要写成:

贝叶斯信息准则(BIC)可不时要写成:

最小化AIC,AICc时会BIC可不时要得到较优模型,朋友偏向于选用AIC。

pmdarima原理

pmdarima是一个 python处理ARIMA和SARIMA模型的包,主要使用了Hyndman-Khandakar算法的变形,组合了单位根检验,最小化AICc和MLE。

用于自动化ARIMA模型拟合的Hyndman-Khandakar算法

  1. 重复使用KPSS检测决定差分次数
  1. 差分后最小化AICc来选用p和q的值,这俩算法使用了阶梯式搜索来遍历模型空间,而都是考虑所有p和q的组合
  1. 拟合3个初始模型:

 ARIMA(0,d,0)

 ARIMA(2,d,2)

 ARIMA(1,d,0)

 ARIMA(0,d,1)

常数项会被考虑进去除非d=2。时会d

1,拟合额外的一个 模型:

 ARIMA(0,d,0)没有 常数项

  1. 在步骤a中最优的模型(最小的AICc值)会被设置为当前模型
  1. 微调当前模型:

 对p或/和q

 加入/去除常数项c

新的最优模型变成当前模型

  1. 重复步骤c直到没有 更小的AICc

SARIMA模型 Seasonal Auto Regressive Integrated Moving Average

ARIMA模型的不够在于没有 考虑周期性,加入周期项可不时要得到SARIMA模型:

ARIMA     (p,d,q)       (P,D,Q)m

                                       非周期性每种   周期性每种

m是每年的观测数量。P,D,Q作为周期性参数,p,d,q作为非周期性参数。

模型的周期性每种和非周期性每种很类似,但包括了周期后移。比如,ARIMA(1,1,1)(1,1,1)4对于季度数据(m=4)可不时要写成:

PACF和ACF图中的周期性延迟可不时要看出AR模型时会MA模型的周期性每种。

比如,SARIMA(0,0,0)(0,0,1)12模型会有以下结构:

 ACF中延迟12有突刺,但没有 这俩的明显突刺

 PACF的周期性延迟有指数衰减,比如在延迟12,24,36的地方

类似的,SARIMA(0,0,0)(1,0,0)12模型会有以下结构:

 ACF的周期性延迟有指数衰减

 PACF中延迟12有突刺

另外,根据简约性原则parsimony principle,

为佳。

下面的例子可不时要很好的解释模型拟合的过程:

例子:欧洲季度零售指数

这俩例子是欧洲零售指数从1996到2011年的数据,朋友把它套进SARIMA模型进行预测。

这组数据明显是不平稳的,并有这俩周期性,要是朋友先进行周期性差分,如下图:

这看起来还是不平稳,朋友再进行一次差分,如下图:

ACF图中延迟1的明显突刺说明有个非周期性的MA(1)每种,ACF图中延迟4的明显突刺说明有个周期性MA(1)的每种。要是,朋友从SARIMA(0,1,1)(0,1,1)4模型现在开始,得到拟合模型的残差,如下图:

ACF和PACF都是延迟2有明显突刺,延迟3的突刺要是小,要是模型应该还有额外的非周期性每种。SARIMA(0,1,2)(0,1,1)4模型的AICc是74.36,SARIMA(0,1,3)(0,1,1)4模型的AICc是68.53。这俩的AR参数都没有 更小的AICc值。要是,朋友选用SARIMA(0,1,3)(0,1,1)4,画出该模型的残差:

所有突刺都是合理范围内,残差值看起来像白噪声了。Ljung-Box测试也显示残差没有 自相关性了。

要是,朋友就可不时要用该模型进行预测了:

图中显示了预测值以及100%和95%的置信区间。

指标动态阈值原理

朋友时会了解了SARIMA模型,并可不时要对时间序列数据进行预测了。对于动态阈值,朋友首先获取历史数据,对数据进行处理,时要对缺失数据进行这俩填充。要是朋友进行SARIMA模型拟合,得出最优模型时会,对未来指标走势进行预测,通过95%的置信区间生成阈值区间,时会指标超出这俩区间,朋友认为指标异常,对用户进行告警。每天朋友都是重复以上操作,让模型拟合更加准确,从而使动态阈值功能日趋完善。

参考资料:

1. https://www.ca.com/content/dam/ca/us/files/white-paper/the-definitive-guide-to-aiops.pdf

2. https://otexts.com/fpp2/

3. https://www.sciencedirect.com/science/article/pii/0100440769290104Y?via%3Dihub

4. https://www.jstatsoft.org/article/view/v027i03

本文由站长之家用户投稿,未经站长之家同意,严禁转载。如广大用户朋友,发现稿件占据 不实报道,欢迎读者反馈、纠正、举报难题(反馈入口)。

免责声明:本文为用户投稿的文章,站长之家发布此文仅为传递信息,不代表站长之家赞同其观点,不对对内容真实性负责,仅供用户参考之用,不构成任何投资、使用建议。请读者自行核实真实性,以及时会占据 的风险,任何后果均由读者自行承担。