基于分型转折点的证券时间序列分段表示法


  摘 要:证券时间序列是证券交易价格的一组观测数据,是一种有其自身显著的特点的时间序列,针对这些特点我们提出一种基于分形理论与K线图形特点的分段方法,经过理论分析与实践证明其划分的证券时间序列分段有其合理性。在对时间序列数据压缩率很高的情况下,还能保持较好的拟合误差,并能较好地描述证券时间序列的走势特征。
  关键词:分型;转折点;证券时间序列
  一、引言
  证券时间序列是按证券交易时间先后排列的一系列证券交易价格观测数据,其观测值按固定的时间间隔采样。证券时间序列属于金融时间序列的一种,因为证券交易金额大交易频率高而受研究者大量关注。
  面对海量、高维的证券数据,直接在原始数据上处理难度很大,因此,需要研究合适的数据表示形式,以规约简化数据。目前常见的时间序列特征表示形式有域变化表示法、符号表示法、奇异值分解法、分段聚合近似表示方法(piecewise aggregate approximation,PAA)和分段直线表示法(Piecewise Linear Representation,PLR)等[1]。由于域变换表示法大多基于点距离,无法刻画时间序列的重要特征—动态属性;符号表示法更适应在文本数据挖掘和生物信息等领域中得到较多应用;奇异值分解法时间复杂度高,且从数据集中任意增加或删除一条记录,都要重新运算,不适合证券时间序列数据的动态增加;分段聚合近似表示方法根据是通过对时间序列进行平均分割并利用分段序列的均值来表示原时间序列的方法,极大值、极小值、形态特征等数据容易丢失,不利于体现证券时间序列的趋势特征[2-3]。而分段直线表示法具有形式直观、数据压缩度高、支持动态增量更新和距离度量灵活等特点,更适合于证券数据表示。
  PLR算法有不少应用于证券时间序列的实验,一类如詹艳艳等基于斜率的分段法,根据斜率的变化把证券时间序列分成多个序列[4]。这类方法用于证券时间序列分段有一个显著的缺点,同一趋势段会因为涨跌幅度变化较大的而分为多个段,不利于趋势的理解。另一类是以Pratt为代表的重要点分段法,根据序列中反趋势的幅度,用序列分段中的上涨趋势中的最大值或下跌趋势的最小值,与反趋势中某个值的比率小于某个临界值R来判断是否构成反趋势段,从而达到分段的目的[5];以及田野等的改进的重要点分段法,这类方法比基于斜率的分段法能更好的描述证券时间序列的走势特征[6]。不足之处是证券时间序列趋势调整有急速大幅的调整,也有幅度不大却时间比较长的调整,这就是通常所说的“时间换空间”或者“空间换时间”的调整,这可能会导致同一走势中的不同调整段不能都被很好分段。当两个股票时间序列涨跌节奏相同而幅度不同时,会因为分段不相同而不利于相似度度量。
  本文提出的基于分型转折点的分段方法,对于“空间换时间”的大幅调整和“时间换空间”的窄幅调整,都能较好的描述股票的基本趋势及不同调整段。同时,本文的分段方法能支持使用同一时间点的最高价与最低价作为数据源,在趋势段的最高点最低点能更好的保留原始数据,比大多数分段算法只使用收盘价作为数据源更接近真实值。
  二、问题描述及分型转折点的定义
  (一)问题的定义
  定义1(证券时间序列)证券时间序列是证券交易记录值和交易时间组成的有序集合。记为X=。其中xn_top是观测时间间隔内最高价,xn_bottom观测时间间隔内最低价。T为观测时刻的时间戳,是严格增加的(i  分段方法的目标是对证券时间序列进行降维,减少序列中点的个数的同时保留时间序列数据关键特征,分段直线表示法的重点就在于分段点的选取。
  (二)证券时间序列的分形特征与分段评价标准
  分形(Fractal)的概念是美籍数学家本华·曼德博首先提出的。以海岸线为例,作为曲线,其特征是极不规则、极不光滑的,呈现极其蜿蜒复杂的变化。我们不能从形状和结构上区分这部分海岸与那部分海岸有什么本质的不同。这种几乎同样程度的不规则性和复杂性,说明海岸线在形貌上是自相似的,也就是局部形态和整体态的相似。
  证券交易时间序列数据也具有这样的自相似性,我们从证券交易的日K线图上看到的图形概貌,与从月K线图、日K线、30分钟K线图上看到的图形几乎有同样程度的不规则性和复杂性。国内一些研究也表明,中国股票市场也具有分形特征[7]。这个特征表明证券时间序列中局部与整体之间有一些相似的结构特性,如果这种结构特征能在特征表示法中体现出来,对于证券数据挖掘是很有利的。
  目前大多数时间序列特征表示法,追求拟合误差e(t)的最小化。然而证券时间序列特征表示法中,对趋势特征的保留程度,也是衡量特征表示优劣的指标。本文中把拟合误差和趋势特征的保留程度一起作为参照指标。
  根据证券数据分形特征的自相似性,以及证券K线图形的拓扑结构,本文提出一种证券数据新型分段方法,命名为分型转折点分段法。
  三、分型转折点分段方法
  分段思路:根据证券时间序列的拓扑结构特点,所有的转折点必然存在视觉上的高低点,这些高低点可以构成各个趋势段的顶和底。顶和底的出现在图形上会有一定的条件限制,找出序列所有顶和底,就可以确定分段点。这样的分段适合月线、日线、分钟线等各个时间度量单位的证券时间序列。
  (一)基本定义
  分型转折点分段线性表示法建立在时间序列图形分析的基础之上。
  证券时间序列描述的是股票等有价证券的交易价格观测值,记录股票交易在等长时间间隔内的价格数据,常见时间间隔大小为:年、季、月、周、日、60分钟、30分钟、15分钟、5分钟、1分钟。根据分形理论,不同时间间隔的观测值拓扑图形都有一定的自相似特点,通过观测的视觉经验也能看出证券时间序列的自相似性。

推荐访问:分段 转折点 序列 时间 证券