量化投资简介
广义上,我们可以认为凡是借助于数学模型和计算机实现的投资都称之为量化投资------目前,国内比较常见的量化投资策略有alpha策略(IQC用的就是这个了)、期货CTA策略、套利策略和高频交易策略
在日常生活中,我们确实会用到量化和直觉两种不同的决策模式:
量化型决策模式依赖于逻辑、公式和系统化的方法,它通过数据、量化和细节来进行分析和判断。这种模式通常用于需要精确计算和客观分析的场合,比如金融投资中的基于统计的股票多因子分析。
另一方面,直觉型决策模式则依赖于个人的见识、感知、大图片的把握,以及艺术性、经验和灵感。这种模式更多地依赖于个人的直觉判断,比如在阅读新闻时对市场趋势的直观感受,或者在阅读财报时对公司未来发展的直观判断。
图中展示的模型将这两种决策模式与信息获取方式结合起来,形成了四个象限:
-
基于网络舆情的模型:这属于直觉型信息获取模式和量化型决策模式的结合。通过分析网络上的舆论和情绪,可以量化这些数据来辅助决策。
-
阅读新闻和直觉判断:这属于直觉型信息获取模式和直觉型决策模式的结合。通过阅读新闻,人们可以凭借直觉和经验来做出判断。
-
阅读财报和直觉判断:这同样属于直觉型信息获取模式和直觉型决策模式的结合。通过阅读财报,人们可以凭借直觉和经验来评估公司的财务状况和未来潜力。
-
基于统计的股票多因子:这属于量化型信息获取模式和量化型决策模式的结合。通过收集和分析股票的各种统计数据,可以系统化地评估股票的价值和风险。
在实际应用中,这两种决策模式并不是完全独立的,而是可以相互补充。例如,在投资决策中,投资者可能会同时考虑量化分析的结果和自己的直觉判断,以做出更全面的决策。同样,在日常生活中,我们可能会根据数据和逻辑来做出某些决定,同时也会依赖于我们的直觉和经验来处理其他问题。

在拿到数据之后,我们要优先进行数据预处理和清理,构建模型对趋势进行预测,然后根据功效函数来验证假设的合理性
在真实情况下,真正占据大量时间的往往是数据预处理,一般原始数据会出现的有如下三个问题:数据缺失、燥点或离群点、数据错误;针对于缺失值常见采用从其他数据源当中提取和算法填充两种做法,针对于噪声或离群点首先是通过其为标准差的多少倍来识别,然后人工判断是正常离群点还是错误数据离群点,如果是错误数据离群点需要删除或者更正,针对不同的数据库数据不一致,我们可以多引入几个数据库与之比较。
这里需要建立描述性分析模型,可以参考:
量化金融分析本身就是一门复合型的学问,因此我们要掌握一些与金融相关的指标,在量化选股的过程中,一定是要涉及到多元多角度的指标进行分析,否则在统计当中其实站不住脚,也就是所谓的"统计骗局",熟练掌握基本概念,可以让我们对其有更加理性,基本的认识
收益率

对数收益率

年化收益

波动率(收益率的标准差)

夏普比率(每承担一单位风险会产生多少超额报酬)

图片展示了夏普比率(Sharpe Ratio)的公式,其中:
• E(R_p) 是投资组合的预期收益率。
• R_f 是无风险利率,通常是指短期政府债券的收益率。
• \sigma_p 是投资组合收益率的标准差,表示投资组合的风险。
夏普比率是一个衡量风险调整后收益的指标,用于比较不同投资组合的表现。它通过计算投资组合相对于无风险资产的超额收益与投资组合的标准差(风险)的比值来实现。一个较高的夏普比率意味着投资者为承担每单位风险所获得的超额回报更高。
值得注意的是,不同周期的夏普比率是不同的,如半年换算到一年:上面乘2下面乘根号2,所以换算成年就是乘以根号2
Alpha和Beta
来自于资本资产定价模型,将受益分为两部分,一部分来源于大盘涨跌,另一部分来源于股票自身特性,其中,大盘影响的那部分股票就称为Beta,而Alpha收益就是与大盘无关的那部分收益
最大回撤:指可能产生的最大亏损

利率
利率定义了借入方承诺给出借方的资金数量,而国债利率常常被视作无风险利率,也有交易员认为这种无风险利率偏低,拿隔夜指数交换利率作为无风险利率的近似取值
复利利率是指在不断将利息借出,实现利滚利,最终达到的数值就是原来的:

(将资金A投入n年利息为R复利m次)
可参考:
当我们假设连续复利利率为Rc(一直出借m为无穷时)

化简得到复利利率:

零息利率
不是不付钱,而是最后一次性付清
久期
是指收到所有现金所需的平均时间,时间的权重按债券价值的多少来
除此之外还要求掌握债券和期权的定价方式,理解至上这里不做过多赘述
多因子模型与alpha策略:
言归正传,我们来讲讲IQC当中的alpha策略
在IQC比赛中,参赛者需要通过挖掘高质量的alpha因子来构建投资组合并获取得分。因子的质量通常分为不同等级,如"需要改进""一般""良好""优秀"和"卓越"等。参赛者需要利用比赛平台提供的数据和工具,开发出能够有效预测股票收益的因子,并通过这些因子进行选股和组合优化。
因此,因子选股是比赛的核心要求之一,参赛者需要具备扎实的因子挖掘和优化能力,才能在比赛中取得好成绩。
谁能写出更加客观描述市场的因子,谁就能取得更高的收益(alpha指的是超额收益)
因子投资的背景与有效市场假说、被动投资和主动投资密切相关。以下是详细分析:
- 有效市场假说(EMH)
有效市场假说是由尤金·法玛(Eugene Fama)在20世纪60年代提出的理论,认为金融市场的价格反映了所有可用信息。根据信息的涵盖范围,有效市场假说分为三种形式:
• 弱式有效市场假说:市场价格反映了所有历史交易信息,技术分析无法持续获取超额收益。
• 半强式有效市场假说:市场价格包含了所有公开信息,基本面分析也难以持续战胜市场。
• 强式有效市场假说:市场价格反映了所有信息,包括内幕信息,因此任何投资者都无法通过信息优势获取超额收益。
有效市场假说对投资策略产生了深远影响。它为被动投资提供了理论基础,认为市场是有效的,投资者难以通过主动管理持续战胜市场。
- 被动投资
被动投资基于有效市场假说,认为市场至少是半强有效的,因此投资者无法通过主动选股或择时获取超额收益。其核心理念是复制市场指数的表现,通过持有指数基金获取市场平均回报。被动投资的特点包括:
• 投资哲学:市场是有效的,难以超越基准。
• 投资方法:复制指数成分股组合。
• 投资目标:减少组合收益与指数理论收益的差距。
• 收益来源:市场整体增长(贝塔收益)。
被动投资的优势在于成本低、透明度高,适合长期投资者。
- 主动投资
与被动投资相反,主动投资认为市场存在低效之处,投资者可以通过分析和决策获取超额收益。其核心理念是市场最多是半强有效的,通过管理能力可以战胜市场。主动投资的特点包括:
• 投资哲学:市场存在定价错误,可以通过分析发现被低估或高估的资产。
• 投资方法:包括定性投资(基于财务分析、调研等)和定量投资(基于数学模型和统计方法)。
• 投资目标:获取超越市场基准的超额收益(阿尔法收益)。
• 收益来源:通过选股、择时或对因子的押注。
然而,主动投资的挑战在于,多数主动型基金难以长期保持正阿尔法收益。
- 因子投资的兴起
因子投资是在被动投资和主动投资之间的折中策略,它结合了两者的优点。因子投资的背景可以追溯到20世纪70年代,当时学者们发现某些特定的因子(如价值因子、规模因子等)能够解释股票的超额收益。因子投资的核心是识别并利用这些因子来构建投资组合,以获取超额收益。
因子投资既不像被动投资那样完全复制市场,也不像主动投资那样依赖主观判断,而是通过系统化、规则化的方法来捕捉市场因子的溢价。例如,Fama-French三因子模型指出,市场因子、规模因子和价值因子可以解释股票组合的超额收益。
总结
有效市场假说为被动投资提供了理论基础,而主动投资则基于对市场低效的假设。因子投资则是在两者之间找到平衡,通过系统化的方法捕捉市场因子的溢价,既避免了完全被动的市场复制,又减少了主动投资的主观性。
而股票的收益来源就是建立资产组合,从而实现对因子的押注
因子是什么?是描述事物的一个特征,是风险敞口(用来刻画股票风险的刻度),是信息
Tips:如何理解因子是风险敞口 ?
- 因子与风险的关系
因子本质上反映了资产对某些系统性风险的暴露程度。例如,在资本资产定价模型(CAPM)中,市场因子(β)衡量了资产相对于市场的波动性。如果一个资产的β值较高,说明它对市场风险的敞口较大,其收益也会随市场波动而大幅变化。
- 因子敞口的量化
因子敞口可以通过数学模型来量化。例如,在多因子模型中,投资组合对某一因子的敞口可以通过组合中各资产的因子暴露加权平均计算得出。假设一个组合中包含两只股票A和B,股票A的ROE因子值为10,股票B的ROE因子值为3,组合中A和B的权重分别为50%,那么该组合的ROE因子敞口为6.5。
- 因子敞口对组合风险的影响
因子敞口的大小直接决定了组合在该因子上的风险暴露程度。如果一个组合在某一高波动因子上的敞口较大,那么组合的整体风险也会相应增加。反之,如果组合在低波动或负相关因子上有较大敞口,则可能起到风险对冲的作用。
- 因子敞口的管理
投资者可以根据自身的风险偏好和收益预期,调整组合在不同因子上的敞口。例如,通过设定因子敞口的上限和下限,可以有效控制组合的风险暴露。此外,因子的最大损失也可以用来反向设定敞口,从而在追求收益的同时控制风险。
总结
"因子是风险敞口"意味着因子反映了资产或组合对特定风险因素的暴露程度。因子敞口的大小不仅决定了组合的收益潜力,也决定了其风险水平。通过合理管理因子敞口,投资者可以在风险与收益之间找到平衡。
多因子模型的基本形式如下:

在该模型中认为收益率是可以被线性表示出来的
多因子模型有哪些应用场景呢?
1.利用多因子组合构建主动投资组合,主动承担因子风险,收益为beta和alpha
2.alpha策略:控制各种beta风险取得稳定收益
3.配对交易:做多相对好的并做空相对差的(套利)
4.高频算法交易:预测单个品种很短时间内的涨跌
因子分为很多种类
按照是否可控分为风险因子和alpha因子,其中alpha因子收益回撤小,稳定性好
按照构建因子数据,可分为量价因子(各种技术指标)、基本面因子(行业和其他经济状况)、宏观因子 (GDP、汇率之类的)
多因子投资要按照如下流程进行:数据预处理(数据采集、数据异常值处理)、单因子检验(特征提取、异常值处理和标准化处理、中性化处理(可选))、大类因子合成(可选)(有效因子识别、因子相关性分析、同类因子合成大类因子、大类因子检测)、模型构建(确定因子权重、合成新因子进行个股筛选)、组合优化(根据约束条件优化投资组合)
因子的来源有对市场的观察、文献、券商研报、机器挖掘(质量难保证)
构建因子的步骤:
- 读取数据,特别注意‼️一般选择复权数据
(取股票池和交易日期)
- 写因子:函数(股票池universe,开始日期begin,截止日期end,因子名字保存file_name)
3.开始计算因子
4.异常值处理
tips:通过stack和unstack实现堆叠和不堆叠
较好的因子应该接近正态分布,可以用winsorize和zscore分别进行异常值处理和标准化处理
5.中性化(优点:将已知的部分剥离掉,剩下真正的新的因子;缺点:计算复杂,每个因子都要中心化)
步骤:
1.确定需要中心化的因子作为自变量
2.把目标因子作为因变量
3.运行回归,将回归过后的残差项作为新的因子(每天都要)
6.因子检验
回归法步骤:
首先确定持仓周期(不同的因子更新和预测的周期不同);计算未来n天的收益率,这里注意,一定是拿未来的值,还没有发生的值,然后等n天,这就是解释模型和预测模型在时间上的区别,计算回归,获得因子收益率和t的时间序列;最后对因子收益率时间序列做显著性检验(有效性检验:时间序列t值的绝对值的均值;平稳性检验:t值绝对值大于2的比例;可预测性检验:因子收益率的时间序列的显著性检验(t值)
IC法步骤:
计算中性化后的因子和下一期收益率的pearson(关心了正负)或speration(只是相关性排序)相关系数;然后计算IC:绝对值的均值------衡量有效性、IC标准差------衡量稳定性、IC大于零或小于零占比------判断因子一致性是否较强
分层法步骤:
用因子把股票分成N组,每组的股票行业权重按照某个基准股票池进行权重配比,计算每组股票构建的收益率与因子值最大构建的组合和最小构建的组合之差
注意:要考虑涨停而导致因子失效无法买进或卖出的情况
方法问题:
回归法和IC法:每期计算出的因子结果可能很好,但不排除会被优化器限制
回归法:计算相对复杂,建议是要各法相互补充
(也可以通过因子足够多的方式来抵消风险因子带来的风险,这也是很多大的量化机构为什么不去区分是否是风险因子)