【案例】国信证券——人工智能在量化投资中的应用

Original 2017-06-13 宽投金融科技 数据猿

数据猿导读

量化金融交易和金融大数据可谓是天作之合——巨量的、多种类相关的、实时高速的、包含丰富显性和隐性价值的数据，给传统意义上纯数字的量化交易带来了深层次的提高。

本篇案例为数据猿推出的大型“金融大数据主题策划”活动（查看详情）第一部分的系列案例/征文；感谢宽投金融科技的投递

作为整体活动的第二部分，2017年6月29日，由数据猿主办，上海金融行业信息协会、互联网普惠金融研究院联合主办，中国信息通信研究院、大数据发展促进委员会、上海大数据联盟、首席数据官联盟、中国大数据技术与应用联盟协办的《「数据猿·超声波」之金融科技·商业价值探索高峰论坛》还将在上海隆重举办【论坛详情】【上届回顾（点击阅读原文查看）】

在论坛现场，也将颁发“技术创新奖”、“应用创新奖”、“最佳实践奖”、“优秀案例奖”四大类案例奖

来源：数据猿丨投递：宽投金融科技

本文长度为3800字，建议阅读8分钟

量化金融交易和金融大数据可谓是天作之合——巨量的、多种类相关的、实时高速的、包含丰富显性和隐性价值的数据，给传统意义上纯数字的量化交易带来了深层次的提高。作为开发推广量化交易策略平台的宽投金融科技，我们一直在努力拓宽完善系统，使我们的产品能走在应用创新技术的前列。

国信证券是我们的忠实客户，在深度广度上，和我们不断有着良好互动式的持续性合作。面对证券行业的一些挑战，诸如下降的佣金率和交易量，激烈的行业竞争，作为行业中敢于创新的领先典型，国信和宽投努力探索怎样为投顾行业提供更加可靠、灵活、高适应性、稳健、并严格控制风险的投资策略。对于海量的金融大数据的收集、清理、分析、挖掘，并进行决策建议，是显而易见的尝试方向。

宽投金融科技拥有专门的大数据和机器学习专家团队，包含了前Intel的专家，中科院的数据研究员，华尔街的量化交易专家等各种精英成员。微软中国从加速器项目起就对我们持续支持，通过建立在微软云Azure上的宽投平台，我们和微软携手的联合销售加深了共赢合作。对宽投开放的微软机器学习实验室，更是如虎添翼，在运用金融大数据技术的层面上，为我们增强核心竞争力，也给我们的客户送去更多战略优势。

在这样的背景下，国信和宽投设定了国信解套宝的长期合作项目，并且已于4月初完成了首期实施应用。

周期/节奏

基于金融大数据技术，建立在宽投独特创新的量化交易策略生成平台，国信解套宝项目起始于2016年7月的双边探讨。经过数周的需求分析，自我评估，设计规划，2016年8月底，宽投正式向国信提出解决方案，和持续改进提高这个强大工具的提议。

一个月后，国信和宽投正式推动这个项目的开发和实施。同年的11月底，宽完投成了设计开发。经过6周时间，通过和国信的联调，不间断地对历史市场数据的回测，实时市场的模拟实测，我们进一步地完善了解套宝工具，并把第一期的实现发布到了生产环境。

客户名称/所属分类

国信证券股份有限公司/量化金融类

任务/目标

国信解套宝项目要求维持客户仓位，以量化交易策略主导客户被套仓位进行交易，降低持仓成本，实现盘活解套。通过对市场进行实时扫描，提取符合各种预设条件的股票，预警过滤器中发出信号，根据各种组合策略实时计算分析，对于不同用户的仓位和风控选择，提醒用户或者直接进行交易。

有别于其他国信和宽投合作的投顾量化交易项目，解套宝不单是由投顾提供投资理念并在宽投平台实现策略设置，而且能通过机器学习市场金融大数据，对策略进行增强。

该项目具有相当的前瞻意义，由于其灵活性和广泛性，在合理的架构体系下，可以不断地在各种金融市场，各种产品，各种投资风格方面进行拓宽，并在其深度和广度进行提高。所以，不仅需要通过对金融大数据的学习和处理归纳出投资策略，更需要具备螺旋式上升迭代拓展的能力，增加数据量和数据种类，加快数据整理和分析的速度，提高输出结果策略的精度和扩展度。

挑战

对全市场的实时扫描，跨周期的高速分析运算，毋需编程直接实现投资理念，运用真实市场历史数据回测研究验证投资策略等等，这些对于同行业中非常具有挑战意义的需求，宽投已经提供成熟的一站式平台服务，在客户中广泛被应用。这次项目的主要挑战在于用大数据和机器学习发掘发现投资策略。

我们希望通过海量的，不同种类的金融数据，从公司基本面资料，到股票走向的技术指标，从宏观经济的货币政策到利率变化以及CPI 等等，从新闻媒体到社交网站的关注率，通过机器学习，找出强关联数据。再通过数据清理与分析组合，找出稳定的有操作指导建议的策略。通过强大快速的回测系统，检验机器学习的结果。

国信解套宝是面向所有客户群的，其中有国信的投顾团队，各种公募和私募基金，投资机构，资深个人投资者，或者平常散户。投资能力和经验的不同，投资理念的不同，势必导致对于同样的工具不同的用法。需要能够根据用户的不同级别，动态提供感兴趣的盯盘参数组合，既给予用户灵活的选择可能，又把金融大数据的分析结果呈现给用户，并做出出投资指导或者直接推动量化交易。

金融市场对于大数据和人工智能而言，一个主要的问题在于数据的噪声。如何在大量的数据中，让机器学习能够提取到有效的数据，是个大难题。另外另外还需要决定如何设定短期、中期、与长期目标；在不同的阶段，有选择性地确立特征和训练数据集。

实施过程/解决方案

针对国内股票市场的现状，我们把机器学习定位为一个全市场扫描选股的辅助手段，即把它作为过滤器，并且将机器学习和传统的技术分析手段结合起来。同时依托微软Azure Machine Learning Studio，实现了机器学习的快速开发，完成了系统的快速建模，快速训练，快速部署。从数据导入，到模型建立，到模型训练，到模型部署到Azure Web Service，再到使用Azure Web Service和Azure Blob Service，用实时数据调用部署好的模型，实时产生选股信号的全部过程中，微软的Azure Machine Learning Studio都提供了方便快捷的使用方式。

下面就具体介绍一下我们如何将机器学习和传统的技术分析手段结合起来,和如何使用Azure Machine Learning Studio。

前文提到过，对于金融交易市场来说，大数据和机器学习的难点在于数据噪音。有没有办法帮助机器学习的模型来提取有效信息呢？宽投的答案是将机器学习和传统分析相结合。下面用SVM（支持向量机，Support Vector Machine）这种分类器模型来举例说明如何结合：

第一步，准备训练数据。对于机器学习和传统技术分析手段结合来说，这步是最重要的。对SVM模型而言，准备数据时，我们是通过label将二者结合起来的。如何做label，是关键的一步。比如用BOLL带收窄，再突破中轨这种图形来说，如下图所示：

BOLL带收窄，但是股价收盘价持续在中轨之上，然后突破上轨，股价持续上涨。我们在label的时候，将BOLL带收窄，股价在中轨之上，次日价格上涨一定幅度作为Positive Label。

第二步，在微软的Azure Machine Learning Studio训练SVM模型。从前面的描述读者可以发现，技术分析的方法相当多，而对于每一个技术分析方法，都需要准备数据并且训练模型。准备数据方面，我们的传统平台有很强大的支持。

而对于训练模型方面，Azure Machine Learning Studio提供了便捷快速的功能。在Studio里面，可以通过浏览器，快速的创建一个Experience，从已有的Experience复制创建新的Experience，导入并且正规化训练数据，执行训练，查看分析模型训练结果，调试模型参数，将模型部署成Web Service等。

注意这些工作都完全不需要写一行代码，只需要在Studio的Web界面上操作。在所以这里举几个例子来说明Azure Machine Learning Studio的强大。

1.数据正规化。只需要在Experience界面中的左边，选择拖入Data Transformation->Scale and Reduce->Normalize Data，然后将其和上游的数据集连接起来即可。在Experience界面的右边，可以选择数据转换的方法，包括z-score，min-max，Logistic，lognormal，TanH，如下图所示：

2.SMOTE。从我们label的方法来看，必然会造成训练集Positive和Negative的数据的不均衡，Negative的数据会远远超过Positive的数据。这时候SMOTE就能派上用处。SMOTE是Synthetic Minority Oversampling Technique，用来有意的增加少数数据的一种技巧。使用SMOTE可以强化对Positive Label的学习。

3.Tune Model Hyperparameters。使用该方法，Azure Machine Learning Studio会自动执行参数扫描，来确定最优的参数。

4.Evaluate Model，用来图形化的显示模型的一些标准指标，来判断模型的好坏，如下图所示：

5.快速部署为Web Service。最后，对于训练好的模型，可以一键部署为Web Service。Azure Machine Learning Studio会给出Web Service的URL，访问的API key，并且给出了C#，Python和R语言的Sample Code。

Web Service支持两种访问方式，REQUEST/RESPONSE和BATCH EXECUTION。REQUEST/RESPONSE是单条数据的请求和返回。BATCH EXECUTION是批量数据的请求和返回，需要用Azure BLOB SERVICE上传批量数据。返回的结果除了包含Scored Labels以外，还包含Scored Probabilities，非常实用。

结果/效果总结

对金融大数据的机器学习已得到较稳定的结果。我们使用的方法比较容易造成过拟合，Recall很低。但是对于金融市场来说，过拟合可能并不是太大的问题。我们是希望能抓到真正的市场机会，而不是每一个市场机会。市场在不断的运行，每天都会产生大量的交易机会，即使有绝大部分没有被抓住，我们认为对当前的机器学习来说，也是可以接受的。例如上图的模型选出了下面这样一个大牛股：

另外该解决方案的一个优点在于，可以让客户量身定制制人工智能模型。

在完成后续部分的基础上，我们对于投资策略开发的长期的进化和发展，有着很大的“野心”，希望在不久的将来，通过对金融大数据的机器学习，分析处理，可以同时接受处理所有来源、种类的信息和数据，给投顾世界提供切实可行的、稳定、有严格风控，对不同阶段、产品、市场、用户群体，有指导意义的投资策略。

企业介绍:

宽投金融科技是一家从事证券投资行业量化策略整体解决方案的创业公司，也是微软云方案推广的行业合作伙伴。宽投金融科技的量化策略解决方案主要有四个方面的独特优越性：一是拥有强大的策略平台，无需编程可创建策略；二是通过海量金融市场数据回测，验证策略的有效性；三是策略无缝衔接实盘交易，全市场寻找交易机会；四是订阅或发布优质策略，顶级策略及策略作者脱颖而出。

宽投金融科技的量化策略解决方案需要运行海量的金融市场数据，需要容量高，安全性强，性能强大云资源。Microsoft Azure提供了业界顶尖的云计算技术，其云存储性能、扩展性，稳定性这三项关键指标均在Nasumi 的权威测试中拔得头筹。宽投金融科技的量化交易策略平台、一体化从投资理念的策略实现、回测验证、到实时交易的过程，与微软云，共同为证券行业、基金、私募机构、以及个人投资者服务。

数据猿超声波

「2017金融科技商业价值探索高峰论坛」

（点击图片，了解详情）

相关阅读：

【案例】东北证券——智能报表系统建设

【案例】某城商银行——消费金融大数据智能风控体系应用

【案例】宜信——可信金融风控SMART-ITFIN大数据支撑应用

【案例】恒丰银行——基于大数据的财富管理平台

【案例】恒丰银行——基于大数据技术的数据仓库应用建设

【案例】恒丰银行——对公客户贷后违约预测模型

欢迎更多大数据企业、爱好者投稿数据猿，来稿请直接投递至：tougao@datayuan.cn

来源：数据猿