技术的发展推动商业的前进道路。从数据驱动到人工智能算法再到自动匹配出用户需求,并进行反馈,这才是数据与人工智能算法的灵魂。
20 年前,我进入了上海交通大学数学系,在懵懂中选择了数学专业。大数据、神经网络与建模等名词是我在大学时就已经听到的。从那时候在讨论班上有几个研究生做数学理论的推导,到现在每个人都知道的人工智能,这个积累过程,我们走了20 年。
我的工作生涯一直在金融投资领域,并且绝大多数时间和数学、量化、程序化交易相关。我的第一份工作是在高盛,部门就叫作program trading,隶属高盛东京。这份工作一干就是十几年。我工作生涯最初是从和程序化交易打交道开始的;除此之外,我的工作也包括长期看盘投资和研究金融领域的二级市常在我的职业生涯中,除了金融,数学和统计占了很重要的一部分。
目前,我主要致力于金融量化的投资领域,并且发展了金融和科技交叉领域。从我的工作中,我越来越感受到科技在金融中发挥的力量,尤其是人工智能在金融研究和投资领域发挥出的神奇力量。 复杂的深度算法超越了一般的统计计量方法,在大数据的领域发挥了无可替代的作用。
陆培丽
上海交通大学数学科学学院统计系讨论班业界导师
2019 年6 月于上海
统计与人工智能
统计和人工智能都是从数据中创建模型,但目的不同。统计学家非常注重使用数据缩减形式,使得原始数据被转换为更低维度的统计数据。这类统计数据的两个常见例子是均值和标准差。统计学家将这些统计数据用于不同的目的,将该领域划分为描述性统计和推理统计。
人工智能最主要的任务是预测建模:创建用于预测新示例标签的模型。训练集是从静态总体中独立且等概率选择的,是该总体的代表;测试集是从感兴趣的总体中随机抽取的样本。如果总体发生变化,即产生概念漂移,可以使用一些技术来对此进行测试和调整。
概率统计方法的突破增强了人工智能从原始数据中提取高级特征的能力,从而对状态空间进行有效的表示。
人工智能的算法核心是数学,如神经刺激模型sigmoid,它模仿的是到临界时刻的变化点,直观地说,它可以理解为:到达某个临界点,就爆发了。可以想象为人的情绪在到达某个临界点会爆发,这是每个人都能够体会到的。而在数学领域就是以下的这个函数:
▲ sigmoid 函数
大家可以通过书本或者最新的科研成果查询到统计领域的算法和人工智能的算法,比如AlphaGo 算法公开发表在《自然》上。人工智能的算法目前处于开源状态,像谷歌这样的公司和站在前沿领域的科学家在引领算法。我们认为算法将成为一种基础设施,大部分应用只需要自己设定参数即可。未来人工智能算法在应用领域将会快速发展,所以理解算法在什么场景中可以应用将会更加重要。
人工智能的开端
作为当代最主要的前沿技术之一,人工智能已经有数十年的发展历程。
1956 年夏季,以麦卡赛、明斯基、罗切斯特和申农等为首的一批有远见卓识的年轻科学家在一起聚会,共同研究和探讨用机器模拟智能的一系列有关问题,并首次提出了“人工智能”这一术语,它标志着“人工智能”这门新兴学科的正式诞生。
这次会议基本上是一次头脑风暴,而支撑这场讨论的基础是:假设我们可以精确地描述出学习和创造过程的每个方面,并可以对其进行数学模拟且该模拟数据能够被复制到机器里面。
“想办法让机器使用语言,形成抽象的概念来解决目前只有人类可以解决的问题,并让机器具有自我改进的能力”。这是本次会议的宗旨,也是一个全新的开端。
人工智能的解决方法
知识的获取和表示是机器智能的核心,机器学习是指通过对信息中模式的算法分析进而发现和改进知识的计算算法。机器学习的一个重要方面是机器在有(或没有) 人工辅助的情况下具有更新这种“智能”的能力。下图为人工智能解决方法示意图,具体解决方法介绍如下。
▲ 人工智能解决方法示意图
人工智能的解决方法大致分为聚类、分类、提取和解释。其中,聚类、分类等在传统的统计科学里已经涉及。
(1) 聚类和分类的主要区别在于:在分类中,我们提前了解了类别,而在聚类中,我们从数据中发现类别。
(2) 提取是指从文档中提取特定数据,尤其会在非结构化或者半结构化的文档中用到,比如财务报表的附注。
(3) 解释是指在各种文稿中,比如法律合同、研究报告中就特定目的来解释非结构化内容。例如,机器学习与自然语言文本就涉及了文本分类和文本解释的问题。
从统计建模到人工智能
统计参数模型是机器学习最早和最简单的形式,用参数统计方法处理数据之间的关系相对来说简单。多变量分析最早起源于多元线性回归模型,逻辑回归建立在这个基础上。现在最常用的逻辑回归模型被广泛地应用在银行判别信用风险领域。
虽然这些简单的方法在过去很长一段时间内也被应用在各个领域,但是对于真实世界的数据,尤其是非结构化数据,参数统计在流程领域建模中仍然受到限制。而深度学习的算法正好弥补了这一不足之处。深度学习架构的基础是假设观测数据是由不同因素在不同层次上的相互作用而产生的。人工智能平台的模块有多重分类,下图简单地介绍了模块的一种分类方式。
▲ 人工智能平台的模块分类
在人工智能产业蒸蒸日上的发展之时,我收到了《 从统计世界走向人工智能 实战案例与算法》的书稿。 陆培丽是上海交通大学数学科学学院的优秀校友,曾经受邀在上海交通大学数学科学学院建院90 周年纪念大会上做主题演讲。她将自己在量化金融领域将近20 年的积累与理解,同人工智能的算法与应用相结合,汇聚成了本书的一个个生动的案例,助推了金融科技的发展。这些案例都是她和她的研究团队在商业领域的实战经历,是人工智能产业化、市场化、商业化的生动写照。该书从数学讲述到统计,再从统计到人工智能的发展,结合大量的实际的应用案例,其中包括能源价格预测、财务分析、生物科技案例、银行证券金融、医学等背景领域,介绍了诸多经典的机器学习算法如何解决这些领域的问题,从易到难,逐步深入。
该书出发点即为了将高校学生在课堂中学习的理论知识应用于具有商业模式背景的课题,适合作为统计学专业、应用统计专业、人工智能专业、大数据专业、金融专业、管理专业与经济专业大学生的教学用书,开拓他们不同维度的学习思路,并培养他们在理论学习中灵活应用人工智能模型的知识与编程的能力。人工智能、机器学习方向的学者,可以通过该书了解到商业模式,更明晰地了解如何将自己的理论研究成果应用于实践中。金融和实体业的应用者,通过该书可以学习到相关的人工智能技术实战程序操作方法,因此该书可以为金融机构和实体企业提供方法论和初步的解决方案。
毛军发
中国科学院院士
上海交通大学人工智能研究院院长
本文摘编自《从统计世界走向人工智能:实战案例与算法》(陆培丽著. 北京: 科学出版社, 2020. 3)一书“前言”“第1 章 数学→统计→人工智能”“序”,有删减,标题为编者所加。
ISBN 978-7-03-063624-9
李静科 郭学雯
本书叙述了从数学到统计、从统计到人工智能的发展,结合大量的实际商业应用案例介绍了诸多经典的机器学习算法,比如LASSO 回归、MCMC、决策树、随机森林和神经网络等。本书将案例与算法结合,基于人工智能的场景,从理论到实际操作层层递进,读者从中可以学习从需求到分析,再到结论的实际编程方法。当读者阅读完本书后,不仅可以了解实际问题的需求,而且可以学习到解决问题的算法。
本书适合作为统计学、应用统计、人工智能、大数据、金融、经济与管理等专业大学生的教学用书,开拓他们不同维度的学习思路,以及在理论学习中灵活应用人工智能模型的知识与Python 的能力。金融从业人员可以通过阅读本书免去烦琐的数据整理等工作,提高工作效率,包括在财报分析、银行信用画像以及投资等领域。
Ŀ ¼
序
前言
第1章 数学→统计→人工智能
1.1 数学与统计
1.2 数据与统计
1.2.1 动态的数据
1.2.2 非结构化的数据
1.2.3 商业场景的数据初始化
1.2.4 统计中的数据与商业中的数据
1.3 统计与人工智能
1.3.1 人工智能的开端
1.3.2 人工智能的解决方法
1.3.3 从统计建模到人工智能
1.4 人工智能与企业商业赋能的进阶发展
1.4.1 阶段性发展
1.4.2 更高一层发展模式
1.5 人工智能+人:未来职业畅想
1.5.1 人与机器的充分融合
1.5.2 历史上企业转型的特征
1.5.3 人机协作与融合
1.5.4 未来职业场景
第2章 点评数据对上市公司的影响基于统计回归模型
2.1 通过点评网站数据研究上市公司
2.1.1 有效市场假说
2.1.2 Yelp数据库介绍
2.2 点评网站数据处理
2.2.1 数据获取
2.2.2 变量提取
2.2.3 面板数据准备
2.3 回归模型设计
2.3.1 模型一:普通 OLS
2.3.2 模型二:引入时间趋势项
2.3.3 模型三:固定效应模型
2.4 点评网站对公司的价值分析
2.5 延伸场景及应用
第3章 LASSO回归及重要能源价格预测
3.1 通过多变量研究重要能源价格
3.2 回归模型的递进
3.2.1 从线性回归到Ridge回归
3.2.2 Ridge回归与LASSO回归
3.3 用LASSO回归预测重要能源价格
3.3.1 预测框架理解行业逻辑
3.3.2 数据清洗
3.3.3 模型初试让模型跑起来
3.3.4 如何改进提高预测精度
3.4 LASSO回归总结以及延伸应用
第4章 朴素贝叶斯方法在财务报表分析中的应用
4.1 通过三大报表推演企业未来财务
4.2 朴素贝叶斯理论介绍
4.2.1 贝叶斯理论的思想
4.2.2 朴素贝叶斯方法
4.2.3 朴素贝叶斯方法的参数估计
4.3 用朴素贝叶斯方法对企业未来财务的预测
4.3.1 分析框架
4.3.2 数据准备
4.3.3 模型测试
4.3.4 模型改进
4.4 朴素贝叶斯方法的总结以及延伸应用
第5章 MCMC方法及生物案例分析
5.1 MCMC理论介绍
5.1.1 马氏链
5.1.2 蒙特卡罗方法
5.1.3 MCMC方法
5.1.4 Metropolis-Hastings算法
5.1.5 独立链
5.1.6 随机游动链
5.1.7 Gibbs抽样
5.1.8 链的诊断
5.2 癌细胞分裂实例介绍
5.2.1 结肠癌细胞背景介绍
5.2.2 案例分析
5.2.3 MCMC方法总结以及延伸应用
第6章 聚类分析及银行信用画像
6.1 通过客户数据分类建立银行信贷标准
6.2 无监督学习之聚类分析
6.2.1 距离:聚类的基础
6.2.2 K-均值聚类
6.2.3 均值迁移聚类
6.2.4 基于密度的聚类方法
6.2.5 聚类方法的对比与评价
6.3 用聚类方法对银行信贷质量分类
6.3.1 分析框架
6.3.2 数据准备
6.3.3 模型初试
6.3.4 模型改进
6.4 聚类分析总结以及延伸应用
第7章 基于随机森林模型的高频交易订单结构分析与价格变动预测
7.1 采用随机森林模型做高频交易
7.2 随机森林模型介绍
7.2.1 决策树
7.2.2 信息熵
7.2.3 随机森林算法
7.2.4 OOB方法
7.2.5 参数选择概述
7.3 高频交易订单结构信息挖掘
7.3.1 分析框架
7.3.2 数据清洗
7.3.3 模型初试
7.3.4 模型改进
7.4 随机森林方法总结以及延伸应用
第8章 基于Xgboost的汽车行业供需预测
8.1 梯度提升与Xgboost
8.1.1 GB
8.1.2 GBDT
8.1.3 Xgboost
8.1.4 分布式Xgboost的设计理念
8.2 汽车行业案例
8.2.1 汽车案例的行业分析
8.2.2 数据预处理
8.2.3 Xgboost模型训练
8.2.4 结果展示
8.3 Xgboost在汽车行业应用的案例评价以及延伸应用
第9章 支持向量机原理及在投资择时中的运用
9.1 通过时机选择研究金融市场的买卖
9.2 SVM介绍
9.2.1 SVM是什么
9.2.2 线性分类器
9.2.3 核函数
9.3 在 Python中使用SVM
9.4 量化投资中的应用使用SVM进行期货择时
9.4.1 技术指标择时背景
9.4.2 SVM股指期货择时策略
9.4.3 SVM择时策略结果分析
9.4.4 SVM择时策略优化改进
9.5 SVM择时总结以及延伸应用
第10章 基于LDA模型的电商产品评论主题分析
10.1 通过文本信息调研获得用户评价分析
10.1.1 文本挖掘
10.1.2 LDA模型
10.2 调研文本的数据处理
10.2.1 数据来源
10.2.2 文本评论分词
10.2.3 情感分析
10.3 LDA主题模型介绍
10.3.1 模型介绍
10.3.2 模型参数估计
10.3.3 模型的评价
10.4 LDA模型的算法
10.5 电商产品评价分析
10.5.1 结果展示
10.5.2 模型的不足和改进
10.6 LDA模型总结以及延伸应用
第11章 LSTM神经网络及糖尿病知识图谱构建
11.1 基于神经网络的糖尿病知识图谱构建
11.1.1 自然语言处理
11.1.3 糖尿病文本数据集介绍
11.2 BiLSTM+CRF算法理论介绍
11.2.1 RNN
11.2.2 LSTM
11.2.3 BiLSTM
11.2.4 CRF
11.3 BiLSTM+CRF模型评价
11.3.1 获得上下文信息
11.3.2 考虑到输出规则
11.4 糖尿病知识图谱构建过程
11.4.1 BiLSTM+CRF模型框架分析
11.4.2 数据处理
11.4.3 模型初试
11.4.4 BiLSTM+CRF模型改进
12.2.1 卷积神经网络
12.2.3 卷积层
12.2.4 池化层
12.2.5 全连接层
12.2.7 数据预处理
12.2.8 模型定义
12.2.9 模型训练
12.2.10 效果评估
12.2.11 模型预测
12.2.12 总结
12.3.1 FaceNet网络结构
12.3.3 案例准备
12.3.4 人脸检测
12.4 卷积神经网络总结和延伸应用
参考文献
彩图
(本文编辑:刘四旦)
原创好读 科学品味