《Python金融》目录
by 华能信托 王宇韬
配套书籍1:《Python金融大数据挖掘与分析全流程详解》
配套书籍2:《Python大数据分析与机器学习商业案例实战》
本课程《Python金融》课程,分为上下两部,共计14大版块,累计72章内容。
内容涉及Python基础知识、网络数据爬虫技术、数据库基础及实战、大数据分析技巧、舆情监控即企业风险预警、智能投顾、量化金融、大数据风控、机器学习、客户违约预测模型等多方面金融与Python结合的内容,并且大部分章节都配有商业实战案例供读者学习,全面讲解了金融数据的获取、处理、分析及结果呈现。
《Python金融》,主要涉及Python快速入门、爬虫基础、数据清洗优化、百度新闻爬取实战、数据分析基础:Numpy与pandas库、股票数据获取初步、人大商学院期中考试讲解、爬虫进阶:Selenium库讲解(包含新浪财经/东方财富网/上海证券交易所/股票实时数据/企业股权穿透)、量化投资 + 财务建模初步:Tushare股票数据获取与分析、人工智能:图片文字识别等、以及来自德勤会计师事务所、华能信托、腾讯微众银行、信托业协会等多个实战案例分析。共计38讲。
联系方式,小助手微信:huaxz001
《Python机器学习》的源代码在下面。
(1)王宇韬自我介绍
https://shimo.im/docs/cyHrXKHdTkg8xcG6/ 《王宇韬-华能信托金融科技实验室》
(2)怎样学好Python金融数据分析,顺利在金融科技领域工作?
https://shimo.im/docs/L9kBM2e6PdTQxgqK/ 《学习Python的常见问题(思维层面)》
(3)上完课程后预计会达到什么样的能力?
掌握金融科技基础的Python代码编写能力;掌握金融商业爬虫及金融数据挖掘技巧;掌握金融基础及进阶的数据分析技巧;掌握初步的量化投资技巧等。
本版块主要介绍Python的基础知识以及展示一些企业级项目实战,并介绍如何安装Python并成功运行成功第一行Python代码。在之后将介绍Python的基础知识点(包括Python基础常识、最重要的三大语句、Python函数与模块),为之后的进阶知识做铺垫。
学完Python基础知识点后,将通过5个综合案例实战来体会Python的实际应用,包括:1.商业实战之德勤笔试题;2.大数据分词与词云图绘制;3.文字识别、人脸识别实战;4.爬虫初尝试 - 百度新闻爬取;5.正则表达式提取百度新闻。通过学习这些Python基础及案例实战后,就可以进入Python编程的大门,为之后更加丰富精彩的案例实战做准备。
第一讲:Python初了解
1.Python能干什么 - 企业级具体项目实战演示
(1)华能信托项目展示
(2)华小智课程列表
(3)人大项目演示
2.Python安装教程(超详细)
3.第一个Python程序及Pycharm安装
4.我的课程的教学理念和学习方法
5.个人介绍与联系方式
第二讲:Python基础知识
1.变量、行、缩进与注释
2.数据类型:数字与字符串
3.列表与字典
4.运算符介绍与实践
第三讲:Python最重要的三大语句详解
1.If语句详解与实践
2.For语句详解与实践
3.While语句详解与实践
第四讲:Python函数与模块
1.函数的定义与调用
2.函数参数、返回值与作用域
3.一些基本函数的介绍
4.Python模块/库介绍
第五讲:综合实战1 - 商业实战之德勤笔试题
1.德勤笔试题分析
2.笔试题讲解
第六讲:综合实战2 - 大数据分词与词云图绘制
1.大数据分词技巧
2.词频统计技巧
3.词云图绘制
4.微博词云图绘制
第七讲:综合实战3 - 文字识别、人脸识别实战
1 Python图片文字识别(OCR)
1.1 前期账号注册及准备(免费)
1.2 Python接口调用
2 Python人脸识别(百度接口调用(免费))
2.1 前期账号注册及准备
2.2 Python接口调用
第八讲:综合实战4:爬虫初尝试 - 百度新闻爬取
1.舆情监控基础-网络爬虫基本介绍
2.网页结构初步介绍
3.网页结构进阶
4.实战!百度新闻爬取
第九讲:综合实战5 - 正则表达式提取百度新闻
1.正则表达式基础1 - findall方法
2.正则表达式基础2- 非贪婪匹配之(.*?)
3.正则表达式基础3 - 非贪婪匹配之.*?
4.正则表达式基础4 - 自动考虑换行之修饰符re.S介绍
5.正则表达式基础5 - 小知识点补充
6.实战!百度新闻标题、网址、日期及来源解析
7.大作业及后续内容(爬取多页)
拓展:Python进阶的其他应用
本版块主要介绍Python爬虫的基础知识,并对百度新闻进行深度挖掘,包括批量获取多个公司的百度新闻、自动生成数据报告、自动异常处理、24小时实时数据挖掘、批量爬取多个网页等多个知识点,从而初步搭建简易舆情监控系统。
之后将讲解搜狐新闻 & 新浪财经 & 新浪微博 & 中国证券报等网站的数据挖掘,深入熟悉了解Python商业爬虫相关知识点。之后我们会讲解常见的数据清洗优化技巧:数据清洗、日期统一、文本内容深度过滤、数据乱码问题处理,之后还会通过jieba实现爬虫数据中文分词并绘制相关词云图。最后会介绍一个完整的舆情监控评分系统,使大家更好的熟悉爬虫的文本分析技巧。
第一讲:爬虫基础知识点复习回顾
1.爬虫基础1 - 网页结构基础
2.爬虫基础2 - 网页结构进阶
3.初步实战 - 百度新闻源代码获取
4.爬虫基础3 - 正则表达式
第二讲:金融数据挖掘实战 - 百度新闻深度挖掘
1.提取百度新闻标题、网址、日期及来源实战
2.批量获取多个上市公司的百度新闻及自动生成数据报告
3.异常处理及24小时实时数据挖掘实战
4.按时间顺序爬取及批量爬取多页
5.本章习题:批量爬取多个公司多页信息
第三讲:金融数据挖掘实战 - 搜狐 & 新浪数据挖掘
1.搜狐新闻爬取实战
2.新浪财经新闻爬取实战
3.新浪微博爬取实战
4.本章习题:中国证券报爬取实战
第四讲 数据清洗优化技巧与爬虫数据可视化
1.常见的数据清洗手段及日期格式统一
2.文本内容深度过滤 - 剔除噪声数据
(1) 根据新闻标题简单过滤
(2) 根据正文进行深度过滤
(3) 正文信息再优化
3.数据乱码问题处理
4.爬虫数据可视化
(1) jieba库实现大数据分词(复习)
(2) wordcloud库实现词云图展示(复习)
(3) 微博词云图绘制(实战)
第五讲:舆情评分系统 + 文本分析技巧
1.舆情评分系统 - 版本1(标题评分)
2.舆情评分系统 - 版本2(正文评分)
3.舆情评分系统 - 版本3(去除乱码)
4.舆情评分系统 - 版本4(深度优化)
5.舆情评分系统 - 版本5(读取外部Excel)
6.大作业及后续内容
本版块主要介绍Python数据分析基础以及相关的一些商业案例实战,主要将介绍数据分析的武器Numpy & Pandas库(重点是Pandas库),并将介绍如何通过pandas库实现常见的数据分析与办公自动化,最后通过一个商业案例实战 - 2020德勤人工智能组的笔试题熟悉Python数据分析与处理的技巧。
第一讲:数据分析的武器 Numpy & Pandas库
1.Jupyter Notebook的使用技巧
2.Numpy基础
3.pandas基础
3.1 二维数据表格DataFrame的创建
3.2 Excel等文件的读取和写入
3.3 数据读取与筛选
3.4 数据表拼接
第二讲:Pandas库数据分析初窥
1.通过pandas将单个公司新闻生成Excel文件
2.通过pandas将多个公司新闻生成Excel文件
3.重复值及缺失值处理
4.通过groupby()函数将数据分组汇总
5.通过apply()函数和lambda()函数进行批处理
6.数据读取格式设置
6.1 python强制类型转换astype & dtype
6.2 日期格式转换
6.3 灵活格式转换
第三讲:Pandas库办公自动化初窥
1.批量新建Excel & 批量汇总Excel
2.批量拆分Excel(北京银行案例)
3.提取Excel中每一张表格并导出为Excel文件
第四讲:案例实战 - 德勤笔试题(人工智能组)
1. 德勤笔试题(人工智能组)试题分析
2. 德勤笔试题(人工智能组)试题讲解
这一版块将通过期中考试 + 综合作业题的方式来巩固之前学习到的相关数据挖掘与数据分析处理的相关知识点,这也是笔者在中国人民大学商学院教授《Python金融》课程时所设计的期中考试,同学们的平均分为86分(带A4纸的半开卷),大家可以通过自己练习与测试检测自己的学习成果。
第一讲:期中考试试题分析
一、Python基础(15分)
二、爬虫实战(20分)
三、pandas数据分析(30分)
四、综合题(30分)
第二讲:期中考试试题讲解
一、Python基础(15分)
二、爬虫实战(20分)
三、pandas数据分析(30分)
四、综合题(30分)
第三讲:基础作业题(了解)
一、基础作业题
1.Python基础系列(了解)
2.爬虫作业(熟悉)
3.numpy与pandas库基础(重要)
(1) Numpy作业题
(2) Pandas作业题
二、基础作业题答案
1.Python基础系列(了解)
2.爬虫作业(熟悉)
3.numpy与pandas库基础(重要)
第四讲、综合作业题布置
1.案例实战 - 舆情评分与股价相关性分析
2.案例实战 - 资产管理部股票数据合并
3.案例实战 - 资金雷达合并整合数据
(1)表格合并
(2)表单拼接
4.案例实战 - 上市公司前10大控股股东分析
(1)基础分析
(2)初步分析
(3)进阶分析
这一版块将讲解爬虫的进阶知识并通过多个商业案例实战来巩固相关知识点,首先我们将讲解一个爬虫利器:Selenium库,然后我们会通过多个金融商业案例实战来体验金融数据挖掘的魅力:新浪财经股票实时数据挖掘实战、东方财富网数据(股吧、咨询、研报)挖掘实战、上海证券交易所公开数据获取实战、巨潮资讯网数据挖掘实战、股权穿透Python代码实现、淘宝销量数据获取(消费类上市公司研究)、有趣的爬虫实战、反爬初窥 - IP代理应对IP地址反爬(微信推文IP代理反爬实战)等多个综合案例实战。
第一讲: 爬虫利器Selenium库详解
第二讲:案例实战 - 新浪财经股票实时数据挖掘实战
第三讲:案例实战 - 东方财富网数据挖掘实战
第四讲:案例实战 - 上交所公开数据获取实战
第五讲:案例实战 - 巨潮资讯网数据挖掘实战
第六讲:案例实战 - 股权穿透Python代码实现
第七讲:案例实战 - 淘宝销量数据获取(消费类上市公司研究)
第八讲:高效网络文件下载
第九讲:反爬初窥 - IP代理应对IP地址反爬(微信推文IP代理反爬实战)
具体目录:
第一讲: 爬虫利器Selenium库详解
1.requests库遇到的难点
2.一力降十会!- Selenium库介绍与安装
3.Selenium库获取网页源代码 - 新浪财经股票信息
4.Selenium库进阶知识
第二讲:案例实战 - 新浪财经股票实时数据挖掘实战
1.通过Selenium获取数据
2.通过新浪财经API获取股价实时数据
3.补充知识点:Tushare库直接获取股票数据
4.read_html()函数快速获取网页表格
5.新浪财经 - 资产负债表获取
6.补充知识点:通过Tushare Pro接口获取财务信息
第三讲:案例实战 - 东方财富网数据挖掘实战
1.东方财富网 - 股吧数据获取
2.东方财富网 - 新闻资讯获取
3.东方财富网 - 上市公司研究报告PDF获取
(1)获取单个网页上的研报跳转链接
(2)获取各个跳转页面的PDF下载地址,并进行下载
(3)获取多页信息
第四讲:案例实战 - 批量下载上交所公告
1 上海证券交易所上市公司PDF下载(初步尝试)
1.1 requests库下载网络文件的核心代码
1.2 初步尝试下载上海证券交易所上市公司PDF
2. 批量下载单页PDF文件
3.批量下载多页PDF文件
4.将信息汇总并导出为Excel
5.补充知识点:如何通过点击按钮下载文件
第五讲:案例实战 - 巨潮资讯网数据挖掘实战
1.巨潮资讯网数据挖掘实战
2.巨潮资讯网批量爬取多页内容
2.1 爬取巨潮资讯网多页内容
2.2 自动筛选所需内容
3.理财公告PDF的自动批量下载
第六讲:案例实战 - 股权穿透Python代码实现
1.单层股权结构爬取
2.多层股权结构爬取
第七讲:案例实战 - 淘宝销量数据获取(消费类上市公司研究)
第八讲:有趣的爬虫案例 - 网页自动投票
第九讲:IP代理与微信公众号爬取
第十讲:本章习题 - 深交所公告信息获取
这一版块主要通过讲解多个金融数据分析的商业案例实战,来更加深入地了解在金融分析领域,如何通过Python实现智能的数据分析,我们将首先讲解数据可视化的技巧,然后将讲解4个综合案例,包括:舆情评分与股价相关性分析、资产管理部股票数据合并、资金雷达合并整合数据以及A股上市公司前10大控股股东分析,通过这些案例的学习与练习,更加熟练的掌握Python数据分析的方法与技巧。
第一讲:数据可视化初步 - Matplotlib库讲解
第二讲:案例实战 - 舆情评分与股价相关性分析
第三讲:案例实战 - 资产管理部股票数据合并
第四讲:案例实战 - 资金雷达合并整合数据
第五讲:案例实战 - 上市公司前10大控股股东分析
这一版块将主要讲解量化投资和财务建模的初步知识点,包括如何通过外部接口Tushare库快速地获取股票、宏观经济指标、行业等相关投资数据,并将讲解如何快速实现股票数据的可视化呈现,最终将通过2个案例实战巩固并练习前面的知识点:股票创历史新高&新低的探索 和 基于基本面分析的量化策略。
第一讲:Tushare获取股票数据
第二讲:股票数据可视化
第三讲:案例实战 - 股票创历史新高&新低的探索
第四讲:案例实战 - 基于基本面分析的量化策略
第五讲:天天基金 - 基金经理调仓分析(作业)
这一版块主要介绍期末大作业以及未来的课程内容,该期末大作业主要是金融实际中的资产雷达系统的一部分,用来捕捉上市公司潜在的商务合作机会。
关键词库:可转换公司债券、可转换债券;非公开发行股票,非公开发行A股股票(是不是用非公开发行更好,答:不是,因为非公开发行的优先股并不关心);可交换公司债券、可交换债券;减持计划、减持股份计划
数据来源:巨潮资讯网,eg:http://www.cninfo.com.cn/new/fulltextSearch?notautosubmit=&keyWord=可转换公司债券
实现功能:每日爬取含有上述相关关键词的上市公司公告,锁定具体证券代码或上市公司简称,导出对应股票的市值、行业分类、市盈率、营业收入、净利润、所在省份及城市。
友情提示:财务数据,可以通过tushare pro获取
《量化投资 + 办公自动化》,主要以案例实战为主:涉及Tushare股票数据获取进阶、初步财务建模、大数据可视化进阶、网络文件下载、上市公司公告解析、项目公司股权穿透、Python办公自动化、批量生成金融Word合同、Excel自动对账、量化投资初步与案例解析、数据库相关知识点、自动发邮件、自动生成数据报告、Flask搭建Web网页实现可视化、云服务器部署等多个知识点。共计34讲。
第一讲:案例实战 - 股票趋势分析的深入探讨
第二讲:案例实战 - 常见的技术面分析角度之动量策略
第三讲:案例实战 - 常见的技术面分析角度之双均线策略
第四讲:案例实战 - 基于券商评级报告的投资决策分析
第五讲:案例实战 - 基于上市公司实时股价的金融数据分析
第一讲:办公自动化初步1 - Python操控Word基础
第二讲:办公自动化初步2:Python操控PPT基础
第三讲:办公自动化初步3:Python操控Excel基础
第四讲:案例实战 - 批量生成Word信托合同报告
第五讲:案例实战 - Excel会计自动对账
第一讲:案例实战 - PDF文本解析实战
第二讲:案例实战 - RPA流程自动化
第三讲 邮件提醒系统搭建 - Python自动发送邮件
第四讲 案例实战 - 腾讯微众银行批量发票识别与命名
第一讲:线性回归模型 - 银行客户价值预测案例
1 一元线性回归
1.1 一元线性回归的数学原理
1.2 一元线性回归的编程实现
1.3 案例实战 - 年龄与收入的线性回归模型
2 数据可视化
2.1 Matplotlib库基础
2.2 通过pandas绘制图形
2.3 案例实战 - 线性回顾模型可视化呈现
3 多元线性回归
2.1 多元线性回归的数学原理
2.2 多元线性回归的编程实现
2.3 案例实战 - 北京市房价预测模型
4 线性回归模型评估
5 综合案例 - 银行客户价值预测模型
5.1 案例背景:银行客户价值预测意义
5.2 数据预处理
5.3 模型搭建与评估
第二讲:逻辑回归模型 - 客户流失预警模型案例
1 逻辑回归算法介绍
1.1 逻辑回归的算法原理
1.2 逻辑回归的编程实现
2 案例实战 - 客户违约预测模型
2.1 案例背景
2.2 数据预处理
2.3 模型搭建
3 逻辑回归模型评估
3.1 模型评估的多种方法
3.2 K-S曲线评估方法
3.3 ROC曲线评估方法
4 综合案例 - 精准营销模型
4.1 案例背景
4.2 数据预处理
4.3 模型搭建与评估
第三讲:决策树模型 - 银行客户违约预测模型案例
1 决策树模型原理介绍
1.1 决策树模型简介
1.2 决策树模型的建树依据
2 案例实战 - 金融反欺诈模型
2.1 案例背景
2.2 数据预处理
2.3 模型搭建与评估
3 决策树模型可视化
3.1 graphviz插件安装
3.2 决策树模型可视化实战
3.3 通过图形深入理解决策树模型
4 模型优化 - K折交叉验证 & GridSearch网格搜索
4.1 参数调优
4.2 交叉验证
4.3 随机森林模型
5 综合案例 - 银行客户违约预测模型
5.1 案例背景
5.2 数据预处理
5.3 模型搭建与评估
5.4 模型优化
第四讲:集成模型初探 - 随机森林模型
1.随机森林模型的基本原理和代码实现
1.1 集成模型简介
1.2 随机森林模型的基本原理
1.3 随机森林模型的代码实现
2.量化金融 - 股票数据获取
2.1 股票基本数据获取
2.2 股票衍生变量生成
3.量化金融 - 股票涨跌预测模型搭建
3.1 多因子模型搭建
3.2 模型使用与评估
3.3 参数调优
3.4 收益回测曲线绘制
第一讲:数据库详解及实战
第二讲:基于数据库的完整舆情监控系统
第三讲:案例实战 - 自动生成数据分析Word报告
第四讲:案例实战 - 自动发送舆情预警邮件
第一讲:大数据可视化进阶
第二讲:HTML网页框架进阶
第三讲:Web编程-Flask基础
第四讲:Web编程-Flask实战
第五讲:云服务器介绍
第六讲:数据云端部署及可视化实战
第一讲:接口安装与WindPy调用
第二讲:调用行情数据
1.1 WSET数据集函数获取数据集信息
1.2 WSD日期序列函数获取选定证券品种的历史序列数据
1.3 WSS多维数据函数获取选定证券品种的历史截面数据
1.4 WSQ行情数据函数获取选定证券品种的当天实时指标数据
第三讲:调用财务数据
第四讲:上市公司前10大股东研究
第五讲:调用宏观数据
第六讲:宏观经济数据与股票指数相关性分析
第七讲:基于Wind平台的量化研究
主要以机器学习模型为主:涉及线性回归模型、逻辑回归模型、决策树模型、以及集成模型:随机森林模型、AdaBoost模型、XGBoost模型、LightGBM模型、特征工程、数据聚类分群、智能推荐系统模型、关联分析模型,涉及、银行客户价值预测、客户流失预警模型、银行客户违约预测模型、股票涨跌预测模型、银行信用卡精准营销模型、金融反欺诈模型、信用评分卡模型、金融产品智能推荐模型、银行客户分群模型、金融产品交叉销售模型等多个实战案例模型。
联系方式,小助手微信:huaxz001
这一版块主要讲解基础的机器学习模型,为之后的集成学习模型做铺垫,包括:线性回归模型、逻辑回归模型、决策树模型等。与此同时,我们将介绍多个实战案例来巩固相关知识点,并指导如何通过Python实现相关代码模型,实际案例包括:年龄与收入的线性回归模型、银行客户价值预测模型、客户流失预警模型、员工离职预测模型、银行客户违约预测模型、手写数字识别模型等内容。此外,我们还将介绍如何对模型进行评估(线性回归和逻辑回归模型中讲),以及如何进行模型参数调优(决策树模型中讲)。
第一讲 线性回归模型 - 银行客户价值预测案例
1 一元线性回归
1.1 一元线性回归的数学原理
1.2 一元线性回归的编程实现
1.3 案例实战 - 年龄与收入的线性回归模型
2 数据可视化
2.1 Matplotlib库基础
2.2 通过pandas绘制图形
2.3 案例实战 - 线性回顾模型可视化呈现
3 多元线性回归
2.1 多元线性回归的数学原理
2.2 多元线性回归的编程实现
2.3 案例实战 - 北京市房价预测模型
4 线性回归模型评估
5 综合案例 - 银行客户价值预测模型
5.1 案例背景:银行客户价值预测意义
5.2 数据预处理
5.3 模型搭建与评估
第二讲 逻辑回归模型 - 客户流失预警模型案例
1 逻辑回归算法介绍
1.1 逻辑回归的算法原理
1.2 逻辑回归的编程实现
2 案例实战 - 客户违约预测模型
2.1 案例背景
2.2 数据预处理
2.3 模型搭建
3 逻辑回归模型评估
3.1 模型评估的多种方法
3.2 K-S曲线评估方法
3.3 ROC曲线评估方法
4 综合案例 - 精准营销模型
4.1 案例背景
4.2 数据预处理
4.3 模型搭建与评估
第三讲 决策树模型 - 银行客户违约预测模型案例
1 决策树模型原理介绍
1.1 决策树模型简介
1.2 决策树模型的建树依据
2 案例实战 - 金融反欺诈模型
2.1 案例背景
2.2 数据预处理
2.3 模型搭建与评估
3 决策树模型可视化
3.1 graphviz插件安装
3.2 决策树模型可视化实战
3.3 通过图形深入理解决策树模型
4 模型优化 - K折交叉验证 & GridSearch网格搜索
4.1 参数调优
4.2 交叉验证
4.3 随机森林模型
5 综合案例 - 银行客户违约预测模型
5.1 案例背景
5.2 数据预处理
5.3 模型搭建与评估
5.4 模型优化
这一版块主要讲解进阶的机器学习模型:集成学习模型,这一版块是本课程的重点内容,因为在现实的商业案例实战中,往往用的便是集成机器学习模型。这一版块我们将讲解经典的集成模型:随机森林模型、AdaBoost模型、GBDT模型,以及新兴的集成模型:XGBoost模型与LightGBM模型。与此同时,我们将介绍多个实战案例来巩固相关知识点,并指导如何通过Python实现相关代码模型,实际案例包括:股票涨跌预测模型搭建(初级)、银行信用卡精准营销模型、银行金融反欺诈模型案例 、产品定价模型、银行客户违约模型升级版、银行信用评分模型等内容。
第四讲 集成模型初探 - 随机森林模型
1.随机森林模型的基本原理和代码实现
1.1 集成模型简介
1.2 随机森林模型的基本原理
1.3 随机森林模型的代码实现
2.量化金融 - 股票数据获取
2.1 股票基本数据获取
2.2 股票衍生变量生成
3.量化金融 - 股票涨跌预测模型搭建
3.1 多因子模型搭建
3.2 模型使用与评估
3.3 参数调优
3.4 收益回测曲线绘制
第五讲 AdaBoost模型 - 银行信用卡精准营销模型
1 AdaBoost算法的原理介绍
2 案例实战 - AdaBoost信用卡精准营销模型
3 参数与模型调优
第六讲 XGBoost模型1 - 银行金融反欺诈模型案例
1 XGBoost算法原理
2 XGBoost算法案例实战1 - 金融反欺诈模型
3 参数与模型调优
第七讲 XGBoost模型2 - 银行信用评分模型
1 XGBoost算法案例实战2 - 信用评分模型
2 参数与模型调优
第八讲 LightGBM模型 - 银行客户违约模型升级版
1 LightGBM算法原理
2 LightGBM算法案例实战1 - 客户违约预测模型
3 参数与模型调优
这一版块主要讲解机器学习中非常重要的一个步骤:特征工程(或者叫数据预处理),这一版块也是本课程的重点内容,因为在现实的商业案例实战中,好的数据输入才能有好的模型结果。这一版块我们将讲解如何对非数值类型数据处理;如何对重复值、缺失值及异常值处理;如何进行数据标准化;如何进行数据分箱;如何根据WOE值与IV值进行特征筛选;如何分析与处理多重共线性问题;如何针对数据样本不均衡的问题进行过采样与欠采样。此外,我们还将介绍如何通过Python自动进行特征衍生与生成,简化建模数据处理过程。
第九讲 特征工程分析(重点)
1 非数值类型数据处理
1.1 Get_dummies哑变量处理
1.2 Label Encoding编号处理
2 重复值、缺失值及异常值处理
2.1 重复值处理
2.2 缺失值处理
2.3 异常值处理
3 数据标准化
3.1 min-max标准化
3.2 Z-score标准化
4 数据分箱
5 特征筛选:WOE值与IV值
5.1 WOE值的定义与演示
5.2 IV值的定义与演示
5.3 WOE值与IV值的代码实现
5.4 案例实战:客户流失预警模型的IV值计算
6 多重共线性的分析与处理
6.1 多重共线性的定义
6.2 多重共线性分析与检验
7 过采样和欠采样
7.1 过采样
7.2 欠采样
这一版块主要讲解机器学习里的一个独特内容:非监督式学习模型,这部分内容和之前的内容的区别在于其目标变量的缺失,对于这类数据有独有的建模方法,该方法就叫做非监督式学习模型,这里我们会讲解数据聚类与分群模型、智能推荐系统、关联分析模型。并通过多个案例来巩固相关知识点,包括:银行客户分群模、金融产品智能推荐模型、金融产品交叉销售模型等。最后一节课我们将讲解神经网络模型(属于之前讲的监督式学习模型),为之后的深度学习模型的讲解做铺垫。
第十讲 数据聚类与分群 - 银行客户分群模型
1 Kmeans算法的基本原理
2 KMeans算法的代码实现
3 案例实战 - 银行客户分群模型
第十一讲 智能推荐系统 - 金融产品智能推荐模型
1 智能推荐系统的基本原理
2 相似度计算三种常见方法
3 案例实战 - 金融产品智能推荐模型
第十二讲 关联分析 - 金融产品交叉销售模型
1 关联分析基本概念和Apriori算法
2 案例实战:金融产品交叉销售模型
(监督学习模型,为以后的深度学习做铺垫)
https://shimo.im/docs/cxxhCypghDyWvq3q/ 《Python常见使用问题(技术层面)》,可复制链接后用石墨文档 App 或小程序打开
https://shimo.im/docs/L9kBM2e6PdTQxgqK/ 《学习Python的常见问题(思维层面)》,可复制链接后用石墨文档 App 或小程序打开
王宇韬(CFA、FRM、AQF)
职业经历
华能信托华小智金融科技实验室创始人;《Python金融大数据挖掘与分析全流程详解》,《Python大数据分析与机器学习商业案例实战》《超简单:用Python让Excel飞起来》作者;
中国人民大学商学院《Python金融》课程授课导师;其中《Python金融》课程同时被党建强国、中央人民银行在线学习平台收录;累计为华能信托申请6项金融科技相关知识产权。
教育经历
宾西法尼亚大学硕士;上海交通大学学士;曾于剑桥大学交流访学;入选华能信托全球精英计划。在上海交大就读期间曾经荣获国家奖学金,上海交通大学优秀毕业生;
两年内通过CFA(特许金融分析师)3级,FRM(金融风险管理师)2级,AQF(量化金融分析师)。
联系方式
交流 & 学习,可以添加如下微信(申请请注明缘由)。
个人微信公众号:华小智智能平台
个人网站:www.huaxiaozhi.com
更多信息
https://shimo.im/docs/cyHrXKHdTkg8xcG6/ 《王宇韬-华能信托金融科技实验室》,可复制链接后用石墨文档 App 或小程序打开
慈善信托
华能信托华小智金融科技实验室所有课程/书稿/系统开发等相关收入,均将捐献至华能信托-华小智慈善信托计划,用于对贵州的教育扶贫,实现以智促智,金融向善的愿景。目前已累计募集50余万元(截至2020年12月)。