3  课程概览

3.1 课程内容

  • Part I:数据分析
    • 数据获取
    • 数据清洗:合并、纵横变换、变量生成与转换
    • 数据清洗:缺失值、离群值、文字变量
    • 可视化:直方图、类别变量、散点图、三维图、动图
    • 复现报告
  • Part II:建模
    • 线性回归分析:OLS,虚拟变量,交乘项,高阶项
    • 面板数据模型:高维固定效应模型、DID
    • 因果推断:反事实架构
    • 机器学习:Lasso,随机森林,支持向量机 ……

3.2 课程提要

  • 课程概述 1 次
    • 金融数据分析的基本流程:目标、方法、工具、报告
    • 数据获取来源
    • 找资料找代码:Github, Gitee-码云
    • 统计方法和计量模型概览
    • 可重复性报告:Markdown, VScode, Quarto, Jupyter Notebook
  • 数据清洗 2 次
    • 数据导入
    • 数据合并和追加
    • 离群值、缺失值
    • 数据转换
    • 基本统计分析
  • 可视化 2 次
    • 直方图、密度函数图
    • 分类变量可视化分析
    • 连续变量可视化分析
    • 变量相关性、时序变量、因果关系可视化
    • 三维图形和动态图形
  • 回归分析 3 次
    • 线性回归分析:OLS,虚拟变量,交乘项,面板数据模型
    • 广义线性模型:GLM,Logit,计数模型,MLE 估计
    • 结果输出和可视化
    • 案例:投资组合优化
  • 时间序列分析 1 次
    • ARMA 模型
    • GARCH 模型
  • 机器学习 3 次
    • Bootstrap、Monte Carlo 模拟、交叉验证
    • Lasso,变量筛选
    • K 近邻、随机森林、支持向量机等

3.3 作业和小组报告

关于 AI 工具

软件

  • 不限制:用 Stata,R,Python 均可

小组作业:

  • 6-8 次,每个小组有 2 次展示机会 (每次 20mins)
  • 人数:每个小组 3 人
  • 技能:成员中至少一人会用 Stata;一人会用 Python
  • 报告:需要用 VScode 或 Quarto 写报告
    • MarpQuarto (Presentation) 或其他基于 Markdown 语法的工具制作 Slides
    • 不建议使用 PowerPoint 幻灯片

3.4 参考书

数据分析

  • Wes McKinney, 2023. Python for Data Analysis: Data Wrangling with pandas, NumPy, and Jupyter (3E). Online-Read, github, gitee-码云
    • 专注于数据处理,讲的比较细致
  • 🍎 PDSH   VanderPlas, 2023. Python Data Science Handbook, github, Online-Read, PDF-2E
    • 数据分析 + 可视化 + 机器学习
    • 提供了 Colab版本,可以无需安装 Python,直接在线运行 20250407145932
    • 本地已经下载:VanderPlas_2023_PDSH_Python_Data_Science_Handbook-2E.pdf

Finance

  • Scheuch, C., Voigt, S., Weiss, P., & Frey, C. (2024). Tidy Finance with Python (1st ed.). Chapman and Hall/CRC, Online-Read, github
    • tidyfinance package
    • 股票回报, CAPM, 投资组合, Fama-French 因子模型等
    • 整体上比较简单,依赖于作者开发的 tidyfinance 扩展包。
  • Hilpisch Y., Python for Finance. 2019. -PDF-, github

因果推断

  • Alves, Matheus Facure. 2022, Causal Inference for The Brave and True. Online Read, -github-
    • 基本上覆盖了目前文献中使用多的多数因果推断方法,包括 IV, DID, SDID, PSM, Matching, Panel, SCM, RDD
    • 提供了完整的 Python 代码,可以 Fork -github- 仓库,然后在本地运行 .ipynb 文档 (Jupyter Notebook)

机器学习

  • 🍎 ISLP   James, G., D. Witten, T. Hastie, R. Tibshirani. An introduction to statistical learning: with Applications in Python (ISLP)[M]. Springer, 2023, website, Resources, github, -PDF-
  • Tatsat, H., Puri, S., & Lookabaugh, B. (2020). Machine Learning and Data Science Blueprints for Finance. O’Reilly Media. -PDF-, github-2022, githu-new-2024
    • 分成监督学习和非监督学习两大部分,包含了常用的机器学习方法
    • 13 cases,涉及债券市场,股票市场分析等
    • 书里边的所有案例对应的 Python 代码可以不用本地安装,而在作者提供的 在线平台 上直接运行。 20250407145932
    • 用的 Jupyter Notebook

3.5 获取数据

中大图书馆

中大图书馆-统计类数据库

RESSET系列数据库

  • RESSET系列数据库 | RESSET企业大数据平台
    • 需要输入账号和密码
    • 1、中山大学校园网IP范围内,直接点击访问。
    • 2、官方网站访问: http://www.resset.cn,点击页面“快速登录”右边的“企业大数据平台”链接后输入对应的用户名及密码进行登录。用户名:sysu和密码:sysu1903。
    • 3、校外不限IP访问,通过CARSI平台访问登陆,访问地址:http://db.resset.com/,点击页面的:CARIS 平台登陆,选择学校,然后输入验证身份信息后登陆使用。

全球数据

到哪里找数据?

Source: 黄湘云, R 语言数据分析实战-介绍