3 课程概览
3.1 课程内容
- Part I:数据分析
- 数据获取
- 数据清洗:合并、纵横变换、变量生成与转换
- 数据清洗:缺失值、离群值、文字变量
- 可视化:直方图、类别变量、散点图、三维图、动图
- 复现报告
- Part II:建模
- 线性回归分析:OLS,虚拟变量,交乘项,高阶项
- 面板数据模型:高维固定效应模型、DID
- 因果推断:反事实架构
- 机器学习:Lasso,随机森林,支持向量机 ……
3.2 课程提要
- 课程概述 1 次
- 数据清洗 2 次
- 数据导入
- 数据合并和追加
- 离群值、缺失值
- 数据转换
- 基本统计分析
- 可视化 2 次
- 直方图、密度函数图
- 分类变量可视化分析
- 连续变量可视化分析
- 变量相关性、时序变量、因果关系可视化
- 三维图形和动态图形
- 回归分析 3 次
- 线性回归分析:OLS,虚拟变量,交乘项,面板数据模型
- 广义线性模型:GLM,Logit,计数模型,MLE 估计
- 结果输出和可视化
- 案例:投资组合优化
- 时间序列分析 1 次
- ARMA 模型
- GARCH 模型
- 机器学习 3 次
- Bootstrap、Monte Carlo 模拟、交叉验证
- Lasso,变量筛选
- K 近邻、随机森林、支持向量机等
3.3 作业和小组报告
关于 AI 工具
- 可以使用 AI 工具写作业和报告,可以使用 AI 写代码
- 但要提供提示词链接或提示词原文,如:豆包-SVM 解读; ChatGPT-BAGTE 模型; 连玉君-UseChatGPT
软件
- 不限制:用 Stata,R,Python 均可
小组作业:
- 6-8 次,每个小组有 2 次展示机会 (每次 20mins)
- 人数:每个小组 3 人
- 技能:成员中至少一人会用 Stata;一人会用 Python
- 报告:需要用 VScode 或 Quarto 写报告
- 用 Marp,Quarto (Presentation) 或其他基于 Markdown 语法的工具制作 Slides
- 不建议使用 PowerPoint 幻灯片
3.4 参考书
数据分析
- Wes McKinney, 2023. Python for Data Analysis: Data Wrangling with pandas, NumPy, and Jupyter (3E). Online-Read, github, gitee-码云
- 专注于数据处理,讲的比较细致
- 🍎 PDSH VanderPlas, 2023. Python Data Science Handbook, github, Online-Read, PDF-2E
- 数据分析 + 可视化 + 机器学习
- 提供了 Colab版本,可以无需安装 Python,直接在线运行

- 本地已经下载:VanderPlas_2023_PDSH_Python_Data_Science_Handbook-2E.pdf
Finance
- Scheuch, C., Voigt, S., Weiss, P., & Frey, C. (2024). Tidy Finance with Python (1st ed.). Chapman and Hall/CRC, Online-Read, github
- tidyfinance package
- 股票回报, CAPM, 投资组合, Fama-French 因子模型等
- 整体上比较简单,依赖于作者开发的
tidyfinance扩展包。
- Hilpisch Y., Python for Finance. 2019. -PDF-, github
因果推断
- Alves, Matheus Facure. 2022, Causal Inference for The Brave and True. Online Read, -github-
- 基本上覆盖了目前文献中使用多的多数因果推断方法,包括 IV, DID, SDID, PSM, Matching, Panel, SCM, RDD
- 提供了完整的 Python 代码,可以 Fork -github- 仓库,然后在本地运行 .ipynb 文档 (Jupyter Notebook)
机器学习
- 🍎 ISLP James, G., D. Witten, T. Hastie, R. Tibshirani. An introduction to statistical learning: with Applications in Python (ISLP)[M]. Springer, 2023, website, Resources, github, -PDF-
- Tatsat, H., Puri, S., & Lookabaugh, B. (2020). Machine Learning and Data Science Blueprints for Finance. O’Reilly Media. -PDF-, github-2022, githu-new-2024
- 分成监督学习和非监督学习两大部分,包含了常用的机器学习方法
- 13 cases,涉及债券市场,股票市场分析等
- 书里边的所有案例对应的 Python 代码可以不用本地安装,而在作者提供的 在线平台 上直接运行。

- 用的 Jupyter Notebook
3.5 获取数据
中大图书馆
- CSMAR (国泰安数据库-公司金融-股票-债券):
- EPS数据平台
- Wind资讯金融终端
- 中经网产业数据
- 国内宏观层面的数据基本上都能够找到。Excel → Python/Stata
- 例:宏观数据
- 中经网统计数据库
- EMIS—Emerging Markets Information Service(新兴市场动态及商务信息数据库)
- 新闻,股指,最新统计数据等
- China - Financial markest
RESSET系列数据库
- RESSET系列数据库 | RESSET企业大数据平台
- 需要输入账号和密码
- 1、中山大学校园网IP范围内,直接点击访问。
- 2、官方网站访问: http://www.resset.cn,点击页面“快速登录”右边的“企业大数据平台”链接后输入对应的用户名及密码进行登录。用户名:sysu和密码:sysu1903。
- 3、校外不限IP访问,通过CARSI平台访问登陆,访问地址:http://db.resset.com/,点击页面的:CARIS 平台登陆,选择学校,然后输入验证身份信息后登陆使用。
全球数据
- 连小白, 2025, GMD:最新全球宏观数据库-243个国家46个宏观变量, 连享会 No.1559.
到哪里找数据?
Source: 黄湘云, R 语言数据分析实战-介绍
数据获取概述,写的不错
国际、国内各类组织机构,比如世界银行、美国疾病预防控制中心等。
各类网站提供的数据集,比如 GitHub 开放数据集列表 awesome-public-datasets,kaggle 网站提供大量数据分析竞赛及相应的数据集。
R 包内置数据集,已整理得很好,比如 spData 包 收集整理了很多空间统计方面的数据集。Rdatasets 更是收集约 1900 个数据集,全部来自 CRAN 上发布的 R 包。