提交 e6222606 编写于 作者: wnma3mz's avatar wnma3mz

commit 模块说明+笔记

上级 d06c9427
## 导入模块说明
```python
# 导入的常规模块
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt # 可视化操作
import os # 系统文件处理模块
import time # 时间处理模块
from random import shuffle # 用于随即打乱数据
import pywt # 小波处理的模块
# 按名称排序
from sklearn.cluster import KMeans # KMeans聚类
from sklearn.decomposition import PCA # 主成分分析
from sklearn.externals.six import StringIO # 将决策树导出为dot
from sklearn.externals import joblib # 用于保存模型
from sklearn.linear_model import LogisticRegression as LR # 线性回归
from sklearn.linear_model import RandomizedLogisticRegression as RLR # 随机森林
from scipy.interpolate import lagrange # 拉格朗日填值
from scipy.io import loadmat # 读取matlab的格式文件
from sklearn.manifold import TSNE # 数据降维
from sklearn.metrics import roc_curve # ROC曲线
from sklearn.metrics import confusion_matrix # 计算混淆矩阵,评估分类的准确性
from sklearn.tree import DecisionTreeClassifier as DTC # 决策树
from sklearn.tree import export_graphviz # 用于生成决策树的dot文件
from statsmodels.graphics.tsaplots import plot_acf # plot_acf自相关图
from statsmodels.graphics.tsaplots import plot_pacf # plot_pacf自相关图
from statsmodels.tsa.stattools import adfuller as ADF # adf检验
from statsmodels.tsa.arima_model import ARIMA # 建立ARIMA模型
from statsmodels.stats.diagnostic import acorr_ljungbox # 白噪声检验
from keras.models import Sequential # Kears神经网络训练
from keras.layers.core import Dense, Activation # Kears的常用的两个层
```
## 简单的笔记
PCA、TSNE都用于降维
### PCA与TSNE 的区别:
1. t-SNE保留下的属性信息更具有代表性-->最能体现样本间的差异
2. t-SNE运行极慢,PCA相对更快
可视化高维数据时,常常使用PCA进行降维,再使用t-SNE
### dot文件转换为pdf文件
```python
# 方法一, 使用dot工具创建pdf文件
dot -Tpdf yourdot_name.dot -o yourpdf_name.pdf.
# 方法二,前提是有clf训练好的模型
from sklearn import tree
from sklearn.externals.six import StringIO
import pydot # 这个模块anaconda貌似没有,需要额外安装
dot_data = StringIO()
tree.export_graphviz(clf, out_file=dot_data)
graph = pydot.graph_from_dot_data(dot_data.getvalue())
graph.write_pdf("name.pdf")
```
### ARMA 模型
1. 自回归滑动平均模型(Auto-Regressive and Moving Average Model,ARMA模型)是研究时间序列的重要方法,由自回归模型(AR模型)和滑动平均模型(MA模型)为基础“混合”构成。
1. AR模型(auto regressive model)自回归模型
2. MA模型(moving average model)滑动平均模型
2. 通过绘制p的估计的偏自相关函数,使用q的估计的自相关函数,可以方便地在ARMA(p, q)模型中寻找适当的p和q值
3. p-->AR;q-->MA
### plot_acf与plot_pacf
1. acf: 自相关函数;pacf:偏自相关函数
2. 通过绘制pacf函数,可以确定AR(p)模型;通过绘制acf函数,可以确定MA(q)模型
3. 自相关系数会很快衰减向0,则可以认为是平稳序列
### ADF检验(精确判断)
单位根检验(Augmented Dickey-Fuller test,ADF检验),用于检验时间序列是否平稳,统计量对应的P值小于0.05,就可以确认该序列为平稳序列。
### acorr_ljungbox自检验
白噪声检验,统计量的P值小于显著水平0.05,则可以以95%的置信水平拒绝原假设,认为序列为非白噪声检验(否则就是纯随机序列)
### ARIMA模型
自回归综合移动平均值ARIMA(p,d,q)模型
### ROC曲线
受试者工作特征曲线(receiver operating characteristic curve, ROC曲线),感受性曲线。
1. 很容易查出任意界限值时的对疾病的识别能力
2. 选择最佳的诊断界限值。ROC曲线越靠近左上角,试验的准确性就越高。
3. 两种或两种以上不同诊断试验对疾病识别能力的比较。直观的比较两种诊断方式的优劣
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册