commit 模块说明+笔记

e6222606 · wnma3mz · d06c9427 · e6222606 · e6222606
隐藏空白更改
内联并排

Showing with 99 addition and 0 deletion

导入模块说明.md 导入模块说明.md +35 -0

简单的笔记.md 简单的笔记.md +64 -0

未找到文件。
--- a/导入模块说明.md
+++ b/导入模块说明.md
+## 导入模块说明
+
+```python
+# 导入的常规模块
+import pandas as pd
+import numpy as np
+import matplotlib.pyplot as plt	# 可视化操作
+import os # 系统文件处理模块
+import time # 时间处理模块
+from random import shuffle # 用于随即打乱数据
+import pywt # 小波处理的模块
+
+# 按名称排序
+from sklearn.cluster import KMeans # KMeans聚类
+from sklearn.decomposition import PCA # 主成分分析
+from sklearn.externals.six import StringIO # 将决策树导出为dot
+from sklearn.externals import joblib # 用于保存模型
+from sklearn.linear_model import LogisticRegression as LR # 线性回归
+from sklearn.linear_model import RandomizedLogisticRegression as RLR # 随机森林
+from scipy.interpolate import lagrange # 拉格朗日填值
+from scipy.io import loadmat # 读取matlab的格式文件
+from sklearn.manifold import TSNE # 数据降维
+from sklearn.metrics import roc_curve # ROC曲线
+from sklearn.metrics import confusion_matrix # 计算混淆矩阵，评估分类的准确性
+from sklearn.tree import DecisionTreeClassifier as DTC # 决策树
+from sklearn.tree import export_graphviz # 用于生成决策树的dot文件
+from statsmodels.graphics.tsaplots import plot_acf # plot_acf自相关图
+from statsmodels.graphics.tsaplots import plot_pacf # plot_pacf自相关图
+from statsmodels.tsa.stattools import adfuller as ADF # adf检验
+from statsmodels.tsa.arima_model import ARIMA # 建立ARIMA模型
+from statsmodels.stats.diagnostic import acorr_ljungbox # 白噪声检验
+from keras.models import Sequential # Kears神经网络训练
+from keras.layers.core import Dense, Activation # Kears的常用的两个层
+```
+
--- a/简单的笔记.md
+++ b/简单的笔记.md
+## 简单的笔记
+
+PCA、TSNE都用于降维
+
+### PCA与TSNE 的区别:
+
+1. t-SNE保留下的属性信息更具有代表性-->最能体现样本间的差异
+2. t-SNE运行极慢，PCA相对更快
+
+可视化高维数据时，常常使用PCA进行降维，再使用t-SNE
+
+
+
+### dot文件转换为pdf文件
+
+```python
+# 方法一, 使用dot工具创建pdf文件
+dot -Tpdf yourdot_name.dot -o yourpdf_name.pdf.
+# 方法二，前提是有clf训练好的模型
+from sklearn import tree
+from sklearn.externals.six import StringIO 
+import pydot # 这个模块anaconda貌似没有，需要额外安装
+dot_data = StringIO()
+tree.export_graphviz(clf, out_file=dot_data)
+graph = pydot.graph_from_dot_data(dot_data.getvalue())
+graph.write_pdf("name.pdf")
+```
+
+
+
+### ARMA 模型
+
+1. 自回归滑动平均模型（Auto-Regressive and Moving Average Model，ARMA模型）是研究时间序列的重要方法，由自回归模型（AR模型）和滑动平均模型（MA模型）为基础“混合”构成。
+   1. AR模型（auto regressive model）自回归模型
+   2. MA模型（moving average model）滑动平均模型
+2. 通过绘制p的估计的偏自相关函数，使用q的估计的自相关函数，可以方便地在ARMA（p, q）模型中寻找适当的p和q值
+3. p-->AR；q-->MA
+
+### plot_acf与plot_pacf
+
+1. acf: 自相关函数；pacf：偏自相关函数
+2. 通过绘制pacf函数，可以确定AR（p)模型；通过绘制acf函数，可以确定MA（q）模型
+3. 自相关系数会很快衰减向0,则可以认为是平稳序列
+
+### ＡＤＦ检验（精确判断）
+
+单位根检验（Augmented Dickey-Fuller test，ADF检验），用于检验时间序列是否平稳，统计量对应的P值小于0.05,就可以确认该序列为平稳序列。
+
+### acorr_ljungbox自检验
+
+白噪声检验，统计量的P值小于显著水平0.05,则可以以95%的置信水平拒绝原假设，认为序列为非白噪声检验（否则就是纯随机序列）
+
+### ARIMA模型
+
+自回归综合移动平均值ARIMA（p，d，q）模型
+
+### ROC曲线
+
+受试者工作特征曲线（receiver operating characteristic curve, ROC曲线），感受性曲线。
+
+1. 很容易查出任意界限值时的对疾病的识别能力
+2. 选择最佳的诊断界限值。ROC曲线越靠近左上角，试验的准确性就越高。
+3. 两种或两种以上不同诊断试验对疾病识别能力的比较。直观的比较两种诊断方式的优劣
\ No newline at end of file