Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
python_data_analysis_and_mining_action
提交
e6222606
P
python_data_analysis_and_mining_action
项目概览
OpenDocCN
/
python_data_analysis_and_mining_action
9 个月 前同步成功
通知
12
Star
1527
Fork
690
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
python_data_analysis_and_mining_action
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
e6222606
编写于
10月 31, 2017
作者:
wnma3mz
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
commit 模块说明+笔记
上级
d06c9427
变更
2
隐藏空白更改
内联
并排
Showing
2 changed file
with
99 addition
and
0 deletion
+99
-0
导入模块说明.md
导入模块说明.md
+35
-0
简单的笔记.md
简单的笔记.md
+64
-0
未找到文件。
导入模块说明.md
0 → 100644
浏览文件 @
e6222606
## 导入模块说明
```
python
# 导入的常规模块
import
pandas
as
pd
import
numpy
as
np
import
matplotlib.pyplot
as
plt
# 可视化操作
import
os
# 系统文件处理模块
import
time
# 时间处理模块
from
random
import
shuffle
# 用于随即打乱数据
import
pywt
# 小波处理的模块
# 按名称排序
from
sklearn.cluster
import
KMeans
# KMeans聚类
from
sklearn.decomposition
import
PCA
# 主成分分析
from
sklearn.externals.six
import
StringIO
# 将决策树导出为dot
from
sklearn.externals
import
joblib
# 用于保存模型
from
sklearn.linear_model
import
LogisticRegression
as
LR
# 线性回归
from
sklearn.linear_model
import
RandomizedLogisticRegression
as
RLR
# 随机森林
from
scipy.interpolate
import
lagrange
# 拉格朗日填值
from
scipy.io
import
loadmat
# 读取matlab的格式文件
from
sklearn.manifold
import
TSNE
# 数据降维
from
sklearn.metrics
import
roc_curve
# ROC曲线
from
sklearn.metrics
import
confusion_matrix
# 计算混淆矩阵,评估分类的准确性
from
sklearn.tree
import
DecisionTreeClassifier
as
DTC
# 决策树
from
sklearn.tree
import
export_graphviz
# 用于生成决策树的dot文件
from
statsmodels.graphics.tsaplots
import
plot_acf
# plot_acf自相关图
from
statsmodels.graphics.tsaplots
import
plot_pacf
# plot_pacf自相关图
from
statsmodels.tsa.stattools
import
adfuller
as
ADF
# adf检验
from
statsmodels.tsa.arima_model
import
ARIMA
# 建立ARIMA模型
from
statsmodels.stats.diagnostic
import
acorr_ljungbox
# 白噪声检验
from
keras.models
import
Sequential
# Kears神经网络训练
from
keras.layers.core
import
Dense
,
Activation
# Kears的常用的两个层
```
简单的笔记.md
0 → 100644
浏览文件 @
e6222606
## 简单的笔记
PCA、TSNE都用于降维
### PCA与TSNE 的区别:
1.
t-SNE保留下的属性信息更具有代表性-->最能体现样本间的差异
2.
t-SNE运行极慢,PCA相对更快
可视化高维数据时,常常使用PCA进行降维,再使用t-SNE
### dot文件转换为pdf文件
```
python
# 方法一, 使用dot工具创建pdf文件
dot
-
Tpdf
yourdot_name
.
dot
-
o
yourpdf_name
.
pdf
.
# 方法二,前提是有clf训练好的模型
from
sklearn
import
tree
from
sklearn.externals.six
import
StringIO
import
pydot
# 这个模块anaconda貌似没有,需要额外安装
dot_data
=
StringIO
()
tree
.
export_graphviz
(
clf
,
out_file
=
dot_data
)
graph
=
pydot
.
graph_from_dot_data
(
dot_data
.
getvalue
())
graph
.
write_pdf
(
"name.pdf"
)
```
### ARMA 模型
1.
自回归滑动平均模型(Auto-Regressive and Moving Average Model,ARMA模型)是研究时间序列的重要方法,由自回归模型(AR模型)和滑动平均模型(MA模型)为基础“混合”构成。
1.
AR模型(auto regressive model)自回归模型
2.
MA模型(moving average model)滑动平均模型
2.
通过绘制p的估计的偏自相关函数,使用q的估计的自相关函数,可以方便地在ARMA(p, q)模型中寻找适当的p和q值
3.
p-->AR;q-->MA
### plot_acf与plot_pacf
1.
acf: 自相关函数;pacf:偏自相关函数
2.
通过绘制pacf函数,可以确定AR(p)模型;通过绘制acf函数,可以确定MA(q)模型
3.
自相关系数会很快衰减向0,则可以认为是平稳序列
### ADF检验(精确判断)
单位根检验(Augmented Dickey-Fuller test,ADF检验),用于检验时间序列是否平稳,统计量对应的P值小于0.05,就可以确认该序列为平稳序列。
### acorr_ljungbox自检验
白噪声检验,统计量的P值小于显著水平0.05,则可以以95%的置信水平拒绝原假设,认为序列为非白噪声检验(否则就是纯随机序列)
### ARIMA模型
自回归综合移动平均值ARIMA(p,d,q)模型
### ROC曲线
受试者工作特征曲线(receiver operating characteristic curve, ROC曲线),感受性曲线。
1.
很容易查出任意界限值时的对疾病的识别能力
2.
选择最佳的诊断界限值。ROC曲线越靠近左上角,试验的准确性就越高。
3.
两种或两种以上不同诊断试验对疾病识别能力的比较。直观的比较两种诊断方式的优劣
\ No newline at end of file
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录