《SPSS Modeler大数据挖掘方法与应用实战操作》(实操)培训大纲

讲师:李文耀 发布日期:10-07 浏览量:495


《SPSS Modeler大数据挖掘方法与应用实战操作》培训大纲

1. 课程内容与安排:

模块一:概念篇—数据挖掘的概念与流程及方法

模块二:操作篇—SPSS Modeler数据挖掘工具操作方法及运用

模块三:算法与建模篇—SPSS Modeler数据挖掘算法及数学建模方法

模块四:实战演练篇—SPSS Modeler算法及建模实战演练与操作

模块五:高级进阶篇—运用SPSS Modeler关联分析法提升4G网络满意度

模块六:撰写分析报告篇—如何撰写漂亮的数据分析报告

2. 课程时间:3天,6小时/天

3.

授课对象:经分分析相关人员、客户响应业务支撑人员、数据和IT等部门的管理人员

及技术人员等。

4. 授课方式:

理论讲授,案例分析,方法传授、动画演示、互动讨论,讲师点评、实战演练。

5. 课程纲要:

模块一:概念篇—数据挖掘的概念与流程及方法

1. 数据挖掘的概念及目标

1. 数据挖掘的定义及功能

2. 数据挖掘的基本特征

3. 数据挖掘的知识表示

4. 数据挖掘的目标

5. 数据挖掘的主要任务

6. 数据挖掘与大数据关系

7. 数据挖掘在电信行业的应用内容

2. 数据挖掘与相关领域之间的关系

1. 数据挖掘与专家系统的关系

2. 数据挖掘与统计分析的关系

3. 数据挖掘与人工智能的关系

4. 数据挖掘与机器学习

5. 数据挖掘与数据仓库

6. 数据挖掘与OLAP

7. 数据挖掘与统计学

8. 数据挖掘与智能决策

9. 数据挖掘与云计算

3. 数据挖掘的对象-在何种数据上进行数据挖掘

1. 关系数据库

2. 数据仓库

3. 事务数据库

4. 高级数据库系统

5. 展开文件和WWW

4. 数据挖掘的分类

1. 根据挖掘的数据库类型分类(不同标准如数据模型、涉及应用类型)

2. 根据挖掘的知识类型分类(不同功能如特征化、区分、关联等)

3. 根据所用的技术分类(如机器学习、统计学、可视化、模式识别)

4. 根据应用分类(如金融、电信、股票市场、DNA、e-mail等)

5. 数据挖掘功能-可以挖掘什么类型的模式

1. 概念/类描述:特征化和区分(Characterization and Discrimination)

2. 关联分析(Association Analysis)

3. 分类和预测(Classification and Predict)

4. 聚类分析(Clustering Analysis)

5. 孤立点分析(Outlier Analysis)

6. 演变分析(Evolution Analysis)

6. 数据挖掘问题的描述

1. 描述需要解决的关键问题

2. 描述如何转换成为数据挖掘

3. 描述数据挖掘算法的选择依据

4. 描述预测类还是描述类

5. 描述与各种算法的使用特点结合

7. CRISP-DM数据分析挖掘方法论介绍

1. 描述商业理解——要实现什么“目的”?

2. 描述数据的理解以及收集——手里有哪些数据?

3. 描述数据的准备——数据的清洗及转换

4. 描述应用数据挖掘工具建立模型——使用哪种数据挖掘算法和工具?

5. 描述模型评估——算法评估

6. 描述部署(并形成数据挖掘报告)——实际使用及形成报告

8. 数据挖掘常用算法及案例分析

1. 分类算法及案例分析

2. 预测型方法及案例分析

3. 关联分析法及案例分析

4. 聚类分析法及案例分析

5. 回归分析法及案例分析

6. 时序分析法及案例分析

7. 智能推荐分析法及案例分析

8. 神经网络分析法及案例分析

9. 数据挖掘建模过程

1. 数据探索

2. 数据预处理

3. 挖掘建模

4. 模型评估

10. 数据挖掘流程

1. 数据挖掘思路

2. 数据挖掘项目立项

3. 数据挖掘项目实施

1. 业务理解阶段(BUSINESS UNDERSTANDING)

2. 数据理解阶段(DATA UNDERSTANDING)

3. 数据准备阶段(DATA PREPARATION)

4. 建模阶段(MODELING)

5. 模型评估阶段(EVALUATION)

6. 部署阶段(DEPLOYMENT)

11. 数据分析:由上至下梳理数据分析体系

1. 明确目标

2. 分解指标

3. 细化字段

4. 非功能要求

5. 系统实施

12. 成果输出:由下至上实施落地到应用系统

1. 连接数据

2. 数据处理

3. 数据建模

4. 制作数据报告

5. 非功能需求实现

13. 数据挖掘的应用领域及案例

1. “电信运营业”数据挖掘应用

2. “互联网与电子商务行业”数据挖掘应用

3. “政府”数据挖掘应用

4. “金融业”数据挖掘应用

5. “零售业”数据挖掘应用

6. “教育业”数据挖掘应用

7. “医疗业”数据挖掘应用

8. “能源业”数据挖掘应用

9. “制造业”数据挖掘应用

10. “交通物流业”数据挖掘应用



模块二:操作篇—SPSS Modeler数据挖掘工具操作方法及运用

1. 从一个完整案例操作入手:4G目标客户分析

1. 需求分析(需求动机调查、购买行为调查)

2. 研究方法(根据客户信息、选择数据挖掘算法、建立数学模型)

3. 数据分析

1. 录入数据

2. 定义数据源(数据源设置、数据类型设置)

3. 数据理解(字段的理解及使用、对数据进行探索分析)

4.

数据准备(字段过滤、数据抽样设置、模型数据分流、预测字段设置、“特征

选择”模型设置、模型预览等)

5. 建立模型(选择算法模型、添加算法组件、生成模型)

6.

模型评估(模型评估设置、模型分析和评估、模型增益评估、模型预测准确率

及数值修正)

7. 研究结论(给出分析结果、进行目标分析)

2. SPSS Modeler软件介绍

1. SPSS Modeler的功能及特点

2. SPSS Modeler的版本

3. SPSS Modeler支持的算法

4. SPSS Modeler的行业应用

1. 通信行业

2. 政府行业

3. 金融行业

4. 制造行业

5. 医药卫生

6. 教育科研

7. 市场调研

8. 应用模型

9. 连锁零售

3. SPSS Modeler的安装与基础操作

1. SPSS Modeler软件的安装

2. 数据流基本操作

1. 生成数据流

2. 添加和删除节点

3. 连接数据流

4. 修改连接节点

5. 执行数据流

4. SPSS Modeler数据挖掘方法及高级操作

1. SPSS Modeler数据挖掘一般流程

1. 数据录入

2. 定义数据源

3. 数据理解

4. 数据准备

5. 探索分析

6. 数据建模

7. 模型评估

8. 研究结论

2. 数据录入方法及录入

1. 方法一:录入文本文件(可变文件、固定文件)

2. 方法二:录入Excel电子表格文件

3. 方法三:录入SPSS格式文件

4. 方法四:录入数据库数据(Oracle、MySQL、Sybased等)

5. 方法五:录入大数据库数据(HBase、Hive等)

3. 数据集成

1. 变量合并(增加变量)

2. 数据追加(添加记录)

4. 数据理解

1. 取值范围限定

2. 重复数据处理

3. 缺失值处理

4. 无效值处理

5. 离群点和极端值的修正

6. 数据质量评估

5. 数据准备1:数据处理

1. 数据筛选:数据抽样/选择(减少样本数量)

2. 数据精简:数据分段/离散化(减少变量的取值)

3. 数据平衡:正反样本比例均衡

4. 其它:排序、分类汇总

6. 数据准备2:变量处理

1. 变量变换:原变量值更新

2. 变量派生:生成新的变量

3. 变量精简:降维,减少变量个数

7. 基本数据分析

1. 单变量:数据基本描述分析

2. 双变量:相关性分析

3. 变量精简:特征选择、因子分析

8. 数据特征选择

1. 特征选择方法:选择重要变量,剔除不重要的变量

2. 从变量本身考虑

3. 从输入变量与目标变量的相关性考虑

9. 建立模型

1. 选择算法模型

2. 添加算法组件

3. 生成模型

10. 图形生成与制作

1. 散点图

2. 直方图

3. 网络图

4. 评估图

11. 模型评估

1. 模型评估设置

2. 模型分析和评估

3. 模型增益评估

4. 模型预测准确率

5. 数值修正

12. 研究结论

1. 给出分析结果

2. 进行目标分析

13. 案例分析:4G网络KPI指标分析

1. 研究方法

2. 数据分析

3. 研究结论



模块三:算法与建模篇—SPSS Modeler数据挖掘算法及数学建模方法

1. SPSS Modeler数据挖掘算法及数学建模方法介绍

1. 分类分析

2. 聚类分析

3. 关联分析

4. 线性回归分析

5. 时间序列分析

6. 因子分析

7. 决策树分析

8. 判别分析

9. 人工神经分析

10. 贝叶斯网络分析

11. 社交网络分析

2. 案例一:时间序列分析—PON网络带宽利用率预测

1. 目标与要求

1. 理解时间序列分析法的基本理论

2. 掌握时间序列分析法的建模步骤

3. 掌握使用SPSS Modeler进行时间序列分析的基本方法

4. 学会使用时间序列模型节点进行相应分析

2.

研究方法:根据时间序列模型分析某地区未来三个月电信市场PON网络带宽利用率的

预测值

3. 定义数据源

4. 数据理解

5. 数据准备

6. 建立模型

1. 模型定义

2. 模型应用

7. 建模步骤

1. 搜集历史资料并加以整理,编程时间序列,根据时间序列绘成统计图

2. 分析时间序列

3.

求时间序列的长期趋势、季节变动和不规则变动的值,并选定近似的数学模型

来代表它们

4. 利用时间序列资料求出长期趋势、季节变动和不规则变动的数学模型

5. 根据模型进行预测、评估和分析

8. 数据分析与模型评估

1. 模型残差

2. 添加散点图

3. 实际值与预测值比较

4. 模型预测值比较

9. 研究结论

3. 案例二:决策树分析—电信客户流失分析

1. 目标与要求

1. 理解决策树分析法的基本理论

2. 掌握决策树分析法的建模步骤

3. 掌握使用SPSS Modeler进行决策树分析的基本方法

4. 学会使用C5.0节点进行决策树分析

2.

研究方法:运用决策树算法中的C5.0算法得到电信客户流失预测模型,根据电信客户

资料,对数据进行挖掘,得出客户流失的原因和流失原因的大体分布。

3. 定义数据源

4. 数据理解

5. 数据准备

6. 建立模型

1. 模型定义

2. 模型应用

7. 建模步骤

1. 绘制树状图

2. 将各状态概率及损益值标于概率枝上

3. 计算各个方案期望值

4. 进行剪枝,比较各个方案的期望值

5. 根据模型进行预测、评估和分析

8. 数据分析与模型评估

1. 编译模型“分析”节点

2. 执行“分析”节点

9. 研究结论

4. 案例三:回归分析—电信客户流失因素分析

1. 目标与要求

1. 理解回归分析法的基本理论

2. 掌握回归分析法的建模步骤

3. 掌握使用SPSS Modeler进行回归分析的基本方法

4. 学会使用Logistic节点进行回归分析

2.

研究方法:根据电信客户流失的历史数据建立客户属性、服务属性、客户消费数据与

客户流失可能性关联的数学模型,找出客户属性、服务属性、客户消费数据与客户

流失最终状态的关系。

3. 定义数据源

4. 数据理解

5. 数据准备

6. 建立模型

1. 模型定义

2. 模型应用

7. 建模步骤

1. 确定变量

2. 建立预测模型

3. 进行相关分析

4. 计算预测误差

5. 确定预测值

6. 根据模型进行预测、评估和分析

8. 数据分析与模型评估

9. 研究结论



模块四:实战演练篇—SPSS Modeler算法及建模实战演练与操作

1. 实战演练项目

1. 实战项目一:分类分析—4G套餐类型与客户细分

2. 实战项目二:聚类分析—4G客户行为分析

3. 实战项目三:关联分析—4G产品关联分析

4. 实战项目四:因子分析—提取影响电信客户流失的主成分分析

5. 实战项目五:判别分析—电信客户群判别分析

6. 实战项目六:贝叶斯网络分析—4G手机主动营销分析

7. 实战项目七:人工神经网络—电信客户流失预测分析

8. 实战项目八:社交网络分析—客户流失预警分析

2. 要求与方法

1. 分组交流与讨论,每组自选一个项目进行演练;

2. 可以结合工作实际,自定实战项目;

3. 研究内容及练习数据材料各小组自行准备;

4.

按照数据录入、定义数据源、数据理解、数据准备、探索分析、数据建模、模型评估

、研究结论八大步骤,运用SPSS Modeler 14.1版本软件进行实战演练。



模块五:高级进阶篇—运用SPSS Modeler关联分析法提升4G网络满意度

1. 运用SPSS Modeler数据挖掘方法提升4G网络满意度的总体思路

2. 目标与要求

1. 理解关联分析法的基本理论

2. 掌握关联分析法的建模步骤

3. 掌握使用SPSS Modeler进行关联分析的基本方法

4. 学会使用Apriori算法进行关联分析

3. 研究方法:运用关联分析方法分析4G网络故障的产生与KPI指标之间的关联性

4. 数据采集方法与平台搭建

1. 4G网络数据输入-数据采集方法

1. 硬采集方式

2. 软采集方式

3. 硬采集与软采集方式对比

2. TD-LTE网络数据采集系统架构

1. 数据接入采集层

2. 协议处理层

3. xDR数据处理层

4. 呈现层

3. TD-LTE数据采集系统存储应用设备

1. 存储设备

2. 接口服务器

3. 应用服务器

4. 网管服务器

5. 数据库服务器

4. TD-LTE网络主要采集接口与协议

1. S1-C接口:S1AP、NAS协议

2. S1-U接口:GTPv1-U、SIP、HTTP等

3. S5/S8接口:GTPv2-C、GTPv1-U、PMIP

4. S6a接口:Diameter

5. S3接口:GTPv2-C

6. S4接口:GPTv2-C、GTPv1-U

7. S10接口:GTPv2-C

8. S11接口:GTPv2-C

9. SGi接口:DHCP、SIP、HTTP、Diameter等

10. Gx接口:Diameter

11. Rx接口:IP、Diameter

12. X2接口:X2AP、GTPv1-U

5. 数据智能化预处理及关联分析

1. 容量管理算法及流程

2. 质量分析及流程

1. 栅格分析

2. 与DT&CQT关联分析

3. 与容量的关联分析

4. 异常事件分析流程

5. 用户感知评估流程

6. 数据理解

7. 数据准备

8. 建立模型

1. 模型定义

2. 模型应用

9. 数据挖掘输出-网络方面

1. 网络质量/容量评估

2. 异常事件

10. 数据挖掘输出-用户与网络方面

1. 用户行为刻画

2. 网络感知评估

3. 建立网络健康档案库

11. 应用数据挖掘输出结果进行网络质量提升

1. 网络质量评估

2. 网络质量、容量预警

3. 网络问题精准定位

1. PDN连接(时延/成功率/失败原因)

2. 附着(时延/成功率/失败原因)

3. 服务请求(时延/成功率/失败原因)

4. 寻呼用户(时延/成功率/失败原因)

5. 缺省/专用承载建立(时延/成功率/失败原因)

6. SIP连接建立(时延/成功率/失败原因)

7. 专用承载建立

8. VoIP通过建立

12. 应用数据挖掘输出结果进行网络满意度提升

1. 决策依据

2. 用户感知评估

3. 投诉预处理

4. 客户关怀

5. 用户行为分析

13. 网络满意度评估-网络评估

1. 质量评估

2. 容量评估

3. 异常事件原因分析

4. 区域性/系统性问题精确定位

14. 网络满意度评估-感知评估

1. 感知评价体系建立

2. 用户行为刻画

3. 健康档案库建立

15. 网络满意度评估-网络预警

1. 话务、业务、流量模型建立

2. 质量预警:质量突变、呼吸效应

3. 容量预警:板件、无线资源

4. 网络规划建议

16. 网络满意度评估-服务支撑

1. 决策依据

2. 投诉处理分析

3. 客户关怀

4. 行为分析、市场支撑

17. 研究结论

18. 形成分析报告



模块六:撰写分析报告篇—如何撰写漂亮的数据分析报告

1. 数据分析思路与方法及案例分析

1. PEST分析法与案例分析

2. 5W2H分析法与案例分析

3. 逻辑树分析法与案例分析

4. 4P营销理论与案例分析

5. 用户使用行为理论与案例分析

2. 数据分析的基本方法

1. 定量分析

2. 定性分析

3. 战略分析

4. 竞争和客户分析

5. 环境分析

6. 评估分析

7. 财务分析

8. 宏观环境分析

9. 竞争定位分析

10. 竞标比超模式

11. 情景分析

12. 内容分析

13. 竞争预警

3. 数据分析报告的撰写

1. 撰写数据分析报告总体概述

1. 从公开资料及互联网中搜集信息的方法

2. 撰写数据分析报告的工作流程

2. 数据分析报告的撰写

1. 分析报告的结构和要求

2. 分析报告任务的组织实施:实施流程

3. 分析报告的编写:内容结构

3. 态势分析报告的撰写

4. 评价分析报告的撰写

5. 预测分析报告的撰写

6. 撰写报告对人员基本素质的要求

4. 演示部分优秀的分析报告



6. 课程总结:

一、重点知识回顾与总结

二、互动与讨论:问与答

就学员提出的问题进行分析、讨论、模拟演练和点评。

7. 讲师介绍:





分享
联系客服
返回顶部