人工智能大模型应用案例实战-3天

讲师:尹立庆 发布日期:05-23 浏览量:626


人工智能大模型应用案例实战

-15240011430课程简介

大模型也称为大语言模型(LLM)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。这些模型通常基于深度学习架构,如Transformer等,这有助于它们在各种NLP任务上取得令人惊叹的表现。目前的大语言模型(如GPT和BERT)采用与小模型类似的Transformer架构和预训练目标(如 Language Modeling),与小模型的主要区别在于增加模型大小、多模态、训练数据和计算资源。

ChatGPT是一款由OpenAI开发的大模型,它能够模拟人类的语言行为,与用户进行自然的交互。它的名称来源于它所使用的技术GPT-4架构,即生成式语言模型的第4代。

ChatGPT的核心技术是GPT-4架构。它通过使用大量的训练数据来模拟人类的语音行为,并通过语法和语义分析,生成人类可以理解的文本。它可以根据上下文的语境,提供准确和恰当的回答,并模拟多种情绪和语气。这样,就可以让用户在与机器交互时,感受到更加真实和自然的对话体验。

ChatGPT的应用场景也很广泛。它可以用于处理多种类型的对话,包过对话机器人、问答机器人和客服机器人等。它还可以用于各种自然语言处理任务,比如文本摘要、情感分析和信息提取等。例如,在一个问答系统中,ChatGPT可以提供准确的答案,解决用户的疑惑;在一个客服机器人中,他可以帮主用户解决问题,提供更好的服务体验。

此课程是尹立庆老师多年人工智能工作经验的分享,重点介绍大模型以及揭开大模型的神秘面纱,大模型未来发展趋势和投资机会。

-15240011430培训目标

大模型软硬件架构、分层;

介绍主流编程框架(和硬件结合);

各大主流大模型适用场景,优劣势;

大模型调参;

openai接口介绍使用;

针对企业应用和软件开发或工业场景的实战;

大模型调小模型示例,全程演示;

大模型幻觉介绍。

-15240011430培训对象



本课程适合于对大模型、ChatGPT的原理感兴趣的人员;

本课程适合于架构师、技术经理、高级工程师;

适合于企业科技研发人员和人工智能科学家;

-15240011430培训方式



以课堂讲解、演示、案例分析为主,内容偏实用,结合讲解与演示方式,循序渐进,辅以互动研讨、现场答疑、学以致用。

-15240011430课程安排



课程时间:3天

课程内容:

时间

内容

备注

第1天

大模型软硬件架构、分层(深入讲解大模型软硬件架构、分层)(90分钟)

大模型软硬件架构、分层

大模型的工作原理

大模型的软件架构

Transformer架构

深度学习架构

大模型的硬件架构

NVIDIA GPU大语言模型架构

NVIDIA的A100或H100 GPU

NVIDIA的Megatron-LM大模型框架

NVIDIA大模型框架TensorRT-LLM

Google大模型架构

Google的TPU大规模硬件架构

主流大模型训练架构GPU+PyTorch+Megatron-LM+DeepSpeed

大模型的训练方法

数据准备、模型训练、调优

介绍主流编程框架(和硬件结合)(深入讲解介绍主流编程框架(和硬件结合))(90分钟)

介绍主流编程框架(和硬件结合)

主流大模型训练架构GPU+PyTorch+Megatron-LM+DeepSpeed

大模型技术原理

大模型分布式训练框架

常用的分布式训练框架

Megatron-LM

DeepSpeed

Megatron-LM

DeepSpeed

3D并行化实现万亿参数模型训练

DeepSpeed三种并行方法

数据并行训练

模型并行训练

流水线并行训练

ZeRO零冗余优化器

如何选择一款分布式训练框架

常见的分布式训练框架

TensorFlow

PyTorch

MindSpore

Oneflow

PaddlePaddle

Flax

Megatron-LM(张量并行)

DeepSpeed(Zero-DP)

Colossal-AI(高维模型并行)

Alpa(自动并行)

训练超大规模语言模型主要技术路线

GPU + PyTorch + Megatron-LM + DeepSpeed

TPU + XLA + TensorFlow/JAX

参数高效微调(PEFT)技术

影响大模型性能的主要因素

衡量大模型水平

深度学习框架Pytorch

大模型编程选择Pytorch的理由

Pytorch的大模型应用案例

深度学习算法设计通用流程

PyTorch与Tensorflow对比

大模型分布式并行计算技术(大模型分布式并行计算技术)(60分钟)

大模型分布式并行计算技术

数据并行DP(Data Parallel)

分布式数据并行 DDP (Distribution Data Parallel)

张量并行

流水并行

G-pipe

PipeDream

virtual pipeline

梯度累加

激活检查点

ZeRO

MPI、GLOO和NCCL等通信策略

大模型生态相关技术

英伟达GPU+CUDA架构(英伟达GPU+CUDA架构)(60分钟)

英伟达GPU+CUDA架构

英伟达集合通信库NCCL

通讯操作原语

广播Broadcast

数据散播Scatter

规约运算Reduce

AllReduce

数据收集Gather

AllGather

ReduceScatter

Nvlink

显存优化技术

重计算(Recomputation)

Activation checkpointing(Gradient checkpointing)

卸载(Offload)技术

ZeRO-Offload

ZeRO-Infinity

混合精度(BF16/FP16)

大模型分布式训练环境搭建(大模型分布式训练环境搭建)(60分钟)

AI大模型分布式集群

AI大模型分布式集群通信

大模型分布式训练环境搭建

GPU服务器配置

CPU硬件配置清单

GPU硬件配置清单

AI处理器(加速卡)

安装依赖包

配置环境

时间

内容

备注

第2天

Pytorch大模型实践案例(深入剖析深度学习框架Pytorch大模型实践案例)(90分钟)

Pytorch大模型实践案例

Tensor以及相关的函数

Autograd机制以及相关函数

Torch.nn库

Tensor操作函数

AutoGrad自动求导

神经网络相关函数

导数,方向导数,偏导数,梯度等

PyTorch搭建深度神经网络

使用PyTorch搭建手写数字识别

数据处理

模型搭建

模型训练

数据预测与识别

各大主流大模型适用场景,优劣势(深入讲解各大主流大模型适用场景,优劣势)(90分钟)

各大主流大模型适用场景,优劣势

各大主流大模型适用场景,优劣势

ChatGPT-4大模型发展现状

Sora大模型发展现状

谷歌PaLM 2 AI大模型发展现状

Claude大模型发展现状

LLaMA大模型发展现状

MidJournery大模型发展现状

各大主流大模型适用场景,优劣势

百度文心一言

百度文心一格

阿里巴巴通义千问

华为盘古

科大讯飞星火

AIGC大模型

ChatGPT

GPT4

文心一言

Google bard

DALL-E

本地模型

清华大学ChatGLM

Facebook LLaMa

Stable Diffusion

斯坦福Alpaca

OpenJourney

垂直领域产品

方问智能中医辅助系统

国内大模型应用建议(深度解读国内大模型应用建议)(60分钟)

百度文心一言应用建议

阿里巴巴通义千问应用建议

华为盘古应用建议

科大讯飞星火应用建议

大模型调参(深入讲解大模型调参)(90分钟)

大模型调参

NVIDIA GPU加速和优化大语言模型的性能

大模型微调

大模型微调的概念和意义

预训练模型的优势和应用场景

大模型微调基本原理

大模型微调方法

数据加载、模型训练、调参等常见操作的优化和加速方法

使用可视化工具进行模型训练过程的分析和调试

大模型微调的基本流程和关键步骤

常用的深度学习框架和工具

TensorFlow、PyTorch等常见深度学习框架

Parameter-Efficient Fine-Tuning (PEFT)

预训练阶段

目标任务准备

构建微调任务

PEFT微调

常用的PEFT方法

Adapter Tuning

Prefix Tuning

Prompt Tuning

P-Tuning

LoRA

案例剖析:应用大模型微调技术解决实际问题

大模型微调技术与实践(大模型微调技术与实践)(30分钟)

大模型微调技术与实践

常见的大模型微调技术

知识蒸馏

迁移学习

领域适应

案例大模型微调的实践

文本分类

图像识别

自然语言处理

探讨大模型微调过程中可能遇到的问题和解决方案

选择合适的预训练模型并进行微调

如何评估微调效果和改进方案

实际应用案例分享与讨论

时间

内容

备注

第3天

openai接口介绍使用(深入讲解openai接口介绍使用)(90分钟)

openai接口介绍使用

获取OpenAI API密钥

选择OpenAI API

安装OpenAI SDK

调用OpenAI API

处理OpenAI API响应

优化API调用

管理API使用

反馈和改进

实战案例:Python调用OpenAI API实战案例

针对企业应用和软件开发或工业场景的实战(深入讲解针对企业应用和软件开发或工业场景的实战)(90分钟)

针对企业应用和软件开发或工业场景的实战

大模型的企业应用场景

望闻问切

视觉、听觉、触觉、语言、思考

文本生成

生成式对话、编写剧本、撰写论文

文本理解

情感分析、主题分类、关系提取

语义理解、问答系统

图像理解与图像生成

语音识别与语音合成

企业智能客服

视频理解与视频生成

大模型应用的工业场景的实战

智能制造和质量控制

供应链优化

客户服务和支持

智能能源管理

产品推荐和个性化营销

安全监控和风险管理

生产优化和预测维护

企业提高生产效率、降低成本

改善产品质量和客户体验

增强竞争力并实现可持续发展

大模型的应用中应该重点关注什么

大模型调小模型示例,全程演示(深入讲解大模型调小模型示例,全程演示)(90分钟)

大模型调小模型示例,全程演示

模型压缩(蒸馏、剪枝)

知识蒸馏

剪枝大模型

大模型蒸馏

提示语压缩

联合推理

模型串联

数据采样

迁移学习

权值共享

集成学习

将小模型作为插件

提示语压缩

大模型幻觉介绍(深入讲解大模型幻觉介绍)(90分钟)

大模型幻觉介绍

什么是大模型幻觉

大模型幻觉分类

事实性幻觉

忠实性幻觉

大模型产生幻觉的来源

数据源、训练过程和推理

预训练阶段导致大模型幻觉

架构缺陷

曝露偏差

能力错位

信念错位

检测事实性幻觉的方法

检索外部事实

不确定性估计

基于内部状态的方法

基于行为的方法

检测忠实性幻觉的方法

基于事实的度量

分类器度量

问答度量

不确定度估计

提示度量

深度解读glm2_6b大模型(深度解读glm2_6b大模型)(90分钟)

深度解读glm2_6b大模型

glm2_6b大模型的原理

GPT(Generative Pre-trained Transformer)架构

glm2_6b大模型数据集

glm2_6b大模型的部署

准备环境

安装依赖库

下载模型权重

加载模型

部署API或服务

调优和监控

glm2_6b大模型的训练

glm2_6b大模型的应用

自然语言处理

文本生成

机器翻译

问答系统

分享
联系客服
返回顶部