大语言模型技术-原理与实践3天(1)

讲师:叶梓 发布日期:03-03 浏览量:233


大语言模型技术原理与实践

【课程简介】

本课程旨在通过实际案例展示ChatGPT、ChatGLM、Langchain等相关大语言模型的具体应用场景及实践技巧,从而帮助学习者深入了解和掌握大语言模型的概念和更广泛的应用,深入理解其工作方式,包括其基础知识、核心算法和实现方式,掌握其在各行业领域中的应用情况等。

该课程适合于对大语言模型技术感兴趣的学习者,从初学者到进阶者均可受益。经过本课程的学习,获得相关技术实战经验,通过一系列的实践案例提高利用大模型解决实际问题能力。

【课程时长】

3天(6小时/天)

【课程对象】

理工科本科及以上,且至少了解一门编程语言。

【课程大纲】(培训内容可根据客户需求调整)

时间

内容

案例实践与练习

Day1上午

Transformer基础

1、你需要的仅仅是“注意力”

2、Transformer中的block

3、自注意力机制

4、多头注意力

5、位置编码(抛弃RNN)

6、Batch Norm与Layer Norm

7、解码器的构造

初代GPT

“独角兽”的威力

GPT的内部架构

基于Transformer的改造

自注意力机制的改进

GPT的演进

1、GPT-2

2、GPT-3

3、GPT-3.5

4、GPT-4

Day1下午

强化学习基础

马尔科夫奖励/决策过程

状态行为值函数

Bellman方程

DP、MC、TD三者的关系

策略梯度方法

信赖域系方法背景

PPO方法

chatGPT的原理介绍

1、指示学习与InstructGPT

2、相关数据集

3、有监督微调(SFT)

4、从人类反馈中RL的思路

5、奖励建模(RM)

6、运用PPO改进

Day2上午

ChatGLM部署

1、ChatGLM3-6B介绍

2、ChatGLM3搭建流程

3、应用场景(工具调用、代码执行)

4、权重量化

ChatGLM3原理

1、Code Interpreter

2、多模态CogVLM

3、WebGLM搜索增强

微调大模型

1、基于chatGLM的微调

2、LoRA

3、Prefix Tuning

4、P-Tuning

5、Prompt Tuning

6、freeze

7、构建训练数据集

Day2下午

其他开源大模型

1、LLaMA系列

2、通义千问(qwen)

3、零一万物(Yi)

llama-factory微调大模型

1、工具的主要功能

2、支持的模型

3、数据集准备

4、微调策略(LoRA, QLoRA, PEFT)

Day3上午

学习LangChain所需的知识储备

1、词嵌入与语义空间

2、高维向量的快速模糊匹配

3、局部敏感哈希(LSH)

4、向量数据库

LangChain的原理

1、大模型利用的难点与痛点

2、Langchain的基本思路

3、关键组件

Day3下午

LangChain的实操

1、环境搭建

2、知识库向量化与存储

3、问句向量化与初步匹配

4、合成prompt(提示词)

5、提交给LLM生成答案

大语言模型的其他应用

1、kimi chat

2、coze

3、文心一格与通义万相

分享
联系客服
返回顶部