多模态大模型原理与实践提纲
讲师:叶梓 发布日期:03-03 浏览量:343
多模态大模型原理与实践提纲
培训需要解决的问题
移动云盘紧跟前沿技术用AI全面重塑云盘“采传存处用”场景,探索对文本、图片、笔记、视频、音频等数字内容的智能化赋能。通过本次培训,拓展对多模态AI应用领域的视野,帮助团队聚焦AI赋能创新突破,提升对资产管理AI服务的技术认知与理解,更好地助力业务智能化业务建设。
培训要求
已开展两期的大语言模型培训,在此基础上开展一期多模块方面结合大语言模型的通用生成类技能培训。
培训课程重点内容:①CLIP、SD;②结合中移的用户资产对“视频生成,音频生成和音频总结”部分可以进行前瞻性的技术分析和研讨;③希望结合公司业务来讲解。
基础知识部分可不讲或略讲,文生视频技术目前不太成熟,只略讲概念部分
培训时长
1天
培训提纲
第1部分:多模态学习概述
多模态学习的定义
多模态学习的意义
多模态数据类型:文本、图像、视频、音频等
多模态学习的应用领域(自然语言处理、计算机视觉、推荐系统等)
第2部分:ViT、Beit与CLIP/BLIP
ViT模型架构概述
Patch Embedding与Positional Encoding
Beit与ViT的比较
Beit在自监督学习中的应用
Beit在多模态任务中的优势
实践演示:利用ViT和Beit进行图文转化的效果
CLIP模型介绍:从图像到文本的跨模态嵌入
BLIP模型架构:结合CLIP的多模态模型
CLIP/BLIP在多模态任务中的应用:图像-文本匹配、图像标注等
实践演示:使用CLIP进行图像-文本匹配任务
第3部分:Stable Diffusion及SD XL
Stable Diffusion模型概述:生成模型在图像生成中的应用
SD的原理推导
SD模型的架构
Stable Diffusion XL:扩展的Stable Diffusion模型
微调扩散模型:DreamBooth微调扩散模型:Textual-Inversion
微调扩散模型:LoRA微调扩散模型:Hypernetworks
Stable Diffusion在艺术创作和设计中的应用
实践演示:使用Stable Diffusion生成图像
第4部分:微调与RLHF方法
微调的基本概念
SFT:监督微调方法
PEFT的概念
P-tuning v2 / LoRA / Freeze等
微调方法在多模态学习中的应用
实践演示:对多模态大模型进行微调
第5部分:与人类偏好对齐
强化学习基础概述
DPO:直接偏好优化
PPO:近端策略优化
llama-factory简介
实践演示:利用llama-factory对大模型进行RLHF
第6部分:多模态大模型
qwen_vl_chatYi_vl_chatLLaVaopen-sora
chatTTS实践演示:使用qwen_vl和Yi_vl_chat进行视觉问答任务
第7部分:结合中移业务的开放讨论
用户资产管理所需的多模式模型
各种AI技术在用户资产管理中的应用