多模态大语言模型实践特训营

发起人: 岸岸 发起时间:2023年11月03日 当前状态:报名中

是否想要学习如何利用多模态大语言模型(MLLM)来处理和生成各种类型的数据,如文本、图像、音频、视频等?您是否想要了解MLLM的原理和方法,以及它们在不同领域和任务中的应用和效果?您是否想要动手尝试微调和使用MLLM,以及探索它们的创造性和智能性?


如果您的答案是肯定的,那么欢迎您报名参加我们的课程:多模态大语言模型(MLLM)的入门与实践。
近来,多模态大语言模型(Multimodal Large Language Model,MLLM)受到广泛关注,成为一个新兴的研究热点。MLLM通常以大语言模型(Large Language Model,LLM)为基础,融入其它非文本的模态信息,完成各种多模态任务。


这门课程将为您提供丰富的理论知识和实践经验,让您能够快速上手并深入掌握MLLM。无论您是初学者还是进阶者,无论您是学生还是工程师,无论您是研究者还是创作者,这门课程都将为您打开一个全新而广阔的多模态世界。


课程内容


Day1 多模态大语言模型(MLLM)的入门

• 什么是MLLM?与LLM有什么区别?
   MLLM是一种能够处理多种类型的数据(如文本、图像、音频、视频等)的人工智能模型,它可以在不同的模态之间进行关联和推理,实现更丰富和灵活的交互。
   LLM是一种只能处理文本数据的人工智能模型,它可以在大量的文本语料中学习语言知识和规律,实现自然语言理解和生成。

• MLLM有什么应用场景?
   MLLM可以应用于多种领域和任务,如搜索引擎、智能问答、图像描述、视频理解、语音识别、机器翻译、内容创作等。

• 目前MLLM的发展情况
   MLLM是近年来人工智能领域的热门研究方向,已经出现了许多优秀的MLLM模型,它们在不同的任务和数据集上都取得了令人惊叹的效果。

• 实践:部署试用并比较几个常用的MLLM模型,感受MLLM的效果
   通过在线平台或本地环境,安装并运行几个常用的MLLM模型,通用领域的多模态大模型MiniGPT-4、mPLUG-Owl、Multimodal-GPT和LLaVA,医学领域的XrayGLM等。
   通过输入不同的指令或上下文,观察并分析MLLM模型的输出结果,比较它们在不同模态之间的关联和推理能力。

Day2 详解LM的指令微调和上下文学习
• 多模态指令微调(Multimodal Instruction Tuning,M-IT)
   M-IT是一种利用少量的指令数据对MLLM进行微调的方法,它可以让MLLM根据用户给定的指令生成相应的输出结果,如文本、图像、音频等。
   M-IT可以提高MLLM的可控性和灵活性,让用户可以根据自己的需求定制MLLM的行为。

• 多模态上下文学习(Multimodal In-Context Learning,M-ICL)
   M-ICL是一种利用少量的上下文数据对MLLM进行微调的方法,它可以让MLLM根据用户给定的上下文生成相应的输出结果,如文本、图像、音频等。
   M-ICL可以提高MLLM的适应性和泛化性,让用户可以根据自己的场景应用MLLM到不同的任务中。

• 实践:动手微调一个MLLM;M-ICL项目讲解
   通过在线平台或本地环境,选择一个合适的MLLM模型,如MiniGPT-4、mPLUG-Owl、Multimodal-GPT和LLaVA等,并准备一些指令或上下文数据。
   通过M-IT或M-ICL方法对MLLM进行微调,并测试微调后的MLLM在不同指令或上下文下的输出结果。
   通过一个实际的M-ICL项目案例,了解M-ICL在实际应用中的优势和挑战。

Day3 详解MLLM的思维链,多模态中的视觉推理原理
• 多模态思维链(Multimodal Chain of Thought,M-CoT)
   M-CoT是一种利用MLLM进行多步推理的方法,它可以让MLLM根据一个初始的输入,生成一系列的中间结果,最终得到一个综合的输出结果,如文本、图像、音频等。
   M-CoT可以提高MLLM的创造性和智能性,让用户可以探索MLLM的潜在能力和可能性。

• LLM辅助的视觉推理(LLM-Aided Visual Reasoning,LAVR)
   LAVR是一种利用LLM辅助MLLM进行视觉推理的方法,它可以让MLLM根据一个视觉输入(如图像、视频等),生成一个文本描述,并利用LLM对文本描述进行分析和推理,最终得到一个视觉推理的输出结果(如文本、图像、音频等)。
   LAVR可以提高MLLM的准确性和可解释性,让用户可以理解MLLM的视觉推理过程和结果。

• 实践:M-CoT的前沿研究项目讲解;LAVR与统视觉推理模型对比
   我们将介绍一些基于M-CoT的前沿研究项目,如:
   DALL-E Mini: 一个能够根据文本提示生成图像,并根据图像生成文本 的小型版本的DALL-E。
   Text2Shape: 一个能够根据文本描述生成三维物体,并根据三维物体生成文本描述 的系统。
   Text2Video: 一个能够根据文本故事生成视频,并根据视频生成文本故事 的系统。
   还将使用一些视觉推理数据集,如CLEVR 和GQA,来对比LAVR与传统的视觉推理模型 的性能和优劣。

Day4 更多的模态:音视频解决方案
• 语音大语言模型 
   语音大语言模型是一种能够处理语音数据的人工智能模型,它可以在大量的语音语料中学习语音知识和规律,实现语音识别和生成。
   语音大语言模型可以应用于多种领域和任务,如语音搜索、语音翻译、语音合成、语音对话等。

• 视频大语言模型
   视频大语言模型是一种能够处理视频数据的人工智能模型,它可以在大量的视频语料中学习视频知识和规律,实现视频理解和生成。
   视频大语言模型可以应用于多种领域和任务,如视频搜索、视频摘要、视频编辑、视频生成等。

• 实践:前沿的音视频大语言模型项目拆解
   通过几个前沿的音视频大语言模型项目,了解音视频大语言模型在不同任务中的应用和效果,并探索它们与其他模态之间的关联和互动。
   如:HuBERT: 一个能够根据语音数据生成文本,或根据文本数据生成语音的语音大语言模型;DALLE: 一个能够根据视频数据生成文本,或根据文本数据生成视频的视频大语言模型;CoVoST: 一个能够根据一种语言的语音数据翻译成另一种语言的语音数据的语音翻译系统。


报名后我们组成师生交流微信群,大家也可以互动讨论提议一些课程内容,老师尽量满足大家的要求。

课程讲师:
黄志洪(tigerfish),数据库专家,数据分析专家,有丰富的IT领域、数学领域的知识经验。知名数据库网站ITPUB创始人,知名数据分析网站炼数成金创始人。ITPUB在其十几年历史中为中国IT业特别是数据库行业输送了大量人才,其中不乏今天在行业里叱咤风云的佼佼者,因此被誉为数据库业的黄埔军校。后来创建炼数成金,言传身教,亲自讲授大数据,数据库,数据分析,人工智能等方面的几十门课程,本身也在华南著名学府中山大学任教多年,桃李满天下。引领无数弟子进入业界,朋友圈遍及业界重要人士,广受尊重。

培训时间:
2023年12月16、17、23、24日(2个周六日,两天共约24个学时)

授课形式:
网络直播课程(国内外和各城市的朋友们均可参与课程,让学习不受地域的限制)
         
参训特享福利:

1、获赠炼数成金AIGC爱好者钉钉群中GPT4的一年使用权
2、独家学习资料:教研团队精心准备的课程相关的学术性资料
3、专属微信群:专属微信交流群,与老师近距离沟通,群永久存在,不解散

培训费用:
全价2980,早报名多优惠 !优惠截止时段和价格如下

截止时间
11月5日-11月16日  
11月17日-12月3日
12月4日至课程结束
报名费
2580
2780
2980


近期已经上线和计划上线的相关课程如下:

逆向返还网课:
大语言模型部署(第一期)
反内卷神器之RPA特训(第一期)
基于大模型的AI Agent应用实战(第一期)
多模态LLM与promot技巧(待上线)

特训营课程:
AIOPS技能特训(待上线)
Transformer模型内幕(待上线)
扩散模型内幕(待上线)

        
培训FAQ
Q:涉及的实战部分讲得细致吗?
A:会讲到代码级 ,听众必须使用电脑搭建好环境以便参与动手实践,我们在课程会公布统一实验环境要求
        
Q:学习这个课程需要什么基础?怎么确定我是否具备这个基础?
A:理论上不需要很多基础,达到炼数成金《机器学习》课程内容水平即可,在报名后助教老师会对参与者进行辅导,基础完全不是问题。
        
全国统一咨询热线 4008-010-006
咨询QQ:  2222010060,2222010006 (上班时间在线)
咨询Email :kefu@dataguru.cn


最近报名

  • lapack

  • relax

  • xuxu840124

  • lingyimeier

  • leshushu

  • renyong2015

  • deadmu

  • oraclesmith

  • Liming.Zhang

  • maofeng

  • jjsuc

  • bowangphysics

  • 1009894124

  • xenron

  • 山林隐逸

  • xuetao365

  • wj972520

  • coolbee_xu

  • 朱建华

  • annierwu

  • 小金风

  • azddza

  • runtizi

开课时间

2023年12月16日

席位有限, 仅剩 77 个席位

报名中
  • 23%
    完成度
  • 23人
    报名人数
  • 11天
    剩余天数

获得如下服务:

参训特享福利:

1、获赠炼数成金AIGC爱好者钉钉群中GPT4的一年使用权
2、独家学习资料:教研团队精心准备的课程相关的学术性资料
3、专属微信群:专属微信交流群,与老师近距离沟通,群永久存在,不解散

 
QQ在线咨询
售前咨询热线
4008-010-006
联系项目经理
点击这里给我发消息

 

GMT+8, 2023-12-5 04:38 , Processed in 0.044350 second(s), 17 queries .