【报告】Sora划时代:算力应用再加速.pdf

Sora划时代:算力应用再加速

Sora是由OpenAI发布的文生视频大模型,此模型发布预示着大模型时代进阶。

Sora能够仅仅根据提示词,生成60s的连贯视频,远超行业目前大概只有平均“4s”的视频生成长度。Sora的出现,预示着一个全新的视觉叙事时代的到来,它能够依据客户的文本提示,将人们的想象力转化为生动的动态画面。Sora作为一款通用的视觉数据模型,其卓越之处在于能够生成跨越不同持续时间、纵横比和分辨率的视频和图像,甚至包括生成长达一分钟的高清视频。
 

 

【报告】Sora划时代:算力应用再加速.pdf

 

Sora打造虚拟世界模拟器

Sora采用了Transformer架构,该架构对视频的时空序列包和图像潜在编码进行操作。随之诞生的最强大模型Sora,
也就具备了生成一分钟高质量视频的能力。扩展视频生成模型的规模,是构建模拟物理世界通用模拟器的非常有希望的方向。
 

多模态+自动驾驶:彻底改变人车交互

商汤提出了DriveMLM模型,它和现有自动驾驶系统行为规划模块中的决策状态对齐,可实现闭环测试中操控车辆,超过之前的端到端和基
于规则的自动驾驶系统方法。
  • 首先它将LLM的语言决策输出,和成熟模块化方案中规控部分的决策状态对齐,由此LLM输出的语言信号就可转化为车辆控制信号。
  • 其次,DriveMLM的MLLM planner模块,包含多模态分词器(Multi-modal tokenizer)和MLLM解码器两个部分。
  • 前者负责将摄像头、激光雷达、用户语言需求、交通规则等各种输入转化为统一的token embedding;后者,即MLLM解码器则基于这里生成的token,再生成图片描述、驾驶决策和决策解释等内容。

多模态+广告(电商):创造多样化营销卖点

  • 利用AI技术进一步提升数字人的多样性,比如人脸替换、背景替换、口音语音替换去适配我们的prompt,最后脚本、数字人唇形替换、背景替换、人脸替换,视频压制之后,就可以得到一个口播视频。客户得以利用数字人的方式去介绍产品对应的一些营销卖点。这样3分钟即可做好一个数字人,极大地提升了广告主做数字人的能力。
  • 大模型还可以帮助商业实现营销海报的生成和商品背景的替换。通过大数据的训练之后,客户还希望有一些特别个性化的东西,未来还需要加入一些微调的方式。

多模态+教育:提升教学效率,加强人机互动

  • 教学资源自动生成:在教学资源自动生成方面,当前通用领域的多模态大模型已展现出一定的能力。Stable Diffusion等图像生成模型,可以依据教学需求输入主体及其细节的文本描述,快速自动生成多种风格、高清逼真、蕴含美感的美育类教学资源,所生成的教学资源既具备显著的跨模态性,又具有新颖性与独特性。
  • 人机协同过程支持:当前通用领域的多模态大模型也已展现出良好的潜力。在知识问答方面,百度提出的ERNIE大模型可以对领域实体知识与专业术语进行知识增强,并利用问答匹配任务进行模型训练,从而深入理解领域知识及其内在联系。
  • 教师教学智能辅助:在利用大模型开展教师教学智能辅助方面,当前工业界和学术界也已开始进行积极的探索。好未来基于教师线上教学语音转写产生的约2000万条教育文本数据,构建了在线教学大模型TAL-EduBERT。

 

郑重声明

本资源来源于互联网,仅限于个人学习和研究,将于24小时后删除!

如本资源涉及到侵犯您的权利,请联系我们删除!

收藏

发表评论

PMdiss