当前位置：PMdiss 无【报告】Sora划时代：算力应用再加速.pdf

Sora划时代：算力应用再加速

Sora是由OpenAI发布的文生视频大模型，此模型发布预示着大模型时代进阶。

Sora能够仅仅根据提示词，生成60s的连贯视频，远超行业目前大概只有平均“4s”的视频生成长度。Sora的出现，预示着一个全新的视觉叙事时代的到来，它能够依据客户的文本提示，将人们的想象力转化为生动的动态画面。Sora作为一款通用的视觉数据模型，其卓越之处在于能够生成跨越不同持续时间、纵横比和分辨率的视频和图像，甚至包括生成长达一分钟的高清视频。

Sora打造虚拟世界模拟器

Sora采用了Transformer架构，该架构对视频的时空序列包和图像潜在编码进行操作。随之诞生的最强大模型Sora，

也就具备了生成一分钟高质量视频的能力。扩展视频生成模型的规模，是构建模拟物理世界通用模拟器的非常有希望的方向。

多模态+自动驾驶：彻底改变人车交互

商汤提出了DriveMLM模型，它和现有自动驾驶系统行为规划模块中的决策状态对齐，可实现闭环测试中操控车辆，超过之前的端到端和基

于规则的自动驾驶系统方法。

首先它将LLM的语言决策输出，和成熟模块化方案中规控部分的决策状态对齐，由此LLM输出的语言信号就可转化为车辆控制信号。

其次，DriveMLM的MLLM planner模块，包含多模态分词器（Multi-modal tokenizer）和MLLM解码器两个部分。

前者负责将摄像头、激光雷达、用户语言需求、交通规则等各种输入转化为统一的token embedding；后者，即MLLM解码器则基于这里生成的token，再生成图片描述、驾驶决策和决策解释等内容。

多模态+广告（电商）：创造多样化营销卖点

利用AI技术进一步提升数字人的多样性，比如人脸替换、背景替换、口音语音替换去适配我们的prompt，最后脚本、数字人唇形替换、背景替换、人脸替换，视频压制之后，就可以得到一个口播视频。客户得以利用数字人的方式去介绍产品对应的一些营销卖点。这样3分钟即可做好一个数字人，极大地提升了广告主做数字人的能力。

大模型还可以帮助商业实现营销海报的生成和商品背景的替换。通过大数据的训练之后，客户还希望有一些特别个性化的东西，未来还需要加入一些微调的方式。

多模态+教育：提升教学效率，加强人机互动

教学资源自动生成：在教学资源自动生成方面，当前通用领域的多模态大模型已展现出一定的能力。Stable Diffusion等图像生成模型，可以依据教学需求输入主体及其细节的文本描述，快速自动生成多种风格、高清逼真、蕴含美感的美育类教学资源，所生成的教学资源既具备显著的跨模态性，又具有新颖性与独特性。
人机协同过程支持：当前通用领域的多模态大模型也已展现出良好的潜力。在知识问答方面，百度提出的ERNIE大模型可以对领域实体知识与专业术语进行知识增强，并利用问答匹配任务进行模型训练，从而深入理解领域知识及其内在联系。
教师教学智能辅助：在利用大模型开展教师教学智能辅助方面，当前工业界和学术界也已开始进行积极的探索。好未来基于教师线上教学语音转写产生的约2000万条教育文本数据，构建了在线教学大模型TAL-EduBERT。

郑重声明

本资源来源于互联网，仅限于个人学习和研究，将于24小时后删除！

如本资源涉及到侵犯您的权利，请联系我们删除！