
豆包视频生成模型Seedance1.0 lite发布:生成质量大幅提升

【太平洋科技快讯】5月13日,火山引擎在FORCE LINK AI 创新巡展上海站活动中,正式发布了一系列AI模型升级产品,包括豆包・视频生成模型 Seedance 1.0 lite、豆包 1.5・视觉深度思考模型以及豆包・音乐模型。这一系列产品的推出,标志着火山引擎通过更全面的模型矩阵和更丰富的智能体工具,进一步助力企业打通从业务到智能体的应用链路,加速智能化转型。
Seedance 1.0 lite:
此次发布的AI模型中,豆包视频生成模型系列的新成员——Seedance 1.0 lite尤为引人注目。作为该系列中的小参数量版本,Seedance 1.0 lite在技术上实现了两大突破:一是影视级的视频生成质量,二是视频生成速度的大幅提升,兼顾效果、速度和性价比。具体而言,该模型支持文生视频和图生视频两种生成方式,视频生成时长可选择5秒或10秒,分辨率提供480P和720P两种选项。
Seedance 1.0 lite具备更精准的指令遵循能力,通过强大的语义理解能力,可以精细控制人物的外貌气质、衣着风格、表情动作等细节。例如,用户可以通过简单的文本描述生成一个穿着职业装、微笑着向观众挥手的人物形象。此外,该模型在多主体动作解析、嵌入式文本响应、程度副词和镜头切换响应等方面也具有显著优势,能够生成更加自然、逼真的视频内容。
值得一提的是,Seedance 1.0 lite还支持丰富的影视级运镜技术,包括360度环绕、航拍、变焦、平移、跟随、手持等多种镜头语言。其生成的视频不仅具备细腻高清的基础画质,还融入了影视级美感。在运动交互方面,该模型通过分析动作时序与空间关系,提升了人物和物体之间自然流畅的交互动作,使运动轨迹和受力反馈更加符合现实规律。
Seedance 1.0 lite的应用范围广泛,涵盖电商广告、娱乐特效、影视创作、动态壁纸等多个领域。例如,在电商领域,商家可以利用该模型快速生成高质量的营销视频素材,精准匹配产品展示和活动推广等场景,从而有效降低制作成本和周期。据估算,相比传统视频制作方式,使用Seedance 1.0 lite可将制作时间缩短70%,成本降低60%。
豆包1.5:
豆包 1.5・视觉深度思考模型是一款激活参数仅20B的多模态模型。在60个公开评估基准中,该模型在38个方面取得了最佳成绩(SOTA),尤其在视频理解、视觉推理和GUI Agent能力方面表现突出。
在视频理解方面,豆包 1.5・视觉深度思考模型采用动态帧率采样技术,显著提升了视频时序定位的准确性。结合向量搜索功能,模型能够精确识别视频中与文本描述相匹配的片段,为视频内容的深入分析和检索提供了有力支持。例如,当用户输入“寻找视频中人物拿起杯子的瞬间”时,模型可在几秒钟内完成定位。
此外,该模型还具备视频深度思考能力。通过学习数万亿多模态标记数据,模型积累了丰富的视觉知识,并结合强化学习技术,显著增强了视觉推理能力。例如,在复杂的图形推理任务中,模型能够自主提出假设、进行推理验证,并在发现与假设不符时,不断反思并提出新的假设,直至得出正确答案。这种能力在自动驾驶、安防监控等领域具有重要应用价值。
值得一提的是,豆包 1.5・视觉深度思考模型还新增了GUI Agent功能。凭借其强大的GUI定位能力,该模型能够在PC端、手机端等多种不同环境中执行复杂的交互任务。例如,它可对新开发的App功能进行自动化测试,目前该功能已在字节跳动多款App产品的开发测试中得到应用,平均测试效率提升超过50%。
豆包音乐模型:
此外,火山引擎还对豆包音乐模型进行了升级。虽然具体细节暂未提及,但其升级预计将增强模型在音乐风格生成、旋律创作等方面的表现,助力企业在广告配乐、游戏音效等场景中的应用。随着音乐创作逐渐迈向智能化,豆包音乐模型有望成为创作者手中的利器,帮助他们快速生成符合需求的高质量音乐作品。
还没有评论,来说两句吧...