字节跳动发布Vidi2多模态大模型,重塑视频编辑范式
游戏资讯
2025年12月08日 16:31 50
游客
品玩12月1日讯,字节跳动近日推出120亿参数的多模态大语言模型Vidi2,专注于视频理解与生成。该模型支持数小时长视频处理,可自动梳理叙事逻辑、生成短视频或电影片段,并实现精准时空定位——直接输出特定物体或人物的时间戳与边界框。
Vidi2具备三大技术优势:高精度时空定位(STG)、文本-视觉-音频联合理解,以及在超长视频检索与问答任务中显著领先商业模型(IoU指标提升17.5%)。目前,其能力已集成至TikTok产品,如Smart Split智能剪辑与AI Outline剧本生成。
依托TikTok十亿级用户数据闭环,Vidi2有望加速AI对专业视频创作流程的重构,并推动实时生成与复杂场景理解等方向发展。
标签: 字节跳动
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3561739510@qq.com 举报,一经查实,本站将立刻删除。
相关文章
