Hotshot 推出用于生成视频片段的全新 AI 模型

Hotshot 推出用于生成视频片段的全新 AI 模型

Hotshot公司推出了一款新的人工智能视频生成模型,该模型能够生成分辨率为1280×720像素的10秒视频片段。这款名为Hotshot的模型已于本周一开始公开测试,加入了市场上日益增长的AI视频生成器行列。

Hotshot去年推出了一款面向消费者的AI驱动图像生成应用,但据报道,该公司已关闭该服务,转而专注于新兴的视频生成领域。Hotshot得到了包括SV Angel、天使投资人Lachy Groom以及Reddit联合创始人Alexis Ohanian的支持。

在开发过程中,Hotshot创建了三个不同的神经网络:核心的Hotshot模型和两个辅助神经网络,这些网络帮助准备AI视频生成器的训练数据集。Hotshot首先构建了一个包含6亿视频片段及其描述性字幕的库,并结合了10亿张图片来创建训练数据集。随后,公司开发了一个AI模型为训练数据集中的视频生成字幕,以帮助神经网络更好地理解正在训练的片段。

Hotshot发现市场上现有的字幕生成模型无法满足其需求,因此对现有模型进行了定制,使用包含30万个手动创建字幕的视频片段的训练数据集。此外,公司还构建了一个自编码器(autoencoder),这是一种算法,可以去除对AI训练不必要的视频细节,从而降低存储需求和成本。

在准备自编码器和字幕模型之后,Hotshot花费了四个月时间训练其AI视频生成器,使用了数千个Nvidia公司的H100图形处理单元,累积了数百万小时的处理时间。Hotshot的工程师应用了多项优化措施,以减少训练运行的基础设施需求,包括使用bfloat16格式压缩数据以及预先计算某些元素,以更好地利用Nvidia芯片的处理能力。

Hotshot的新型AI可以通过其网站上的免费视频生成服务访问,公司还计划通过应用程序接口(API)向开发者提供该模型。

来源:siliconangle

© 版权声明

相关文章

暂无评论

暂无评论...