Hotshot 推出用于生成视频片段的全新 AI 模型

0 40

Hotshot公司推出了一款新的人工智能视频生成模型，该模型能够生成分辨率为1280×720像素的10秒视频片段。这款名为Hotshot的模型已于本周一开始公开测试，加入了市场上日益增长的AI视频生成器行列。

Hotshot去年推出了一款面向消费者的AI驱动图像生成应用，但据报道，该公司已关闭该服务，转而专注于新兴的视频生成领域。Hotshot得到了包括SV Angel、天使投资人Lachy Groom以及Reddit联合创始人Alexis Ohanian的支持。

在开发过程中，Hotshot创建了三个不同的神经网络：核心的Hotshot模型和两个辅助神经网络，这些网络帮助准备AI视频生成器的训练数据集。Hotshot首先构建了一个包含6亿视频片段及其描述性字幕的库，并结合了10亿张图片来创建训练数据集。随后，公司开发了一个AI模型为训练数据集中的视频生成字幕，以帮助神经网络更好地理解正在训练的片段。

Hotshot发现市场上现有的字幕生成模型无法满足其需求，因此对现有模型进行了定制，使用包含30万个手动创建字幕的视频片段的训练数据集。此外，公司还构建了一个自编码器（autoencoder），这是一种算法，可以去除对AI训练不必要的视频细节，从而降低存储需求和成本。

在准备自编码器和字幕模型之后，Hotshot花费了四个月时间训练其AI视频生成器，使用了数千个Nvidia公司的H100图形处理单元，累积了数百万小时的处理时间。Hotshot的工程师应用了多项优化措施，以减少训练运行的基础设施需求，包括使用bfloat16格式压缩数据以及预先计算某些元素，以更好地利用Nvidia芯片的处理能力。

Hotshot的新型AI可以通过其网站上的免费视频生成服务访问，公司还计划通过应用程序接口（API）向开发者提供该模型。

来源：siliconangle

# AI新工具