Sora V2 即将发布，AI Creativity 赛道有哪些机会？

2024-12-09 20:01

海外独角兽

2024-12-09 20:01

来源链接

订阅此专栏

收藏此文章

作者：haina

编辑：penny

OpenAI 连续 12 天 “Shipmas”发布活动终于要发布让大家期待已久的视频生成模型 Sora，这再一次激起人们对图片生成、视频生成的关注。而AI Creativity 一直是我们非常关注的 GenAI 落地方向，图像生成和视频生成模型快速迭代，离商业可用越来越近。同时，创意行业的工作流很长、行业细分，用 AI 去提效其中的每一个环节都有意义，持续有值得关注的创业公司出现。

今年八月份，Stability AI 核心 research 团队创立的新公司 Black Forest Lab 亮相并发布了 Flux1 系列 Sota 模型，Ideogram 发布 2.0 版模型，Midjourney 也终于推出了网页端产品。这三家的文生图模型各有所长，Flux 是目前的 Sota 模型，Ideogram2.0 最接近商业化可用，文字渲染能力极强，在商业广告、海报等场合表现最好。Midjourney 更擅长艺术创作，新推出来的网页端工具也是生成功能最丰富全面的。另外，为专业设计师搭建的、基于图像生成的工作流平台也在不断迭代产品，其中 Krea.ai MAU 已经到达了 142 万。

视频领域，OpenAI 发布 Sora Demo 后，不断出现新一代“媲美 Sora”的模型，包括国内刚刚发布的字节豆包视频模型、minimax 海螺大模型、快手 Kling，以及海外的 Meta moviegen，Luma、Runway Gen3 这些炙手可热的视频生成公司。同时，BFL、Ideogram、Midjourney 未来也将要发布自己的视频生成模型。技术路线还没有确定，每去很难做出谁会是最终赢家的判断。有一些 startup 不去卷模型，而是专注做应用。比如 Captions、Opusclip、Creatify 等产品专注于 AI 辅助的视频编辑。这些公司都能获得不错的 ARR，但是天花板有限，面临着来自 Capcut 的竞争。

我们可以观察到，AI Creativity 领域逐渐演变出了两种形态的 Startup：一种专注提升模型能力，团队以 top researcher 为主；一种专注构建结合 AI feature 的产品，团队以产品、GTM 为主。我们将持续关注那些在模型能力上处于领先地位的团队，以及有 vision 和能力为创意工作者构建整个 workflow 产品的公司。

💡 目录 💡

01 内容生成的壁垒是什么？

02 为 AI Native 工作流设计的 AI 视频编辑工具

03 Case Study

01.

内容生成的壁垒

是什么？

现阶段，图像及视频生成领域的大部分明星 Startup 仍专注生成模型的训练优化，高质量的闭源模型是其核心资产。这类公司的特点是有非常强的 research 团队，获得了大量的资金支持，或背靠大公司拥有数据和资源优势。

目前很难看出谁拥有明显的壁垒，是这个赛道的赢家。图片生成领域闭源和开源的能力已经基本追平，普通用户很难感受出谁家的模型更好。特定场景下，经过专有数据集训练、做了 Lora 的开源模型可能会比性能最好的生成模型表现更好。视频生成领域还处于 GPT2 时代，从 Runway Gen2、Pika、Genmo，再到 Sora、Luma 和 Kling，如今又出现了声称将要开源 Sota 视频模型的 Black Forest Lab，技术路线还未最终确定。

模型公司仍是我们关注的重点，在其他要素不确定的情况下，更多的是在 bet 团队。我们比较看好 Luma 和 Black Forest Labs，虽然都不是最早入局视频生成的公司，但都有深厚的积累。Luma 有 3D 数据的深厚积累和 Diffusion 的顶尖 Researcher 团队，和完整的工程团队，走的是闭源路线。BLF 基本上是 StabilityAI 的原班人马，包括 Researcher 和 Infra 的成员都加入了，提出了新的路线 Rectified Flow Transformers。推出的文生图模型 Flux 在社区影响力很大，质量远超 SDXL，未来推出的视频生成模型也是很值得期待的。

专注于模型并不是说这些公司不做产品。相反，相比集成开源模型，拥有闭源模型的公司做好产品反而更容易建立产品壁垒。这些公司已经纷纷从最初的 Discord 转向用 UI 去承载模型，让用户能用熟悉的 Button 点按，而非全部都是 Prompt 的方式去使用技术。Runway 就是产品做的很好的典型代表，Midjourney 和 Ideogram 的 Web UI 也提供了不错的生成体验。

以 Midjourney 的 Web UI 为例，拥有图片搜索引擎、素材一键应用、以及可控性很强的图片生成功能。在 Explore 界面上，可以看到随机、热门、本周最佳和用户 “喜欢” 的图片，还可以输入 Prompt 搜索相关风格的图像。点击任意一张图片，都可以看到生成这张图片的 prompt，以及搜索和这个图片类似风格的作品。

在 Create 界面上，用户可以设置参考图，写入 prompt，并进行参数设置。参数设置包括滑动调节尺寸，调节风格强度、创意程度、以及随机性；还可以选择 Midjourney 提供的不同模型，以及生成速度。生成后，可以选择重新生成，或者通过 Prompt 和参数调节的方式进行修改。还有 Chat 和 Room 功能，用户可以在特定主题下交流。

一部分公司并不专注训练效果更好的模型，而是针对具体的工作场景、具体行业构建图像生成的工作流产品。包括针对设计师行业的 Visual Electric，针对时尚设计行业的 Raspberry 等。以 Visual Electric 为例，提供了 AI 生成图片后的专业编辑功能，包括无限的画布、图片参数调节、背景去除等。也提供了基于 AI 的编辑功能，比如 Art direction，用户描述如何更改图像，Visual Electric 自己编写 Prompt 来定义色彩和风格。

很多内容创作者也有自己微调开源模型的需求，但不具备足够的硬件设备，所以一些创业公司尽可能全面的集成开源模型，并提供编辑工具和微调接口，用户也可以用自己的数据在平台上去微调模型。如 Krea.ai、everart、Nightcafe。Krea.ai 集成化的提供了图像、视频模态模型，还提供了用摄像画面进行实时创作、集成 Photoshop、Figma、Sketch、C4D、Blender 等设计软件的创作方式。也有放大增强（Upscale & Enhance）、参数调节、可以把文字 / 图案形状 /logo 嵌入图片等编辑功能。

02.

为 AI Native 工作流设计的 AI 视频编辑工具

除了上文以闭源模型能力为核心的生成公司，我们还关注到了很多公司专注结合 AI 做视频编辑工具。

这些公司中，早进入者是传统专业编辑软件轻量化的逻辑，追求“大而全”，尽可能地集成所有 feature，覆盖 workflow 所有环节，包括 capcut 和 veed；而后进入的公司需要通过营销核心 feature 来破圈获取用户，精准的解决某场景的用户需求，比如 heygen 主推 avatar，captions 主推 talking video 场景，opusclip 主推素材复用。这也是因为海外用户的使用习惯：用户会想要寻找每个单点上表现最好的产品，而不是满足于一个大而全的平台提供的服务。

上述以某个核心卖点起家的产品，由于用户不断在社区中提出新需求，以及来自竞争对手的压力，也在向“大而全”的平台发展。但它们与 capcut 直接竞争没有优势，所以还是会围绕自己的核心叙事迭代产品。而 Capcut 则不断的集成新公司的核心 feature，保持“大而全”的平台地位。近半年 Capcut 的业务核心是 Commerce Pro，电商企业用户可以输入 URL 一键生成产品展示等促销广告视频，这也是 creatify 的主推 feature，再之前，capcut 花费了很多精力开发类似 Heygen 的 avatar 能力。

我们认为这些公司也非常值得关注，主要原因如下:

1. 视频制作、剪辑工具的市场空间很大。早期，专业工具Adobe Premiere 和 Final Cut Pro ( Apple )、Davinci Resolve 主导该领域。随着社交媒体发展，prosumer 创作者、网红和企业对视频内容需求的增加，剪映、海外版 CapCut 吸引了大量用户，Capcut 的 mau 在 7 月份已经达到 3.23 亿，Sensor Tower 估计，截至 7 月底，CapCut 今年在移动应用上的累计收入已达 1.25 亿美元。天花板还没有见顶，未来还有很多创新和新公司的机会。我们看到的 opusclip、creatify、vozo 等主打全自动、一键化的工具进一步降低了视频创作的门槛，赋予了本来没有创作能力的用户创作机会。

2. GenAI 带来的增量市场是原本没有足够创造能力或预算，但被 AI 赋予了能力能够大规模生产的 smbs 和 prosumer。

a. SMBs 以电商商家为主，同时还有短剧行业的需求。SMBs 以社交媒体为主战场，类似 Prosumer 的工作流，期待高度的自动化，以及保持品牌的一致性和跨渠道的优化，重视视频发布后的数据分析。比如很多做电商营销的用户，这类用户的目的是快速、大批量的在各个社媒平台上发布产品广告视频，自己不具备视频创作能力，传统往往采取外包的模式，或者投入很少。这个领域也是目前 AI 视频剪辑创业公司的主战场之一，如 opusclip 帮助客户长剪短去适应不同的平台特点，creatify 主打产品 url 一键生成营销视频。

b. Prosumer 主要是 YouTubers、TikTok 创作者、博主等 content creator。全球超过 20 亿的短视频用户最终能有超过 10% 被转化为创作者并愿意为剪辑产品付费，可以预期一个 20B 美元体量的增量市场。他们对 AI 的期待是能够满足他们高频次发布、节省时间、快速编辑和多平台兼容的需求。我们从 reddit 反馈中观察到，目前该类用户并没有期待某个 AI 工具 cover 全部工作流，而是以传统的剪辑工具为基础，再找一个或多个 AI 工具用在自己工作流中的某个环节去提高效率。

3. 这个市场不会是 winner take all，产品设计逻辑和核心功能决定主要使用人群。

a. 根据对用户的观察，我们发现不同类型的用户使用的核心功能是不同的，比如以做口播为主的 KOL 会持续使用 Captions，虽然也会使用 Capcut 去完成其他任务，但不会导致用户的彻底迁移。同理，电商卖家也会持续用 Creatify，社媒营销人员也会持续使用 opuscilp。Capcut 即便集成了 Avatar、URL 一键生成营销视频等等功能，但它最初的设计逻辑就是轻量化的 adobe，并不能完全适配上述用户的使用习惯。

b. Startup 有机会通过理解特定用户群的痛点，搭建出更好用的产品。获得可观收入的新创业公司都有自己的核心业务逻辑，也在核心功能上做的更好。比如 Creatify 的逻辑就是产品 URL 直接生成视频，这是用户登录平台看到的第一个界面；而 Opusclip 的核心就是尽可能地帮用户自动化视频剪辑流程。

4. 视频应用工具的进入门槛低，团队只要有足够的产品能力，并做好 GTM，都能获得不错的收入。Heygen 和 Captions 都 ARR 都超过了 $50M。Opus 也达到了 ARR 也达到了 $20M。

随着竞争进一步加剧，对于这些视频应用公司来说，AI 功能的深度和广度都很重要：只有单个功能做得显著比竞品好，新公司才能因为差异化破圈。社区中出现破圈的 show case 后，content creator 会自发创建教学视频，人们会默认把这个产品用于某任务；但能够在更广泛的 AI 功能上都做得比竞品好，至少不差于竞品，是让用户留下来并付费的方式，我们观察到，创作者的剪辑工作流很分散，经常使用单点上效果最好的工具，但如果一个平台上能完成完整的工作流，会让用户更愿意付费，而非持续寻找免费的替代品。

以下表格梳理了各个公司的核心功能，以及对用户常用的 AI feature 的覆盖情况，可以看出很多创业 startup 对于 feature 的覆盖已经非常全面了。

我们对每个产品进行了试用，结合用户的评论，Heygen 在 avatar 和 lip sync 两个细分功能上优势明显，AI 自动配字幕上，capcut/veed/captions 做的都不错，而 AI Dubbing 上，用户比较满意 capcut，heygen 的视频音频匹配。另外，很多用户都很满意 Opusclip 快速生成短视频的能力。

还有一类公司值得关注，那就是 to consumer、赋予每个人自我表达能力的视频创作平台。其中比较特别的是 Viggle，用 AI 让图片 + 视频组合生成新的视频，利用网感、GTM 和病毒式传播快速起量，在 TikTok 上广泛传播。但是这类产品如果不能构建自己的平台，产品功能、传播方法是很容易复刻的。很多大平台起源于病毒式的 feature，比如 Instagram 的滤镜，snapchat 的阅后即焚。Viggle 的不同的点在于，它的内容是被放在 tiktok 上传播的，用户便不会留存在它的平台上，它的角色仍是一个工具。什么样的 AI feature 能够和“生成”它的平台本身紧密绑定值得我们持续研究。

03.

Case Study

内容生成

模型能力对比

根据 artificial analysis 网站，综合来看 FLUX 的质量领先优势明显，生成时间较短，价格较低，是类似生成 / 价格区间中质量最好的模型。

Flux 系列模型均是相同价格下质量最好的模型。

Flux 系列是相同生成时间下质量最好的模型

产品使用对比

在我们的实测中，Flux 表现并不佳，原因可能是直接使用了开源的 model，并没有做任何的微调，所以生成的都是最原始的设置。这也让我们意识到，图片生成领域已经很成熟了，即便使用开源的模型底座，经过微调也能达到非常好的效果。

商业广告设计

💡

Generate an Eco-friendly car advertisement with natural elements

Ideogram 和 Visual Electric 的效果表现出色，MidJourney 风格鲜明，但偏向超现实风格，商业化程度略不足。

flux 效果图

midjourney 效果图

ideogram 效果图

visual electric 效果图

Krea.AI 效果图

点击 variation 后 Krea.AI 效果图

电影海报

💡

Generate a Mystery thriller movie poster with a dark alley and shadowy figure

这个主题下，各个产品效果都不错

flux 效果图

mj 效果图

ideogram 效果图

visual electric 效果图

Krea.AI 效果图

logo

💡

Generate a Dynamic logo for a new tech startup

这个题目 Ideogram 和 MidJourney 的表现更多元，而 Visual Electric 对于 Prompt 的理解似乎稍显不足。

flux 效果图

mj 效果图

ideogram 效果图

visual electric 效果图

Krea.AI 效果图

卡通

💡

Cute cartoon elephant carrying a little cartoon rabbit using its long nose. They are enjoying the beautiful midnight together

比较来看，Visual Electric 的生成效果更具视觉吸引力。

flux 效果图

mj 效果图

ideogram 效果图

visual electric 效果图

Krea.AI 效果图

文字生成能力

Ideogram 能精准生成文字，其字体渲染效果最好；而 MidJourney 的海报设计感更强，文字内容准确但清晰度略有欠缺。

💡

A vibrant music festival poster features a backdrop of colorful stage lights and an enthusiastic crowd. At the center of the poster, in bold and dynamic typography, it reads: "2024 Summer Music Festival".

flux（用的是同一个 prompt，前后生成了两次，一次文字是准确的一次不准确）

mj 效果图（算都对，在处理文字的排布上有自己的想法）

ideogram 效果图（都对）

Visual electric（可以观察到，第一幅的 festival，第二幅图的 summer 拼错了）

Krea.AI 效果图（中间的两幅图漏掉了 music）

Black Forest Labs

简介

Black forest labs 今年 8 月 1 日对外正式宣布成立，目前推出了 flux1 文本生成图像模型 API，包括三个版本：Pro、Dev 和 Schnell。同时，BFL 是一家视频生成公司，图片生成只是 road map 的第一步，未来将推出 SOTA 视频模型。技术路线上，BFL 提出 Rectified Flow Transformers，传统的 Diffusion model 需要多步的噪声处理，修正流模型（rectified flow model) 在数据和噪声之间采用直线连接路径，理论上更简洁。

模型质量上来看，根据用户反馈，Flux 质量 / 性价比确实是最好的那一档，突出优势是手部和细节的处理、提示词遵循度高、Flux Schnell 生成速度快。与 Stable Diffusion 3、Midjourney 和 DALL·E 3 等模型相比，Flux 在视觉质量和提示遵循方面表现更好。

问题在于 Flux 开源模型由于是蒸馏模型，难以进行微调，影响了模型的可训练性。Flux 也不是完善的，部分用户也提到了在某些特定细节（如脚部）仍需要提高，在处理复杂提示时也会遗漏某些元素。我们的尝试也发现还是有问题，比如生成了 3 只手，文字没准确的表示出来等等。

图一的问题是有三只手，图二的问题是并不是每张卡片上的文字都是准确的，图三尝试生成黑悟空 IP

团队

BFL 团队由前 stability ai 核心成员组成，是 stable diffusion 项目的原班人马，已经成功训练出被社区广泛采用的 SDXL 文生图模型、SDV 视频模型。团队的 research 能力、训模型经验都是 top tier。

Co-founder Robin Rombach 是 Stable Diffusion 的第一作者，参与了 Stable Diffusion XL（SDXL）、Stable Video Diffusion 和 Rectified Flow Transformers、Latent Diffusion 等工作。Patrick Esser 也是 Stable Diffusion 项目的核心人物之一，同时还参与了 VQGAN 和 Latent Adversarial Diffusion Distillation (LADD) 等项目。Andreas Blattmann 在高分辨率图像生成领域做出了重要贡献，还参与了 Stable Video Diffusion。

董事会成员 Michael Ovitz 是娱乐行业中极具影响力的人物之一，1974 年创立了创意艺术家经纪公司（Creative Artists Agency, CAA）。参与了许多重大交易，比如三大好莱坞电影公司的出售。在 1995 年至 1997 年期间担任迪士尼公司总裁，并推动了多个知名的广告和营销活动，包括可口可乐的北极熊广告。Matthias Bethge 是 neural style transfer 技术的开创者之一，在欧洲 AI 研究有很高的地位。

融资

种子轮融资金额：3100 万美元，Andreessen Horowitz 领投，天使投资人 Brendan Iribe 、Michael Ovitz、Garry Tan、Timo Aila 和 Vladlen Koltun 跟投；获得了 General Catalyst 和 MätchVC 的后续投资

Ideogram

产品 Update

8.21 日，Ideogram 更新了最新的 2.0 版本文生图模型，非常适合做海报、logo 以及文字。一些值得 highlight 的点：

• 对图像风格的控制增强了，包括 general、现实、设计、3D 和动漫。

💡

Futuristic cityscape for a technology magazine cover

general

realistic

design

• 工具：增加了新的样式、调色板，以及 iOS app 和 API。

• 可以搜索社区图片了

• Magic Prompt：使用“describe”根据用户提供的原始图像生成详细的文本 prompt，再使用“Magic Prompt”来丰富，提供 4 种不同的 prompt，然后使用“生成”将这些提示生成图像。

• 根据官网的测评，Ideogram 2.0 在图像提示一致性、真实感和文本渲染质量方面取得了显著进步。用户评估认为 Ideogram 2.0 比 Flux Pro 和 DALL·E 3 也效果更好。

• API 定价有竞争力，低于 DALL·E 3，与 Flux Pro 持平。

团队

团队中的前四位成员是谷歌 Imagen Video 论文的作者：

• Mohammad Norouzi, CEO, 之前是 Google Brain Staff Research Scientist, 加拿大多伦多大学 PHD

• William Chan, Cofounder/CTO, 之前也是 Google staff Research Scientist, 卡内基梅隆大学 PHD，曾在 AMD、英伟达、英特尔、谷歌、亚马逊和道明证券公司实习

• Chitwan Saharia，Google Brain senior research scientist

• Jonathan Ho，Google Brain Research scientist, 2017 - 2018 在 OpenAI 做了一年 Research scientist

融资

2023 年完成 1650 万美元种子轮，a16z 和 Index Ventures 领投，其他投资者包括 AIX Ventures, Golden Ventures, Two Small Fish Ventures 等机构投资者和 Google 人工智能部门的负责人 Jeff Dean, OpenAI 联合创始人 Andrej Karpathy，GitHub 联合创始人 Tom Preston-Werner 等个人投资者

2024 年 2 月底，完成 8000 万美金的 A 轮融资，a16z 领投，Index Ventures、Redpoint Ventures、Pear VC 和 SV Angel 等参投。

Midjourney

产品 Update

2024 年 8 月推出了网页版图片编辑器，同时正式官宣进入 AI 硬件领域，硬件的特征包括 “go inside in"，与元宇宙资产结合。

经测评，我们认为 midjourney 的网页版是目前所有产品中目前功能最全、ui 设计最好的。

explore 页面

create 页面

organize 页面（管理生成过的图片）

chat 界面

Krea AI

简介

KREA 成立于 2022 年，旨在革新人类创意表达。Krea 产品的主要思路是在 AI 生成的基础上，通过集成、微调开源模型，涵盖后续编辑工作 (AI-native 结合生成 + 编辑的更全栈的平台 )。核心功能包括实时生成（Real-Time Generation）和图像增强（Upscale & Enhance），并允许用户在平台上训练自己的模型。可以生成图片，也可以生成视频，视频生成可操作性也很强，包括自定义首尾帧、无限转场（自己设置关键帧和提示词），对于电脑配置要求不高的用户也非常友好。

团队

创始团队由 Diego Rodriguez 和 Victor Perez 组成。Victor 在创立 Krea 之前是 Various companies 的 ML engineer 以及 Plyzer intelligence 的 head of ML，co-founder diego 2021 年毕业于康奈尔大学，曾计划去 stripe 工作，但最后决定进行 krea 的创业。Victor 六年前开始研究生成模型，曾参与早期生成 AI 应用 ArtBreeder 的开发。两人通过 HF0（类似 YC 的技术创始人孵化项目）一起创建了 KREA。

融资

公司创立后，迅速从 Facebook AI Research 的创始人 Keith Adams 和 OpenAI 创始团队成员 Pamela Vagata 获得了资金支持。

Visual Electric

简介

2022 年 11 月成立，是专注为图形设计师、广告创意人员和艺术家构建的图像生成工具。采用开源 stable diffusion 模型。

Visual electric 保持了持续的产品更新：

团队

三位 co-founder 的背景都与做拖拽、图形化界面和无代码工具有关。Colin Dunn (CEO) 是 Universe 的前高管，还曾在 Facebook 和 Dropbox 工作过。 Adam Menges (Chief Product Officer) 前苹果员工，其初创公司 Lobe （设计工具）和 Lowkey （AR 游戏公司）分别被微软和 Niantic 收购。Zach Stiggelbout (CTO) 曾在 Microsoft 负责 Lobe 项目。

Universe: 移动端网站构建平台，帮助用户在手机上创建和发布网站，不用写代码，成立于 2018 年，支持电子商务功能，用户可以在自己网站上销售商品或服务。

Lobe:让用户无需编程就能创建和训练机器学习模型。Lobe 提供了一个直观的、图形化的用户界面，用户可以通过拖放方式导入数据、设计模型、并实时查看模型的训练和预测结果。使得没有编程背景的人也能参与到 AI 模型的开发。Lobe 最初是独立的初创公司，后来被微软收购。

融资

2023 年 3 月 Sequoia Capital 领投了 250 万美元的种子轮，跟投包括 Terrence Rohan，Designer Fund，BoxGroup

AI 视频编辑

Captions

产品 Update

Captions 由 Snap 的高管在 21 年创立，定位是 AI-powered creative studio，主打移动端短视频剪辑，但相较 CapCut 更聚焦于 Talking Video（人物口播类视频）和字幕相关功能，整体使用体验更简洁易上手，符合欧美用户的使用习惯。Captions App 没有免费版本，所有创作者必须付费才能使用，定价为 ~$10 美元 / 月。

Captions 提供完整的短视频生产工作流程功能，涵盖从前期到后期的各个环节：在前期制作阶段，支持通过 AI 自动生成剧本；在制作阶段，提供实时录制和提词器功能；在后期制作阶段，支持视频剪辑、将 YouTube 长视频生成短视频片段，以及通过 AI 进行配音，全面满足短视频内容创作需求。

近半年，Captions 还是将重点放在加强 Talking Video 的能力，包括 AI Skits（两个 AI 形象相互讨论的视频 )，AI Twins( 克隆）。另外，Captions 也在向其他被使用较多的场景扩展，比如一键生成视频广告、AI 自动化编辑、3D avatar、Voice Clone。

AI Skits（两个 AI 形象相互讨论的视频 )

团队

Captions 的 CEO 来自 Snap，曾经和他的 Co-Founder 在 Locallytics 共事，口碑很好，Sequoia Capital 等天使轮投资者都是 bet 人的逻辑进行的投资。

CEO - Gaurav Misra：CS@BU，曾陆续在 Lattice Engines、Microsoft、Localytics 作为 SWE 工作，16 年加入 Snap，晋升为 Head of Design Engineering 负责新产品的软件开发 + 设计团队，21 年离职创办 Captions。

COO - Dwight Churchill：作为开发者陆续在 Gilt Groupe、Taboola、Localytics 等工作公司，16 年到 19 年在高盛 Marcus 团队负责 Clarity Money 的产品，随后在 Klaviyo 作为产品经理工作了一年，21 年离职创办 Captions。

融资

2024 年 7 月 29 日完成 6000 万美元的 C 轮融资，由 Index Ventures 领投，老股东 Kleiner Perkins、红杉资本和 Andreessen Horowitz 以及新股东 Adobe Ventures、HubSpot Ventures 和 Jared Leto 参与投资。融资总金额超过 1 亿美元，公司估值为 5 亿美元。

更早轮次的主要投资者是 Sequoia Capital、a16z、KP 3 家一线基金，具体的项目负责人都有 To-C 从业或投资的经验。

Veed

简介

Veed 是一个在浏览器端的专业视频编辑器，功能全面，用户评价它“非常容易上手，提供完整的剪辑功能，字幕功能也很不错，但价格稍贵”。Basic 方案每月收费 12 美元，Pro 方案每月收费 24 美元。每月有 1200 万用户，其中 100,000 名付费订阅用户。Veed 由 Sabba Keynejad 于 2018 年创立，通过 bootstrap 的方式发展起来，目前已获得 Sequoia Capital 的投资。

从首页可以看到，veed 目前已经由一个 general 的编辑工具，变成了场景导向的产品了，general 的编辑浓缩到"create new project"这个功能上，record video, 生成 AI Avatar，长视频转短视频，text to video 以及提供了大量的模板。另外，还有一些用户常见的需求作为单独的入口，比如移除背景、生成字幕、翻译多种语言、eye contact、移除背景音、智能剪辑停顿。最近发布了 Video GPT，使用 ChatGPT 的 GPT 的视频创作工具。

总体来看，veed 这家公司偏传统，AI 功能很全，但效果比较一般，更像一个网页端的视频编辑器，不断地加入一些 AI feature。

团队

CEO Sabba Keynejad，曾是自雇的产品设计师，并在创意设计公司 FITCH 和 The Partners 工作。拥有伦敦艺术大学中央圣马丁学院的设计与视觉传播学士学位。Co-founder Tim Mamedov, 2017 年毕业于伦敦国王学院，拥有计算机科学学士学位。毕业后就创业，创立了 VEED.IO。

两人在黑客马拉松上相识，Keynejad 使用了个人积蓄的 4 万英镑来启动公司。公司成立初期，他们曾尝试筹资但失败，陷入经济困境。后来 Mamedov 找到了一份 BT 的合同工作后，将自己一半的工资交给 Keynejad 来继续推动公司的发展，这种情况持续了六个月。目前 veed 年收入从零增长至 2600 万美元。

融资

Sequoia 领投 3500 万美元的 A 轮融资。

Creatify AI

简介

2023 年成立，核心是帮助企业制作视频广告，企业提供产品 URL 或描述，在几分钟内自动转化为精炼营销内容，减少用于视频广告制作的时间和资源。Creatify 也可以生成适合不同平台的内容。这对于本身没有足够营销预算的小型企业和初创公司特别有价值，因为这些企业本身没有足够的营销预算。近半年，这也是 capcut 的发展重点。

产品的主要功能包括：

1. 短视频广告制作：能够将产品 URL 转换成视频广告 ( 或手动上传）。

2. AI Script Writer：大语言模型将自动判断产品主要卖点，自动生成多个广告脚本，供用户选择

3. 生成预览视频，包括 AI Avatar 头像：根据选定的文字脚本内容，Creatify 自动生成分镜剧本和数字人内容。1 分钟左右自动渲染生成多个可以预览的广告片段；提供超 370 个 AI 头像。URL to video 有多种样式可以选择

4. 云剪编辑功能：可调整每一帧的物料、文字、字幕、特效元素

5. 渲染导出成片

另外还包括功能：

• Text-to-Speech：提供 140 多种 AI 语音，为广告配音

• Custom Avatar 自定义头像：用户可以将自己的形象转换成一个自定义的 AI 头像，保持一致的形象

• Batch Mode 批处理模式：允许用户组合产品网址、脚本、模板和 AI 头像来生成多个广告版本

团队

Creatify 的团队来自 Meta、Google、Snap 和阳狮集团（法国最大的广告传播公司）等。

• CEO Yinan Na：清华大学本科、斯坦福大学计算机硕士。曾在 Snap 负责内容审核和开发 Discover 产品，为 Meta Feed 广告团队的早期成员，创立了 Meta 的首个视频广告模型。

• Chief Scientist Ledell Wu：北大本科、多伦多大学计算机硕士。曾在 FAIR、BAAI 任职，主导开发 StarSpace 模型，并参与 PyTorch-BigGraph 项目。

• CTO Xin Zhou：北京交通大学本科、纽约大学计算机硕士。曾任 Meta Reels 推荐平台工程经理及 Airbnb 定价团队技术主管。

Heygen

产品 Update

Heygen 近半年围绕数字人主线不断增加新功能，包括所有免费用户都可创建数字分身、根据 PPT/PDF 自动生成带 avatar 的 presentation 视频、Motion 1.0 全身数字人，也在持续推出新的 avatar 形象。其他新功能还包括可以直接输入产品 URL 生成数字人营销视频、长视频剪辑成短视频、配音升级等等。

OpusClip

简介

Opusclip 2022 年成立，是一款专注于将长视频批量生成短视频的工具，功能包括自动裁剪视频、调整视频大小、添加字幕、自动裁切人物主体、生成标题和文案、并添加字幕与 emoji 表情，用于 YouTube Shorts、TikTok 和 Instagram Reels 等平台上。目前用户已经突破 600 万，ARR 预估在 2000 万美金左右。 billboard.com、西班牙电信以及 Univision 等也是 OpusClip 的客户。

Opus Clip 的主要使用场景包括：内容创作者将长视频制作成适合 YouTube 和 Instagram 等平台的短片；营销人员快速生成宣传视频；社交媒体用户保持稳定内容输出；教育工作者将讲座或课程制作成简短片段。然而，其局限在于仅支持人物出现在视频中的场景，对 vlog、MV 或游戏类视频的批量处理能力有限，插入图片或表格等内容需要借助其他工具。

CEO 赵洋曾担任 LinkedIn 用户体验设计师，并于 2015 年联合创立再惠科技。他将 Opus Clip 定位为自主视频编辑代理，致力于根据用户反馈和内容偏好，自动进行视频摄取、理解和剪辑。公司在美国组建新团队，并推出了多模态 AI 剪辑工具 ClipAnything。该工具通过视觉、音频和情感线索剪辑视频，核心功能包括：

1. 智能视频分析：分析视频每一帧，识别物体、场景、声音等，并为片段的传播潜力评分。

2. 个性化剪辑：通过用户自定义 prompt，捕捉关键时刻。比如“所有走红毯的片段。”

3. 智能重构：自动调整视频比例，优化内容适应不同社交平台。

融资

OpusClip 刚刚完成了 A 轮融资，金额为 3000 万美金，Millennium New Horizons 领投，Samsung Next、GTMfund 和 DCM Ventures 跟投。

Viggle

简介

Viggle 的核心能力是用 AI 让图片 + 视频组合生成新内容。上传一张照片，再上传一段人物跳舞、踢球或任意的动作视频，结合生成，就可以将照片中的人脸替换到视频中的人脸上，做出视频中人物的动作。

Viggle 的破圈方式是与 TikTok 做了很好的结合，实现了病毒式传播。因为模型生成的视频质量本身比较粗糙，所以 Viggle 不靠视频的精致程度取胜，而是主打鬼畜好玩，包括卡通人物踢足球，美女踢足球，足球明星跳舞等等。相比之前的通义千问、Boogie AI 等跳舞换脸工具，Viggle 模板更多，很戳用户喜欢的点。另一个巧妙的点是用户也可以自己制作模板，制作门槛非常低，可以是在足球比赛中节选的鬼畜画面，也可以是自己录制的跳舞视频，这让 viggle 的内容生态可以很快的繁荣起来。

产品 UI :

不过 viggle 的用户数量在爆火之后快速下降，仅靠一时的新意去吸引用户是不够的，AI 产品还是需要找到能够让用户长期留在平台上的功能。

排版：杨乐乐

推荐专栏