传媒行业专题研究：AIGC引领内容生产方式变革_短视频制作技巧

　　AI 技术逐渐实现从分析到创造的迭代。AI（Artificial Intelligence）即人工智能，传统的 AI 技术被称为分析式 AI（Analytical AI），偏向于分析数据并总结规律，同时将规律运用到其他用途，比如运用 AI 技术进行垃圾邮件检测、向用户推荐感兴趣的短视频等。但随着技术的迭代，AI 已经不仅仅局限于分析已有事物，而是开始创造有意义、具备美感的东西，即完成感知世界到创造世界的变迁，这种新型的技术被称为生成式 AI（Generative AI）。从定义上看，AIGC 既是一种内容形态，也是一种内容生成的技术合集，即生成式 AI。从狭义上看，AIGC（AI Generated Content）是继 PGC（Professional Generated Content）与 UGC（User Generated Content）之后的一种内容形式，即利用人工智能技术生成的内容。从广义上看，AIGC 指的是自动化内容生成的技术合集，基于生成算法、训练数据、芯片算力，生成包括文本、音乐、图片、代码、视频等多样化内容。

　　AIGC 起源于 20 世纪 50 年代，经过多年发展，在 2022 年 AIGC 产品集中发布，多款产品出圈，引发社会广泛关注。据中国信通院，AIGC 起源于 20 世纪 50 年代，莱杰伦·希勒和伦纳德·艾萨克森完成历史上第一只由计算机创作的音乐作品《依利亚克组曲》，但受制于技术水平，截至 1990 年，AIGC 均仅限于小范围实验。1990-2010 年是 AIGC 的沉淀积累阶段，AIGC 逐渐从实验向实用转变，但受限于算法瓶颈，效果仍有待提升。2010 年以来，伴随着生成算法、预训练模型、多模态技术的迭代，AIGC 快速发展，2022 年多款产品出圈。

　　从技术上看，生成算法、预训练模型、多模态技术是 AIGC 发展的关键。从流程上看，算法接收数据，进行运算并生成预训练模型，多模态技术则是将不同模型融合的关键。长期看大模型+多模态将成为趋势：

　　2015 年以前，小模型一度被认为是行业发展的方向，但这些小模型更偏向处理分析性任务，生成能力较弱。 2017 年谷歌研究院在《 Attention is All You Need 》中提出 Transformer 算法的概念，而 Transformer 能够有效提取长序列特征，具备较高的计算效率和可扩展性，大大降低训练时间。2018 年谷歌发布基于 Transformer 的 NLP（Natural Language Processing，自然语言处理）预处理模型 BERT，标志着人工智能进入预训练模型时代。

　　从流程上看，预训练模型采用两阶段学习法，即首先在大量的通用数据上训练并具备基础能力，再结合多样的垂直行业和场景对预训练模型进行微调，从而有效提升开发效率。随着参数规模的扩大，预训练模型在语言理解，图像识别等领域迅速取得突破，所需的计算量也急剧增长。据红杉资本，2015-2020 年，用于模型训练的计算量增加了 6 个数量级。据腾讯研究院，按照类型分类，预训练模型包括：1）NLP（自然语言处理）模型，使得人与计算机能够用自然语言有效通信，包括 OpenAI 的 GPT 系列，Facebook 的 M2M100；2）CV 模型（Computer Vision，计算机视觉），运用计算机及相关设备对生物视觉进行模拟，比如微软的 Florence；3）多模态预训练模型，包含图像、文字、视频等多种形式，如谷歌的 Image、Stability AI 的 Stable Duffusion 等。

　　多模态技术（Multimodal Technology）即将图像、语音、视频、文字等多模态融合的机器学习技术，而 CLIP（Contrastive Language–Image Pre-training）的推出成为跨模态应用生成的重要节点。CLIP 在 2021 年由 OpenAI 开源推出，能够将文字和图像进行关联且关联特征丰富，后续“CLIP+其他模型”成为跨模态生成领域的较通用的做法，如 Disco Diffusion 便是将 CLIP 与 Diffusion 模型进行关联，用户输入文字指令便能够生成相关的图片。在多模态技术的加持下，预训练模型已经从早期单一的 NLP、CV 向多模态、跨模态的方向发展。

　　从产业链结构来看，AIGC 主要包括基础层、中间层和应用层，中外差距在 3 年左右。由于技术与投资环境差异，AIGC 在我国大多作为公司的部分业务进行开发，独立的初创公司数量较少，导致 AIGC 实际的场景开发较国外仍有差距。据量子位，中外公司的整体差距在 3 年左右，底层技术是核心原因。

　　基础层即预训练模型，构成了 AIGC 的基础。随着预训练模型参数的增加，预训练所需要的数据量同样快速提升，带来较高的成本投入。据中国信通院与京东探索研究院发布的《人工智能生成内容白皮书 2022》，模型参数量已从最初的千万级发展到了千亿级别，训练代价也从数十天增长到几十万天（按在单张 V100 GPU 计算）。据北京智源人工智能研究院，2020 年 OpenAI 发布的 NLP 模型 GPT-3 的参数量约 1,750 亿，训练数据量达 45TB，模型训练成本近 1,200 万美元。因此该领域的参与者主要是科技巨头与头部的研究机构，如 OpenAI、谷歌、微软、Meta、百度等。

　　中间层即垂直化、场景化、个性化的模型。在预训练模型的基础上，能够快速生成垂直化的小模型，实现流水线式的开发，降低开发成本，提升效率。如 Stable Diffusion 开源后多个绘画模型基于 Stable Diffusion 开发，二次元绘画领域包括知名的 NovelAI，而昆仑万维的天工巧绘 SkyPaint 模型则采用全球第一款多语言 Stable Diffusion 分支模型，兼容 Stable Diffusion。据腾讯研究院，随着大模型+多模态加速成长为通用性技术平台，模型即服务（Model-as-a-Service，MaaS）逐渐实现，通过 API 授权有望助力 AIGC 变现。

　　应用层即面向 C 端的 AIGC 应用。从模态上看，应用层包括图像、音频、文本、视频等，其中图像领域代表产品包括 MidJourney、Dream Studio 等；音频包括 DeepMusic 等；文本包括 ChatGPT、Sudowrite 等；视频包括 Runway 等。从形式上看，应用层包括 App、网页、小程序、聊天机器人等，将 C 端用户与模型联通，已经逐渐渗透到生活中的各个领域，如 MidJourney 搭载在聊天软件 Discord 中推出，ChatGPT 则支持网页直接登录，国内的如昆仑万维的天工巧绘 SkyPaint 能够通过微信小程序登录，满足用户的多样化需求。

　　AIGC 技术的突破性进展引发内容生产方式变革，内容生产由 PGC（专业制作）和 UGC （用户创作）时代逐渐步入 AIGC 时代。AIGC 顺应了内容行业发展的内在需求，一方面内容消费量增加，急需降低生产门槛，提升生产效率；另一方面用户端表达意愿明显上升，消费者对内容形态要求更高，内容生成个性化和开放化趋势明显。

　　AIGC 通过其强大的生成能力广泛服务于内容生产的各类场景和内容生产者，在内容行业的应用场景不断增加和拓展，将在内容生产中产生变革性影响。具体来看主要有以下三点： 1）自动内容生成，提升内容生产效率，降低内容生产门槛和内容制作成本。当前大量文本、图像、音频、视频等内容都可以通过 AIGC 技术自动生成，高效的智能创作工具可以辅助艺术、影视、广告、游戏、编程等创意行业从业者提升日常内容生产效率。此外，自动内容生成可以降低内容生产门槛和内容制作成本，例如，借助 AI 编曲软件可以自动生成编曲，而人为创作大概需要 7-10 年的经验积累。 2）提升内容质量，增加内容多样性。AIGC 生成的内容可能比普通的人类创建的内容质量更高，大量数据学习积累的知识可以产生更准确和信息更丰富的内容，谷歌的 Imagen 生成的 AI 绘画作品效果已经接近中等画师水平。而且 AIGC 可以帮助企业和专业人士创建更多样化、更有趣的内容，VQGAN 可以生成抽象绘画作品，不咕剪辑 Cooclip 内置丰富的贴纸、音频、经典“梗”素材等，可以增加视频本身的玩法与乐趣。 3）助力内容创新，实现个性化内容生成。AIGC 将内容创作中的创意和实现分离，替代创作者的可重复劳动，可以帮助有经验的创作者捕捉灵感，创新互动形式，助力内容创新。例如 AICG 在设计初期生成大量草图可以帮助美术创作者生成更多创作灵感。根据个人用户的喜好生成个性化内容，也有利于多种创意落地。

　　AIGC 发展中仍面临法律、安全、伦理和环境等问题。首先，AIGC 引发了新型版权侵权风险，因版权争议，国外艺术作品平台 ArtStation 上的画师们掀起了抵制 AIGC 生成图像的活动。其次，AIGC 滥用容易引发信息内容安全、内生安全、诈骗违法犯罪行为等安全隐患，诈骗团队利用 AIGC 换脸伪造埃隆·马斯克的视频，半年诈骗价值超过 2 亿人民币的数字货币。再次，算法歧视等伦理问题依然存在，人工智能大规模替代人类劳动引发争议。最后，AIGC 模型训练消耗大量算力，碳排放量巨大，对环境保护造成压力。

　　细分场景众多，文本、音频、图像领域发展较快。基于模态，我们认为目前 AIGC 下游落地场景有文本、音频、图像、视频、游戏、代码、3D 生成等。较之国外，我国 AIGC 行业仍处于刚起步阶段，体系化发展等仍待完善。

　　文本生成：AIGC 目前可以较好地完成新闻播报等结构化写作、推荐相关内容、帮助润色等非结构化内容，同时在虚拟男/女友、心理咨询等闲聊机器人中应用较为广泛。剧情续写、营销文本等非结构化写作与文本交互游戏等应用尚未实现规模化应用，未来或可实现文本生成的终稿达到人类平均水平甚至专业水平。图像生成：随着算法模型的不断迭代，AI 作画水平不断提高。在图像编辑工具上，去除水印、提高分辨率、特点滤镜等已较广泛应用。根据随机或按照特点属性生成画作等的创意图像生成，与根据指定要求生成营销类海报、模特图等的功能性图像生成发展接近成熟。当前图像生成水平与专职艺术家、设计师和摄影师的产品设计作品存在一定差距。

　　音频生成：发展较为成熟，消费与企业级的应用正在铺开。AIGC 目前在语音克隆、生成虚拟人的特定歌声/播报等的文本生成特定语言、包含作曲与编曲的乐曲/歌曲生成上得到广泛应用，代表企业和应用的有倒映有声、Deepmusic、网易-有灵智能创作平台等。AI 降噪去除压缩和采样中的噪音仍需改善，AI 作曲不再机械化与人类创作音乐水平相仿，在未来值得期待。视频生成：AIGC 目前对于删除特定主体、生成特效、跟踪剪辑等的视频属性编辑已较广泛应用，视频换脸等的视频部分剪辑预计不久将规模化应用，对特定片段进行检测与合成的视频自动剪辑发展仍不完善。当前，全自动生成长时间的视频作品还不能实现，距离依个人梦想定制电影和剧集还较为遥远。其他（游戏/代码/3D）：代码补全生成来替代程序员重复性劳动的发展较为成熟，大量应用已落地。游戏中游戏操作策略生成和 NPC 逻辑及剧情生成尚需进一步完善，3D 生成尚处于早期阶段，3D 模型、3D 角色制作和 3D 场景尚未实现规模化应用。3D、游戏、代码自动生成更加智能将成为未来的增长方向。

　　AIGC 的商业模式同样处于持续探索的阶段，由按量收费等传统方式向 SaaS 订阅模式等应用场景更灵活的方式拓展。AIGC 让 AI 公司为更多中小型企业甚至个人提供服务，可规模化地降本增效，为 AI 行业带来一种全新的可能性和商业模式。

　　2） SaaS 模式：AIGC 为 B 端及 C 端用户提供了会员 SaaS 收费的模式，降低了传统 AI 公司的客户服务规模化的难度。据 OpenAI 官网，2023 年 OpenAI 推出付费版本的 ChatGPT Plus，起价为每月 20 美元，提供更快的响应速度，以及新功能和更新的有限使用权。美国 AIGC 公司 Jasper 主打 AI 生成文案服务，以类 SaaS 服务收费， 2021 年成立当年营收达 4,500 万美元，以其 Starter 模式为例，基础收费是 24 美元/ 月，可以使用不超过 2 万字；最高 332 美元/月，可以使用 32 万字。

　　3）其他：通过降本增效来增利、定制化服务付费、个性化产品销售等。市场积极探索其他场景商业化：在广告营销、影视、音乐、游戏、艺术品等领域 AIGC 有望继续拓展更多样化的商业化形式。蓝色光标推出的“销博特”发布 AIGC“创策图文”营销套件，该套件的定制版服务将销博特营销能力服务部署为企业自有云服务，并根据企业个性化需求进行二次开发，构建企业内部营销创意基础设施平台，为企业提供专属营销策划和创意内容。AIGC 的商业模式同样处于持续探索的阶段，由按量收费等传统方式向 SaaS 订阅模式等应用场景更灵活的方式拓展。AIGC 让 AI 公司为更多中小型企业甚至个人提供服务，可规模化地降本增效，为 AI 行业带来一种全新的可能性和商业模式。

　　据量子位，AI 文本生成分为交互式与非交互式。非交互式包括结构化写作，非结构化写作和辅助性写作，其中结构化写作指基于数据或规范格式，在特定情况下生成的文本，如新闻、简讯等；非结构化写作以创作型文本生成为主，具备更高的开放度。作为 AIGC 最早发展的技术，AI 文本生成已经在新闻报道、商业营销、客服机器人等领域广泛落地。2022 年 11 月 30 日，OpenAI 推出的智能聊天工具 ChatGPT 引入 RLHF 机制，降低训练成本且效果优化，不仅能够对问题作出回答，还能完成短文和诗歌创作、代码写作、数学和逻辑运算等任务，据 Similarweb，ChatGPT 推出仅 2 月平均日活超 1,300 万，引发社会广泛关注。科技巨头亦加码布局交互式文本，微软在 2023 年 1 月追加投资 OpenAI，未来还计划将 ChatGPT 整合到旗下的搜索引擎 Bing 中；谷歌通过内部研发与投资 ChatGPT 的竞品 Anthropic 来应对挑战，23 年 2 月 6 日公布了与 ChatGPT 类似的对话服务 Bard；据彭博社，百度计划将 ChatGPT 类似程序嵌入搜索服务中。

　　在交互式文本当中，最近热度较高的 ChatGPT 是代表性应用，展现出较强的智能水平。 ChatGPT 是 OpenAI 在 2022 年 11 月 30 日推出的人工智能聊天工具，其不仅能够模仿人类的风格作出问题回答，还能完成短文和诗歌创作、代码写作、数学和逻辑运算等任务。据腾讯研究院，ChatGPT 目前可以驾驭各种风格和文体，能够做到回答后续问题、承认错误、质疑不正确的前提和拒绝不适当的请求等。ChatGPT 的内容输出质量、内容覆盖维度，已经可以直面“搜索引擎”与“问答社区”。据 CNBC，ChatGPT 通过了 Google 3 级工程师的编码面试，据 NBC News，沃顿商学院教授 Christian Terwiesch 发现 ChatGPT 能够以 B-到 B 的成绩通过该校 MBA 核心课程运营管理的期末考试，展现出较强的智能水平。

　　ChatGPT 的出现迅速引起广泛关注，仅推出 2 月平均日活超 1,300 万，成为一款现象级的产品。ChatGPT 用户数在 5 天内突破了 100 万，据 Similarweb，2023 年 1 月每天平均有 1,300 万独立访客使用 ChatGPT，超 12 月的 2 倍，而这距离 ChatGPT 的推出仅 2 个月。ChatGPT 强大的性能引发了社会的广泛关注，特斯拉 CEO 马斯克在 Twitter 上表示 “许多人已经陷入了 ChatGPT 的疯狂循环中”，“我们离强大到危险的 AI 不远了”；2023 年 2 月，微软创始人比尔盖茨接受 Forbes 采访时表示“AI 将成为 2023 年最热门的话题， ChatGPT 这种人工智能技术出现的意义不亚于互联网和 PC 的诞生”。 ChatGPT 引入 RLHF 机制，通过引入人类反馈，持续优化模型效果。据 OpenAI 官网， ChatGPT 的模型在 GPT-3.5 的基础上引入了 RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）机制，这一模式增强了人类对于模型输出结果的调整，对结果进行更具理解性的排序，并提升训练效率，加速模型收敛。

　　谷歌通过内部研发与投资应对 ChatGPT 或带来的颠覆性挑战。据 Insider，2022 年 12 月，谷歌为 ChatGPT 带来的威胁发布了“红色警报”，着手进行紧急应对。应对措施方面，谷歌一方面加快内部研发，据谷歌官网，美国时间 2023 年 2 月 6 日，谷歌发布了与 ChatGPT 类似的对话服务 Bard，目前 Bard 向测试人员开放，未来几周将持续向公众开放该服务。Bard 基于谷歌的 LaMDA 模型（Language Model for Dialogue Applications，用于对话场景的语言模型），能够利用网络上的信息提供最新的、高质量的回答。此外，据 The Independent，谷歌或将在 2023 年通过子公司 DeepMind 推出聊天机器人 Sparrow，可通过谷歌搜索引用特定的信息源，准确性更强。谷歌也在通过投资持续布局相关领域。据金融时报，2023 年 2 月，谷歌投资 AIGC 初创公司 Anthropic 超 3 亿美元，获得了约 10%股份。据 Anthropic 官网，谷歌已经与 Anthroic 签署了一份大型云计算合同，Anthropic 从谷歌云购买计算资源，谷歌提供 AI 模型算力。 Anthropic 在 2021 年由前 OpenAI 研究副总裁 Dario Amodei 建立，核心产品是与 ChatGPT 类似的聊天机器人 Claude。

　　国内大厂对于 ChatGPT 的发展持乐观态度，百度将集成文心一言至搜索引擎。腾讯研究院在 2023 年 1 月发布《AIGC 趋势报告 2023》，对于 ChatGPT 的发展持乐观态度，指出 AIGC 有望作为数据与内容的强大生产引擎，升级甚至重塑内容工具，申请的“人机对话方法、装置、设备及计算机可读存储介质”专利可实现人机顺畅沟通；京东集团副总裁何晓冬表示京东会不断结合 ChatGPT 的方法和技术点，融入到产品服务中推动人工智能的产业落地；据百度官网，2023 年 2 月 7 日，百度公布了大模型新项目文心一言（ERNIE Bot），据彭博社，百度计划在 2023 年 3 月将最初的版本将内嵌到搜索服务中；阿里巴巴达摩院申请了“人机对话及预训练语言模型训练方法、系统及电子设备”的专利，积极布局 AIGC。

　　结构化写作已经在新闻写作、公司财报、客服类聊天问答等场景广泛应用。国外方面，代表性的垂直公司 Automated Insights 成立于 2007 年，旗下的 Wordsmith 是一个自然语言生成平台，能够借助 NLP 技术将数据转化成描述性的语言，据公司官网，目前 Automated Insights 已经在新闻写作中具有较广泛的应用，下游的客户包括雅虎、美联社等主流媒体。国内方面，小冰公司、腾讯、百度、字节、澜舟科技等公司均有布局。澜舟科技成立于 2021 年，主要产品是基于“孟子轻量化预训练模型”打造的一系列 SaaS 功能引擎，被广泛应用于包括搜索、生成、翻译、对话等领域。字节推出的 Xiaomingbot 是新闻写作机器人，该机器人在里约奥运会上，共撰写了 457 篇关于羽毛球、乒乓球、网球的消息简讯和赛事报道。整体来看，目前结构化写作已具备较成熟的应用，长期来看， Narrative Science 创始人预测到 2030 年 90%以上的新闻将有 AI 写作完成。

　　非结构化写作开放度和技术要求更高，主要运用在营销和剧情写作领域。据量子位，非结构化写作主要运用在剧情写作、营销文本等领域，开放度和自由度更高，对于生成技术亦有更高的要求，而目前长篇文字在内部逻辑上仍然有较明显的问题，暂不适合直接使用，预计未来的 4-5 年或取得一定的突破。国外方面，代表性的公司包括谷歌、Anyword、 Pencil、Copy.ai、Jasper 等，其中 Jasper 成立于 2021 年，基于 GPT-3 训练模型，通过 AI 技术帮助企业完成社交媒体、广告营销、电子邮件等多种内容，2022 年 10 月，Jasper 宣布获得 1.25 亿美元的 A 轮融资，估值达 15 亿美元；谷歌的 AI 剧本写作模型 Dramatron 则能够自动产生人物、位置、情节的描述并生成对话。国内代表性公司为中文在线、彩云小梦等，在彩云小梦 App 中创作页面输入一段文字，便能够生成三条不同的故事走向，用户可以点击选择继续或者让彩云小梦重新续写，从而让故事走向更加符合用户的设定。中文在线的 AI 文字创作功能已在 17K 小说上线，作者在使用该功能时，通过针对不同的描写场景填写关键词和辅助短语，即可生成对应的文字内容描写为作品使用。

　　据量子位，AIGC 图像包括文字生成图像、图像属性编辑、图像部分编辑与图像端到端生成，其中由文字到图像的跨模态生成成为重点探索方向。从底层技术上看，Diffusion 逐渐取代 GAN 成为图像生成的主流模型，助推了 AIGC 图像的发展。2022 年 8 月，由 Midjourney 生成的《太空歌剧院》出圈，引发 AI 图像生成的热潮；2022 年 8 月， Stability AI 推出 Stable Diffusion 模型，成为 AI 图像生成的里程碑，为后续图像模型的更迭打下基础。此外，OpenAI、谷歌在图像模型上亦持续迭代；百度文心·一格则支持中国风 AI 创作。据 6pen，未来 5 年全球 10-30%的图像有望由 AI 生成或辅助生成，AI 图像领域展现出较大的潜力。

　　早期 AIGC 图像主要基于 GAN 模型，但生成效果欠佳。GAN 模型主要由生成器（Generator）和判别器（Discriminator）两部分组成，生成器负责模拟出与真实训练样本类似的假数据，并将假数据混入原始数据交由判别器区分，两个模型相互博弈，直到生成器的假数据能够以假乱真。早期的 AIGC 图像主要基于 GAN 模型生产，但是 GAN 存在训练难以收敛、模型坍塌、梯度消失等问题，造成训练结果冗余、图像生成质量差。

　　Diffusion 模型逐渐取代 GAN 成为主流模型，推动图像生成技术的发展。Diffussion 受热力学模型启发，通过增加高斯噪声破坏训练数据，然后通过反转噪声来恢复学习的数据，经过训练的模型便能够应用去噪方法来生成干净的数据。Diffussion 相对于 GAN 具有更灵活的模型框架和精确的对数似然，所需数据更少，但图像生成效果较更佳，目前逐渐取代 GAN 成为新一代图像生成的主流模型。

　　由 Midjourney 生成的《太空歌剧院》出圈，引发社会广泛讨论。Midjourney 是一款搭载在 Discord 上的聊天机器人，玩家只需要@机器人并输入相关的提示词（Prompts）即可在 1 分钟以内生成 4 张图片。凭借着极低的上手门槛和 Discord 社区加持，截至 2023 年 2 月 4 日，Discord 数据显示 Midjourney 在 Discord 约有 980 万成员。2022 年 8 月，由 Midjourney 生成的《太空歌剧院》在美国科罗拉多州艺术博览会上获得“数字艺术”类别的冠军，使得 AI 绘画引发了广泛的关注，围绕 AI 能够替代艺术创作的讨论热度较高。

　　OpenAI 持续迭代 DALL·E 模型，图片画质、生成效率均有提升。2021 年 1 月 OpenAI 发布模型 DALL·E，能够根据文本描述生成图像，2022 年 4 月，OpenAI 公布了 DALL·E 2 研发进展。据量子位，从原理上看，DALL·E 2 是 CLIP 与 Diffusion 模型的结合，其中 CLIP 将文本嵌入转变为图像嵌入，而图像嵌入将通过调节扩散（Diffusion Decoder）生成最终的图像。DALL·E 2 与前一代相比图像质量提升了 3 倍，DALL·E 2 生成图像画质为 1024×1024，DALL·E 画质为 256×256，且生成的速度更快。此外 DALL·E 2 能够在更细的颗粒度上实现文本到图像的转化，能够根据自然语言进行 P 图，同时会反馈阴影、纹理等元素的变化。

　　百度推出国产基础模型 ERNIE-ViLG 2.0，文心·一格支持中国风 AI 创作。伴随 AI 绘图的火热，国内也出现了众多的 AI 作图产品，但这些产品大多基于 DALL·E 2 或 Stable Diffusion 等海外大模型，百度在 2022 年 10 月发布的 ERNIE-ViLG 2.0 是国内首个在基础模型方向取得突破的产品。据百度 AI 官网，从技术上看，ERNIE-ViLG 2.0 通过引入视觉知识和语言知识，提升模型跨模态语义理解能力与可控生成能力；在扩散降噪过程中，通过混合专家网络建模，增强模型建模能力，提升图像的生成质量；此外百度构建了近 2 亿的高质量中文图文数据对比，具备强大的中文语义理解能力，助力中国风元素构建。从应用上看，ERNIE-ViLG 2.0 可以用于工业设计、动漫设计、游戏制作、摄影艺术等场景，通过简单描述，在几十秒内生成设计图，提升效率、降低门槛。基于 ERNIE-ViLG 2.0，百度也推出了 AI 艺术与创意辅助平台文心·一格，目前支持国风、油画、水彩、水粉、动漫、写实等十余种不同风格高清画作的生成。

　　据量子位，AI 图像属性编辑包括去水印、自动调整光影、设置滤镜、修改颜色纹理、复刻 /修改图像风格、提升分辨率等，类似于低门槛的 PS（Photoshop）。在该领域布局的初创公司较多，并且谷歌、Adobe 等大厂亦有涉及。国外方面，以 Prisma 为例，作为一款照片编辑器，在全球拥有 1.2 亿用户以及 500 款样式库，借助 Prisma 的 AI 自动生成框架，用户无需投入精力即可将照片转化为艺术品；谷歌的 RawNeRF 技术能够将夜晚照片降噪，此外能将 2D 照片合成 3D 效果并调节焦点；国内的代表产品为美图公司，旗下的美图 AI 开放平台专注于人脸技术、人体技术、图像识别、图像处理、图像生成等核心领域，为客户提供经市场验证的专业 AI 算法服务和解决方案，目前接入的客户包括欧莱雅、兰蔻、宝洁等，助力图像属性处理；面向 C 端的美图秀秀则通过医美级去皱、面部丰盈、一键更换刘海等增值功能收费。

　　据量子位，图像部分编辑包括部分更改图像部分构成与修改面部特征。英伟达的 CycleGAN 能够自动将一类图片替换为另一类图片，如支持将图内的斑马和马、苹果和橘子等内容进行互换。修改面部特征方面，据量子位，Metaphysics 支持调节照片的情绪、年龄和微笑，Metaphysics 还是电影《Here》的唯一制定 AI 视觉特效供应商。国内方面，万兴科技推出的万兴爱画 App，支持 AI 修改局部画面，支持通过文本修改，如输入珍珠项链，可在图片中添加。

　　据量子位，AI 图像端到端生成包括草图生成完整图像、有机组合多张图像生成新图像、根据指定属性生成目标图像等，按照场景划分，包括创意图像生成和功能型图像生成，其中创意图像多为 NFT 产品，功能性图像包括营销海报、用户头像等。国外方面，谷歌推出的 Chimera Painter 可以将粗略草图生成 3D 怪物图像，垂直类公司包括 VanceAI、 Deepdream Generator、Rosebud.ai 等，其中 VanceAI 旗下的 VansPortrait，可在 5 秒内将图片变成绘画、素描或动画。国内的代表产品包括阿里鹿班、诗云科技、蓝色光标等，其中阿里鹿班支持海报、LOGO 等设计，据阿里技术，阿里鹿班平均 1 秒钟就能完成 8,000 张海报设计，一天可以制作 4,000 万张，2017 年双 11 设计约 4 亿张 banner 海报。蓝色光标的销博特通过结合人工智能、统计算法和多维数据库，一键自动化生成策划案、消费者洞察、营销创意等内容。

　　AIGC 通过提取信息生成音频，主要应用于 TTS（Text-to-speech）场景和乐曲/歌曲生成。其中，TTS 技术已相当成熟，广泛应用于客服及硬件机器人、有声读物制作、语音播报等，覆盖新闻、电子书、虚拟 IP、短视频配音等多个领域，代表公司有倒映有声、DeepMind、喜马拉雅、百度等。通过 AIGC 可以简化乐曲/歌曲生成的流程，降低音乐创作的门槛，可应用于流行歌曲、乐曲、有声书的内容创作，以及视频、游戏、影视等领域的配乐创作，大大降低音乐版权的采购成本，代表公司有 Amper Music、DeepMusic、腾讯、网易等。

　　TTS（Text-to-speech）技术为文字内容有声化提供规模化能力，在 AIGC 领域下技术已相当成熟，广泛应用于客服及硬件机器人、有声读物制作、语音播报等。TTS 技术是一种文字转语音技术，可以从文本中获取足够的信息用于语音合成。基于深度学习的端到端语音合成模式正在逐步替代传统的拼接及参数法，可以通过丰富文本信息（如文本的深层情感、深层语义了解等）更好的表现其中的抑扬顿挫，以及基于用户较少的个性化数据得到整体的复制能力，代表模型包括 WaveNet、Deep Voice 及 Tacotron 等。

　　TTS 技术覆盖新闻、电子书、虚拟 IP、短视频配音等多个领域。以倒映有声为例，公司致力于打造 AIGC 神经渲染引擎，率先布局 AI 数字分身 IP 生态，并通过数字分身 IP 的人工智能来自主生成内容。其独家研发的无人驱动数字分身可以实现内容播报与交互功能输出，覆盖新闻资讯播报、有声读物制作、自媒体有声化、虚拟 IP 声音定制、短视频配音、金融领域数字人服务、文旅领域互动、游戏娱乐聊天等多种场景，帮助提升内容制作产能超 200%，节省 90%的制作成本。

　　语音克隆对于电子书、动画、电影、以及虚拟人行业等有重要意义。语音克隆是本质上属于指定了目标语音（如特定发言人）的 TTS，该技术目前被应用于虚拟歌手演唱、自动配音等。喜马拉雅运用 TTS 技术在电子书、新闻等领域实现了较广的应用，能够高效地将新闻、书籍和文章中的大量文字信息转为音频，大幅提升了音频的生产效率。运用 TTS 技术喜马拉雅重现单田芳声音版本的《毛氏三兄弟》和历史类作品，“单田芳声音重现”账号已经上线部专辑作品。百度语音合成团队使用李彦宏约 1 小时音频素材，通过 AIGC 技术生成了《智能交通》有声书。podcast.ai 通过乔布斯的传记和收集网络上关于他的所有录音，利用 Play.ht 的语言模型大量训练生成 Joe Rogan 采访乔布斯的播客内容。

　　AIGC 可以简化乐曲/歌曲生成的流程，降低音乐创作的门槛。AIGC 在词曲创作中的功能可被逐步拆解为作词（NLP 中的文本创作/续写）、作曲、编曲、人声录制和整体混音。 AIGC 能通过强大的数字处理能力兼顾歌曲从制作到演唱的全流程，实现化繁为简，在短时间内完成音乐作品创作。目前，AIGC 已经支持基于开头旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。

　　AI 编曲基于主旋律和创作者个人的偏好，生成不同乐器的对应和弦完成整体编配，多家公司已推出 AI 音乐创作平台和作曲软件。AI 编曲在特定乐曲/情绪风格内学习主旋律和特定要素间的映射关系，从而基于主旋律生成自身所需和弦。Amper Music 于 2019 年推出首个人工智能作曲平台 Amper ScoreTM，可以根据项目的独特性创作出符合风格、长度和结构的定制音乐，帮助使用素材音乐库的视频编辑者节省 90%选择音乐和编辑音乐的时间。 DeepMusic 开发了针对视频生成配乐的配乐猫、支持非音乐专业人员创作的口袋音乐、可 AI 生成歌词的 LYRICA、AI 作曲软件 LAZYCOMPOSER，从作词、作曲、编曲、演唱、混音等方面全方位降低音乐创作及制作门槛。

　　自动编曲功能已在国内主流音乐平台上线，与虚拟偶像演出一同成为重点关注领域。QQ 音乐成为 AI 音乐公司 Amper music 的 API 合作伙伴，腾讯 AI Lab 开发 AI 识图作曲技术并推出 AI 虚拟偶像“艾灵”，可通过用户提供的关键词自动生成歌词并演唱；2022 年 1 月网易推出首个人工智能音乐创作平台网易天音；快手通过自主研究，推出了 AI 音乐创作模型和 AI 歌手，并邀请平台内的音乐人使用 AI 模型进行歌曲创作。

　　AIGC 视频生成可以降低视频制作时间，主要应用于视频自动编辑、视频自动生成和文字生成视频等。其中，视频自动编辑具备视频属性编辑和视频自动剪辑两大功能，视频属性编辑能帮助节省视频制作时间，增加视频玩法，视频自动剪辑在短视频和直播领域被大量使用。代表公司有 Runway ML、不咕剪辑、Adobe、IBM、网达软件、闪剪、字节跳动剪映和快手的云剪。视频完全自动生成仍处于技术尝试阶段，所生成视频的时长、清晰度、逻辑程度等仍有较大的提升空间，已在动画制作应用落地，代表公司和产品包括百度文心一格、小冰公司和 Synthesia。文本生成视频可以看作文本生成图像的进阶版技术，目前已有成熟产品，代表公司和产品包括 Meta、谷歌、百度智能视频合成平台 VidPress、 Gliacloud、Pencil 等。

　　AIGC 在视频自动编辑领域的应用主要为视频属性编辑和视频自动剪辑两类。针对视频属性编辑，AIGC 可以实现视频画质修复、删除画面中特定主体、自动跟踪主题剪辑、生成视频特效、自动添加特定内容、视频自动美颜等；对于视频自动剪辑，AIGC 可以基于视频中的画面、声音等多模态信息的特征融合进行学习，按照氛围、情绪等高级语义限定，对满足条件片段进行检测并合成。视频属性编辑：视频修复等功能帮助节省制作时间，特效等功能可以增加视频玩法。 Runway ML 推出 AI 视频创意工具平台 Runway，主打的 AI 辅助功能有三个：绿幕功能，可以把选择的对象以绿幕的方式作为视频主题剪裁出来，通过点选的方式 AI 自动补全贴合主题的轮廓；视频修复功能，类似图片的 PS 功能，周围的背景通过 AI 计算进行填充；运动功能，视频效果（如标题）可以跟随主体运动。不咕剪辑 Cooclip 可以通过人工智能进行视频抠像分轨，内置丰富的贴纸、音频、经典“梗”素材等，可以增加视频本身的玩法与乐趣。

　　视频自动剪辑：目前主要在技术尝试阶段。Adobe 与斯坦福共同研发的 AI 视频剪辑系统，可以将所有镜头包括多个角度拍摄的画面按照脚本进行组织，准确的识别出需要剪辑的内容，系统会利用面部识别和情绪识别系统，对每一帧画面进行分析。IBM Watson 自动剪辑科幻电影《摩根》的预告片，制作预告片的时间缩减到 24 小时，而通常需要 10 天到一个月。我国的公司影谱科技推出了相关产品，能够基于视频中的画面、声音等多模态信息的特征融合进行学习，按照氛围、情绪等高级语义限定，对满足条件片段进行检测并合成。 AIGC 在短视频和直播领域被大量使用，短视频自动剪辑内容更快更高效。网达视频实时智能云剪系统，可以边直播、边录制、边剪辑，实现分钟级短视频智能剪辑发布，具有集锦自动制作、智能封面提取、热点视频自动制作、全景直播拆条等功能。智能直播切片系统通过 AI 识别直播间的精彩片段，实现直播间内容智能剪辑，再通过矩阵化运营，带来增量曝光与二次转化。抖音和抖音的短视频剪辑软件剪映与云剪支持 AI 识别字幕和文本朗读，智能封面、智能抠图和绿幕抠图等各功能，提升短视频制作效率。

　　#2 视频自动生成：全自动生成技术仍在尝试，在动画、广告和特定商务场景应用落地

　　不引用现有素材完全从头生成视频仍处于技术尝试阶段，在图像生成的基础上可以实现简单的视频短片制作，所生成视频的时长、清晰度、逻辑程度等仍有较大的提升空间。目前的 AI 技术不仅可以生成图片，也能够生成序列帧，通过 AI 逐帧完成图片生成，制作视频短片。如 2022 年 12 月我国新华社与百度文心一格联合推出 AIGC 视频短片《AI 描绘天宫盛宴》，进一步提升了 AI 作画的可控性、复杂构图和细节刻画能力，AI 作画不再单纯地输出一帧帧高质量图片，而是基于统一的风格，尝试连续地讲述一个完整的故事。 AIGC 在动画制作领域已经开始商业化落地。《犬与少年》由小冰公司日本分部（rinna）、 WIT STUDIO 与合作伙伴共同创作，该片采用 rinna 开发的 AI 辅助背景进行制作，极大地简化了从导演分镜表到 Layout“设计图”的工序环节，将手工着色的“设计图”提交至 AI 生成细化并优化背景，再对 AI 生成的背景图进行修正，进而通过人工智能技术绘制完整动画场景。

　　人脸合成等技术可以在广告和特定商务场景得到应用。广告方面，可以选择服务于明星，在多语言广告、碎片化内容生成等领域使用，快速提升明星的 IP 价值。例如 Synthesia 为 Snoop Dogg 制作的广告，通过使用 deepfake 改变其嘴部动作，就能够将原始广告匹配到另一品牌。除 deepfake 外，AIGC 还可以实现在视频中的虚拟内容植入生成个性化广告，也即利用计算机图形学和目标检测在视频中生成物理世界并不存在的品牌虚拟元素，如 logo、产品、吉祥物等。在特定商务场景，AIGC 可以应用于培训材料分发（如 WPP 的全球培训视频）、素人直播及短视频拍摄等。

　　文本生成视频可以看作文本生成图像的进阶版技术。一方面，文本生成视频同样是以 Token 为中介，关联文本和图像生成，逐帧生成所需图片，最后逐帧生成完整视频。而另一方面，视频生成会面临不同帧之间连续性的问题。对生成图像间的长序列建模问题要求更高，以确保视频整体连贯流程。从数据基础来看，视频所需的标注信息量远高于图像。目前已经进入可商用阶段，国外有较为成熟的产品。文字生成视频需要基于文字（涉及 NLP 语义理解）搜索合适的配图、音乐等素材，在已有模板的参考下完成自动剪辑。代表公司/产品方面，ToC 的包括百度智能视频合成平台 VidPress、慧川智能、Gliacloud、 Synths.video、lumen5，ToB 端代表公司为 Pencil。以百度智能视频合成平台 VidPress 为例，其工作原理与编辑制作视频的步骤相似，先准备文本脚本，收集媒体材料后将材料处理成视频片段，将脚本配音与视频对齐，最后编辑检查。通过 AI 技术，VidPress 可以实现文字分析和摘要、视频内容搜索、素材智能化处理、音视频对齐，以及智能剪辑等 5 个步骤的自动化。

　　两大巨头 Meta 和谷歌竞争激烈。Meta 公司在 2022 年 9 月 29 日推出的 Make-A-Video 是一款可以直接基于文字生成短视频的人工智能系统。据 Meta 公司透露，技术人员在开发该产品的过程中结合了几百万个视频和 23 亿张图片数据集数据来训练其模型，目前系统可以根据输入文字或者图片自动生成准确率很高的 5 秒钟短视频片段。在 Meta 发布了 Make-A-Video 的一周后，谷歌推出 Imagen Video 和 Phenaki，相比于 Make-A-Video， Imagen Video 的视频清晰度和分辨率更高，可以产生分辨率 1280×768 的 5.3 秒视频。 Phenaki 可根据提示语智能生成极其贴近文本描述的 2 分钟以上的长视频，在公布的 DEMO 中，Phenaki 基于几百个单词组成一段前后逻辑连贯的视频只需两分钟。

　　AIGC 应用场景多元，随着 AIGC 技术发展愈加成熟，在游戏/代码/3D 生成等领域将迎来蓬勃发展。目前游戏生成中游戏操作策略生成、NPC 逻辑及剧情生成和游戏资产已经得到应用，AIGC 生成代码能替代编码中大部分重复性劳动，3D 生成尚处于早期阶段。代表产品/公司包括 Deepmind、rct AI、腾讯、Scenario、Runway、Epic Games 游戏《黑客帝国：觉醒》、谷歌 DreamFusion、英伟达 Magic3D 和 GET3D、GitHub Copilot 等。

　　游戏内容形式复杂，包含 2D 图像、3D 建模、音频、视频、数字资产等，AIGC 将对游戏内容生产的各方面形成冲击，AIGC 在游戏当中的应用包括以下方面： 1）游戏操作策略生成。人工智能玩家生成真实对战策略，帮助游戏进行前期平衡性测试、游戏跑图/功能测试、对局陪伴、特定风格模拟等。2016 年 Deepmind AlphaGO 在围棋中有所展示，随后，AI 决策在 Dota2、StarCraft2、德扑、麻将等游戏领域中均展现出了良好的实力。腾讯“绝悟”AI 通过强化学习的方法来模仿真实玩家，包括发育、运营、协作等指标类别，以及每分钟手速、技能释放频率、命中率、击杀数等具体参数，让 AI 更接近正式服玩家真实表现，测试的总体准确性提升到 95%。 2）NPC 逻辑及剧情生成。开放世界游戏越来越受欢迎，通过 AIGC 来创建场景和 NPC 都将会大幅度提升效率和降低成本。rct AI 成立于 2018 年，运用人工智能为游戏行业提供完整的解决方案，rct AI 的混沌球（Chaos Box）算法可以在游戏中大规模地轻松生成具有智能意识的虚拟角色，进而实现性格化 NPC、对抗式 AI、互动式 AI、大规模智能 NPC 部署、智能留存及智能运营策略等。 3）游戏资产的生成。Scenario 用户可通过视频拍摄现实生活的中的 3D 物体然后生成在游戏中对应的模型，在 Stable Diffusion 的基础上，Scenario 推出了一个面向游戏开发者和游戏设计的是 AIGC 工具，专注于生成各种游戏资产。

　　AIGC 日益成为 3D 内容生成的基础技术支撑。传统的 3D 制作需要耗费大量的时间和成本，相比于 2D 内容的制作，3D 内容蕴含的信息量更多、制作成本更高、制作周期更长。随着 Diffusion 模型、NeRF 模型的发展，AIGC 在 3D 内容生成的应用上迎来了快速的发展， 3D 模型、场景和角色制作能效提升。 3D 内容生成对游戏、电影、室内设计等领域产生影响。3D 纹理和素材是制作 3D 游戏和电影必不可少的元素，近期 Runway 基于 diffusion 推出了一个 AI 生成 3D 素材的模型，可快速生成 3D 纹理。2022 年虚幻引擎和 Epic Games 推出的《黑客帝国：觉醒》利用虚幻 5 引擎技术下，建立了 700 万个实例化资产，每个资产由数百万个多边形组成，包括 7000 栋建筑、38000 辆可驾驶车和超过 260 公里的道路。通过 NeRF 模型可以快速生成 3D 室内建模，并且可以通过文字指令来切换整体的风格，腾讯旗下“腾讯云三维建模” 软件通过手机拍照可以实现快速对实际场景进行三维重建的功能。

　　谷歌和英伟达在 3D 内容生成上较为领先。2022 年 10 月谷歌发布 DreamFusion，能够使用文本到图像模型先生成 2D 图像，然后优化为体积 NeRF 数据，目前生成的 3D 内容质量不高。英伟达发布的 Magic3D 可以在大约 40 分钟内生成一个 3D 网格模型并配有彩色纹理，比谷歌 DreamFusion 的 3D 生成速度更快，22 年 12 月新发布 GET3D 可以合成 3D 几何体，每秒可生成约 20 个物体。

　　AIGC 生成代码能替代编码中的重复性劳动，为程序员工作带来巨大效率提升。GitHub 和 OpenAI 合作产生 AI 代码生成工具 GitHub Copilot，可根据命名或者正在编辑的代码上下文为开发者提供代码建议。据官方介绍，其已经接受来自 GitHub 上公开可用存储库的数十亿行代码的训练，支持大多数编程语言，近 30% GitHub 网站上的新代码是在 AI 的帮助下完成的。

　　（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

本文固定链接: https://www.douyinyunying.cc/?id=42255
转载请注明: admin 2023年02月11日于抖音运营发表

作者：admin

抖音运营站点 QQ交谈

传媒行业专题研究：AIGC引领内容生产方式变革

您可能还会对这些文章感兴趣！

《本文》有 0 条评论

留下一个回复取消回复

您可能还会对这些文章感兴趣！

《本文》有 0 条评论

留下一个回复 取消回复

留下一个回复取消回复