The State of Generative AI 2023-亚洲电力网

在 2023 世界人工智能大会（WAIC）启明创投论坛 " 生成式 AI 与大模型：变革与创新 " 上，启明创投携手未尽研究，共同发布重磅报告《生成式 AI》| State of Generative AI 2023。

如果说 2022 年被称为生成式人工智能之年，扩散模型应用取得突破，ChatGPT 出世，一系列开创性的研究论文发表，2023 年则把大模型推向了一个高峰，以 GPT-4 发布为标志，生成式人工智能，朝着通用人工智能的方向，进入了创新应用的阶段。

这一阶段最重要的特征，是应用、研究、监管，合力开辟着生成式人工智能的创新之路。

(资料图片仅供参考)

01/ 创新应用

人们很快从生成式人工智能中看到了新的商业生态的出现，看到了一层又一层的技术，如计算、模型和应用；看到了生成的内容，如文、图、视频、代码、3D 结构、多模态；也看到了公开数据、垂直数据、合成数据、向量数据，用于大大小小的模型。

生成式人工智能，在中国似乎受到了更加热情的接纳：政府鼓励发展通用人工智能；任何一家大企业都无法不关注它；许多从事知识工作的中小企业，已经先用起来再说。面对这一革命性的技术，所有企业都被卷入。它们节奏不同，介入程度不同，成为新技术浪潮下的守成者、创新者、采纳者。它们的利润率被永久的改变了。

算力目前是最稀缺的资源，也处于最容易获利的要津。算力是大模型成本结构中最大的一块，GPU 的性能，实际上决定了这个新兴行业的步调。随着算力与模型的进步，更多初创企业正在涌入，它们抢到了时间的红利，但也面临竞争和可能的巨头碾压。可以说，这是初创企业的蓝海，也有航道下的暗礁。

竞争促进了创新。与 2022 年快速涌现出的生产力工具方向的创业公司不同，2023 年，有更多比例的新公司聚焦在底层技术的创新；大模型创业公司也开始分化，在通用大模型创业公司方兴未艾的同时，许多面向医疗、电商、科研、工业、自动驾驶和机器人等特定方向的垂直大模型公司开始出现。

02/ 前沿研究

2022 年和 2023 年，是生成式人工智能技术取得突破的两年，我们梳理了论文，发现生成式人工智能领域的一个突出特征，是研究与创新过程的密切结合，许多在企业内部实现，迅速推出用例和产品。这种研究与创业的一体化，初创企业和风险资本起到了重要的作用，而美国科技巨头和主要人工智能企业的研究投入与人才，包括一些底层技术的研究，这些年来已经超过了大学等研究机构。

人工智能的前沿正在向未来推进。尽管从 GPT-4 的技术报告，到微软的研究论文，都展示出它所具有的接近于人类的文字处理能力、数学推理能力，以及诸多专业领域的知识。" 我们认为它可以合理地被视为人工通用智能（AGI）系统的早期（尽管仍不完整）版本。" 但是，在通往通用人工智能的道路上，需要研究和解决的问题反而更多了。如信心校准、长期记忆、持续学习、个性化、规划和概念跨越、透明度、认知谬误和非理性，等等。

过去半年最重要的研究方向，是破解和理解大模型神秘而又令人兴奋的智能 " 涌现 "。大模型既需要超越对下一个词的预测能力，也需要一个更丰富、更复杂的 " 慢思考 " 深层机制，来监督 " 快思考 " 预测下一个词的机制。

那些最好的前沿研究，一定是研究和解决技术规模应用中遇到的问题。研究如何减少幻觉，调教大模型更加准确地输出真实的内容，训练出更强的推理能力；如何更集约地训练模型，降低门槛，推出新产品，让更多的各行各业和消费者都能用上；如何能像人一样，与真实的物理世界互动；如何成为人类复杂工作的助手，设计并帮助执行科学实验；如何影响就业，从而做出政策的响应；如何让人工智能安全和可信。

03/ 监管 | 安全 | 政策 | 人才

政府对于生成式人工智能的监管反应相当及时，各国也出现了不同的特点。中国在迅速推出生成式人工智能的监管办法并征求意见的同时，也在鼓励发展通用人工智能，北京、上海、深圳是最具雄心的第一梯队，均提出了较具雄心的人工智能科研、创新与产业目标。欧盟继续在监管和立法方面领先，一如其 5 年前率先推出 GDPR。美国更在意人工智能技术的领先地位，正在形成以风险管理为原则的监管框架。

长期来看，人才对人工智能未来的影响，超过了算力。中国研究人员发布的论文在数量上已经超过了美国，但金字塔顶端，无论是研究还是创业，美国仍然占据明显的优势。在全球范围内，人工智能研究创新的重心正从高校转移至企业，美国拥有顶尖学者最多的前三大机构，分别是谷歌、微软与 Meta，合计招揽了美国顶级学者的 30%。中国仍以高校为主，仅阿里巴巴跻身前 10。

科技部已经提出了人工智能企业，应该接受科技伦理审查；审查主体应该设立科技伦理（审查）委员会。美国人工智能企业较早开始设立负责任与可信人工智能部门，从去年到今年以来经过一些调整，反映出在生成式人工智能发生变革之际，企业正在寻求用更好的技术和方案，来安全和负责地部署新技术。

04/ 十大前瞻

大语言模型

1. 2024 年中国将出现比肩 GPT-4 的多语言通用大模型；

2. 超长上下文（Long Context）将引领下一次 LLM 技术突破；

3. 在出现更有前景的大语言模型之前，为实现垂直领域更好的效果，以下三种方式将共存：

i）在不改变数据分布的情况下，利用更多通用数据进行通用大模型预训练，不特别引入行业数据，

ii）利用行业专属数据微调（Fine-Tuning）通用大模型，

iii）利用行业数据占比更高的数据集进行垂直模型预训练。

多模态模型

4. 当前 CLIP + Diffusion 的文生图模型是过渡态，未来 2 年内将出现一体化的模型结构；

5. 下一代 Text-to-Image 模型将具备更强的可控性，它将结合底层模型能力和前端控制方式，对模型的设计将注重与控制方式的结合；

6. 2025 年之前，Video 和 3D 等模态将迎来里程碑式的模型，大幅提高生成效果；

7. 以 PALM-E 为代表的具身智能（Embodied AI）展现出在机器人的感知、理解和决策等方向上的巨大潜力，但当前训练和可靠性存在较大挑战；

8. 短期内 Transformer 正成为多个模态的主流网络结构，但压缩整个数字世界的通用方法尚未出现，Transformer 并不是人工智能技术的终点。

商业机会

9. 3 年内，颠覆式的 AI 应用的核心驱动力来自于底层模型的创新，两者无法解耦，模型的作用将大于产品设计的作用；

10. 当前生成式 AI 市场处于技术主导的早期阶段，存在千亿美元市值的平台性企业的机会。

标签：