基于多代理认知架构的
智能教学视频生成系统

通过多智能体协作框架,将"用户意图→脚本→视觉→代码→渲染"全链路自动化

团队: 潜力无限队 赛道: AI/LLM 创新应用 日期: 2025.12.25

项目摘要

本项目提出了一种面向落地的认知架构,通过多智能体协作框架,将"用户意图→脚本→视觉→代码→渲染"全链路自动化串联起来。我们将认知心理学的信息加工模型映射到专业化的LLM智能体上,并以可观测的消息总线与状态存储为枢纽,构建了一套鲁棒、可量化、可扩展的教学内容生产系统。

核心创新

将人类认知阶段解耦为具备独立系统提示词、标准I/O契约与质量信号的专家智能体集群,形成可并行的DAG编排网络。通过结构化上下文帧实现阶段化知识表征与隐式知识传递,显著优于传统线性提示链的脆弱耦合。

主要交付物

🎬

端到端自动化系统

覆盖"意图→脚本→视觉→代码→Manim渲染"的完整流程,含Web演示

🤖

七大认知智能体

标准化I/O契约与可复用接口,实现专业化分工

📊

可观测消息总线

结构化上下文帧,支持差分审计与回滚

🔧

自修复代码生成

具备错误归因与最小变更补丁能力

📈

完整评测体系

示例演示与可回放日志,支持质量量化

问题陈述与研究背景

📚 教学内容生产的困境

  • 人工成本高昂: 10分钟视频制作成本数千至数万元
  • 制作周期冗长: 从脚本到成片平均耗时2-4周
  • 质量不稳定: 依赖个人经验,缺乏标准化流程
  • 迭代困难: 内容修改需重新完整流程

🤔 LLM的潜力与局限

  • 单轮生成质量不足: 缺乏结构性,逻辑连贯性差
  • 多步骤提示脆弱: 信息传递依赖隐式上下文,易语义漂移
  • 缺乏专业化分工: 难以兼顾叙事、视觉、代码等多领域

核心挑战

🎯

意图模糊性

需求含糊、约束缺失,难以形成可执行的验收标准

🔗

跨层错位

概念-叙事-视觉-代码链路易脱节,缺乏一致性度量

⚠️

错误恢复缺陷

缺乏阶段隔离,调试演化为全局试错,时间不可控

📈

可扩展性压力

任务放大时线性流程难以复用,吞吐不可预测

技术创新

系统架构总览

系统架构图

核心组件

🎯

智能体编排器

以DAG结构组织智能体执行,支持并行与选择性重执行,动态监测质量信号

📨

消息总线

统一的任务令牌和上下文帧机制,所有消息遵循标准化Schema,确保可追溯、可审计

💾

状态存储

持久化各阶段产物,支持回滚与跨迭代差分评测,维护完整执行历史链

⚙️

运行时层

提供Manim渲染引擎、Web演示界面和全面日志系统,采集性能与成本数据

范式跃迁对比

维度 传统多步骤提示 本认知流水线 技术优势
执行结构 线性指令链 DAG编排的智能体网络 吞吐提升2-3倍
知识传递 隐式上下文延续 结构化上下文帧 减少歧义传播
错误处理 全局重试或人工干预 阶段隔离调试+自动修复 修复迭代次数降至≤2
中间状态 不可见 可观测、可评估、可回滚 支持差分审计与质量量化
可扩展性 线性复杂度增长 模块化复用+并行化 新场景接入成本降低60%

七大认知智能体

每个智能体承担明确的认知职能,拥有独立的System Prompt与I/O契约

01

PromptRewriter

元认知与任务澄清

识别歧义、补全约束、建立验收标准,将主观需求转化为可测量条件

反思式提示 风险评分
02

ConceptAnalyzer

知识表征与图式构建

提取语义节点、定义关系边、构建逻辑蓝图,实现结构化概念图

概念图谱 重要性加权
03

SceneSplitter

时序规划与场景编排

分镜设计、时长分配、转场编排,遵循"引入-深入-总结"的三段式节奏

时长分配算法 转场语义映射
04

VisualDesigner

空间视觉加工

色彩体系、排版规范、动效风格,基于受众与主题自适应选择

WCAG可访问性 动效语义映射
05

NarrativeComposer

叙事智能

剧本编写、音画同步、逻辑流畅,确保因果连贯性与多模态一致性

时间轴对齐 因果连贯性检查
06

CodeGenerator

程序性知识

Manim代码生成、API调用、动画编排,将蓝图转化为可执行代码

模板库复用 静态分析
07

CodeOptimizer

错误归因

调试、最小变更修复、回归测试,实现自动化质量闭环

根因分析 上游反馈

工作流程演示

工作流程图

完整示例:二分查找教学视频生成

阶段1

概念分析 (ConceptAnalyzer)

输入: "制作一个面向编程初学者的二分查找教学视频"

输出: 核心概念、目标受众、难度等级、学习目标

{
  "core_concept": "二分查找算法(Binary Search)",
  "target_audience": "编程初学者",
  "key_points": [
    "有序数组是前提条件",
    "每次排除一半搜索空间",
    "时间复杂度O(log N)"
  ]
}
阶段2

视觉设计 (VisualDesigner)

职责: 设计分镜脚本、全局视觉风格、转场效果

输出: 色彩体系、场景分镜、动画风格规范

背景色
主色调
强调色
阶段3

叙事脚本 (NarrativeComposer)

职责: 编写详细解说词、屏幕文案、时间轴标注

输出: 分场景解说词、视觉提示、音画同步点

"二分查找的核心是每次排除一半元素。我们维护左右边界L和R,计算中点M..."

阶段4

代码生成 (CodeGenerator)

职责: 将叙事脚本转化为完整可执行的Manim代码

输出: 可渲染的Python代码文件

from manim import *

class BinarySearchScene(Scene):
    def construct(self):
        # 创建有序数组可视化
        array_data = [2,5,8,12,16,23,38,45]
        array_boxes = VGroup(*[
            Square(side_length=0.5,
                   color="#0f4c81")
            for _ in array_data
        ]).arrange(RIGHT, buff=0.05)
        ...
阶段5

自适应修复 (CodeOptimizer)

触发条件: 渲染失败时自动启动

修复策略: 错误捕获 → 智能摘要 → 最小变更修复 → 递归重试(最多5轮)

❌ 错误: VGroup切片返回list,无animate属性

✅ 修复: 显式构造VGroup并使用Transform

评测框架与指标

≥ 0.85
一致性

跨层对齐分数(剧本↔视觉↔代码)

≥ 95%
正确性

Manim无错执行率

≤ 2.0
可修复性

平均修复迭代次数

< 5分钟
效率

端到端生成延迟

关键技术特性

断点续传
每阶段产物持久化,重新运行时自动加载缓存
节省重复调用成本
差分审计
步骤输出保存为.txt,可用diff工具对比
快速定位阶段差异
自修复闭环
错误自动触发CodeOptimizer,最多5轮迭代
处理90%+渲染错误
交互式迭代
首次成功后可追加需求,仅重新执行受影响阶段
支持敏捷式调优

未来规划

第二阶段

多模态增强

接入图像和音频LLM,增强音画同步和布局推理能力

第三阶段

知识库集成

将概念图与持久化知识库绑定,实现长期记忆和跨项目学习

第四阶段

社区标准

开源智能体I/O模式和评测协议,支持社区采纳与扩展

第五阶段

强化学习优化

通过RL策略学习,自动优化修复路径和提示改写策略