通过多智能体协作框架,将"用户意图→脚本→视觉→代码→渲染"全链路自动化
本项目提出了一种面向落地的认知架构,通过多智能体协作框架,将"用户意图→脚本→视觉→代码→渲染"全链路自动化串联起来。我们将认知心理学的信息加工模型映射到专业化的LLM智能体上,并以可观测的消息总线与状态存储为枢纽,构建了一套鲁棒、可量化、可扩展的教学内容生产系统。
将人类认知阶段解耦为具备独立系统提示词、标准I/O契约与质量信号的专家智能体集群,形成可并行的DAG编排网络。通过结构化上下文帧实现阶段化知识表征与隐式知识传递,显著优于传统线性提示链的脆弱耦合。
覆盖"意图→脚本→视觉→代码→Manim渲染"的完整流程,含Web演示
标准化I/O契约与可复用接口,实现专业化分工
结构化上下文帧,支持差分审计与回滚
具备错误归因与最小变更补丁能力
示例演示与可回放日志,支持质量量化
需求含糊、约束缺失,难以形成可执行的验收标准
概念-叙事-视觉-代码链路易脱节,缺乏一致性度量
缺乏阶段隔离,调试演化为全局试错,时间不可控
任务放大时线性流程难以复用,吞吐不可预测
以DAG结构组织智能体执行,支持并行与选择性重执行,动态监测质量信号
统一的任务令牌和上下文帧机制,所有消息遵循标准化Schema,确保可追溯、可审计
持久化各阶段产物,支持回滚与跨迭代差分评测,维护完整执行历史链
提供Manim渲染引擎、Web演示界面和全面日志系统,采集性能与成本数据
| 维度 | 传统多步骤提示 | 本认知流水线 | 技术优势 |
|---|---|---|---|
| 执行结构 | 线性指令链 | DAG编排的智能体网络 | 吞吐提升2-3倍 |
| 知识传递 | 隐式上下文延续 | 结构化上下文帧 | 减少歧义传播 |
| 错误处理 | 全局重试或人工干预 | 阶段隔离调试+自动修复 | 修复迭代次数降至≤2 |
| 中间状态 | 不可见 | 可观测、可评估、可回滚 | 支持差分审计与质量量化 |
| 可扩展性 | 线性复杂度增长 | 模块化复用+并行化 | 新场景接入成本降低60% |
每个智能体承担明确的认知职能,拥有独立的System Prompt与I/O契约
识别歧义、补全约束、建立验收标准,将主观需求转化为可测量条件
提取语义节点、定义关系边、构建逻辑蓝图,实现结构化概念图
分镜设计、时长分配、转场编排,遵循"引入-深入-总结"的三段式节奏
色彩体系、排版规范、动效风格,基于受众与主题自适应选择
剧本编写、音画同步、逻辑流畅,确保因果连贯性与多模态一致性
Manim代码生成、API调用、动画编排,将蓝图转化为可执行代码
调试、最小变更修复、回归测试,实现自动化质量闭环
输入: "制作一个面向编程初学者的二分查找教学视频"
输出: 核心概念、目标受众、难度等级、学习目标
{
"core_concept": "二分查找算法(Binary Search)",
"target_audience": "编程初学者",
"key_points": [
"有序数组是前提条件",
"每次排除一半搜索空间",
"时间复杂度O(log N)"
]
}
职责: 设计分镜脚本、全局视觉风格、转场效果
输出: 色彩体系、场景分镜、动画风格规范
职责: 编写详细解说词、屏幕文案、时间轴标注
输出: 分场景解说词、视觉提示、音画同步点
"二分查找的核心是每次排除一半元素。我们维护左右边界L和R,计算中点M..."
职责: 将叙事脚本转化为完整可执行的Manim代码
输出: 可渲染的Python代码文件
from manim import *
class BinarySearchScene(Scene):
def construct(self):
# 创建有序数组可视化
array_data = [2,5,8,12,16,23,38,45]
array_boxes = VGroup(*[
Square(side_length=0.5,
color="#0f4c81")
for _ in array_data
]).arrange(RIGHT, buff=0.05)
...
触发条件: 渲染失败时自动启动
修复策略: 错误捕获 → 智能摘要 → 最小变更修复 → 递归重试(最多5轮)
❌ 错误: VGroup切片返回list,无animate属性
✅ 修复: 显式构造VGroup并使用Transform
跨层对齐分数(剧本↔视觉↔代码)
Manim无错执行率
平均修复迭代次数
端到端生成延迟
接入图像和音频LLM,增强音画同步和布局推理能力
将概念图与持久化知识库绑定,实现长期记忆和跨项目学习
开源智能体I/O模式和评测协议,支持社区采纳与扩展
通过RL策略学习,自动优化修复路径和提示改写策略