手机版 客户端

科研人员开源本地通用幻灯片智能体模型与环境系统

  科研人员开源本地通用幻灯片智能体模型与环境系统。近日,中国科学院软件研究所团队开源第二代幻灯片智能体系统DeepPresenter,实现了将幻灯片智能体模型与完整的智能体沙箱环境一同开源,可在单张消费级显卡和终端上一键部署,并适配国产化算力生态。该成果重构了AI制作幻灯片逻辑,使智能体不仅能“深度探索”,还能“亲眼所见”。

  在内容生成方面,团队构建了包含20余种专业工具的共享智能体环境,集成了基于Docker的智能体沙箱、arXiv实时文献检索,以及Python代码执行与数据可视化等能力,为幻灯片内容的专业性与数据准确性提供保障。在排版优化方面,团队提出了环境感知反思机制。这一机制通过“生成—渲染—审视—修正”的视觉闭环工作流,使智能体在每页幻灯片生成后,调用沙箱内浏览器将代码渲染为真实图片,并基于截图进行自适应检查与迭代优化,直至排版效果达到预期标准。在模型训练方面,团队设计了系统化的训练流水线。该训练流水线基于PersonaHub与arXiv等多源数据集构建高多样性任务数据,并在指令中定义页数限制、宽高比及语言等细粒度约束条件;引入独立评审机制以克服智能体的自我验证偏差,由独立模型作为外部评估者指出生成产物中的排版或逻辑缺陷;在1152个任务中筛选出802条高质量智能体轨迹用于监督微调训练,涵盖中英双语、多种宽高比及复杂指令约束场景。

  为验证有效性,团队在预留的128个测试任务中使用PPTEval进行系统评测,并与多种主流幻灯片生成方案进行对比。结果显示,DeepPresenter(pptagent 2.0)9B版本获得4.19综合评分,与闭源模型GPT-5(4.22)表现接近,优于其他幻灯片生成方案。成本—性能分析表明,DeepPresenter-9B处于前沿曲线的最优平衡点位置,能以低于闭源模型的算力成本实现同等级别的生成质量。所有生成内容均输出为可编辑的pptx格式,支持用户自由修改与二次创作。

  论文链接

 

研究团队单位:软件研究所

 

科研人员开源本地通用幻灯片智能体模型与环境系统

参考标签

声明:本文转载仅出于学习和传播信息所需,并不意味着代表本站观点或证实其内容的真实性;其他网站或个人转载使用须保留本站所注“来源”,并自负相关法律责任;如作者不希望被转载或其他事宜,请及时联系我们!