当前位置：首页 > news >正文

故事可视化AI

news 2026/2/8 22:44:31

i68,爱六八,链接你我他

StoryWeaver故事可视化

通过知识增强的角色定制技术，实现高质量的故事可视化
论文链接:https://arxiv.org/pdf/2412.07375
项目仓库:https://github.com/Aria-Zhangjl/StoryWeaver
由厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏羲人工智能实验室联合推出

主要功能

角色定制与可视化：根据文本叙述和角色图像生成一系列视觉化的故事图像，精确定制给定角色的形象。
语义对齐：系统能确保生成的图像序列与文本提示在语义上保持一致，即图像内容与文本描述相匹配。
知识图谱应用：系统能理解和表示故事中角色的详细属性和角色间的关系。
多角色互动：StoryWeaver 能处理多角色故事场景，保持每个角色的身份清晰，展现角色间的自然互动。
跨注意力分配：优化多角色故事中的注意力分配，避免身份混合问题。

StoryWeaver：故事可视化生成模型，快速生成故事绘本，支持处理单角色和多角色的故事可视化任务
开源StoryWeaver为你生成完美的童话故事

StoryTeller长视频描述生成系统

StoryTeller简要

全自动的长视频描述生成系统
字节跳动、上交、北大开源
论文链接:https://arxiv.org/pdf/2411.07076
项目仓库:https://github.com/hyc2026/StoryTeller
StoryTeller 在 MovieQA 上超越了所有开源和闭源基线模型，特别是，StoryTeller 的准确率比最强的基线 Gemini-1.5-pro 高出 9.5%

StoryTeller亮点直击

引入音画角色识别任务：提出了音画角色识别任务，通过整合视觉、音频和文本信息，实现对白与角色的精准匹配，从而解决长视频描述中的一致性挑战，包括角色描述和故事逻辑连贯性。
StoryTeller系统创新: 开发了StoryTeller系统，包含视频分割模块、音画角色识别模块和身份感知的描述生成模块，生成密集且一致性高的长视频描述，兼顾基础视觉概念和高级剧情信息。
高质量数据集与自动评估方法: 构建了MovieStory101数据集，包含密集标注的三分钟电影片段和对白角色身份标签，同时引入MovieQA自动评估方法，通过GPT-4回答多选问题，以准确率衡量描述质量。
显著性能提升: StoryTeller在MovieQA任务中比最强基线Gemini-1.5-pro提升9.5%准确率，在人类对比评估中表现出+15.56%的优势。同时，将音画角色识别结果输入其他模型也显著提升了它们的长视频描述能力，分别提升5.5%和13.0%的准确率。

StoryTeller相关文章

超Gemini-1.5-pro 9.5%！字节&上交&北大开源StoryTeller：生成一致性高的长视频描述

Story-Adapter长故事可视化

自动生成100帧漫画或动画的分镜图，故事的语义一致性比较好
图片间逻辑清晰，人物场景能保持一致
不需要额外训练可以直接使用
论文链接:https://arxiv.org/abs/2410.06244
官方网站:Story-Adapter
项目仓库:https://github.com/jwmao1/story-adapter

原文链接:https://i68.ltd/notes/posts/20250102-llm-story/

故事可视化AI

i68,爱六八,链接你我他 StoryWeaver故事可视化通过知识增强的角色定制技术，实现高质量的故事可视化论文链接:https://arxiv.org/pdf/2412.07375项目仓库:https://github.com/Aria-Zhangjl/StoryWeaver由厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏…...

编程日记 2025/1/6 4:23:19

【机器学习篇】从新手探寻到算法初窥：数据智慧的开启之门

文章目录【机器学习篇】从新手探寻到算法初窥：数据智慧的开启之门前言一、什么是机器学习？二、机器学习的基本类型1. 监督学习（Supervised Learning）2. 无监督学习（Unsupervised Learning）3. 半监督学习&a…...

编程日记 2025/1/6 4:20:14

ffmpeg八大开发库

‌FFmpeg八大库‌是指FFmpeg项目中最重要的八个库，它们各自承担不同的功能，共同构成了FFmpeg的强大功能。以下是这八大库的详细介绍： ‌libavcodec‌：负责音频和视频的编解码。它支持多种编解码器，如H.264、AAC、MP3、…...

编程日记 2025/1/6 4:19:13

【ArcGISPro/GeoScenePro】解决常见的空间参考和投影问题

修复空间参考缺失的图像数据 https://arcgis.com/sharing/rest/content/items/535efce0e3a04c8790ed7cc7ea96d02d/data 查看属性坐标查看属性范围范围值并不是零或接近于零。这意味着栅格具有范围，因此其已正确进行...

编程日记 2025/1/6 4:18:12

Linux上安装配置单节点zookeeper

直接先去官网下载安装包， https://downloads.apache.org/zookeeper/ 选择合适的版本，然后上传至服务器解压： tar -zxvf apache-zookeeper-3.9.3-bin.tar.gz创建data和logs目录 mkdir data mkdir logs配置环境变量： vim /etc/p…...

编程日记 2025/1/6 4:16:11

现代光学基础-1

总结自老师的讲义 yt1 目录光纤通信系统组成部分三大里程碑技术实例分析激光器定义自振荡器的特性组成输出特性应用领域受激辐射、自然辐射与吸收 LASER的定义受激辐射的特点光与物质的相互作用能量守恒与材料特性净增益条件谐振器定义组成部分性能描述 F-P谐振器&am…...

编程日记 2025/1/6 4:12:07

pytorch中nn.Conv2d详解及参数设置原则

文章目录基础参数1. in_channels (输入通道数)2. out_channels (输出通道数)3. kernel_size (卷积核大小)4. stride (步幅)5. padding (填充)6. dilation (膨胀)7. groups (分组卷积)8. bias (偏置) 如何设置参数？1. **in_channels 和 out_channels（输入…...

编程日记 2025/1/6 4:04:58

T-SQL语言的正则表达式

T-SQL语言的正则表达式在现代数据库管理系统中，SQL（结构化查询语言）被广泛用于数据的操作与管理。对数据的查询、插入、更新和删除几乎是每一个数据库管理系统中的基本功能。T-SQL（Transact-SQL）是微软对SQL的扩展&a…...

编程日记 2025/1/6 4:03:56

UDP_TCP

目录 1. 回顾端口号2. UDP协议2.1 理解报头2.2 UDP的特点2.3 UDP的缓冲区及注意事项 3. TCP协议3.1 报头3.2 流量控制2.3 数据发送模式3.4 捎带应答3.5 URG && 紧急指针3.6 PSH3.7 RES 1. 回顾端口号在 TCP/IP 协议中，用 “源IP”， “源端口号”…...

编程日记 2025/1/6 4:02:55

Python 中常见的数据结构之二推导式

Python 中常见的数据结构之二推导式使用推异式列表推导式字典推导式集合推导式使用推异式推导式是一种从已存在的序列中快速构建列表(list)、集合(set) 和字典(dictionary)方式。Python 支持 3 种不同类型的推导式： 列表推导式；字典推导式&#xf…...

编程日记 2025/1/6 4:01:52

STM32 拓展低功耗案例3：待机模式（hal）

配置PA0的两种方式： 第一种第二种复制寄存器代码然后对其进行修改 mian.c /* USER CODE BEGIN Header */ /********************************************************************************* file : main.c* brief : Main program body…...

编程日记 2025/1/6 3:54:46

【开源社区openEuler实践】探索 Yocto-Meta-OpenEuler：嵌入式开发的强大基石

title: 探索 Yocto-Meta-OpenEuler：嵌入式开发的强大基石 date: ‘2024-11-19’ category: blog tags: Yocto-Meta-OpenEuler嵌入式系统开源项目定制化开发 sig: EmbeddedTech archives: ‘2024-12’ author:way_back summary: Yocto-Meta-OpenEuler 为嵌入式系统开…...

编程日记 2025/1/6 3:53:44

C++ hashtable

文章目录 1. 基本概念2. 哈希函数3. 哈希冲突及解决方法开放定址法链地址法再哈希法建立公共溢出区4. 哈希表的操作实现5. 内存管理及优化时间复杂度理想情况（无哈希冲突或冲突极少）一般情况（考虑哈希冲突及解决方法）综合来看以…...

编程日记 2025/1/6 3:48:39

JS (node) 的 ACM 模式 + debug方法 (01背包为例)

文章目录 JS 的 ACM 模式输入处理 JS dubug (01背包为例)动态输入在本地通过 Node.js 运行和调试硬编码 Hard CodingVS Code JS 的 ACM 模式在 JavaScript 中，ACM 模式一般通过 Node.js 的 readline 模块实现。输入处理使用 readline 模块监听输入。将每行输…...

编程日记 2025/1/6 3:47:38

vue设计与实现-框架设计

权衡的艺术命令式和声明式视图层框架通常分为命令式和声明式，各有优缺。jquery是一种命令式框架。命令式框架关注过程，而声明式框架关注结果。对于vue来说，过程被vue封装了，所以vue内部是命令式的，但vue暴露给用户…...

编程日记 2025/1/6 3:44:34

Stable Diffusion和Midjourney有什么区别？

Stable Diffusion 和 Midjourney 主要有以下区别： 目录费用与可访问性设备要求安装与使用学习成本图像生成效果可控性与定制性私密性费用与可访问性 Stable Diffusion：开源免费，任何人都可以免费下载并自行部署使用&#xf…...

编程日记 2025/1/6 3:35:23

即插即用，无痛增强模型生成美感！字节跳动提出VMix:细粒度美学控制，光影、色彩全搞定

文章链接：https://arxiv.org/pdf/2412.20800 代码地址：https://github.com/fenfenfenfan/VMix 项目地址：https://vmix-diffusion.github.io/VMix/ 亮点直击分析并探索现有模型在光影、色彩等细粒度美学维度上生成图像的差异，提出…...

编程日记 2025/1/6 3:28:15

面向对象分析和设计OOA/D，UML，GRASP

目录什么是分析和设计？ 什么是面向对象的分析和设计？ 迭代开发 UML 用例图交互图基于职责驱动设计 GRASP 常见设计原则什么是分析和设计？ 分析，强调是对问题和需求的调查研究，不是解决方案。例如&#x…...

编程日记 2025/1/6 3:27:13

【每日学点鸿蒙知识】广告ID、NFC手机充值、CSS支持语法、PC与模拟器交互、SO热更新等

1、HamonyOS 样机获取成功返回Oaid为00000000-0000-0000-0000-000000000000？ 请求授权时需要触发动态授权弹窗,看一下是不是没有触发授权弹窗。可以参考以下代码以及文档： // ets import identifier from ohos.identifier.oaid; import hilog from oh…...

编程日记 2025/1/6 3:25:11

30分钟学会HTML

HTML 基本语法 HTML（HyperText Markup Language）是构成网页内容的基础。它使用一系列的标签来描述网页的结构，包括文本、图片、链接等元素。浏览器会解析这些标签并渲染成我们看到的网页。在线体验一下 CodePen (在线 HTML 编辑器)。千万不…...

编程日记 2025/1/6 3:24:10

【配置 YOLOX 用于按目录分类的图片数据集】

现在的图标点选越来越多，如何一步解决，采用 YOLOX 目标检测模式则可以轻松解决要在 YOLOX 中使用按目录分类的图片数据集（每个目录代表一个类别，目录下是该类别的所有图片），你需要进行以下配置步骤&#x…...

编程新知 2026/1/30 4:52:56

Element Plus 表单(el-form)中关于正整数输入的校验规则

目录 1 单个正整数输入1.1 模板1.2 校验规则 2 两个正整数输入（联动）2.1 模板2.2 校验规则2.3 CSS 1 单个正整数输入 1.1 模板 <el-formref"formRef":model"formData":rules"formRules"label-width"150px"…...

编程新知 2025/11/10 19:08:45

Pinocchio 库详解及其在足式机器人上的应用

Pinocchio 库详解及其在足式机器人上的应用 Pinocchio (Pinocchio is not only a nose) 是一个开源的 C 库，专门用于快速计算机器人模型的正向运动学、逆向运动学、雅可比矩阵、动力学和动力学导数。它主要关注效率和准确性，并提供了一个通用的框架&…...

编程新知 2025/11/28 5:32:31

Selenium常用函数介绍

目录一，元素定位 1.1 cssSeector 1.2 xpath 二，操作测试对象三，窗口 3.1 案例 3.2 窗口切换 3.3 窗口大小 3.4 屏幕截图 3.5 关闭窗口四，弹窗五，等待六，导航七，文件上传 …...

编程新知 2026/1/29 3:55:23

Linux nano命令的基本使用

参考资料 GNU nanoを使いこなすnano基础目录一. 简介二. 文件打开2.1 普通方式打开文件2.2 只读方式打开文件三. 文件查看3.1 打开文件时，显示行号3.2 翻页查看四. 文件编辑4.1 Ctrl K 复制和 Ctrl U 粘贴4.2 Alt/Esc U 撤回五. 文件保存与退出5.1 Ctrl …...

编程新知 2026/1/31 2:17:41

Linux安全加固：从攻防视角构建系统免疫

Linux安全加固：从攻防视角构建系统免疫构建坚不可摧的数字堡垒引言：攻防对抗的新纪元在日益复杂的网络威胁环境中，Linux系统安全已从被动防御转向主动免疫。2023年全球网络安全报告显示，高级持续性威胁（APT）攻击同比增长65%，平均入侵停留时间缩短至48小时。本章将从…...

编程新知 2025/9/30 15:48:08

基于开源AI智能名片链动2 + 1模式S2B2C商城小程序的沉浸式体验营销研究

摘要：在消费市场竞争日益激烈的当下，传统体验营销方式存在诸多局限。本文聚焦开源AI智能名片链动2 1模式S2B2C商城小程序，探讨其在沉浸式体验营销中的应用。通过对比传统品鉴、工厂参观等初级体验方式，分析沉浸式体验的优势与价值…...

编程新知 2026/2/2 21:52:42

python打卡第47天

昨天代码中注意力热图的部分顺移至今天知识点回顾： 热力图作业：对比不同卷积层热图可视化的结果 def visualize_attention_map(model, test_loader, device, class_names, num_samples3):"""可视化模型的注意力热力图，展示模…...

编程新知 2025/12/11 8:10:41