当前位置：首页 > news >正文

最火AI角色扮演流量已达谷歌搜索20%！每秒处理2万推理请求，Transformer作者公开优化秘诀

news 2026/6/5 11:04:48

卡奥斯智能交互引擎是卡奥斯基于海尔近40年工业生产经验积累和卡奥斯7年工业互联网平台建设的最佳实践，基于大语言模型和RAG技术，集合海量工业领域生态资源方优质产品和知识服务，旨在通过智能搜索、连续交互，实时生成个性化的内容和智能化产品推荐，为用户提供快速、可靠的交互式搜索服务，首创了聚焦工业领域的智能交互引擎。

详情戳：卡奥斯智能交互引擎https://datayi.cn/w/DPWgDgjP

什么AI应用每秒处理20000个AI推理请求，达到2024年谷歌搜索流量的1/5？

答案是独角兽Character.ai，由Transformer作者Noam Shazeer（后面简称沙哥）创办。

刚刚，沙哥公布了推理优化独门秘诀，迅速引起业界热议。

具体来说Character.ai在整个服务堆栈中实现了如下成绩：

内存高效架构设计：将KV缓存大小减少20倍以上，而不会降低质量
Attention状态缓存：95%请求无需重算
直接用in8精度量化训练：推理零损失还省显存

Character.AI通过以上种种优化，已经把推理成本降低到最初的1/33，如果用市场上最好的商业API来支撑这种级别的流量，成本会比现在高出13.5倍!

众多公布的方法中，原生int8训练是最受关注的。

虽然大多数技巧都来自公开研究，但是正如网友所说，知道如何把它们高效整合在一起实现的团队才是真正的护城河。

秘诀1：高效利用显存，attention 参数量降低20倍

大模型的一大痛点是显存占用高，导致无法支持大批量推理。Attention 层中的 Key-Value(KV)缓存便是罪魁祸首之一。

为了降低显存占用，Character.AI在Attention层大动手术:

全面采用MQA（Multi-Query Attention）

与大多数开源模型中采用的GQA（Grouped-Query Attention）相比，将KV缓存大小减少了 8 倍。

而MQA正是沙哥本人2019年在谷歌期间提出的，有网友评价“当一个人能在生产环境中引用自己的论文，就达到了一个新的高度”。

混合注意力视野

将局部注意力与全局注意力层交织在一起，使用滑动窗口训练局部注意力，将复杂度从 O(length^2 ) 降低到 O(length)。

团队发现，将大多数注意力层的注意力范围减少到1024不会对评估指标产生重大影响，包括长上下文大海捞针基准。在Character.ai生产模型中，每6层中只有1层使用全局注意力。

跨层KV共享

团队将KV缓存绑定在相邻的注意力层上，这进一步将 KV缓存大小减少了 2-3 倍。

对于全局注意力，跨块绑定多个全局层的KV缓存，因为全局注意力层在长上下文用例中主导KV缓存大小，团队发现跨层共享KV不会降低质量。

下图中左半部分是标准Transformer设计，每个注意力都是全局注意力。右半部分为Character.ai的设计，蓝色框表示全局注意力，绿色框表示局部注意力，连线表示KV共享。

这一套组合拳下来，KV缓存大小减少20倍以上，显存再也不是瓶颈了。

秘诀2：巧用状态缓存，95%请求无需重算

Character.AI还有一招神来之笔，就是在不同对话之间缓存Attention状态。

作为聊天机器人角色扮演服务，Character.AI上大部分对话都是连续多轮的，平均每个对话包含180条消息。如果每次都要重新计算前面的状态，成本可想而知。

于是团队设计了一个缓存机制，把每个对话的Prefix和生成的消息都缓存在内存中，供后续调用。

借鉴RadixAttention的思路，树状结构的LRU缓存组织缓存的KV张量。缓存的KV值由前缀token的Rolling Hash速检索最长匹配的缓存，即使前缀只有部分匹配也能命中。

更妙的是，他们还用会话保持(Sticky Session)把同一对话路由到同一个服务器，进一步提高缓存命中率。最终做到95%的请求都能复用已有缓存，大幅降低了计算成本。

下图中，蓝色框表示主机内存上的缓存张量。绿色和黄色框表示CUDA内存上的KV缓存。当新查询到达时，它检索最长匹配前缀的KV缓存，Rolling Hash系统允许检索部分匹配消息的缓存。

秘诀3：直接量化训练，推理零损失还省显存

最后一招，Character.AI没有采用常见的“训练后量化”，而是直接用Int8精度训练模型。

这种格式虽然表达精度降低，但通过精心设计定制的矩阵乘和 Attention 内核，不仅把训练效率提高了好几倍，而且还能无损用于推理。

不过沙哥在这里暂时留了一手，表示“量化训练本身就是一个复杂的话题，将在以后的文章中继续讨论。”

沙哥其人

最后再来介绍一下传奇人物Noam Shazeer本人。

他1994年拿了信息学奥赛IOI金牌，后来毕业于杜克大学。

2000年加入谷歌，当时全公司只有200人左右，他参与了谷歌搜索的拼写纠正功能，后来也负责过早期广告系统。

据知情人透露，在当初面试谷歌时，沙哥就被问到如何实现拼写纠正。他描述了一种根据其他用户的输入输入记录，进行统计验证的方法。

面试官Gmail之父Paul Buchheit意识到，沙哥的方案比谷歌当时使用的要好。沙哥成功入职之后就把他的面试方案写出来了。

在Transformer开山之作《Attention is All You Need》研究中，沙哥最后一个加入团队，一来就负责重新编写了整个代码。

在沙哥出手之前，Transformer早期原型性能并没有超越当时流行的LSTM方案，是他把早期设计中的卷积等模块都拿掉，给出了一个极简主义方案。最终破了BLEU测试的记录，同时计算效率也更高。

队友用“他是一个巫师”来评价他的工程和代码能力。

除此之外，沙哥还有惊人的远见。在Transformer架构问世不久，他就给谷歌高层写信，提议公司放弃整个搜索索引，并用Transformer架构训练一个巨大的神经网络替代。

2021年，沙哥离开谷歌后创办了Character.AI，让玩家简单自创个性化AI陪聊，目前估值约50亿美元。

最近有消息称，Meta与马斯克的𝕏都在争取与他们合作，把聊天机器人引入社交平台。

最火AI角色扮演流量已达谷歌搜索20%！每秒处理2万推理请求，Transformer作者公开优化秘诀

卡奥斯智能交互引擎是卡奥斯基于海尔近40年工业生产经验积累和卡奥斯7年工业互联网平台建设的最佳实践，基于大语言模型和RAG技术，集合海量工业领域生态资源方优质产品和知识服务，旨在通过智能搜索、连续交互，实时生成个性化的内容…...

编程日记 2024/6/21 19:01:33

MySQL：MySQL分组排序函数rank()、row_number()、dense_rank()与partition by结合使用

一、前言在 MySQL 中，虽然标准的 SQL 函数 RANK(), ROW_NUMBER(), 和 DENSE_RANK() 是 SQL 标准的一部分，但早期的 MySQL 版本并不直接支持这些窗口函数。然而，从 MySQL 8.0 开始，这些函数被引入以支持窗口函数（也称为…...

编程日记 2024/6/21 19:00:32

opencv c++ 检测图像尺寸大小，标注轮廓

1. 项目背景本项目旨在开发一个图像处理程序，通过使用计算机视觉技术，能够自动检测图像中物体的尺寸并进行分类。项目利用了开源的计算机视觉库 OpenCV，实现了图像的灰度处理、二值化、轮廓检测、边界框绘制以及尺寸分类等功能。通过这些功…...

编程日记 2024/6/21 18:59:31

Python数据可视化基础：使用Matplotlib绘制图表

Python数据可视化基础：使用Matplotlib绘制图表数据可视化是数据分析中的重要环节，它可以帮助我们更直观地理解数据。Python作为一门强大的编程语言，提供了多种库来支持数据可视化，其中Matplotlib是最为流行和功能丰富的库之一。…...

编程日记 2024/6/21 18:57:29

Java开发接口设计的原则

在现代软件开发实践中，接口设计扮演着至关重要的角色。它不仅关乎代码的结构和未来的可维护性，还直接影响到软件系统的灵活性和扩展性。本文将通过实例详解几个核心的接口设计原则，帮助开发者更好地编写和管理接口，从而提升软件的…...

编程日记 2024/6/21 18:56:28

[火灾警报系统]yolov5_7.0-pyside6火焰烟雾识别源码

国内每年都会发生大大小小的火灾，造成生命、财产的损失。但是很多火灾如果能够早期发现，并及时提供灭火措施，将会大大较小损失。本套源码采用yolov5-7.0目标检测算法结合pyside6可视化界面源码，当检测到火灾时，能否发出…...

编程日记 2024/6/21 18:54:26

机器学习和深度学习区别

定义和范围： 机器学习：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改…...

编程日记 2024/6/21 18:52:25

【功能详解】银河麒麟操作系统“安全启动”是如何发挥作用的？

2023年12月，财政部、工信部发布了7项信息类产品《政府采购需求标准》，为包括操作系统在内多项产品的政府集中采购提供政策支撑。其中，安全、可信作为国产操作系统的基本要求备受关注。安全体系的构建离不开操作系统本身的硬实力&#xff0c…...

编程日记 2024/6/21 18:50:23

关于多线程的理解

#系列文章关于时间复杂度o(1), o(n), o(logn), o(nlogn)的理解关于HashMap的哈希碰撞、拉链法和key的哈希函数设计关于JVM内存模型和堆内存模型的理解关于代理模式的理解关于Mysql基本概念的理解关于软件设计模式的理解关于Redis知识的理解文章目录前言一、线程…...

编程日记 2024/6/21 18:47:21

题目： 题解： //单调栈单调递减 typedef struct {//正常 stackint stack[10000];int stackTop;//辅助 stackint minStack[10000];int minStackTop; } MinStack;MinStack* minStackCreate() {MinStack* newStack (MinStack *) malloc(sizeof(MinS…...

编程日记 2024/6/21 18:45:19

Qdrant 的基础教程

目录安装Qdrant安装Qdrant客户端初始化Qdrant客户端创建集合（Collection）插入向量数据创建索引搜索向量清理资源 Qdrant是一个开源的向量数据库，它专注于高维向量的快速相似性搜索。以下是一个基础的Qdrant教程，帮助你开始使用Qd…...

编程日记 2024/6/21 18:43:17

任务4.8.3 利用SparkSQL统计每日新增用户

实战概述：利用SparkSQL统计每日新增用户任务背景在大数据时代，快速准确地统计每日新增用户是数据分析和业务决策的重要部分。本任务旨在使用Apache SparkSQL处理用户访问历史数据，以统计每日新增用户数量。任务目标处理用户访问历史数…...

编程日记 2024/6/21 18:42:16

DS知识点总结--线性表定义及顺序表示

数据结构知识点汇总(考研C版) 文章目录数据结构知识点汇总(考研C版)二、线性表2.1 线性表的定义和操作2.1.1 线性表的定义2.1.2 线性表的基本操作 2.2 线性表的顺序表示2.2.1 顺序表的定义2.2.2 顺序表上的基本操作的实现二、线性表 2.1 线性表的定义和操作 2.1.1 线性表的…...

编程日记 2024/6/21 18:40:14

百度文库AI产品“橙篇”：支持10万字长文生成，开启AI创作新篇章

6月19日，百度文库发布了一款创新产品「橙篇」，这一行业首创的产品集成了10万字长文生成及多模态编辑能力，成为首个实现「查阅创编」一站式AI自由创作平台的里程碑。百度“橙篇”官网： 地址：橙篇AI - 用橙篇&#xf…...

编程日记 2024/6/21 18:38:12

wsl子系统ubuntu20.04 设置docker服务开机自启动

docker的重要性毋庸置疑。掌握虚拟化必备工具。windows台式机相信大家都有，那么开启windows的wsl子系统ubuntu来熟悉linux分布式开发就方便多了，用不着另购电脑。docker是在有限成本前提下尽可能多的尝试使用多OS、隔离物理环境影响的方便工具。下面就介…...

编程日记 2024/6/21 18:35:09

SAP ScreenPersonas

https://developers.sap.com/mission.screen-personas.html 跟着这个练习做一遍就了解了Personas 访问SAP提供的Personas练习系统申请用户登录练习系统随便找一个可以支持Personas的程序搞起来，比如IW51 执行后等它出现这个图标就可以开始了....

编程日记 2024/6/21 18:34:08

充电学习—3、Uevent机制和其在android层的实现

sysfs 是 Linux userspace 和 kernel 进行交互的一个媒介。通过 sysfs，userspace 可以主动去读写 kernel 的一些数据，同样的， kernel 也可以主动将一些“变化”告知给 userspace。也就是说，通过sysfs，userspace 和 ker…...

编程日记 2024/6/21 18:33:07

“河南省勘察设计资质整合趋势与企业应对“

"河南省勘察设计资质整合趋势与企业应对" 河南省勘察设计资质的整合趋势与企业应对策略可以从以下几个方面来分析： 整合趋势： 资质标准简化与合并：随着国家和地方政府深化“放管服”改革，勘察设计资质的管理趋向简化&…...

编程日记 2024/6/21 18:31:04

简单了解雪花算法

雪花算法是什么不多解释。看一看具体是怎么生产唯一ID 的。 ID 由多个数据组合拼接成64位，分别是时间戳服务器节点ID 序列号，每个数据项占的位数不固定，可以根据实际需求设置。首位 1 个二进制位是符号位。 public long allocate(l…...

编程日记 2024/6/21 18:30:03

决策树算法详细介绍原理和实现

决策树是一种常用的分类算法，它通过一系列的问题将数据分割成不同的分支，最终确定数据属于哪个类别。下面是决策树的原理、实现方式以及一个案例实现的详细介绍。决策树原理特征选择：决策树的构建过程首先需要选择一个特征作为节点&#…...

编程日记 2024/6/21 18:29:02

小说下载器终极指南：一站式解决100+网站小说保存难题

小说下载器终极指南：一站式解决100网站小说保存难题【免费下载链接】novel-downloader 一个可扩展的通用型小说下载器。项目地址: https://gitcode.com/gh_mirrors/no/novel-downloader 在数字阅读时代，你是否曾因小说突然下架、网站404或网络中…...

编程新知 2026/5/26 4:42:23

如何用deberta-v3-base-zeroshot-v2.0构建企业级NLP应用？完整教程来了

如何用deberta-v3-base-zeroshot-v2.0构建企业级NLP应用？完整教程来了【免费下载链接】deberta-v3-base-zeroshot-v2.0 项目地址: https://ai.gitcode.com/hf_mirrors/NingBo_Ascend/deberta-v3-base-zeroshot-v2.0 deberta-v3-base-zeroshot-v2.0是一款基…...

编程新知 2026/5/26 4:42:23

FCEUX终极指南：从怀旧游戏到专业调试的完整NES模拟器教程

FCEUX终极指南：从怀旧游戏到专业调试的完整NES模拟器教程【免费下载链接】fceux FCEUX, a NES Emulator 项目地址: https://gitcode.com/gh_mirrors/fc/fceux FCEUX是一款功能强大的开源NES模拟器，让你在现代电脑上完美重温经典红白机游戏。无论…...

编程新知 2026/5/26 4:28:21

混合求解器：用神经网络增强传统微分方程数值方法

1. 项目概述：当数值方法遇到机器学习在科学计算和工程仿真领域，求解常微分方程（ODE）和偏微分方程（PDE）是绕不开的核心任务。无论是模拟电路中的电流变化、预测天气系统的演变，还是分析机械结构的…...

编程新知 2026/5/26 3:30:08

户外实用｜艾迪欧 R6000 测评 —— 户外 / 自驾 / 露营的通讯好搭档

户外出行，通讯工具的核心是稳定、清晰、耐用、续航久、功能全。艾迪欧 R6000 作为一款兼顾专业与户外的 DMR 对讲机，全频段覆盖、双模通讯、自定义功能、长续航，完美适配自驾、露营、登山、越野等户外场景，是户外爱好者的靠谱通讯…...

编程新知 2026/5/26 1:09:00

HarmonyOS ArkTS DateUtil 日期增减与日历计算完整指南

文章目录背景一、引言二、日期增减方法详解使用示例三、日历计算方法详解四、Demo 演示：日期增减结果展示五、Demo 演示：月历视图完整实现六、日历视图关键点解析为什么要填充前置空格？getLastDayOfMonth 的实现技巧七、小结背景近期发现…...

编程新知 2026/5/26 0:34:21

基于MaixCam的延时摄影系统：从硬件选型到Python编程全解析

1. 项目概述：用MaixCam打造你的专属延时摄影工坊延时摄影，这个听起来有点专业、甚至带点“魔法”色彩的词，其实离我们并不遥远。想想看，把一朵花从含苞到绽放的几天时间，压缩成十几秒的惊艳绽放；或者把一座…...

编程新知 2026/5/26 0:01:52

SMUDebugTool终极指南：如何深度掌控AMD Ryzen处理器的隐藏性能

SMUDebugTool终极指南：如何深度掌控AMD Ryzen处理器的隐藏性能【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: ht…...

编程新知 2026/5/25 23:59:47

Unity UI交互进阶：手把手教你打造一个支持单击、双击、长按的万能按钮组件

Unity UI交互进阶：手把手教你打造一个支持单击、双击、长按的万能按钮组件在游戏开发中，UI交互的流畅性和多样性直接影响玩家的游戏体验。想象一下，当你在开发一个RPG游戏的背包系统时，需要实现道具的单击查看详情、双击快速使用、…...

编程新知 2026/5/25 23:18:55

CUDA并行计算与FSR框架优化实践

1. CUDA并行计算与FSR框架概述在GPU加速计算领域，CUDA（Compute Unified Device Architecture）作为NVIDIA推出的并行计算平台和编程模型，已经成为高性能计算的事实标准。其核心设计理念是将计算任务分解为网格（Grid&…...

编程新知 2026/5/27 6:20:03

最火AI角色扮演流量已达谷歌搜索20%！每秒处理2万推理请求，Transformer作者公开优化秘诀

秘诀1：高效利用显存，attention 参数量降低20倍

秘诀2：巧用状态缓存，95%请求无需重算

秘诀3：直接量化训练，推理零损失还省显存

沙哥其人

相关文章：

最火AI角色扮演流量已达谷歌搜索20%！每秒处理2万推理请求，Transformer作者公开优化秘诀

MySQL：MySQL分组排序函数rank()、row_number()、dense_rank()与partition by结合使用

opencv c++ 检测图像尺寸大小，标注轮廓

Python数据可视化基础：使用Matplotlib绘制图表

Java开发接口设计的原则

[火灾警报系统]yolov5_7.0-pyside6火焰烟雾识别源码

机器学习和深度学习区别

【功能详解】银河麒麟操作系统“安全启动”是如何发挥作用的？

关于多线程的理解

C语言 | Leetcode C语言题解之第155题最小栈

Qdrant 的基础教程

任务4.8.3 利用SparkSQL统计每日新增用户

DS知识点总结--线性表定义及顺序表示

百度文库AI产品“橙篇”：支持10万字长文生成，开启AI创作新篇章

wsl子系统ubuntu20.04 设置docker服务开机自启动

SAP ScreenPersonas

充电学习—3、Uevent机制和其在android层的实现

“河南省勘察设计资质整合趋势与企业应对“

简单了解雪花算法

决策树算法详细介绍原理和实现

小说下载器终极指南：一站式解决100+网站小说保存难题

如何用deberta-v3-base-zeroshot-v2.0构建企业级NLP应用？完整教程来了

FCEUX终极指南：从怀旧游戏到专业调试的完整NES模拟器教程

混合求解器：用神经网络增强传统微分方程数值方法

户外实用｜艾迪欧 R6000 测评 —— 户外 / 自驾 / 露营的通讯好搭档

HarmonyOS ArkTS DateUtil 日期增减与日历计算完整指南

基于MaixCam的延时摄影系统：从硬件选型到Python编程全解析

SMUDebugTool终极指南：如何深度掌控AMD Ryzen处理器的隐藏性能

Unity UI交互进阶：手把手教你打造一个支持单击、双击、长按的万能按钮组件

CUDA并行计算与FSR框架优化实践