当前位置: 首页 > news >正文

阿里云OpenSearch-LLM智能问答故障的一天

上周五使用阿里云开放搜索问答版时,故障了一整天,可能这个服务使用的人比较少,没有什么消息爆出来,特此记录下这几天的阿里云处理过程,不免让人怀疑阿里云整体都外包出去了,反应迟钝,水平业余,却又很在意KPI。

1. 什么是智能开放搜索OpenSearch

在抨击阿里云服务之前,还是要肯定open search问答版挺好用的,解决了公司想要根据内部知识内容搭建大模型,进行内部AI的数据问答,在这之前我也试用过模型服务灵积的定制模型,但作为传统型公司,训练模型所需要的语料库根本没有,公司的诉求更多是给一堆内部文档,然后对此进行提问回答,省去过往人工查找,还能将内部知识进行概括总结,给出所属的知识来源文档,所以要想生成基于问答形式的语料库不太现实。或者还有更好的方法我还没探索出来吧。

基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台,目前为包括淘宝、天猫在内的阿里集团核心业务提供搜索服务支持。通过内置各行业的查询语义理解、机器学习排序算法等能力,以及充分开放的文本向量检索引擎能力,助力开发者快速搭建智能搜索服务。

OpenSearch LLM智能问答版

2. 故障过程

因为还属于开发阶段,出于成本考虑,我们的实例并不是一直运行的,LLM模型的费用分为实例资源运行费+调用处理费,实例资源运行时按小时0.2元/小时,每次问答调用差不多0.13元/次。

早上新建了实例后,通过Python将结构化后的文档数据通过API传到实例中,发现怎么都传不上去,返回参数正常,通过控制台也不行,显示上传成功,但不展示数据内容,只有空Id列表,以为是实例创建错误,先自己进行尝试。

  1. 先销毁了几次实例,创建了好几个不同App名称的实例进行试验,都不行
  2. 怀疑自己运行了十多次的Python代码有问题,可能是官方sdk库更新,重新下载了官方文档代码,发现还不行
  3. 切换了网络,切换了数据集,切换了控制台,都不行

3. 提报工单

总结了下我这里应该是没问题,有点怀疑是阿里云的问题,索性提个工单吧,看看工程师怎么说。

一直到下午五点多,阿里云才开始正式处理,不知道中间这两个小时在干什么,可能他们觉得是用户的问题,什么参数没有配置对,等五点半开始看的时候发现真的崩了,五点半开始给我打了四五个电话,都是阿里云的工程师直接联系我,让提供上传的文档,截图,代码,API开发过程,想要复现问题,但我不理解直接工程师本地复现不就行吗。

经过一个多小时,我都下班回家了,工程师又打来电话让试下有没有恢复,确实是好了,从早上崩溃到工单提报处理也有五六个小时的时间,真正问题定位处理用了一个多小时,在我们过往线上问题处理中,一个小时才能定位处理的事故,已经很严重了。

4. 退钱退钱

在周五提报工单时一直没有销毁实例,阿里云工程师打电话时也说先别销毁,想通过这个实例来复现问题,等晚上处理结束打电话通知我好了以后,我问了下今天宕机一天的费用怎么办,服务虽然不能用,但费用一点也没少扣,工程师说后续可以补偿,但也就没了后续。。。

周一想起来这事发现还没人联系我,就在之前的工单里继续询问,虽然没有多少钱,不过就这么点钱你们也不想处理,我只能自己催了。

中途又让我自己导出账单,自己进行核算,就暴脾气突然上来了,好好说就拖着不给好好解决,6块钱的代金券也是要了一整天,下午六点才确认回复,六点多连着打了两个电话让我关闭工单,可能是从周五一直拖到现在,影响到平均处理时长的考核KPI吧。

5. 说实话

上个月阿里云的大故障也不知道后续怎么处理的,反正没有我公司什么事,公司在阿里云上有三万多的资源,但用户量不大所以没有核算什么损失,阿里云也没有一点点动静,也是因为这些资源,使得很多云服务都得继续用阿里云的,可以说是深度绑定。这次故障之前也有很多小问题,提个工单也不怎么处理,后来索性点投诉才能继续推进。

这次问题让我感觉到阿里云处理能力挺差的

  1. 像AI这类新业务没有主动检测预警:正常这些大的业务板块都会有服务检测,监控接口或者日志等数据,在用户感知之前就能同步响应到阿里云后台,这次崩了这么久也没当回事,应该就是没什么人用,提了工单也没当回事,第一反应是用户的使用问题,后来发现真的报错了才慌了(后来多次打电话时语气有点焦急)
  2. 线上事故处理能力差:在工单里我已经很详细的描述了问题,但他们还是啰嗦的要了各种截图,文件,代码来复现,其实自己连上去就可以操作,反复咨询用户只会让人觉得很不专业。
  3. 用户补偿机制不完善:或者说国内这些厂商也没想着补偿用户,发现问题第一反应是:就你事多,我们已经给你处理了,你还想怎么样呢,如果我不去要补偿,可能也不会再去联系我,毕竟多一事不如少一事。

相关文章:

阿里云OpenSearch-LLM智能问答故障的一天

上周五使用阿里云开放搜索问答版时,故障了一整天,可能这个服务使用的人比较少,没有什么消息爆出来,特此记录下这几天的阿里云处理过程,不免让人怀疑阿里云整体都外包出去了,反应迟钝,水平业余&a…...

城市分站优化系统源码:提升百度关键排名 附带完整的搭建教程

城市分站优化已成为企业网络营销的重要手段,今天来给大家分享一款城市分站优化系统源码。 以下是部分代码示例: 系统特色功能一览: 1.多城市分站管理:该系统支持多个城市分站的管理,用户可以根据业务需求,…...

【华为OD题库-107】编码能力提升计划-java

题目 为了提升软件编码能力,小王制定了刷题计划,他选了题库中的n道题,编号从0到n-1,并计划在m天内按照题目编号顺序刷完所有的题目(注意,小王不能用多天完成同一题) 在小王刷题计划中,小王需要用time[i]的时…...

使用pytorch进行图像预处理的常用方法的详细解释

一般来说,我们在使用pytorch进行图像分类任务时都会对训练集数据做必要的格式转换和增广处理,对测试集做格式处理。 以下是常用的数据集处理函数: data_transform { "train": transforms.Compose([transforms.RandomResizedCro…...

天线根据什么进行分类

天线是信息化时代的一个标准,广播信号塔,通信基站塔,卫星天线还有每天都要用到的手机,都是含有天线的,只是各种天线的作用不同,大小不同。今天给大家说一下,天线是如何分类的。 1.按工作性质可…...

JavaScript:正则表达式

JavaScript:正则表达式 什么是正则表达式正则表达式语法定义正则表达式判断是否有匹配的字符串查找匹配的字符串 正则表达式匹配法则元字符边界符量词字符类 什么是正则表达式 正则表达式用于匹配字符串中字符的组合模式。 正则表达式会依据其自身语法,…...

【Linux】深挖进程地址空间

> 作者简介:დ旧言~,目前大二,现在学习Java,c,c,Python等 > 座右铭:松树千年终是朽,槿花一日自为荣。 > 目标:熟悉【Linux】进程地址空间 > 毒鸡汤&#xff…...

SVM(支持向量机)-机器学习

支持向量机(Support Vector Machine,SVM)是一种用于分类和回归分析的监督学习算法。它属于机器学习中的一类强大而灵活的模型,广泛应用于模式识别、图像分类、自然语言处理等领域。 基本原理: SVM的基本原理是通过找到能够有效分…...

解决生成的insert语句内有单引号的情况

背景 因为Mybatis-Plus的saveBatch()方法的批量插入其实也是循环插入,而不是真正的一个SqlSession完成的批插,效率很低。所以我们在写批量插入的时候是自己实现了一个工具类去生成批量插入的sql再去执行,但是会遇到有些文本里有单引号导致插…...

【Linux 程序】1. 程序构建

文章目录 【 1. 配置 】【 2. 编译 】makefile编写的要点makefile中的全局自变量CMake编译依赖的库g编译 【 3. 安装 】 一般源代码提供的程序安装需要通过配置、编译、安装三个步骤; 配置。检查当前环境是否满足要安装软件的依赖关系,以及设置程序安装所…...

GLTF 编辑器实现逼真3D动物毛发效果

在线工具推荐: 3D数字孪生场景编辑器 - GLTF/GLB材质纹理编辑器 - 3D模型在线转换 - Three.js AI自动纹理开发包 - YOLO 虚幻合成数据生成器 - 三维模型预览图生成器 - 3D模型语义搜索引擎 要实现逼真的3D动物毛发效果,可以采用以下技术和方法&…...

【Go语言入门:Go语言的方法,函数,接口】

文章目录 4.Go语言的方法,函数,接口4.1. 方法4.1.1. 指针接受者4.1.2. 值接收者和指针接收者有什么区别?4.1.3. 方法 4.2. 接口4.2.1. 接口定义 4.3. 函数4.3.1. 函数介绍 4.Go语言的方法,函数,接口 4.1. 方法 4.1.1…...

vue-cli3/webpack打包时去掉console.log调试信息

文章目录 前言一、terser-webpack-plugin是什么?二、使用配置vue-cli项目 前言 开发环境下,console.log调试信息,有助于我们找到错误,但在生产环境,不需要console.log打印调试信息,所以打包时需要将consol…...

企业品牌推广在国外媒体投放的意义和作用何在?

海外广告投放是企业在国际市场推广的重要战略,具有多种形式,包括社交媒体广告、短视频广告、电视广告等。这些广告形式在传播信息、推动销售、塑造品牌形象等方面发挥着独特的作用。 其中软文发稿是一种注重叙事和信息传递的广告形式,对于企…...

ArcGIS批量计算shp面积并导出shp数据总面积(建模法)

在处理shp数据时, 又是我们需要知道许多个shp字段的批量计算,例如计算shp的总面积、面积平均值等,但是单个查看shp文件的属性进行汇总过于繁琐,因此可以借助建模批处理来计算。 首先准备数据:一个含有多个shp的文件夹。…...

代码质量评价及设计原则

1.评价代码质量的标准 1.1 可维护性 可维护性强的代码指的是: 在不去破坏原有的代码设计以及不引入新的BUG的前提下,能够快速的修改或者新增代码. 不易维护的代码指的是: 在添加或者修改一些功能逻辑的时候,存在极大的引入新的BUG的风险,并且需要花费的时间也很长. 代码可…...

编程笔记 html5cssjs 012 HTML分块

编程笔记 html5&css&js 012 HTML分块 一、HTML 块级元素二、HTML 内联元素三、HTML <div> 元素四、HTML <span> 元素五、HTML<article>元素六、<article>元素和<div>元素的区别与联系小结 像报纸排版一样&#xff0c;很多时候需要把平面…...

【持续更新ing】uniapp+springboot实现个人备忘录系统【前后端分离】

目录 &#xff08;1&#xff09;项目可行性分析 &#xff08;2&#xff09;需求描述 &#xff08;3&#xff09;界面原型 &#xff08;4&#xff09;数据库设计 &#xff08;5&#xff09;后端工程 接下来我们使用uniappspringboot实现一个简单的前后端分离的小项目----个…...

nginx+rsyslog+kafka+clickhouse+grafana 实现nginx 网关监控

需求 我想做一个类似腾讯云网关日志最终以仪表方式呈现&#xff0c;比如说qps、p99、p95的请求响应时间等等 流程图 数据流转就像标题 nginx ----> rsyslog ----> kafka —> clickhouse —> grafana 部署 kafka kafka 相关部署这里不做赘述&#xff0c;只要创…...

User maven 通过什么命令能查到那个包依赖了slf4j-simple-1.7.36.jar

要在 Maven 项目中查找哪个包依赖了 slf4j-simple-1.7.36.jar&#xff0c;您可以使用 Maven 的依赖树命令 mvn dependency:tree。这个命令会展示项目所有依赖的层次结构&#xff0c;包括传递依赖&#xff08;即一个依赖的依赖&#xff09;。然后&#xff0c;您可以搜索或过滤输…...

什么牌子冻干猫粮性价比高?性价比高的五款冻干猫粮牌子推荐

很多养猫的小伙伴们都磨刀霍霍准备给猫咪屯些猫冻干吧&#xff0c;特别是家里有挑食猫咪的家庭。有养猫的铲屎官们应该都知道&#xff0c;猫咪是对蛋白质的需求量很高&#xff0c;而且对植物蛋白的吸收效率比较低&#xff0c;所以蛋白质最好都是来自动物的优质蛋白。猫咪挑食就…...

扫描全能王启动鸿蒙原生应用开发,系HarmonyOS NEXT智能扫描领域首批

近期&#xff0c;“鸿蒙合作签约暨扫描全能王鸿蒙原生应用开发启动仪式”&#xff08;简称“签约仪式”&#xff09;正式举行。合合信息与华为达成鸿蒙合作&#xff0c;旗下扫描全能王将基于HarmonyOS NEXT正式启动鸿蒙原生应用开发。据悉&#xff0c;扫描全能王是鸿蒙在智能扫…...

[Angular] 笔记 8:list/detail 页面以及@Input

1. list 页面 list/detail 是重要的 UI 设计模式。 vscode terminal 运行如下命令生成 detail 组件&#xff1a; PS D:\Angular\my-app> ng generate component pokemon-base/pokemon-detail --modulepokemon-base/pokemon-base.module.ts CREATE src/app/pokemon-base/p…...

Zabbix“专家坐诊”第221期问答汇总

问题一 Q&#xff1a;使用官方docker模板Template App Docker&#xff0c;监控docker镜像&#xff0c;有一项监控项docker.data_usage有报错&#xff0c;不知道哪里问题&#xff1a;Cannot fetch data: Get “http://1.28/system/df”: context deadline exceeded (Client.Time…...

Netty—Reactor线程模型详解

文章目录 前言线程模型基本介绍线程模型分类Reactor线程模型介绍Netty线程模型&#xff1a; 传统阻塞IO的缺点Reactor线程模型单Reactor单线程模式单Reactor多线程模式主从Reactor多线程Reactor 模式小结 Netty 线程模型案例说明&#xff1a;Netty核心组件简介ChannelPipeline与…...

开源verilog模拟 iverilog verilator +gtkwave仿真及一点区别

开源的 iverilog verilator 和商业软件动不动几G几十G相比&#xff0c;体积小的几乎可以忽略不计。 两个都比较好用&#xff0c;各有优势。 iverilog兼容性好。 verilator速度快。 配上gtkwave 看波形&#xff0c;仿真工具基本就齐了。 说下基本用法 计数器 counter.v module…...

mysql中按字段1去重,按字段2降序排序

数据举例 sql语句 按字段field4降序排序&#xff0c;按字段field1去重 SELECT tt1.name2,tt1.field1,tt1.field2,tt1.field4 from ( select tt2.name2,tt2.field1,tt2.field2,tt2.field4 from t2 tt2 ORDER BY tt2.field4 DESC ) tt1 GROUP BY tt1.field1执行结果...

OCP NVME SSD规范解读-4.NVMe IO命令-2

NVMe-IO-3&#xff1a; 由于设备具有掉电保护功能&#xff08;如Power Loss Protection&#xff0c;PLP&#xff09;&#xff0c;因此在以下情况下&#xff0c;性能不应降低&#xff1a; FUA&#xff08;Force Unit Access&#xff09;&#xff1a;是计算机存储设备中的一种命…...

平凯数据库亮相 2023 信息技术应用创新论坛

11 月 25 日&#xff0c;2023 信息技术应用创新论坛在常州开幕。江苏省工业和信息化厅副厅长池宇、中国电子工业标准化技术协会理事长胡燕、常州市常务副市长李林等领导出席论坛并致辞。中国工程院院士郑纬民出席并作主题报告。来自产学研用金等各界的千余名代表参加本次论坛。…...

2024深入评测CleanMyMac X4.14.6破解版新的功能

随着时间的推移&#xff0c;我们的Mac电脑往往会变得越来越慢&#xff0c;存储空间变得越来越紧张&#xff0c;这时候一个优秀的清理工具就显得尤为重要。作为一款备受好评的Mac清理工具&#xff0c;它能够为你的Mac带来全方位的清理和优化。在本文中&#xff0c;我们将深入评测…...

如何做企业网站加v/手机搜索引擎排行榜

前言 首先说下为什么要学pytest&#xff0c;在此之前相信大家已经掌握了python里面的unittest单元测试框架&#xff0c;那再学一个框架肯定是需要学习时间成本的。 刚开始我的内心是拒绝的&#xff0c;我想我用unittest也能完成自动化测试&#xff0c;干嘛要去学pytest呢&#…...

网站开发+进度表/东莞排名优化团队

LocalTime是不可变的时间类&#xff0c;默认格式hh:mm:ss.zzz. 和LocalDate一样&#xff0c;这个类也有时区信息&#xff0c;并且可以通过时分秒创建。 import java.time.LocalTime; import java.time.ZoneId;/*** LocalTime Examples* author somefuture**/ public class Loca…...

网站开发如何让图片加载的更快/深圳网站建设系统

常量的定义 常量的值在编译时就已经确定常量的定义格式与变量基本相同等号右侧必须是常量或者常量表达式常量表达式中的函数必须是内置函数常量的初始化规则与枚举 在定义常量组时&#xff0c;如果不提供初始值&#xff0c;则表示将使用上行的表达式使用相同的表达式不代表具有…...

动漫wordpress主题下载/个人网站该怎么打广告

1.学习目标 &#xff08;1&#xff09;每个周按时完成老师布置的任务。 &#xff08;2&#xff09;认真听老师讲课&#xff0c;不懂的私下要做功课。 &#xff08;3&#xff09;老师留的问题&#xff0c;下来认真思考。 2.关于企业级应用和互联网应用的差别&#xff1a; &#…...

wordpress修改图标/外链提交

PASCAL VOC&#xff0c;20个类别&#xff0c;包括图像识别&#xff0c;物体检测&#xff0c;前景分割&#xff0c;动作识别等几个比赛项目&#xff0c;另外有一个新加入的基于ImageNET数据集的比赛项目&#xff0c;共有1000个类别。国内自动化所这个赛事上比较厉害&#xff0c;…...

企业263邮箱登录入口/深圳搜狗seo

一、方法的重构 二、静态方法和普通方法 public class demo01 {//静态方法与普通方法static void fangfa01(){System.out.println("这是一个静态方法");}void fangfa02(){System.out.println("这是一个普通方法");}public static void main(String[] args)…...