音视频技术开发周刊 | 322
每周一期,纵览音视频技术领域的干货。
新闻投稿:contribute@livevideostack.com。

超级AI不会主宰人类,但人工智能必须开源!LeCun最新采访引全网300万人围观
LeCun最新访谈视频中,再次坦露了自己对开源AI的看法。超级AI终有一天会诞生,但不会主宰人类。
GPT-4+物理引擎加持扩散模型,生成视频逼真、连贯、合理
扩散模型的出现推动了文本生成视频技术的发展,但这类方法的计算成本通常不菲,并且往往难以制作连贯的物体运动视频。为了解决这些问题,来自中国科学院深圳先进技术研究院、中国科学院大学和 VIVO AI Lab 的研究者联合提出了一个无需训练的文本生成视频新框架 ——GPT4Motion。
网络规模、训练学习速度提升,清华团队在大规模光电智能计算方向取得进展
随着大模型等人工智能技术的突破与发展,算法复杂度剧增,对传统计算芯片带来了算力和功耗的双重挑战。近年来,以光计算为基础、通过光电融合的方式构建光电神经网络的计算处理方法已经成为国际热点研究问题,有望实现计算性能的颠覆性提升。
Mirasol3B:一个多模态自回归模型,用于时间对齐和上下文模式
Mirasol3B 在多模态基准测试中达到了 SOTA 水平,优于规模更大的模型。通过学习更紧凑的表征,控制音频 - 视频特征表征的序列长度,并根据时间对应关系进行建模,Mirasol3B 能够有效满足多模态输入的高计算要求。
https://arxiv.org/abs/2311.05698

ChatGPT性能最多提升214%,刷新7个榜单!IDEA、港科大广州等提出ToG思维图谱
思维链已经out啦!想让大模型会推理还是得靠知识库:基座模型还是ChatGPT,最新思维图谱技术在多个基准数据集上实现巨大性能提升!
国产大模型黑马诞生,千亿级拿下双榜第一!知识正确性能力突出,大幅降低LLM幻觉问题
夸克,也下场大模型了。甫一问世,夸克大模型就迅速登顶权威测评双榜第一,幻觉率大幅降低,可以预见,风靡年轻人的夸克APP,要掀起新的飓风了。
文生图10倍速,视频实时渲染!清华发布LCM:兼容全部SD大模型、LoRA、插件等
全面兼容Stable Diffusion生态,LCM模型成功实现5-10倍生成速度的提升,实时AI艺术时代即将到来,所想即所得!

无图感知更进一步!ScalableMap:迈向大范围高精地图新方案!
ScalableMap在线性结构的指导下提取了更准确的鸟瞰图(BEV)特征,然后提出了一种分层稀疏地图表示,以进一步利用矢量化地图元素的可扩展性,并基于这种表示设计了渐进解码机制和监督策略。ScalableMap在nuScenes数据集上取得了SOTA性能,尤其是在远程场景中,在实现18.3 FPS的同时,超过了以前最先进的模型6.5 mAP。
Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快
Stability AI官方博客显示,全新SVD支持文本到视频、图像到视频生成,并且还支持物体从单一视角到多视角的转化,也就是3D合成。虽然目前只发布了基础模型,但官方透露“正计划继续扩展,建立类似于Stable Diffusion的生态系统”。目前论文代码权重已上线。
为什么GNSSer要学习RTKLIB?
从高须知二先生2006年发布RTKLIB第一个版本开始,至今已17年,该开源代码可以说造福了无数的GNSS相关的研究者和初创公司。(https://www.rtklib.com/)

没有Ai Pin的时代,只有时代的AI
凭借特殊的可穿戴产品形态,以AI大模型作为核心驱动,加之前苹果高管下场带队,OpenAI创始人Sam Altman、微软、高通等投资背景,初创企业Humane首款硬件产品Ai Pin一鸣惊人,全球吸睛无数。
打破“硬件厂商”固有印象,HTC转舵探寻沉浸式XR生态
回看整个2023年,XR行业起伏较大,有人欢喜有人愁,但仍保持着稳步发展的趋势。不少XR硬件厂商积极推出新设备时,能明显看到技术上的进步,且大众对XR的基础认知也在走向成熟。
微软专利提出优化的空间环境3D映射更新方法
环境的3D映射是环境中的3D位置和与3D位置相关的捕获图像的集合。所述关联或者来自描述环境中3D位置的landmark的捕获图像,或者来自由具有环境中的3D位置和方向的捕获设备捕获的图像。绘制的环境是任何室内或室外环境,如家庭、办公室内部、花园、公共火车站或其他环境。

短波红外成像: 新时代的消费电子市场新机遇
随着短波红外(SWIR)技术在消费电子领域的新兴应用,我们正见证一个创新技术的崛起,它有潜力彻底改变我们与设备的互动方式。苹果公司在其最新的AirPods 3和iPhone 14 Pro中采用的SWIR单像素传感器,虽然仅用于基础感应,却为功能丰富的设备增添了一个全新维度。这一突破性的应用不仅展示了SWIR技术在实现更精准、更智能的传感方面的潜力,而且还预示着它在消费电子市场中的广阔前景。
噪声分析与图像传感器生产
最近看业内新闻,听说三星的图像传感器工厂购买了Keysight的噪声分析设备,用来测量分析sensor的1/f noise和Random Telegraph noise。以前没听说过Keysight这家公司,上网wiki了一下,原来就是大名鼎鼎的安捷伦,把信号测量设备部门分拆出来就成了现在的Keysight,中文名叫‘是德科技’。惠普(HP)是安捷伦的前身,在1999年把测试测量设备部门分拆命名为安捷伦。所以也就是惠普 --> 安捷伦--> Keysight。
元镜头 —— 手机相机的下一场革命
手机相机模组的小型化一直是个难题,受光学技术限制,手机相机模组很难做得更薄,所以现在的手机机身在相机的位置都会有不同程度的突起。

颠覆性语音识别:单词级时间戳和说话人分离
Vue Vben Admin 是一个免费开源的中后台模板,使用最新的 vue3、vite4 和 TypeScript 等主流技术进行开发。该项目提供了现成的中后台前端解决方案,并可用于学习参考。
联合语音识别与口音识别的解耦交互多任务学习网络
由西工大音频语音与语言处理研究组(ASLP@NPU)和腾讯TEG合作的论文“Decoupling and Interacting Multi-Task Learning Network for Joint Speech and Accent Recognition”发表在语音研究顶级期刊IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)。
https://arxiv.org/abs/2311.07062
开源语音大语言模型来了!阿里基于Qwen-Chat提出Qwen-Audio!
大型语言模型(LLMs)由于其良好的知识保留能力、复杂的推理和解决问题能力,在通用人工智能(AGI)领域取得了重大进展。然而,语言模型缺乏像人类一样感知非文本模态(如图像和音频)的能力。作为一种重要模态,语音提供了超越文本的多样且复杂的信号,如人声中的情感、语调和意图,自然声音中的火车汽笛、钟声和雷声,以及音乐中的旋律。使LLMs能够感知和理解丰富的音频信号以进行音频交互引起了广泛关注。
天琴实验室打造首支“全AI”歌手—AI力宏首支单曲《Letting Go》
10月26日,据媒体报道,华语乐坛首位官方授权的声音、视觉及衍生品均由AI生成的“全AI”歌手——AI力宏正式发行的首支单曲《Letting Go》发布,据悉,该单曲由腾讯音乐娱乐集团(TME)、宏声文化有限公司(王力宏工作室)联合打造,在QQ音乐正式上线,歌曲及视觉形象由TME旗下的天琴实验室、制作家工作室、MUX设计团队联合制作。

B站故障演练平台实践
在云原生的架构下,微服务的数量呈现爆炸式增长,服务间的调用关系错综复杂,对系统可靠性也提出了更高的要求。在这样的背景之下,混沌工程的关注度也不断提升。

2024年全球半导体市场走向预测
11月28日,世界半导体贸易统计组织(WSTS)公布其对半导体市场的最新预测。由于今年第二季度和第三季度的业绩略好于春季预测,WSTS对其预测进行了修订,预计2023年全球半导体市场将出现个位数的萎缩,萎缩幅度为9.4%。WSTS指出,受惠生成式AI普及、带动逻辑芯片需求急增,加上存储需求也呈现改善,因此全球半导体市场已在2023年下半年转趋复苏,2023年全球半导体销售额预估值自前次预估的5,150.95亿美元上修至5,201.26亿美元、将年减9.4%,将为4年来(2019年以来、大减12.0%)首度陷入萎缩。
3D NAND,如何发展?
增加3D(三维)NAND闪存密度的方法正在发生变化。这是因为支持传统高密度技术的基本技术预计将在不久的将来达到其极限。2025 年至 2030 年间,新的基础技术的引入和转化很可能会变得更加普遍。

传Vision Pro首批备货40万台,2024年目标100万台,第三年1000万台
据称Vision Pro首批备货40万台左右,2024年的销量目标是100万台,第三年达到1000万台
哔哩哔哩与华为达成合作,启动鸿蒙原生应用开发
在科技领域,合作与创新是推动进步的双引擎。近日,哔哩哔哩与华为在鸿蒙系统领域的全面合作,正是这一理念的最新体现。这一跨界合作不仅为哔哩哔哩带来了进入鸿蒙生态的机遇,也为华为开拓新的内容领域和技术创新提供了强有力的支持。在这个快速变化的数字时代,这次合作预示着双方将共同探索更多创新的可能性,为用户带来前所未有的智能体验。
AMD加码印度,开设最大全球设计中心
美国芯片制造商 AMD 周二在班加罗尔开设了其最大的全球设计中心,扩大其在印度的研究、开发和工程业务。该公司在一份新闻稿中表示,这个最先进的园区计划在未来几年容纳约 3,000 名 AMD 工程师,专注于半导体技术的设计和开发,包括 3D 堆叠、人工智能和机器学习。
从LiveVideoStackCon 2023深圳看音视频的未来
LiveVideoStackCon 2023深圳的第二天,大会结束之后,也意味着我们今年主要的活动都告一段落了。正好借这个机会简单总结下当下的多媒体生态,并展望下未来。
重磅首发|2024音视频技术发展报告(文末附下载)
11月24日,在LiveVideoStackCon 2023深圳站大会上,我们与腾讯云音视频联合首发《2024音视频技术发展报告》。报告通过300+音视频开发者调研,40+专家一线访谈,下沉8大细分技术领域进行全面解读,涵盖音视频编解码/AI编码/多媒体处理框架/媒体传输协议/超低延迟技术/虚拟现实/AIGC/出海等领域,深入洞察音视频技术现状和未来发展趋势。
▲点击“阅读原文”▲
跳转报告下载链接
相关文章:
音视频技术开发周刊 | 322
每周一期,纵览音视频技术领域的干货。 新闻投稿:contributelivevideostack.com。 超级AI不会主宰人类,但人工智能必须开源!LeCun最新采访引全网300万人围观 LeCun最新访谈视频中,再次坦露了自己对开源AI的看法。超级AI…...
面试就是这么简单,offer拿到手软(三)—— 常见中间件框架面试题,es,redis,dubbo,zookeeper kafka 等
面试就是这么简单,offer拿到手软(一)—— 常见非技术问题回答思路 面试就是这么简单,offer拿到手软(二)—— 常见65道非技术面试问题 面试就是这么简单,offer拿到手软(三ÿ…...
【Spring系列】DeferredResult异步处理
💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…...
使用晶振遇到的两个问题
并联电阻的问题 在一些方案中,晶振并联1MΩ电阻时,程序运行正常,而在没有1MΩ电阻的情况下,程序运行有滞后及无法运行现象发生。 原因分析: 在无源晶振应用方案中,两个外接电容能够微调晶振产生的时钟频率…...
手写promise A+、catch、finally、all、allsettled、any、race
目录 手写promise 同步版 1.Promise的构造方法接收一个executor(),在new Promise()时就立刻执行executor回调 2.executor()内部的异步任务被放入宏/微任务队列,等待执行 3.状态与结果的管理 状态只能变更一次 4.then()调用成功/失败回调 catch是…...
【原神游戏开发日志1】缘起
【原神游戏开发日志1】缘起 版权声明 本文为“优梦创客”原创文章,您可以自由转载,但必须加入完整的版权声明 文章内容不得删减、修改、演绎 相关学习资源见文末 大家好,最近看到原神在TGA上频频获奖,作为一个14年经验的游戏开…...
leetcode5 最长公共前缀三种python解法
14. 最长公共前缀 编写一个函数来查找字符串数组中的最长公共前缀。 如果不存在公共前缀,返回空字符串 ""。 示例 1: 输入:strs ["flower","flow","flight"] 输出:"fl"示…...
对小程序的初了解
WXML和HTML的区别 标签名称不同 HTML:div、a、span、img WXML:view、text、image、navigator 属性节点不同 <a href"#">超链接</a> <navigator url"/pages/home/home"></navigator> 提供了类似vue的…...
QLineEdit 的 InputMask掩码
QLineEdit 的 InputMask掩码 A:只能输入字母,且不可省略 a:只能输入字母,可以省略 N:只能输入 字母和数字,且不可省略 n:只能输入 字母和数字,可以省略 X:可以输入任意字…...
关于队列的简单理解
1.队列(Queue) 1.1 关于队列 队列 :只允许在一端进行插入数据操作,在另一端进行删除数据操作的特殊线性表, 队列具有先进先出 FIFO(First In First Out)的操作特性(队列是个接口); 入队列&#x…...
加密市场进入牛初阶段?一场新的造富效应即将拉开帷幕!
周一(12月4日),比特币一度上涨至42000美元,创下自2022年4月以来的最高水平。从目前比特币的走势来看,加密市场无疑已然进入到牛初阶段。 在牛市初期,确实存在人们不相信牛市到来的情况。由于在熊市中亏损的心理阻碍和对市场进一步…...
Superset基础入门
1 Superset概述 Apache Superset 是一个现代的数据探索和可视化平台。它功能强大且十分易用,可对接 各种数据源,包括很多现代的大数据分析引擎,拥有丰富的图表展示形式,并且支持自定义 仪表盘。 2 Superset安装 Superset 是由 P…...
【泛微ecology】将多个字段的数据合并到一个字段
doFieldSQL("select concat(concat(sqr,,),sy) as c from formtable_main_2 where requestid $requestid$ ")...
WebSocket入门介绍及编程实战
HTTP的限制 全双工和半双工: 全双工:全双工(Full Duplex)是允许数据在两个方向上同时传输。 半双工:半双工(Half Duplex)是允许数据在两个方向上传输,但是同一个时间段内只允许一个…...
vue3里面生命周期的使用
前言: vue2里面的生命周期和vue3生命周期是非常的相似的,我们通过访问生命周期钩子来处理不同场景之间的应用。 生命周期钩子的函数定义:每一个Vue组件实例在创建时都需要经历一系列的初始化步骤,比如数据侦听,编译模…...
在python的Scikit-learn库中,可以使用train_test_split函数来划分训练集和测试集。
文章目录 一、在Scikit-learn库中,可以使用train_test_split函数来划分训练集和测试集总结 一、在Scikit-learn库中,可以使用train_test_split函数来划分训练集和测试集 在Scikit-learn库中,可以使用train_test_split函数来划分训练集和测试…...
外包干了2个月,技术明显退步了...
先说一下自己的情况,大专生,19年通过校招进入广州某软件公司,干了接近5年的功能测试,今年11月份,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测…...
数据结构:链表应用:第9关:删除链表中满足区间值的结点
任务描述编程要求 输入输出测试说明来源 任务描述 本关任务:利用单链表表示一个递增的整数序列,删除链表中值大于等于mink且小于等于maxk的所有元素(mink和maxk是给定的两个参数,其值可以和表中的元素相同,也可以不同…...
了解 ignore_above 参数对 Elasticsearch 中磁盘使用的影响
在 Elasticsearch 中,ignore_above 参数允许你忽略(而不是索引)长于指定长度的字符串。 这对于限制字段的大小以避免性能问题很有用。 在本文中,我们将探讨 “ignore_above” 参数如何影响 Elasticsearch 中字段的大小,…...
C#中的async/await异步编程模型
前言 当谈到异步编程时,C#中的async/await是一个强大且方便的工具。它使得编写并发和异步操作变得更加简单和可读,同时提供良好的可维护性。本文将详细解释async/await的使用,以及如何在C#中有效地利用它来实现异步操作。 目录 前言1. async…...
进程地址空间(比特课总结)
一、进程地址空间 1. 环境变量 1 )⽤户级环境变量与系统级环境变量 全局属性:环境变量具有全局属性,会被⼦进程继承。例如当bash启动⼦进程时,环 境变量会⾃动传递给⼦进程。 本地变量限制:本地变量只在当前进程(ba…...
脑机新手指南(八):OpenBCI_GUI:从环境搭建到数据可视化(下)
一、数据处理与分析实战 (一)实时滤波与参数调整 基础滤波操作 60Hz 工频滤波:勾选界面右侧 “60Hz” 复选框,可有效抑制电网干扰(适用于北美地区,欧洲用户可调整为 50Hz)。 平滑处理&…...
Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决
Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决 问题背景 在一个基于 Spring Cloud Gateway WebFlux 构建的微服务项目中,新增了一个本地验证码接口 /code,使用函数式路由(RouterFunction)和 Hutool 的 Circle…...
Web 架构之 CDN 加速原理与落地实践
文章目录 一、思维导图二、正文内容(一)CDN 基础概念1. 定义2. 组成部分 (二)CDN 加速原理1. 请求路由2. 内容缓存3. 内容更新 (三)CDN 落地实践1. 选择 CDN 服务商2. 配置 CDN3. 集成到 Web 架构 …...
技术栈RabbitMq的介绍和使用
目录 1. 什么是消息队列?2. 消息队列的优点3. RabbitMQ 消息队列概述4. RabbitMQ 安装5. Exchange 四种类型5.1 direct 精准匹配5.2 fanout 广播5.3 topic 正则匹配 6. RabbitMQ 队列模式6.1 简单队列模式6.2 工作队列模式6.3 发布/订阅模式6.4 路由模式6.5 主题模式…...
Unity UGUI Button事件流程
场景结构 测试代码 public class TestBtn : MonoBehaviour {void Start(){var btn GetComponent<Button>();btn.onClick.AddListener(OnClick);}private void OnClick(){Debug.Log("666");}}当添加事件时 // 实例化一个ButtonClickedEvent的事件 [Formerl…...
恶补电源:1.电桥
一、元器件的选择 搜索并选择电桥,再multisim中选择FWB,就有各种型号的电桥: 电桥是用来干嘛的呢? 它是一个由四个二极管搭成的“桥梁”形状的电路,用来把交流电(AC)变成直流电(DC)。…...
Matlab实现任意伪彩色图像可视化显示
Matlab实现任意伪彩色图像可视化显示 1、灰度原始图像2、RGB彩色原始图像 在科研研究中,如何展示好看的实验结果图像非常重要!!! 1、灰度原始图像 灰度图像每个像素点只有一个数值,代表该点的亮度(或…...
React从基础入门到高级实战:React 实战项目 - 项目五:微前端与模块化架构
React 实战项目:微前端与模块化架构 欢迎来到 React 开发教程专栏 的第 30 篇!在前 29 篇文章中,我们从 React 的基础概念逐步深入到高级技巧,涵盖了组件设计、状态管理、路由配置、性能优化和企业级应用等核心内容。这一次&…...
【把数组变成一棵树】有序数组秒变平衡BST,原来可以这么优雅!
【把数组变成一棵树】有序数组秒变平衡BST,原来可以这么优雅! 🌱 前言:一棵树的浪漫,从数组开始说起 程序员的世界里,数组是最常见的基本结构之一,几乎每种语言、每种算法都少不了它。可你有没有想过,一组看似“线性排列”的有序数组,竟然可以**“长”成一棵平衡的二…...
