音视频技术开发周刊 | 323
每周一期,纵览音视频技术领域的干货。
新闻投稿:contribute@livevideostack.com。
Meta牵头组建开源「AI复仇者联盟」,AMD等盟友800亿美元力战OpenAI英伟达
超过50家科技大厂名校和机构,共同成立了全新的人工智能联盟。以开源为旗号,誓于OpenAI和英伟达一决高下。
深度学习大牛权威预测2024年AI行业热点,盘点开源AI趋势!
AI社区大佬Sebastian总结了2023年全年AI行业的热点和问题,针对开源社区和AI研究的热点问题给出了自己读到的解读和发展建议,精彩内容千万不能错过。
跨语种「AI同传」震撼登场!Meta谷歌连发重大突破,颠覆语音翻译
Meta谷歌接连放出重磅成果!Meta开源无缝交流语音翻译模型,谷歌放出无监督语音翻译重大突破Translation 3。
AI颠覆材料学!DeepMind重磅研究登Nature,预测220万晶体结构赢人类800年
继AlphaFold系列改变了生物学领域之后,谷歌DeepMind今日再发Nature,全新AI工具GNoME,成功预测220万种晶体结构,颠覆了材料学领域。
Gemini:我们规模最大、能力最强的 AI 模型
每一次技术的变革都是推进科学发现、加快人类进步和改善人们生活的机会。我相信我们此时正在见证的 AI 转变将是我们一生中影响最为深远的转变,其影响力远超过移动技术或互联网的转变。AI 有着为世界各地的人们创造机会的潜力,无论是在日常生活中还是在铸就非凡成就方面。它将带来新一轮的创新和经济进步,并以前所未有的规模推动知识、学习、创造力和生产力的发展。
横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%
哈工深发布全新多模态大语言模型九天(JiuTian-LION),融合细粒度空间感知和高层语义视觉知识,在13个评测任务上实现了sota性能。
脑机接口重要突破!国内团队成功实现「全谱汉语解码」:Top 3准确率接近100%
国内团队实现对脑机接口汉语解码「零的突破」,系统覆盖了全部407个汉语拼音音节以及汉语发音特点,句子完全正确率高达30%!
全球首个开源多模态医疗基础模型:人工打分平均超越GPT-4V、支持2D/3D放射影像
本文中,上海交大 & 上海 AI Lab 发布 Radiology Foundation Model (RadFM),开源 14B 多模态医疗基础模型,首次支持 2D/3D 放射影像输入。
手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion
近日,来自谷歌的一篇论文「MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices」,提出了手机端最快文生图,在 iPhone 15 Pro 上只要 0.2 秒。论文出自 UFOGen 同一团队,在打造超小扩散模型的同时, 采用当前大火的 Diffusion GAN 技术路线做采样加速。
3D Gaussian Splatting的福音!快速提取精确且可编辑的3D网格来啦!
本文介绍了一种从3D Gaussian Splatting表示中快速提取精确且可编辑的网格的方法。该方法利用Gaussian Splatting的渲染速度快、训练速度慢的特点,通过引入正则化项鼓励Gaussian Splatting表示与场景表面对齐,并使用Poisson重建方法从Gaussian Splatting表示中提取网格。此外,该方法还引入了一种优化策略,将Gaussian Splatting表示与网格一起优化,通过Gaussian Splatting渲染实现高效的编辑、雕塑、动画和重新光照。这种方法能够在几分钟内检索到具有更好渲染质量的可编辑网格,相比于从SDF中提取网格的方法需要几个小时。
使用库普曼线性化以及数据驱动的批量定位和SLAM
本文提出了一个无模型批量定位和SLAM的框架。我们使用提升函数将控制仿射系统映射到高维空间,其中过程模型和测量模型都被渲染为双线性。在训练过程中,使用真实数据求解一个最小二乘问题,以纯粹从数据中计算与提升系统相关的高维模型矩阵。在推理时,通过一个优化问题来解决未知的机器人轨迹和路标,其中引入了约束,以保持解在提升函数的流形上。使用序列二次规划( SQP )有效地解决了该问题,其中SQP迭代的复杂度与时间步数呈线性比例关系。
UWB雷达SLAM:一种在视觉拒止的室内环境中的无锚点方法
激光雷达和相机常被用作同步定位与地图构建( SLAM )的传感器。然而,这些传感器在低能见度(例如烟雾)或具有反射面(例如反射镜)的地方容易失效。另一方面,电磁波在波长增加时表现出更好的穿透特性,因此不受低能见度的影响。因此,本文提出了超宽带( UWB )雷达作为现有传感器的替代方案。UWB通常被用于锚点-标签SLAM系统。在环境中安装一个或多个锚点,并将标签附着在机器人上。
https://ieeexplore.ieee.org/document/10175555/
iPhone 15 Pro+三方软件,开拓“空间视频”平民时代
2023 苹果秋季发布会上,iPhone 15 Pro 系列带来了一个彩蛋功能——空间视频拍摄。该功能将 iPhone 与 Vision Pro 进行了生态联动,不仅增强了 Vision Pro 的用户生活场景,更能为明年 Vision Pro 的销售埋下伏笔。
评测丨一键成为虚拟偶像?索尼mocopi会是新的动捕黑科技吗?
此前,一名游戏动捕演员“曦曦鱼SAKANA”走出幕后,在b站发布了多条关于不同风格游戏角色的动作捕捉视频,因其传神的动作与表情获得了观众的高度认可,不少观众纷纷表示“仿佛看到了xx角色本人”。
Varjo最新VR/MR头显XR-4开始面向专业消费者提供
在过去,Varjo的设备主要面向企业市场,定价高昂,而且购买需要咨询问价。对于这家公司刚刚发布的全新XR-4系列头显,这是一款无需支付高额年费且直接向专业消费者销售的旗舰设备。
亚马逊AI芯片,深度解读
亚马逊网络服务可能不是第一家创建自己的定制计算引擎的超大规模提供商和云构建商,但它紧随谷歌之后发布了自研的AI芯片——谷歌于 2015 年开始使用其自主研发的 TPU 加速器来处理人工智能工作负载。
GPU,巨变前夜
在3D图像学中,对于真实场景和物体的高精度建模/渲染一直是整个学界梦寐以求的目标之一。在过去几十年中,3D场景和物体建模的主流方式是基于多边形(ploygon mesh)的建模,即把一个3D建模的物体表面近似为由大量多边形组成,而多边形数量越多,则3D建模和真实物体/场景越接近。
3D封装,成本最优的选择?
当 2.5D 和 3D 封装最初被构想出来时,普遍的共识是只有最大的半导体公司才能负担得起,但开发成本很快就得到了控制。在某些情况下,这些先进的封装实际上可能是成本最低的选择。
苹果芯片实验室首次对外公开!
美国 CNBC 发布新闻报道,称于今年 11 月访问了苹果位于加州库比蒂诺的园区,首次获批公开了苹果芯片实验室内部场景。
空间音频体验与评价方案
区别于传统单通道和立体声音频,3D音频是一种带来三维沉浸式音频体验的新范式,其在制作、传输分发、端侧渲染端到端全链条都引入了更复杂的音频数据存储格式、编解码策略以及音效算法,继而为消费者带来了更身临其境的音频体验感以及空气感(eg:戴上耳机听音频,感觉就像没戴耳机且听到身边真实三维世界的声音一样),极有潜力成为未来交互式社交、沉浸式多媒体创作&娱乐、XR等产业的技术底座。
任意文本、视觉、音频混合生成,多模态有了强大的基础引擎CoDi-2
今年 5 月,北卡罗来纳大学教堂山分校、微软提出一种可组合扩散(Composable Diffusion,简称 CoDi)模型,让一种模型统一多种模态成为可能。CoDi 不仅支持从单模态到单模态的生成,还能接收多个条件输入以及多模态联合生成。
https://arxiv.org/pdf/2311.18775.pdf
如何优化智能扬声器的语音和音频测试?
智能扬声器已经风靡千家万户,消费者满意度与其智能扬声器对语音命令的理解程度密切相关。语音清晰度和音质对于领先的平台提供商至关重要。那么,如何确保您的产品能够满足消费者的严格要求?
超声波可实现侵入性较小的脑机接口
脑机接口(BMI)是可以读取大脑活动并将该活动转换为控制假肢或计算机光标等电子设备的设备。科学家们希望能借用BMI使瘫痪的人能够用自己的思想移动假肢装置。许多BMI需要侵入性手术将电极植入大脑以读取神经活动。然而,在2021年,加州理工学院的研究人员开发了一种使用功能性超声(fUS) 读取大脑活动的方法,这是一种侵入性小得多的技术。
音视频编解码--随机访问Random Access
在理想情况下,视频编码器可以发送视频第一帧的关键帧,然后每个后续帧都将表示为差异,直到视频结束。
NeurIPS2023 | ResShift:通过残差位移实现的用于图像超分辨率的高效扩散模型
基于扩散的图像超分辨率(SR)方法主要因需要进行数百甚至数千次采样步骤,导致推理速度较慢而受到限制。现有的加速采样技术不可避免地在一定程度上牺牲性能,导致超模糊的SR结果。为了解决这个问题,本文提出了一种新颖高效的扩散模型用于SR,显著减少了扩散步骤的数量,从而在推理过程中消除了后加速的需求及其相关的性能下降。
ICCV 2023 | 基于不规则群解耦的语义结构图像压缩
图像压缩技术通常侧重于压缩图像以供人类消费,这导致为下游应用传输冗余内容。为了解决这一问题,一些先前的工作提出对比特流进行语义结构划分,通过选择性的传输和重构可以满足特定的应用需求。它们根据语义将输入图像划分为多个矩形区域,但忽略了区域之间的交互信息,导致比特率的浪费和区域边界的重建失真。本文提出了基于定制的组掩码将图像解耦为多个具有不规则形状的组,并对其进行独立压缩。组掩码以更精细的粒度描述图像,减少冗余内容的传输。
年终王炸!Amazon Q重磅登场,云巨头开创企业级生成式AI新赛道
就在刚刚,亚马逊云科技祭出了全新AI「大杀器」Amazon Q。不仅只用两天时间就升级了上千款Java应用,更是将企业的数据屏障一举击穿。
苹果选择视涯和京东方供应Vision Pro微显示器;复旦科创母基金首期十亿元启动
苹果首款 AR 硬件 Apple Vision Pro 将采用双 1.3 英寸 4K Micro-OLED 微显示器。苹果一直在与生产首款 Micro-OLED 微显示器的索尼合作,但后来的报道表明,苹果正在寻求用视涯和京东方的合作,以取代索尼作为其供应商,降低成本(并且也可能增加潜在供应,因为索尼产能有限)。
SteamVR官方串流工具上线Quest Store;中兴通讯发布5G VR大空间沉浸剧场解决方案头条
近日,Valve所发布的官方免费串流工具Steam Link正式上线Quest Store。借助该工具,用户可以基于无线WiFi网络畅玩《Half-Life: Alyx》等SteamVR知名游戏,此外,用户还可以通过VR头显体验传统的平面游戏。
重磅首发|2024音视频技术发展报告(文末附下载)
11月24日,在LiveVideoStackCon 2023深圳站大会上,我们与腾讯云音视频联合首发《2024音视频技术发展报告》。报告通过300+音视频开发者调研,40+专家一线访谈,下沉8大细分技术领域进行全面解读,涵盖音视频编解码/AI编码/多媒体处理框架/媒体传输协议/超低延迟技术/虚拟现实/AIGC/出海等领域,深入洞察音视频技术现状和未来发展趋势。
▲点击“阅读原文”▲
跳转报告下载链接
相关文章:
音视频技术开发周刊 | 323
每周一期,纵览音视频技术领域的干货。 新闻投稿:contributelivevideostack.com。 Meta牵头组建开源「AI复仇者联盟」,AMD等盟友800亿美元力战OpenAI英伟达 超过50家科技大厂名校和机构,共同成立了全新的人工智能联盟。以开源为旗号…...
STM32在CTF中的应用和快速解题
题目给的是bin文件,基本上就是需要我们手动修复的固件逆向。 如果给的是hex文件,我们可能需要使用MKD进行动态调试 主要还是以做题为目的 详细的可以去看文档:https://pdf1.alldatasheet.com/datasheet-pdf/view/201596/STMICROELECTRONIC…...
SaaS 电商设计 (五) 私有化部署-实现 binlog 中间件适配
一、 背景 具体的中间件私有化背景在上文 SaaS 电商设计 (二) 私有化部署-缓存中间件适配 已有做相关介绍.这里具体讨论的场景是通过解析mysql binlog 来实现mysql到其他数据源的同步.具体比如:在电商的解决方案业务流中经常有 ES 的使用场景,用以解决一些复杂的查询和搜索商品…...
Android APP 常见概念与 adb 命令
adb 的概念 adb 即 Android Debug Bridge 。在窗口输入 adb 即可显示帮助文档。adb 实际上就是在后台开启一个 server,会接收 adb 的命令然后帮助管理,控制,查看设备的状态、信息等,是开发、测试 Android 相关程序的最常用手段。…...
菜鸟学习日记(python)——函数
函数是组织好的,用来实现某些功能的代码块,它可以重复使用。 函数能提高应用的模块性,和代码的重复利用率。Python提供了许多内建函数,比如print()。但我们也可以自己创建函数,这被叫做用户自定义函数。 定义函数 用…...
垃圾回收 (GC) 在 .NET Core 中是如何工作的?
提起GC大家肯定不陌生,但是让大家是说一下GC是怎么运行的,可能大多数人都不太清楚,这也很正常,因为GC这东西在.NET基本不用开发者关注,它是依靠程序自动判断来释放托管堆的,我们基本不需要主动调用Collect(…...
Appium 图像识别技术 OpenCV
在我们做App自动化测试的时候,会发现很多场景下元素没有id、content-desc、text等等属性,并且有可能也会碰到由于开发采用的是自定义View,View中的元素也无法识别到,很多的自动化测试框架对此类场景束手无策。Appium在V1.9.0中有给…...
产品Axure的元组件以及案例
前言 产品<Axure的安装以及组件介绍-CSDN博客经过上文我们可以知道我们Axure是一款适用于网站、移动应用和企业软件的交互式原型设计工具。它可以帮助用户创建高保真的交互式原型,包括线框图、流程图、模型、注释和规格等,以便与客户、开发人…...
智能优化算法应用:基于头脑风暴算法3D无线传感器网络(WSN)覆盖优化 - 附代码
智能优化算法应用:基于头脑风暴算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于头脑风暴算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.头脑风暴算法4.实验参数设定5.算法结果6.…...
flutter Pageview组件
PageView组件说明 组件说明PageView,PageController的源码简单demo 组件说明 属性说明scrollDirection滑动反向 Axis.vertical上下滑动 Axis.horizontal左右滑动reverse是否反转 true从最后一个记0controllerPageController见下文physics滚动方式pageSnapping是否有…...
如何用 Cargo 管理 Rust 工程系列 丙
以下内容为本人的学习笔记,如需要转载,请声明原文链接 微信公众号「ENG八戒」https://mp.weixin.qq.com/s/viSsCaFR2x9hZOvo1PoRqA 添加依赖项 前面已经提到过在 cargo 配置文件 Cargo.toml 中如何手动添加工程依赖项,cargo 同样提供了 add …...
Vue学习笔记-Vue3中的provide与inject
作用 provide和inject用于实现祖孙间的数据通信 用法 导入:import {provide,inject} from vue 使用: provide:祖组件使用该方法提供数据(可以给任意后代组件,但一般用于孙组件及其后代组件,因为父子间的…...
2021年数维杯国际大学生数学建模A题新冠肺炎背景下港口资源优化配置策略求解全过程文档及程序
2021年数维杯国际大学生数学建模 A题 新冠肺炎背景下港口资源优化配置策略 原题再现: 2020年初,新型冠状病毒(COVID-19)在全球迅速蔓延。根据世界卫生组织2021年7月31日的报告,新冠病毒疫情对人类的影响可能比原先预…...
【css】css实现文字两端对齐效果:
文章目录 一、方法1:二、方法2:三、注意: 一、方法1: 给元素设置 text-align: justify;text-align-last: justify;并且加上text-justify: distribute-all-line; 目的是兼容ie浏览器 p{width: 130px;text-align: justify;text-alig…...
ElasticSearch指南 - Mapping - Metadata fields
Metadatas - fields 每份doc都有关联它的metadata数据, 例如_index 和 _id字段. 这些metadatas字段的一些行为能在创建mapping的时候被定制化. 表示唯一性的metadatas字段 _index 表示doc属于哪个index _id doc的id 源doc的metadatas字段 _source doc的原始json字符串 _s…...
12.15每日一题(备战蓝桥杯摘花生)
12.15每日一题(备战蓝桥杯摘花生) 题目 摘花生 Hello Kitty想摘点花生送给她喜欢的米老鼠。 她来到一片有网格状道路的矩形花生地(如下图),从西北角进去,东南角出来。 地里每个道路的交叉点上都有种着一株花生苗,上…...
VUE-脚手架搭建
文章目录 一、概述二、前提准备1. 安装 node-js2. npm 镜像设置3. 安装 vs-code 三、脚手架搭建1. Vue-2 搭建1. Vue-3 搭建 一、概述 官网:http://cn.vuejs.org/ vue 有两个大版本,分别是 vue-2 和 vue-3,目前新项目的话用 vue-3 的会比较多…...
ArcGIS Pro SDK根据Xml/Json文件反向生成几何
需求: geometry文件导出后的xml,在另一台电脑上反向生成geometry 解决方案: 点 MapPoint minPointImport MapPointBuilderEx.FromXml(xml); 线 包络线 Envelope envelopeImport EnvelopeBuilderEx.FromXml(xml); 面 var geometryB…...
LY/T 3301-2022 实木厚芯胶合板检测
实木厚芯胶合板是指按照相邻层单板木纹方向垂直组坯,通过胶黏剂将表板、中间层板和芯板黏合而成的5层或5层以上的对称结构板材。 LY/T 3301-2022实木厚芯胶合板测试: 测试项目 测试方法 静曲强度 GB/T 17657 弹性模量 GB/T 17657 含水率 GB/T 17…...
代码随想录算法训练营第十六天| 104. 二叉树的最大深度、111. 二叉树的最小深度、222. 完全二叉树的节点个数
代码随想录算法训练营第十六天| 104. 二叉树的最大深度、111. 二叉树的最小深度、222. 完全二叉树的节点个数 题目 104.二叉树的最大深度 给定一个二叉树 root ,返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 # Defin…...
字符串——OJ题
📘北尘_:个人主页 🌎个人专栏:《Linux操作系统》《经典算法试题 》《C》 《数据结构与算法》 ☀️走在路上,不忘来时的初心 文章目录 一、字符串相加1、题目讲解2、思路讲解3、代码实现 二、仅仅反转字母1、题目讲解2、思路讲解3…...
Linux---cp和mv命令选项
1. cp命令选项 命令选项说明-i交互式提示-r递归拷贝目录及其内容-v显示拷贝后的路径描述-a保留文件的原有权限 cp -i命令选项效果图: cp -r命令选项效果图: cp -v命令选项效果图: cp -a命令选项效果图: -a选项说明: -a 选项还支持拷贝文件夹并且文件夹中的文件权限不丢失 …...
LVS负载均衡器(nat模式)+nginx(七层反向代理)+tomcat(多实例),实现负载均衡和动静分离
目录 前言 一、配置nfs共享存储 二、配置2个nginx节点服务的网页页面 节点1:192.168.20.10 步骤一:修改网关指向调度器的内网ip地址 步骤二:将nfs共享的目录进行挂载,并修改nginx的配置文件中location的root指向挂载点 步骤三ÿ…...
【深度学习】TensorFlow深度模型构建:训练一元线性回归模型
文章目录 1. 生成拟合数据集2. 构建线性回归模型数据流图3. 在Session中运行已构建的数据流图4. 输出拟合的线性回归模型5. TensorBoard神经网络数据流图可视化6. 完整代码 本文讲解: 以一元线性回归模型为例, 介绍如何使用TensorFlow 搭建模型 并通过会…...
智能插座是什么
智能插座 电工电气百科 文章目录 智能插座前言一、智能插座是什么二、智能插座的类别三、智能插座的原理总结 前言 智能插座的应用广泛,可以用于智能家居系统中的电器控制,也可以应用在办公室、商业场所和工业控制中,方便快捷地实现电器的远…...
5G工业网关视频传输应用
随着科技的不断进步,5G网络技术已经成为了当前最热门的话题之一。而其中一个引人注目的领域就是5G视频传输和5G工业网关应用。在传统网络通信中,由于带宽和延迟的限制,视频传输常常受到限制,而工业网关应用也存在着链路不稳定、数…...
Axure电商产品移动端交互原型,移动端高保真Axure原型图(RP源文件手机app界面UI设计模板)
本作品是一套 Axure8 高保真移动端电商APP产品原型模板,包含了用户中心、会员成长、优惠券、积分、互动社区、运营推广、内容推荐、商品展示、订单流程、订单管理、售后及服务等完整的电商体系功能架构和业务流程。 本模板由一百三十多个界面上千个交互元件及事件组…...
【k8s】使用Finalizers控制k8s资源删除
文章目录 词汇表基本删除操作Finalizers是什么?Owner References又是什么?强制删除命名空间参考 你有没有在使用k8s过程中遇到过这种情况: 通过kubectl delete指令删除一些资源时,一直处于Terminating状态。 这是为什么呢? 本文将…...
vscode
文章目录 变量引用Multi-selections(multi-cursor)Column (box) selection在正则表达式替换中改变大小写tasks.jsonlaunch.json vscode工作空间下有一个.vscode文件夹,该文件夹下放置了vscode的配置文件,主要有: settings.json : vscode的设置…...
Jrebel 在 Idea 2023.3中无法以 debug 的模式启动问题
Jrebel 在 Idea 2023.3中无法以 debug 的模式启动问题 Idea 在升级了2023.3以后,Jrebel 无法以 debug 的模式启动,找了半天,最后在插件主页的评论区找到了解决方案 特此记录一下...
汕头哪里做网站/网站seo哪家做的好
计算机中级教案计算机基础知识第一部分 WINDOWS操作系统第部分商务办公软件第三部分打印机及扫描仪使用2788第一部分W| NDOWS操作系统第一节五笔输入法第二节 WINDOWS基础操作第二部分商务办公软件前言: OFFICE常识第一节WORD2003第二节 EXCEL2003第三节 POWERPOINT第四节 WPS …...
网页设计与网站开发经济可行性/做广告推广哪个平台好
转自:http://www.cnblogs.com/damsoft/p/6100323.html .net开发常用的第三方组件: 1、RSS.NET.dll: RSS.NET是一款操作RSS feeds的开源.net类库。它为解析和编写 RSS feeds提供了一个可重用的对象模型。它完全兼容RSS 0.90,0.91,0.92…...
cms下载官方网站/优化关键词哪家好
数字经济时代,数据与算力就是生产力已经成为行业的重要共识。数据、算力增长的背后,涉及的端侧设备、协同平台、数据存储、处理等碳排也与日俱增,不可忽视。拿核心的数据中心来说,有关研究机构数据显示,过去十年&#…...
xampp安装网站模板/seo排名资源
数据类型概览 数值类型 整数类型包括 TINYINT、SMALLINT、MEDIUMINT、INT、BIGINT,浮点数类型包括 FLOAT 和 DOUBLE,定点数类型为 DECIMAL。 (tinyint,smallint,mediumint,int,bigint)日期/时间类型 包括 YEAR、TIME、DATE、DATE…...
固定ip如何做网站服务器/100大看免费行情的软件
方法1: 重装了Mysql,在配置的时候,老是需要指示输入旧的Mysql的root用户的密码! 不然就会出现 Nt. 1045 的数据库错误。 只有强硬删除原来的数据文件了,一般的mysql的原来配置的文件都是在配置的程序目录下的,如 "…...
安徽合肥疫情最新情况/东莞seo
关于Liferay环境的配置,可以参考博客园中其他的文章,这里不再详细叙述。现在要在Liferay的基础上进行二次开发,正在学习中,为了在学习过程中留下足迹,现在通过此形式记录自己的学习笔记。 一、Liferay整体框架 由于目前…...