音视频技术开发周刊 | 322
每周一期,纵览音视频技术领域的干货。
新闻投稿:contribute@livevideostack.com。
超级AI不会主宰人类,但人工智能必须开源!LeCun最新采访引全网300万人围观
LeCun最新访谈视频中,再次坦露了自己对开源AI的看法。超级AI终有一天会诞生,但不会主宰人类。
GPT-4+物理引擎加持扩散模型,生成视频逼真、连贯、合理
扩散模型的出现推动了文本生成视频技术的发展,但这类方法的计算成本通常不菲,并且往往难以制作连贯的物体运动视频。为了解决这些问题,来自中国科学院深圳先进技术研究院、中国科学院大学和 VIVO AI Lab 的研究者联合提出了一个无需训练的文本生成视频新框架 ——GPT4Motion。
网络规模、训练学习速度提升,清华团队在大规模光电智能计算方向取得进展
随着大模型等人工智能技术的突破与发展,算法复杂度剧增,对传统计算芯片带来了算力和功耗的双重挑战。近年来,以光计算为基础、通过光电融合的方式构建光电神经网络的计算处理方法已经成为国际热点研究问题,有望实现计算性能的颠覆性提升。
Mirasol3B:一个多模态自回归模型,用于时间对齐和上下文模式
Mirasol3B 在多模态基准测试中达到了 SOTA 水平,优于规模更大的模型。通过学习更紧凑的表征,控制音频 - 视频特征表征的序列长度,并根据时间对应关系进行建模,Mirasol3B 能够有效满足多模态输入的高计算要求。
https://arxiv.org/abs/2311.05698
ChatGPT性能最多提升214%,刷新7个榜单!IDEA、港科大广州等提出ToG思维图谱
思维链已经out啦!想让大模型会推理还是得靠知识库:基座模型还是ChatGPT,最新思维图谱技术在多个基准数据集上实现巨大性能提升!
国产大模型黑马诞生,千亿级拿下双榜第一!知识正确性能力突出,大幅降低LLM幻觉问题
夸克,也下场大模型了。甫一问世,夸克大模型就迅速登顶权威测评双榜第一,幻觉率大幅降低,可以预见,风靡年轻人的夸克APP,要掀起新的飓风了。
文生图10倍速,视频实时渲染!清华发布LCM:兼容全部SD大模型、LoRA、插件等
全面兼容Stable Diffusion生态,LCM模型成功实现5-10倍生成速度的提升,实时AI艺术时代即将到来,所想即所得!
无图感知更进一步!ScalableMap:迈向大范围高精地图新方案!
ScalableMap在线性结构的指导下提取了更准确的鸟瞰图(BEV)特征,然后提出了一种分层稀疏地图表示,以进一步利用矢量化地图元素的可扩展性,并基于这种表示设计了渐进解码机制和监督策略。ScalableMap在nuScenes数据集上取得了SOTA性能,尤其是在远程场景中,在实现18.3 FPS的同时,超过了以前最先进的模型6.5 mAP。
Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快
Stability AI官方博客显示,全新SVD支持文本到视频、图像到视频生成,并且还支持物体从单一视角到多视角的转化,也就是3D合成。虽然目前只发布了基础模型,但官方透露“正计划继续扩展,建立类似于Stable Diffusion的生态系统”。目前论文代码权重已上线。
为什么GNSSer要学习RTKLIB?
从高须知二先生2006年发布RTKLIB第一个版本开始,至今已17年,该开源代码可以说造福了无数的GNSS相关的研究者和初创公司。(https://www.rtklib.com/)
没有Ai Pin的时代,只有时代的AI
凭借特殊的可穿戴产品形态,以AI大模型作为核心驱动,加之前苹果高管下场带队,OpenAI创始人Sam Altman、微软、高通等投资背景,初创企业Humane首款硬件产品Ai Pin一鸣惊人,全球吸睛无数。
打破“硬件厂商”固有印象,HTC转舵探寻沉浸式XR生态
回看整个2023年,XR行业起伏较大,有人欢喜有人愁,但仍保持着稳步发展的趋势。不少XR硬件厂商积极推出新设备时,能明显看到技术上的进步,且大众对XR的基础认知也在走向成熟。
微软专利提出优化的空间环境3D映射更新方法
环境的3D映射是环境中的3D位置和与3D位置相关的捕获图像的集合。所述关联或者来自描述环境中3D位置的landmark的捕获图像,或者来自由具有环境中的3D位置和方向的捕获设备捕获的图像。绘制的环境是任何室内或室外环境,如家庭、办公室内部、花园、公共火车站或其他环境。
短波红外成像: 新时代的消费电子市场新机遇
随着短波红外(SWIR)技术在消费电子领域的新兴应用,我们正见证一个创新技术的崛起,它有潜力彻底改变我们与设备的互动方式。苹果公司在其最新的AirPods 3和iPhone 14 Pro中采用的SWIR单像素传感器,虽然仅用于基础感应,却为功能丰富的设备增添了一个全新维度。这一突破性的应用不仅展示了SWIR技术在实现更精准、更智能的传感方面的潜力,而且还预示着它在消费电子市场中的广阔前景。
噪声分析与图像传感器生产
最近看业内新闻,听说三星的图像传感器工厂购买了Keysight的噪声分析设备,用来测量分析sensor的1/f noise和Random Telegraph noise。以前没听说过Keysight这家公司,上网wiki了一下,原来就是大名鼎鼎的安捷伦,把信号测量设备部门分拆出来就成了现在的Keysight,中文名叫‘是德科技’。惠普(HP)是安捷伦的前身,在1999年把测试测量设备部门分拆命名为安捷伦。所以也就是惠普 --> 安捷伦--> Keysight。
元镜头 —— 手机相机的下一场革命
手机相机模组的小型化一直是个难题,受光学技术限制,手机相机模组很难做得更薄,所以现在的手机机身在相机的位置都会有不同程度的突起。
颠覆性语音识别:单词级时间戳和说话人分离
Vue Vben Admin 是一个免费开源的中后台模板,使用最新的 vue3、vite4 和 TypeScript 等主流技术进行开发。该项目提供了现成的中后台前端解决方案,并可用于学习参考。
联合语音识别与口音识别的解耦交互多任务学习网络
由西工大音频语音与语言处理研究组(ASLP@NPU)和腾讯TEG合作的论文“Decoupling and Interacting Multi-Task Learning Network for Joint Speech and Accent Recognition”发表在语音研究顶级期刊IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)。
https://arxiv.org/abs/2311.07062
开源语音大语言模型来了!阿里基于Qwen-Chat提出Qwen-Audio!
大型语言模型(LLMs)由于其良好的知识保留能力、复杂的推理和解决问题能力,在通用人工智能(AGI)领域取得了重大进展。然而,语言模型缺乏像人类一样感知非文本模态(如图像和音频)的能力。作为一种重要模态,语音提供了超越文本的多样且复杂的信号,如人声中的情感、语调和意图,自然声音中的火车汽笛、钟声和雷声,以及音乐中的旋律。使LLMs能够感知和理解丰富的音频信号以进行音频交互引起了广泛关注。
天琴实验室打造首支“全AI”歌手—AI力宏首支单曲《Letting Go》
10月26日,据媒体报道,华语乐坛首位官方授权的声音、视觉及衍生品均由AI生成的“全AI”歌手——AI力宏正式发行的首支单曲《Letting Go》发布,据悉,该单曲由腾讯音乐娱乐集团(TME)、宏声文化有限公司(王力宏工作室)联合打造,在QQ音乐正式上线,歌曲及视觉形象由TME旗下的天琴实验室、制作家工作室、MUX设计团队联合制作。
B站故障演练平台实践
在云原生的架构下,微服务的数量呈现爆炸式增长,服务间的调用关系错综复杂,对系统可靠性也提出了更高的要求。在这样的背景之下,混沌工程的关注度也不断提升。
2024年全球半导体市场走向预测
11月28日,世界半导体贸易统计组织(WSTS)公布其对半导体市场的最新预测。由于今年第二季度和第三季度的业绩略好于春季预测,WSTS对其预测进行了修订,预计2023年全球半导体市场将出现个位数的萎缩,萎缩幅度为9.4%。WSTS指出,受惠生成式AI普及、带动逻辑芯片需求急增,加上存储需求也呈现改善,因此全球半导体市场已在2023年下半年转趋复苏,2023年全球半导体销售额预估值自前次预估的5,150.95亿美元上修至5,201.26亿美元、将年减9.4%,将为4年来(2019年以来、大减12.0%)首度陷入萎缩。
3D NAND,如何发展?
增加3D(三维)NAND闪存密度的方法正在发生变化。这是因为支持传统高密度技术的基本技术预计将在不久的将来达到其极限。2025 年至 2030 年间,新的基础技术的引入和转化很可能会变得更加普遍。
传Vision Pro首批备货40万台,2024年目标100万台,第三年1000万台
据称Vision Pro首批备货40万台左右,2024年的销量目标是100万台,第三年达到1000万台
哔哩哔哩与华为达成合作,启动鸿蒙原生应用开发
在科技领域,合作与创新是推动进步的双引擎。近日,哔哩哔哩与华为在鸿蒙系统领域的全面合作,正是这一理念的最新体现。这一跨界合作不仅为哔哩哔哩带来了进入鸿蒙生态的机遇,也为华为开拓新的内容领域和技术创新提供了强有力的支持。在这个快速变化的数字时代,这次合作预示着双方将共同探索更多创新的可能性,为用户带来前所未有的智能体验。
AMD加码印度,开设最大全球设计中心
美国芯片制造商 AMD 周二在班加罗尔开设了其最大的全球设计中心,扩大其在印度的研究、开发和工程业务。该公司在一份新闻稿中表示,这个最先进的园区计划在未来几年容纳约 3,000 名 AMD 工程师,专注于半导体技术的设计和开发,包括 3D 堆叠、人工智能和机器学习。
从LiveVideoStackCon 2023深圳看音视频的未来
LiveVideoStackCon 2023深圳的第二天,大会结束之后,也意味着我们今年主要的活动都告一段落了。正好借这个机会简单总结下当下的多媒体生态,并展望下未来。
重磅首发|2024音视频技术发展报告(文末附下载)
11月24日,在LiveVideoStackCon 2023深圳站大会上,我们与腾讯云音视频联合首发《2024音视频技术发展报告》。报告通过300+音视频开发者调研,40+专家一线访谈,下沉8大细分技术领域进行全面解读,涵盖音视频编解码/AI编码/多媒体处理框架/媒体传输协议/超低延迟技术/虚拟现实/AIGC/出海等领域,深入洞察音视频技术现状和未来发展趋势。
▲点击“阅读原文”▲
跳转报告下载链接
相关文章:
音视频技术开发周刊 | 322
每周一期,纵览音视频技术领域的干货。 新闻投稿:contributelivevideostack.com。 超级AI不会主宰人类,但人工智能必须开源!LeCun最新采访引全网300万人围观 LeCun最新访谈视频中,再次坦露了自己对开源AI的看法。超级AI…...
面试就是这么简单,offer拿到手软(三)—— 常见中间件框架面试题,es,redis,dubbo,zookeeper kafka 等
面试就是这么简单,offer拿到手软(一)—— 常见非技术问题回答思路 面试就是这么简单,offer拿到手软(二)—— 常见65道非技术面试问题 面试就是这么简单,offer拿到手软(三ÿ…...
【Spring系列】DeferredResult异步处理
💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…...
使用晶振遇到的两个问题
并联电阻的问题 在一些方案中,晶振并联1MΩ电阻时,程序运行正常,而在没有1MΩ电阻的情况下,程序运行有滞后及无法运行现象发生。 原因分析: 在无源晶振应用方案中,两个外接电容能够微调晶振产生的时钟频率…...
手写promise A+、catch、finally、all、allsettled、any、race
目录 手写promise 同步版 1.Promise的构造方法接收一个executor(),在new Promise()时就立刻执行executor回调 2.executor()内部的异步任务被放入宏/微任务队列,等待执行 3.状态与结果的管理 状态只能变更一次 4.then()调用成功/失败回调 catch是…...
【原神游戏开发日志1】缘起
【原神游戏开发日志1】缘起 版权声明 本文为“优梦创客”原创文章,您可以自由转载,但必须加入完整的版权声明 文章内容不得删减、修改、演绎 相关学习资源见文末 大家好,最近看到原神在TGA上频频获奖,作为一个14年经验的游戏开…...
leetcode5 最长公共前缀三种python解法
14. 最长公共前缀 编写一个函数来查找字符串数组中的最长公共前缀。 如果不存在公共前缀,返回空字符串 ""。 示例 1: 输入:strs ["flower","flow","flight"] 输出:"fl"示…...
对小程序的初了解
WXML和HTML的区别 标签名称不同 HTML:div、a、span、img WXML:view、text、image、navigator 属性节点不同 <a href"#">超链接</a> <navigator url"/pages/home/home"></navigator> 提供了类似vue的…...
QLineEdit 的 InputMask掩码
QLineEdit 的 InputMask掩码 A:只能输入字母,且不可省略 a:只能输入字母,可以省略 N:只能输入 字母和数字,且不可省略 n:只能输入 字母和数字,可以省略 X:可以输入任意字…...
关于队列的简单理解
1.队列(Queue) 1.1 关于队列 队列 :只允许在一端进行插入数据操作,在另一端进行删除数据操作的特殊线性表, 队列具有先进先出 FIFO(First In First Out)的操作特性(队列是个接口); 入队列&#x…...
加密市场进入牛初阶段?一场新的造富效应即将拉开帷幕!
周一(12月4日),比特币一度上涨至42000美元,创下自2022年4月以来的最高水平。从目前比特币的走势来看,加密市场无疑已然进入到牛初阶段。 在牛市初期,确实存在人们不相信牛市到来的情况。由于在熊市中亏损的心理阻碍和对市场进一步…...
Superset基础入门
1 Superset概述 Apache Superset 是一个现代的数据探索和可视化平台。它功能强大且十分易用,可对接 各种数据源,包括很多现代的大数据分析引擎,拥有丰富的图表展示形式,并且支持自定义 仪表盘。 2 Superset安装 Superset 是由 P…...
【泛微ecology】将多个字段的数据合并到一个字段
doFieldSQL("select concat(concat(sqr,,),sy) as c from formtable_main_2 where requestid $requestid$ ")...
WebSocket入门介绍及编程实战
HTTP的限制 全双工和半双工: 全双工:全双工(Full Duplex)是允许数据在两个方向上同时传输。 半双工:半双工(Half Duplex)是允许数据在两个方向上传输,但是同一个时间段内只允许一个…...
vue3里面生命周期的使用
前言: vue2里面的生命周期和vue3生命周期是非常的相似的,我们通过访问生命周期钩子来处理不同场景之间的应用。 生命周期钩子的函数定义:每一个Vue组件实例在创建时都需要经历一系列的初始化步骤,比如数据侦听,编译模…...
在python的Scikit-learn库中,可以使用train_test_split函数来划分训练集和测试集。
文章目录 一、在Scikit-learn库中,可以使用train_test_split函数来划分训练集和测试集总结 一、在Scikit-learn库中,可以使用train_test_split函数来划分训练集和测试集 在Scikit-learn库中,可以使用train_test_split函数来划分训练集和测试…...
外包干了2个月,技术明显退步了...
先说一下自己的情况,大专生,19年通过校招进入广州某软件公司,干了接近5年的功能测试,今年11月份,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测…...
数据结构:链表应用:第9关:删除链表中满足区间值的结点
任务描述编程要求 输入输出测试说明来源 任务描述 本关任务:利用单链表表示一个递增的整数序列,删除链表中值大于等于mink且小于等于maxk的所有元素(mink和maxk是给定的两个参数,其值可以和表中的元素相同,也可以不同…...
了解 ignore_above 参数对 Elasticsearch 中磁盘使用的影响
在 Elasticsearch 中,ignore_above 参数允许你忽略(而不是索引)长于指定长度的字符串。 这对于限制字段的大小以避免性能问题很有用。 在本文中,我们将探讨 “ignore_above” 参数如何影响 Elasticsearch 中字段的大小,…...
C#中的async/await异步编程模型
前言 当谈到异步编程时,C#中的async/await是一个强大且方便的工具。它使得编写并发和异步操作变得更加简单和可读,同时提供良好的可维护性。本文将详细解释async/await的使用,以及如何在C#中有效地利用它来实现异步操作。 目录 前言1. async…...
【原创】提升MybatisPlus分页便捷性,制作一个属于自己的分页插件,让代码更加优雅
前言 MybatisPlus的分页插件有一点非常不好,就是要传入一个IPage,别看这个IPage没什么大不了的,最多多写一两行代码,可这带来一个问题,即使用xml的查询没法直接取对象里面变量的值了,得Param指定xml中的变…...
pythonselenium自动化测试实战项目
说明:本项目采用流程控制思想,未引用unittest&pytest等单元测试框架 一.项目介绍 目的 测试某官方网站登录功能模块可以正常使用 用例 1.输入格式正确的用户名和正确的密码,验证是否登录成功; 2.输入格式正确的用户名和不…...
智能优化算法应用:基于瞬态优化算法无线传感器网络(WSN)覆盖优化 - 附代码
智能优化算法应用:基于瞬态优化算法无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于瞬态优化算法无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.瞬态优化算法4.实验参数设定5.算法结果6.参考…...
springMVC 三大组件解析
springMVC组件概述 DispatcherServlet(调度器Servlet): DispatcherServlet 是 Spring MVC 的前端控制器(Front Controller)。它负责接收来自客户端的请求,然后将请求分发给相应的处理器(Control…...
聊聊nginx的keepalive_time参数
序 本文主要研究一下nginx的keepalive_time参数 keepalive_time Syntax: keepalive_time time; Default: keepalive_time 1h; Context: http, server, location This directive appeared in version 1.19.10.nginx的1.19.10版本新增了keepalive_time参数,用于限…...
沐风老师3DMAX键盘球建模方法详解
3DMAX键盘球建模教程 本教程给大家分享一个3dMax键盘球的建模方法过程。在学习本教程之前,大家需要对3dMax基本操作及建模知识有所掌握,还是那句话:做实例的前提是选学习基础知识和掌握3dMax的基本操作。 下面就给大家一步一步讲解演示3dMax…...
算法通关村第一关—白银挑战—链表高频面试算法题—查找两个链表的第一个公共子节点
文章目录 查找两个链表的第一个公共子节点(1)暴力求解法(2)使用哈希Hash⭐(3)使用集合⭐ - 与Hash类似(4)使用栈⭐(5)仍有更多方法,作者尚未理解&…...
C/C++ 发送与接收HTTP/S请求
HTTP(Hypertext Transfer Protocol)是一种用于传输超文本的协议。它是一种无状态的、应用层的协议,用于在计算机之间传输超文本文档,通常在 Web 浏览器和 Web 服务器之间进行数据通信。HTTP 是由互联网工程任务组(IETF…...
【算法集训】基础数据结构:一、顺序表(下)
由于今天的题目是昨天剩下的,所以只有两道题,也非常简单,刷完下班~~~嘿嘿 第六题 2656. K 个元素的最大和 https://leetcode.cn/problems/maximum-sum-with-exactly-k-elements/description/ 很简单的思路,要得到得分最大的&…...
[Java][项目][战斗逻辑]基于JFrame的文字游戏
项目注解: Core:启动文件 AttributeBean:玩家属性 BackpackedBean:背包设计(未完成) BackpackedFrame:背包页面(未完成) BattleField:战斗逻辑(核心&…...
wordpress 获取分类文章/长沙网站seo分析
首先从 左侧的折叠菜单 开始。看图。 2. CSS 代码 以下是自定义的css代码,由于系统是内部使用,所以优先考虑chrome,firefox 不考虑IE了。 #main-nav {margin-left: 1px;}#main-nav.nav-tabs.nav-stacked > li > a { padding: 10px 8px; font-size:…...
永久免费的网站/电商具体是做什么的
原创作者:HackLiu 000 前言 如果你家里有多台设备需要联网需要娱乐,你一定会或多或少遇到设备碎片化带来的烦恼。当然,已经有很多厂商包括新晋的小米、360在内的互联网公司做了这个事情,给你搞个家庭存储中心&a…...
济南网站制作推广/百度seo查询
苏生不惑第249篇原创文章,将本公众号设为星标,第一时间看最新文章。之前分享过如何有效的维权,这些投诉平台你可能用得上 ,今天分享几个实用的政府网站,先收藏起来,万一哪天能用上。中国法律服务网一个终极…...
wordpress 单核 并发/seo观察网
关注“Java技术迷”升职加薪不脱发!作者 | 臣不贰_NotoChen来源 | CSDNPageHelper一. 开发准备1. 开发工具IntelliJ IDEA 2020.2.32. 开发环境Red Hat Open JDK 8u256Apache Maven 3.6.33. 开发依赖SpringBoot<dependency><groupId>org.springframework…...
如何在网站做投票/云搜索系统
每篇文章我们都先抛出自己的疑问,然后随着阅读的深入,我们可以逐一解答这些问题 问题抛出: 1.JDK,JRE,JVM区别? JDK:总共分为三部分,java程序设计语言,Java虚拟机,Java API类库,JD…...