怎么用网网站模板做网站/seo技术快速网站排名
文 | 智能相对论
作者 | 陈泊丞
这是春晚舞台西安分会场《山河诗长安》的一幕:“李白”现世,带领观众齐颂《将进酒》,将中国人骨子里的豪情与浪漫演绎得淋漓尽致。
这又是浙江义乌商品市场里的另一幕:只会说几个英文单词的女老板秒变外语达人,无缝切换36国语言流畅介绍自家商品,疯狂带货。
这一幕幕不可思议的画面,成就了今天中国文化、商业的频频出圈。而一切的背后,都有着相同的支持:AI技术赋能数字内容生产和应用。
近年来,随着AI大模型技术的持续升级与赋能,数字内容生产与应用的趋势愈发强烈,现实场景与数字内容不断融合,悄然改变着整个内容创作行业的格局,甚至进一步推动了相关产业和商业的新变革。
技术创新重塑数字内容生产与应用新范式
数字人“李白”的精彩演绎、义乌女老板的AI带货——这些热门事件的背后,是技术创新突破所带来的结果。AI大模型的成熟应用,让越来越多不同形式的数字内容得以爆发,并广泛进入大众视野。
在6月21日举办的华为开发者大会(HDC 2024)上,华为云盘古大模型迎来5.0版本升级,其中盘古媒体大模型在语音生成、视频生成以及AI翻译上的技术创新就重塑了数字内容生产和应用的新范式。
对比过去的技术能力,新的技术所带来的效果是非常显著的。
一、语音生成进阶:只需三言两语,沉浸式、真实感的语音易如反掌
过去的语音生成依赖传统的声音克隆模型,由于模型比较小,精度低等原因,往往在实际操作上就要复杂得多。比如,在数据收集阶段,对目标人物的语音数据就要尽可能的多样化,包括不同的语速、语调、音量以及不同语境下的语音,需用到几百句话的录音。
然后到了预处理阶段,需要对收集到的语音数据进行清洗,通过人工标注等形式去除噪声、静音片段和其他不需要的部分。进而还要进行语音分割,将连续的语音信号切割成较小的语音片段(如音素或单词)。最后提取音频特征,再用于后续的声音建模。
以上,还只是数据收集和预处理,尚未进入真正的语音生成阶段。但其中的工作量和操作复杂度就已经很大了,对语音生成的效率和质量都是一个非常大的影响和挑战。
时至今日,随着技术的创新,基于更先进的模型,比如盘古媒体大模型的语音生成能力,这一问题得到了很好的解决。只需要几句话、几秒钟的声音,AI即可学习到个性化的音色、语调、表达韵律,从而获得高质量的个性化语音。同时,还支持喜怒哀乐等拟人情感语音,闲聊、新闻、直播等10多种语气风格,让生成的语音更真实、更有情感色彩,能沉浸式地应用到不同场景中。
比如,在视频译制中,AI将能做到配音演员的专业程度——通过盘古媒体大模型提供的视频翻译能力,AI可以把视频翻译为目标语言,并保留原始角色的音色、情感、语气。华为云也在积极联合伙伴逻辑智能,打造高感情语音克隆以及14国小语种配音,共同构建高感情超拟人多模态音频应用能力等。同时,再结合盘古媒体大模型的口型驱动模型,还可以实现音唇同步,尤其是在侧面、多人对话、物体遮挡以及人物移动等场景,也能做到很好的口型匹配。
二、视频生成跨越:只需几十张图,可控的、一致的视频唾手可得
传统的视频生成技术在资源需求、数据集、时序一致性、物理定律遵守、效率与质量平衡、可控性、逼真度和连贯性以及应用限制等方面都存在一定的局限性。如今,基于盘古媒体大模型,只需要训练几十张特定美学风格的图片,如吉卜利、二次元等风格,再输入实拍视频即可快速生成该风格的动漫视频。
除了按需时长生成稳定的动漫视频,再通过ID一致性模型,还能对生成画面中的关键角色进行一致性处理,确保视频中角色样貌特征在前一帧和后一帧中所呈现的效果始终一致,在侧脸、运动轨迹下的视觉效果合理一致,由此增强AI视频生成的可控性、一致性,让视频内容更合理、真实。
此外,业内对视频生成的真实度、复杂度也在聚焦增强。比如,OpenAI的Sora正在试图模拟复杂的摄像机运镜,同时准确地保持角色和视觉风格一致,让AI创作的数字内容更加趋于现实创作。英伟达更是发布了一系列技术套件如ACE(NVIDIA Avatar Cloud Engine)、NeMo™以及RTX™等,去增强数字内容的真实感,让数字人物的互动、对话更加复杂、逼真。
三、AI翻译强化:准确性>93%,实时的、跨语言沟通指日可待
过去的机器翻译系统往往是基于统计模型或规则模型构建的,因此翻译结果大多无法与原文一致,显得生硬、不自然,并不具备应用到不同场景的条件。现如今,华为云通过AI实现多语种实时传译,准确性>93%,可应用于实时通话、云会议等需要实时翻译场景。
同时,基于盘古媒体大模型的语音复刻、AI文字翻译以及TTS技术,便可以实现语音的同声传译,成功实现跨语言母语沟通体验。甚至还可以结合数字人技术,让数字人来模拟用户说话,结合口型模型技术做到口型与声音精准匹配,让AI翻译、数字人与语音生成高度结合用于线上开会、跨国贸易交流等场景中。
技术的“瓶颈”在收缩?
技术的创新和突破带来了数字内容生产和应用的爆发,但另一方面随着生产和应用的进程加速,相应的技术瓶颈也在出现,并不断收缩、聚焦。目前,AI大模型在数字内容生产和应用上的问题主要呈现在三个层面。
其一,能源与计算效率瓶颈。当前,大模型训练的算力当量还在进一步增大,从GPT-3到GPT-4算力当量增长了68倍。随着训练的token数、模型参数增加,大模型训练所需的计算量也需要随之增加。
更重要的是,其背后的成本投入是难以为继的。根据计算,训练一个5000亿参数规模的Dense模型,基础算力设施投入约10亿美金,无故障运行21个月,电费约5.3亿元——这远远超出了企业的承受范围。
但是,如果想要规模化地生产高质量的数字内容,大模型的精进又是必要的路径。在这个阶段,业内开始寻求更高效、更优的算力解决方案。像华为云昇腾AI云服务就在致力于提供方便、好用的算力服务,在算力层面不断革新计算能力和计算效率,提供从云化算力、模型开发、模型托管到生态的全栈服务。
其二,算法架构的优化挑战。随着大模型参数的增加,想要实现更好的计算结果和输出更优的答案,那么其处理的时长就会不断延长的。但是,这在实际应用中是一个困扰数字内容生产和应用的显著问题,非常不利于数字内容的规模化、商业化发展。
由此,业内也开始在算法架构上进行优化,调整计算逻辑、处理方法来实现更优效果。其中,以稀疏激活机制为代表的MoE模型就是目前AI行业的一个焦点,类似于“术业有专攻”的理念,稀疏激活机制通过对数据任务进行拆解,分门别类,再分配给特定的“专家”(Experts)进行处理,最终综合加权输出——不仅实现了计算效率优化,也让输出结果更加全面、强大。
其三,安全与伦理问题。大模型内部运行机制复杂,生产出来的内容欠缺可解释性和可控性,又易受对抗样本攻击,存在监管难题和安全漏洞。对此,在数字内容生产和应用中,相关的安全和伦理问题随着行业的广泛发展而日趋突显。
因此,在数字内容行业高速发展的阶段,尽管企业能吃上数字内容的红利,但也需要鉴别模型的安全性、可靠性,避免因模型的安全和伦理问题而引发负面舆论影响。在这样的挑战下,华为云盘古大模型也随即作出升级,在数据治理、安全合规等方面达到了较高标准。
以技术“造梦”,数字内容未来可期
新范式的明确带来更明确的技术方向,对于整个数字内容行业而言,这意味着未来的发展已经有了基础的雏形,前景仍是乐观的。但是,不可忽视的是,技术的瓶颈客观存在,且更加突出,摆在行业面前的依旧是一条较为严峻的发展之路。
尽管抛开技术瓶颈不谈,在具体的实践中,数字内容的生产和应用也不简单,往往都需要面对很多在技术之外的具像化问题,只有基于问题去一步步解决才能最终完成落地。
华为云团队在进行纪录片译制时就发现,项目实际开展起来会遇到各种各样的问题,比如环境声音太杂太乱,AI无法准确识别人声保证音译的完整度,或是随着场景的切换,人物的状态、口型都呈现出不同的样子,需要AI精准地匹配等等。
如果这些问题不一一解决,AI译制的效果就打了个大大的折扣。对此,华为云团队通过精准分析问题,采用不同的技术去解决各类细微问题,比如通过分离模型技术让环境声和人声分开,通过口型模型技术让声音与口型精准匹配等。
技术或许一直都有,但是如何用恰恰才是项目落地的关键。换句话说,在今天数字内容行业高速发展、技术创新加速迭代的阶段,只有实践了才能真正推动行业的发展。这是一个比拼项目的阶段,谁家的项目经验越丰富,越能知道相关的技术应该如何应用才能发挥出应有的效果。
目前,中影集团与华为云合作,将媒体大模型应用到影视工业,共同打造影视译制大模型,通过AI将视频译制成不同语言,并保留原始角色的音色、情感、语气,还能支持口型匹配,为影片译制提供全新的AI制作方式。
今天,数字内容迎来迸发,越来越多精彩内容面世的另一面恰恰是厂商们不断运用技术、验证技术、完善技术的过程。未来的项目之路任重而道远,同时也是行业走向成熟的必经之路。静待技术在创新中、实践中持续升级、完善,未来便更快能看到一个数字内容精彩纷呈,如同梦境一般的世界。
*本文图片均来源于网络
此内容为【智能相对论】原创,
仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。
部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。
•AI产业新媒体;
•澎湃新闻科技榜单月度top5;
•文章长期“霸占”钛媒体热门文章排行榜TOP10;
•著有《人工智能 十万个为什么》
•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。
相关文章:

数字内容“遍地开花”,AI技术如何创新“造梦”?
文 | 智能相对论 作者 | 陈泊丞 这是春晚舞台西安分会场《山河诗长安》的一幕:“李白”现世,带领观众齐颂《将进酒》,将中国人骨子里的豪情与浪漫演绎得淋漓尽致。 这又是浙江义乌商品市场里的另一幕:只会说几个英文单词的女老板…...

MySQL集群如何实现读写分离
数据源配置:定义了主从数据库的连接池。读写分离规则:通过MasterSlaveRuleConfiguration定义了主从数据库的读写分离规则。负载均衡算法:定义了从数据库的负载均衡算法。创建ShardingDataSource:使用数据源和读写分离规则创建了Sh…...

一分钟剪辑1000条视频的云微客矩阵,怎么做到的?
当我们打开短视频软件时,就会有大量风格迥异的短视频犹如潮水般涌现在我们面前,这些短视频不仅配置了加粗的标题,下方还配置了字幕,中间则播放着视频,就是这样简易的视频,往往总能获得较高的播放量…...

简单案例比较Lambda和方法引用的差别
1.打印列表元素 正常使用 List<String> list Arrays.asList("a", "b", "c");for (String str: list){System.out.println(str);}Lambda表达式 list.forEach(e -> System.out.println(e));方法引用 list.forEach(System.out::println…...

10 个最佳 AI 代码生成器
人工智能的兴起极大地影响了编码和开发领域。 人工智能驱动的代码生成器有助于简化编码流程、自动化日常任务,甚至预测和建议代码片段。 下面,我们介绍一些最好的人工智能代码生成器、它们的独特功能,以及它们如何彻底改变您的编程体验。 1.…...

Eureka服务发现机制解析:服务实例的唯一标识
引言 Eureka是Netflix开源的服务发现框架,它是Spring Cloud体系中的核心组件之一。在微服务架构中,服务实例的动态注册与发现是实现服务间解耦和通信的关键。Eureka通过提供服务注册中心,使得各微服务实例能够注册自己并发现其他服务实例。本…...

操作系统实训复习笔记(基于命名管道与信号的进程间通信)
目录 基于命名管道与信号的进程间通信 第1关:命名管道与信号IPC操作考查 基于命名管道与信号的进程间通信 第1关:命名管道与信号IPC操作考查 (没啥好说的,不会的操作系统考试就靠记呗!!) slee…...

数字化转型第三步:数字化业务创新与发展,提升收入和利润
引言:之前笔者的文章发布了企业数字化转型业务部分,如【开源节流】如何通过数字化转型增强盈利能力?企业供应链数字化转型如何做?让企业盈利能力增强再飞一会 【财务数字化转型之底座】集团企业财务数据中台系统建设方案 等文章&a…...

SSM爱心捐赠物资维护系统-计算机毕业设计源码09536
摘要 随着信息技术的快速发展,计算机应用已经进入成千上万的家庭。随着物资数量的增加,物资库存管理也存在许多问题。物资数据的处理量正在迅速增加,原来的手工管理模式不适合这种形式。使用计算机可以完成数据收集、处理和分析,减…...

中国9大流域地图SHP数据
九大流域片区是指中国境内九个主要流域片区。 分别包括东南诸河区、内陆河区、松辽河流区、海河流域区、淮河流域区、珠江流域片、西南诸河片、长江流域片和黄河流域片等。 如果这九大流域数据对你有用,请在文末查看该数据的领取方法。 中国9大流域图 流域&…...

android Switch/case with R.id.XXXX in android doesn‘t work 错误: 需要常量表达式解决方案
出现需要常量表达式 R.id.xxx 表达式错误的处理方法 出现的原因是因为: 使用 Android Gradle 插件 8.0.0 时,默认情况下,您的所有 R 类资源都不再声明为 final/constant(因此在 switch 语句中不起作用)。 如果您在 Android Studi…...

vue3-openlayers marker 光晕扩散(光环扩散)(postrender 事件和 render 方法)
本篇介绍一下使用 vue3-openlayers marker 光晕扩散(光环扩散)(postrender 事件和 render 方法) 1 需求 marker 光晕扩散(光环扩散) 2 分析 marker 光晕扩散(光环扩散)使用 post…...

新型防勒索病毒方案分享无需依靠病毒库
MCK具备可信系统,数据库保护,场景白名单,文件保护四大功能。如何运用在防勒索病毒中 在防勒索病毒的问题上,MCK主机的加固功能显得尤为重要。MCK的四大功能——可信系统、数据库保护、场景白名单以及文件保护,为我们在…...

《Mybatis-Plus》系列文章目录
什么是 MyBatis-Plus? Mybatis-Plus是一个在MyBatis基础上进行增强和扩展的开源Java持久层框架。 Mybatis-Plus(简称MP)旨在简化开发、提高效率,通过提供一系列便捷的功能和工具,大幅度减少开发人员编写重复代码的时…...

在Matplotlib中,`xlim()` 函数用于设置x轴的显示范围,原因和作用如下:
在Matplotlib中,xlim() 函数用于设置x轴的显示范围,原因和作用如下: 1. **控制显示范围**: xlim() 允许用户指定x轴的最小值和最大值,从而控制图表显示的数据范围。 2. **改善可视化**: 通过设置x轴的范围…...

win7使用vue-cli创建vue3工程
1.创建名为test的项目 vue create test 回车以后选择第三个,进行手动选择 2.选择配置 向下箭头表示下一个,空格表示*选中,按照我的选择来选即可,选完后回车 3.选择vue.js版本 上线箭头进行选择,选择后回车 4.选择不同的配置&#…...

为何云原生是未来?企业IT架构的颠覆与重构
🐇明明跟你说过:个人主页 🏅个人专栏:《未来已来:云原生之旅》🏅 🔖行路有良友,便是天堂🔖 目录 一、引言 1、什么是云原生 2、云原生的背景和起源 背景 起源 关…...

构建家庭NAS之三:在TrueNAS SCALE上安装qBittorrent
本系列文章索引: 构建家庭NAS之一:用途和软硬件选型 构建家庭NAS之二:TrueNAS Scale规划、安装与配置 构建家庭NAS之三:在TrueNAS SCALE上安装qBittorrent 大部分家庭NAS用户应该都会装一个下载工具。本篇以qBittorrent为例&…...

Matplotlib中文显示解决方案:字体渲染机制与font.sans-serif设置
在Matplotlib中,设置font.sans-serif参数为中文字体如SimHei,可以使图表支持中文显示的原因在于Matplotlib的字体渲染机制。以下是详细解释: 1. **字体支持**: Matplotlib默认使用的字体可能不支持中文字符。大多数西方字体只包含…...

docker +tmux 远程本地gdb调试
文章目录 远程调试docker pull失败docker上容器运行程序失败宿主机远程调试docker中运行的程序环境准备调试步骤 本地调试bugpwngdbtmuxTmux复制粘贴到其他地方pwngdb和tmux优化~~感觉用了大佬的镜像后宿主机来做pwn题都不香了~~ 远程调试 但目前不知道如何实现可以边跟着脚本…...

计算机视觉全系列实战教程 (十三):图像形态学操作
1.基本概述 (1)What 图像的形态学操作的本质:集合间的运算 几何学 (2)Why(有什么用途) 消除噪声、边缘提取、区域填充、细化和粗化、分割独立的图像元素、求图像梯度、求极大值区域或极小值区域等。 (3)Which(有哪些常见的形态学操作) A.膨胀 使得…...

python的 pyside2 安装
pip install pyside2 pip install pyqt5-tools pycharm 在pychar 的Main Menu--setings--tool--External-tools 点击 新增自定义工具 1)自定义 QtDesigner 目的:用于生成.ui文件Name :QtDesigner Group :Qt Program &a…...

R语言——数据与运算
练习基本运算: v <- c(2,4,6,9)t <- c(1,4,7,9)print(v>t)print(v < t)print(v t)print(v!t)print(v>t)print(v<t) v <- c(3,1,TRUE,23i)t <- c(4,1,FALSE,23i)print(v&t)print(v|t)print(!v)v <- c(3,0,TRUE,22i)t <- c(1,3,T…...

非强化学习的对齐方法
在文章《LLM对齐“3H原则”》和《深入理解RLHF技术》中,我们介绍了大语言模型与人类对齐的“3H原则”,以及基于人类反馈的强化学习方法(RLHF),本文将继续介绍另外一种非强化学习的对齐方法:直接偏好优化&am…...

写一个坏越的个人天地(三)
昨天卡巴卡巴还是投出了学习代码以来的第一份简历,遇到好的岗位还是想争取下的吧,虽然我觉得大概率还是gg了。 昨天完成了首页的上半部分 下半部分我的构思是左右栏,左侧为菜单栏,右侧为业务栏,左侧调整右侧router进行切换内容 可以用来展示js css的小demo 稍微调整下ro…...

【学习笔记】CSS
CSS 1、 基础篇 1.1、选择器 1.2、长度单位 1.3、CSS2 常用属性 1.4、盒模型 1.5、浮动 1.6、定位 position2、 CSS3 2.1、新增长度单位 2.2、新增颜色表示 2.3、新增选择器 2.4、新增盒子属性 2.5、新增背景属性 …...

与亚马逊云科技深度合作,再获WAPP、ISV认证
上半年,VERYCLOUD睿鸿股份加入亚马逊云科技的WAPP(Well-Architected Partner Programs)和ISV加速计划(ISV Accelerate Program),为客户带来更坚实优质的海外云服务。 Well-Architected 获得WAPP这项认证代表…...

idea 如何查看项目启动的端口号
方式一:查看Run/Debug Configurations: 打开IntelliJ IDEA,点击菜单栏的Run,然后选择Edit Configurations...,或者直接使用快捷键(通常是Shift Alt F10然后选择Edit Configurations)。 在打开的Run/Debug…...

年薪超过30万的网工,需要具备什么技能?
网工是一个各行各业都需要的职业,工作内容属性决定了它不会只在某一方面专精,需要掌握网络维护、设计、部署、运维、网络安全等技能。 那么,网络工程师的技术水平体现在哪些方面?今天就跟你唠唠这个。 01 先来测测你的网络设计能力…...

【杂记-浅谈OSPF协议中的邻居关系与邻接关系】
OSPF协议中的邻居关系与邻接关系 1、邻居关系2、邻接关系3、DR-other之间的邻居关系 在OSPF协议中,Neighbor relationship 邻居关系和Adjacency 邻接关系是两个核心概念,它们在路由器之间建立正确的路由信息传递机制方面起着关键作用。 1、邻居关系 邻…...