Minimax到达顶部,许多初创公司都筹集了资金。
作者:365bet体育投注日期:2025/06/08 浏览:
资料来源:Chuangyebang的作者丨Zhang Kairan编辑丨Yin Guanxiao图片来源丨MidJourneyin 2月,我们选择了著名电影和电视剧《 Zhen Huan的传奇》中的片段来测试4 AI语音综合模型在情感表达中的表现。当时的结论是,AI语音模型的表达仍然不够,仍然需要加强。此后不久,4月12日,Minimax推出了最新版本的演讲生成模型Speech-02。 5月15日,模型系列中的Speech-02-HD还带领两个关键清单,人工评论,对舞台进行了人工评论,并拥抱了Face TTS竞技场。在技术指标方面,Speech-02-HD不仅会导致竞争对手达到了客观指标,例如错字率和声音相似性,而且在Thosessubibnibexive盲目的聆听试验中也取得了良好的结果。此外,自上次注意到以来,在AI语音轨道上,许多产品已经启动。例如,3月11日,加利福尼亚Rtesia完成了6400万美元的AI轮融资; 3月29日,休ume AI完成了5000万美元的融资。除了急于筹集资金的初创公司外,主要制造商还彼此结束。 Inilunsad ng Amazon Ang Nova Sonic,Isinama rin ng Google ang isang malakas na Modelo ng boses sa veo3。根据行的实际线路,VOO3语音功能令人惊讶。随着技术的年龄较大,AI声音开始更快,更深入地穿透不同的应用情况。因此,在此时,为了在某些情况下测试当前的语音模型性能,我们选择了三个场景托特的代表正在如火如荼地进行,包括实时流媒体,语音集成,音频书籍以及TTS实现场景的三位代表。根据模型列表,读者的建议等,测试了5种语音模型,以及由Minimax推出的Speech-02-HD,由阿里巴巴推出的Cosyvoice2,Alibaba启动,配音X,Hangzhou Zhisheng Yuehe由模型以及Elevenlabs和芝麻开发,进行另一项测试。测试方法:根据最终测试,我们在实施三种AI声音的实施中扩展了特定情况,包括实时流媒体,语音集成和音频书籍,以便AI可以为三种情况,情感AI通信能力的基本试验和适应能力产生音频。在开发测试声音时,一组将能够根据预设的情感(11 -is -isthis -this -this -this and芝麻模型,都不情感标签)集中精力。 SenseVoice可以识别语音情绪,该情感被用作试验测试的标准|图像来源:ModelsCope开发了测试音频后,它将首先使用阿里巴巴启动的开源语音模型。 SenseVoice(在MODG中使用Elscope在平台上)用于测试目的,如果符合预设,则输出将传递。然后,邀请了来自社论部门的五个同事进行主观测试。 ReviEWER为AI性能得分1-5分。如果平均值超过3,则被认为是通过的。注1:在测试产品(型号)中,Minimax,Dubbingx,11和芝麻均通过其官方网站表格审判声音。由于阿里巴巴的Cosyvoice2是一种开放的资源模型,因此Ginagagait是连接到Cosyvoice2的第三方平台“ Shumeng”。注2:由于这两种模型在中文场景中的表现较差,因此在预测试中,我们在音频书籍场景中设计了英语测试,以专门测试这两种产品的性能。中文有声读物:配音垂直产品dubbingx更好地执行。最后测试了“ Zhen Huan的传奇”,每个模型在“快乐”状态下表现良好,在两种“愤怒和悲伤”的情绪中非常困难。因此,在音频书中对场景的测试中,我们使用了两个知名的水边缘场景,“林的富根庙”和“ Wu Song哭泣的兄弟”以音频书的形式重写它们来测试分别在“愤怒”和“悲伤”情绪中的每个AI模型的表现。愤怒测试的内容:Gao Yanei! Myou是一个bully!即使我,林郑,也不是像你这样的pambuly!我允许你三分,我尊重你的力量;如果您急于破坏我的无辜并伤害了我的生命,我将与您战斗!悲伤的情绪测试内容:兄弟!你死了很多!您吞咽了愤怒,一生都遭受了痛苦,但最终被杀害,甚至没有理性的地方!我的歌曲肯定会报仇我的兄弟!注意:标记为红色的标记是模型。根据测试,这三种产品通过了客观测试。在主观测试中,仅CosyVoice2的平均得分少于三分。从两种模型的Conch和Dubbingx的性能来看,人们认为它比最终测试要好得多。这两种模型均可通过一层恢复Lin Chong的愤怒层。虽然仍然存在差距真正的人,应该达到“福利”的目的。读者还可以自己聆听许多产品的性能以配合它们。在悲伤的场景中,五月 - 塞特(May set)在他哥哥的坟墓面前选择了吴宋的供词。在情感方面,上半场往往会感到悲伤,下半部分是悲伤的 +愤怒,这被认为是复合情绪的片段。但是在这个剪辑中,只有dubbingx才能在这种情况下达到通过的水平,而在以前一直表现的minimax从未通过客观测试。 dubbingx可以很好地表现,也许是由于深刻的情感优化。其他产品的情感标签不仅仅是幸福,悲伤和愤怒等情绪的差异。 Dubbingx也适用于大型情绪类别下的各种小情况。情感标签,专门针对复合情绪场景。在这些情况下,杜宾X会显然发挥作用。英文有声读物:通过简单的设置,全军被淘汰。在英语场景中,我们在“蒙特克里斯托伯爵”中选择了一个独白。主角很生气,想在得知自己的框架和监禁后要报仇。 “第四年 - 被困在那个地牢中,冻结,饥饿,被遗忘。我在黑暗中低声说出你的名字,梅赛德斯。我要求正义。在英语有声读物的场景中,三个模型执行了一个小的Maalso,它们都没有表现出强烈的愤怒和动力。这三个产品中的任何一个都没有通过主观测试的三点传球线。此外,由于Elevenlabs或芝麻的官方网站都没有“情感标签”,因此AI输出更糟,并且尚未通过客观测试。在工程设计中,只有11个可以通过一些“滑块”来调整速度,稳定性,均匀性,样式和其他相对抽象的声音参数。尽管这些参数可以优化SOU的情感表达在一定程度上,它们的数量无法调整,从而导致了我们试验中11个表现相对较差。 May使用ElevenLabs设置了YouTuber,以广播Audiobook的音频。在专业Tagalikha的手法上,最好在英语有声读物场景中表演。实时流销销售:情感交流的通过,场景适应不良的销售场景:“姐妹,这个瓶子真的关闭了!现在,直播室直接购买了最低的价格,只有39元可以用来正式磨损!在实时流式销售中!在现场流式销售中,所有三个模型都通过了客观的测试,但是他们都通过了“情感”来实现“情绪”。没有显示现场直播锚的节奏和节奏。d。 AI集成场景:性能是平均值。 “ Alam Kong Nalunungkot ka ngayon。 Mawala,Tulad ng Madilim na ulap ay kalaunan ay mawala,Ang araw ay sumisikat sa iyong buhay。在AI集成的最后一幕中,即使他们仍然有AI感受,这三个AI模型的表现也更好。但是它可以传达热和积极的情绪并适应现场,因此许多法官都取得了很大的印记。与最终测试相比,TOC仍然缺乏供应,TOB开始爆炸。五月的认为,经过几个月的发展,AI的声音“情感交流方面有很小的发展,但没有多Muanti”。那些可以获得通过或以上的人实际上是带有单一情绪和gi的测试剪辑正确的情感标签被认为是一个“简单的问题,开放式考试”。当遇到复杂的情况时,简单的情感标签无法覆盖,或者直播销售(例如强烈的情感表达)只能发展声音声音的声音的声音,AI仍然无法做到。中文)。-标记情感和人工智能表现更糟。当将AI语音API调用实际产品设计时,如何确保输出语音情感?注意:在这里我们使用11个示例。其他产品相似|白鲸出国生产,但是在实际应用中,如果您希望AI声音适应实际情况,则开发人员将需要进行更多的工程优化。因此,作者咨询了AI集成领域的实用线。他说,当产品连接到API时,开发人员将为许多传统情绪提交预设的声音。用户输入后,该算法将首先DE终止用户的情感输入,我将处于相应的情绪中,将其转换为参数,最后在API平台上恢复“ BO Typesses +情感参数”,并将它们与预设结合以生成正确的语音,以确保输出语音尽可能满足。注意:此表仅涉及许多AI语音产品正式宣布的技术合作。在TOB领域,AI的语音生成技术在上面的视频中显示的不同AI -Bota Maya语音助手中广泛存在。
相关文章