趣丸网络张人勇:AI克隆人声,只需3秒样本

南方财经全媒体集团  
吴佳霖   2024-11-21 13:50:47

南方财经全媒体记者吴佳霖广州报道

“Mask GCT语音大模型能够实现秒级超逼真的声音克隆,只要对模型输入3秒左右的声音样本,就可以做到带情绪、复刻音色的声音输出。”广州趣丸网络科技有限公司的投资部负责人张人勇在2024年粤港澳大湾区文化产业投资大会(广东·广州)上如此介绍自己的公司产品。

据介绍,这家超60%的人员都在做研发的“硬核”公司,产学研结合,与香港科技大学广州分校以及香港中文大学分别联合创办趣丸科技两个人工智能的联合实验室,旗下Mask GCT大模型采集了10万小时数据集,以刷新多项业内指标的优秀成绩通过了3个数据集的测试。不久前的10月24日,趣丸科技宣布与香港中文大学(深圳)联合研发的语音大模型“Mask GCT”正式在Amphion系统中开源,面向全球用户开放使用。

“趣丸科技不是做通用大模型的,做这些模型都是源于我们在业务发展中捕捉到的用户和行业的需求。我们做的这些大模型未来也是希望应用在数字人、三维生成、智能音频和音乐生成当中。”目前,趣丸正在做积极的商业化探索。

虽然拥有非常“硬”的技术,但趣丸正在做的软件却非常“趣”味盎然。

张人勇在现场表示,趣丸核心的业务在社交领域,社交方面的应用包括语言陪伴式聊天。据悉,趣丸旗下主要产品tt语音是国内领先的兴趣社交平台,为玩家提供组队开黑、队友匹配、电子竞技等多种娱乐互动服务。

另一方面,可以调整长度、语速和情绪的优势得以打造更精细可控的声音输出,Mask GCT语音大模型运用到短剧和影视剧优质的声音克隆和翻译上,助力文化出海。据张人勇介绍,趣丸参与设计的《第六只醒狮》微短剧入选了国家广电总局举办的中国影视剧大赛。

在音乐方面,趣丸自研的天谱乐大模型给音乐创作提供了更低的门槛,其音乐APP唱鸭累计注册用户超过4600万人。同时,趣丸旗下Spark.AI是全球首个高价值网漫数字内容生产的AI提效创作平台,以垂类漫画大模型给专业的漫画创作者提供一个快速上手的工具。

“AI for future.”对于to B还是to C的选择,张人勇回复现场提问时答道,“公司内部成立了‘X’部门,我们相信优势的主业集聚发展,对投入大量资金的人工智能行业寄予厚望,对B端的尝试也会持续发展。”据悉,趣丸科技正处于港交所的上市过程中。

全站地图