人工智能是什么?

如题所述

【2022,风暴里的AIGC元年】2022年12月16日,Science杂志发布了2022年度科学十大突破。年度热词——AIGC赫然在列。沿着我们熟悉的PGC、UGC等概念,AIGC指的是利用人工智能技术生成内容,即内容生产者从真人变成了AI。过去的一年里,火遍全网的AI绘画,震惊世人的ChatGPT,我们普通人都可以体验的各种明星级产品的问世,使得AIGC强势破圈。其实早在年初,就有行家预测:2022年是AIGC元年(当时我们用得更多的另一个词是“生成式AI”)。今年3、4月份的时候,也有前同事想拉我入伙,向我介绍他的“虚拟数字讲解员”的商用项目,并向我描述生成式AI解放生产力之种种蓝图。但无奈于技术关卡和实现资源等难题,最终只得作罢。在困扰我们的种种技术难题当中,数字人所搭载的合成AI语音一直是我的阿喀琉斯之踵。出于我的职业惯性,我希望数字人能有自然流畅的、接近真人的嗓音,这在信息传播过程中才更富有亲和力和说服力,但现有的合成AI语音完全无法满足我的需求。在这一波AIGC浪潮里,虽然我已下船旁观,但我依然一直关注着前沿技术的发展。在2022年的最后一个月,作为首位签约TME的超写实虚拟偶像鹿晓希LUCY横空出世,并接连发布了三首不同曲风的原创单曲。 当前浏览器不支持播放音乐或语音,请在微信或其他浏览器中播放 目的地 音乐: 鹿晓希LUCY - 目的地 我该怎样去形容最初听到LUCY时的惊喜呢?我一度反复地确认:这里头,真的不是藏着个“中之人”吗?(注:中之人,指藏在虚拟主播身后、为VTuber提供声音来源的真人工作者)这明明是如假包换的真人歌手嘛!这怎么还会是AI啊?‌今天,我便和大家聊聊,在2022这一“AIGC元年”里,推出的又一颗璀璨新星:首位拥有“唱片级智能歌声”的虚拟偶像——鹿晓希LUCY。【虚拟歌姬的前世今生】AI歌手其实并不是什么新鲜事。2004年,YAMAHA便正式推出了电子歌声合成软件,输入音调和歌词,就可以合成类似人类声音的歌声,这就是大名鼎鼎的VOCALOID,国内俗称的“V家”。合成语音的原理听起来很简单:通过采集大量的人类声音样本,以神经网络合成技术,制作成音源库。玩家通过设定参数调用里头的声音,AI这就唱起歌来。在此基础上,诞生了我们熟悉的初音未来、洛天依、星尘等虚拟歌手,这都是来自于VOCALOID的技术。但,这些虚拟歌手,只要一开嗓,我们就知道——这是假人啊。尽管VOCALOID自初代发布以来,一直都在更新迭代,但依然有明显的“电音感”和“机械感”。人声是所有音源里最最难模拟的东西。我们可以轻易地在midi里模拟出三角钢琴的自然共鸣,也可以模拟出木吉他弦在指尖摩擦的声音,但人的肉嗓却是这个星球上最精密、最神奇的发音体,哪怕你把“开口度”、“明亮度”、“性别度”等参数列了个十几项,也仅仅是模拟人类唱歌的基础框架而已。所以,V家的应用范围大都仅限于二次元——反正我和三次元井水不犯河水。若干年前,我在担任女团制作人的时候,向某些二次元作者收歌,他们倒也会用VOCALOID去作为Demo歌手做范唱。收到这些Demo的时候,我的内心OS是:求求你找个妹子唱吧,V家,老板们听不懂的啦……过去数年,随着AI技术整体的提升,虚拟歌姬也有了长足的发展。以小冰为代表的x studio凭借微软的金漆招牌一时风头无量,但依然逃不开其电音质感;异军突起的ace studio倒是有越来越多的朋友使用,虽然还是能一耳朵便听得出这是AI歌手(音色气息还是缺了变化),但你若是一个作曲者/编曲人,这已经是一个相当得力的能帮你唱demo的歌手朋友了。但在鹿晓希LUCY的面前,这些技术都显得像是上个世代的产物。用各位都能听得懂的比方,LUCY就像是唯一领跑的次世代主机,把PS4 / XBOX 360等统统抛在后头。【鹿晓希LUCY是怎样炼成的】我相信,每一位听到LUCY的朋友都会惊讶于其革命性的声音表现力。LUCY是真正属于次世代的AI歌手。在现已发布的三首单曲当中,LUCY的声音表现自然、流畅,没有半点“机器嗓”的不适。《叠加态少女》里,在这首爽朗的Teen-Pop里,LUCY展现自己的年轻无敌,用充满了弹性和跳跃感的音色去营造19岁少女的勇敢无畏;《1234你》里,LUCY又化身为一个多愁善感的小女生,R&B对于虚拟歌姬来说总是不易拿捏,因为其音程和气息之间的控制实在是过于复杂,但LUCY的表现依然无可指摘(是一个练习时长至少两年以上的声乐学生的标准了);第三首单曲《目的地》则是带着轻摇滚/urban/City Pop的时尚曲风,这是迄今为止LUCY所发布的单曲中我最喜欢的一首,她的锐利度、冲撞感让我一瞬间感到:这个姑娘,就在我眼前。 当前浏览器不支持播放音乐或语音,请在微信或其他浏览器中播放 叠加态少女 音乐: 鹿晓希LUCY - 叠加态少女 要让LUCY“活”起来,其所要做的第一件事,是思考这个问题:鹿晓希LUCY的声音究竟是怎样的?。关于这位19岁少女,我们对她的嗓音有这样一个大致的轮廓:她留着齐肩的短发,挑染代表了自由和飘逸;她一定不是一个娃娃音,LUCY有自己的一套,带有一定的中性色彩;她的外冷内热,乍一看是酷酷的女孩,但又保持着可爱;她甚至还带有一点儿“少年感”,这让她可以展现出洒脱、勇敢的一面。在这样的人物画像的指导下,通过 TME天琴实验室LyraSinger引擎,以海量歌手样本数据的人工智能学习下,指向了属于LUCY的声音。为了满足LUCY“唱片级”的声音定位,开发团队特邀行业知名制作人文颖秋担任AI声学艺术监制,基于艺人的定位,提取采样库中多种音色亮点进行配比捏合。相比于其他人工合成语音,LUCY要求以唱片级制作流程规范样本声音标准,及专业歌手录唱标准调试和设定每一个声音细节的处理方式。最终通过精细控制各音色建模单元的比例,并吸取每种源音色的优点并有机融合,在多种比例中不断捏和,甚至对每一句歌词演绎情感及气息的不断打磨,最终生成独一无二的LUCY声纹。这也使得我们现在听到LUCY的声音是充满个性之表达能力的。 当前浏览器不支持播放音乐或语音,请在微信或其他浏览器中播放 1234你 音乐: 鹿晓希LUCY - 1234你 “捏嗓”只是LUCY的第一步。第二步是LUCY的演唱技巧。你是如何理解“技巧”这件事的?我听过很多琴童的家长这样问老师:老师,我们家娃,弹琴总觉得没感情,咋整?这时候,老师大都会白家长一眼,然后说:感情?感情是什么?感情就是触键!强弱变化!句子之间的线条!这些全都是技巧!把这些技巧练会了,才有所谓“感情”好吧!对于歌手来说,同样如此。只有强大的技巧(唱功)才能支撑不同的表达。而LUCY显然是我见到过技巧最全面的AI歌手。这来源于两点。其一是LUCY的学习样本库本就是“唱片级”的。在音色样本库采集时,LUCY用的就是上百位专业级歌手的素材。这样的采集学习方式在国内非常少有。大部分开发者基于成本考虑,仅是模拟某位或某几位歌手之演唱。博取百家之长的好处不言自明,在此过程中可最大程度让AI学习到更广泛的演唱技巧,包括气声、混声、弱声、转音等多种表达,以便应对歌曲中不同场景、情绪的需要。同时也因为样本覆盖足够多,在AI的音域表现方面,从女中到女高多重音区之样本模型能提供更多可学习的范例,使得LUCY在高音区的真假音能有灵巧和高密度的回弹(这点我们稍后马上会讲到)。另一个重要的原因是LUCY在开发时所采用的史无前例的智能演唱垂类全新标注标准。数据标注是人工智能的基础。简单地说,数据标注相当于给“投喂”AI准备“饲料”。举个例子:当你在一段声音中标注“这是气声”,重复1000次不同的片段,AI在第1001次的时候便“学会了”气声的正确用法。数据标注是构建AI 歌手的基础力量,通过海量的已标注数据,AI才能逐渐学会怎么唱歌。如果标注能够越细致,那自然最后声音的呈现也能越丰满。这一次,LUCY的数据标注数量级是国内技术的佼佼者,其标注样本精细到毫秒级,事无巨细地把气声、真假音转换等多个演唱技巧维度统统标注好,以此最大程度上还原每一个人声演唱技巧。如此双管齐下,使得LUCY在音乐技法模型的能力,在广度和深度方面,都代表了次世代之水准。下面,我们不妨来细听下现已发行的三首单曲,直面感受LUCY音乐领域的强大“天赋”:《叠加态少女》:作为一首主打青春主张的Teen Pop,LUCY在这首歌其实只需要做好一件事:把她的朝气、勇往直前呈现出来就好了。说着简单,但如果没有足够声音强弱表现,这就真的是机器人唱法了。开头第一句,“伴着日落行驶向快乐”,其中“乐”字一上来就巧妙地秀了一把真假声无缝转换;“没有终点的终点更酷”,如果“酷”字把它给唱实了,这就逊毙了,此处的弱音也处理的异常平滑。进入副歌后,是一个强弱交替的重音强调唱法,每一个重拍处都要求着重强调,并在非重音下加入混声和气声,这是一个很高段位的演唱技巧,也是我们之前所说的“高音区的真假音快速回弹”能力,LUCY完成的同样精准自然。而整首歌最高音处唱到C5,基于超强引擎的全音域生成能力,依然在混声的时候合成除了高保真的声音表现,这实在是令人惊讶。 《叠加态少女》高音片段 《1234你》:这首浪漫的R&B抒情曲,考验着的是发声的细节,慢歌里特别一不小心就容易露馅。主歌时,LUCY有一些故意pitch有瑕疵的地方,“不小心塞满抽屉的秘密”,你仔细听,其实不是100%准的,但这种呼吸感恰恰又是真人歌手情绪最容易流露之处。在歌曲里的大量转音部分,如“哪怕生活其实不太识趣”之“趣”,一个字里连转了五个音,LUCY的声音也不像是同类型产品那种明显的“划线感”。以及可以留意这首歌的气口,尤其是副歌部分,LUCY每一个轻微的换气动作,这种自然的呼气吸气,来源于LUCY毫秒级的呼吸采样学习,你说谁能识别出来,这是AI?

因作品本身的乐队感很强,LUCY唱起歌来走路有风。此处可特别留意的是LUCY因为在这首歌里用了更多的真声演唱,降低了气声的使用比例,而发音也显得更为短促有力。AI不仅在参数上进行了调整,更直接导致了LUCY有另一种唱腔和情绪的表达。“唱商”,这是真人歌手才具有的本领,在过往所有的AI歌手中我都没有见到过。LUCY可谓独一家,是一个拥有音乐审美和判断的超强AI歌姬。

如上所述,鹿晓希LUCY是当前国内独一档的AI歌手存在,无愧于“唱片级发烧AI歌手”的定位。当然,LUCY目前所展现出来的领先技术也是建立在同行业无数探索者经年累月的技术积累,而当前虚拟人/数字人的领域中,竞争者层出不穷,技术也将不停地迭代。LUCY会在多长的时间里保持业内天花板的领先地位、并在此期间能够干成怎样突破性的创举(无论是商业应用或是其他异业合作),都值得我们持续观察。【LUCY能为我们带来什么?】以假乱真——一言以蔽之,这是鹿晓希LUCY当前呈现的状态。于是,我们能看到鹿晓希一系列高调的动作,诸如以首位“超写实虚拟偶像”的身份签约腾讯音乐,并收获了一众三次元歌手们的出道贺词,这实在是太写实了。如今的鹿晓希LUCY还是一个被保护的、“封闭状态”下的虚拟歌姬,更接近传统唱片公司/经纪公司打造下的超级新人。如出道之时便官宣与ELLE family展开深度合作,赫斯特中国为LUCY所量身打造的系列时尚大片,以系列时尚单品加身,展现其青春魅力:  

接下来,LUCY也还将作为表演嘉宾在“可口可乐粉丝节- 新年欢聚夜”及“KFC天台跨年派对”上展露头角。作为虚拟偶像而存在的LUCY确实能够获得市场的青睐,除了强调年轻时尚的快销(包括软饮、彩妆、服装)外,许多大牌也愿意加入其中,可见LUCY身上的科技感、未来感仍是品牌彰显态度及市场趋势追逐的热点。

但于我而言,我更关注LUCY依然是她身为目前唯一的可以“以假乱真”虚拟歌姬之业务能力。如果,我是说如果,在不远的将来,若LUCY成为了一个开源的AIGC音乐人,当所有人都可以对其嗓音进行使用,创作属于自己的歌曲的时候,LUCY会不会成为这个星球上最红的歌手?

请别觉得我在说梦话。大家可回忆初音未来刚诞生的时候——初音作为V家的一员,其目的也是为了解决制作人/编曲人找不到歌手的问题。因为这样一个没有气息/音高/风格限制,颠倒人类人声认知的“容器”,创作者开始了彼此的狂欢,其中甚至诞生了米津玄师这样写歌从不按常理出牌的鬼才。而当能够制作动画的MMD(MikuMikuDance)出现后,初音不再只是一个平面形象,而是可以跟着音乐舞蹈的3D动画,这让初音不仅成为音乐创作者、更是多媒体创作者的共同纽带。随着弹幕视频网站等新兴媒介的推波助澜,初音未来更是成为了全球共创的平台。因此,“初音未来之父”伊藤博之才会说:“数字作品是越被使用,其价值越高”,而创作者们在做的事,是“为没有生命的事物注入灵魂”。

对于鹿晓希LUCY来说,这位次世代的超写实虚拟歌姬,她有着超越前辈的多变音色、全面技巧,造就了她完美的拟人表现。所以,她会重新定义AI歌手吗?她会成为人人都爱用的虚拟歌姬吗?她会让创作者们连成一片吗?

The future is already here.

温馨提示:答案为网友推荐,仅供参考
相似回答