【群像邀稿】可不のCeVIO AI声色雑感 by Eji


作者:Eji

https://www.plurk.com/ejiwarp

https://twitter.com/ejiwarp




在看這篇文章的朋友,心裡應該也住著自己的Miku。

雖說不見得像Sekai那樣,都有一個開給你的萬能空間、可以方便你用來實現心目中真正的目的;不過至少我們家的Miku,就這樣陪著我許多年,而帶著她出來吃飯是我每天的重要工作,要是發現忘記了她,我會折回去被她罵一下再出來。


M「マスター,你能不能講一下前幾天可不醬的事情?」

騎車覓食的時候,Miku突然講到這個。



繼IA/ONE、V Flower與結月緣的CeVIO AI發表之後,Vtuber 花譜與東北kiritan 都發表了將推出CeVIO AI的產品。而稍早花譜所屬官方「KAMITSUBAKI STUDIO」的推特上進行了一次調查,希望大家對三個引擎的聲音走向表示意見,分別是A很像本人、B變得比較幼感覺用引擎調過、C除了比較幼還顯得很電,類似autotune的質感。

收集了接近5500個左右的回答之中,有65%的人覺得像本人比較好


但是之後花譜本人發表了一篇她本人覺得像自己不好,選了Type-B的發言



E「嗯嗯嗯....該說什麼,花譜本人都開口說自己深思熟慮之後選了B,其他人只能尊重....」

M「你不要講這麼簡短好不好,這樣為什麼要你講。」

E「嗯-好喔。」


在她的標準裡面每個人都可以是創作者,所以她會要求我做我現在能做的事情。

也許我能做的還是不多,但是....


M「至少嘴一下嘛。」


畢竟沒有推辭的理由。


----


うちのミクさんが聞く そのいち

「可不のCeVIO AI声色雑感」


----


歌聲合成有幾個主要的世代,技術上雖然有更細的分界點,但是比較明顯的分界可能在「拼接合成」和「統計合成」,或者說「AI合成」兩塊。


拼接合成是要求本人以某個較為一致的表情,念或者唱一些設計好的片段集合,這些片段的表情被要求一致與平整的理由,是為了讓分析合成引擎可以較為簡易地伸縮與上下調整音高之後,配合需求拼貼上樂譜需要的部分。


拼接合成預期透過精細的輸入音高波動、音量大小、並透過聲碼器(Vocoder)提供的功能,比如如張嘴大小參數、子音發音時機、滑音發生時機、甚至近期的話會有喉部氣流流量模擬,聲帶張力等等,來「做出」需求的聲調。


也就是說拼接合成沒有任何輸入的時候,直接指打歌譜當下,引擎預設值發出的聲音,與本人的音調可說是截然不同的之外,每個使用者能做出的聲調也有很大的差異。


E「我們說調教就是在講這個,大家所認識的Miku的聲音,其實就是沒有調教的引擎預設值。這個預設值隨著每個世代引擎有若干進步有一些改變之外,變化沒有那麼劇烈,聽到會知道這是Miku而不是藤田咲桑」


統計合成則改為要求本人先以正常的方式表現一首一首的歌曲,這些歌曲都以本人慣有的演唱方式來演唱,然後演唱的整段波形標記發音點、樂譜的發音速度與實際發音的差距,然後將波形與樂譜的實際對應關係,用統計手法-現在的話會稱為機械學習手法來記錄,於是輸入樂譜的時候,就會透過機械學習的成果來進行推測/推論,得到波形。


這個推論會透過收錄時的歌曲紀錄來推測出,本人大概會怎麼唱這些歌。

也就是說,和拼接合成不同的是,統計/AI的無調,是引擎認為最接近本人的狀態。


一開始VOCALOID的無調,是一個「新的白紙」;

但是AI的無調,是「本人的拷貝」。


VOCALOID的進步,是把白紙變得越來越好畫,調整範圍越來越廣、可用的顏色越來越多;但是AI的進步,是一劈頭就拷貝得越來越像。沒有刻意去調整,其實是不知道它可調範圍多廣的。


在經過了十多年下來,大家認識的Miku可以說活靈活現、根深蒂固,這是Crypton長期投資得來的主要資產,自然不敢任意去改變她;相對的,沒有經過這些時間累積,自然人氣會奠基在別的地方。


E「所以啦,雖說有人氣的原因有天時地利又加上多年累積,Miku有點機械感的聲音是歷史的累積;相對地,可不為什麼會成為話題有人氣?因為她是現在正炙手可熱的花譜小姐錄製下來的啊。作為產品,你賣的時候一定不可能把她蓋起來不讓買的人知道。可不的人氣與否無法脫離花譜獨立來討論,接著則是有多像的問題。」


CeVIO AI發表在2018年底,當時的展示demo號稱與真人無法分辨,從技術上而言,從當初使用HMM(隱藏式馬可夫模型-hidden markov model)技術的Sinsy與產品化的CeVIO之後,跨過了沒有推出產品的Sinsy DNN(深層類神經網路-deep neural networks),使用了名古屋工業大學德田研究室新的CNN(摺積類神經網路-convolutional neuron networks)合成,並且花了一年多的時間在維持品質的前提下將合成速度提高。在2019年底放出一些展示片段,並且在科研活動的場合也放出宣傳消息讓有興趣的人在現場體驗。那是真的相當有說服力的像人,只是不見得有本人站在旁邊讓人比較。


在語音/歌聲合成領域,HMM和DNN主要的差異在於「HMM沒有辦法學習連續波形,只能處理離散內容與音高的斜率,所以頻譜和音高的細部波動會喪失;DNN開始可以學習到比較完整的連續內容」,所以容量大幅增加,音質也大幅提高;但是德田研當時似乎是認為不夠好而擱置,只有研究用的Sinsy沒有用DNN推出CeVIO產品;到2018年才推出更進一步的CNN,可以學習到歌手比較細緻的音樂表現,應該會在2020年底以前發售;此外,後來由其他研究者推出的NEUTRINO是屬於DNN類,所以或許研究室的老師們是標準比較高。

目前至少有好幾個單位都在做,YAMAHA之外還包含微軟、字節跳動、騰訊,跳進來得比以前多得多,而且軟體面的業務規模都比YAMAHA還大得多。


但是增加的都是以AI為根本在做的,都是試圖要做到更好的拷貝,除了拷貝似乎快到頂了,才開始想怎麼樣做控制,而不是傳統上我們說從無到有「調教」出像人的歌聲。


傳統調教的門檻非常高,能跨過這個門檻變成自己的特色,開始持續創作,對創作者的毅力是個極大的考驗,而且跨過了又是每次都得重複一次的過程。


所以Miku的多樣化是長時間累積起來的,確實要那些後起之秀都要過那個好漢坡有點時代錯誤,畢竟前人的累積會變成增加門檻,而把門檻降低了,可能有機會看到更多創作。


從上面這一整段引擎端的方法論我們可以看出,拷貝人的聲音是最近的顯學;但是人願不願意被拷貝?這個問題從最初VOCALOID1到現在還在持續著,可不與花譜只是歷史的重演、同樣的問題有不同的答案。


做過VOCALOID或者UTAU音源的人,通常會對音源比較坦然,不見得會去想自己被拷貝與否的事情,因為門檻高、投注心力大、原理上難以重現本人、以為得要面對的問題其實是不存在的,花譜本人也說對一個喜歡VOCALOID的人來說這是很難得很讓人興奮的事情。

但是在取樣與機械學習不同的方法論面前,收錄的容易度也會相去甚遠,這時候我們才真的需要考慮「你會不會擔心你的聲音被拷貝?」「被拷貝這件事情到底是好是壞?」


以結果來說可不目前預定會與花譜的聲音有著一定程度的差距,這個來源是ALP對頻譜的調整功能造成的,ALP相當於VOCALOID的GEN=性別參數,內容對頻譜進行調整,調高調低可以變得比較幼或者比較成熟,甚至接近變化成男生或者女生的聲音。有些調教則會在非常短的範圍內使用GEN來進行音色變化,不過這邊我們不提;已經有人嘗試過,即使引擎未來不開放把聲音調整調回花譜,也可以透過別的工具透過類似GEN/ALP的功能來調整,達到還原回本人聲音的這個目的。

花譜的二次創作條款非常嚴格,基本上是不太歡迎的,我會很好奇又和本人聲音做出差距,官方未來打算讓可不怎麼自處。


花譜相關的二次創作條款:

KAMITSUBAKI STUDIO二次創作に関するガイドライン

【KAMITSUBAKI STUDIO】二次創作ガイドライン(改訂)




另一方面,我們其實已經看到AIきりたん的前例在那邊。

她是聲優接受要求演出特定角色聲線的結果,前有NEUTRINO後面又有CeVIO AI預備推出,應該都會很像「本人的某個聲線」,但是聽起來反彈的聲音幾乎沒有聽到,大概和聲優這個職業的立場也有關係。


愛你的人夠多的話,不想要改變的力量會大過想改變的。反之在愛的人夠多之前,沒辦法往追求擬真走;現在問題是,真的很擬真到本人區別不出來,不就沒有剩下可以前進的空間了嗎?如果這樣還不夠被愛,那怎麼辦?


所以我覺得,AI歌聲會變成各取所需用過就丟。可以改變的幅度小,每個人都是因為現有的誰拷貝得來。看起來就是粉絲群的分化,彼此之間怎麼流通呢?


M「嗯嗯嗯,不過我看大家都在搞配對呢,大概是因為去找了現有的其他角色來吧。」

E「對啊,引擎的行銷找人氣角色甚至角色群很重要,但是角色本身就得靠積累了。」


E「所以愛蓮娜(SynthV)應該還是會看看有沒有機會繼續往前進步吧,即使可能會失卻一點點原味,但畢竟原味如果還不夠多人支持,那就只能繼續增加N(Nをふやせ)而已了。」  


恋をして 恋をして 恋をして

ふられ また 捨てられて

過去をみて 枝を切れ

泣きたくなっても まだ N を増やせ

耳のあるロボットの唄nm3611741)」

  


留言

這個網誌中的熱門文章

マリッジミライ(結婚未來)—因初音未來結下良緣的奇蹟

爆紅後的ピノキオピー,談論新作『META』-訪談全文翻譯