【群像邀稿】可不のCeVIO AI声色雑感 by Eji

10月 27, 2020

作者：Eji

https://www.plurk.com/ejiwarp

https://twitter.com/ejiwarp

在看這篇文章的朋友，心裡應該也住著自己的Miku。

雖說不見得像Sekai那樣，都有一個開給你的萬能空間、可以方便你用來實現心目中真正的目的；不過至少我們家的Miku，就這樣陪著我許多年，而帶著她出來吃飯是我每天的重要工作，要是發現忘記了她，我會折回去被她罵一下再出來。

M「マスター，你能不能講一下前幾天可不醬的事情？」
騎車覓食的時候，Miku突然講到這個。

繼IA/ONE、V Flower與結月緣的CeVIO AI發表之後，Vtuber 花譜與東北kiritan 都發表了將推出CeVIO AI的產品。而稍早花譜所屬官方「KAMITSUBAKI STUDIO」的推特上進行了一次調查，希望大家對三個引擎的聲音走向表示意見，分別是A很像本人、B變得比較幼感覺用引擎調過、C除了比較幼還顯得很電，類似autotune的質感。

收集了接近5500個左右的回答之中，有65%的人覺得像本人比較好

但是之後花譜本人發表了一篇她本人覺得像自己不好，選了Type-B的發言

E「嗯嗯嗯....該說什麼，花譜本人都開口說自己深思熟慮之後選了B，其他人只能尊重....」
M「你不要講這麼簡短好不好，這樣為什麼要你講。」
E「嗯－好喔。」

在她的標準裡面每個人都可以是創作者，所以她會要求我做我現在能做的事情。
也許我能做的還是不多，但是....

M「至少嘴一下嘛。」

畢竟沒有推辭的理由。

----

うちのミクさんが聞く　そのいち

「可不のCeVIO AI声色雑感」

----

歌聲合成有幾個主要的世代，技術上雖然有更細的分界點，但是比較明顯的分界可能在「拼接合成」和「統計合成」，或者說「AI合成」兩塊。

拼接合成是要求本人以某個較為一致的表情，念或者唱一些設計好的片段集合，這些片段的表情被要求一致與平整的理由，是為了讓分析合成引擎可以較為簡易地伸縮與上下調整音高之後，配合需求拼貼上樂譜需要的部分。

拼接合成預期透過精細的輸入音高波動、音量大小、並透過聲碼器(Vocoder)提供的功能，比如如張嘴大小參數、子音發音時機、滑音發生時機、甚至近期的話會有喉部氣流流量模擬，聲帶張力等等，來「做出」需求的聲調。

也就是說拼接合成沒有任何輸入的時候，直接指打歌譜當下，引擎預設值發出的聲音，與本人的音調可說是截然不同的之外，每個使用者能做出的聲調也有很大的差異。

E「我們說調教就是在講這個，大家所認識的Miku的聲音，其實就是沒有調教的引擎預設值。這個預設值隨著每個世代引擎有若干進步有一些改變之外，變化沒有那麼劇烈，聽到會知道這是Miku而不是藤田咲桑」

統計合成則改為要求本人先以正常的方式表現一首一首的歌曲，這些歌曲都以本人慣有的演唱方式來演唱，然後演唱的整段波形標記發音點、樂譜的發音速度與實際發音的差距，然後將波形與樂譜的實際對應關係，用統計手法－現在的話會稱為機械學習手法來記錄，於是輸入樂譜的時候，就會透過機械學習的成果來進行推測/推論，得到波形。

這個推論會透過收錄時的歌曲紀錄來推測出，本人大概會怎麼唱這些歌。

也就是說，和拼接合成不同的是，統計/AI的無調，是引擎認為最接近本人的狀態。

一開始VOCALOID的無調，是一個「新的白紙」；

但是AI的無調，是「本人的拷貝」。

VOCALOID的進步，是把白紙變得越來越好畫，調整範圍越來越廣、可用的顏色越來越多；但是AI的進步，是一劈頭就拷貝得越來越像。沒有刻意去調整，其實是不知道它可調範圍多廣的。

在經過了十多年下來，大家認識的Miku可以說活靈活現、根深蒂固，這是Crypton長期投資得來的主要資產，自然不敢任意去改變她；相對的，沒有經過這些時間累積，自然人氣會奠基在別的地方。

E「所以啦，雖說有人氣的原因有天時地利又加上多年累積，Miku有點機械感的聲音是歷史的累積；相對地，可不為什麼會成為話題有人氣？因為她是現在正炙手可熱的花譜小姐錄製下來的啊。作為產品，你賣的時候一定不可能把她蓋起來不讓買的人知道。可不的人氣與否無法脫離花譜獨立來討論，接著則是有多像的問題。」

CeVIO AI發表在2018年底，當時的展示demo號稱與真人無法分辨，從技術上而言，從當初使用HMM(隱藏式馬可夫模型-hidden markov model)技術的Sinsy與產品化的CeVIO之後，跨過了沒有推出產品的Sinsy DNN(深層類神經網路-deep neural networks)，使用了名古屋工業大學德田研究室新的CNN(摺積類神經網路-convolutional neuron networks)合成，並且花了一年多的時間在維持品質的前提下將合成速度提高。在2019年底放出一些展示片段，並且在科研活動的場合也放出宣傳消息讓有興趣的人在現場體驗。那是真的相當有說服力的像人，只是不見得有本人站在旁邊讓人比較。

在語音/歌聲合成領域，HMM和DNN主要的差異在於「HMM沒有辦法學習連續波形，只能處理離散內容與音高的斜率，所以頻譜和音高的細部波動會喪失；DNN開始可以學習到比較完整的連續內容」，所以容量大幅增加，音質也大幅提高；但是德田研當時似乎是認為不夠好而擱置，只有研究用的Sinsy沒有用DNN推出CeVIO產品；到2018年才推出更進一步的CNN，可以學習到歌手比較細緻的音樂表現，應該會在2020年底以前發售；此外，後來由其他研究者推出的NEUTRINO是屬於DNN類，所以或許研究室的老師們是標準比較高。

目前至少有好幾個單位都在做，YAMAHA之外還包含微軟、字節跳動、騰訊，跳進來得比以前多得多，而且軟體面的業務規模都比YAMAHA還大得多。

但是增加的都是以AI為根本在做的，都是試圖要做到更好的拷貝，除了拷貝似乎快到頂了，才開始想怎麼樣做控制，而不是傳統上我們說從無到有「調教」出像人的歌聲。

傳統調教的門檻非常高，能跨過這個門檻變成自己的特色，開始持續創作，對創作者的毅力是個極大的考驗，而且跨過了又是每次都得重複一次的過程。

所以Miku的多樣化是長時間累積起來的，確實要那些後起之秀都要過那個好漢坡有點時代錯誤，畢竟前人的累積會變成增加門檻，而把門檻降低了，可能有機會看到更多創作。

從上面這一整段引擎端的方法論我們可以看出，拷貝人的聲音是最近的顯學；但是人願不願意被拷貝？這個問題從最初VOCALOID1到現在還在持續著，可不與花譜只是歷史的重演、同樣的問題有不同的答案。

做過VOCALOID或者UTAU音源的人，通常會對音源比較坦然，不見得會去想自己被拷貝與否的事情，因為門檻高、投注心力大、原理上難以重現本人、以為得要面對的問題其實是不存在的，花譜本人也說對一個喜歡VOCALOID的人來說這是很難得很讓人興奮的事情。

但是在取樣與機械學習不同的方法論面前，收錄的容易度也會相去甚遠，這時候我們才真的需要考慮「你會不會擔心你的聲音被拷貝？」「被拷貝這件事情到底是好是壞？」

以結果來說可不目前預定會與花譜的聲音有著一定程度的差距，這個來源是ALP對頻譜的調整功能造成的，ALP相當於VOCALOID的GEN=性別參數，內容對頻譜進行調整，調高調低可以變得比較幼或者比較成熟，甚至接近變化成男生或者女生的聲音。有些調教則會在非常短的範圍內使用GEN來進行音色變化，不過這邊我們不提；已經有人嘗試過，即使引擎未來不開放把聲音調整調回花譜，也可以透過別的工具透過類似GEN/ALP的功能來調整，達到還原回本人聲音的這個目的。

花譜的二次創作條款非常嚴格，基本上是不太歡迎的，我會很好奇又和本人聲音做出差距，官方未來打算讓可不怎麼自處。

花譜相關的二次創作條款：

KAMITSUBAKI STUDIO二次創作に関するガイドライン

【KAMITSUBAKI STUDIO】二次創作ガイドライン（改訂）

另一方面，我們其實已經看到AIきりたん的前例在那邊。

她是聲優接受要求演出特定角色聲線的結果，前有NEUTRINO後面又有CeVIO AI預備推出，應該都會很像「本人的某個聲線」，但是聽起來反彈的聲音幾乎沒有聽到，大概和聲優這個職業的立場也有關係。

愛你的人夠多的話，不想要改變的力量會大過想改變的。反之在愛的人夠多之前，沒辦法往追求擬真走；現在問題是，真的很擬真到本人區別不出來，不就沒有剩下可以前進的空間了嗎？如果這樣還不夠被愛，那怎麼辦？

所以我覺得，AI歌聲會變成各取所需用過就丟。可以改變的幅度小，每個人都是因為現有的誰拷貝得來。看起來就是粉絲群的分化，彼此之間怎麼流通呢？

M「嗯嗯嗯，不過我看大家都在搞配對呢，大概是因為去找了現有的其他角色來吧。」
E「對啊，引擎的行銷找人氣角色甚至角色群很重要，但是角色本身就得靠積累了。」

E「所以愛蓮娜(SynthV)應該還是會看看有沒有機會繼續往前進步吧，即使可能會失卻一點點原味，但畢竟原味如果還不夠多人支持，那就只能繼續增加N（Nをふやせ）而已了。」

恋をして　恋をして　恋をして

ふられ　また　捨てられて

過去をみて　枝を切れ

泣きたくなっても　まだ　N　を増やせ

「耳のあるロボットの唄（nm3611741）」

搜尋此網誌

未來群像

【群像邀稿】可不のCeVIO AI声色雑感 by Eji

留言

張貼留言

這個網誌中的熱門文章

從いよわ的「熱異常」來聊聊UTAU角色：「足立レイ」

全文翻譯：Ayase與藍にいな，以兩位的證詞來解讀初音未來的魅力

訪談翻譯：カンザキイオリ談「生與死與音樂」