INTERNET社長談這次的A.I.VOICE GUMI訪談翻譯
訪談原文來源:
(頁面中前半段為軟體的簡介,翻譯僅針對後半段的「株式会社インターネット 代表取締役 村上昇さんインタビュー」)
https://www.dtmstation.com/archives/58034.html
9月16號是GUMI睽違七年、以A.I.VOICE引擎發售的日子,網路媒體「DTM Station」特地為此專訪了Internet社的社長「村上昇」,請他談談這次A.I.VOICE GUMI的開發背景、過程以及未來的展望。
先替各位畫個重點,那就是村上社長的確有繼續推出GUMI歌唱版本的軟體計畫,但也是經過種種考量,所以才決定先以Talk為主進行開發,有興趣的人可以看看訪談內的開發歷程喔。
以下為訪談的內容翻譯:
=====
--相隔了這麼久,為什麼會選在這個時間點推出新的Megpoid製品呢?
村上:我們原本考慮在去年秋天左右推出,並希望能在說話與歌唱方面都能有所進展。然而,由於最近的技術不斷進步加上各式各樣的廠商進入市場,又有複數的新引擎出現。該怎麼做好呢……這樣考慮過了,然後在今年一月從A.I那裡收到了具體的提案,在詳細討論技術背景與實際流程之後,我們就這樣決定了。
--談到說話或唱歌,CeVIO AI或Synthesizer V、voicepeak似乎更為機靈
村上:當然我們也做過各種的考慮,但我們決定在唱歌之前先從說話開始做起,這時候就先不考慮兩者組合在一起的事情,而是平面化的去思考。
--不是同時進行Talk與Song,而是先選擇Talk的理由是什麼呢?
村上:當然同時進行是最好的了,但是最近的AI歌聲合成的音質有些不盡人意的部份。所有的引擎在最後階段都使用了Vocoder,但在高頻部份的聲音有點不太喜歡。我認為之後這個技術問題會得到解決,但還不是現在,所以我們決定先從說話開始進行,而A.I.VOICE達成了我們的各項條件。
--你們在2014年發布了說話軟體MegpoidTalk,這個也是與A.I共同開發的嗎?
村上:MegpoidTalk除了借用「株式会社アニモ」的「FineSpeech」引擎之外,其他都是公司內部開發的,這是一款基於SDK(軟體開發工具套件)的引擎。當時還沒有感情表現之類的部份,我們就抱持著是該去做了的想法去做了。順便一提,關於唱歌的部份,2015年11月我們推出了VOCALOID 4用的Megpoid V4,而在VOCALOID 5出來的時候,VOCALOID 4的聲庫是可以直接沿用的,我覺得這樣就沒有重建新資料庫的必要,於是就這樣擱置了。而VOCALOID 6也不知道什麼時候出來,於是時間就這樣過去了。
--你們是什麼時候開始實際的製作A.I.VOICE GUMI的呢?
村上:在一月收到A.I的提案,並且將這個決定與中島愛傳達後,她在二月初爽快地同意了,在調整行事曆後,從三月份開始錄音,這部份在東京的工作室中花了八天時間。
--在這八天中,也錄製了情感表現的部份對嗎?
村上:是的。第一天我們製作了參考用的對照資料,也就是先錄製了平常狀態、以及高興、生氣與悲傷的參考資料,然後再一邊聽參考資料一邊進行錄音。順帶一提,平常狀態是參考了Megpoid Native的歌唱方式,並且盡可能相似。從當初的Megpoid V2開始到現在,已經經過13年的關係,實在是很難做到相同的發聲,但我們會盡可能地接近,希望讓大家能對細節感到滿意。我認為,這次的A.I.VOICE有大幅的感情表現是更重要的,特別是生氣與悲傷非常出色,我認為這能成為非常好的產品
--話說,我認為A.I.VOICE使用了一個叫AITalk 5的引擎,但AITalk 5有兩種引擎,一個是傳統基於波形接續形的發展形式,一個是使用了深度學習的DNN引擎,這次的A.I.VOICE GUMI是使用了哪一種呢?
村上:是波形接續形的引擎。確實在音素連接上,使用了Vocoder的DNN引擎不會有噪音且更為平滑,但就音質而言果然還是更喜歡波形接續形引擎。與前面提到歌聲合成的話題一樣,我覺得在高頻段的音質有著違和感,而波形連結引擎沒有這方面的問題,我覺得這樣很好。
--八天的錄音結束後,是如何進行編輯作業的呢?
村上:這部份我們全部交給了A.I,並且等待他們完成。相比之下,我們更忙於商品化的包裝設計與插圖製作。如您所知,GUMI的插畫是由ゆうきまさみ所繪製,但是這次我們委託了「のう」,他畫GUMI也很久了,並且評價很好,從以前我們就有在委託日曆等東西的製作,而這次委託的結果感覺也非常的好,事實上,在最終定稿之前,「のう」真的提出了很多設計,並對之進行混合與打磨。VOCALOID的插畫原本應該是在舞台上唱歌的服裝,但這次我想要更輕便舒適的感覺,是那種在街上會看見的服裝,結果就是這次的插畫了,花了不少時間才完成。
--也就是跟花在軟體上的時間差不多嗎?
村上:是的,插圖的部份已經差不多要完成了。A.I也在七月底的時候讓我們檢查了聲音的樣本,成果非常的好。這很明確地是Megpoid的聲音,尤其是生氣的部份,希望更多的人能去使用。波形接續形的好處是,這些情感表現可以輕鬆地處理並迅速反映在聲音中。對深度學習系統來說,改變參數並再合成不可避免地需要時間,從這方面來看選擇波形接續形真是太好了。後來,八月上旬的時候編輯器與測試版出來了,沒有任何問題地順利進行。因此我們能夠在9月16日順利推出。
--在這個A.I.VOICE GUMI之後是唱歌呢,已經有詳細的決策了嗎?
村上:是的,我們考慮了很多,也請各位好好期待。
=====
小編 / 七瀨昇
留言
張貼留言