INTERNET社長談這次的A.I.VOICE GUMI訪談翻譯

9月 18, 2022

訪談原文來源：

(頁面中前半段為軟體的簡介，翻譯僅針對後半段的「株式会社インターネット　代表取締役　村上昇さんインタビュー」)

https://www.dtmstation.com/archives/58034.html

9月16號是GUMI睽違七年、以A.I.VOICE引擎發售的日子，網路媒體「DTM Station」特地為此專訪了Internet社的社長「村上昇」，請他談談這次A.I.VOICE GUMI的開發背景、過程以及未來的展望。

先替各位畫個重點，那就是村上社長的確有繼續推出GUMI歌唱版本的軟體計畫，但也是經過種種考量，所以才決定先以Talk為主進行開發，有興趣的人可以看看訪談內的開發歷程喔。

以下為訪談的內容翻譯：

=====

－－相隔了這麼久，為什麼會選在這個時間點推出新的Megpoid製品呢？

村上：我們原本考慮在去年秋天左右推出，並希望能在說話與歌唱方面都能有所進展。然而，由於最近的技術不斷進步加上各式各樣的廠商進入市場，又有複數的新引擎出現。該怎麼做好呢……這樣考慮過了，然後在今年一月從A.I那裡收到了具體的提案，在詳細討論技術背景與實際流程之後，我們就這樣決定了。

－－談到說話或唱歌，CeVIO AI或Synthesizer V、voicepeak似乎更為機靈

村上：當然我們也做過各種的考慮，但我們決定在唱歌之前先從說話開始做起，這時候就先不考慮兩者組合在一起的事情，而是平面化的去思考。

－－不是同時進行Talk與Song，而是先選擇Talk的理由是什麼呢？

村上：當然同時進行是最好的了，但是最近的AI歌聲合成的音質有些不盡人意的部份。所有的引擎在最後階段都使用了Vocoder，但在高頻部份的聲音有點不太喜歡。我認為之後這個技術問題會得到解決，但還不是現在，所以我們決定先從說話開始進行，而A.I.VOICE達成了我們的各項條件。

－－你們在2014年發布了說話軟體MegpoidTalk，這個也是與A.I共同開發的嗎？

村上：MegpoidTalk除了借用「株式会社アニモ」的「FineSpeech」引擎之外，其他都是公司內部開發的，這是一款基於SDK(軟體開發工具套件)的引擎。當時還沒有感情表現之類的部份，我們就抱持著是該去做了的想法去做了。順便一提，關於唱歌的部份，2015年11月我們推出了VOCALOID 4用的Megpoid V4，而在VOCALOID 5出來的時候，VOCALOID 4的聲庫是可以直接沿用的，我覺得這樣就沒有重建新資料庫的必要，於是就這樣擱置了。而VOCALOID 6也不知道什麼時候出來，於是時間就這樣過去了。

－－你們是什麼時候開始實際的製作A.I.VOICE GUMI的呢？

村上：在一月收到A.I的提案，並且將這個決定與中島愛傳達後，她在二月初爽快地同意了，在調整行事曆後，從三月份開始錄音，這部份在東京的工作室中花了八天時間。

－－在這八天中，也錄製了情感表現的部份對嗎？

村上：是的。第一天我們製作了參考用的對照資料，也就是先錄製了平常狀態、以及高興、生氣與悲傷的參考資料，然後再一邊聽參考資料一邊進行錄音。順帶一提，平常狀態是參考了Megpoid Native的歌唱方式，並且盡可能相似。從當初的Megpoid V2開始到現在，已經經過13年的關係，實在是很難做到相同的發聲，但我們會盡可能地接近，希望讓大家能對細節感到滿意。我認為，這次的A.I.VOICE有大幅的感情表現是更重要的，特別是生氣與悲傷非常出色，我認為這能成為非常好的產品

－－話說，我認為A.I.VOICE使用了一個叫AITalk 5的引擎，但AITalk 5有兩種引擎，一個是傳統基於波形接續形的發展形式，一個是使用了深度學習的DNN引擎，這次的A.I.VOICE GUMI是使用了哪一種呢？

村上：是波形接續形的引擎。確實在音素連接上，使用了Vocoder的DNN引擎不會有噪音且更為平滑，但就音質而言果然還是更喜歡波形接續形引擎。與前面提到歌聲合成的話題一樣，我覺得在高頻段的音質有著違和感，而波形連結引擎沒有這方面的問題，我覺得這樣很好。

－－八天的錄音結束後，是如何進行編輯作業的呢？

村上：這部份我們全部交給了A.I，並且等待他們完成。相比之下，我們更忙於商品化的包裝設計與插圖製作。如您所知，GUMI的插畫是由ゆうきまさみ所繪製，但是這次我們委託了「のう」，他畫GUMI也很久了，並且評價很好，從以前我們就有在委託日曆等東西的製作，而這次委託的結果感覺也非常的好，事實上，在最終定稿之前，「のう」真的提出了很多設計，並對之進行混合與打磨。VOCALOID的插畫原本應該是在舞台上唱歌的服裝，但這次我想要更輕便舒適的感覺，是那種在街上會看見的服裝，結果就是這次的插畫了，花了不少時間才完成。

－－也就是跟花在軟體上的時間差不多嗎？

村上：是的，插圖的部份已經差不多要完成了。A.I也在七月底的時候讓我們檢查了聲音的樣本，成果非常的好。這很明確地是Megpoid的聲音，尤其是生氣的部份，希望更多的人能去使用。波形接續形的好處是，這些情感表現可以輕鬆地處理並迅速反映在聲音中。對深度學習系統來說，改變參數並再合成不可避免地需要時間，從這方面來看選擇波形接續形真是太好了。後來，八月上旬的時候編輯器與測試版出來了，沒有任何問題地順利進行。因此我們能夠在9月16日順利推出。

－－在這個A.I.VOICE GUMI之後是唱歌呢，已經有詳細的決策了嗎？

村上：是的，我們考慮了很多，也請各位好好期待。

=====

小編 / 七瀨昇

搜尋此網誌

未來群像

INTERNET社長談這次的A.I.VOICE GUMI訪談翻譯

留言

張貼留言

這個網誌中的熱門文章

全文翻譯：用了15年徹底成為「VOCALOID腦」從黎明期開始不斷前行的sasakure.UK訪談

全文翻譯：Ayase與藍にいな，以兩位的證詞來解讀初音未來的魅力

從いよわ的「熱異常」來聊聊UTAU角色：「足立レイ」

INTERNET社長談這次的A.I.VOICE GUMI訪談翻譯

留言

張貼留言

這個網誌中的熱門文章

全文翻譯：用了15年徹底成為「VOCALOID腦」 從黎明期開始不斷前行的sasakure.UK訪談

全文翻譯：Ayase與藍にいな，以兩位的證詞來解讀初音未來的魅力

從いよわ的「熱異常」來聊聊UTAU角色：「足立レイ」

全文翻譯：用了15年徹底成為「VOCALOID腦」從黎明期開始不斷前行的sasakure.UK訪談