評論 「【驗證】統計5,000首Vocaloid樂曲的歌詞→調查前100個最常被使用的詞彙」

 評論「【驗證】統計5,000首Vocaloid樂曲的歌詞→調查前100個最常被使用的詞彙」

【検証】約5000曲のボカロ楽曲の歌詞を集計→最も使われている単語TOP100を調査

(原文: https://originalnews.nico/322413 ,文章發表於2021年07月21日)

(圖片來自影片截圖)


大家好,這裏是潛水已久的CCT。

最近看到Niconico新聞對一支Niconico動畫上面的影片發表專文介紹,(影片發表於2021年04月10日),內容是說該影片的作者統計了5,000首Vocaloid名曲,排名出這些Vocaloid樂曲的歌詞中,前100個最常被使用的詞彙。

這是個相當有趣的影片,也推薦大家看看統計結果;而影片也激發出個人的一些思考,因此誕生了這篇文章:這篇文章試圖介紹及評論該專文與其介紹的影片,並闡述我個人認為這個排名結果大多其實「並不意外」,榜上有名的詞彙大多與殿不殿堂、Vo不Vocaloid沒什麼關係:

因為它們大多是日本語本身乃至世界大多數語言都常見的詞彙。


(本文稍後會暴雷前10名,如果不想被暴雷可以先看文章或影片)


====Intro:這支影片在統計什麼?如何統計?====


《統計5,000首Vocaloid樂曲的歌詞》這支影片,首先在統計母體的選擇上,作者在一個收錄著眾多Vocaloid樂曲歌詞的網站「初音ミクwiki」之中,統計其中進入殿堂(即該曲在Niconico動畫之中觀看次數10萬以上)的Vocaloid樂曲,數量大約是5,000首,是目前(2021.07.22)所有Vocaloid殿堂曲的9成以上;接著將這些樂曲的歌詞綜合在一起,並以Python拆解成一個一個詞彙單元,並且將詞彙經過某些篩選(後述)之後,選出前100個最常被使用的詞彙。


在大量的詞彙之中,日本語助詞例如「て」、「に」、「を」、「は」,或是一些「太一般的詞彙」例如「こと」;由於話題性的原因,這些詞彙將會被略去(參見動畫02:51-03:01處)。最後選出的前100名之中,由於篇幅因素,這邊僅列出前10名。分別是:

1. 「君」、

2. 「僕」、

3. 「私」、

4. 「何」、

5. 「世界」、

6. 「今」、

7. 「あなた」、

8. 「手」、

9. 「心」、

10. 「見」。

《統計5,000首Vocaloid樂曲的歌詞》這支影片相當有趣,作者以清楚的定義來選擇統計的母體(就是那5,000首wiki收錄的殿堂曲),以Python這般快速的方法在歌詞庫直接拆解並統計詞彙並得出結果;雖然被省略掉的「太一般的詞彙」的認定標準略嫌主觀,純為話題性而將助詞等詞省略掉也可能讓結果的排名產生爭議(助詞也是詞!),但是還是不得不讓人佩服作者的創意發想下,整合了統計與程式語言應用的「才能的浪費」(誇獎意味)

其實,詞彙統計的歷史說長不長、說短不短,正式成為一門學問也不超過100年;作者不會是第一人,也不是最後一人;不過,比起這個統計結果本身,我個人認為該影片更有價值的部分是它能引發一些思考。

本文便以《統計5,000首Vocaloid樂曲的歌詞》作為基礎來延伸發想,看看能不能發掘出什麼有趣的東西?

接下來的鋪墊可能略為枯燥;但是先別急,且聽我娓娓道來。


====A-melo:語言也有家庭?====


16世紀,歐洲人航海到了印度後,發現印度當地有許多語言的詞彙或文法,與歐洲的希臘語、拉丁語等語言有著高度相似性,而這些語言在當代看似沒什麼詞彙交流,那為什麼會如此相似呢?

因此,17世紀的荷蘭學者Marcus Zuerius van Boxhorn提出了假說:

也許有些語言,像是荷蘭語、希臘語、拉丁語、波斯語、德語等語言,它們有著共同的祖先(不過他不相信世界上所有語言都是同源的);在歷經數世紀的探索後,終於在1813年,「世界上最後一個什麼都知道的人」湯瑪士·楊格(Thomas Young)提出了「印歐語系」(Indo-European languages)的概念,來統整這些「幾乎能確定它們是同源」的語言;爾後,相似的研究如火如荼地進行,類似的概念也被接連提出,例如漢語與閩南語等語言屬於漢藏語系、臺灣原住民族語言屬於南島語系等等。

至此人們逐漸知道,要研究現今各門語言之間的連繫,除了彼此相互比較書面詞彙、文法或語音以外,對歷史語言、古代語言的史料、考古證據研究的縱深也相當重要。

但是,詞彙的相似性能夠說明什麼?真的能靠它來確定兩門語言同源嗎?


====B-melo:詞彙也有分核心與邊陲?====


我的意思是:

在世界範圍內,「茶」這個字幾乎要嘛來自漢語(這裏指漢語官話,也就是臺灣稱的國語),要嘛來自閩南語,讀音像是「chá」的(如葡萄牙語、哈薩克語、日本語、阿姆哈拉語)該詞直接或間接來自漢語;讀音像是「tê」的(如英語、希伯來語、爪哇語、冰島語)該詞直接或間接來自閩南語;這顯然不能說明這些語言都來自漢語或閩南語!



(這邊介紹一張有趣的地圖,揭示了世界主要語言「茶」一詞的辭源;紅點代表讀音像「chá」、藍點讀音像「tê」、灰點則為其他;可以發現多數點非紅即藍。)


但是除了「茶」以外,有一些詞就不是這樣:它不容易被外來詞彙取代,它們是人類在文明發展早期就發展出來的詞彙,宛如一個語言的核心一般,它不容易被取代。至此我們注意到,一個語言會有一些「比較核心的詞」(例如你、紅色、誰、太陽、眼睛),和一些「不太核心的詞」(例如披薩、煤、囤積症、生存空間、意識);那要怎麼區分哪些詞比其他詞「更核心」呢?


====C-melo:詞彙統計學的先驅:莫里斯·斯瓦迪士====


1950年,作為一個開端,美國的語言學者莫里斯·斯瓦迪士(Morris Swadesh)在《國際美洲語言學雜誌》(International Journal of American Linguistics)上投稿一篇名為〈Salish Internal Relationships〉的論文,文中初步列出了許多語言都有的一些核心詞彙表,在經過數十年的修補與完善後,成為了所謂的「斯瓦迪士核心詞彙列表」(Swadesh list);至此,詞彙統計學(Lexicostatistics)正式誕生,它從統計方法切入來研究語言,透過比較這些相對不易被借詞所取代的詞彙,人們可以藉此將語言分門別類,更有甚者,可以透過這些統計資料,比較一門語言之中常用詞彙的演變。

為什麼說「相對不易」被借詞取代的詞彙呢?

那是因為詞彙的借用和取代並不是絕對的:並不總是「他的比較好、他的比較方便,我才借來用」。CCT編個人關注的一個Facebook粉絲專頁《說說伊朗》,就曾在其文章〈外國的單字比較圓?〉之中,舉出波斯語與阿拉伯語(兩門語言分屬不同語系)互相借詞的實例:

有些概念是A語言借B語言的固有詞來用、B語言借A語言的固有詞來用,而雙方都不用自己的固有語言來表示該詞;A語言借B語言的詞來用、B語言借C語言的詞來用;甚至是A語言從B語言借某個詞彙b過來用,變成A語言的詞彙b’,B語言再把借給A語言改造後的詞彙b’借回來,變成b’’以取代詞彙b,而A語言則轉而跟C語言借另一個詞c來取代借詞b’。

(詳細可參照: https://www.facebook.com/permalink.php?story_fbid=1453594131645707&id=370424813295983

總之,斯瓦迪士核心詞彙列表並非絕對,也存在爭議空間;但它確實是語言研究的一個很重要的參考基礎:這些核心詞彙大多自古以來就出現在多數的人類文明之中,因此常被使用並不奇怪。


====Chorus:Vocaloid曲歌詞常見詞彙的前10名意外嗎?====


有了前面的鋪墊,我們終於可以來檢視《統計5,000首Vocaloid樂曲的歌詞》列出的常見詞彙,首先是前10名,我們可以知道它們的頻繁出現大多並不讓人意外:前10名之中,其中第1、2、3、7名:

「僕」、「私」都是第一人稱代詞(I);「君」、「あなた」都是第二人稱代詞(you)

儘管它們在日本語的意義和使用時機略有不同,但是顯然它們分別代表「我」與「你」:這些都是斯瓦迪士核心詞彙列表中收錄的,人類自古以來就有的概念。不只在Vocaloid曲,我想在許多不同領域的歌詞或文本也是,只要是依照作者的篩選方式(把助詞以及「太一般的詞」刪掉),這些人稱代詞幾乎注定會佔去前3名:不然為什麼很多人都玩過的辣個團康遊戲要叫做「不說你我他」呢?因為你我他到處都是,想不說都難。

接著,第4、8、9、10名:

「何」(what)、「手」(hand)、「心」(heart)、「見」(see)都收錄於斯瓦迪士核心詞彙列表之中。剩下第5名「世界」(world)和第6名「今」(now),使用頻率雖然都頗高,但綜觀儘可能多日本語的文本中,又以「今」高出許多:日本的國立國語研究所(国立国語研究所,NINJAL)在2011年發佈了文獻集《現代日本語書き言葉均衡コーパス》(BCCWJ)語彙表,從日本的眾多出版書籍、暢銷書、圖書館館藏、雜誌、報紙、傳記、教科書、傳單、雅虎知識+、雅虎部落格、韻文、法律、國會會議紀錄等文本之中,「短單位語彙」統計了104,612,423(1億461萬2,423)條詞彙;(短單位的統計表比長單位的多了語彙素的細分類,但兩表其實差不多)在這104,612,423條,共計185,136種詞彙之中,代表從屬關係「的」的「の」出現了5,061,558次,平均1萬條詞彙之中以出現483.84次的高頻率位居首位。

而《統計5,000首Vocaloid樂曲的歌詞》出現頻率第6名的「今」,擠進BCCWJ的前100位窄門,以平均1萬詞中出現9.09次的佳績,在185,136種詞彙之中高居第99名,其頻率是「世界」的2倍有餘。

但是別忘了,《統計5,000首Vocaloid樂曲的歌詞》的影片中選出的排名是有經過篩選的,BCCWJ的前20名分別是の、に、て、は、だ、を、た、する、が、と、で、も、いる、ます、の、ある、です、いう、こと和ない,(第1名和第15名的の意義不同,第1名的の表示從屬關係、第15名的の意思與「こと」相近,在表中定義為不同詞彙)

其中只有する、いる、ある、いう和こと不是助詞,其他15條詞彙都是助詞,都會被作者刪除;但是誠如前述,除了助詞外,如「こと」般「太一般的詞彙」也會刪掉(所以看來する、いる、ある和いう也凶多吉少),因此可以推測BCCWJ日本語出現頻率最高的20個詞彙,在《統計5,000首Vocaloid樂曲的歌詞》之中八成都被刪光光了,因此榜上才看不到;而BCCWJ的前100名之中又有不少這類助詞和「看起來太一般的詞」。

從這個角度來看,第99名的「今」,假設如同影片作者般篩選BCCWJ的列表,「今」的排名著實會往前不少,絕對不只第99名。同理,以平均1萬詞中出現4.10次,位居第188名的「世界」也是如此;雖然BCCWJ中「世界」出現的頻率大幅低於「今」,但是在5,000首Vocaloid曲的歌詞之中,「世界」出現頻率卻比「今」還要高,高居第5名,也因此個人認為,在這前10名之中,可能只有「世界」算是一個頗有特色的詞。

進一步綜觀前100名的情況,除了那些斯瓦迪士核心詞彙列表的詞彙以外,許多失戀類歌曲常見的詞彙像是「痛い」、「嫌い」、「命」等,被作者突出介紹,被認為是「很Vocaloid」(ボカロっぽい)的詞。

不過顯然光比較Vocaloid的情況,並不能說明這些詞彙很常出現這點就是Vocaloid的特色:因為搞不好這些詞在宅歌乃至日文歌都很常見(這點其實影片作者也有提到),Vocaloid只是其中一個符合分布情形的平凡例子;顯然,這需要更多後人的探索才能進一步確定。


====Outro:Vocaloid的歌詞特別在哪?====


《統計5,000首Vocaloid樂曲的歌詞》的影片提供了很好的出發點:

僅僅統計Vocaloid曲(而且僅有殿堂曲)的歌詞詞彙分布情況,不足以斷言「Vocaloid的特色就是這個!」但我們可以以此為基礎,透過比較Vocaloid以外的歌曲的歌詞,來看看究竟是宅圈的音樂乃至日本的音樂都很常出現某些詞嗎?還是Vocaloid名曲真的相較於其他,更常提到某些詞?Vocaloid名曲歌詞的詞彙出現頻率跟其他音樂比較,特殊的部分在哪?前100名之中頻繁出現的失戀類歌曲的常見詞彙,其他音樂也是如此分佈嗎?

在比較之下,更能明顯地形塑Vocaloid的特色所在。總而言之,光從前述前10名之中,個人認為最具特色的「世界」這個詞來看,或許就與Vocaloid在世界範圍內為人所知的情況有某種異曲同工之妙,也突然覺得最近很紅的某款手遊名字取得真不錯(#

像是《統計5,000首Vocaloid樂曲的歌詞》這樣的統計結果,有許多值得探討、值得挖掘的部分。這篇文章純屬個人意見,也僅僅是個人在看完統計後萌生出的想法,當然也有許多值得再議論的部分(本人研究領域非語言學,有誤還請指正)

那支影片也帶給你什麼樣的思考呢?有哪些讓你覺得有趣的部分呢?

在Vocaloid圈之中看到的那些「浪費才能」(誇獎意味)的同好發掘出的成果中,有哪些是讓你覺得有趣的呢?



補充:

跟日本的BCCWJ一樣,臺灣也有類似詞彙出現頻率統計的資源,有興趣的朋友可以前往中研院的語言學研究所「現代漢語語料庫詞頻統計」查詢。



小編/ #CCT

留言

這個網誌中的熱門文章

マリッジミライ(結婚未來)—因初音未來結下良緣的奇蹟

爆紅後的ピノキオピー,談論新作『META』-訪談全文翻譯