スペイン語の歌詞で使われる単語の使用頻度解析
頻度順 一歩踏み込むスペイン語単語1000と言うのを見つけた。
どうやらニュースでよく使われる単語を選んで載せているそう。
頻度順一歩踏み込むスペイン語単語1000 [ 柿原武史 ] |
(より一般的な単語の頻度順リストはwikiで公開されている:https://en.wiktionary.org/wiki/Wiktionary:Frequency_lists#Spanish)
幸い私はテストも無ければ、スペイン語が出来なくともちっとも困らない(悲しいけれど。)ので一般的な文章の頻度については全く興味は無い。
もうちょっと個人的に、自分が毎日聴いている音楽の歌詞についてとなると凄く気になるのでトライしてみた。
解析した歌詞は「物量で攻めるスペイン語の歌で1フレーズ暗記リスト」で紹介した曲から19曲選んで先ずは歌詞を保存。
先週インストールしたspaCyで、単純に歌詞を単語に分解して動詞なら原型が同じなら同じ単語として出てきた回数としてカウントしていく。
(リンク:スペイン語向けの自然言語処理)
解析結果
全19曲で使われている総単語数は6427個。重複を除くと1192単語。
よく使われる単語の上位32個(3221回/6427個)で歌詞の50%をカバーしている。
上位はyo(351回),el(257回),que(256回),tú(207回)で、解析せずとも何となく予想出来るのが並んでいる。
動詞だけ抜き出すと単語数は1109個(総数が6427個なので約17%が動詞)で、原型が同じものを除くと327個。
スペイン語の一番厄介な活用については、一番多いのが”ser”で15活用。次いで”hacer”が13、”poder”が10と続くが、ほとんどの場合は1。
動詞だけで活用数の平均を出すと1.5なので、大抵の場合はよく使われる活用を2個覚えておけば反応できるハズ。
つまり動詞は必要な活用だけ覚えたとして327個*1.5=490個覚えておけばいい計算になる。
20数年前なら恐らく手書きでノートに書いて何週間かかるんだろうって作業が数分で完了してしまう。凄い時代になった…
今回使ったコードはgitで公開しています。
結果:spacy_lyrics_analyze_result.txt
解析コード:spacy_lyrics_analyze.py