スペイン語初級者が楽に多読出来る無料記事を探す方法案

2021年10月13日 sam

スペイン語学習ブログなのにpython記事ばかりになっているけど、今回もpythonです。

無料で公開されているニュースや記事から学習者に適切な語彙選択がされた文章かどうか？を読む前に判定して効率良く自分に合った文章を探すかについてやってみたことの記録です。

あくまで思い付きです。

コード置き場(https://github.com/samsumario/blog_public/tree/main/blog_843)

Table of Contents

文章を探す

どこから持ってきてもいいのですが、もし当てがない場合はスペイン語を多読する為のフリーサイトの日記でリンクを張っているので適当に探してみてください。

読みたいのが見つかったらコピーしてメモ帳に貼り付けます。(今回はsample.txt等と適当に保存することを想定)

文章の長さと読むのにかかる時間について

読書速度と単語チェッカーの日記で作ったスクリプトをそのまま使います。

文章の長さは単語の数と単純に定義して、スペースで区切って単語数をカウントします。

一方で読む速度は単語の文字数(“de”と”inteligente”だと同じ一語でも読む時間が変わる)や、高い理解度を維持してゆっくり読む等、目的によって変わるので先ずは自分が読みたいようにざっくり決めました。

速度の決め方も当てがない場合は読書速度と単語チェッカーの日記で紹介した方法を参考にしてください。

取り合えず今回は私の読みやすい速度の約100wpmで設定しています。

内訳は下記。

5文字以下：0.4sec、5以上7文字以下：0.6sec、7文字以上10文字以下：0.8sec、10文字以上：1sec

これを基準にカウントすればこれから読むのに必要な時間が分かるので、読むのをパスしたり早く読めるように訓練したりする指標に使えます。

コード説明

文字数と秒数の設定値はconf.iniで変えられます。

reading_time_estimator.pyへ文章をリスト化したものと、コンフィグを渡して計算しています。

今回はreadability_analyzer.pyのファイル内で、渡しています。

単語のむずかしさ

構文が難しくても単語を知っている場合に意味が推測出来たりするので、文章内で使われている単語は読む難易度を大きく左右します。

一番確実な方法は自分の知っている単語を書き出す事ですが、それでは大変なので今回は動詞と形容詞にフォーカスして文章を評価してみます。

動詞について

基本動詞リストを複数サイトから厳選するの日記で作った動詞リストを使います。

読書を想定したベーシックな単語は多分350個前後かなとリストを見て判断しました。

少しレベルが上がると+150個ぐらいは知ってるかなぁとこれも適当に決めつけて、ざっくり2つのリストを作りました。

(基本動詞のverbo_380.txtとちょい足し動詞のverbo_150.txt)

リンク先の日記で作った時よりリストを綺麗にしてみましたので、再度アッロードしています。

後はspaCyで保存したテキストを解析して、動詞なら作ったリストの中に入っているかどうかをカウントしていきます。

(spaCyの使い方はスペイン語向けの自然言語処理参照)

これで、読みたい文章に使われている動詞のうち何%ぐらいが知っている単語かどうかを評価しようと考えています。

使われている動詞の9割ぐらい知っていればずいぶん読みやすいのではなかろうかと。

他の動詞情報としてスペイン語らしく、活用がしんどい問題があるので活用も一応spaCyで推測してカウントさせています。

原形・現在形が多ければ読みやすかろうぐらいの解析データですが、残念なことにspaCyの推定精度が悪いのであまり信ぴょう性が無い…

形容詞について

形容詞も挙げていくとキリがないので、基本形容詞リストを複数サイトから厳選するの日記で作ったリストから470個選びました。

形容詞はリストミスが多かったので、動詞リストと同じくブラッシュアップしたリストをアップロードします。(adjetivo_470.txt)

後は動詞と同じく、spaCyで形容詞と判断された単語が作ったリストに入っているかをカウントするだけ。

スクリプトで言うと、上記の動詞・形容詞処理はreadability_analyzer.pyのdef open_listとdef count_basic_wordsの部分で主に行っています。

ネイティブから見た可読性

スペイン語文章の読みやすさを判定する日記で作ったスクリプトをそのまま使いました。

ネイティブが簡単と思わないなら初級者の私が読んでも時間の無駄だなとすぐ判断する為です。

今回はfernandez.pyとszigriszt_pazos.pyで２つのファイルで指標を出しています。

結果

Hola Qué Pasa : Hoy es el Día de Colón en Estados Unidos

スペイン語学習者用のニュースサイトです。毎日１記事アップロードされています。

約2分(218語 / 100wpm)で読み切れる長さで、動詞も形容詞も66%が用意したリスト内の語です。

コロンブスの話なので、動詞の活用は39%が過去形と過去形が多め。(原形22%, 現在形27%)

可読性はbastante fácil(75/71)判定となっています。

nippon.com : Las instalaciones comerciales de Ikebukuro ganan prominencia durante la pandemia

日本のニュースがスペイン語で書かれているサイトです。

約2分45秒(297 / 100wpm)で読み切れる長さで、動詞67%、形容詞63%がリスト内の語。

動詞の活用は原形21%で現在形と過去形が33%ずつです。

可読性はHolaQuéPasaと同じくbastante fácil(73/69)判定。

EL PAÍS : Becky G

有名なスペインの新聞会社。Becky Gへのインタビュー記事で、会話文です。

読むには13分…かかりますが、動詞83%、形容詞72%がリスト内の語でとても読みやすいです。

動詞の活用は原形21%で現在形29%過去形44%。

会話文の為か、可読性はfácil(88/84)です。

EL MUNDO TODAY: Mickey Mouse vuelve a ganar las elecciones en Disneylandia

最後はスペイン語版虚構新聞。ミッキーがディズニーランドの選挙で再選した記事です。(多分皮肉…)

4分40秒(463語/100wpm)で読み切れる長さで、動詞54%、形容詞53%がリスト内の語です。

動詞の活用は他の記事と同じですが、唯一未来形を5%観測しています。

可読性はnormal(60/56)でこのレベルだと初級者が読むのがかなりしんどい…

まとめ

文章内の動詞と形容詞が6割以上リスト内に入っていて、可読性スコアが70以上であれば案外と読めてしまうことが分かりました。

もう少しサンプルを増やして、読めそうで読めない感じの文章でトライしてみたらまた日記にしてみたいと思います。