監督コメントをテキストマイニングする

2021/08/07 Writer:ごいんきょ(えりおっと)

 こんにちは。中断期間ですがガンバの試合を見ている私には中断期間の実感のない毎日。せっかくの夏休みなのでやってみようと思い、前々から気になっていたことを調査しました。

 試合終了後の監督コメント、それぞれ特徴がありますね。最近、特徴的と注目を浴びているのがブラウブリッツ秋田の吉田監督でしょうか。モンテディオ山形のクラモフスキー監督もいいですね。ツエーゲン金沢の柳下監督もインパクトがあります。日本海側J2チームの話ばかりしているような気もしますがそれはともかくとして、今回はテキストマイニングという手法によって、監督コメントの特徴は本当にあるのかという分析を行ってみたいと思います。

 私はレノファ山口のサポーターでして、2016年に初めて試合を見たときにサポーターの皆さんからきいたのが「監督は『選手はよくやってくれました』『帰って練習します』しか言わない」という話でした。本当にそうなのかな?という疑問を何年も持っていたところ、最近「テキストマイニング」という分析方法を知り、この方法を使えば分析できるのではと思いました。せっかくの機会なので今回は、当時のレノファ山口監督(現鹿児島ユナイテッド監督)、上野展裕監督の監督コメントの分析を行ってみたいと思います。

 

 そもそも「テキストマイニング」とは何でしょうか。デジタル大辞泉を検索すると「文章を対象としたデータマイニング。ソーシャルメディアやウェブ上の口コミなどの大量の文字情報を自然言語処理などで分析し、有用な情報を抽出する技術を指す。」という解説があります。ひとまず、ここでは「文字情報の分析をする。」

ということがわかれば大丈夫です。

 

では、今回分析する文字情報と、分析の結果知りたいことを書き出してみましょう。

 分析対象の文字情報:2015年J3リーグ第1節~2017年J2リーグ第15節までのレノファ山口監督(当時)上野展裕監督の試合総評コメントおよび質疑応答コメント

 分析の結果知りたいこと:「選手はよくやってくれました」「帰って練習します」というコメントを本当に言っているか

 

対象データにつきましては、

  • JFL時代は試合コメントがない(なのでJFLのチームであるヴィアティン三重時代も対象外)
  • 天皇杯はレギュレーションがややこしいので対象外
  • データを集めるのに山口時代で力尽きたので甲府時代と鹿児島時代も対象外(各チームのサポーターの方すみません)

ということで、今回はJ3初年度~J2 2年目の退任前の試合までの期間となりました。ちなみにこの期間に山口に在籍していた選手は現横浜F・マリノスの小池龍太選手、現川崎フロンターレの小塚和季選手、現ガンバ大阪の小野瀬康介選手などなど……書くとわかりやすいでしょうか。今見るとすごいですね。

 

 では、実際に作ってみたデータの一部を見てみましょう。

 データはすべてレノファ山口の公式サイト(https://www.renofa.com/)から取得しています。質疑応答はインタビュアーの質問を文章から抜き、監督の回答のみを対象としています。

 このデータを、テキストマイニングを行えるkh coder(https://khcoder.net/)というフリーソフトを使って分析します。

 

分析手順は

  1. Excelで作った調査対象データをソフトウェアに読み込ませる
  2. ソフトウェア側で一部データに加工を施す
  3. データの分析結果を「共起ネットワーク」とよばれる図に出力する

となります。

 

 これは、kh coderに調査対象データのExcelを読み込ませたところです。

 kh coder自体のソフトの使い方は別のサイトを見ていただくとして、今回はどのような加工を施したかをご説明したうえで分析結果を見てみたいと思います。

 

 まず、「複合語」とよばれる2語以上の語で構成された語を文中から抽出した結果を示します。抽出には、kh coderに同梱されている「茶筌」というソフトウェアを使っています。

 サッカーの監督コメントらしい単語が並びますね。これらの複合語のうち、今回は4回以上出現する複合語を強制的に抽出する設定をします。あわせて、「思う」という語を除外する設定もします。なぜかというと、「思う」という語が突出して出現するため他の語がそれに引っ張られてしまい、語同士の関連性が見えにくくなるためです。「思う」は今回の分析では重要な語ではないため、除外して問題なしと判断しました。

 これらを設定したうえで、それぞれの語の関連性を図示する「共起ネットワーク」という図を作ります。結果は以下の通りです。

 円が大きいほど文中に頻出する語になります。色が同じ円は関連性が強く、円をつなぐ線が太いほど語同士が関連している、というふうに見ていただけるとありがたいです。「試合」と「選手」の円が大きいのが監督コメントらしいですね。「選手はよくやってくれました」の文に出てくる「選手」と「よくやって」に関連があり、「選手たち」ともつながっています。ですので、これは実際に「選手(たち)はよくやってくれました」と言っているのでは、と考えられます。

 一方、「帰って練習します」の方はどうでしょう。共起ネットワークの「練習」付近に「帰って」などの語はありません。「練習」の円をクリックすると、文中に出てくる「練習」という単語付近の文章が読めます。この結果をみてみましょう。

 「戻って練習」「帰って練習」という文がありますので、実際に「帰って練習します」という発言をしていますが、「選手はよくやってくれました」よりは頻度が高くなく、共起ネットワークでは強く出なかった。もしくは練習という言葉がほかにも多く使われているため、他の語が大きく表示された、とも考えられます。図にするといろいろなものが見えて面白いですね。

 分析対象となった文章以外で目立つのが山口サポーターへの感謝の言葉です。共起ネットワークで比較的大きな円で構成されているので出現回数も多く、かなりの頻度でサポーターへの感謝の言葉を述べていることがわかります。今回の分析での一番の収穫は、サポーターが意識していない監督からの感謝の気持ちが表示されたことかもしれませんね。

 

 ということでまとめると

「選手(たち)はよくやってくれました」という言葉は発言頻度が高め。「帰って練習します」という言葉の発言頻度はそこまで高くない。

 サポーターへの感謝の言葉はサポーターには認識されていないが、コメントに出てくる頻度が高め。

 という結果になりました。もう少し細かく分析すればもっと調べられますが、今日はここまで!

Writer:ごいんきょ(えりおっと)

大阪在住の山口サポです。どこサポかわからないとよく言われます。

 

【Twitter】@bengalese

【note】https://note.com/honomemo