電波系美少女バーチャルインターネッツアイドル文野純がメッタメタ遊んでメッタメタ考えて勉強するゲヲログ姉妹サイト...

メニュー⇒ ソフトウェア 思想評論 数学 書評 歴史 統計 雑感 馬鹿企画

滝沢カレンのインスタ文章とNHKニュース文章を比較分析

滝沢カレンのインスタ文章とNHKニュース文章を比較分析

すでに構文解析は済んでいたので、リスペクトを兼ねて別な手法で滝沢カレンの文章を分析しよう。日本語で書かれた滝沢のインスタ文章とNHKニュース文章とを、次のRコードによってウォード法を使いクラスター分析する。クラスター分析とは、似たような性質を持つものをまとめてクラスターに表記する手法のことである。なお、前記のQiitaにならって滝沢の画像は彼女のインスタの中で一番魅力的なものを選んだ(笑)。

☆画像は滝沢カレン/karen takizawaさん(@takizawakarenofficial) • Instagram写真と動画より引用

構文解析のほうがこの類の短文解析においては、滝沢のより緻密なところを分析できそうだが、こちらは一般的な文章との比較ができる点が違う。しかしながら、NHKのニュース文章との比較でそれほどまでに決定的な階層クラスターができたかというとそうでもない。クラスタリングはもっとデータ数を集めれば平均化されて正確な値が出るかもしれない。今後非階層を使うのも手のうちの一つだ。次に主成分分析の結果を示す。

このコードを作るのが今回の課題。文字総数が違うので、工夫が必要だ。滝沢の文章が句読点の前文でばらけているのに対して、NHKのニュース文章はやはり定型的に当てはまっている。その後、線形判別分析の概念とサポートベクターマシン(SVM)のアルゴリズムを用いて比較してみようと考え、実際にRコンソール上で比較分析を実行したが、線形判別分析では70パーセント、SVMでは100パーセントの割合で判別ができた。さて、今回の課題はふたつある。

課題その一・千分率の数的操作を特定の文章に当てはめて比較できるようにしてから主成分分析を行うアルゴリズムを考え構築せよ。また、主成分分析の特徴およびアルゴリズムについて自分で調べ簡潔にまとめよ。

課題その二・サポートベクターマシン(SVM)のアルゴリズムとその特徴に関して調査し、特にその応用性の側面において現代社会の中でどういった状況で使われているか、自分なりの考え方もまじえ簡潔に表記しまとめよ。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする