AIが直面する「2026年問題」をクリアするたった二つの方法 | ゲヲログ2.0

AIが直面する「2026年問題」をクリアするたった二つの方法



学習データが枯渇化したり、低質化したりすることでもたらされる問題が「2026年問題」である。アメリカの研究チームが報じたことが発端であり、その論文によれば、データの枯渇について一定の予測ができるという。それによれば『2030~2050年までに低品質テキストデータは枯渇化し、2026年までに高品質テキストデータは枯渇化する・2030~2060年までにビジョンデータが枯渇化する』とのこと。なぜこのような問題が起きるのだろうか?

というのも、既存のAIは機械学習(ML)をコトの本質としている。そして、既存のMLは大規模データセットを学習データとして取り、この存在そのものを前提としているからだ。この構図がある限り、「2026年問題」つまり、学習データの枯渇化・劣化は避けて通れない。これはあたしにとっても意外な”吉報”だった。一言で言うならば、学習データは大きければ大きいほど良いという条件をより良いAIのための前提とするのは間違っているのだ。この学習データの枯渇に対抗できる二つの方法がある。


①機械学習(AI)のための枯渇化する恐れのある学習データそのものを増幅する.

学習データが尽きてしまうならばそれを補う作用の持つデータの水増しが必要になる。例えば、MLによって生成されるデータを水増しデータとして取り扱い、学習データそのものを増幅してしまう、という手法はこれまでのMLの歴史でも簡単に見て取れる先行研究の成果である。ただ、水増しデータでMLを回し続けると、当のMLの品質を維持できない可能性は否定できない。これを転変的に変える、AIの新しい形「世界モデル」のような考え方もある。

②機械学習(AI)のために用意するデータが小さくても効率よくMLが作用するようにする.

学習データそのものが小さい状況でも上手くMLが回るようなシステム的状況を作れば良い。例えば、小さめのテキストデータをユニークメディア的アイデアとセットにして考え、学習データとしてとらえる。すると従来からのMLの手法でもうまくMLが回るようになる。これが二つ目の方法である。


もちろん、これが①で提示した「世界モデル」のようなAIの新しい形とは、区別がつかない部分もあるので、厳密に二つ”だけ”が解決策か?というとこれは別問題であって、特にメンドイ話になる。データ側の問題としてこれをとらえるか、それともAIのアルゴリズム側の問題としてこれをとらえるかで複雑に条件分岐する話でもあるわけだ(そういう意味では解決策がたった二つしかないわけではない~厳密に言えばネ~)。さらに言えば、実利的な目的を結論に据えるか?あるいは学習そのものの精度を高める目的を結論に据えるかという外部因子の問題も存在するだろーな…( ´ー`)y-~~

文句だけを言っても何も始まらんのでやってみることにするが、ゲヲログの研究方針は基本的に②のスタンスを取っている。既存の学習方法でも、学習データに奇抜さを仕込めば、何か新しい知見を得ることができるのではないか?という単純な発想である。これには理由があって…例えば、MLのアルゴリズム自体の手法改善をするような高品質な労働力もそのための資金もない、という切実な理由があるから。ゲヲログという特殊なオウンドメディアのような新しい学習データのアイデアは十分あるので、これを活用しない手はない…というわけだね。

というわけで引き続き研究を進めていきたいと”小生”は考えておるわけですw

※本記事は研究目的に使うため、コピーレフト方針の除外対象になります。