自然言語処理(NLP)ができることできないこと

 「AI 2041 人工知能が変える20年後の未来 (未来3)」(カイフー・リー著)の記載に自然言語処理、特に近年のGPT-3の技術についてわかりやすく解説されていました。

 自然言語を深層学習で処理するために従来は、入力する文章に対して正解となる出力を人間が与えなければなりませんでした。

 これは、例えば航空チケットの発行という限定された領域であっても、自然言語として、日本語の様々な言い回しに対応させて意味付けをして、人間が教師となって出力に設定しなければならず、深層学習を機能させるための前提作業が膨大となってしまっていました。

 これに対して、グーグルのトランスフォーマーやオープンAIのGPT-3は「自己教師あり」とされているもので、文章の一部を入力として、その続きを出力として人間が出力を設定することなく、自動的に機械学習ができるというものです。この技術により、45テラバイトという膨大な文章データを高性能コンピュータで処理することにより、特定の分野に限定されることなく極めて自然な文章で回答させることを可能にしたというものです。

 ここでポイントとなるのが、膨大な文章データが多くはインターネットから入手した雑多な情報であろうということであり、これが出力の特徴となっているということです。

 著者によればGPT-3は、因果関係、抽象概念、常識、創造性などは苦手としており、元のデータの特性からネットに見受けられるバイアス、偏見といったネガティブな面も反映されているということです。

 ここまで技術の出所が理解できれば明らかなように、この自然言語処理NLP)は大量のデータセットから入力に対してマッチングさせて、近時的なテキストを出力しているだけであってAIが文章の意味を理解して文章を創造しているわけではないということであり、人間であれば当然備わっている知性、感情、意識の集中度やその対象といったものを備えているわけではないということです。

 いずれにしても現在のマスコミはこの技術を過大に評価しているのは間違いないでしょう。

 

水野健司特許法律事務所

弁護士 水野健司

水野健司特許法律事務所|技術・知的財産、外国企業との契約書を中心に解決 (patent-law.jp)