ChatGPTの生成形AIから自社コンテンツを守る方法

生成型AIの急速な進化に伴い、ChatGPTなどの大規模な言語モデルを利用したサービスの数が急増しています。これらのサービスは、インターネット上のテキストや画像を学習データとして使用し、サービスの性能を向上させています。

一方で、このAIの進歩に伴い、機密情報、著作権で保護された素材、個人データが無許可で使用される懸念が高まっています。そのため、ウェブサイトの所有者は、自社コンテンツが無断でAIによって利用されないようにするための専門的な方法を採用する必要があります。

大規模言語モデル（LLM）の概要

大規模言語モデル（Large Language Models, LLM）は、ChatGPTのようなAIシステムを指し、多言語のテキストデータを理解し生成する能力を備えています。これらのモデルは、データのパターン認識や質問応答に基づく予測を行い、精度を向上させます。ウェブサイトのコンテンツは、主要なデータソースの一つであり、これらのモデルの学習に使用されます。

無許可の機械学習への懸念

LLMがウェブサイトのコンテンツを利用して学習する際、コンテンツの所有者は不正な使用の懸念があります。これにより、コンテンツの盗用や知的財産権の侵害が発生し、ウェブサイトの検索エンジンランキングに悪影響を及ぼす可能性があります。このため、ウェブサイトの管理者やコンテンツ所有者は、ChatGPTなどのLLMがどのようにデータを利用しているかを理解し、コンテンツの不正な使用を防ぐための対策を講じる必要があります。

コンテンツ保護の専門的手法

以下に、ChatGPTなどのLLMからウェブ上のコンテンツを保護する専門的手法を紹介します。

1. Robots.txtを活用したクローラーアクセス制御

ウェブサイトのコンテンツ保護策の一環として、robots.txtファイルを適用する方法があります。robots.txtファイルは、ウェブサイト所有者が検索エンジンのクローラーや他の自動化システムによるサイトへのアクセスを制御するための仕組みを提供します。

robots.txtファイルは、クローラーやスパイダーとして知られるウェブロボットに対し、ウェブサイト内でアクセス可能なページや制限されるファイルを通知するシンプルなテキストファイルです。これはウェブロボットがインターネット上を巡回し情報を収集する際に受け渡される、小さなメモのようなものであり、どの部分が閲覧可能でどの部分が閲覧不可かを伝える役割を果たします。

この機能を通じて、例えばインターネット利用者がウェブサイトのコンテンツを検索した際に、その内容を制御することが可能となります。これは、ウェブロボットが理解する秘匿されたコードのようなものであり、ウェブサイトのコンテンツをチェックするのにウェブロボットが必要な役割を果たします。

robots.txtファイルを利用することで、ChatGPTなどの大規模言語モデルがウェブサイトのコンテンツを学習材料とする事態を回避し、有害なボットを排除すると共に、主要な検索エンジンのみがサイトを巡回できるよう制御できます。これにより、ウェブサイト所有者はコンテンツの綿密な管理を行いやすくなります。

2. 検索エンジンのインデックス阻止に向けたnoIndexメタタグの適用

2番目の対策法として、noIndexメソッドがあります。これは、ウェブページのHTMLに特定の※1メタタグを追加することで、自身のコンテンツが検索エンジンのデータベースに含まれて検索されないようにする手法です。

※1 HTMLに記述されるタグ：ウェブページの情報をウェブブラウザや検索エンジンに伝達するためのタグウェブインデックスは、検索エンジンがインターネット上のすべてのウェブページについて学習する方法です。このプロセスでは、検索エンジンは特別なコンピュータプログラムである「ウェブ・クローラー」を使用し、ウェブサイトからウェブサイトへのリンクをたどり、各ウェブページに含まれる情報を収集します。検索エンジンのウェブ・クローラーは、ウェブページを訪問した後、収集した情報を大きなデータベースに追加します。ユーザがGoogleなどの検索エンジンで検索を実行すると、検索エンジンはそのデータベースを参照し、最も役立つと考えられるウェブページを表示します。

noIndexメソッドを適用するためには、保護したい各ページの先頭に以下のコードを追加します：

このため、noIndexメソッドは、ChatGPTなどの言語モデルがコンテンツにアクセスできないように保護するためのシンプルかつ効果的な方法です。ページのHTMLにnoIndexメタタグを追加することで、検索エンジンがコンテンツをインデックス化するのを防ぎ、学習材料として使用されないようにします。なお、既にウェブサイトがrobots.txtファイルによって保護されている場合、追加の対策は不要です。

3. 認証機能を活用したウェブ・クローラーおよびボットの制限

言語モデルであるChatGPTのような利用を回避し、ウェブサイトのコンテンツを保護するもう一つの方法は、認証機能の実装です。この手法では、ログインおよびパスワードを持つ認証済みユーザーのみがコンテンツにアクセスできるよう制限します。

認証機能を導入することで、ウェブ・クローラーやその他の自動化システムがコンテンツにアクセスするのを効果的に阻止できます。これにより、これらのシステムがコンテンツをスクレイピングし、トレーニング目的に使用することが困難になります。

ウェブサイトに認証を実装するには、HTTPベーシック認証、OAuth、またはTraleorのような認証機能を備えたコンテンツ管理システムなど、さまざまなツールや手法を活用できます。

記事の構成案から導入文まで、記事作成に最適なツールといえます。利用料は月額3,000円からで、毎月一定のクレジットが付与され、ツールを利用するごとにそれが消費されます。月額9,800円を支払うと無制限で利用可能です。無料プランもありますので、興味があれば試してみる価値はあります。

4. 著作権の保護

著作権の保護は、ウェブサイトのコンテンツが言語モデルによって利用されるのを防ぐための一手段です。この方法により、コンテンツの著作権が主張され、コンテンツの保護が明示されます。具体的には、ページのフッターに著作権表示を含めることで著作権を主張し、コンテンツが保護されていることを示します。もしコンテンツが許可なく使用されていることが明らかになった場合、デジタルミレニアム著作権法（DMCA）を活用して侵害コンテンツの削除を要求することができます。

DMCAは、インターネット上の著作権侵害に対処するための法的枠組みを定めた米国の法律です。もし自身のコンテンツが許可なく使用されていると疑われる場合、侵害者に対して削除通知を送付し、コンテンツの削除を求めることができます。もし侵害者がこれに応じない場合は、法的手続きを進めることが可能です。

このツールの特徴は、登録したキーワード（2〜8個まで）に基づいて文章を作成する点です。特にメール文の作成においては、どのような内容のメールを送れば良いか迷った際に非常に便利です。

たとえば、「納期」や「申し訳ございません」といったキーワードを入力すると、納期に遅れた際の謝罪文を作成してくれます。

ちなみに、ELYZAは東京大学・松尾研究室出身のディープラーニング専門のプロフェッショナル集団であり、今後のツール開発にも注目が集まることでしょう。