Anthropic、なぜ著作権侵害がバレたのか?

不思議なのが、なぜ、著作権侵害がバレたのか?

普段、AI を利用していても、どのデータがソースとなっているかはまったくわからない。
何か、元のソースを判別する方法があるのか。
Anthropic の著作権侵害の場合はなぜそれがバレたのか、これもまた、Claude 本人 (?) に聞いてみた。

発覚の経緯
1. Books3データセットの発見
作家のアンドレア・バーツ氏の小説「The Lost Night」がBooks3データセットに含まれていることが発見されました。これが最初の手がかりとなりました AnthropicAIsmiley。

2. 内部文書と証拠開示
法的手続きの過程で、Anthropicの内部メールが明らかになりました。この中で、同社幹部が合法的なライセンス取得を避けて書籍を「盗む」ことを意図的に選択したことが記録されていました AnthropicがAI学習の著作権侵害訴訟で作家グループと和解へ、最大約150兆円の損害賠償を回避か - GIGAZINE。
特に共同創設者のダリオ・アモデイ氏が「法的・実務・ビジネス上の面倒」を避けるために書籍を盗むことを好んだと記録されていることが判明しました Claude(クロード)とは?Anthropicの最新AIモデルの使い方や活用例を紹介。

3. 具体的なダウンロード行為の発覚
法廷文書により、以下の詳細が明らかになりました:

2021年1-2月:共同創設者のベン・マン氏がBooks3データセット(196,640冊)をダウンロード
2021年6月:Library Genesis(LibGen)から500万冊をダウンロード
2022年7月:Pirate Library Mirror(PiLiMi)から200万冊をダウンロード GIGAZINEAIsmiley

4. 証拠隠滅の疑い
音楽出版社の訴訟では、AnthropicがBitTorrentを使用した海賊行為の事実を隠していたことが、別の作家の訴訟を通じて発覚したと指摘されています モデル訓練において個人データをどのように使用しますか? | Anthropic Privacy Center。

5. 調査ツールの提供
The Atlanticが作家向けに、自分の作品がLibGenに含まれているかを確認できる検索ツールを公開し、これにより多くの作家が被害を認識できるようになりました モデルの廃止予定 - Anthropic。
この一連の発覚により、Anthropicの大規模な海賊行為が明らかになり、最終的に15億ドルの和解に至りました。発覚のきっかけは複数の要因が重なった結果でしたが、特に法的手続きにおける証拠開示が決定的な役割を果たしました。

深くお詫び申し上げます。

なるほど、最初はおそらく、本来ならそこでしか得られないような情報が、Claude からも入手できたことによる、といったところだろうが。

Claude を使い続けてちょっと心配なのが、Atlantic が組織的にデータを「盗む」ことが企画されたことである。
たとえばスクレイピングによって、「たまたま」、サイトの利用規約に則っていないアクションが取られていた、などといったことではない。
明らかに、人為的に盗難したデータが AI の知能として使われていたのである。
現在では、IT 技術者がもっとも利用している AI の一つと思われる Claude が、こういった「悪の組織」によって開発されたものであることは少々いただけない。

ちなみに、今回の Claude の調査結果の最後にもお詫びする文章が付け加えられているのが、他人事ではないのを理解しているようで面白い。
← 前の記事
Anthropic、著作権侵害で 2,200 億円の賠償金
次の記事 →
アリババが開発した AI
記事一覧に戻る