banner
ニュース センター
卓越した顧客サービス

AI企業はデータスクレイピングを巡り清算に直面している

Jul 14, 2023

こんにちは、Eye on AI へようこそ。先週、世界中から 12 のデータ保護監視機関が集まり、データ スクレイピングとそのプライバシーへの影響について言及する共同声明を発表しました。

この声明は、オーストラリア、カナダ、メキシコ、中国、スイス、コロンビア、アルゼンチン、英国などのプライバシー当局者が署名しており、ウェブサイト運営者、特にソーシャルメディア企業をターゲットにしており、データ保護に基づく義務があると述べている。プラットフォーム上の情報を違法なデータスクレイピングから保護するためのプライバシー法。 公的にアクセス可能な個人情報であっても、ほとんどの管轄区域ではこれらの法律の対象となる、と声明は主張しています。 特にこの声明では、個人情報を収集するデータスクレイピング事件は、多くの法域で報告対象となるデータ侵害となる可能性があることも概説されています。

著者らは声明を公開することに加えて、Alphabet (YouTube)、ByteDance (TikTok)、Meta (Instagram、Facebook、Threads)、Microsoft (LinkedIn)、Sina Corp (Weibo)、および X Corp に直接送ったと述べています。 (X、以前は Twitter)。 また、データスクレイピングに関連する危害からユーザーを守るために、これらの企業が一連の管理を導入すべきであることも示唆しています。これには、スクレイピング活動を監視し対応するチームの指定も含まれます。

概説されている潜在的な害には、サイバー攻撃、個人情報詐欺、監視、無許可の政治的または情報収集、望ましくないマーケティングやスパムが含まれます。 しかし、声明では人工知能について一度も言及されていないものの、この問題ではますます大きな火種になりつつある。

インターネット (ソーシャル メディア サイト上の情報を含む) をスクレイピングすることは、まさに OpenAI、Meta、Google などの AI 大手がモデルをトレーニングするために多くのデータを取得した方法です。 そして、ここ数週間で、データ スクレイピングが新しい AI 環境における主要な最前線として浮上しました。 たとえば、ニューヨーク・タイムズは今月初め、AIによるコンテンツのスクレイピングを防ぐために利用規約を更新し、現在同出版社はこの件でOpenAIを訴訟することを検討している。 これは、OpenAIと投資家マイクロソフトに対して6月に提起された集団訴訟案に続くもので、この訴訟では、同社が通知、同意、正当な補償なしに何億人ものユーザーの個人情報をインターネットから密かに収集したとされている。

強い文言の書簡がこれらのテクノロジー大手の行動に影響を与える可能性は非常に低いですが、データスクレイピングに対する訴訟や規制が発生する可能性は十分にあります。 たとえば、データプライバシーと現在AI規制がかなり急速に進んでいるEUでは、データスクレイピングが政府機関によってますます厳しく監視されています。

AI の本質はデータです。 そこで次のような疑問が生じます。企業が自由にデータをスクレイピングできない場合、モデルのトレーニングに必要なデータはどこから入手できるのでしょうか?

選択肢の 1 つは合成データです。これは、現実世界の出来事によって作成された情報ではなく、人工的に生成された情報を指します。 このプロセスには、常にではありませんが、AI 自体を使用して、より小規模な実世界のデータ セットから大規模な合成データのデータセットを作成することが含まれます。結果として得られる合成データは、実世界のデータの統計的特性を反映しています。

元のデータがスクレイピングされない限り、これは実行可能な解決策となる可能性があります。 Gartner は、2030 年までに AI モデルにおいて合成データが現実世界のデータを追い越すと予測しています。しかし、合成データには欠点があります。 たとえば、外れ値を見逃したり、不正確さをもたらしたり、理想的にはプロセスを遅くする追加の検証手順が発生したりする可能性があります。 また、一部の企業は合成データによってバイアスが排除されると主張していますが、多くの専門家はこれに反論し、一部の形式の合成データが実際にデータセットに追加のバイアスを導入する可能性があると考えています。

もう 1 つの潜在的な解決策は、ファーストパーティ データのオプトインです。 これまで実世界のデータがスクレイピングされ、許可なく使用され、さらにはユーザーの下で売り払われてきたのとは異なり、これはオプトインされ、自発的に提供される実世界のデータです。