banner
ニュース センター
卓越した顧客サービス

スケール AI の使用量は少ない

Jul 21, 2023

シリコンバレー最大の人工知能開発者たちは言語の問題を抱えている。 ChatGPT のような生成 AI ツールは、英語とスペイン語で普及しています。 しかし、初期の調査によると、これらの同じツールは、インターネット上であまり表現されていない「低リソース」言語では慢性的にパフォーマンスが低下しています。 現在、トレーニング データの最大のサプライヤーの 1 つが、この問題に正面から取り組んでいるようです。

シリコンバレーで最も有名なトレーニング データ会社の 1 つである Scale AI は現在、数十の言語にわたって 60 人近くの契約ライターの役割を募集しています。 各求人情報には、その仕事が「より良いライターになるための生成人工知能モデル」を訓練するプロジェクトであると記載されている。 言語には、ハウサ語、パンジャブ語、タイ語、リトアニア語、ペルシア語、コーサ語、カタロニア語、ズールー語などが含まれます。 「専門家」のカテゴリにある 6 つの求人情報では、カンナダ語、グジャラート語、ウルドゥー語、テルグ語を含む南アジア地域の言語に特化したライターの採用を求めています。

言語間には大きな賃金格差があり、西洋言語はグローバル・サウスの言語に比べて 15 倍もの差があります。 たとえば、ドイツ人ライターの求人の時給は 21.55 ドルですが、テルグ語専門家の求人の時給はわずか 1.43 ドルです。

低賃金言語の多くは「低リソース」とみなされます。これは、インターネット上であまり利用できない言語を意味するため、AI モデルにはデータが不足し、貧弱なデータが残ることもあります。 ウルドゥー語やベンガル語など、世界で最も話されている言語の一部は、オンラインでの存在感が乏しいため、依然としてリソースが少ないと言えます。 イェール大学の助教授であり、法科大学院の情報社会プロジェクトのメンバーであるジュリアン・ポサダ氏によると、「低リソース」言語のパフォーマンスを向上させるために AI が人間の労働者をスケールアップすることは注目に値する変化だという。

「あなたはすでにインターネット全体を消去しました。 さて、どこか別の場所でデータを入手する必要があります」とポサダ氏は世界各国に語った。 「これは、4chan からランダムに取得できるデータではなく、専門知識を持った人によって実際に構築されたデータが必要であることを物語っている可能性があります。」

マサチューセッツ工科大学(MIT)の人工知能と意思決定の助教授であるディラン・ハドフィールド・メネル氏によると、生成AIシステムが低リソース言語に弱い理由については、いくつかの一般的な説明があるという。

「1 つの [理論] は、適切なモデルを構築するのに十分な教師なしデータが存在しないということです。たとえば、ベンガル語の言語パターンです」とハドフィールド・メネル氏はレスト・オブ・ワールドに語り、このような言語がインターネット上で表現されることがいかに少ないかを指摘した。 ベンガル語を母語とする人は 2 億 7,000 万人、世界人口のほぼ 3% に相当しますが、全 Web ドメインのわずか 0.013% に使用されています。

Scale AI の採用説明で概説されているタスクの 1 つは、この問題に対処しようとしている可能性があります。それは短編小説を書くことです。 データ ワーカーに、ベンガル語などの言語で特定のトピックに関する創造的な文章を作成するよう依頼することは、既存のインターネット ドメインに束縛されない、デジタル化されたテキストの新しい本体を構築する方法です。

Posada 氏によると、ヘイトスピーチがほとんどなく、開発者が完全に所有するこれらのオリジナル ストーリーを使用すると、将来的にコンテンツ管理の必要性が減るという追加の利点が得られる可能性があります。 また、ニューヨーク・タイムズがOpenAIに対して検討している訴訟のような、高額な費用がかかる可能性のある訴訟を回避するのにも役立つ可能性がある。

新しいデータを生成することが解決策の 1 つですが、他の戦略も有効であることは明らかです。 求人情報の別のタスクでは、ライターに「AI モデルによって生成された一連の回答をランク付けする」よう求められています。

ハドフィールド・メネル氏にとって、これは RLHF、つまり「人間のフィードバックからの強化学習」の明らかな例です。 RLHF は、モデルの入力を単に変更するのではなく、モデルの出力を調整することに重点を置いた手法です。 これは、モデルがリソースの少ない言語で苦労する理由に関する別の一般的な理論に取り組みます。 「もう一つの可能​​性は、それらの(リソースの少ない)言語で上手に書く方法についてのフィードバックが根本的に欠けていることです」と彼は言う。