ディープシークがAIデータを盗んだとOpenAIが発表、しかし "蒸留 "は一般的か？ > ブログ

オンラインカジノディープシークがAIデータを盗んだとOpenAIが発表、しかし "蒸留 "は一般的か？

Page Info

View照会: 359 登録日: 25-01-30 22:00

本文

中国の人工知能（AI）新興企業ディープシークがその費用対効果の高いモデルでシリコンバレーやウォール街を騒がせて以来、同社は業界全体で一般的な慣行によるデータ窃盗で非難されている。広告 OpenAIは、DeepSeekが自社のGPTモデルの「蒸留」を使って、オープンソースのV3とR1モデルを、欧米のハイテク大手が自社モデルに費やしているコストのほんの一部で訓練している証拠を掴んだと、水曜日にFinancial Timesが報じた。ブルームバーグは、ディープシークに関連するグループが秋にアプリケーション・プログラミング・インターフェース（API）を通じて大量のデータを流出させたかどうかの調査を開始したと、この件に詳しい関係者の話として報じた。ディスティレーションとは、より大きな、より洗練されたモデルの挙動を模倣するために、より小さなモデルを訓練する手段である。このやり方は、ユーザーに同様のパフォーマンスを提供しながら、モデルのサイズを縮小しようとする多くの企業で社内で一般的に行われている。このことは、モデルのトレーニングがしばしば出所の疑わしい多くのデータに依存しているという事実と相まって、知的財産権の侵害を告発するOpenAIの誠実さに疑問を呈する専門家もいる。「Distillationはほとんどのサービス利用規約に違反するだろうが、ビッグ・テックがそれを非難しているのは皮肉なことだ。コーネル大学の上級客員講師で、グーグルやリンクトインを含むハイテク企業でAIに携わってきたルッツ・フィンガーは、電子メールで声明を発表した。"知識は自由であり、守るのは難しい" 21日、ドナルド・トランプ米大統領が「スターゲイト」と呼ばれる新たなAI構想を発表した際、（右から）ソフトバンクグループの孫正義会長兼CEO、オラクルのラリー・エリソン会長の隣に立つOpenAIの共同創業者兼CEOのサム・アルトマン（右）。写真AFP＝時事ディープシークは、メタ・プラットフォームズのLlamaやアリババ・グループ・ホールディングのQwenなど、他のオープンソースモデルを利用した独自の蒸留モデルを持っている。アリババはサウスチャイナ・モーニング・ポストを所有している。広告しかしOpenAIは、ディープシークがクローズドソースのGPTモデルへのAPIアクセスを使って、無許可でモデルを抽出したと主張している。ディープシークは、主要モデルであるV3とR1のトレーニングに蒸留を使用したことは認めていない。