Wikipedia、お前もか――AI生成記事が直面する課題プリンストン大学の研究チームによる調査 [3eqQ7J★]

米国プリンストン大学の研究者チームが2024年10月10日に発表した調査 ”The Rise of AI-Generated Content in Wikipedia” （Wikipedia における AI 生成コンテンツの台頭）によると、同年8月に英語版Wikipediaに新規作成された記事の約5％がAIによって生成された可能性があることが明らかになった。

この調査は、AI検出ツール「GPTZero」と「Binoculars」を使用し、AI生成コンテンツの割合を推定したものだという。研究者らは、これがWikipediaの信頼性に重大な影響を与える可能性を警告している。

研究は、2024年8月に作成された英語版Wikipediaの2,909件の記事を対象に行われた。これらの記事の約4.36％がAI生成と判断され、その一部には明らかにAIが生成した特徴が見られたという。

AI生成コンテンツを特定するために使用された「GPTZero」と「Binoculars」は、AI生成記事の検出を目的としたツールである。GPTZeroはブラックボックス型の商用ツールであり、AI生成の可能性を確率で示す。一方、Binocularsはオープンソースの検出手法を採用しており、言語モデル間の交差パープレキシティを活用してAI生成コンテンツを特定するとのこと。

AI生成と判断された記事には以下のような特徴があった。

1. 参照の欠如： AI生成記事には、信頼できる情報源からの参照が不足している場合が多く、中立性や信頼性が損なわれている。

2024年8月の英語記事における1文あたりの脚注数。AI生成記事は脚注が少なく、情報の裏付けが不十分であることを示している。

2. 自己宣伝的な内容： AI生成記事の一部は、特定の企業や個人の宣伝を目的としており、Wikipediaの中立性基準に違反しているケースが見られた。

3. 偏向的な視点：政治的または歴史的に議論の多いトピックで、特定の視点に偏った記述が確認された。例として、アルバニアの歴史的出来事に関する5件の記事がすべてAI生成と判断され、それらの作成者が同一人物であることが判明したという。

研究者らは、AI生成記事の増加がWikipediaの運営に与える影響について懸念を示している。特に、以下の点が課題として挙げられる。

信頼性の低下：AI生成記事の品質の低さが、Wikipedia全体の信頼性を損なうリスクがある。
トレーニングデータへの影響：AI生成コンテンツが他のAIモデルのトレーニングデータに再利用されることで、さらなる偏向や品質低下を引き起こす可能性がある。
Wikipedia運営者はAI生成コンテンツを検出し、削除するための新たな方策を模索しているという。研究チームは、検出ツールの精度向上やAIコンテンツの倫理的な利用ガイドラインの策定が必要であると指摘している。

https://ledge.ai/articles/wikipedia_ai_generated_content_analysis

Wikipedia、お前もか――AI生成記事が直面する課題 プリンストン大学の研究チームによる調査 [3eqQ7J★] (1)

Wikipedia、お前もか――AI生成記事が直面する課題プリンストン大学の研究チームによる調査 [3eqQ7J★] (1)