首页 作者专栏文章正文

研究人员发现,很大一部分互联网是人工智能生成的黏液

作者专栏 2025年02月22日 16:54 82 admin

  

  

  互联网继续稳步落入人工智能的垃圾箱。据报道,亚马逊网络服务(AWS)人工智能实验室的研究人员最近进行的一项研究发现,“大量的网络”已经由低质量的人工智能生成和翻译的内容组成。

  这篇论文还有待同行评议,但用“震惊”这个词似乎再合适不过了。根据这项研究,具体来说,57.1%的互联网上的所有句子都被翻译成两种或两种以上的其他语言。这些翻译的低质量和惊人的规模表明,大型语言模型(LLM)驱动的人工智能模型被用于创建翻译材料。这种现象在“资源较低的语言”中尤为突出,即那些数据较少、无法更有效地训练人工智能模型的语言。

  换句话说,研究人员认为这是一种获取点击诱饵广告收入的策略,人工智能首先被用于大规模地生成质量较差的英语内容,然后人工智能驱动的机器翻译(MT)工具将这些内容转录成其他几种语言。翻译出来的材料一次比一次差——结果,整个网络区域都充斥着退化的人工智能打乱的副本。

  AWS的研究人员在论文中写道:“机器生成的多向并行翻译不仅主宰了网络上资源较低语言的翻译内容总量,而且还构成了这些语言的网络内容总量的很大一部分。”

  这并不是生成人工智能对网络可用性构成威胁的第一个警告信号。例如,谷歌一直被迫在其搜索和谷歌新闻算法中应对人工智能生成材料的持续存在。亚马逊在人工智能内容方面也遇到了明显的困难;除了严重的人工智能生成的图书列表问题外,最近的一份报告显示,这家电子商务巨头充斥着诸如“我无法满足此请求,这违反了OpenAI的使用政策”等标题的产品。

  在其他地方,除了特定的平台之外,许多报告和研究都清楚地表明,人工智能生成的内容遍布整个网络。

  但是,虽然英语网络正在经历一场稳定的(如果明显的话)人工智能蔓延,但这项新研究表明,对于许多非英语国家来说,这个问题要紧迫得多。

  更糟糕的是,从长远来看,人工智能产生的胡言乱语的流行可能会使用低资源语言有效训练人工智能模型几乎不可能。为了培养一名高级法学硕士,人工智能科学家需要大量高质量的数据,而这些数据通常是通过网上搜索获得的。如果互联网的某个特定领域充斥着荒谬的人工智能翻译,那么用更罕见的语言训练高级模型的可能性甚至在开始之前就会受到阻碍。

发表评论

夕阳红鲁ICP备2021033673号-3 备案号:川ICP备66666666号 Z-BlogPHP强力驱动 主题作者QQ: