机器人“抓取”开放数据引争议

科学家还要继续将数据发布到网上吗？据《自然》报道，如今，研究人员正在讨论这个问题，因为机器人程序经常会挖掘开放获取数据库和科学出版物来训练人工智能（AI）工具，有些甚至还会分析和组合数据集，以比人类更快的速度产出新的成果和论文。一些人认为，自动化的研究对科学发展有益，如加速发现新的药物靶点，这意味着研究数据应该继续保持开放。另一些人则指出，有证据表明，机器人抓取复杂数据集可能产生低质量研究和“AI垃圾”，同时导致患者信息等敏感数据被泄露。因此，他们主张制定新的规则并建立技术系统，限制机器人对数据库的访问。 “无论你支持还是反对AI，上述问题都值得每个人思考。”加拿大卡尔顿大学的Andrea Howard说。显而易见的是，AI抓取行为非常普遍。去年6月，开放获取知识库联盟（COAR）发布的一项调查发现，90%多的成员机构都遭遇过机器人的抓取，其中大多数至少每周都会遇到一次异常频繁的机器人活动。这种抓取通常是为了给AI模型提供训练数据。这些数据还被用于生成完全由AI模型产出的新研究成果。 “一个巨大的变化是，自动化流程能以极快的速度和规模解决一个数据集所能回答的研究问题。”澳大利亚麦考瑞大学的Miri Forbes说，“这大大压缩了留给研究人员的工作空间。” 上个月，Forbes在社交媒体平台Bluesky上发起一场关于开放数据共享的讨论，回应意见不一。网友指出，“自由分享信息意味着放弃控制，并接受它可能被用于任何目的，包括我不喜欢的用途”，“作为一个科学共同体，我们需要解决这个问题，不要害怕被AI抢先”。也有不少人担忧AI工具不会注明引用的数据，而且机器人似乎正在绕过隐私保护，抓取敏感的个人数据。

打印本页关闭窗口