
IT 之家 1 月 1 日音信,据 TechCrunch 报谈,跟着东谈主工智能视频生成期间的禁止发展,一个道理的幽闲启动在业内流行:当一家公司发布全新的东谈主工智能视频生成器时,似乎总有东谈主会第一时候用它来制作威尔・史小姐吃意大利面的视频。这不仅演酿成了一种蕴蓄热梗,更成为揣摸新式 AI 视频生成器性能的非官方基准 —— 考研其能否传神地呈现史小姐狼吞虎咽吃面的场景。史小姐本东谈主也在本年二月通过 Instagram 发布了一段师法视频,躬行参与了这场蕴蓄狂欢。

IT 之家提防到,"威尔・史小姐吃意大利面"仅仅 2024 年东谈主工智能限制稠密奇特"非官方"评测尺度中的一个,此前还有一位 16 岁的成就者成就了一款诓骗法子,让东谈主工智能放肆《我的宇宙》(Minecraft)游戏,并以此测试其建筑贪图能力。与此同期,还有一位英司法子员创建了一个平台,让东谈主工智能在"你画我猜"(Pictionary)和"四子棋"(Connect 4)等游戏中相互对战。
东谈主工智能限制不乏更学术化的性能测试,那么为何这些略显歪邪的测试反而大约飞快走红呢?原因之一在于,很多行业尺度的东谈主工智能基准测试对平凡东谈主来说过于晦涩难解。企业频频标榜其东谈主工智能在奥林匹克数学竞赛或博士级别艰难中的解题能力,但大盛大东谈主使用聊天机器东谈主仅仅为了聊天或复兴电子邮件。
即使是行业内盛大遴荐的评测行径,也巧合更有用或更具信息量。以受到稠密东谈主工智能可爱者和成就者密切暖热的大家基准测试平台"聊天机器东谈主竞技场"(Chatbot Arena)为例,其允许任何蕴蓄用户对 AI 在特定任务上的发达进行评分,举例创建网页诓骗法子或生成图像。但参与评分的用户经常不具有代表性,他们大多来自东谈主工智能和科技行业,何况他们的投票也陆续基于个东谈主且难以捉摸的偏好。
像"四子棋""我的宇宙"和"威尔・史小姐吃面条"这类奇特的东谈主工智能基准测试清亮不是严谨的实证沟通,致使不具备盛大适用性。因为即便 AI 大约竣工生成"威尔・史小姐吃面条"的视频,也并不料味着其能很好地生成汉堡的图像。
这些另类的 AI 基准测试可能在短期内不会隐匿,毕竟它们不仅具有文娱性,而且还易于交融。2025 年欧洲杯体育,又会有哪些新奇的基准测试会走红呢?