英国AI研究与评测公司Artificial Analysis于周一(11/17)发布全新的幻觉基准测试AA-Omniscience,用以衡量模型在知识覆盖度与诚实自我校准(避免乱猜)之间的平衡。该测试除了计算模型的准确率外,若出现幻觉则会扣分,因此只 ...
根据Sakana AI公告,最新B轮融资筹集了200亿日元(约合1.35亿美元、9亿多人民币),总估值来到约4000亿日元(约合26.35亿美元、184亿人民币),创下日本非上市初创企业的估值纪录。
告别“AI味”!Gemini 3初体验:不废话、不讨好,但这价格让我手抖,谷歌,微软,应用程序,马斯克,gemini,openai ...
——告别“马屁精”:谷歌特意强调,Gemini 3减少了“阿谀奉承(sycophancy)”。现在的原则是“告诉你真相,而不是你想听到的话。”这意味着Gemini 3在面对错误前提时,会有更强的批判性思维,而不是一味迎合用户。