32度域获悉,美团LongCat团队正式发布当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark),并已全面开源。
👍喜欢有价值的内容,就在
32度域 扎堆
32度域获悉,美团LongCat团队正式发布当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark),并已全面开源。