10月20日|美團LongCat團隊正式發佈當前高度貼近真實生活場景、面向複雜問題的大模型智能體評測基準——VitaBench(Versatile Interactive Tasks Benchmark),並已全面開源。