美团龙猫大模型LongCat-Flash总结美团大模型之前很少被关注过,但是近期推出的龙猫大模型很受关注,来简单总结下龙猫做了什么样的事情。 总的来说,LongCat-Flash是一个 560B的模型(28层、64个attention head),每个token激活18.6B~31.3B(平均27B)参数。 模型在30天内完成超过20T个token的训练,同时推理速度可达每秒100 token,成本低至每百万个token输出只需0.7美元。 为了让LongCat-Flash具有Agent智能,首先在混合数据集上进行大规模pre-train,随后针对