在thor上部署π0.5
有2种方法:
- 直接使用pytorch +
torch.compile - 使用pytorch + tensorrt engine
其中方法2的难点是如何将tensorrt engine与pytorch流程结合起来,
如使用pytorch + action DIT engine或者使用pytorch + llm tensorrt engine + action DIT engine
基本思路是将tensorrt engine调用封装成forward方法并动态替换pytorch实现,这样可以灵活地替换我们想优化性能的部分。再保持高灵活性的同时兼顾推理性能。
具体细节有个生产级的开源项目, 已经完成了量化,编译,部署。十分值得学习和参考:
https://github.com/happyAnger66-an/model_optimizer