transformer落地应用小tips

training

  • transformer 的显存占用和输入的token个数成平方关系的,所以如果输入的序列很短,训练起来压力不大(如文本任务:输入文本小于50,VIT的话,采用patch 32 的)
  • transformer 也有多种model size 可供选择,如:small , tiny ,训练压力更小

inference

  • 如果序列很短,如:10以内,CPU的推理速度降到10ms 以内都不是问题(单进程),GPU的问题是:transformer 相对resnet 这种,显存占用高一点,并发会低一点
  • 转成onnx 或者trt 量化,对在线推理也有非常大的提升。如:float16, 可以节省一半的显存
Comments
登录后评论
Sign In