可以把原文分段分词并且把你的替换规则放到hashmap(python字典)中,遍历分词并且从hash中提取KV,这样能快不少;同时,可以把上面的过程改成多进程/线程。正确率多少取决于你的分词正确率。
考虑下jieba等分词工具,同时可以把你的替换规则添加到分词规则里,应该99.9%的正确率没问题。