ZKeeer

Joined 4 years ago

·4 years ago

可以把原文分段分词并且把你的替换规则放到hashmap(python字典)中，遍历分词并且从hash中提取KV，这样能快不少；同时，可以把上面的过程改成多进程/线程。正确率多少取决于你的分词正确率。

考虑下jieba等分词工具，同时可以把你的替换规则添加到分词规则里，应该99.9%的正确率没问题。