Skip to content

September 13, 2016

分句(Segment)

阅读本文大约需要: 3 分钟你是一个翻译,但是至少你得懂一点正则表达式。所以,做好你先拿个计算机科学的学位,再做翻译。 谈到分句,也就是将一个文档自动分为合适的句子,也是一个难题。 例如,把句子的结尾设为句号(.),问号(?)和感叹号(!),或许还要加上省略号。 但是,遇到缩写就出问题,例如 a.d. 或者 etc. 之类的,就要例外规则。 另一个问题是句号后面出现参考文献脚注,这是我长期头痛的问题。 具体解决方案见: Segmentation rules for text with references 我先把他的解决方案抄一遍: \p{Ll}\.[\)\]””]?\d+([-–,]\d+)?#!#[\s]+\p{Lu} 但这不是我研究出来的。 ***************************************** 如果不是因为我刚买了新的笔记本电脑(原来那个是2010年的Thinkpad X220T,目前主要用途是用CPU的热量来煎鸡蛋),我就不会想起把skydrive 目录下的所有文件移动到onedrive上,就不会丢失所有memoQ的存档文件。… Read More »分句(Segment)

%d bloggers like this: