为了账号安全,请及时绑定邮箱和手机立即绑定

正则表达式以点|分号空间分割但忽略 url 例如

正则表达式以点|分号空间分割但忽略 url 例如

Go
元芳怎么了 2023-06-12 16:54:41
我正在尝试解析和匹配大量法律文本,将其全部拆分成单独的句子。我有以下正则表达式,它只适用于几行简单的文本:[^\.\!\?\;\n]*[\.\!\?\;\n](\s+)!和 ?或在这里非常无关紧要但是。和 ; 因为分隔符在我尝试处理的文本中很常见。问题是上面的正则表达式只是找到那些后跟空格字符的定界符。例如,以下文本将无法正确匹配:成员国法律或根据与卫生专业人员签订的合同并遵守第 3 段中提到的条件和保障措施;出于公共卫生领域的公共利益考虑,处理是必要的,例如防止严重的跨境健康威胁或确保高标准比较工具 https://ec.europa.eu/ploteus/en/compare 已 采用7可比较的程序(例如认证/审计),并按照成员国的要求进行注册。基于欧盟或成员国法律的医疗保健和医药产品或医疗器械的质量和安全,该法律规定了适当和具体的措施来保护数据主体的权利和自由,特别是职业保密;处理是...以下整个部分:出于公共卫生领域的公共利益考虑,处理是必要的,例如防止严重的跨境健康威胁或确保根本不会匹配。任何有助于改进上述正则表达式的帮助将不胜感激!
查看完整描述

1 回答

?
偶然的你

TA贡献1841条经验 获得超3个赞

我想你想要的名字是一个句子分词器。对于 Go,我可以推荐一个库:github.com/jdkato/prose,它应该很有魅力。

就个人而言,我从未使用过。祝你好运!


查看完整回答
反对 回复 2023-06-12
  • 1 回答
  • 0 关注
  • 193 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号