博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
中文分词常用算法之基于词典的双向最大匹配
阅读量:6004 次
发布时间:2019-06-20

本文共 1288 字,大约阅读时间需要 4 分钟。

启发式规则:

    1.如果正反向分词结果词数不同,则取分词数量较少的那个。

    2.如果分词结果词数相同

                 a.分词结果相同,就说明没有歧义,可返回任意一个。

                 b.分词结果不同,返回其中单字较少的那个。

算法描述:

  1. S1为带切分字符串,FMM为S1正向最大匹配切分结果,BMM为S1逆向最大匹配切分结果
  2. 如果FMM和BMM长度不相等则输出长度较短的那个否则转3
  3. 如果FMM和BMM的结果相同则输出任意一个否则输出单个字字数最少的结果

Java实现代码:

1 public static List
SegDouble(String text) { 2 List
FMM = FMM(text); 3 List
BMM = BMM(text); 4 if (FMM.size() != BMM.size()) { 5 if (FMM.size() > BMM.size()) 6 return BMM; 7 else 8 return FMM; 9 } else {10 int i, iFMM = 0, iBMM = 0;11 boolean isSame = true;12 for (i = 0; i < FMM.size(); i++) {13 if (!FMM.get(i).equals(BMM.get(i)))14 isSame = false;15 if (FMM.get(i).length() == 1)16 iFMM++;17 if (BMM.get(i).length() == 1)18 iBMM++;19 }20 if (isSame)21 return FMM;22 else23 return iFMM < iBMM ? FMM : BMM;24 25 }26 27 }

小结:

双向最大匹配是要基于最大正向匹配和最大逆向匹配的一个算法,即将两种算法都进行一遍,然后根据大颗粒度词越多越好,非词典词和单字词越少越好的原则,选取两种算法中的一个结果予以输出。只要词典足够优秀,双向最大匹配的正确率还是挺高的。

转载于:https://www.cnblogs.com/stardjyeah/p/4528788.html

你可能感兴趣的文章
笔记:PostgreSQL 、Node.js 、函数计算
查看>>
JavaScript设计模式之中介者模式
查看>>
Android 进阶路线(思维导图)
查看>>
C++ 获取桌面(Desktop)选中项
查看>>
干货:mysql索引的数据结构
查看>>
LeetCode 1 Two Sum 两数相加
查看>>
从零开始的微信支付接入(一)用户认证
查看>>
Android DDMS查看Threads情况
查看>>
连接远程桌面提示: 之前用于连接到的凭据无法工作...的解决办法
查看>>
linux何检查一个目录是否为空目录
查看>>
压缩介绍、bz2、gz、xz压缩工具
查看>>
StretchRect...果然和文档上说的一样
查看>>
Python成生随机KEY工具
查看>>
将一个数组拆分为几个至少三个元素的递增子序列
查看>>
备忘,解决WIN10下COM注册问题
查看>>
SAP移动解决方案在零售行业的应用方案及案例分享
查看>>
cx_Oracle install
查看>>
jquery ajax从后台获取数据
查看>>
基于Windows平台TSM 6.x版本下,如何删除初始化失败的实例。
查看>>
Start Code School Today!
查看>>