C语言实现搜索引擎技术之中文分词
发布:smiling 来源: PHP粉丝网 添加日期:2015-04-28 13:43:45 浏览: 评论:0
搜索引擎技术在码农眼里一直是比较高大上,其中文分词是中文自然语言处理领域的基础研究,也是中文搜索引擎的核心模块之一,现在我们来用C语言简单实现一下中文搜索引擎中文分词.
目前而言的分词系统绝大多数都是基于中文词典的匹配算法,其中,最为常见的是最大匹配算法(Maximum Matching,以下简称MM算法),而MM算法有三种:一种正向最大匹配、一种逆向最大匹配和双向匹配,本文以正向最大匹配算法为例介绍其基本思想和实现.
一、基本思想
(1)假设词典中最长的词语字数为w(一般设置为8个字符,即4个汉字).
(2)判断带分词语句长度是否大于w个字,如果大于w则跳到(3),如果小于w则跳到(6).
(3)取待分词语句的前w个字。
(4)在词典中查找w,如果存在,则从语句中去掉w,从语句中w后的词开始重复上面过程.
(5)如果不存在,就去掉这w个字的最后一个字.
(6)检查是否是单字或者空,如果是,则退出.
(7)如果不是,则继续判断词库中是否存在这个词,如此反复循环,直到输出一个词.
(8)继续取短语的前w个字反复循环,这样就可以将一个语句分成词语的组合了.
二、简单实现,代码如下:
- #include <stdio.h>
 - #include <string>
 - #include <set>
 - using namespace std;
 - set<string> g_setWordDictionary;
 - int construct()
 - {
 - g_setWordDictionary.insert("中国");
 - g_setWordDictionary.insert("中国人");
 - g_setWordDictionary.insert("纽约");
 - g_setWordDictionary.insert("北京");
 - }
 - bool match(string &word)
 - {
 - set<string>::iterator itor = g_setWordDictionary.find(word);
 - if (itor == g_setWordDictionary.end())
 - {
 - return false;
 - }
 - return true;
 - }
 - void forward_maximum_matching(string content, set<string> &keywords)
 - {
 - #define MAX_LEN 12 //词库中最长词语(utf-8一个汉字3个字节)
 - #define MIN_LEN 3 //单字(原理同上)
 - int len = content.length();
 - int right_len = len;
 - int start_pos = 0;
 - bool ret = false;
 - string kw_value = "";
 - int kw_len = 0;
 - int kw_pos = 0;
 - //单字或空串
 - while (right_len > MIN_LEN)
 - {
 - //语句大于词库中最长词语
 - if (right_len >= MAX_LEN)
 - {
 - kw_value = content.substr(start_pos, MAX_LEN);
 - }
 - //语句小于词库中最长词语
 - else
 - {
 - kw_value = content.substr(start_pos, right_len);
 - }
 - //词库匹配
 - ret = match(kw_value);
 - kw_len = kw_value.length();
 - kw_pos = 0;
 - while (!ret && kw_len > 2*MIN_LEN)
 - {
 - //去掉候选词右边一个汉字
 - kw_len -= MIN_LEN;
 - kw_value = kw_value.substr(kw_pos, kw_len);
 - //继续匹配
 - ret = match(kw_value);
 - }
 - //匹配到词
 - if (ret)
 - {
 - keywords.insert(kw_value);
 - //从语句中去掉匹配到的词
 - start_pos += kw_len;
 - right_len = len - start_pos;
 - }
 - //未匹配到词,下移一个字
 - else
 - {
 - start_pos += MIN_LEN;
 - right_len = len - start_pos;
 - }
 - }//while (right_len > MIN_LEN)
 - }
 - int main()
 - {
 - //构造词库
 - construct();
 - //切分词库
 - string content = "我是中国人,我是来自中国北京的中国人,在纽约工作";
 - set<string> keywords;
 - forward_maximum_matching(content, keywords);
 - set<string>::iterator itor;
 - //输出分词
 - for (itor=keywords.begin(); itor!=keywords.end(); ++itor)
 - {
 - printf("result: %sn", (*itor).c_str());
 - } //phpfensi.com
 - return 0;
 - }
 
Tags: c 搜索引擎 c 中文引擎
相关文章
- ·使用SCons轻松建造自己的程序(1)(2013-11-14)
 - ·使用SCons轻松建造自己的程序(2014-02-28)
 - ·详解Unix和Linux操作系统中Cron的用法(2014-02-28)
 - ·教你使用Linux系统的Shell脚本维护Oracle(2014-02-28)
 - ·嵌入式基础:ARM下GCC交叉编译器的制作(2014-02-28)
 - ·分析评价Linux和WinCE的优缺点(2014-03-05)
 - ·Linux内核完全剖析---math_emulate.c程序(2014-03-05)
 - ·Linux系统下的C语言开发都需要学些什么(2014-03-06)
 - ·Linux socket编程实例:echo服务器程序(2014-03-06)
 - ·Ubuntu配置Java+Eclipse+MyEclipse环境(2014-03-06)
 - ·Linux终端图形库 Curses简介和实例分析(2014-03-06)
 - ·Linux系统下C语言编程:线程的创建和使用(2014-03-06)
 - ·基于COM接口的Shell扩展技术应用(2014-03-07)
 - ·PHP也可以当成Shell Script使用(2014-03-07)
 - ·Linux定时任务系统Cron入门(2014-03-07)
 - ·如何用Linux安装TCP/IP路由器(2014-03-08)
 
推荐文章
热门文章
最新评论文章
- 写给考虑创业的年轻程序员(10)
 - PHP新手上路(一)(7)
 - 惹恼程序员的十件事(5)
 - PHP邮件发送例子,已测试成功(5)
 - 致初学者:PHP比ASP优秀的七个理由(4)
 - PHP会被淘汰吗?(4)
 - PHP新手上路(四)(4)
 - 如何去学习PHP?(2)
 - 简单入门级php分页代码(2)
 - php中邮箱email 电话等格式的验证(2)
 
