当前位置:首页 > PHP教程 > php高级应用 > 列表

PHP+MySQL+sphinx+scws实现全文检索功能详解

发布:smiling 来源: PHP粉丝网  添加日期:2021-12-09 15:21:26 浏览: 评论:0 

本文实例讲述了PHP+MySQL+sphinx+scws实现全文检索功能,分享给大家供大家参考,具体如下:

我的个人环境是PHP7.1+MariaDB10.1.23

下载安装资源包

sphinx地址

http://sphinxsearch.com/downloads/release/

PHP的sphinx扩展下载

http://pecl.php.net/package/sphinx

SCWS 下载地址

http://www.xunsearch.com/scws/download.php

SCWS 词库下载地址

http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2

安装过程

因为我的是PHP 7 版本,安装sphinx的时候遇到点问题

安装sphinx

  1. [root@MevHost sphinxb]# mkdir -p /usr/local/src/sphinx 
  2. [root@MevHost sphinxb]# cd /usr/local/src/sphinx  
  3. [root@MevHost sphinxb]# tar -xf sphinx-2.2.11-release.tar.gz   
  4. [root@MevHost sphinxb]# cd sphinx-2.2.11-release 
  5. // 这里是指定安装的目录,还有引用mysql,(我这里是mariadb的安装目录) 
  6. [root@MevHost sphinxb]# ./configure --prefix=/usr/local/sphinx2 --with-mysql=/usr/local/mariadb/ 
  7. [root@MevHost sphinxb]# make && make install 

安装sphinx客户端

这个要安装上,不然安装PHP安装sphinx扩展时会出现报错

  1. [root@MevHost sphinxb]# cd /usr/local/src/sphinx/sphinx-2.2.11-release/api/libsphinxclient  //sphinx-2.2.11-release目录下   
  2. [root@MevHost sphinxb]# ./configure --prefix=/usr/local/sphinx2/libsphinxclient  
  3. [root@MevHost sphinxb]# make && make install  

为PHP安装sphinx扩展

  1. [root@MevHost sphinxb]# cd /usr/local/src/sphinx 
  2. [root@MevHost sphinxb]# tar zxvf sphinx-1.3.1.tgz   
  3. [root@MevHost sphinxb]# cd sphinx-1.3.1   
  4. [root@MevHost sphinxb]# phpize   
  5. [root@MevHost sphinxb]# ./configure --with-sphinx=/usr/local/sphinx2/libsphinxclient --with-php-config=/usr/local/php/bin/php-config  
  6. [root@MevHost sphinxb]# make && make install 

成功后再 php.ini 添加:

extension=sphinx.so

PHP7版本sphinx扩展下载

下载地址

http://git.php.net/?p=pecl/search_engine/sphinx.git;a=shortlog;h=refs/heads/php7

安装scws

  1. [root@MevHost sphinxb]# tar -jxvf scws-1.2.3.tar.bz2 
  2. [root@MevHost sphinxb]# mkdir /usr/local/scws   
  3. [root@MevHost sphinxb]# cd scws-1.2.3   
  4. [root@MevHost sphinxb]# ./configure --prefix=/usr/local/scws/   
  5. [root@MevHost sphinxb]# make && make install 

为PHP安装scws扩展

  1. [root@MevHost sphinxb]# cd /usr/local/src/sphinx/scws-1.2.3/phpext  
  2. [root@MevHost sphinxb]# phpize   
  3. [root@MevHost sphinxb]# ./configure --with-php-config=/usr/local/php/bin/php-config 
  4. [root@MevHost sphinxb]# make && make install 

在php.ini 加入

extension = scws.so

scws.default.charset=utf-8

scws.default.fpath = /usr/local/scws/etc

安装scws词库

[root@MevHost sphinxb]# tar jxvf scws-dict-chs-utf8.tar.bz2 -C /usr/local/scws/etc/

#www为php-fpm运行用户

[root@MevHost sphinxb]# chown www:www /usr/local/scws/etc/dict.utf8.xdb

创建MySQL数据源

mtest.sql

  1. /* 
  2. Navicat MySQL Data Transfer 
  3. Source Database    : mtest 
  4. Target Server Type  : MYSQL 
  5. Target Server Version : 50505 
  6. File Encoding     : 65001 
  7. Date: 2017-12-10 17:47:58 
  8. */ 
  9. SET FOREIGN_KEY_CHECKS=0; 
  10. -- ---------------------------- 
  11. -- Table structure for userinfo 
  12. -- ---------------------------- 
  13. DROP TABLE IF EXISTS `userinfo`; 
  14. CREATE TABLE `userinfo` ( 
  15.  `id` int(11) unsigned NOT NULL AUTO_INCREMENT, 
  16.  `userid` int(11) unsigned NOT NULL DEFAULT '0'
  17.  `addtime` datetime NOT NULL
  18.  `post` varchar(20) NOT NULL DEFAULT ''
  19.  `summary` text NOT NULL
  20.  PRIMARY KEY (`id`) 
  21. ) ENGINE=InnoDB AUTO_INCREMENT=21 DEFAULT CHARSET=utf8; 
  22. -- ---------------------------- 
  23. -- Records of userinfo 
  24. -- ---------------------------- 
  25. INSERT INTO `userinfo` VALUES ('17''1''2017-12-10 00:24:54''在CentOS7中使用Sendmail通''sendmail'); 
  26. INSERT INTO `userinfo` VALUES ('18''2''2017-12-10 10:24:54''彻底理解PHP的SESSION机制''session'); 
  27. INSERT INTO `userinfo` VALUES ('19''3''2017-12-10 12:24:54''手把手编写自己的PHPMVC框架实例教程''mvc'); 
  28. INSERT INTO `userinfo` VALUES ('20''4''2017-12-10 00:24:54''php获取今日、昨日、上周、本月的起始时''时间'); 
  29. -- ---------------------------- 
  30. -- Table structure for users 
  31. -- ---------------------------- 
  32. DROP TABLE IF EXISTS `users`; 
  33. CREATE TABLE `users` ( 
  34.  `id` int(11) unsigned NOT NULL AUTO_INCREMENT, 
  35.  `username` varchar(20) NOT NULL DEFAULT ''
  36.  PRIMARY KEY (`id`) 
  37. ) ENGINE=InnoDB AUTO_INCREMENT=5 DEFAULT CHARSET=utf8; 
  38. -- ---------------------------- 
  39. -- Records of users 
  40. -- ---------------------------- 
  41. INSERT INTO `users` VALUES ('1''Lionee'); 
  42. INSERT INTO `users` VALUES ('2''libber'); 
  43. INSERT INTO `users` VALUES ('3''sysmob'); 
  44. INSERT INTO `users` VALUES ('4''学习'); 

配置sphinx

配置文件在/usr/local/sphinx2/etc

cp sphinx-min.conf.dist sphinx.conf

  1. source users 
  2.   type      = mysql 
  3.   sql_host    = 127.0.0.1 
  4.   sql_user    = root 
  5.   sql_pass    = 123456 
  6.   sql_db     = mtest 
  7.   sql_port    = 3306 # optional, default is 3306 
  8.   sql_query_pre = SET NAMES utf8  
  9.     sql_query_pre = SET SESSION query_cache_type=OFF  
  10.     sql_query =   SELECT a.id, a.userid,b.username, UNIX_TIMESTAMP(a.addtime) AS addtime, a.post, a.summary  FROM userinfo a left join users b on a.userid = b.id 
  11.   sql_attr_uint = userid  
  12.   sql_field_string = username  
  13.   sql_field_string = post  
  14.   sql_attr_timestamp = addtime 
  15.   sql_ranged_throttle = 0  
  16.   #sql_attr_uint   = group_id 
  17.   #sql_attr_timestamp = date_added 
  18.   #sql_ranged_throttle  = 0 
  19. source src1throttled : users 
  20.   sql_ranged_throttle = 100 
  21. index users 
  22. {  
  23.   source = users 
  24.   path = /usr/local/sphinx2/var/data/users 
  25.   docinfo = extern  
  26.   mlock = 0  
  27.   morphology = none  
  28.   min_word_len = 1  
  29.   html_strip = 1  
  30.   charset_table = U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,A..Z->a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6->U+00E0..U+00F6,U+00E0..U+00F6, U+00D8..U+00DE->U+00F8..U+00FE, U+00F8..U+00FE, U+0100->U+0101, U+0101,U+0102->U+0103, U+0103, U+0104->U+0105, U+0105, U+0106->U+0107, U+0107, U+0108->U+0109,U+0109, U+010A->U+010B, U+010B, U+010C->U+010D, U+010D, U+010E->U+010F, U+010F,U+0110->U+0111, U+0111, U+0112->U+0113, U+0113, U+0114->U+0115, U+0115, U+0116->U+0117,U+0117, U+0118->U+0119, U+0119, U+011A->U+011B, U+011B, U+011C->U+011D, U+011D,U+011E->U+011F, U+011F, U+0130->U+0131, U+0131, U+0132->U+0133, U+0133, U+0134->U+0135,U+0135, U+0136->U+0137, U+0137, U+0139->U+013A, U+013A, U+013B->U+013C, U+013C,U+013D->U+013E, U+013E, U+013F->U+0140, U+0140, U+0141->U+0142, U+0142, U+0143->U+0144,U+0144, U+0145->U+0146, U+0146, U+0147->U+0148, U+0148, U+014A->U+014B, U+014B,U+014C->U+014D, U+014D, U+014E->U+014F, U+014F, U+0150->U+0151, U+0151, U+0152->U+0153,U+0153, U+0154->U+0155, U+0155, U+0156->U+0157, U+0157, U+0158->U+0159, U+0159,U+015A->U+015B, U+015B, U+015C->U+015D, U+015D, U+015E->U+015F, U+015F, U+0160->U+0161,U+0161, U+0162->U+0163, U+0163, U+0164->U+0165, U+0165, U+0166->U+0167, U+0167,U+0168->U+0169, U+0169, U+016A->U+016B, U+016B, U+016C->U+016D, U+016D, U+016E->U+016F,U+016F, U+0170->U+0171, U+0171, U+0172->U+0173, U+0173, U+0174->U+0175, U+0175,U+0176->U+0177, U+0177, U+0178->U+00FF, U+00FF, U+0179->U+017A, U+017A, U+017B->U+017C,U+017C, U+017D->U+017E, U+017E, U+0410..U+042F->U+0430..U+044F, U+0430..U+044F,U+05D0..U+05EA, U+0531..U+0556->U+0561..U+0586, U+0561..U+0587, U+0621..U+063A, U+01B9,U+01BF, U+0640..U+064A, U+0660..U+0669, U+066E, U+066F, U+0671..U+06D3, U+06F0..U+06FF,U+0904..U+0939, U+0958..U+095F, U+0960..U+0963, U+0966..U+096F, U+097B..U+097F,U+0985..U+09B9, U+09CE, U+09DC..U+09E3, U+09E6..U+09EF, U+0A05..U+0A39, U+0A59..U+0A5E,U+0A66..U+0A6F, U+0A85..U+0AB9, U+0AE0..U+0AE3, U+0AE6..U+0AEF, U+0B05..U+0B39,U+0B5C..U+0B61, U+0B66..U+0B6F, U+0B71, U+0B85..U+0BB9, U+0BE6..U+0BF2, U+0C05..U+0C39,U+0C66..U+0C6F, U+0C85..U+0CB9, U+0CDE..U+0CE3, U+0CE6..U+0CEF, U+0D05..U+0D39, U+0D60,U+0D61, U+0D66..U+0D6F, U+0D85..U+0DC6, U+1900..U+1938, U+1946..U+194F, U+A800..U+A805,U+A807..U+A822, U+0386->U+03B1, U+03AC->U+03B1, U+0388->U+03B5, U+03AD->U+03B5,U+0389->U+03B7, U+03AE->U+03B7, U+038A->U+03B9, U+0390->U+03B9, U+03AA->U+03B9,U+03AF->U+03B9, U+03CA->U+03B9, U+038C->U+03BF, U+03CC->U+03BF, U+038E->U+03C5,U+03AB->U+03C5, U+03B0->U+03C5, U+03CB->U+03C5, U+03CD->U+03C5, U+038F->U+03C9,U+03CE->U+03C9, U+03C2->U+03C3, U+0391..U+03A1->U+03B1..U+03C1,U+03A3..U+03A9->U+03C3..U+03C9, U+03B1..U+03C1, U+03C3..U+03C9, U+0E01..U+0E2E,U+0E30..U+0E3A, U+0E40..U+0E45, U+0E47, U+0E50..U+0E59, U+A000..U+A48F, U+4E00..U+9FBF,U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF, U+2F800..U+2FA1F, U+2E80..U+2EFF,U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF, U+3040..U+309F, U+30A0..U+30FF,U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF, U+3130..U+318F, U+A000..U+A48F,U+A490..U+A4CF  
  31.   ngram_len = 1  
  32.   ngram_chars = U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,U+3040..U+309F, U+30A0..U+30FF,U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF  
  33. common 
  34. indexer 
  35.   mem_limit    = 128M 
  36. searchd 
  37.   #php 
  38.   listen     = 9312 
  39.   #mysql 
  40.   listen     = 9306:mysql41 
  41.   log     = /usr/local/sphinx2/var/log/searchd.log 
  42.   query_log    = /usr/local/sphinx2/var/log/query.log 
  43.   query_log_format = sphinxql 
  44.   read_timeout    = 5 
  45.   client_timeout   = 300 
  46.   max_children    = 30 
  47.   persistent_connections_limit  = 30 
  48.   pid_file    = /usr/local/sphinx2/var/log/searchd.pid 
  49.   seamless_rotate   = 1 
  50.   preopen_indexes   = 1 
  51.   unlink_old   = 1 
  52.   mva_updates_pool  = 1M 
  53.   max_packet_size   = 8M 
  54.   max_filters   = 256 
  55.   max_filter_values  = 4096 
  56.   max_batch_queries  = 32 
  57.   workers     = threads # for RT to work 

启动sphinx

  1. [root@MevHost ~]# pkill searchd 
  2. [root@MevHost ~]# /usr/local/sphinx2/bin/indexer --config /usr/local/sphinx2/etc/sphinx.conf --all  
  3. [root@MevHost ~]# /usr/local/sphinx2/bin/searchd --config /usr/local/sphinx2/etc/sphinx.conf 

如果出现下面的报错

"Oops! It seems that sphinx was built with wrong endianess (cross-compiling?)

either reconfigure and rebuild, defining ac_cv_c_bigendian=no in the environment of

./configure script,

either ensure that '#define USE_LITTLE_ENDIAN = 1' in config/config.h"

我是直接把sphinx下面的config/config.h 改成了他提示的这个 #define USE_LITTLE_ENDIAN = 1,之后make的,

接下来的这段是我们的PHP代码了

  1. <!DOCTYPE html> 
  2. <html lang="en"
  3. <head> 
  4.   <meta charset="UTF-8"
  5.   <title>Document</title> 
  6. </head> 
  7. <body> 
  8.   <form method="post" action='test.php'
  9.     <p>输入:</p> <input type="text" name="q" autocomplete="false"
  10.   </form> 
  11. </body> 
  12. </html> 
  13. <?php 
  14. // phpinfo();die; 
  15. ini_set('display_errors','1'); 
  16. error_reporting(E_ALL); 
  17. header("Content-type: text/html; charset=utf-8"); 
  18. if($_POST){ 
  19. $b_time = microtime(true); 
  20. $key = $_POST['q']; 
  21. $index = "users"
  22. //========================================分词 
  23. $so = scws_new(); 
  24. $so->set_charset('utf-8'); 
  25. //默认词库 
  26. $so->add_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb'); 
  27. //自定义词库 
  28. // $so->add_dict('./dd.txt',SCWS_XDICT_TXT); 
  29. //默认规则 
  30. $so->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini'); 
  31. //设定分词返回结果时是否去除一些特殊的标点符号 
  32. $so->set_ignore(true); 
  33. //设定分词返回结果时是否复式分割,如“中国人”返回“中国+人+中国人”三个词。 
  34. // 按位异或的 1 | 2 | 4 | 8 分别表示: 短词 | 二元 | 主要单字 | 所有单字 
  35. //1,2,4,8 分别对应常量 SCWS_MULTI_SHORT SCWS_MULTI_DUALITY SCWS_MULTI_ZMAIN SCWS_MULTI_ZALL 
  36. $so->set_multi(false); 
  37. //设定是否将闲散文字自动以二字分词法聚合 
  38. $so->set_duality(false); 
  39. //设定搜索词 
  40. $so->send_text($key); 
  41. $words_array = $so->get_result(); 
  42. $words = ""
  43. foreach($words_array as $v
  44.   $words = $words.'|('.$v['word'].')'
  45. //加入全词 
  46. #$words = '('.$key.')'.$words
  47. $words = trim($words,'|'); 
  48. $so->close(); 
  49. echo '<p>输入:'.$key.'</p>'."\r\n"
  50. echo '<p>分词:'.$words.'</p>'."\r\n"
  51. //========================================搜索 
  52. $sc = new SphinxClient(); 
  53. $sc->SetServer('127.0.0.1',9312); 
  54. #$sc->SetMatchMode(SPH_MATCH_ALL); 
  55. $sc->SetMatchMode(SPH_MATCH_ANY); 
  56. $sc->SetArrayResult(TRUE); 
  57. $res = $sc->Query($words,$index); 
  58. echo "<hr>"
  59. echo "<pre>"
  60. print_r($res); 
  61. $e_time = microtime(true); 
  62. $time = $e_time - $b_time
  63. echo $time
  64. exit
  65. ?> 

sphinx 配置文件解析

source:数据源,数据是从什么地方来的。

index:索引,当有数据源之后,从数据源处构建索引。索引实际上就是相当于一个字典检索。有了整本字典内容以后,才会有字典检索。

searchd:提供搜索查询服务。它一般是以deamon的形式运行在后台的。

indexer:构建索引的服务。当要重新构建索引的时候,就是调用indexer这个命令。

attr:属性,属性是存在索引中的,它不进行全文索引,但是可以用于过滤和排序。

sphinx.conf

  1. ## 数据源src1 
  2. source src1 
  3.   ## 说明数据源的类型。数据源的类型可以是:mysql,pgsql,mssql,xmlpipe,odbc,python 
  4.   ## 有人会奇怪,python是一种语言怎么可以成为数据源呢? 
  5.   ## python作为一种语言,可以操作任意其他的数据来源来获取数据,更多数据请看:(http://www.coreseek.cn/products-install/python/) 
  6.   type      = mysql 
  7.   ## 下面是sql数据库特有的端口,用户名,密码,数据库名等。 
  8.   sql_host    = localhost 
  9.   sql_user    = test 
  10.   sql_pass    = 
  11.   sql_db     = test 
  12.   sql_port    = 3306 
  13.   ## 如果是使用unix sock连接可以使用这个。 
  14.   # sql_sock   = /tmp/mysql.sock 
  15.   ## indexer和mysql之间的交互,需要考虑到效率和安全性。 
  16.   ## 比如考虑到效率,他们两者之间的交互需要使用压缩协议;考虑到安全,他们两者之间的传输需要使用ssl 
  17.   ## 那么这个参数就代表这个意思,0/32/2048/32768 无/使用压缩协议/握手后切换到ssl/Mysql 4.1版本身份认证。 
  18.   # mysql_connect_flags  = 32 
  19.   ## 当mysql_connect_flags设置为2048(ssl)的时候,下面几个就代表ssl连接所需要使用的几个参数。 
  20.   # mysql_ssl_cert    = /etc/ssl/client-cert.pem 
  21.   # mysql_ssl_key   = /etc/ssl/client-key.pem 
  22.   # mysql_ssl_ca   = /etc/ssl/cacert.pem 
  23.   ## mssql特有,是否使用windows登陆 
  24.   # mssql_winauth   = 1 
  25.   ## mssql特有,是使用unicode还是单字节数据。 
  26.   # mssql_unicode   = 1 # request Unicode data from server 
  27.   ## odbc的dsn串 
  28.   # odbc_dsn   = DBQ=C:\data;DefaultDir=C:\data;Driver={Microsoft Text Driver (*.txt; *.csv)}; 
  29.   ## sql某一列的缓冲大小,一般是针对字符串来说的。 
  30.   ## 为什么要有这么一种缓冲呢? 
  31.   ## 有的字符串,虽然长度很长,但是实际上并没有使用那么长的字符,所以在Sphinx并不会收录所有的字符,而是给每个属性一个缓存作为长度限制。 
  32.   ## 默认情况下非字符类型的属性是1KB,字符类型的属性是1MB。 
  33.   ## 而如果想要配置这个buffer的话,就可以在这里进行配置了。 
  34.   # sql_column_buffers  = content=12M, comments=1M 
  35.   ## indexer的sql执行前需要执行的操作。 
  36.   # sql_query_pre   = SET NAMES utf8 
  37.   # sql_query_pre   = SET SESSION query_cache_type=OFF 
  38.   ## indexer的sql执行语句 
  39.   sql_query    = \ 
  40.     SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \ 
  41.     FROM documents 
  42.   ## 有的时候有多个表,我们想要查询的字段在其他表中。这个时候就需要对sql_query进行join操作。 
  43.   ## 而这个join操作可能非常慢,导致建立索引的时候特别慢,那么这个时候,就可以考虑在sphinx端进行join操作了。 
  44.   ## sql_joined_field是增加一个字段,这个字段是从其他表查询中查询出来的。 
  45.   ## 这里封号后面的查询语句是有要求的,如果是query,则返回id和查询字段,如果是payload-query,则返回id,查询字段和权重。 
  46.   ## 并且这里的后一个查询需要按照id进行升序排列。 
  47.   # sql_joined_field = tags from query; SELECT docid, CONCAT('tag',tagid) FROM tags ORDER BY docid ASC 
  48.   # sql_joined_field = wtags from payload-query; SELECT docid, tag, tagweight FROM tags ORDER BY docid ASC 
  49.   ## 外部文件字段,意思就是一个表中,有一个字段存的是外部文件地址,但是实际的字段内容在文件中。比如这个字段叫做content_file_path。 
  50.   ## 当indexer建立索引的时候,查到这个字段,就读取这个文件地址,然后加载,并进行分词和索引建立等操作。 
  51.   # sql_file_field    = content_file_path 
  52.   ## 当数据源数据太大的时候,一个sql语句查询下来往往很有可能锁表等操作。 
  53.   ## 那么我么就可以使用多次查询,那么这个多次查询就需要有个范围和步长,sql_query_range和sql_range_step就是做这个使用的。 
  54.   ## 获取最大和最小的id,然后根据步长来获取数据。比如下面的例子,如果有4500条数据,这个表建立索引的时候就会进行5次sql查询。  
  55.   ## 而5次sql查询每次的间隔时间是使用sql_ranged_rhrottle来进行设置的。单位是毫秒。 
  56.   # sql_query_range    = SELECT MIN(id),MAX(id) FROM documents 
  57.   # sql_range_step    = 1000 
  58.   # sql_ranged_throttle  = 0 
  59.   ## 下面都是些不同属性的数据了 
  60.   ## 先要了解属性的概念:属性是存在索引中的,它不进行全文索引,但是可以用于过滤和排序。 
  61.   ## uint无符号整型属性 
  62.   sql_attr_uint    = group_id 
  63.   ## bool属性 
  64.   # sql_attr_bool   = is_deleted 
  65.   ## 长整型属性 
  66.   # sql_attr_bigint    = my_bigint_id 
  67.   ## 时间戳属性,经常被用于做排序 
  68.   sql_attr_timestamp = date_added 
  69.   ## 字符串排序属性。一般我们按照字符串排序的话,我们会将这个字符串存下来进入到索引中,然后在查询的时候比较索引中得字符大小进行排序。 
  70.   ## 但是这个时候索引就会很大,于是我们就想到了一个方法,我们在建立索引的时候,先将字符串值从数据库中取出,暂存,排序。 
  71.   ## 然后给排序后的数组分配一个序号,然后在建立索引的时候,就将这个序号存入到索引中去。这样在查询的时候也就能完成字符串排序的操作。 
  72.   ## 这,就是这个字段的意义。 
  73.   # sql_attr_str2ordinal = author_name 
  74.   ## 浮点数属性,经常在查询地理经纬度的时候会用到。 
  75.   # sql_attr_float    = lat_radians 
  76.   # sql_attr_float    = long_radians 
  77.   ## 多值属性(MVA) 
  78.   ## 试想一下,有一个文章系统,每篇文章都有多个标签,这个文章就叫做多值属性。 
  79.   ## 我要对某个标签进行查询过滤,那么在建立查询的时候就应该把这个标签的值放入到索引中。 
  80.   ## 这个字段,sql_attr_multi就是用来做这个事情的。 
  81.   # sql_attr_multi    = uint tag from query; SELECT docid, tagid FROM tags 
  82.   # sql_attr_multi    = uint tag from ranged-query; \ 
  83.   #  SELECT docid, tagid FROM tags WHERE id>=$start AND id<=$end; \ 
  84.   #  SELECT MIN(docid), MAX(docid) FROM tags 
  85.   ## 字符串属性。 
  86.   # sql_attr_string    = stitle 
  87.   ## 文档词汇数记录属性。比如下面就是在索引建立的时候增加一个词汇数的字段 
  88.   # sql_attr_str2wordcount  = stitle 
  89.   ## 字符串字段,可全文搜索,可返回原始文本信息。 
  90.   # sql_field_string = author 
  91.   ## 文档词汇数记录字段,可全文搜索,可返回原始信息 
  92.   # sql_field_str2wordcount  = title 
  93.   ## 取后查询,在sql_query执行后立即操作。 
  94.   ## 它和sql_query_post_index的区别就是执行时间不同 
  95.   ## sql_query_post是在sql_query执行后执行,而sql_query_post_index是在索引建立完成后才执行。 
  96.   ## 所以如果要记录最后索引执行时间,那么应该在sql_query_post_index中执行。 
  97.   # sql_query_post    = 
  98.   ## 参考sql_query_post的说明。 
  99.   # sql_query_post_index = REPLACE INTO counters ( id, val ) \ 
  100.   #  VALUES ( 'max_indexed_id'$maxid ) 
  101.   ## 命令行获取信息查询。 
  102.   ## 什么意思呢? 
  103.   ## 我们进行索引一般只会返回主键id,而不会返回表中的所有字段。 
  104.   ## 但是在调试的时候,我们一般需要返回表中的字段,那这个时候,就需要使用sql_query_info。 
  105.   ## 同时这个字段只在控制台有效,在api中是无效的。 
  106.   sql_query_info   = SELECT * FROM documents WHERE id=$id 
  107.   ## 比如有两个索引,一个索引比较旧,一个索引比较新,那么旧索引中就会有数据是旧的。 
  108.   ## 当我要对两个索引进行搜索的时候,哪些数据要按照新的索引来进行查询呢。 
  109.   ## 这个时候就使用到了这个字段了。 
  110.   ## 这里的例子(http://www.coreseek.cn/docs/coreseek_4.1-sphinx_2.0.1-beta.html#conf-sql-query-killlist)给的非常清晰了。 
  111.   # sql_query_killlist  = SELECT id FROM documents WHERE edited>=@last_reindex 
  112.   ## 下面几个压缩解压的配置都是为了一个目的:让索引重建的时候不要影响数据库的性能表现。 
  113.   ## SQL数据源解压字段设置 
  114.   # unpack_zlib    = zlib_column 
  115.   ## MySQL数据源解压字段设置 
  116.   # unpack_mysqlcompress = compressed_column 
  117.   # unpack_mysqlcompress = compressed_column_2 
  118.   ## MySQL数据源解压缓冲区设置 
  119.   # unpack_mysqlcompress_maxsize = 16M 
  120.   ## xmlpipe的数据源就是一个xml文档 
  121.   # type     = xmlpipe 
  122.   ## 读取数据源的命令 
  123.   # xmlpipe_command    = cat /home/yejianfeng/instance/coreseek/var/test.xml 
  124.   ## 字段 
  125.   # xmlpipe_field   = subject 
  126.   # xmlpipe_field   = content 
  127.   ## 属性 
  128.   # xmlpipe_attr_timestamp  = published 
  129.   # xmlpipe_attr_uint = author_id 
  130.   ## UTF-8修复设置 
  131.   ## 只适用xmlpipe2数据源,数据源中有可能有非utf-8的字符,这个时候解析就有可能出现问题 
  132.   ## 如果设置了这个字段,非utf-8序列就会全部被替换为空格。 
  133.   # xmlpipe_fixup_utf8  = 1 
  134. ## sphinx的source是有继承这么一种属性的,意思就是除了父source之外,这个source还有这个特性 
  135. source src1throttled : src1 
  136.   sql_ranged_throttle = 100 
  137. ## 索引test1 
  138. index test1 
  139.   ## 索引类型,包括有plain,distributed和rt。分别是普通索引/分布式索引/增量索引。默认是plain。 
  140.   # type     = plain 
  141.   ## 索引数据源 
  142.   source     = src1 
  143.   ## 索引文件存放路径 
  144.   path      = /home/yejianfeng/instance/coreseek/var/data/test1 
  145.   ## 文档信息的存储模式,包括有none,extern,inline。默认是extern。 
  146.   ## docinfo指的就是数据的所有属性(field)构成的一个集合。 
  147.   ## 首先文档id是存储在一个文件中的(spa) 
  148.   ## 当使用inline的时候,文档的属性和文件的id都是存放在spa中的,所以进行查询过滤的时候,不需要进行额外操作。 
  149.   ## 当使用extern的时候,文档的属性是存放在另外一个文件(spd)中的,但是当启动searchd的时候,会把这个文件加载到内存中。 
  150.   ## extern就意味着每次做查询过滤的时候,除了查找文档id之外,还需要去内存中根据属性进行过滤。 
  151.   ## 但是即使这样,extern由于文件大小小,效率也不低。所以不是有特殊要求,一般都是使用extern 
  152.   docinfo     = extern 
  153.   ## 缓冲内存锁定。 
  154.   ## searchd会讲spa和spi预读取到内存中。但是如果这部分内存数据长时间没有访问,则它会被交换到磁盘上。 
  155.   ## 设置了mlock就不会出现这个问题,这部分数据会一直存放在内存中的。 
  156.   mlock      = 0 
  157.   ## 词形处理器 
  158.   ## 词形处理是什么意思呢?比如在英语中,dogs是dog的复数,所以dog是dogs的词干,这两个实际上是同一个词。 
  159.   ## 所以英语的词形处理器会讲dogs当做dog来进行处理。 
  160.   morphology   = none 
  161.   ## 词形处理有的时候会有问题,比如将gps处理成gp,这个设置可以允许根据词的长度来决定是否要使用词形处理器。 
  162.   # min_stemming_len = 1 
  163.   ## 词形处理后是否还要检索原词? 
  164.   # index_exact_words = 1 
  165.   ## 停止词,停止词是不被索引的词。 
  166.   # stopwords   = /home/yejianfeng/instance/coreseek/var/data/stopwords.txt 
  167.   ## 自定义词形字典 
  168.   # wordforms   = /home/yejianfeng/instance/coreseek/var/data/wordforms.txt 
  169.   ## 词汇特殊处理。 
  170.   ## 有的一些特殊词我们希望把它当成另外一个词来处理。比如,c++ => cplusplus来处理。 
  171.   # exceptions    = /home/yejianfeng/instance/coreseek/var/data/exceptions.txt 
  172.   ## 最小索引词长度,小于这个长度的词不会被索引。 
  173.   min_word_len    = 1 
  174.   ## 字符集编码类型,可以为sbcs,utf-8。对于Coreseek,还可以有zh_cn.utf-8,zh_ch.gbk,zh_ch.big5 
  175.   charset_type    = sbcs 
  176.   ## 字符表和大小写转换规则。对于Coreseek,这个字段无效。 
  177.   # 'sbcs' default value is 
  178.   # charset_table   = 0..9, A..Z->a..z, _, a..z, U+A8->U+B8, U+B8, U+C0..U+DF->U+E0..U+FF, U+E0..U+FF 
  179.   # 
  180.   # 'utf-8' default value is 
  181.   # charset_table   = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F 
  182.   ## 忽略字符表。在忽略字符表中的前后词会被连起来当做一个单独关键词处理。 
  183.   # ignore_chars   = U+00AD 
  184.   ## 是否启用通配符,默认为0,不启用 
  185.   # enable_star    = 1 
  186.   ## min_prefix_len,min_infix_len,prefix_fields,infix_fields都是在enable_star开启的时候才有效果。 
  187.   ## 最小前缀索引长度 
  188.   ## 为什么要有这个配置项呢? 
  189.   ## 首先这个是当启用通配符配置启用的前提下说的,前缀索引使得一个关键词产生了多个索引项,导致索引文件体积和搜索时间增加巨大。 
  190.   ## 那么我们就有必要限制下前缀索引的前缀长度,比如example,当前缀索引长度设置为5的时候,它只会分解为exampl,example了。 
  191.   # min_prefix_len    = 0 
  192.   ## 最小索引中缀长度。理解同上。 
  193.   # min_infix_len   = 0 
  194.   ## 前缀索引和中缀索引字段列表。并不是所有的字段都需要进行前缀和中缀索引。 
  195.   # prefix_fields   = filename 
  196.   # infix_fields   = url, domain 
  197.   ## 词汇展开 
  198.   ## 是否尽可能展开关键字的精确格式或者型号形式 
  199.   # expand_keywords    = 1 
  200.   ## N-Gram索引的分词技术 
  201.   ## N-Gram是指不按照词典,而是按照字长来分词,这个主要是针对非英文体系的一些语言来做的(中文、韩文、日文) 
  202.   ## 对coreseek来说,这两个配置项可以忽略。 
  203.   # ngram_len   = 1 
  204.   # ngram_chars    = U+3000..U+2FA1F 
  205.   ## 词组边界符列表和步长 
  206.   ## 哪些字符被看做分隔不同词组的边界。 
  207.   # phrase_boundary    = ., ?, !, U+2026 # horizontal ellipsis 
  208.   # phrase_boundary_step = 100 
  209.   ## 混合字符列表 
  210.   # blend_chars    = +, &, U+23 
  211.   # blend_mode    = trim_tail, skip_pure 
  212.   ## html标记清理,是否从输出全文数据中去除HTML标记。 
  213.   html_strip   = 0 
  214.   ## HTML标记属性索引设置。 
  215.   # html_index_attrs = img=alt,title; a=title; 
  216.   ## 需要清理的html元素 
  217.   # html_remove_elements = style, script 
  218.   ## searchd是预先打开全部索引还是每次查询再打开索引。 
  219.   # preopen      = 1 
  220.   ## 字典文件是保持在磁盘上还是将他预先缓冲在内存中。 
  221.   # ondisk_dict    = 1 
  222.   ## 由于在索引建立的时候,需要建立临时文件和和副本,还有旧的索引 
  223.   ## 这个时候磁盘使用量会暴增,于是有个方法是临时文件重复利用 
  224.   ## 这个配置会极大减少建立索引时候的磁盘压力,代价是索引建立速度变慢。 
  225.   # inplace_enable    = 1 
  226.   # inplace_hit_gap    = 0 # preallocated hitlist gap size 
  227.   # inplace_docinfo_gap  = 0 # preallocated docinfo gap size 
  228.   # inplace_reloc_factor = 0.1 # relocation buffer size within arena 
  229.   # inplace_write_factor = 0.1 # write buffer size within arena 
  230.   ## 在经过过短的位置后增加位置值 
  231.   # overshort_step    = 1 
  232.   ## 在经过 停用词 处后增加位置值 
  233.   # stopword_step   = 1 
  234.   ## 位置忽略词汇列表 
  235.   # hitless_words   = all 
  236.   # hitless_words   = hitless.txt 
  237.   ## 是否检测并索引句子和段落边界 
  238.   # index_sp     = 1 
  239.   ## 字段内需要索引的HTML/XML区域的标签列表 
  240.   # index_zones    = title, h*, th 
  241. index test1stemmed : test1 
  242.   path      = /home/yejianfeng/instance/coreseek/var/data/test1stemmed 
  243.   morphology   = stem_en 
  244. index dist1 
  245.   type      = distributed 
  246.   local      = test1 
  247.   local      = test1stemmed 
  248.   ## 分布式索引(distributed index)中的远程代理和索引声明 
  249.   agent      = localhost:9313:remote1 
  250.   agent      = localhost:9314:remote2,remote3 
  251.   # agent     = /var/run/searchd.sock:remote4 
  252.   ## 分布式索引( distributed index)中声明远程黑洞代理 
  253.   # agent_blackhole    = testbox:9312:testindex1,testindex2 
  254.   ## 远程代理的连接超时时间 
  255.   agent_connect_timeout  = 1000 
  256.   ## 远程查询超时时间 
  257.   agent_query_timeout = 3000 
  258. index rt 
  259.   type      = rt 
  260.   path      = /home/yejianfeng/instance/coreseek/var/data/rt 
  261.   ## RT索引内存限制 
  262.   # rt_mem_limit   = 512M 
  263.   ## 全文字段定义 
  264.   rt_field    = title 
  265.   rt_field    = content 
  266.   ## 无符号整数属性定义 
  267.   rt_attr_uint    = gid 
  268.   ## 各种属性定义 
  269.   # rt_attr_bigint    = guid 
  270.   # rt_attr_float   = gpa 
  271.   # rt_attr_timestamp = ts_added 
  272.   # rt_attr_string    = author 
  273. indexer 
  274.   ## 建立索引的时候,索引内存限制 
  275.   mem_limit    = 32M 
  276.   ## 每秒最大I/O操作次数,用于限制I/O操作 
  277.   # max_iops   = 40 
  278.   ## 最大允许的I/O操作大小,以字节为单位,用于I/O节流 
  279.   # max_iosize    = 1048576 
  280.   ## 对于XMLLpipe2数据源允许的最大的字段大小,以字节为单位 
  281.   # max_xmlpipe2_field  = 4M 
  282.   ## 写缓冲区的大小,单位是字节 
  283.   # write_buffer   = 1M 
  284.   ## 文件字段可用的最大缓冲区大小,字节为单位 
  285.   # max_file_field_buffer = 32M 
  286. ## 搜索服务配置 
  287. searchd 
  288.   # listen      = 127.0.0.1 
  289.   # listen      = 192.168.0.1:9312 
  290.   # listen      = 9312 
  291.   # listen      = /var/run/searchd.sock 
  292.   ## 监听端口 
  293.   listen     = 9312 
  294.   listen     = 9306:mysql41 
  295.   ## 监听日志 
  296.   log     = /home/yejianfeng/instance/coreseek/var/log/searchd.log 
  297.   ## 查询日志 
  298.   query_log    = /home/yejianfeng/instance/coreseek/var/log/query.log 
  299.   ## 客户端读超时时间  
  300.   read_timeout    = 5 
  301.   ## 客户端持久连接超时时间,即客户端读一次以后,持久连接,然后再读一次。中间这个持久连接的时间。 
  302.   client_timeout   = 300 
  303.   ## 并行执行搜索的数目 
  304.   max_children    = 30 
  305.   ## 进程id文件 
  306.   pid_file    = /home/yejianfeng/instance/coreseek/var/log/searchd.pid 
  307.   ## 守护进程在内存中为每个索引所保持并返回给客户端的匹配数目的最大值 
  308.   max_matches   = 1000 
  309.   ## 无缝轮转。防止 searchd 轮换在需要预取大量数据的索引时停止响应 
  310.   ## 当进行索引轮换的时候,可能需要消耗大量的时间在轮换索引上。 
  311.   ## 但是启动了无缝轮转,就以消耗内存为代价减少轮转的时间 
  312.   seamless_rotate   = 1 
  313.   ## 索引预开启,是否强制重新打开所有索引文件 
  314.   preopen_indexes   = 1 
  315.   ## 索引轮换成功之后,是否删除以.old为扩展名的索引拷贝 
  316.   unlink_old   = 1 
  317.   ## 属性刷新周期 
  318.   ## 就是使用UpdateAttributes()更新的文档属性每隔多少时间写回到磁盘中。 
  319.   # attr_flush_period = 900 
  320.   ## 索引字典存储方式 
  321.   # ondisk_dict_default  = 1 
  322.   ## 用于多值属性MVA更新的存储空间的内存共享池大小 
  323.   mva_updates_pool  = 1M 
  324.   ## 网络通讯时允许的最大的包的大小 
  325.   max_packet_size   = 8M 
  326.   ## 崩溃日志文件 
  327.   # crash_log_path    = /home/yejianfeng/instance/coreseek/var/log/crash 
  328.   ## 每次查询允许设置的过滤器的最大个数 
  329.   max_filters   = 256 
  330.   ## 单个过滤器允许的值的最大个数 
  331.   max_filter_values  = 4096 
  332.   ## TCP监听待处理队列长度 
  333.   # listen_backlog    = 5 
  334.   ## 每个关键字的读缓冲区的大小 
  335.   # read_buffer    = 256K 
  336.   ## 无匹配时读操作的大小 
  337.   # read_unhinted   = 32K 
  338.   ## 每次批量查询的查询数限制 
  339.   max_batch_queries  = 32 
  340.   ## 每个查询的公共子树文档缓存大小 
  341.   # subtree_docs_cache  = 4M 
  342.   ## 每个查询的公共子树命中缓存大小 
  343.   # subtree_hits_cache  = 8M 
  344.   ## 多处理模式(MPM)。 可选项;可用值为none、fork、prefork,以及threads。 默认在Unix类系统为form,Windows系统为threads。 
  345.   workers     = threads # for RT to work 
  346.   ## 并发查询线程数 
  347.   # dist_threads   = 4 
  348.   ## 二进制日志路径 
  349.   # binlog_path    = # disable logging 
  350.   # binlog_path    = /home/yejianfeng/instance/coreseek/var/data # binlog.001 etc will be created there 
  351.   ## 二进制日志刷新 
  352.   # binlog_flush   = 2 
  353.   ## 二进制日志大小限制 
  354.   # binlog_max_log_size  = 256M 
  355.   ## 线程堆栈 
  356.   # thread_stack     = 128K 
  357.   ## 关键字展开限制 
  358.   # expansion_limit    = 1000 
  359.   ## RT索引刷新周期  
  360.   # rt_flush_period    = 900 
  361.   ## 查询日志格式 
  362.   ## 可选项,可用值为plain、sphinxql,默认为plain。  
  363.   # query_log_format   = sphinxql 
  364.   ## MySQL版本设置 
  365.   # mysql_version_string = 5.0.37 
  366.   ## 插件目录 
  367.   # plugin_dir      = /usr/local/sphinx/lib 
  368.   ## 服务端默认字符集 
  369.   # collation_server   = utf8_general_ci 
  370.   ## 服务端libc字符集 
  371.   # collation_libc_locale = ru_RU.UTF-8 
  372.   ## 线程服务看守 
  373.   # watchdog       = 1 
  374.   ## 兼容模式 
  375.   # compat_sphinxql_magics  = 1 
  376. }

Tags: PHP+MySQL+sphinx+scws

分享到: