php 使用jieba分词

php版本结巴分词仓库 jieba分词

介绍

支持三種分詞模式:
1)默認精確模式,試圖將句子最精確地切開,適合文本分析;
2)全模式,把句子中所有的可以成詞的詞語都掃描出來,但是不能解決歧義。(需要充足的字典)
搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。
支持繁體斷詞
支持自定義詞典

使用

自動安裝:使用 composer 安裝後,透過 autoload 引用

composer require fukuball/jieba-php:dev-master
  • 手動安裝:將 jieba-php 放置適當目錄後,透過 require_once 引用
require_once "/path/to/your/vendor/multi-array/MultiArray.php";
require_once "/path/to/your/vendor/multi-array/Factory/MultiArrayFactory.php";
require_once "/path/to/your/class/Jieba.php";
require_once "/path/to/your/class/Finalseg.php";


使用

use Fukuball\Jieba\Jieba;
use Fukuball\Jieba\Finalseg;


Jieba::init();
Finalseg::init();

$seg_list = Jieba::cut("怜香惜玉也得要看对象啊!");
var_dump($seg_list);

$seg_list = Jieba::cut("我来到北京清华大学", true);
var_dump($seg_list); #全模式

$seg_list = Jieba::cut("我来到北京清华大学", false);
var_dump($seg_list); #默認精確模式

$seg_list = Jieba::cut("他来到了网易杭研大厦");
var_dump($seg_list);

$seg_list = Jieba::cutForSearch("小明硕士毕业于中国科学院计算所,后在日本京都大学深造"); #搜索引擎模式
var_dump($seg_list);


功能

  • 分词  
Jieba::cut("怜香惜玉也得要看对象啊!");

Jieba::cutForSearch("小明硕士毕业于中国科学院计算所,后在日本京都大学深造"); #搜索引擎模式
  • 添加自定义词典
 Jieba::loadUserDict(file_name) # file_name 为自定义词典的绝对路径
  • 关键字提取
JiebaAnalyse::extractTags($content, $top_k)
content 为待提取的文本
top_k 为返回几个 TF/IDF 权重最大的关键词,默认值 20
可使用 setStopWords 增加自定义 stop words
  • 词性分词
Posseg::cut("这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱Python和C++。")
  • 切换繁体字典
Jieba::init(array('mode'=>'default','dict'=>'big'));
Finalseg::init();

$seg_list = Jieba::cut("怜香惜玉也得要看对象啊!");
  • 保留日文\韩文
Jieba::init(array('cjk'=>'all'));
Finalseg::init();

$seg_list = Jieba::cut("한국어 또는 조선말은 제주특별자치도를 제외한 한반도 및 그 부속 도서와 한민족 거주 지역에서 쓰이는 언어로");
  • 返回词语在全文的位置
Jieba::init(array('mode'=>'test','dict'=>'big'));
Finalseg::init();

$seg_list = Jieba::tokenize("永和服装饰品有限公司");

版权声明:
作者:超级管理员
链接: https://blog.apecloud.ltd/article/detail.html?id=97
来源:猿码云个人技术站
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
打赏
/static/admin/img/weixin.jpg/static/admin/img/zfb.jpg
<<上一篇>
thinkphp6 分页加参数
下一篇>>