php 使用jieba分词
php版本结巴分词仓库 jieba分词
介绍
支持三種分詞模式:
1)默認精確模式,試圖將句子最精確地切開,適合文本分析;
2)全模式,把句子中所有的可以成詞的詞語都掃描出來,但是不能解決歧義。(需要充足的字典)
搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。
支持繁體斷詞
支持自定義詞典
使用
自動安裝:使用 composer 安裝後,透過 autoload 引用
composer require fukuball/jieba-php:dev-master
- 手動安裝:將 jieba-php 放置適當目錄後,透過 require_once 引用
require_once "/path/to/your/vendor/multi-array/MultiArray.php";
require_once "/path/to/your/vendor/multi-array/Factory/MultiArrayFactory.php";
require_once "/path/to/your/class/Jieba.php";
require_once "/path/to/your/class/Finalseg.php";
使用
use Fukuball\Jieba\Jieba;
use Fukuball\Jieba\Finalseg;
Jieba::init();
Finalseg::init();
$seg_list = Jieba::cut("怜香惜玉也得要看对象啊!");
var_dump($seg_list);
$seg_list = Jieba::cut("我来到北京清华大学", true);
var_dump($seg_list); #全模式
$seg_list = Jieba::cut("我来到北京清华大学", false);
var_dump($seg_list); #默認精確模式
$seg_list = Jieba::cut("他来到了网易杭研大厦");
var_dump($seg_list);
$seg_list = Jieba::cutForSearch("小明硕士毕业于中国科学院计算所,后在日本京都大学深造"); #搜索引擎模式
var_dump($seg_list);
功能
- 分词
Jieba::cut("怜香惜玉也得要看对象啊!");
Jieba::cutForSearch("小明硕士毕业于中国科学院计算所,后在日本京都大学深造"); #搜索引擎模式
- 添加自定义词典
Jieba::loadUserDict(file_name) # file_name 为自定义词典的绝对路径
- 关键字提取
JiebaAnalyse::extractTags($content, $top_k)
content 为待提取的文本
top_k 为返回几个 TF/IDF 权重最大的关键词,默认值 20
可使用 setStopWords 增加自定义 stop words
- 词性分词
Posseg::cut("这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱Python和C++。")
- 切换繁体字典
Jieba::init(array('mode'=>'default','dict'=>'big'));
Finalseg::init();
$seg_list = Jieba::cut("怜香惜玉也得要看对象啊!");
- 保留日文\韩文
Jieba::init(array('cjk'=>'all'));
Finalseg::init();
$seg_list = Jieba::cut("한국어 또는 조선말은 제주특별자치도를 제외한 한반도 및 그 부속 도서와 한민족 거주 지역에서 쓰이는 언어로");
- 返回词语在全文的位置
Jieba::init(array('mode'=>'test','dict'=>'big'));
Finalseg::init();
$seg_list = Jieba::tokenize("永和服装饰品有限公司");
版权声明:
作者:超级管理员
链接:
https://blog.apecloud.ltd/article/detail.html?id=97
来源:猿码云个人技术站
文章版权归作者所有,未经允许请勿转载。
THE END
二维码
打赏
共有0条评论