http://www.forfreezone.com

日语分词工具

景况:对日开荒语言管理

渴求:剖析词语,将词语中的德文单词分割,转换方式。

分析:

  义务1:词语拆分

日语分词工具。  任务2:转换格局

 

乌克兰语的格局转换能够用kanavetor去贯彻 特别轻巧直接调用Kana类的convert方法就足以,在Kana的官英特网能够看来用法(即使看不懂介绍,看见管网的报表应该也就一览精晓了~)。

关键在于词语的拆分上:

用语拆分使用了Kuromoji,Kuromoji是后生可畏款特别好用的罗马尼亚语分词工具,并且,分解后的词是能够活动将汉字,平假名等转换来カタカナ的,有相符供给的能够平素用那个而不用再去找出其余工具了。Kuromoji笔者找到了七个本子,五个是kuromoji,0.7.7版本,官英特网说捐赠给了apache,内置在Lucene的4.0,5.0本子里,由于忘记Lucene的用法,临时不思考。其余八个版本是kuromoji-ipadic,那个东东和kuromoji都以二个供销合作社出的,可是略有分化,微微切磋了须臾间,kuromoji在利用的时候是必须要找到jar包,找不到源代码文件的,通过maven下载能够,不过gradle是引进不了的。而kuromoji-ipadic则是gradlle也能够引用,并且引进之后能够看来源码。别的kuromoji究竟是先前的api,还只怕有生机勃勃部分小小的的顽固的病魔。

kuromoji官网:

Kuromoji-ipadic官网:

Kuromoji用法:

1         Tokenizer tokenizer = Tokenizer.builder().build();
2         for (Token token : tokenizer.tokenize("寿司が食べたい。")) {
        // token 中存放的是分割后的词 不同的属性可以取到该词的不同内容

              // surfaceForm:原内容

3             System.out.println(token.getSurfaceForm() + "t" + );

              // baseForm:内容词语的基础 例如 食べたい⇒食べ

        System.out.println(token.getBaseForm() + "t" + );

4 }

↑↑↑那些api对意大利语汉字的识别率不比上边包车型大巴api(有些简体保加利亚共和国语汉字和专门徒疏的分辨不出去,究竟是老版本),并且遭逢不认得的方块字时token调用get方法会拿到null。。。不提议使用。

Kuromoji-ipadic用法:

1         Tokenizer tokenizer = new Tokenizer() ;
2         List<Token> tokens = tokenizer.tokenize("お寿司が食べたい。");
3         for (Token token : tokens) {
4             System.out.println(token.getSurface()); // 读取到的原内容
5             System.out.println(token.getReading()); // カタカナ
6         }        

顺角豆蔻梢头提,kuromoji-ipadic由于是用new产生产生实例的,所以黄金年代旦你的工具或种类须要转移大批量语汇,要小心不要做太多的new操作,不然会超慢超级慢超慢,那时候得以定义成静态常量也许单例方式。

招待大家切磋和求教。

 

郑重声明:本文版权归澳门新葡8455最新网站所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。