新匍京视频在线在Kana的官网上可以见见用法(尽管看不懂介绍,在Kana的官网上得以观望用法(虽然看不懂介绍

条件:对日开发语言处理

条件:对日开发语言处理

务求:分析词语,将词语中的日文单词分割,转换形式。

务求:分析词语,将词语中的日文单词分割,转换情势。

分析:

分析:

  任务1:词语拆分

  任务1:词语拆分

  任务2:转换情势

  任务2:转换形式

 

 

日文的款式转换可以用kanavetor去实现 万分简单
直接调用Kana类的convert方法就可以,在Kana的官网上可以看看用法(即使看不懂介绍,看到管网的报表应该也就一目领悟了~)。

日文的样式转换可以用kanavetor去实现 分外简单
直接调用Kana类的convert方法就可以,在Kana的官网上得以看看用法(固然看不懂介绍,看到管网的表格应该也就一目了解了~)。

关键在于词语的拆分上:

重在在于词语的拆分上:

用语拆分使用了Kuromoji,Kuromoji是一款特别好用的阿拉伯语分词工具,并且,分解后的词是能够自行将汉字,平假名等转换成カタカナ的,有类似需要的可以直接用这一个而不用再去寻觅其余工具了。Kuromoji我找到了四个本子,一个是kuromoji,0.7.7版本,官网上说捐献给了apache,内置在Lucene的4.0,5.0版本里,由于忘记Lucene的用法,暂且不考虑。其余一个本子是kuromoji-ipadic,那些东东和kuromoji都是一个店家出的,不过略有不同,稍微琢磨了一晃,kuromoji在运用的时候是不得不找到jar包,找不到源代码文件的,通过maven下载可以,可是gradle是引入不了的。而kuromoji-ipadic则是gradlle也可以引用,并且引入之后可以看看源码。另外kuromoji毕竟是原先的api,还有一些微小的短处。

用语拆分使用了Kuromoji,Kuromoji是一款特别好用的意大利语分词工具,并且,分解后的词是能够自动将汉字,平假名等转换成カタカナ的,有类似需要的可以直接用这多少个而不用再去寻找其他工具了。Kuromoji我找到了五个版本,一个是kuromoji,0.7.7版本,官网上说捐献给了apache,内置在Lucene的4.0,5.0本子里,由于忘记Lucene的用法,暂且不考虑。此外一个本子是kuromoji-ipadic,这些东东和kuromoji都是一个店家出的,不过略有不同,稍微研讨了刹那间,kuromoji在选取的时候是不得不找到jar包,找不到源代码文件的,通过maven下载可以,可是gradle是引入不了的。而kuromoji-ipadic则是gradlle也足以引用,并且引入之后可以看出源码。其余kuromoji毕竟是先前的api,还有部分纤维的症结。

kuromoji官网:http://www.atilika.org/

kuromoji官网:http://www.atilika.org/

Kuromoji-ipadic官网:http://www.atilika.com/en/kuromoji/

Kuromoji-ipadic官网:http://www.atilika.com/en/kuromoji/

新匍京视频在线,Kuromoji用法:

Kuromoji用法:

1         Tokenizer tokenizer = Tokenizer.builder().build();
2         for (Token token : tokenizer.tokenize("寿司が食べたい。")) {
        // token 中存放的是分割后的词 不同的属性可以取到该词的不同内容

              // surfaceForm:原内容

3             System.out.println(token.getSurfaceForm() + "\t" + );

              // baseForm:内容词语的基础 例如 食べたい⇒食べ

        System.out.println(token.getBaseForm() + "\t" + );

4 }
1         Tokenizer tokenizer = Tokenizer.builder().build();
2         for (Token token : tokenizer.tokenize("寿司が食べたい。")) {
        // token 中存放的是分割后的词 不同的属性可以取到该词的不同内容

              // surfaceForm:原内容

3             System.out.println(token.getSurfaceForm() + "\t" + );

              // baseForm:内容词语的基础 例如 食べたい⇒食べ

        System.out.println(token.getBaseForm() + "\t" + );

4 }

↑↑↑那个api对日文汉字的识别率不如下边的api(有些简体日文汉字和专门生疏的甄别不出来,毕竟是老版本),并且遭受不认得的方块字时token调用get方法会拿到null。。。不指出使用。

↑↑↑这一个api对日文汉字的识别率不如上边的api(有些简体日文汉字和专门生疏的甄别不出去,毕竟是老版本),并且遭逢不认识的汉字时token调用get方法会得到null。。。不建议采取。

Kuromoji-ipadic用法:

Kuromoji-ipadic用法:

1         Tokenizer tokenizer = new Tokenizer() ;
2         List<Token> tokens = tokenizer.tokenize("お寿司が食べたい。");
3         for (Token token : tokens) {
4             System.out.println(token.getSurface()); // 读取到的原内容
5             System.out.println(token.getReading()); // カタカナ
6         }        
1         Tokenizer tokenizer = new Tokenizer() ;
2         List<Token> tokens = tokenizer.tokenize("お寿司が食べたい。");
3         for (Token token : tokens) {
4             System.out.println(token.getSurface()); // 读取到的原内容
5             System.out.println(token.getReading()); // カタカナ
6         }        

顺带一提,kuromoji-ipadic由于是用new暴发爆发实例的,所以假设您的工具或系统需要更换大量语汇,要专注不要做太多的new操作,不然会很慢很慢很慢,此时得以定义成静态常量或者单例格局。

顺带一提,kuromoji-ipadic由于是用new发生暴发实例的,所以只要您的工具或系统需要更换大量词汇,要专注不要做太多的new操作,不然会很慢很慢很慢,此时可以定义成静态常量或者单例情势。

迎接我们评论和求教。

迎接大家评论和指教。