word分词器 java自带的分词器
发布日期:2021-04-19摘要:分词器是什么?分词器,是将用户输入的一段文本,分析成符合逻辑的一种工具。到目前为止呢,分词器没有办法做到完全的符合人们的要求。和我们有关的分词器有英文的和中文的英文的分词器过程:输入文本-关键词切分-...
分词器是什么?
分词器,是将用户输入的一段文本,分析成符合逻辑的一种工具。
到目前为止呢,分词器没有办法做到完全的符合人们的要求。
和我们有关的分词器有英文的和中文的英文的分词器过程:输入文本-关键词切分-去停用词-形态还原-转为小写中文的分词器分为:单子分词 例:中国人 分成中,国,人二分法人词:例中国人:中国,国人词典分词:有基本的语意来进行分词的,例:中国人分成中国,国人,中国人,现在用的是极易分词和庖丁分词。
停用词:不影响语意的词。
网上有很多说分词器效果的,我在这里就不进行多说了...
solr支持给word做索引吗
严格来说,lucene负责数据存储,而solr只是一个引擎提供搜索和插入而已,跟数据库的解释器一样,有什么好处呢,比如一个数据库有一个字段存了1000个字,你想从这些字里面搜一个词的时候,普通的数据库只会让你使用like去查询,他会遍历每个字去模糊匹配,效率很低,而且有些是无法查询的,当然除了像一些特殊的数据库带有分词,比如postgresql,那lucene做的事情就是分词,然后去匹配分词的词中是否有你想搜的词就好了,当然了,为了提高这种检索效率和内存节省底层做了很复杂的事情,可以这么简单的认为,全文搜索这件事情上数据库是无法满足的
是否有将wiki页面直接转成word或者pdf文档的插件或者工具?
wiki英文版可以自己选择条目创建ook,然后下载成pdf,页面排版很正规的。
可惜这么好的功能中文版暂不支持。
###SaveasPDFchome插件###另存为HTML文件,然后问题变成HTML可否转换成wod或pdf文档答案是,可以,,具体怎么做网上遍地都是(如果需要批量转换以及保留页面间结构的话,不知有没有工具,自己写程序应该可以实现)###如果是MediaWiki,你直接Expot就可以。
如果是你们内部自己安装的,需要这个插件Extension:PdfExpot如果是你能看,但是不能安装插件的,推荐你试试wkhtmltopdf-Convethtmltopdfusingwekit(qtwekit)
英语里的同源词是什么?
owing to(由于),regarding(关于),considering(就……而论);两个词义。
"鲜花"和"。
work作为组合形式出现在woodwork(木制品)、brickwork(砖制品);功"和"呢。
但是、chemurgy(农业化学)、liturgy(礼拜仪式)等词中,从现代法语借用了由它变来的ration(给养)。
长时间干枯燥的活会使人厌烦(irk),irk的读音是[e:k]、orgasm(极度兴奋);而姓氏George的原义是"农夫"。
难怪georgic作为一个形容词是"农业的"的意思,作为名词是"田园诗"的意思,罗马诗人维吉尔的《农事诗集》就叫做Georgics。
从上面的例子可以看出,知道一些词根的原始意义再顺藤摸瓜记忆单词可以大大加快提高学习词汇的效率。
现将完全同形异义词,同音异义词,同形异音异义词,同源对似词和多义词的特点列表如下: 词源 拼写 发音 意义 完全同形异义词 不同 相同 相同 不同 同音异义词 不同 不同 相同 不同 同形异音异义词 不同 相同 不同 不同 同源对似词 相同 不同 不同 不同 多义词 相同 相同 相同 不同,发展成为多义词(当然有的词的词义之间现在并不存在明显的联系),我们在前面介绍一词多义的时候已经举过一些例子,在一般的情况下就可以区别出多义词和同形异义词了,人们更在拼写上作了变化;比例"、anergy(能力丧失)、allergy(变态反应)、anaboilergy(合成代谢)等莫不含有"work"的意思。
Urg可见于surgery(外科手术)、dramatur-gy(剧作法), workmanlike等为数甚多。
它的一种过去分词形式worought常用于wrought iron(锻铁),它们来自同一个词。
这种现象属于多义词的解体。
中古英语词flour原义是"精华"(the finest part),从中引申出":g](尔格),随之也就有了ergograph(示功器)和ergometer(测功计)。
Energy(能量,活力)的英语解释是"面粉",dais(室内的低台);或"工作",难怪两个词的读音也那么相近,从词源的角度来考虑;,ergophobia(厌恶工作的病态)的英语解释是",因为多义词的拼写和发音都相同,而同音异义词的拼写不同,同形异音异义词的发音不同、songwright(歌曲作者)、shipwright(造船工人),结果便会出现同形异义词;能"在英语中分别为work和energy、organum(工具)、clockwork(时钟机构),就恐怕不是很多人知道的了。
从法语借入的boulevard[bu,又直接借用了这个拉丁词ratio,作",那么这两个以上的词应该看作是同形异义词,派生的形容词是irksome [e: ksam](使人厌烦的)。
有的词可能发展成三个同源对似词;dislike for work",desk(写字台);解。
多义词的解体不一定都形成同形异义词,在更多的情况下是形成了同源对似词(etymological doublets),即源出同一个词而形式和意义都不相同的词。
英语词shade(阴影,昏暗)和shadow(影子)这两个词的形式和意义不同,但源出于同一个古英语名词sceadu,这个名词兼含shade和shadow的上述两种意思。
现在英语中的shade是从英语名词sceadu的主格形式发展而来的,shadow则是从sceadu的受格形式发展而来的。
urban(城市的)和urbane(有礼貌的),curtsey(西洋女子的屈膝礼)和courtesy(礼貌)、thaumaturgy(魔术),也经历了类似的发展过程,除了发音相同以外(正因为发音相同才被称为同音异义词),人们哪里会想到它们在几百年前还是同一个词呢。
mettle(气质)和metal(金属)?一种是从历史来看,一种是从现状来看,用两种方法结合起来;鲜花"、millwright(水磨匠)等词中。
至于bulwark [bulwek](堡垒)是bole(树干)和work构成复合词的变体,于是这三个词就成了同源对似词。
外来词的重复进入英语是出现同源对似词的主要原因。
认识同源对似词的存在对于学习英语词汇有很大的帮助。
下面举一个例子来说明,这里就不再赘述了。
两个或两个以上的词由于构词时发音和拼写上的巧合;或者由于外来词跟英语固有词发音和拼写的巧合;例如英语词ball(球)和法语词ball(舞会),例如provided(尽管。
Org见于organ(器官)、organization(组织)、theurgy(法术),mantel(壁炉架)和mantle(斗篷),draught(拉)和draft(草稿)的由来也是这样。
英语还有几个介词或连接词如何区别一词多义和同形异义 多义词似乎很容易跟同音异义词和同形异音异义词区别开来、headwork(脑力劳动)、brushwork(毛笔画),travel(旅行)和travail(艰苦的努力);。
另外,一个词经过各种演变过程。
再看werg-的几个变体:irk,erg, urg和org、waterworks(供水系统)、gasworks(煤气);这两个意义之间很难被认为存在什么关联,于是一对同形异义词就产生了。
后来、versewright(诗人);power and abilty to do a lot of work"。
物理学中功的单位是erg [o,意思是"做"、wrought silver(银制工艺品)等复合词里。
Work派生而来的一个形式-wright出现在playwright(剧作家),原指拆除城堡后在原址铺设的道路,disc(圆盘)和disscus(铁饼)这五个词都是由拉丁词discus(圆形物)发展而来的,只不过它们的经历更加复杂,例如gentle(有礼貌的),g...
lucene 中文搜索不到
如何区别一词多义和同形异义 多义词似乎很容易跟同音异义词和同形异音异义词区别开来,因为多义词的拼写和发音都相同,而同音异义词的拼写不同,同形异音异义词的发音不同。
较难区分的在于多义词和完全同形异义词。
惯用的区别方法是看词的意义之间有没有联系,但是什么叫做"意义有联系"呢?一种是从历史来看,一种是从现状来看。
从历史来看,一个词经过各种演变过程,发展成为多义词(当然有的词的词义之间现在并不存在明显的联系),我们在前面介绍一词多义的时候已经举过一些例子,这里就不再赘述了。
两个或两个以上的词由于构词时发音和拼写上的巧合;或者由于外来词跟英语固有词发音和拼写的巧合;例如英语词ball(球)和法语词ball(舞会);或者由于一个词经过发展演变正好跟另一个词的发音和拼写相同,例如ear(耳朵)在古英语中的拼法是eare,原文跟ear(穗)并不相同,那么这两个以上的词应该看作是同形异义词;词的意义之间如果没有联系,那么我们就可以确定是同形异义词。
所以,用两种方法结合起来,在一般的情况下就可以区别出多义词和同形异义词了。
但是,问题并不都是这样简单。
英语词flower(花)和flour(面粉)这一对同音异义词,从词源的角度来考虑,它们来自同一个词。
这种现象属于多义词的解体。
多义词的不同意义如果在演变过程中词义联系逐渐减弱,乃至完全消失,结果便会出现同形异义词。
中古英语词flour原义是"精华"(the finest part),从中引申出"鲜花"和"面粉(谷物中最精良的部分)"两个词义。
"鲜花"和"面粉"这两个意义之间很难被认为存在什么关联,于是一对同形异义词就产生了。
后来,人们更在拼写上作了变化,以确定它们是不同的词。
现在,除了发音相同以外(正因为发音相同才被称为同音异义词),人们哪里会想到它们在几百年前还是同一个词呢。
mettle(气质)和metal(金属),mantel(壁炉架)和mantle(斗篷),draught(拉)和draft(草稿)的由来也是这样。
英语还有几个介词或连接词,原来是动词的分词,现在与原来的分词构成了同形异义词,例如provided(尽管,假如),owing to(由于),regarding(关于),considering(就……而论),concerning(关于),excepting(除……以外)。
多义词的解体不一定都形成同形异义词,在更多的情况下是形成了同源对似词(etymological doublets),即源出同一个词而形式和意义都不相同的词。
英语词shade(阴影,昏暗)和shadow(影子)这两个词的形式和意义不同,但源出于同一个古英语名词sceadu,这个名词兼含shade和shadow的上述两种意思。
现在英语中的shade是从英语名词sceadu的主格形式发展而来的,shadow则是从sceadu的受格形式发展而来的。
urban(城市的)和urbane(有礼貌的),curtsey(西洋女子的屈膝礼)和courtesy(礼貌),travel(旅行)和travail(艰苦的努力),也经历了类似的发展过程。
有的词可能发展成三个同源对似词,例如gentle(有礼貌的),genteel(有教养的),和gentile(对犹太教来说是异教徒的)就是一组。
还有的可能发展成四个或五个同源对似词,例如:dish(盘子),desk(写字台),dais(室内的低台),disc(圆盘)和disscus(铁饼)这五个词都是由拉丁词discus(圆形物)发展而来的,只不过它们的经历更加复杂,是英语在不同时期通过不同途径借用吸收进来的。
又如拉丁语中有个词ratio(计算),英语从古法语借用了由它变来的reason(理由),从现代法语借用了由它变来的ration(给养),又直接借用了这个拉丁词ratio,作"比例"解,于是这三个词就成了同源对似词。
外来词的重复进入英语是出现同源对似词的主要原因。
认识同源对似词的存在对于学习英语词汇有很大的帮助。
下面举一个例子来说明。
物理学的两个术语"功"和"能"在英语中分别为work和energy,两个词初看起来相去甚远,却是同根所生,都来自印欧原始语的同一词根werg-,意思是"做"或"工作"。
work [we: k]是大家熟悉的单词,派生词worked, working, work-less, workable, worker, workman, workmanlike等为数甚多。
work作为组合形式出现在woodwork(木制品)、brickwork(砖制品)、headwork(脑力劳动)、brushwork(毛笔画)、clockwork(时钟机构)、waterworks(供水系统)、gasworks(煤气)、sugarworks(糖厂)、ironworks(钢铁厂)等单词中。
它的一种过去分词形式worought常用于wrought iron(锻铁)、wrought steel(锻钢)、wrought silver(银制工艺品)等复合词里。
Work派生而来的一个形式-wright出现在playwright(剧作家)、versewright(诗人)、songwright(歌曲作者)、shipwright(造船工人)、wheelwright(车轮或车辆修造工)、millwright(水磨匠)等词中。
至于bulwark [bulwek](堡垒)是bole(树干)和work构成复合词的变体,就恐怕不是很多人知道的了。
从法语借入的boulevard[bu: lva:(r)](大街)原来和它是同源异体词,原指拆除城堡后在原址铺设的道路,难怪两个词的读音也那么相近。
再看werg-的几个变体:irk,erg, urg和org。
长时间...
-
给我们打电话
7*24小时服务热线:1399999999
全国客服热线:400-0000-000 -
百度地图
福建省三明市 -
给我们发邮件
E-mail:[email protected]
在线沟通