Skip to content

nmingazov/uext-search

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

36 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Где я?

Это модуль, интегрирующий UIMA.Ext ( https://github.com/CLLKazan/UIMA-Ext/ ) c поисковым сервером (предположительно Solr) и key-value базой (пока не определенной).

Как запускать?

Помимо стандартного maven понадобится apache tomcat 7 (http://tomcat.apache.org/download-70.cgi). Параметры VM: -Xmx2048m -Dfile.encoding=UTF-8; Так же понадобится настроенная MongoDB(http://mongodb.org/).

Затем, необходимо перенастроить под себя properties, находящиеся в src/main/resources.

  1. database.properties - параметры MongoDB: host, port, username, password и dbname (имя базы). Предварительно также нужно сконфигурировать пользователя внутри MongoDB.
  2. uima.properties - нужно указать путь до dict.opcorpora.ser.

Что за dict.opcorpora.ser?

Это сериализованный словарь. Забудь, зачем. Для его получения нужно выкачать xml-словарь:

  1. Скачать архив по адресу http://opencorpora.org/files/export/dict/dict.opcorpora.xml.bz2
  2. Распаковать, получив dict.opcorpora.xml Затем в свободной папке:
  3. git clone https://github.com/CLLKazan/UIMA-Ext.git
  4. cd UIMA-Ext/UIMA.Ext.Morph.OpenCorpora
  5. mvn install
  6. mvn exec:exec -Dexec.executable="java" -Dexec.classpathScope="test" -Dexec.args="-Xmx1500m -cp %classpath ru.ksu.niimm.cll.uima.morph.opencorpora.resource.XmlDictionaryParser /path/to/dict.opcorpora.xml /serialized/dictionary/output/path"

В последней строке первый путь - это путь непосредственно к словарю dict.opcorpora.xml, второй - путь до формирующегося dict.opcorpora.ser (включая сам файл).

Тесты! Где же тесты?

Для них достаточно сделать mvn clean test

About

Search Engine for UIMA.Ext

Resources

Stars

Watchers

Forks

Packages

No packages published

Languages