Skip to content

Commit

Permalink
Merge branch 'release/v0.2'
Browse files Browse the repository at this point in the history
  • Loading branch information
krikit committed Dec 27, 2018
2 parents bb163e1 + 2ada394 commit 9694950
Show file tree
Hide file tree
Showing 23 changed files with 118 additions and 308 deletions.
2 changes: 1 addition & 1 deletion .github/pull_request_template.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
설명 (Description)
----
_이 문구를 지우고 여기에 내용을 적어주세요. (Remove this sentence and descripbe here.)_
_이 문구를 지우고 여기에 내용을 적어주세요. (Remove this sentence and describe here.)_

~~_겁내지 말아요, 저희는 한글을 사랑합니다._~~

Expand Down
2 changes: 2 additions & 0 deletions .gitignore
Original file line number Diff line number Diff line change
@@ -0,0 +1,2 @@
build/
__pycache__/
12 changes: 9 additions & 3 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -50,7 +50,7 @@ win 파라미터의 경우 3 혹은 4에서 가장 좋은 성능을 보이며

세종 코퍼스에서 분석 모호성이 없는 어절들로부터 자동으로 기분석 사전을 추출할 경우 약 8만 개의 엔트리가 생성됩니다. 이를 적용할 경우 약간의 속도 향상도 있어서 base 모델에 적용하면 약 9.2초로 10% 정도 속도 향상이 있었습니다.

기분석 사전의 기술 방법 및 자세한 내용은 [기분석 사전 문서](doc/preanal.md)를 참고하시기 바랍니다.
기분석 사전의 기술 방법 및 자세한 내용은 [기분석 사전 문서](https://github.com/kakao/khaiii/wiki/%EA%B8%B0%EB%B6%84%EC%84%9D-%EC%82%AC%EC%A0%84)를 참고하시기 바랍니다.


### 오분석 패치
Expand All @@ -62,18 +62,24 @@ win 파라미터의 경우 3 혹은 4에서 가장 좋은 성능을 보이며

만약 khaiii가 위 "오분석 결과"와 같이 오분석을 발생한 경우에 한해 바른 분석 결과인 "정분석 결과"로 수정합니다. 여기서 "\_"는 어절 간 경계, 즉 공백을 의미합니다.

오분석 패치의 기술 방법 및 자세한 내용은 [오분석 패치 문서](doc/errpatch.md)를 참고하시기 바랍니다.
오분석 패치의 기술 방법 및 자세한 내용은 [오분석 패치 문서](https://github.com/kakao/khaiii/wiki/%EC%98%A4%EB%B6%84%EC%84%9D-%ED%8C%A8%EC%B9%98)를 참고하시기 바랍니다.


빌드 및 설치
----
khaiii의 빌드 및 설치에 관해서는 [빌드 및 설치 문서](doc/setup.md)를 참고하시기 바랍니다.
khaiii의 빌드 및 설치에 관해서는 [빌드 및 설치 문서](https://github.com/kakao/khaiii/wiki/%EB%B9%8C%EB%93%9C-%EB%B0%8F-%EC%84%A4%EC%B9%98)를 참고하시기 바랍니다.


Contributing
----
khaiii에 기여하실 분들은 [CONTRIBUTING](CONTRIBUTING.md)[개발자를 위한 가이드](https://github.com/kakao/khaiii/wiki#%EA%B0%9C%EB%B0%9C%EC%9E%90%EB%A5%BC-%EC%9C%84%ED%95%9C-%EA%B0%80%EC%9D%B4%EB%93%9C) 문서를 참고하시기 바랍니다.


Slack
----
khaiii의 슬랙 주소는 https://khaiii.slack.com 입니다. 슬랙 가입 요청 페이지는 https://join-khaiii.herokuapp.com 입니다. 설치 시 발생한 문제에 대해 질문하시거나, 개발에 참여하실 분들은 편하게 가입하셔서 같이 말씀 나누시길 바랍니다.


License
----
This software is licensed under the [Apache 2 license](LICENSE), quoted below.
Expand Down
4 changes: 0 additions & 4 deletions doc/errpatch.md

This file was deleted.

Binary file added doc/img/pull-request-to-develop.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
4 changes: 0 additions & 4 deletions doc/preanal.md

This file was deleted.

150 changes: 0 additions & 150 deletions doc/setup.md

This file was deleted.

2 changes: 1 addition & 1 deletion requirements.txt
Original file line number Diff line number Diff line change
@@ -1,3 +1,3 @@
cmake>=3.10
numpy
torch==0.4.1
tqdm
2 changes: 1 addition & 1 deletion rsc/Makefile
Original file line number Diff line number Diff line change
Expand Up @@ -33,7 +33,7 @@ ERRPATCH = \
all: $(MODEL) $(PREANAL) $(RESTORE) $(ERRPATCH)

$(wordlist 2,100,$(MODEL)): $(firstword $(MODEL))
$(firstword $(MODEL)): $(RSC_SRC)/$(MODEL_SIZE).config.json $(RSC_SRC)/$(MODEL_SIZE).model.state
$(firstword $(MODEL)): $(RSC_SRC)/$(MODEL_SIZE).config.json $(RSC_SRC)/$(MODEL_SIZE).model.pickle
mkdir -p $(RSC_DIR)
PYTHONPATH=$(LIB_DIR) python3 $(BIN_DIR)/compile_model.py --model-size $(MODEL_SIZE) --rsc-src $(RSC_SRC) --rsc-dir $(RSC_DIR)

Expand Down
10 changes: 5 additions & 5 deletions rsc/bin/compile_errpatch.py
Original file line number Diff line number Diff line change
Expand Up @@ -205,7 +205,7 @@ def _load_entries(args):
"""
good_entries = []
bad_entries = []
for file_path in glob.glob(f'{args.rsc_src}/{args.model_size}.errpatch.*'):
for file_path in glob.glob('{}/{}.errpatch.*'.format(args.rsc_src, args.model_size)):
file_name = os.path.basename(file_path)
logging.info(file_name)
for line_num, line in enumerate(open(file_path, 'r', encoding='UTF-8'), start=1):
Expand Down Expand Up @@ -285,9 +285,9 @@ def _save_trie(rsc_dir, entries):
entry.right_align)
rights.append(entry.right_align)
total_patch += 1
trie.save(f'{rsc_dir}/errpatch.tri')
trie.save('{}/errpatch.tri'.format(rsc_dir))

len_file = f'{rsc_dir}/errpatch.len'
len_file = '{}/errpatch.len'.format(rsc_dir)
with open(len_file, 'wb') as fout:
fout.write(struct.pack('B', 0)) # 인덱스가 1부터 시작하므로 dummy 데이터를 맨 앞에 하나 넣는다.
for idx, right in enumerate(rights, start=1):
Expand All @@ -296,7 +296,7 @@ def _save_trie(rsc_dir, entries):
logging.info('length saved: %s', len_file)
logging.info('expected size: %d', len(rights)+1)

val_file = f'{rsc_dir}/errpatch.val'
val_file = '{}/errpatch.val'.format(rsc_dir)
with open(val_file, 'wb') as fout:
fout.write(struct.pack('h', 0)) # 인덱스가 1부터 시작하므로 dummy 데이터를 맨 앞에 하나 넣는다.
for idx, right in enumerate(rights, start=1):
Expand All @@ -316,7 +316,7 @@ def run(args):
args: program arguments
"""
aligner = Aligner(args.rsc_src)
restore_dic = load_restore_dic(f'{args.rsc_src}/restore.dic')
restore_dic = load_restore_dic('{}/restore.dic'.format(args.rsc_src))
if not restore_dic:
sys.exit(1)
vocab_out = load_vocab_out(args.rsc_src)
Expand Down
Loading

0 comments on commit 9694950

Please sign in to comment.