-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy pathtrich_xuat_cv.py
52 lines (41 loc) · 3.05 KB
/
trich_xuat_cv.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
# -*- coding: utf-8 -*-
#@START PROCCESS
#### Pvh Developer
#### create 8-8-2016 working good with .doc file
############################################################################################################################
import time
_start_time = time.time()
print '================ TRÍCH XUẤT VĂN BẢN : (CV XIN VIỆC) ================================= '
print " \t\t\t TÁC GIẢ : PHAM VAN HIẾU \n"
print "email : [email protected] \n"
print 'github.com/hieuxinhe94/openCV'
print '*** chương trình có sử dụng các moduln mả nguồn mở của python:\n 1.textract : xử lí ,chuyển văn bản từ nhiều định dạng sang kiểu text \n 2.langid : nhận diện 97 loại ngôn ngử tự nhiên trên thế giới \n 3.prettytable : hiển thị chế độ bảng dử liệu trực tiếp trên thiết bị đầu cuối \n 4.các gói shultil,os,glob,... \n'
#============================================================================================================
print 'Các bước cốt lỏi chính của chương trình như sau : '
print 'di chuyển tất cả các file của các ngôn ngử khác nhau về từng floder riêng .'
def input_target():
print '**Warning : /computer/project/github/data/ \n'
_dir = raw_input(" Nhập đường dẩn đến thư mục chứa dử liệu : ")
with open('setup.txt','w') as s:
s.write(""+_dir)
s.close()
return _dir
input_target()
# Tam thoi lay luon du lieu trong thu muc chuong trinh
import nhan_biet_ngonngu
print 'done! '
print "\n chay từng tệp tin nhận dạng riêng cho mổi loại ngôn ngử gồm : \n - chuyển kiểu docx,doc,pdf,images thành kiểu text (txt) \n - chia nhỏ từng vùng sau khi nhận biết được tiêu đề cũa từng phần \n - nhận dạng vùng đó và tìm các từ khóa phù hợp \n - Lấy các dòng có từ khóa hoặc chế biến theo từng thuật toán ,yêu cầu riêng \n -Tạo bảng trực quan trên màn hình terminal,cmd ,... \n -Ghi dử liệu đó thành từng bảng,cột tương ứng \n -Xuất ra file excel,csv ,txt ... tùy chọn \n \t\t\t Kết thúc "
print '\n \t Xử lí cv tiếng việt ....'
import function_vi
print "\n\n \t Xử lí cv tiếng anh ...."
import function_en
print "\n\n\n\n \t OPTIONS "
print 'open terminal \n'
print 'Enter : >> python trich_xuat_cv.py'
print '******* run a file if you want to see more : python function_en.py ,python function_vi.py '
print "~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Done~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ "
############################################################################################################################
#@END OF PROCESS
################ Building Successful
## pvh
print 'time : %s' %str(time.time() - _start_time)