forked from dataminds/textminds
-
Notifications
You must be signed in to change notification settings - Fork 0
/
intro.Rmd
113 lines (48 loc) · 6.23 KB
/
intro.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
# 도입 {#intro}
## 사회과학 방법론
## 내용분석(Content Analysis)
내용분석은 사회과학연구자들이 많이 이용하는 연구방법론이다. 사람들 사이의 소통 내용을 효율적으로 탐구할 수 있기 때문이다.
내용분석의 초기 사례로는 1743년 스웨덴에서 간행된 90편의 성가에 대한 분석이 있다. 보다 현실적인 활용으로서는 2차대전 당시의 유럽지역 라디오방송 인기가요 분석이 있다. 연합국 정보국이 유럽의 독일 점령 라디오 방송으로 송출된 인기 가요의 유형과 빈도를 모니터링한후 이를 독일 방송국 결과와 비교해 독일군 병력의 밀집도를 추론하는데 활용했다 (Wimmer & Dominik, 2013).
내용분석의 고전은 익명으로 작성된 역사적 문헌에 대한 필자 확인이다. 특정 어휘 빈도를 계산한 후 필자가 확인된 문서와 비교하는 방식을 이용해 12편의 <연방주의자 논집(Federalist Papers")>의 필자로서 제임즈 메디슨임을 제시했다 (Martindale, 2015).
Wimmer, R. D. & Dominick, J. R. (2013). Mass Media Research: An Introduction
Martindale, C. (1995). On the utility of content analysis in author attribution: The federalist. Computers and the Humanities. 29, 259-270.
### 내용분석의 정의
내용분석은 "변수측정을 위해 체계적이고, 객관적이며, 양적인 방법으로 소통을 연구하고 분석하는 방법"으로서 3개 요소가 있다 (Wimmer & Dominik, 2013).
- 체계적(systematic): 분석규칙과 절차를 명시적으로 제시하고 일관되게 적용.
- 객관적(obejective): 재현성. 분석자 개인의 특성이나 편향의 개입 배제해 누가 분석해도 같은 결과 산출.
- 양적(quantitative): 메시지에 대한 숫자를 이용한 표현.
내용분석을 통해 일관된 결과를 얻기 위해 코딩 절차를 준수하고, 2명 이상의 복수의 사람이 코딩을 해 개인의 편향을 줄이는 방식을 이용한다.
### 컴퓨터보조 내용분석
최근에는 컴퓨터를 이용한 내용분석이 늘고 있다.
컴퓨터를 이용한 내용분석에는 사전방식, 기계학습(machine learning) 방식 등 다양한 접근이 있다. 사전방식은 어휘를 분석단위로 사전을 구성해 소프트웨어로 어휘의 빈도를 계산하는 방식이다. 상용제품(예: LIWC)도 있고, R이나 파이썬 등에서 사용할 수 있도록 공개한 사전도 있다 (예: moral dictionary).
기계학습 방식은 컴퓨터가 텍스트에서 일정한 규칙성(pattern)을 찾도록 하는 방법이다. 사전에 규칙성을 미리 학습시키는 지도학습(supervised learning)과, 기계가 자율적으로 규칙성을 찾는 비지도학습(unsupervised learning)이 있다. 지도학습과 비지도학습 방식을 결합한 반지도학습(semi-supervized learning)도 있다.
### 근거이론(grounded theory)
분석유목 없이 텍스트데이터에서 주제를 탐색해 가는 근거이론(grounded theory)은 데이터 기반의 귀납적(inductive) 내용분석이라고 할 수 있다.
### 컴퓨터 기반 근거이론
- 규칙성 탐지(pattern detection):
- 규칙성 개선(pattern refinement):
- 규칙성 확정(pattern confirmation):
### 전산사회과학(Computational Social Science) 디지털인문학(Digital Humanities)
인문학과 사회과학에 대한 전산적 접근(Computational Approach to Humanities and Social Science)
전산사회과학이 무엇인가에 대한 정의를 내리기는 어렵다. 빠르게 변하기 때문에 10년전 전산사회과학에 대한 정의가 지금의 전산사회과학에 적용되지 않을 정도다.
An Introduction to Computational Social Science
https://www.youtube.com/watch?v=zGG9wPl1C5E&list=PL9UNgBC7ODr4M1_4RLr4IYcXbHPUWYMrZ
#### 전산언어학(Computational Linguistics)
https://web.stanford.edu/~jurafsky/slp3/
## 텍스트마이닝
마이닝(mining)은 채굴이란 의미의 영어 단어다. 텍스트마이닝(text mining)이라고 하면 문서(text)를 채굴(mining)한다는 의미가 된다.
텍스트마이닝은 텍스트 형식의 데이터를 알고리즘으로 수집하고 정제하고 분석해 텍스트에 담긴 의미를 파악한 다음, 그 의미를 요약해 소통하는 일련의 과정이다. 텍스트마이닝은 텍스트 데이터 마이닝이라곧 할 수 있다.
텍스트마이닝이란 기계를 이용한 텍스트분석이라고 할 수 있다. 기존의 텍스트분석은 사람이 직접 문서를 읽고 그 내용을 이해하고 종합하거나(예: 근거이론), 텍스트에 분석유목을 부여해 사람이 각 유목의 빈도를 계산하는 방법(예: 내용분석)을 이용했는데, 그 과정의 상당부분을 기계가 대신하도록 했다.
텍스트마이닝의 도입으로 분석할 수 있는 텍스트의 양이 과거에는 불가능했던 규모로 확장됐다. 사람은 신문기사 수천건 정도는 내용분석을 할수 있겠지만, 수백만건의 기사를 사람이 분석한다는 것은 현실적으로 불가능하다.
텍스트마이닝은 크게 기계학습에 의한 방법과 그렇지 않은 방법으로 구분할 수 있다. 기계학습에 의한 방법은 지도학습, 비지도학습, 반지도학습 등으로 구분할 수 있다.
## 텍스트데이터
텍스트 형식의 데이터(문자형 데이터)는 다른 형식의 데이터(숫자형, 논리형)와는 많이 다르다. 문자형 데이터는 컴퓨터가 곧바로 처리할 수 없을 뿐만 아니라, 텍스트를 컴퓨터가 처리할 수 있도록 디지털화하는 매우 다양한 방식이 혼용되고 있다.
- 숫자형
정수, 실수 등 컴퓨터가 숫자로서 계산할 수 있는 데이터
- 논리형
참(TRUE), 거짓(FALSE) 등
### 텍스트의 단위
- 말뭉치(corpus):
문서들의 뭉치. 신문 말뭉치는 여러 신문기사들의 모음, 소설 말뭉치는 여러 소설을 모아놓은 문서들의 집합. 말뭉치는 상대적인 개념이다. 예를 들어, 소설집을 말뭉치라고 하면 개별 소설이 문서가 된다. 반면, 소설 한편을 말뭉치라고 하면, 소설의 각 장이 문서가 된다.
- 문서(document)
- 단어(term)