-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy paththeory.qmd
117 lines (93 loc) · 15.1 KB
/
theory.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
# 인공지능
챗GPT를 이해하는 기본지식[@ciesla2024book]을 정리한다.
## 언어구조
| 한글 (영어) | 한글 설명 | 사례 | AI 관련성 |
|:----------------:|:----------------:|:-----------------:|:----------------:|
| 음성학 (Phonetics) | 실제 발음되는 개별 음성을 연구 | 'ㄱ' 발음할 때 혀 뒷부분이 연구개에 닿는 방식 | 음성 인식 및 합성 기술 기초 제공: STT, TTS |
| 음운론 (Phonology) | 언어의 소리 체계와 규칙을 연구 | '굳이'가 \[구지\]로 발음되는 음운 변화 현상 | 음운 패턴 인식 및 발음 변이 처리 활용 |
| 형태론 (Morphology) | 단어의 구조와 형성 과정을 연구 | '맛있다'가 '맛' + '있다'로 구성됨 | 단어 분석 및 생성 능력 향상, 복합어 이해에 기여 |
| 구문론 (Syntax) | 문장의 구조와 어순을 연구 | "나는 어제 책을 읽었다"의 문장 성분과 구조 분석 | 문법적으로 정확한 문장 생성 및 구문 분석에 활용 |
| 의미론 (Semantics) | 언어 표현의 의미를 연구 | '사과'가 과일인지, 사죄의 의미인지 문맥에 따라 구분 | 단어와 문장의 의미 이해, 동음이의어 구별에 활용 |
| 화용론 (Pragmatics) | 맥락 속에서의 언어 사용을 연구 | "밖에 비가 오네요"라는 말이 우산을 가져가라는 제안일 수 있음 | 대화 맥락 이해 및 함축된 의미 파악으로 적절한 응답 생성 |
## 챗봇 역사
| 특성 | ELIZA | PARRY | Jabberwacky |
|-------------|-----------------|-------------|------------------------|
| 첫 버전 | 1966년 | 1972년 | 1981년 |
| 제작자 | 조셉 바이젠바움 | 케네스 콜비 | 롤로 카펜터 |
| 시나리오 | 정신과 의사 | 편집증 환자 | 사용자 입력 기반 |
| 개발 플랫폼 | IBM 7094 | CDC 3300 | Sinclair ZX81 |
| 접근 방식 | 패턴 매칭 | 패턴 매칭 | 문맥 기반, 자연어 처리 |
| 현재 상태 | 보관됨 | 보관됨 | 활발히 개발 중 |
## 챗GPT 관련 챗봇
## 챗봇 및 관련 기술 요약
| 챗봇 | 출시 연도 | 설명 | 주요 특징 | 이슈/비고 |
|:-------------:|:-------------:|:-------------:|:-------------:|:-------------:|
| **A.L.I.C.E.** | 1995 | Dr. Richard Wallace가 개발한 챗봇 | AIML 사용, 오픈 소스, 패턴 매칭 기반 | 학습 능력 부족, 제한된 이해력 |
| **AIML** | 2001 | 챗봇 응답 생성을 위한 인공 지능 마크업 언어 | 패턴과 템플릿을 사용한 간단한 구조 | 제한된 사용 범위 |
| **Kuki** | 2005 | A.L.I.C.E. 기반으로 개발된 챗봇 | Loebner Prize 5회 수상, 다양한 플랫폼에서 사용 | 주로 일상 대화에 한정 |
| **IBM Watson** | 2011 | IBM이 개발한 AI 시스템 | 방대한 데이터 처리, NLP 및 머신 러닝 사용 | 일반 공개용 아님, 산업 분야에서 활용 |
| **Replika AI** | 2017 | 개인화된 상호작용을 제공하는 가상 친구 챗봇 | 사용자와의 개인화된 대화, 학습 기능 | 개인정보 보호 이슈, 정서적 의존 위험 |
| **ChatGPT** | 2022 | OpenAI가 출시한 GPT-3.5 및 GPT-4 기반 챗봇 | 인간과 유사한 텍스트 생성, 질문 답변 능력 | 사실 오류 가능성, 최신 정보 제한 |
| **Open Assistant** | 2023 | 오픈 소스 대규모 언어 모델을 사용하는 챗봇 | 자원 봉사자들이 개발, HuggingFace 모델 활용 | 개발 중으로 일부 제한 존재 |
| **Google Bard** | 2023 | Google's PaLM 2 LLM을 사용하는 챗봇 | 최신 정보 접근 가능, Google 서비스와 통합 | 개발 중으로 일부 오류 발생 가능 |
## 악용 사례
| 오남용 사례 | 설명 | 예시 | 잠재적 영향 |
|:--------------:|:--------------------:|:--------------:|:----------------:|
| 허위정보 | AI를 활용하여 가짜 뉴스, 연구 기사, 소셜 미디어 게시물 등 허위 또는 오도된 정보를 생성 및 확산. | 맞춤형 허위정보; 감정 조작을 통한 가짜 뉴스. | 여론 조작; 선거 및 정치적 결정에 영향; 사회적 혼란. |
| 극단주의 | 챗봇을 이용하여 극단주의 콘텐츠를 전파하고 개인을 급진화. | 극단적 이념 확산; 팔로워 모집. | 온라인 급진화; 극단주의 활동 증가. |
| 어스트로터핑 (Astroturfing) | 가짜 온라인 참여를 통해 광범위한 대중의 지지 또는 반대의 인상을 조작. | 가짜 소셜 미디어 계정 생성; 자동화된 상호작용 조작. | 대중 인식 왜곡; 정책 결정에 대한 조작. |
| 오정보 | AI의 환각 및 편향된 데이터로 인해 의도치 않게 잘못된 정보 확산. | AI의 허구적 정보 생성; 온라인 데이터로부터의 편향된 출력. | 대중 의견의 왜곡; 사회적 문제 야기. |
| 악성 챗봇의 가짜 친구 행세 | 인간을 가장하여 스팸 전송, 개인 정보 수집, 신원 도용 등 범죄 행위 수행. | 소셜 미디어 및 데이트 사이트의 가짜 프로필; 로맨스 스캠. | 금전적 손실; 신원 도용; 감정적 피해. |
| 봇넷 | AI로 강화된 감염된 기기 네트워크를 활용하여 사이버 공격 및 스팸 수행. | 악성 광고나 링크를 통한 기기 감염; AI 기반 봇넷. | 대규모 사이버 공격; 스팸 캠페인; 데이터 유출. |
| 이메일 피싱 | AI를 활용하여 정교한 피싱 이메일을 생성하여 개인이나 그룹을 대상으로 함. | 스피어 피싱; 도난된 데이터를 활용한 맞춤형 이메일. | 데이터 도난; 금융 사기; 보안 침해. |
| 음성 사기 | AI로 생성된 음성 복제로 개인을 사칭하여 사기 행위 수행. | CEO 음성 사칭하여 자금 이체 요청. | 금전적 사기; 신뢰 상실; 보안 위협. |
| 딥페이크 | AI로 생성된 현실적인 가짜 영상으로 허위 정보 유포 또는 개인 명예 훼손. | 유명 인사의 딥페이크 영상; 가짜 연설. | 명예 훼손; 허위 정보 확산; 법적 문제. |
| 악성 코드 생성 | 챗봇을 활용하여 악성 소프트웨어나 멀웨어의 코드를 생성. | 프로그래밍 언어로 멀웨어 작성 지원. | 사이버 공격 증가; 탐지 어려운 멀웨어 생성. |
| 랜섬웨어 | AI로 생성된 정교한 랜섬웨어로 데이터를 암호화하고 금전 요구. | 안티바이러스를 회피하는 AI 기반 랜섬웨어. | 데이터 손실; 금전적 요구; 운영 중단. |
| AI 표절 (Aigiarism) | 챗봇을 이용하여 학술 작업물을 생성하고 이를 자신의 것으로 제출. | 학생들이 AI로 작성한 에세이 제출; 학계의 부정행위. | 학문적 부정직; 교육 가치 저하; 평가의 어려움. |
| 프라이버시 우려 | 챗봇이 민감한 개인 정보를 요청하고 처리하여 프라이버시 문제 야기. | 데이터 사용에 대한 사용자 우려; 개인 정보 통제 상실. | 데이터 오용; 신뢰 상실; 데이터 유출 가능성. |
| 챗봇과 극단주의 | 극단주의자들이 챗봇을 활용하여 이념을 전파하고 팔로워 모집. | 자동화된 선전 활동; 정치적 담론 조작. | 급진화 증가; 사회적 분열; 보안 위협. |
## 검색엔진
OpenAI가 2024년 7월에 발표한 [**SearchGPT**](https://openai.com/index/searchgpt-prototype/)[@kuttappan2024searchgpt]는 생성형 인공지능을 활용한 프로토타입 검색 엔진이다. 현재는 클로즈드 베타를 거쳐 일반 사용자들도 이용할 수 있는 단계에 있다. SearchGPT는 단순한 정보 검색을 넘어 사용자의 질문에 맞춤형 답변을 생성하고, 실시간으로 학습하며 대화형 검색을 가능하게 하는 고급 언어 이해 능력을 바탕으로 구글의 검색 엔진 시장 지배에 도전하고 있다. 특히 SEO 전략부터 개인화된 검색, 대화형 상거래에 이르기까지 다양한 분야에 혁신적인 변화를 가져올 잠재력을 지니고 있다. 그러나 네비게이셔널 및 트랜잭셔널 검색에서는 아직 한계가 존재한다.
구글은 현재 전 세계 검색 엔진 시장의 약 90%를 점유하고 있으며, 생성형 응답을 검색 결과에 통합하려는 시도를 했으나 성과가 미흡한 것으로 보인다. AI 기반 검색 엔진의 등장은 구글의 광고 수익 모델에 위협이 되고 있으며, 외부 경쟁자들이 검색 트래픽을 빼앗아 가면서 광고 수익이 감소하고 있다. 이러한 상황에서 구글은 광고 수익 감소 문제로 어려움을 겪고 있는 반면, OpenAI는 출판사와의 협력을 통해 생성된 트래픽을 기반으로 한 새로운 비즈니스 모델을 모색 중이다. SearchGPT의 등장은 사용자에게 새로운 선택지를 제공함과 동시에 구글에게도 새로운 도전 과제를 제시하고 있어, 검색 환경에 큰 변화를 예고하고 있다.
그러나 SearchGPT가 구글을 완전히 제치기 위해서는 사용자 신뢰 구축, 데이터 프라이버시 문제, 방대한 인터넷 인덱싱의 규모, 수익화 모델 개발, 그리고 규제 환경 변화 등 여러 도전 과제를 극복해야 한다. 또한 잘못된 정보와 편향성을 관리하고, 웹사이트 트래픽에 미치는 영향을 해결해야 하는 등의 문제가 남아 있다. 그럼에도 불구하고, SearchGPT의 등장은 디지털 마케터와 기술 애호가들에게 새로운 기회와 도전 과제를 동시에 제공하며, 검색 엔진의 미래에 중요한 전환점을 마련할 가능성이 크다.
![OpenAI SearchGPT](images/openai_searchGPT.png){fig-align="center"}
### SearchGPT 10가지 주요 기능
SearchGPT[@kashyap2024features]의 주요 기능을 다음과 같이 10가지로 정리할 수 있다.
1. **AI와 웹 정보의 결합 (Combining AI and Web Information)**
- OpenAI의 강력한 AI와 실시간 웹 데이터를 통합하여 매우 정확하고 관련성 높은 정보를 빠르게 제공한다.
2. **대화형 검색 (Conversational Search)**
- 사용자가 마치 다른 사람과 대화하듯 검색 엔진과 상호작용할 수 있어, 보다 자연스럽고 직관적인 검색 경험을 제공한다.
3. **후속 질문 (Follow-Up Questions)**
- 이전의 맥락을 기반으로 추가 질문을 할 수 있어, 복잡한 주제를 심도 있게 탐구할 수 있다.
4. **출판사 및 제작자 중심 (Focus on Publishers and Creators)**
- 신뢰할 수 있는 출판사와 제작자의 고품질 콘텐츠를 우선시하여, 사용자에게 신뢰성 있는 정보를 제공한다.
5. **명확한 출처 표시 (Clear Source Attribution)**
- 정보의 출처를 명확히 표시하여 사용자가 데이터의 신뢰성을 확인할 수 있게 한다.
6. **실시간 데이터 검색 (Real-Time Data Retrieval)**
- 정기적인 웹 크롤링 대신 실시간으로 웹에서 정보를 검색하여 최신 데이터를 제공한다.
7. **AI 기반 의도 이해 (AI-Based Understanding of Intent)**
- 사용자의 의도를 해석하여 더 정확한 검색 결과를 제공하며, 키워드 기반 검색을 넘어선다.
8. **맥락 지속성 (Contextual Continuity)**
- 여러 검색 쿼리 간의 맥락을 유지하여 일관된 정보를 제공하고 반복적인 검색을 줄인다.
9. **인터랙티브 피드백 루프 (Interactive Feedback Loop)**
- 사용자가 추가 질문이나 피드백을 통해 검색 결과를 더욱 정교하게 조정할 수 있다.
10. **향상된 사용자 참여 (Enhanced User Engagement)**
- 대화형 특성 덕분에 사용자가 적극적으로 검색 과정에 참여하게 되어, 정보의 유지와 전반적인 만족도가 높아진다.
![SearchGPT 검색엔진 효과](images/searchGPT.jpg){fig-align="center"}
### 검색엔진 비교
OpenAI **SearchGPT**와 전통적인 **구글(네이버/빙) 검색**, **야후(Yahoo)** 검색을 비교한다.
| 특징 | 야후 (Yahoo) | 구글 검색 (Google Search) | SearchGPT |
|----------------|--------------------|-------------------|------------------|
| **의도 vs. 키워드** | 야후는 주로 키워드 매칭을 통해 페이지를 순위 매긴다. | 구글 검색은 주로 키워드 매칭을 통해 페이지를 순위 매긴다. | SearchGPT는 사용자의 의도를 해석하여 보다 미묘하고 관련성 높은 검색 결과를 제공한다. |
| **실시간 데이터 vs. 웹 크롤링** | 야후는 Bing의 검색 기술을 사용하여 실시간 정보 제공에 한계가 있다. | 구글 검색은 주기적인 웹 크롤링에 의존하여 정보가 오래될 수 있다. | SearchGPT는 실시간으로 웹에서 직접 정보를 제공하여 최신 데이터를 제공한다. |
| **맥락 이해 vs. 개별 쿼리** | 야후는 각 검색을 독립적인 쿼리로 처리하여 정보가 단편화될 수 있다. | 구글 검색은 각 검색을 독립적인 쿼리로 처리하여 정보가 단편화될 수 있다. | SearchGPT는 여러 검색 쿼리 간의 맥락을 유지하여 후속 질문을 할 수 있게 한다. |
| **인터페이스** | 야후는 전통적인 검색 결과 페이지를 제공한다. | 구글 검색은 간단하고 직관적인 검색 결과 페이지를 제공한다. | SearchGPT는 대화형 인터페이스를 제공하여 보다 자연스럽고 직관적인 검색 경험을 제공한다. |
| **출처 표시** | 야후는 검색 결과에서 출처를 명확히 표시하지 않을 수 있다. | 구글 검색은 출처를 명확히 표시하지 않는 경우가 많다. | SearchGPT는 명확한 출처 표시와 링크를 제공하여 데이터의 신뢰성을 확인할 수 있게 한다. |
| **사용자 참여** | 야후는 사용자가 검색 과정에 적극적으로 참여할 수 있는 기능이 제한적이었다. | 구글 검색은 사용자가 검색 과정에 참여할 수 있는 기능이 제한적이었다. | SearchGPT는 대화형 특성 덕분에 사용자가 적극적으로 검색 과정에 참여하게 한다. |
| **콘텐츠 우선순위** | 야후는 인간이 큐레이션한 디렉토리를 기반으로 콘텐츠를 우선순위에 두었다. | 구글 검색은 알고리즘을 통한 페이지 랭킹에 중점을 두었다. | SearchGPT는 고품질의 신뢰할 수 있는 출판사 및 제작자의 콘텐츠를 우선시하여 제공한다. |
| **실시간 상호작용** | 야후는 실시간 상호작용 기능이 제한적이었다. | 구글 검색은 실시간 상호작용 기능이 제한적이었다. | SearchGPT는 사용자와의 대화를 통해 실시간으로 검색 결과를 조정할 수 있는 기능을 제공한다. |
| **데이터 프라이버시** | 야후는 데이터 프라이버시 관리가 제한적이었다. | 구글 검색은 데이터 수집과 프라이버시 관리에 대한 다양한 정책을 시행하고 있다. | SearchGPT는 사용자 데이터의 프라이버시를 보호하기 위한 고급 보안 및 데이터 관리 정책을 필요로 한다. |
| **비즈니스 모델** | 야후는 광고 기반 모델에 주로 의존했다. | 구글 검색은 광고 기반 모델에 주로 의존했다. | SearchGPT는 광고 수익 외에 출판사와의 협력을 통한 새로운 비즈니스 모델을 모색하고 있다. |
## 실습 사례
검색엔진 최적화 [@bitani2024methods]