-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathVK-stat.txt
87 lines (65 loc) · 3.73 KB
/
VK-stat.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
Массив слов
STEP -- интервал времени (например день или час) по которому группируем
Слово:
0. Слово
1. дата (округлённая до STEP) сообщения в котором оно было
2. Порядок в сообщение по словам Enum(first == 1, begin < 33%, 33% < center < 66%, end > 66%, last == last)
3. Длина сообщения: Enum(single == 1, short < 5, medium < 15, long)
3.* Длина сообщения в словах (уберём после первого теста, но на основе этого определин Enum из пункта 3)
4. hash(user_id)
5.** userMeta: { age, sex }
Инфа о сообщениях:
1. дата
2. Длина сообщения слов: int
3. Длина сообщения символов: int
4. Длина голосового сообщения
5. Из беседы или лс (пока всегда false)
6. Время прошедшее с прошлого отправленного сообщения
7. Время прошедшее с прошлого полученного сообщения
8. hash(user_id)
9. hash(chat_id)
10.** userMeta: { age, sex }
Сессия – сообщения идущие с интервалом < T (хардкодится в программу 5 минут), время с полученного или отправленного сообщения < T:
1. Длина по сообщениям
2. Длина по времени
3. Длина по символам
4. hash(user_id)
5. hash(chat_id)
6. дата (округлённая до STEP)
1. График Y слов составляет X% языка
2. Наиболее популярные слова (какую часть речи составляет конкретное слово)
3. График Y слов составляет C% языка по времени T. Где С – константа которую вводит пользователь
4. График Y собеседников слов составляет X% общения
5. Кол во собеседников по времени. (C% общения происходим с Y людими по времени X)
6. Длина сессии диалога по времени
6. Частота использования слова X по времени T, X вводится
8. График X% языка мы используем слова, которые встречались в речи меньше Y раз
_______________________________________________________
_______________________________________________________
Оля: 5 сообщения за неделю
Никита: 10 сообщений за неделю
Сергей: 15 сообщений за неделю
мощность общения = 30 сообщений за неделю
Сергеем = 15 / 30 | 15 / 30
Никитой = 10 / 30 | 25 / 30
Олей = 5 / 30 | 30 / 30
_______________________________________________________
Привет как дела привет снова как жизнь
Привет, 2
как, 2
дела, 1
жизнь, 1
мощность алфавита слов: 4
всего слов: 6
1 слово (привет) составляет 2 / 6 речи
2 слова (привет, как) составляют 4 / 6 речи
3 слова (привет, как, дела) составляют 5 / 6 речи
4 слова (привет, как, дела, жизнь) составляют 6 / 6 речи
привет = 2 / 6 | 2/6
как = 2 / 6 | 2/6 + 2/6 = 4/6
дела = 1 / 6 | 4/6 + 1/6 = 5/6
жизнь = 1 / 6 | 5/6 + 1/6 = 6/6
count(all) = 6
select count(*), word, count(*) / total
...
group by word,