TensorFlow 메커니즘 기초

코드: tensorflow/examples/tutorials/mnist/

이 튜토리얼의 목표는 TensorFlow를 사용해 어떻게 트레이닝 하는지 그리고 전형적인 MNIST 데이터 셋을 사용해 손으로 쓴 숫자를 구별하는 간단한 feed-forward neural network를 평가하는지 보여주는 것이다. 이 튜토리얼 대상 독자는 TensorFlow 사용에 관심이 있는 머신러닝 유경험자다.

이 튜토리얼은 일반적인 머신러닝 교육에 적합하지 않다.

반드시 TensorFlow 설치 지시를 따랐는지 확인하라.

튜토리얼 파일

이 튜토리얼은 아래와 같은 파일들을 참조한다:

파일	목적
`mnist.py`	이 코드는 완전히 연결된 MNIST 모델을 구축한다.
`fully_connected_feed.py`	메인 코드는 feed dictionary를 사용해 다운로드 한 데이터 셋에 대해 구축된 MNIST모델을 트레이닝 한다.

트레이닝을 시작하기 위해 직접 fully_connected_feed.py 파일을 간단히 실행해 보라:

python fully_connected_feed.py

데이터 준비

MNIST는 머신 러닝에서 고전적인 문제다. 이 문제는 그레이 스케일(greyscale)인 손으로 쓴 숫자 28x28 픽셀 이미지를 보고 그 이미지가 표현하는 숫자가 0 부터 9 까지 숫자 중 어떤 것인지 판단하는 것이다.

더 많은 정보는 Yann LeCun's MNIST page 또는 Chris Olah's visualizations of MNIST 참고하라.

다운로드

run_training() 메소드의 맨 위에는, input_data.read_data_sets() 함수가 당신의 트레이닝 폴더에 올바른 데이터가 다운되었는지 확인하고, DataSet 인스턴스의 딕셔너리에 반환하기 위해 그 데이터의 압축을 해제한다.

data_sets = input_data.read_data_sets(FLAGS.train_dir, FLAGS.fake_data)

주의: fake_data flag 는 유닛 테스트의 목적으로 쓰이며 무시해도 이상이 없다.

데이터 셋	목적
`data_sets.train`	기본 트레이닝을 위한 55000개의 이미지와 레이블.
`data_sets.validation`	트레이닝 정확도를 반복해서 검증하기 위한 5000개의 이미지와 레이블.
`data_sets.test`	트레이닝된 정확도를 마지막으로 테스트하기 위한 10000개의 이미지와 레이블.

데이터에 대한 더 많은 정보는 Download tutorial을 읽어 보세요.

입력과 플레이스 홀더(Placeholders)

placeholder_inputs() 함수는 두개의 tf.placeholder ops를 생성한다. 이 ops는 batch_size 를 포함해, 남은 그래프를 위한 입력 형태와 실제 트레이닝 example의 입력 형태를 정의한다.

images_placeholder = tf.placeholder(tf.float32, shape=(batch_size,
                                                       mnist.IMAGE_PIXELS))
labels_placeholder = tf.placeholder(tf.int32, shape=(batch_size))

트레이닝 반복 루프 더 아래 부분에서, 전체 이미지와 레이블 데이터셋이 각 순서에서 batch_size 에 맞게 나누어지고 이 플레이스 홀더 ops들과 매치된다. 그리고 나서 feed_dict 변수를 사용해 sess.run() 함수에 전달된다.

Build the Graph

데이터를 위한 플레이스 홀더를 생성한 후에, 3-스테이지 패턴(3-stage pattern): inference(), loss(), training() 을 따라서 mnist.py 파일로부터 그래프가 생성됩니다.

inference() - 예측을 위해 network forward 실행에 필요한 수준의 그래프를 작성한다.
loss() - inference 그래프에 loss를 생성하기 위해 필요한 ops를 더한다.
training() - loss 그래프에 계산과 그라디언트(gradient)를 적용하기 위한 op를 더한다.

Inference

inference() 함수는 그래프를 작성하는데, 이 그래프는 예측한 출력을 가지는 tensor를 반환하는데 필요한 정도까지 작성된다.

이것은 이미지 플레이스 홀더를 입력으로 취하고 그 위에 출력 logits를 지정한 10 노드 선형 층(ten node linear layer)을 동반하는 ReLu activation을 가진 한 쌍의 완전 연결 층(fully connected layer)을 만든다.

각 층은 고유한 tf.name_scope 아래에서 생성된다. 이것은 해당 범위(scope) 안에서 생성된 것에게 접두어와 같은 기능을 한다.

with tf.name_scope('hidden1'):

정의된 범위 내, weights와 biases의 층을 요구되는 형태로 tf.Variable 인스턴스 안에서 생성해 사용한다:

weights = tf.Variable(
    tf.truncated_normal([IMAGE_PIXELS, hidden1_units],
                        stddev=1.0 / math.sqrt(float(IMAGE_PIXELS))),
    name='weights')
biases = tf.Variable(tf.zeros([hidden1_units]),
                     name='biases')

예를 들어, 이것들이 hidden1 범위 내에서 생성될 때는 weights 변수에 부여된 고유한 이름은 "hidden1/weights"다.

각 변수에게 initializer ops가 생성자(construction)의 일부로서 주어져 있다.

보통의 경우에, weights는 tf.truncated_normal로 초기화 되고 2-D tensor의 형태가 된다. 첫 번째 dim(차원. dimension)은 weights가 연결해 나온 층의 유닛(units) 갯수이고 두 번째 dim은 weights가 연결한 층의 유닛 갯수이다. hidden1이라고 이름붙여진 첫 번째 레이어의 차원은 [IMAGE_PIXELS, hidden1_units] 다. 왜냐하면 weights가 이미지 입력과 hidden1 layer를 연결하고 있기 때문이다. tf.truncated_normal initializer는 주어진 평균과 표준 편차를 가지고 임의의 분포를 생성한다.

그 후에 biases가 모두 0 값을 가지고 시작하도록 biases를 tf.zeros로 초기화한다. 그리고 그것의 형태는 단순히 연결된 층의 유닛 수가 된다.

그래프의 세가지 기본적인 ops -- 숨겨진 층(hidden layer) tf.matmul 을 감싸는 두개의 tf.nn.relu ops와 logits를 위한 추가 tf.matmul 하나 -- 가 분리된 tf.Variable 인스턴스와 함께 각각 차례대로 생성된다. 이 인스턴스는 각각의 입력 플레이스 홀더 또는 이전 레이어의 출력 tensor와 연결되어 있다.

hidden1 = tf.nn.relu(tf.matmul(images, weights) + biases)

hidden2 = tf.nn.relu(tf.matmul(hidden1, weights) + biases)

logits = tf.matmul(hidden2, weights) + biases

마지막으로, 출력을 가질 logits tensor가 반환된다.

Loss

loss() 함수는 필요한 loss ops를 더해 그래프를 더 발전시킨다.

첫 번째로, labels_placeholder 에서 나온 값이 64비트 정수로 변환된다. 그 다음, tf.nn.sparse_softmax_cross_entropy_with_logits가 labels_placeholder에서 1-hot label을 자동으로 생성하고 inference() 함수의 1-hot labels 출력 logits을 비교하기 위해 추가된다.

labels = tf.to_int64(labels)
cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(
    logits, labels, name='xentropy')

그 후에 batch dimension(첫 번째 dimension)에 걸친 cross entropy 값을 총 손실(loss)로 구하기 위해 tf.reduce_mean를 사용한다.

loss = tf.reduce_mean(cross_entropy, name='xentropy_mean')

그리고 loss 값을 가질 tensor가 반환된다.

주의: Cross-entropy는 무엇이 정말 참인지를 고려해 볼 때, neural network의 예측을 믿는 것이 얼마나 나쁜지를 설명하게 해 준 정보 이론에서 가져온 아이디어다. 더 많은 정보는 Visual Information Theory 블로그 포스트를 읽어 보라 (http://colah.github.io/posts/2015-09-Visual-Information/)

Training

training() 함수는 Gradient Descent를 통해 손실을 최소화하기 위해 필요한 작업을 추가한다.

첫째로, loss() 함수로부터 loss tensor를 가지고 tf.scalar_summary에 넘겨준다. tf.scalar_summary는 SummaryWriter와 쓰일 때 이벤트 파일에 요약 값(summary values)을 생성하는 op다. 이 경우에, 이것은 요약이 기록될 때 마다 손실 값의 스냅샷(snapshot)를 내보낸다.

tf.scalar_summary(loss.op.name, loss)

다음으로, 요청된 학습률에 gradients를 적용하는 tf.train.GradientDescentOptimizer 인스턴스를 생성한다.

optimizer = tf.train.GradientDescentOptimizer(learning_rate)

그런 다음, 글로벌 트레이닝 단계(global training step)를 위한 카운터를 가진 변수 하나를 생성한다. minimize() op는 시스템 내에서 트레이닝 가능한 weights와 글로벌 단계의 진행을 업데이트한다. 관례상, 이것은 train_op 로 알려져 있다. 그리고 이것은 트레이닝의 전체적인 단계를 진행하기 위해 반드시 TensorFlow session에서 실행되어야 한다.(아래 확인)

global_step = tf.Variable(0, name='global_step', trainable=False)
train_op = optimizer.minimize(loss, global_step=global_step)

트레이닝 op의 출력을 가진 tensor가 반환된다.

Train the Model

일단 그래프가 작성되면, 반복해서 트레이닝 할 수 있고 반복 루프(loop)에서 실행할 수 있습니다. 반복 루프(loop)는 fully_connected_feed.py 에 있는 유저 코드에 의해 컨트롤됩니다.

그래프

run_training() 함수의 상단에 python 명령어 with 이 있다. 이 명령어는 만들어진 모든 ops가 default global tf.Graph 인스턴스와 관련이 있음을 나타낸다.

with tf.Graph().as_default():

tf.Graph 는 그룹으로 합께 실행되는 ops의 모임이다. 대부분의 TensorFlow 사용은 오직 하나의 기본 그래프에 의존해야 한다.

다수의 그래프로 더 복잡한 사용이 가능하지만 이 간단한 튜토리얼의 범위에 벗어난다.

세션(Session)

만들 준비가 모두 완료되고 필요한 모든 ops가 생성되었다면, 그래프를 실행하기 위해 tf.Session을 만든다.

sess = tf.Session()

다른 방법으로, 범위 지정을 위한 with 블록에서 Session을 생성할 수 있다:

with tf.Session() as sess:

세션에 빈 파라미터는 이 코드가 기본 로컬 세션에 연결될 것임음(아직 로컬 세션이 생성되지 않았다면 생성할 것임)을 나타냅니다.

세션을 생성한 직후 tf.Variable의 초기화 op에서 sess.run()를 호출해 모든 tf.Variable 인스턴스가 초기화됩니다.

init = tf.initialize_all_variables()
sess.run(init)

sess.run() 메소드는 파라미터로 전달된 op(s)에 대응하는 그래프의 완벽한 부분집합을 실행합니다. 첫 번째 경우에, init op는 변수들의 initializer만을 가지고 있는 tf.group입니다. 그래프의 남은 부분 중 어떤 것도 여기서는 실행되지 않습니다. 그것은 아래의 트레이닝 반복 루프에서 일어납니다.

Train Loop

세션으로 변수들을 초기화 한 후, 트레이닝이 시작되었습니다.

사용자의 코드는 단계별로 트레이닝을 제어합니다. 쓸만한 트레이닝을 할 수 있는 간단한 루프:

for step in xrange(FLAGS.max_steps):
    sess.run(train_op)

그러나 이 튜토리얼은 이전에 만든 플레이스 홀더에 맞게 각 단계에서 입력 데이터를 다듬어야 하기 때문에 약간 복잡하다.

Feed the Graph

각 단계에서, 코드는 이 단계를 위한 트레이닝 예시 셋을 포함하고 플레이스 홀더 ops가 키값이 되는 feed 딕셔너리를 생성한다.

fill_feed_dict() 함수에서, 주어진 DataSet은 다음 이미지와 레이블의 batch_size 셋을 검색한다. 그리고 다음 이미지와 레이블을 포함해 플레이스 홀더와 매칭된 tensors가 채워진다.

images_feed, labels_feed = data_set.next_batch(FLAGS.batch_size,
                                               FLAGS.fake_data)

그러면 플레이스 홀더를 키 값으로하고 feed tensors를 value 값으로 해 python 딕셔너리 객체가 생성된다.

feed_dict = {
    images_placeholder: images_feed,
    labels_placeholder: labels_feed,
}

이것은 이 단계의 트레이닝에 대한 입력 예시를 제공하기 위해 sess.run() 함수의 feed_dict 파라미터로 전달된다.

Check the Status

이 코드는 실행 호출에서 가져오기 위해 두 값을 지정한다: [train_op, loss].

for step in xrange(FLAGS.max_steps):
    feed_dict = fill_feed_dict(data_sets.train,
                               images_placeholder,
                               labels_placeholder)
    _, loss_value = sess.run([train_op, loss],
                             feed_dict=feed_dict)

가져올 값이 두개기 때문에 sess.run()는 두개의 아이템을 가진 튜플을 반환한다. 가져올 값의 리스트에 있는 각 Tensor는 반환된 튜플에 있는 numpy 배열과 대응한다. 그리고 이 트레이닝 단계 동안 그 tensor의 값으로 채워진다. train_op는 출력값이 없는 작업이기 때문에 반환된 튜플에서 대응하는 요소는 None이다. 그래서 버린다. 그러나 loss tensor의 값은 트레이닝 중에 모델이 나누어지면 NaN이 된다. 로그 기록을 위해 이 값을 캡쳐해 둔다.

트레이닝이 NaNs 없이 잘 실행되었다고 가정하면, 사용자가 트레이닝의 상태를 알게 하기 위해 트레이닝 루프가 매 100번째 단계마다 간단한 상태를 출력한다.

if step % 100 == 0:
    print 'Step %d: loss = %.2f (%.3f sec)' % (step, loss_value, duration)

상태 시각화

TensorBoard에서 사용된 이벤트 파일을 내보내기 위해서, 그래프 작성 단계에서 모든 요약자료를 (이 경우에는 하나) 하나의 op에 모아야 한다.

summary_op = tf.merge_all_summaries()

세션이 만들어진 후에, 그래프와 요약 값을 포함한 이벤트 파일을 작성하기 위해 tf.train.SummaryWriter 인스턴스가 생성되었을 것이다.

summary_writer = tf.train.SummaryWriter(FLAGS.train_dir, sess.graph)

마지막으로, 이벤트 파일은 summary_op가 실행되고 작성자의 add_summary() 함수에 출력이 전달될 때 마다 새로운 요약 값으로 업데이트 된다.

summary_str = sess.run(summary_op, feed_dict=feed_dict)
summary_writer.add_summary(summary_str, step)

이벤트 파일이 쓰여지면, 요약 값들을 보여주기 위해 TensorBoard가 트레이닝 폴더에 대해 실행될 것이다.

주의: 어떻게 Tensorboard를 만들고 실행하는지에 대한 더 많은 정보는, 동봉된 튜토리얼을 보시기 바랍니다. Tensorboard: 학습을 시각화하기.

Save a Checkpoint

나중에 추가적인 트레이닝이나 평가를 위해 모델을 복구하는데 쓰일 수 있는 checkpoint 파일을 내보내기 위해서, tf.train.Saver 인스턴트를 생성합니다.

saver = tf.train.Saver()

트레이닝 루프에서, 모든 트레이닝 할 수 있는 변수들의 현재 값을 트레이닝 디렉토리에 있는 checkpoint 파일에 쓰기 위해 saver.save() 메소드를 정기적으로 호출한다.

saver.save(sess, FLAGS.train_dir, global_step=step)

미래에 나중에 생성된 몇개의 포인터에서, 모델 파라미터를 불러오기 위해 saver.restore() 메소드를 사용해 트레이닝을 재개할 수도 있다.

saver.restore(sess, FLAGS.train_dir)

Evaluate the Model

매 1000번째 단계마다, 코드는 트레이닝과 테스트 데이터셋에 대해 모델 평가를 시도한다.
Training, validation, test dataset 을 위해 do_eval() 함수를 세 번 호출한다.

print 'Training Data Eval:'
do_eval(sess,
        eval_correct,
        images_placeholder,
        labels_placeholder,
        data_sets.train)
print 'Validation Data Eval:'
do_eval(sess,
        eval_correct,
        images_placeholder,
        labels_placeholder,
        data_sets.validation)
print 'Test Data Eval:'
do_eval(sess,
        eval_correct,
        images_placeholder,
        labels_placeholder,
        data_sets.test)

더 복잡한 데이터를 다룰 때는 일반적으로 매우 많은 양의 hyperparameter를 조절한 후, data_sets.test만 체크한다. 그러나 간단한 MNIST 문제에 대해서는 모든 데이터에 대해 확인한다.

Build the Eval Graph

트레이닝 루프에 들어가기 전에, loss() 함수와 같은 logits/labels 파라미터로 mnist.py에서 evaluation() 함수를 호출해 Eval op를 생성했어야 한다.

eval_correct = mnist.evaluation(logits, labels_placeholder)

evaluation() 함수는 단순히 tf.nn.in_top_kop를 생성한다. 이 op는 자동적으로 참인 레이블이 K most-likely 예측에서 발견되면, 각 모델의 출력을 올바르다고 채점한다.
이 경우에 참인 레이블에 대해 예측이 옳았을 경우만 K의 값을 1로 설정합니다.

eval_correct = tf.nn.in_top_k(logits, labels, 1)

Eval Output

feed_dict를 채우기 위해 루프를 만들수 있고 eval_correct op에 대해 sess.run()를 호출해서 주어진 테이터셋의 모델을 평가할 수 있습니다.

for step in xrange(steps_per_epoch):
    feed_dict = fill_feed_dict(data_set,
                               images_placeholder,
                               labels_placeholder)
    true_count += sess.run(eval_correct, feed_dict=feed_dict)

true_count 변수는 간단히 in_top_k op가 옳다고 판단한 모든 예측들을 축적합니다.
그것을 간단히 예시의 총 갯수로 나누어 정확도를 계산합니다.

precision = true_count / num_examples
print('  Num examples: %d  Num correct: %d  Precision @ 1: %0.04f' %
      (num_examples, true_count, precision))

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

index.md

index.md

TensorFlow 메커니즘 기초

튜토리얼 파일

데이터 준비

다운로드

입력과 플레이스 홀더(Placeholders)

Build the Graph

Inference

Loss

Training

Train the Model

그래프

세션(Session)

Train Loop

Feed the Graph

Check the Status

상태 시각화

Save a Checkpoint

Evaluate the Model

Build the Eval Graph

Eval Output

Files

index.md

Latest commit

History

index.md

File metadata and controls

TensorFlow 메커니즘 기초

튜토리얼 파일

데이터 준비

다운로드

입력과 플레이스 홀더(Placeholders)

Build the Graph

Inference

Loss

Training

Train the Model

그래프

세션(Session)

Train Loop

Feed the Graph

Check the Status

상태 시각화

Save a Checkpoint

Evaluate the Model

Build the Eval Graph

Eval Output