test_pose_augmentation.py

import numpy as np
import cv2
from tensorflow.python.training.tracking import base
from extract import create_records, write_records
import glob
from multiprocessing import Pool
import camera
import orientation
import tensorflow as tf
import keras_resnet
import depth_and_motion_net
import random

def create_model():
    inputs = tf.keras.Input(shape=(128, 416, 6), name='frames')

    # encoder
    conv5 = keras_resnet.resnet18_encoder(inputs)
    # conv5 = keras_regnet.regnety_400mf(inputs)

    # more downsampling
    conv6 = keras_resnet.res_block_first(conv5, 512, stride=2)
    conv6 = keras_resnet.res_block(conv6, 512)

    conv7 = keras_resnet.res_block_first(conv6, 512, stride=2)
    conv7 = keras_resnet.res_block(conv7, 512)

    bottleneck = tf.keras.layers.Lambda(lambda x: tf.reduce_mean(x, [1, 2]))(conv7)
    # bottleneck = tf.keras.layers.Dropout(0.2)(bottleneck)

    rotation = tf.keras.layers.Dense(3, name='rot_fc')(bottleneck)
    translation = tf.keras.layers.Dense(3, name='trans_fc')(bottleneck)

    rotation = depth_and_motion_net.Scale(0.001)(rotation)
    translation = depth_and_motion_net.Scale(0.001)(translation)

    # translation, rotation = depth_and_motion_net.depth_and_motion_net_fc_no_mean(inputs)

    pose = tf.keras.layers.Concatenate(axis=1, name='pose')([translation, rotation])

    # speed prediction
    speed = tf.keras.layers.Lambda(lambda x: tf.expand_dims(20 * tf.norm(x[:, :3], axis=1), -1), name='speed')(pose)

    model = tf.keras.Model(inputs=inputs, outputs=[pose, speed])

    model.compile(optimizer=tf.keras.optimizers.Adam(1e-4), loss={'pose': 'mse', 'speed': 'mse'}, loss_weights={'pose': 1.0, 'speed': 0.0})
    
    latest = tf.train.latest_checkpoint("checkpoints/07_07_21-11_07")
    model.load_weights(latest).expect_partial()

    return model


def resize_crop_and_standardize(frame):
    frame = cv2.resize(frame, (640, 480), interpolation=cv2.INTER_AREA)
    frame = frame[142:339, :]
    frame = cv2.resize(frame, (416, 128), interpolation=cv2.INTER_AREA)

    frame = tf.image.convert_image_dtype(frame, tf.float32)
    frame = tf.image.per_image_standardization(frame)

    return frame


# takes in 2 ecef quaternions and returns the euler angle between them
def relative_orientation(ecef_quat_1, ecef_quat_2):
    ecef_mat_1 = orientation.quat2rot(ecef_quat_1)
    ecef_mat_2 = orientation.quat2rot(ecef_quat_2)

    relative_mat = np.matmul(ecef_mat_2, np.transpose(ecef_mat_1))

    return orientation.rot2euler(relative_mat)

def extract_segment(path):
    # radar_returns = np.load(path + '/processed_log/CAN/radar/value')
    # radar_time_stamps = np.load(path + '/processed_log/CAN/radar/t')

    # print(radar_returns.shape)

    # for rr, t in zip(radar_returns[:10], radar_time_stamps[:10]):
    #     print(t, rr)

    # return


    model = create_model()

    frame_velocities =  np.linalg.norm(np.load(path + '/global_pose/frame_velocities'),axis=1)
    frame_velocities = list(map(lambda x: x.item(), frame_velocities))


    cam = cv2.VideoCapture(path + "/video.hevc")
    frames = []

    for i in range(10):
        ret, frame = cam.read()
        frames.append(frame)

    frame_positions = np.load(path + '/global_pose/frame_positions')
    frame_orientations = np.load(path + '/global_pose/frame_orientations')

    for i in range(len(frame_positions[:-3])):
        plus_one_position = camera.device_from_ecef(frame_positions[i], frame_orientations[i], frame_positions[i+1])
        plus_one_orientation = relative_orientation(frame_orientations[i], frame_orientations[i+1])

        base_frame = frames[i]
        base_frame_standard = resize_crop_and_standardize(base_frame)

        # cv2.imwrite("test1.jpg", base_frame)

        plus_one_real = frames[i+1]
        # plus_one_real = resize_crop_and_standardize(plus_one_real)

        # cv2.imwrite("test2.jpg", plus_one_real)


        # input = tf.concat((base_frame, plus_one_real), axis=2)
        # input = tf.expand_dims(input, axis=0)
        # pose, speed = model(input)
        # print(pose)

        # plp_view = camera.view_frame_from_device_frame.dot(np.array(plus_one_position))
        # print(plp_view)

        # plus_one_fake = camera.transform_img(np.array(base_frame), augment_trans=plp_view)
        # plus_one_fake = resize_crop_and_standardize(plus_one_fake)

        # input = tf.concat((base_frame, plus_one_fake), axis=2)
        # input = tf.expand_dims(input, axis=0)
        # pose, speed = model(input)
        # print(pose)

       # xplus = camera.transform_img(np.array(base_frame), augment_trans=np.array([0.1, 0, 0]))
        # cv2.imwrite("plus_one_real.jpg", plus_one_real)
        # # cv2.imwrite("plus_one_fake.jpg", plus_one_fake)
        # break

        xplus = camera.transform_img(np.array(plus_one_real), augment_trans=camera.view_frame_from_device_frame.dot(np.array((.5, 0.0, 0.0))))
        xplus_standard = resize_crop_and_standardize(xplus)
        input = tf.concat((base_frame_standard, xplus_standard), axis=2)
        input = tf.expand_dims(input, axis=0)
        pose, speed = model(input)
        print(plus_one_position)
        print(pose[:, :3])

        # cv2.imwrite("plus_one_fake.jpg", xplus_standard)


        # xminus = camera.transform_img(np.array(base_frame), augment_trans=np.array([-0.1, 0, 0]))
        # yplus = camera.transform_img(np.array(base_frame), augment_trans=np.array([0, 0.1, 0]))
        # yminus = camera.transform_img(np.array(base_frame), augment_trans=np.array([0, -0.1, 0]))
        # zplus = camera.transform_img(np.array(base_frame), augment_trans=np.array([0, 0, 0.1]))
        # zminus = camera.transform_img(np.array(base_frame), augment_trans=np.array([0, 0, -0.1]))


        # print(plus_one_position)
        # print(plus_one_orientation)

        break

extract_segment("/mnt/e/commaai/comma2k19/Chunk_1/b0c9d2329ad1606b_2018-07-27--06-03-57/11")