From d69bd408cd70e88446516fc5bd37c5824c2813fc Mon Sep 17 00:00:00 2001
From: haugoug <germain.haugou@iis.ee.ethz.ch>
Date: Mon, 1 Jun 2020 21:15:39 +0200
Subject: [PATCH] 3.5 Release

---
 CHANGELOG                                     |   19 +
 applications/CannyEdgeDetection/CannyDetect.c |    6 +-
 applications/CannyEdgeDetection/Makefile      |    4 -
 applications/FaceDetection/FaceDetGenerator.c |   12 +-
 applications/FaceDetection/Makefile           |    7 +-
 applications/FaceDetection/main.c             |   14 +-
 applications/FaceDetection/testset.cfg        |    4 +-
 applications/jpeg_encoder/Makefile            |    3 +
 configs/common.sh                             |    7 +-
 examples/autotiler/Cifar10/Makefile           |   24 +-
 examples/autotiler/IntegralImage/Makefile     |    6 +-
 examples/autotiler/IntegralImage/main.c       |    2 +-
 examples/autotiler/Mnist/Makefile             |   21 +-
 examples/autotiler/MnistGraph/Makefile        |   26 +-
 .../native/freeRTOS/periph/timer/test_timer.c |    4 +-
 examples/nntool/common/model_decl.mk          |   80 +-
 examples/nntool/common/model_rules.mk         |   48 +-
 examples/nntool/kws/Makefile                  |   14 +-
 examples/nntool/kws/emul.mk                   |    4 +-
 examples/nntool/kws/images/features_0_1.pgm   |  Bin 0 -> 7857 bytes
 examples/nntool/kws/images/features_1_3.pgm   |  Bin 0 -> 7857 bytes
 examples/nntool/kws/images/features_2_4.pgm   |  Bin 0 -> 7857 bytes
 examples/nntool/kws/images/features_3_4.pgm   |  Bin 0 -> 7857 bytes
 examples/nntool/kws/images/features_4_2.pgm   |  Bin 0 -> 7857 bytes
 examples/nntool/kws/kws.c                     |   44 +-
 examples/nntool/kws/max.log                   |    8 +
 examples/nntool/kws/model/nntool_script16     |    5 +-
 examples/nntool/kws/model/nntool_script8      |    5 +-
 .../nntool/kws/model/nntool_script_emul16     |    5 +-
 examples/nntool/kws/model_decl.mk             |   75 +-
 examples/nntool/kws/model_rules.mk            |   28 +-
 examples/nntool/mnist/Makefile                |   66 +-
 examples/nntool/mnist/README.md               |   21 +-
 examples/nntool/mnist/emul.mk                 |   44 +-
 examples/nntool/mnist/mnist.c                 |  112 +-
 examples/nntool/mnist/mnist.h                 |    7 -
 examples/nntool/mnist/mnist_emul.c            |  125 +
 examples/nntool/mnist/model/mnist.h5          |  Bin 0 -> 288232 bytes
 examples/nntool/mnist/model/mnist.tflite      |  Bin 0 -> 87456 bytes
 examples/nntool/mnist/model/nntool_script     |   10 +
 examples/nntool/mnist/model/nntool_script16   |   10 +-
 .../nntool/mnist/model/nntool_script_emul     |   11 +
 .../nntool/mnist/model/nntool_script_emul16   |   10 +-
 examples/nntool/mnist/model/train.py          |   25 +-
 examples/nntool/mnist/train_model.mk          |   21 +
 examples/nntool/visual_wake/Makefile          |   24 +-
 examples/nntool/visual_wake/README.md         |    6 +-
 examples/nntool/visual_wake/common.mk         |    1 -
 examples/nntool/visual_wake/emul.mk           |   31 +-
 .../nntool/visual_wake/model/nntool_script    |   30 +-
 .../visual_wake/model/nntool_script_emul      |   15 +
 .../model/visual_wake_quant.tflite            |  Bin 0 -> 309136 bytes
 examples/nntool/visual_wake/vww.c             |  190 +-
 examples/nntool/visual_wake/vww.h             |    1 -
 examples/nntool/visual_wake/vww_emul.c        |   95 +
 examples/nntool/visual_wake/vww_emul.h        |   18 +
 .../pmsis/test_periph/i2s/output/Makefile     |   36 +
 examples/pmsis/test_periph/i2s/output/test.c  |  120 +
 .../test_periph/test_camera_gc0308/Makefile   |    3 +-
 .../test_periph/test_camera_gc0308/test.c     |  148 +-
 .../pmsis/test_periph/test_camera_io/Makefile |    5 +-
 .../pmsis/test_periph/test_camera_io/test.c   |   14 +-
 .../test_periph/test_camera_lcd/Makefile      |    4 +-
 .../test_camera_lcd/test_camera_lcd.c         |    4 +-
 .../test_periph/test_camera_ov5640/test.c     |   45 +-
 gvsoc/gvsoc/bin/gvsoc_analyze_insn            |  205 +
 gvsoc/gvsoc/dpi-wrapper/Makefile              |    2 +-
 gvsoc/gvsoc/dpi-wrapper/src/dpi.cpp           |    1 +
 gvsoc/gvsoc/engine/include/gv/gvsoc.h         |    2 +-
 gvsoc/gvsoc/models/Makefile                   |    3 +-
 .../models/cpu/iss/include/isa_lib/int.h      |   35 +
 .../models/cpu/iss/include/isa_lib/macros.h   |    3 +
 gvsoc/gvsoc/models/cpu/iss/include/iss.hpp    |    1 +
 gvsoc/gvsoc/models/cpu/iss/include/regs.hpp   |   22 +
 .../gvsoc/models/cpu/iss/include/rvXint64.hpp |  321 +
 gvsoc/gvsoc/models/cpu/iss/include/types.hpp  |    6 +
 gvsoc/gvsoc/models/cpu/iss/include/utils.hpp  |   15 +
 gvsoc/gvsoc/models/cpu/iss/isa_gen/isa_gen.py |    8 +
 .../models/cpu/iss/isa_gen/isa_riscv_gen.py   |   81 +-
 gvsoc/gvsoc/models/cpu/iss/src/trace.cpp      |   26 +-
 gvsoc/gvsoc/models/devices/testbench/Makefile |    2 +
 .../models/devices/testbench/testbench.cpp    |  303 +
 gvsoc/gvsoc/models/utils/dpi_chip_wrapper.cpp |   71 +
 libs/gap_lib/Makefile                         |    2 +
 libs/gap_lib/img_io/ImgIO.c                   |  865 +-
 libs/gap_lib/include/gaplib/ImgIO.h           |   32 +-
 libs/gap_lib/include/gaplib/fs_switch.h       |   80 +
 .../drivers/udma/i2s/i2s_internal.c           |    2 +-
 .../include/pmsis/implem/drivers/perf/perf.h  |   38 +
 .../pmsis_api/include/pmsis/drivers/uart.h    |    9 +-
 .../pmsis_bsp/rules/freertos_bsp_rules.mk     |    2 +-
 rtos/pulp/pulp-os/drivers/drivers.mk          |    2 -
 rtos/pulp/pulp-os/drivers/gpio/gpio-v3.c      |  177 +
 rtos/pulp/pulp-os/drivers/pwm/pwm-v1.c        |    3 -
 rtos/pulp/pulp-os/libs/io/prf.c               |  669 +-
 tools/autotiler_v3/Makefile                   |    2 +-
 .../autotiler_v3/generators/CNN/CNN_AT_Misc.c |  253 +
 .../generators/CNN/CNN_Activation_SQ8.c       | 1208 +++
 .../generators/CNN/CNN_BasicKernels.h         |  121 +-
 .../generators/CNN/CNN_BasicKernels_SQ8.h     |  745 ++
 .../CNN/CNN_BiasReLULinear_BasicKernels.c     | 1118 +--
 .../generators/CNN/CNN_Bias_Linear_SQ8.c      |  464 ++
 .../generators/CNN/CNN_Conv_BasicKernels.c    |    2 +-
 .../generators/CNN/CNN_Conv_DP_BasicKernels.c |  195 +-
 .../generators/CNN/CNN_Conv_DW_SQ8.c          | 7038 +++++++++++++++++
 .../generators/CNN/CNN_Conv_SQ8.c             | 4443 +++++++++++
 .../generators/CNN/CNN_Generator_Util.c       |  204 +
 .../generators/CNN/CNN_Generator_Util.h       |   46 +
 .../generators/CNN/CNN_Generators.c           |  612 +-
 .../generators/CNN/CNN_Generators.h           |  106 +-
 .../generators/CNN/CNN_Generators_SQ8.c       | 3056 +++++++
 .../generators/CNN/CNN_Generators_SQ8.h       |  605 ++
 .../generators/CNN/CNN_MatAlgebra.c           | 5483 +++++--------
 .../generators/CNN/CNN_MatAlgebra_SQ8.c       | 3441 ++++++++
 .../generators/CNN/CNN_Pooling_SQ8.c          | 2281 ++++++
 .../autotiler_v3/generators/CNN/CNN_SoftMax.c |    1 +
 .../generators/CNN/CNN_SoftMax_SQ8.c          |  243 +
 .../generators/FFT2D/FFT2DGenerator.c         |   10 +-
 .../generators/Fir/FirGenerator.c             |    2 +-
 .../IntegralImg/IntegralImgGenerator.c        |    4 +-
 .../generators/MatAdd/MatAddGenerator.c       |    2 +-
 .../generators/MatMult/MatMultGenerator.c     |    4 +-
 .../generators/Resize/ResizeGenerator.c       |    2 +-
 tools/autotiler_v3/include/AutoTilerLib.h     |  166 +-
 .../autotiler_v3/include/AutoTilerLibTypes.h  |  126 +-
 tools/autotiler_v3/include/GapBuiltins.h      |    2 +
 tools/autotiler_v3/include/at_api_emul.h      |    4 +-
 tools/autotiler_v3/include/at_api_pmsis.h     |   24 +-
 .../configs/chips/gap9_v2/gap9_v2.json        |    2 +-
 .../configs/chips/gap9_v2/gap9_v2_rtl.json    |  192 +-
 .../configs/devices/testbench.json            |  117 +
 ...i5ky_v2_6_sfloat_single_regfile_int64.json |    4 +
 .../ri5ky_v2_sfloat_single_regfile_sec.json   |    3 +-
 tools/gap8-openocd-tools/tcl/fuser.tcl        |   61 +
 tools/gapy/runner/board/board_runner.py       |   13 +-
 tools/nntool/.vscode/launch.json              |   51 +-
 tools/nntool/Makefile                         |    2 +-
 tools/nntool/README.md                        |   88 +-
 tools/nntool/_version.py                      |    2 +-
 .../generators/nntool_extra_generators.c      |  280 +
 .../generators/nntool_extra_generators.h      |   24 +
 .../autotiler/kernels/nntool_extra_kernels.h  |   74 +
 .../nntool/autotiler/kernels/norm_transpose.c |  204 +
 tools/nntool/autotiler/tests/Mk               |   78 +
 tools/nntool/autotiler/tests/MkGap8           |   20 +
 tools/nntool/autotiler/tests/testModel.c      |   48 +
 tools/nntool/autotiler/tests/testRun.c        |  381 +
 tools/nntool/execution/execution_progress.py  |   54 +
 tools/nntool/execution/graph_executer.py      |  334 +
 tools/nntool/execution/quantization_mode.py   |   32 +-
 .../generation/at_generators/__init__.py      |   21 +
 .../at_generators/cnn_3d_tensor_permute.py    |   47 +
 .../cnn_convolution_mulbias_pool_relu.py      |   46 +
 .../cnn_convolution_pool_relu.py              |  214 +
 .../at_generators/cnn_global_pool.py          |   70 +
 ...n_grouped_convolution_mulbias_pool_relu.py |   48 +
 .../cnn_grouped_convolution_pool_relu.py      |  126 +
 .../at_generators/cnn_linear_relu.py          |   78 +
 .../generation/at_generators/cnn_matrix.py    |  109 +
 .../generation/at_generators/cnn_pool_relu.py |   85 +
 .../generation/at_generators/cnn_softmax.py   |   53 +
 .../nntool/generation/at_generators/utils.py  |   36 +
 tools/nntool/generation/at_types/__init__.py  |    0
 tools/nntool/generation/at_types/at_params.py |  214 +
 .../generation/at_types/constant_info.py      |   63 +
 tools/nntool/generation/at_types/gen_ctrl.py  |  105 +
 .../nntool/generation/at_types/tc_arg_info.py |  148 +
 .../generation/at_types/tensor_stack.py       |   38 +
 tools/nntool/generation/autotiler_options.py  |  118 +
 tools/nntool/generation/bindings.py           |   45 +-
 tools/nntool/generation/code_generator.py     |  702 +-
 tools/nntool/generation/default_template.py   |   18 +-
 .../nntool/generation/generators/__init__.py  |   69 +
 .../generators/bindings/__init__.py           |    0
 .../generators/bindings/mult8/__init__.py     |    0
 .../bindings/mult8/conv_bindings_generator.py |   79 +
 .../bindings/mult8/fc_binding_generator.py    |   57 +
 .../mult8/inout_bindings_generator.py         |   40 +
 .../mult8/inout_infos_bindings_generator.py   |   47 +
 .../mult8/mat_vect_mult_bindings_generator.py |   50 +
 .../mult8/matadd_bindings_generator.py        |   52 +
 .../mult8/softmax_bindings_generator.py       |   39 +
 .../generators/bindings/pow2/__init__.py      |    0
 .../bindings/pow2/conv_bindings_generator.py  |   68 +
 .../bindings/pow2/fc_bindings_generator.py    |   50 +
 .../bindings/pow2/inout_bindings_generator.py |   49 +
 .../pow2/matadd_bindings_generator.py         |   35 +
 .../pow2/matscale_bindings_generator.py       |   46 +
 .../pow2/softmax_bindings_generator.py        |   35 +
 .../pow2/transpose_bindings_generator.py      |   24 +
 .../generators/generator_decorators.py        |  102 +
 .../generation/generators/globals/__init__.py |    0
 .../globals/constant_input_generator.py       |   41 +
 .../generators/globals/filter_generator.py    |   93 +
 .../generators/globals/global_names.py        |   21 +
 .../generators/globals/input_generator.py     |   26 +
 .../globals/mult8_filter_generator.py         |   94 +
 .../globals/mult8_infos_generator.py          |  182 +
 .../generators/globals/output_generator.py    |   27 +
 .../generation/generators/kernels/__init__.py |    0
 .../generators/kernels/autotiler_kernel.py    |   21 +
 .../generators/kernels/general/__init__.py    |    0
 .../general/imageformat_kernels_generator.py  |   60 +
 .../generators/kernels/mult8/__init__.py      |    0
 .../mult8/conv_pool_relu_kernels_generator.py |  257 +
 .../mult8/global_pool_kernels_generator.py    |   85 +
 .../mult8/linear_relu_kernels_generator.py    |  121 +
 .../mult8/mat_vect_mult_kernels_generator.py  |   86 +
 .../kernels/mult8/matadd_kernels_generator.py |   86 +
 .../mult8/pool_relu_kernels_generator.py      |   93 +
 .../mult8/softmax_kernels_generator.py        |   79 +
 .../three_d_transpose_kernels_generator.py    |  152 +
 .../generators/kernels/pow2/__init__.py       |    0
 .../pow2/conv_pool_relu_kernels_generator.py  |  214 +
 .../pow2/global_pool_kernels_generator.py     |   66 +
 .../pow2/linear_relu_kernels_generator.py     |  103 +
 .../kernels/pow2/matadd_kernels_generator.py  |  147 +
 .../pow2/matscale_kernels_generator.py        |   85 +
 .../pow2/pool_relu_kernels_generator.py       |  128 +
 .../kernels/pow2/softmax_kernels_generator.py |   63 +
 .../three_d_transpose_kernels_generator.py    |  144 +
 tools/nntool/generation/name_cache.py         |   41 +
 tools/nntool/generation/naming_convension.py  |   33 +-
 tools/nntool/generation/write_constants.py    |   53 +-
 tools/nntool/graph/dim.py                     |  158 +-
 tools/nntool/graph/graph_identity.py          |   19 +
 .../graph/manipulations/adjust_order.py       |   71 +-
 .../manipulations/eliminate_transposes.py     |  395 +-
 .../matches/equalize_sym_mult_concats.py      |   76 +
 .../nntool/graph/matches/expand_transposes.py |   19 +-
 .../matches/find_asymmetric_quantization.py   |  203 +
 tools/nntool/graph/matches/find_hsigmoid.py   |  208 +
 .../matches/find_missing_quantization.py      |   98 +
 tools/nntool/graph/matches/fuse_pad.py        |    3 +-
 .../graph/matches/match_external_bias.py      |   62 +
 tools/nntool/graph/matches/match_gap_conv.py  |   35 +-
 .../nntool/graph/matches/match_gap_linear.py  |   31 +-
 tools/nntool/graph/matches/match_gap_pool.py  |   28 +-
 .../graph/matches/match_op_activation.py      |   89 +
 tools/nntool/graph/matches/matches.py         |   60 +-
 tools/nntool/graph/matches/move_activation.py |   59 +-
 .../propagate_softmax_sym_mult_qrec.py        |   45 +
 tools/nntool/graph/matches/remove_noops.py    |   33 +
 tools/nntool/graph/matches/remove_relus.py    |  121 +
 tools/nntool/graph/nngraph.py                 |   86 +-
 tools/nntool/graph/types/__init__.py          |   46 +-
 tools/nntool/graph/types/activations.py       |  156 +
 tools/nntool/graph/types/base.py              |   10 +-
 tools/nntool/graph/types/conv2d.py            |    6 +-
 tools/nntool/graph/types/fusions.py           |  116 +
 tools/nntool/graph/types/linear.py            |   11 +-
 tools/nntool/graph/types/others.py            |  334 +-
 .../importer/tflite/new_tflite_graph_all.py   |  489 +-
 .../nntool/importer/tflite/propagate_hints.py |   14 +-
 tools/nntool/interpreter/commands/__init__.py |    0
 tools/nntool/interpreter/commands/adjust.py   |   33 +
 tools/nntool/interpreter/commands/aquant.py   |   92 +
 tools/nntool/interpreter/commands/astats.py   |   69 +
 tools/nntool/interpreter/commands/dump.py     |  229 +
 tools/nntool/interpreter/commands/extract.py  |   34 +
 tools/nntool/interpreter/commands/fquant.py   |   55 +
 tools/nntool/interpreter/commands/freeze.py   |   59 +
 tools/nntool/interpreter/commands/fusions.py  |   68 +
 tools/nntool/interpreter/commands/gen.py      |   97 +
 tools/nntool/interpreter/commands/graph.py    |   77 +
 .../interpreter/commands/imageformat.py       |  141 +
 .../nntool/interpreter/commands/nodeoption.py |   89 +
 tools/nntool/interpreter/commands/open.py     |  100 +
 tools/nntool/interpreter/commands/qerror.py   |   69 +
 tools/nntool/interpreter/commands/qshow.py    |   44 +
 tools/nntool/interpreter/commands/qtune.py    |   53 +
 .../commands/range_equalization.py            |   81 +
 .../nntool/interpreter/commands/save_state.py |   47 +
 tools/nntool/interpreter/commands/stats.py    |   59 +
 tools/nntool/interpreter/commands/temps.py    |   36 +
 tools/nntool/interpreter/commands/tensors.py  |  197 +
 .../nntool/interpreter/commands/validation.py |  144 +
 tools/nntool/interpreter/generator.py         |    5 +-
 tools/nntool/interpreter/nntool_shell.py      | 1733 +---
 tools/nntool/interpreter/nntool_shell_base.py |  256 +
 tools/nntool/interpreter/settings.py          |  278 +
 tools/nntool/interpreter/shell_utils.py       |   65 +-
 tools/nntool/nntool                           |    7 +-
 .../quantization/cross_layer_range_eq.py      |   78 +-
 tools/nntool/quantization/float32/__init__.py |    0
 .../float32/float32_quantization.py           |  112 +
 .../quantization/float32/float_kernet_set.py  |  128 +
 .../quantization/float32/kernels/__init__.py  |    0
 .../float32/kernels/activations.py            |   80 +
 .../quantization/float32/kernels/fast_conv.py |  130 +
 .../float32/kernels/image_format.py           |   25 +
 .../quantization/float32/kernels/linear.py    |   75 +
 .../float32/kernels/matrix_operations.py      |   54 +
 .../quantization/float32/kernels/pad.py       |   29 +
 .../quantization/float32/kernels/pool.py      |  153 +
 .../quantization/float32/kernels/readme.md    |    7 +
 .../quantization/float32/kernels/softmax.py   |   34 +
 .../float32/kernels/tensor_functions.py       |  104 +
 tools/nntool/quantization/kernels/__init__.py |    0
 .../quantization/kernels/kernel_function.py   |  129 +
 .../quantization/kernels/kernel_switch.py     |   99 +
 .../quantization/multiplicative/__init__.py   |    0
 .../multiplicative/asymmetric/__init__.py     |    0
 .../asymmetric/asymmetric_mult_qtype.py       |  196 +
 .../multiplicative/mult_mulbias_qtype.py      |  126 +
 .../multiplicative/mult_qtype_base.py         |  249 +
 .../multiplicative/mult_quantization.py       |  388 +
 .../multiplicative/mult_quantizer.py          |  212 +
 .../quantization/multiplicative/mult_utils.py |   38 +
 .../multiplicative/symmetric/__init__.py      |    0
 .../symmetric/mult_mulbias_qtype_new.py       |  265 +
 .../symmetric/symmetric_mult_biases_qtype.py  |   58 +
 .../symmetric/symmetric_mult_qtype.py         |  232 +
 .../symmetric/symmetric_mult_qtype_wrapper.py |  123 +
 tools/nntool/quantization/qtype.py            |   63 +-
 tools/nntool/quantization/qtype_base.py       |   36 +-
 .../quantization/quantization_record_base.py  |  202 +
 tools/nntool/quantization/quantization_set.py |  130 +
 tools/nntool/quantization/quantizer.py        |    8 +-
 .../nntool/quantization/symmetric/__init__.py |    0
 .../symmetric/kernels/__init__.py             |    0
 .../symmetric/kernels/activations.py          |  176 +
 .../symmetric/kernels/fast_conv.py            |  139 +
 .../symmetric/kernels/image_format.py         |   25 +
 .../quantization/symmetric/kernels/linear.py  |   87 +
 .../symmetric/kernels/matrix_operations.py    |  131 +
 .../quantization/symmetric/kernels/pad.py     |   29 +
 .../quantization/symmetric/kernels/pool.py    |  188 +
 .../quantization/symmetric/kernels/softmax.py |   58 +
 .../symmetric/kernels/tensor_functions.py     |   98 +
 .../symmetric/symmetric_kernet_set.py         |  130 +
 .../symmetric/symmetric_quantization.py       |  208 +
 .../symmetric/symmetric_quantizer.py          |  607 ++
 tools/nntool/quantization/tuneq.py            |   17 +-
 tools/nntool/reports/error_reporter.py        |   13 +-
 tools/nntool/reports/filter_reporter.py       |    2 +-
 tools/nntool/reports/graph_reporter.py        |    2 +-
 tools/nntool/reports/quantization_reporter.py |   94 +-
 tools/nntool/requirements.txt                 |    6 +-
 .../stats/activation_stats_collector.py       |   26 +-
 tools/nntool/stats/error_stats_collector.py   |   83 +-
 tools/nntool/stats/filter_stats_collector.py  |   48 +-
 .../stats/step_error_stats_collector.py       |   50 +-
 tools/nntool/tests/conftest.py                |  106 +-
 tools/nntool/tests/graph/mobv1_quant.tflite   |  Bin 4657216 -> 4657216 bytes
 tools/nntool/tests/test_cmds.py               |    2 -
 .../nntool/tests/test_cross_layer_range_eq.py |   23 +-
 tools/nntool/tests/test_execution.py          |  125 +-
 tools/nntool/tests/test_fusions.py            |   29 +-
 tools/nntool/tests/test_generator.py          |  189 +-
 tools/nntool/tests/test_matcher.py            |    5 +-
 tools/nntool/tests/test_new_paramstate.py     |    4 +-
 tools/nntool/tests/test_nngraph.py            |  234 +-
 tools/nntool/tests/test_quantize.py           |   28 +-
 tools/nntool/tests/test_reports.py            |   12 +-
 tools/nntool/tests/test_sparse_list.py        |   28 +-
 tools/nntool/utils/add_sys_path.py            |   16 +
 tools/nntool/utils/at_norm.py                 |   43 +
 tools/nntool/utils/at_tensor_loader.py        |  190 +
 tools/nntool/utils/data_importer.py           |   79 +-
 tools/nntool/utils/exp_17_15.py               |   95 +
 tools/nntool/utils/formatters.py              |   37 +
 tools/nntool/utils/fuzzy.py                   |   61 +
 tools/nntool/utils/graph.py                   |   22 +-
 tools/nntool/utils/json_serializable.py       |    8 +
 tools/nntool/utils/new_param_state.py         |   17 +-
 tools/nntool/utils/node_id.py                 |    4 +-
 tools/nntool/utils/option_list.py             |    3 +-
 tools/nntool/utils/validation_utils.py        |  102 +-
 tools/rules/pulp_rules.mk                     |    4 +
 370 files changed, 49200 insertions(+), 9963 deletions(-)
 create mode 100644 examples/nntool/kws/images/features_0_1.pgm
 create mode 100644 examples/nntool/kws/images/features_1_3.pgm
 create mode 100644 examples/nntool/kws/images/features_2_4.pgm
 create mode 100644 examples/nntool/kws/images/features_3_4.pgm
 create mode 100644 examples/nntool/kws/images/features_4_2.pgm
 create mode 100644 examples/nntool/kws/max.log
 create mode 100644 examples/nntool/mnist/mnist_emul.c
 create mode 100644 examples/nntool/mnist/model/mnist.h5
 create mode 100644 examples/nntool/mnist/model/mnist.tflite
 create mode 100644 examples/nntool/mnist/model/nntool_script
 create mode 100644 examples/nntool/mnist/model/nntool_script_emul
 create mode 100644 examples/nntool/mnist/train_model.mk
 create mode 100644 examples/nntool/visual_wake/model/nntool_script_emul
 create mode 100644 examples/nntool/visual_wake/model/visual_wake_quant.tflite
 create mode 100644 examples/nntool/visual_wake/vww_emul.c
 create mode 100644 examples/nntool/visual_wake/vww_emul.h
 create mode 100644 examples/pmsis/test_periph/i2s/output/Makefile
 create mode 100644 examples/pmsis/test_periph/i2s/output/test.c
 create mode 100755 gvsoc/gvsoc/bin/gvsoc_analyze_insn
 create mode 100644 gvsoc/gvsoc/models/cpu/iss/include/rvXint64.hpp
 create mode 100644 gvsoc/gvsoc/models/devices/testbench/Makefile
 create mode 100644 gvsoc/gvsoc/models/devices/testbench/testbench.cpp
 create mode 100644 libs/gap_lib/include/gaplib/fs_switch.h
 create mode 100644 rtos/pulp/pulp-os/drivers/gpio/gpio-v3.c
 create mode 100644 tools/autotiler_v3/generators/CNN/CNN_AT_Misc.c
 create mode 100644 tools/autotiler_v3/generators/CNN/CNN_Activation_SQ8.c
 create mode 100644 tools/autotiler_v3/generators/CNN/CNN_BasicKernels_SQ8.h
 create mode 100644 tools/autotiler_v3/generators/CNN/CNN_Bias_Linear_SQ8.c
 create mode 100644 tools/autotiler_v3/generators/CNN/CNN_Conv_DW_SQ8.c
 create mode 100644 tools/autotiler_v3/generators/CNN/CNN_Conv_SQ8.c
 create mode 100644 tools/autotiler_v3/generators/CNN/CNN_Generator_Util.c
 create mode 100644 tools/autotiler_v3/generators/CNN/CNN_Generator_Util.h
 create mode 100644 tools/autotiler_v3/generators/CNN/CNN_Generators_SQ8.c
 create mode 100644 tools/autotiler_v3/generators/CNN/CNN_Generators_SQ8.h
 create mode 100644 tools/autotiler_v3/generators/CNN/CNN_MatAlgebra_SQ8.c
 create mode 100644 tools/autotiler_v3/generators/CNN/CNN_Pooling_SQ8.c
 create mode 100644 tools/autotiler_v3/generators/CNN/CNN_SoftMax_SQ8.c
 create mode 100644 tools/gap-configs/configs/devices/testbench.json
 create mode 100644 tools/gap-configs/configs/ips/riscv/ri5ky_v2_6_sfloat_single_regfile_int64.json
 create mode 100644 tools/nntool/autotiler/generators/nntool_extra_generators.c
 create mode 100644 tools/nntool/autotiler/generators/nntool_extra_generators.h
 create mode 100644 tools/nntool/autotiler/kernels/nntool_extra_kernels.h
 create mode 100644 tools/nntool/autotiler/kernels/norm_transpose.c
 create mode 100644 tools/nntool/autotiler/tests/Mk
 create mode 100644 tools/nntool/autotiler/tests/MkGap8
 create mode 100644 tools/nntool/autotiler/tests/testModel.c
 create mode 100644 tools/nntool/autotiler/tests/testRun.c
 create mode 100644 tools/nntool/execution/execution_progress.py
 create mode 100644 tools/nntool/execution/graph_executer.py
 create mode 100644 tools/nntool/generation/at_generators/__init__.py
 create mode 100644 tools/nntool/generation/at_generators/cnn_3d_tensor_permute.py
 create mode 100644 tools/nntool/generation/at_generators/cnn_convolution_mulbias_pool_relu.py
 create mode 100644 tools/nntool/generation/at_generators/cnn_convolution_pool_relu.py
 create mode 100644 tools/nntool/generation/at_generators/cnn_global_pool.py
 create mode 100644 tools/nntool/generation/at_generators/cnn_grouped_convolution_mulbias_pool_relu.py
 create mode 100644 tools/nntool/generation/at_generators/cnn_grouped_convolution_pool_relu.py
 create mode 100644 tools/nntool/generation/at_generators/cnn_linear_relu.py
 create mode 100644 tools/nntool/generation/at_generators/cnn_matrix.py
 create mode 100644 tools/nntool/generation/at_generators/cnn_pool_relu.py
 create mode 100644 tools/nntool/generation/at_generators/cnn_softmax.py
 create mode 100644 tools/nntool/generation/at_generators/utils.py
 create mode 100644 tools/nntool/generation/at_types/__init__.py
 create mode 100644 tools/nntool/generation/at_types/at_params.py
 create mode 100644 tools/nntool/generation/at_types/constant_info.py
 create mode 100644 tools/nntool/generation/at_types/gen_ctrl.py
 create mode 100644 tools/nntool/generation/at_types/tc_arg_info.py
 create mode 100644 tools/nntool/generation/at_types/tensor_stack.py
 create mode 100644 tools/nntool/generation/autotiler_options.py
 create mode 100644 tools/nntool/generation/generators/__init__.py
 create mode 100644 tools/nntool/generation/generators/bindings/__init__.py
 create mode 100644 tools/nntool/generation/generators/bindings/mult8/__init__.py
 create mode 100644 tools/nntool/generation/generators/bindings/mult8/conv_bindings_generator.py
 create mode 100644 tools/nntool/generation/generators/bindings/mult8/fc_binding_generator.py
 create mode 100644 tools/nntool/generation/generators/bindings/mult8/inout_bindings_generator.py
 create mode 100644 tools/nntool/generation/generators/bindings/mult8/inout_infos_bindings_generator.py
 create mode 100644 tools/nntool/generation/generators/bindings/mult8/mat_vect_mult_bindings_generator.py
 create mode 100644 tools/nntool/generation/generators/bindings/mult8/matadd_bindings_generator.py
 create mode 100644 tools/nntool/generation/generators/bindings/mult8/softmax_bindings_generator.py
 create mode 100644 tools/nntool/generation/generators/bindings/pow2/__init__.py
 create mode 100644 tools/nntool/generation/generators/bindings/pow2/conv_bindings_generator.py
 create mode 100644 tools/nntool/generation/generators/bindings/pow2/fc_bindings_generator.py
 create mode 100644 tools/nntool/generation/generators/bindings/pow2/inout_bindings_generator.py
 create mode 100644 tools/nntool/generation/generators/bindings/pow2/matadd_bindings_generator.py
 create mode 100644 tools/nntool/generation/generators/bindings/pow2/matscale_bindings_generator.py
 create mode 100644 tools/nntool/generation/generators/bindings/pow2/softmax_bindings_generator.py
 create mode 100644 tools/nntool/generation/generators/bindings/pow2/transpose_bindings_generator.py
 create mode 100644 tools/nntool/generation/generators/generator_decorators.py
 create mode 100644 tools/nntool/generation/generators/globals/__init__.py
 create mode 100644 tools/nntool/generation/generators/globals/constant_input_generator.py
 create mode 100644 tools/nntool/generation/generators/globals/filter_generator.py
 create mode 100644 tools/nntool/generation/generators/globals/global_names.py
 create mode 100644 tools/nntool/generation/generators/globals/input_generator.py
 create mode 100644 tools/nntool/generation/generators/globals/mult8_filter_generator.py
 create mode 100644 tools/nntool/generation/generators/globals/mult8_infos_generator.py
 create mode 100644 tools/nntool/generation/generators/globals/output_generator.py
 create mode 100644 tools/nntool/generation/generators/kernels/__init__.py
 create mode 100644 tools/nntool/generation/generators/kernels/autotiler_kernel.py
 create mode 100644 tools/nntool/generation/generators/kernels/general/__init__.py
 create mode 100644 tools/nntool/generation/generators/kernels/general/imageformat_kernels_generator.py
 create mode 100644 tools/nntool/generation/generators/kernels/mult8/__init__.py
 create mode 100644 tools/nntool/generation/generators/kernels/mult8/conv_pool_relu_kernels_generator.py
 create mode 100644 tools/nntool/generation/generators/kernels/mult8/global_pool_kernels_generator.py
 create mode 100644 tools/nntool/generation/generators/kernels/mult8/linear_relu_kernels_generator.py
 create mode 100644 tools/nntool/generation/generators/kernels/mult8/mat_vect_mult_kernels_generator.py
 create mode 100644 tools/nntool/generation/generators/kernels/mult8/matadd_kernels_generator.py
 create mode 100644 tools/nntool/generation/generators/kernels/mult8/pool_relu_kernels_generator.py
 create mode 100644 tools/nntool/generation/generators/kernels/mult8/softmax_kernels_generator.py
 create mode 100644 tools/nntool/generation/generators/kernels/mult8/three_d_transpose_kernels_generator.py
 create mode 100644 tools/nntool/generation/generators/kernels/pow2/__init__.py
 create mode 100644 tools/nntool/generation/generators/kernels/pow2/conv_pool_relu_kernels_generator.py
 create mode 100644 tools/nntool/generation/generators/kernels/pow2/global_pool_kernels_generator.py
 create mode 100644 tools/nntool/generation/generators/kernels/pow2/linear_relu_kernels_generator.py
 create mode 100644 tools/nntool/generation/generators/kernels/pow2/matadd_kernels_generator.py
 create mode 100644 tools/nntool/generation/generators/kernels/pow2/matscale_kernels_generator.py
 create mode 100644 tools/nntool/generation/generators/kernels/pow2/pool_relu_kernels_generator.py
 create mode 100644 tools/nntool/generation/generators/kernels/pow2/softmax_kernels_generator.py
 create mode 100644 tools/nntool/generation/generators/kernels/pow2/three_d_transpose_kernels_generator.py
 create mode 100644 tools/nntool/generation/name_cache.py
 create mode 100644 tools/nntool/graph/matches/equalize_sym_mult_concats.py
 create mode 100644 tools/nntool/graph/matches/find_asymmetric_quantization.py
 create mode 100644 tools/nntool/graph/matches/find_hsigmoid.py
 create mode 100644 tools/nntool/graph/matches/find_missing_quantization.py
 create mode 100644 tools/nntool/graph/matches/match_op_activation.py
 create mode 100644 tools/nntool/graph/matches/propagate_softmax_sym_mult_qrec.py
 create mode 100644 tools/nntool/graph/matches/remove_noops.py
 create mode 100644 tools/nntool/graph/matches/remove_relus.py
 create mode 100644 tools/nntool/graph/types/activations.py
 create mode 100644 tools/nntool/graph/types/fusions.py
 create mode 100644 tools/nntool/interpreter/commands/__init__.py
 create mode 100644 tools/nntool/interpreter/commands/adjust.py
 create mode 100644 tools/nntool/interpreter/commands/aquant.py
 create mode 100644 tools/nntool/interpreter/commands/astats.py
 create mode 100644 tools/nntool/interpreter/commands/dump.py
 create mode 100644 tools/nntool/interpreter/commands/extract.py
 create mode 100644 tools/nntool/interpreter/commands/fquant.py
 create mode 100644 tools/nntool/interpreter/commands/freeze.py
 create mode 100644 tools/nntool/interpreter/commands/fusions.py
 create mode 100644 tools/nntool/interpreter/commands/gen.py
 create mode 100644 tools/nntool/interpreter/commands/graph.py
 create mode 100644 tools/nntool/interpreter/commands/imageformat.py
 create mode 100644 tools/nntool/interpreter/commands/nodeoption.py
 create mode 100644 tools/nntool/interpreter/commands/open.py
 create mode 100644 tools/nntool/interpreter/commands/qerror.py
 create mode 100644 tools/nntool/interpreter/commands/qshow.py
 create mode 100644 tools/nntool/interpreter/commands/qtune.py
 create mode 100644 tools/nntool/interpreter/commands/range_equalization.py
 create mode 100644 tools/nntool/interpreter/commands/save_state.py
 create mode 100644 tools/nntool/interpreter/commands/stats.py
 create mode 100644 tools/nntool/interpreter/commands/temps.py
 create mode 100644 tools/nntool/interpreter/commands/tensors.py
 create mode 100644 tools/nntool/interpreter/commands/validation.py
 create mode 100644 tools/nntool/interpreter/nntool_shell_base.py
 create mode 100644 tools/nntool/interpreter/settings.py
 create mode 100644 tools/nntool/quantization/float32/__init__.py
 create mode 100644 tools/nntool/quantization/float32/float32_quantization.py
 create mode 100644 tools/nntool/quantization/float32/float_kernet_set.py
 create mode 100644 tools/nntool/quantization/float32/kernels/__init__.py
 create mode 100644 tools/nntool/quantization/float32/kernels/activations.py
 create mode 100644 tools/nntool/quantization/float32/kernels/fast_conv.py
 create mode 100644 tools/nntool/quantization/float32/kernels/image_format.py
 create mode 100644 tools/nntool/quantization/float32/kernels/linear.py
 create mode 100644 tools/nntool/quantization/float32/kernels/matrix_operations.py
 create mode 100644 tools/nntool/quantization/float32/kernels/pad.py
 create mode 100644 tools/nntool/quantization/float32/kernels/pool.py
 create mode 100644 tools/nntool/quantization/float32/kernels/readme.md
 create mode 100644 tools/nntool/quantization/float32/kernels/softmax.py
 create mode 100644 tools/nntool/quantization/float32/kernels/tensor_functions.py
 create mode 100644 tools/nntool/quantization/kernels/__init__.py
 create mode 100644 tools/nntool/quantization/kernels/kernel_function.py
 create mode 100644 tools/nntool/quantization/kernels/kernel_switch.py
 create mode 100644 tools/nntool/quantization/multiplicative/__init__.py
 create mode 100644 tools/nntool/quantization/multiplicative/asymmetric/__init__.py
 create mode 100644 tools/nntool/quantization/multiplicative/asymmetric/asymmetric_mult_qtype.py
 create mode 100644 tools/nntool/quantization/multiplicative/mult_mulbias_qtype.py
 create mode 100644 tools/nntool/quantization/multiplicative/mult_qtype_base.py
 create mode 100644 tools/nntool/quantization/multiplicative/mult_quantization.py
 create mode 100644 tools/nntool/quantization/multiplicative/mult_quantizer.py
 create mode 100644 tools/nntool/quantization/multiplicative/mult_utils.py
 create mode 100644 tools/nntool/quantization/multiplicative/symmetric/__init__.py
 create mode 100644 tools/nntool/quantization/multiplicative/symmetric/mult_mulbias_qtype_new.py
 create mode 100644 tools/nntool/quantization/multiplicative/symmetric/symmetric_mult_biases_qtype.py
 create mode 100644 tools/nntool/quantization/multiplicative/symmetric/symmetric_mult_qtype.py
 create mode 100644 tools/nntool/quantization/multiplicative/symmetric/symmetric_mult_qtype_wrapper.py
 create mode 100644 tools/nntool/quantization/quantization_record_base.py
 create mode 100644 tools/nntool/quantization/quantization_set.py
 create mode 100644 tools/nntool/quantization/symmetric/__init__.py
 create mode 100644 tools/nntool/quantization/symmetric/kernels/__init__.py
 create mode 100644 tools/nntool/quantization/symmetric/kernels/activations.py
 create mode 100644 tools/nntool/quantization/symmetric/kernels/fast_conv.py
 create mode 100644 tools/nntool/quantization/symmetric/kernels/image_format.py
 create mode 100644 tools/nntool/quantization/symmetric/kernels/linear.py
 create mode 100644 tools/nntool/quantization/symmetric/kernels/matrix_operations.py
 create mode 100644 tools/nntool/quantization/symmetric/kernels/pad.py
 create mode 100644 tools/nntool/quantization/symmetric/kernels/pool.py
 create mode 100644 tools/nntool/quantization/symmetric/kernels/softmax.py
 create mode 100644 tools/nntool/quantization/symmetric/kernels/tensor_functions.py
 create mode 100644 tools/nntool/quantization/symmetric/symmetric_kernet_set.py
 create mode 100644 tools/nntool/quantization/symmetric/symmetric_quantization.py
 create mode 100644 tools/nntool/quantization/symmetric/symmetric_quantizer.py
 create mode 100644 tools/nntool/utils/add_sys_path.py
 create mode 100644 tools/nntool/utils/at_norm.py
 create mode 100644 tools/nntool/utils/at_tensor_loader.py
 create mode 100644 tools/nntool/utils/exp_17_15.py
 create mode 100644 tools/nntool/utils/formatters.py
 create mode 100644 tools/nntool/utils/fuzzy.py

diff --git a/CHANGELOG b/CHANGELOG
index c0a3785f7..8c3b3d130 100644
--- a/CHANGELOG
+++ b/CHANGELOG
@@ -1,3 +1,22 @@
+3.5
+
+Highlights of this release:
+
+- NNTool
+	- Added new quantization scheme with scaling factors (tflite quantization-like)
+	- Support import tflite (1 or 2) quantized graphs (uint8)
+	- New adjust algorithm to support more general reshape/transpose layers
+	- Added Autotiler layer for input image formatting (HWC uint8 -> CHW int8/int16)
+	- Support multi-inputs network execution
+	- Support for new tensor dumping routines in AutoTiler
+	- Support for generation of model using SQ8 AutoTiler generators
+	- Bug fixes
+
+- Autotiler
+	- New SQ8 kernel set supporting scaled quantization
+	- Tensor dumping from any memory area
+	- Several bug fixes
+
 3.4
 
 Highlights of this release:
diff --git a/applications/CannyEdgeDetection/CannyDetect.c b/applications/CannyEdgeDetection/CannyDetect.c
index afa84567e..15a38e0f7 100644
--- a/applications/CannyEdgeDetection/CannyDetect.c
+++ b/applications/CannyEdgeDetection/CannyDetect.c
@@ -667,11 +667,9 @@ void canny_edge_detector()
 	sprintf(imageName, "../../../%s", Imagefile);
 	ImageIn_L2 = (unsigned char *) pi_l2_malloc( COL*LINE*sizeof(unsigned char));
 
-    unsigned int Wi, Hi;
-
-    if ( (ReadImageFromFile(imageName, &Wi, &Hi, ImageIn_L2, LINE*COL*sizeof(unsigned char))==0) || (Wi!=COL) || (Hi!=LINE))
+    if (ReadImageFromFile(imageName, COL,LINE, 1, ImageIn_L2, LINE*COL*sizeof(unsigned char), 0, 0))
     {
-        printf("Failed to load image %s or dimension mismatch Expects [%dx%d], Got [%dx%d]\n", imageName, COL, LINE, Wi, Hi);
+        printf("Failed to load image %s\n", imageName);
         pmsis_exit(-1);
     }
 
diff --git a/applications/CannyEdgeDetection/Makefile b/applications/CannyEdgeDetection/Makefile
index e8ed386fb..464343acd 100644
--- a/applications/CannyEdgeDetection/Makefile
+++ b/applications/CannyEdgeDetection/Makefile
@@ -26,10 +26,6 @@ APP_LDFLAGS +=  -flto -Wl,--gc-sections
 # in a clean way.
 APP_CFLAGS += -Wall -Werror -Wno-maybe-uninitialized -Wno-unused-but-set-variable -Wno-unused-parameter -Wno-unused-variable -Wno-unused-function -Wundef
 
-# Should be removed once openocd is the default bridge
-export GAP_USE_OPENOCD=1
-io=host
-
 clean::
 	rm -rf img_OUT.ppm
 
diff --git a/applications/FaceDetection/FaceDetGenerator.c b/applications/FaceDetection/FaceDetGenerator.c
index ba40b4e92..4d7b9f434 100644
--- a/applications/FaceDetection/FaceDetGenerator.c
+++ b/applications/FaceDetection/FaceDetGenerator.c
@@ -92,7 +92,7 @@ void GenerateResize(char *Name, int Wi, int Hi, int Wo, int Ho)
 		KernelIterSpace(1, IterTiledSpace(KER_ITER_TILE0)),
 		TILE_HOR,
 		CArgs(2, TCArg("unsigned char *", "In"), TCArg("unsigned char *", "Out")),
-		Calls(1, Call("KerResizeBilinear", LOC_INNER_LOOP,
+		Calls(1, Call("KerResizeBilinear", LOC_LOOP,
 			Bindings(8, K_Arg("In", KER_ARG_TILE),
 				        K_Arg("In", KER_ARG_W),
 				        K_Arg("In", KER_ARG_H),
@@ -123,13 +123,13 @@ void GenerateIntegralImage(char *Name,
 			TCArg("unsigned int *  __restrict__", "IntegralImage")
 		),
 		Calls(2,
-			Call("KerIntegralImagePrime", LOC_INNER_LOOP_PROLOG,
+			Call("KerIntegralImagePrime", LOC_LOOP_PROLOG,
 				Bindings(2,
 					K_Arg("KerBuffer",KER_ARG),
 					K_Arg("KerIn", KER_ARG_TILE_W)
 				)
 			),
-			Call("KerIntegralImageProcess", LOC_INNER_LOOP,
+			Call("KerIntegralImageProcess", LOC_LOOP,
 				Bindings(5,
 					K_Arg("KerIn", KER_ARG_TILE),
 					K_Arg("KerIn", KER_ARG_TILE_W),
@@ -162,13 +162,13 @@ void GenerateSquaredIntegralImage(char *Name,
 			TCArg("unsigned int *  __restrict__", "IntegralImage")
 		),
 		Calls(2,
-			Call("KerIntegralImagePrime", LOC_INNER_LOOP_PROLOG,
+			Call("KerIntegralImagePrime", LOC_LOOP_PROLOG,
 				Bindings(2,
 					K_Arg("KerBuffer",KER_ARG),
 					K_Arg("KerIn", KER_ARG_TILE_W)
 				)
 			),
-			Call("KerSquaredIntegralImageProcess", LOC_INNER_LOOP,
+			Call("KerSquaredIntegralImageProcess", LOC_LOOP,
 				Bindings(5,
 					K_Arg("KerIn", KER_ARG_TILE),
 					K_Arg("KerIn", KER_ARG_TILE_W),
@@ -208,7 +208,7 @@ void GenerateCascadeClassifier(char *Name,
 		),
 		Calls(1,
 
-			Call("KerEvaluateCascade", LOC_INNER_LOOP,
+			Call("KerEvaluateCascade", LOC_LOOP,
 				Bindings(8,
 					K_Arg("KerII", KER_ARG_TILE),
 					K_Arg("KerIISQ", KER_ARG_TILE),
diff --git a/applications/FaceDetection/Makefile b/applications/FaceDetection/Makefile
index 89980492b..e5594bf38 100644
--- a/applications/FaceDetection/Makefile
+++ b/applications/FaceDetection/Makefile
@@ -28,7 +28,12 @@ override config_args += --config-opt=camera/image-stream=$(CURDIR)/imgTest0.pgm
 
 APP_SRCS += $(FACE_DET_SRCS)
 APP_INC  += $(TILER_INC)
-APP_CFLAGS += -O3 -g -D__PMSIS__ -DUSE_CAMERA -DUSE_DISPLAY -DNB_FRAMES=$(NB_FRAMES)
+APP_CFLAGS += -O3 -g -D__PMSIS__ -DUSE_CAMERA -DNB_FRAMES=$(NB_FRAMES)
+
+display ?= 1
+ifeq ($(display), 1)
+APP_CFLAGS += -DUSE_DISPLAY
+endif
 
 BOARD_NAME ?= gapoc_a
 PMSIS_OS ?= freertos
diff --git a/applications/FaceDetection/main.c b/applications/FaceDetection/main.c
index ae1382feb..13ff6609e 100644
--- a/applications/FaceDetection/main.c
+++ b/applications/FaceDetection/main.c
@@ -51,9 +51,11 @@
 #define LCD_HEIGHT   240
 
 static unsigned char *imgBuff0;
+#if defined(USE_DISPLAY)
 static struct pi_device ili;
 static pi_buffer_t buffer;
 static pi_buffer_t buffer_out;
+#endif  /* USE_DISPLAY */
 static struct pi_device cam;
 
 L2_MEM unsigned char *ImageOut;
@@ -70,11 +72,9 @@ ArgCluster_T ClusterCall;
 void setCursor(struct pi_device *device,signed short x, signed short y);
 void writeFillRect(struct pi_device *device, unsigned short x, unsigned short y, unsigned short w, unsigned short h, unsigned short color);
 void writeText(struct pi_device *device,char* str,int fontsize);
-#endif  /* USE_DISPLAY */
 
 static int open_display(struct pi_device *device)
 {
-#if defined(USE_DISPLAY)
     struct pi_ili9341_conf ili_conf;
 
     pi_ili9341_conf_init(&ili_conf);
@@ -85,9 +85,9 @@ static int open_display(struct pi_device *device)
     {
         return -1;
     }
-#endif
     return 0;
 }
+#endif  /* USE_DISPLAY */
 
 #if defined(USE_CAMERA)
 #if defined(HIMAX)
@@ -166,15 +166,17 @@ void test_facedetection(void)
     {
         printf("Failed to allocate Memory for one or both Integral Images (%d bytes)\n", ImgSize*sizeof(unsigned int));
         pmsis_exit(-3);
-  }
+    }
     printf("malloc done\n");
 
+    #if defined(USE_DISPLAY)
     if (open_display(&ili))
     {
         printf("Failed to open display\n");
         pmsis_exit(-4);
     }
     printf("display done\n");
+    #endif  /* USE_DISPLAY */
 
     if (open_camera(&cam))
     {
@@ -183,6 +185,7 @@ void test_facedetection(void)
     }
     printf("Camera open success\n");
 
+    #if defined(USE_DISPLAY)
     #if defined(HIMAX)
     buffer.data = imgBuff0+CAM_WIDTH*2+2;
     buffer.stride = 4;
@@ -195,14 +198,13 @@ void test_facedetection(void)
     pi_buffer_init(&buffer, PI_BUFFER_TYPE_L2, imgBuff0);
     #endif  /* HIMAX */
 
-    #if defined(USE_DISPLAY)
     buffer_out.data = ImageOut;
     buffer_out.stride = 0;
     pi_buffer_init(&buffer_out, PI_BUFFER_TYPE_L2, ImageOut);
     pi_buffer_set_stride(&buffer_out, 0);
-    #endif /* USE_DISPLAY */
 
     pi_buffer_set_format(&buffer, CAM_WIDTH, CAM_HEIGHT, 1, PI_BUFFER_FORMAT_GRAY);
+    #endif /* USE_DISPLAY */
 
     ClusterCall.ImageIn              = imgBuff0;
     ClusterCall.Win                  = W;
diff --git a/applications/FaceDetection/testset.cfg b/applications/FaceDetection/testset.cfg
index 386188928..e4d988786 100644
--- a/applications/FaceDetection/testset.cfg
+++ b/applications/FaceDetection/testset.cfg
@@ -6,10 +6,10 @@ test = Test(
   name = 'face_detection',
   commands = [
     Shell('clean', 'make clean'),
-    Shell('build', 'make all NB_FRAMES=5'),
+    Shell('build', 'make all NB_FRAMES=5 display=0'),
     Shell('run',   'make run')
   ],
   timeout=1000000,
 )
-  
+
 c['tests'] = [ test ]
diff --git a/applications/jpeg_encoder/Makefile b/applications/jpeg_encoder/Makefile
index a1bcbe835..308788bd9 100644
--- a/applications/jpeg_encoder/Makefile
+++ b/applications/jpeg_encoder/Makefile
@@ -1,3 +1,6 @@
+# Only Pulp-Os for now.
+PMSIS_OS=pulpos
+
 APP = test
 APP_SRCS += test.c ImgIO.c
 APP_CFLAGS += -O3 -g -Werror
diff --git a/configs/common.sh b/configs/common.sh
index a1443c9b4..a8195be81 100644
--- a/configs/common.sh
+++ b/configs/common.sh
@@ -14,6 +14,9 @@ export DEP_DIRS=$INSTALL_DIR
 export RULES_DIR=$GAP_SDK_HOME/tools/rules
 
 export NNTOOL_DIR=$GAP_SDK_HOME/tools/nntool
+export NNTOOL_PATH=$GAP_SDK_HOME/tools/nntool
+export NNTOOL_KERNELS_PATH=$NNTOOL_DIR/autotiler/kernels
+export NNTOOL_GENERATOR_PATH=$NNTOOL_DIR/autotiler/generators
 export PATH="$NNTOOL_DIR":$PATH
 
 # PulpOS 2
@@ -55,8 +58,8 @@ export TILER_EMU_INC=$TILER_PATH/include
 export TILER_GENERATOR_PATH=$TILER_PATH/generators
 export TILER_CNN_KERNEL_PATH=$TILER_PATH/generators/CNN
 export TILER_CNN_GENERATOR_PATH=$TILER_PATH/generators/CNN
-export TILER_CNN_KERNEL_PATH_SQ8=$TILER_PATH/CNN_Libraries_SQ8
-export TILER_CNN_GENERATOR_PATH_SQ8=$TILER_PATH/CNN_Generators_SQ8
+export TILER_CNN_KERNEL_PATH_SQ8=$TILER_PATH/generators/CNN
+export TILER_CNN_GENERATOR_PATH_SQ8=$TILER_PATH/generators/CNN
 
 
 # OpenOCD
diff --git a/examples/autotiler/Cifar10/Makefile b/examples/autotiler/Cifar10/Makefile
index 18d0185c8..7243dff85 100644
--- a/examples/autotiler/Cifar10/Makefile
+++ b/examples/autotiler/Cifar10/Makefile
@@ -8,10 +8,26 @@ RM=rm -f
 CNN_AT_PATH = $(TILER_GENERATOR_PATH)/CNN
 
 APP = Cifar10
+
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_BiasReLULinear_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_DP_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_DW_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_DW_DP_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Pooling_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_MatAlgebra.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_SoftMax.c
+MODEL_LIB_POW2 += $(NNTOOL_KERNELS_PATH)/norm_transpose.c
+MODEL_LIB_INCLUDE_POW2 = -I$(NNTOOL_KERNELS_PATH) -I$(TILER_CNN_KERNEL_PATH) -I$(NNTOOL_KERNELS_PATH)
+MODEL_GEN_POW2 += $(TILER_CNN_GENERATOR_PATH)/CNN_Generator_Util.c
+MODEL_GEN_POW2 += $(TILER_CNN_GENERATOR_PATH)/CNN_Generators.c
+MODEL_GEN_POW2 += $(NNTOOL_GENERATOR_PATH)/nntool_extra_generators.c
+MODEL_GEN_INCLUDE_POW2 = -I$(TILER_CNN_GENERATOR_PATH) -I$(NNTOOL_GENERATOR_PATH)
+
+
 APP_SRCS += Cifar10.c Cifar10Kernels.c \
-            $(CNN_AT_PATH)/CNN_BiasReLULinear_BasicKernels.c \
-            $(CNN_AT_PATH)/CNN_Conv_BasicKernels.c \
-            $(CNN_AT_PATH)/CNN_Pooling_BasicKernels.c
+			$(MODEL_LIB_POW2)
+            
 APP_INC += $(TILER_INC) $(CNN_AT_PATH)
 
 COEF_FLAG = -DCOEF_L2
@@ -57,7 +73,7 @@ all:: model
 
 # Build the code generator
 GenTile:
-	gcc -o GenCifar10 $(COEF_FLAG) -I$(TILER_INC) -I$(CNN_AT_PATH) Cifar10Model.c $(CNN_AT_PATH)/CNN_Generators.c $(TILER_LIB)
+	gcc -o GenCifar10 $(COEF_FLAG) -I$(TILER_INC) -I$(CNN_AT_PATH) Cifar10Model.c $(MODEL_GEN_POW2) $(TILER_LIB)
 
 # Run the code generator
 Cifar10Kernels.c: GenTile
diff --git a/examples/autotiler/IntegralImage/Makefile b/examples/autotiler/IntegralImage/Makefile
index ee8e3891d..400a0873e 100644
--- a/examples/autotiler/IntegralImage/Makefile
+++ b/examples/autotiler/IntegralImage/Makefile
@@ -14,16 +14,12 @@ MODEL_GEN_C = $(addsuffix .c, $(MODEL_GEN))
 MODEL_GEN_CLEAN = $(MODEL_GEN_C) $(addsuffix .h, $(MODEL_GEN))
 RM=rm -f
 
-APP_SRCS   += main.c $(GAP_LIB_PATH)/img_io/ImgIO.c $(MODEL_GEN_C) $(GEN_KER_PATH)/IntegralImgBasicKernels.c
+APP_SRCS   += main.c $(MODEL_GEN_C) $(GEN_KER_PATH)/IntegralImgBasicKernels.c $(GAP_LIB_PATH)/img_io/ImgIO.c
 APP_INC     = $(GAP_LIB_PATH)/include
 
 APP_CFLAGS += -O3 -mno-memcpy -fno-tree-loop-distribute-patterns $(JENKINS_FLAGS)
 APP_CFLAGS += -I$(TILER_EMU_INC) -I$(TILER_INC) -I$(GEN_KER_PATH)
 
-#moved to new openocd bridge
-export GAP_USE_OPENOCD=1
-io=host
-
 all:: model
 
 # Build the code generator
diff --git a/examples/autotiler/IntegralImage/main.c b/examples/autotiler/IntegralImage/main.c
index 4339f9fe3..755521a45 100644
--- a/examples/autotiler/IntegralImage/main.c
+++ b/examples/autotiler/IntegralImage/main.c
@@ -97,7 +97,7 @@ void integral_image(int argc, char *argv[])
 
 	#ifndef NO_BRIDGE
 	//Reading Image from Hyperflash
-	if ((ReadImageFromFile(ImageName, &Wi, &Hi, ImageIn, W*H*sizeof(unsigned char))==0) || (Wi!=W) || (Hi!=H)) {
+	if (ReadImageFromFile(ImageName, W, H, 1, ImageIn, W*H*sizeof(unsigned char), 0, 0)) {
 		printf("Failed to load image %s or dimension mismatch Expects [%dx%d], Got [%dx%d]\n", ImageName, W, H, Wi, Hi);
 		pmsis_exit(-6);
 	}
diff --git a/examples/autotiler/Mnist/Makefile b/examples/autotiler/Mnist/Makefile
index e427a7962..18f60d01b 100644
--- a/examples/autotiler/Mnist/Makefile
+++ b/examples/autotiler/Mnist/Makefile
@@ -23,10 +23,23 @@ endif
 
 CNN_AT_PATH = $(TILER_GENERATOR_PATH)/CNN
 
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_BiasReLULinear_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_DP_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_DW_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_DW_DP_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Pooling_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_MatAlgebra.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_SoftMax.c
+MODEL_LIB_POW2 += $(NNTOOL_KERNELS_PATH)/norm_transpose.c
+MODEL_LIB_INCLUDE_POW2 = -I$(NNTOOL_KERNELS_PATH) -I$(TILER_CNN_KERNEL_PATH) -I$(NNTOOL_KERNELS_PATH)
+MODEL_GEN_POW2 += $(TILER_CNN_GENERATOR_PATH)/CNN_Generator_Util.c
+MODEL_GEN_POW2 += $(TILER_CNN_GENERATOR_PATH)/CNN_Generators.c
+MODEL_GEN_POW2 += $(NNTOOL_GENERATOR_PATH)/nntool_extra_generators.c
+MODEL_GEN_INCLUDE_POW2 = -I$(TILER_CNN_GENERATOR_PATH) -I$(NNTOOL_GENERATOR_PATH)
+
 APP_SRCS += Mnist.c MnistKernels.c \
-            $(CNN_AT_PATH)/CNN_BiasReLULinear_BasicKernels.c \
-            $(CNN_AT_PATH)/CNN_Conv_BasicKernels.c \
-            $(CNN_AT_PATH)/CNN_Pooling_BasicKernels.c \
+            $(MODEL_LIB_POW2) \
             ImgIO.c
 
 APP_INC += $(TILER_INC) $(CNN_AT_PATH)
@@ -46,7 +59,7 @@ all:: model
 
 # Build the code generator
 GenTile:
-	gcc -o GenMnist -I$(TILER_INC) -I$(CNN_AT_PATH) MnistModel.c $(CNN_AT_PATH)/CNN_Generators.c $(TILER_LIB)
+	gcc -o GenMnist -I$(TILER_INC) -I$(CNN_AT_PATH) MnistModel.c $(MODEL_GEN_POW2) $(TILER_LIB)
 
 # Run the code generator
 MnistKernels.c: GenTile
diff --git a/examples/autotiler/MnistGraph/Makefile b/examples/autotiler/MnistGraph/Makefile
index 174ab2b59..b9d3df91a 100644
--- a/examples/autotiler/MnistGraph/Makefile
+++ b/examples/autotiler/MnistGraph/Makefile
@@ -24,17 +24,29 @@ io=host
 
 CNN_AT_PATH = $(TILER_GENERATOR_PATH)/CNN
 
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_BiasReLULinear_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_DP_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_DW_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_DW_DP_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Pooling_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_MatAlgebra.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_SoftMax.c
+MODEL_LIB_POW2 += $(NNTOOL_KERNELS_PATH)/norm_transpose.c
+MODEL_LIB_INCLUDE_POW2 = -I$(NNTOOL_KERNELS_PATH) -I$(TILER_CNN_KERNEL_PATH) -I$(NNTOOL_KERNELS_PATH)
+MODEL_GEN_POW2 += $(TILER_CNN_GENERATOR_PATH)/CNN_Generator_Util.c
+MODEL_GEN_POW2 += $(TILER_CNN_GENERATOR_PATH)/CNN_Generators.c
+MODEL_GEN_POW2 += $(NNTOOL_GENERATOR_PATH)/nntool_extra_generators.c
+MODEL_GEN_INCLUDE_POW2 = -I$(TILER_CNN_GENERATOR_PATH) -I$(NNTOOL_GENERATOR_PATH)
+
+
 APP_SRCS += Mnist.c MnistKernels.c \
-            $(CNN_AT_PATH)/CNN_BiasReLULinear_BasicKernels.c \
-            $(CNN_AT_PATH)/CNN_Conv_BasicKernels.c \
-            $(CNN_AT_PATH)/CNN_Conv_DP_BasicKernels.c \
-            $(CNN_AT_PATH)/CNN_Pooling_BasicKernels.c \
-            $(CNN_AT_PATH)/CNN_SoftMax.c \
+            $(MODEL_LIB_POW2) \
             ImgIO.c
 
 APP_INC += $(TILER_INC) $(CNN_AT_PATH)
 
-APP_CFLAGS += -w -O3 -mno-memcpy -fno-tree-loop-distribute-patterns -fdata-sections -ffunction-sections
+APP_CFLAGS += -w -g3 -O3 -mno-memcpy -fno-tree-loop-distribute-patterns -fdata-sections -ffunction-sections
 APP_CFLAGS += -Wno-maybe-uninitialized -Wno-unused-but-set-variable 
 LDFLAGS    +=  -flto -Wl,--gc-sections
 
@@ -48,7 +60,7 @@ all:: model
 
 # Build the code generator
 GenTile:
-	gcc -o GenMnist -I$(TILER_INC) -I$(CNN_AT_PATH) MnistModel.c $(CNN_AT_PATH)/CNN_Generators.c $(TILER_LIB)
+	gcc -o GenMnist -I$(TILER_INC) -I$(CNN_AT_PATH) MnistModel.c $(MODEL_GEN_POW2) $(TILER_LIB)
 
 # Run the code generator
 MnistKernels.c: GenTile
diff --git a/examples/native/freeRTOS/periph/timer/test_timer.c b/examples/native/freeRTOS/periph/timer/test_timer.c
index 0b1461261..1589b6683 100644
--- a/examples/native/freeRTOS/periph/timer/test_timer.c
+++ b/examples/native/freeRTOS/periph/timer/test_timer.c
@@ -1,8 +1,6 @@
 /* PMSIS includes */
 #include "pmsis.h"
-#if defined(PMSIS_DRIVERS)
-#include "pmsis_driver/pmsis_it.h"
-#endif  /* PMSIS_DRIVERS */
+#include "pmsis/implem/drivers/pmsis_it.h"
 
 #define NB_ITER          ( 5 )
 
diff --git a/examples/nntool/common/model_decl.mk b/examples/nntool/common/model_decl.mk
index 2e68e7908..376a4ef2c 100644
--- a/examples/nntool/common/model_decl.mk
+++ b/examples/nntool/common/model_decl.mk
@@ -6,7 +6,7 @@
 
 MODEL_SUFFIX?=
 
-MODEL_PREFIX?=GapFlow
+MODEL_PREFIX?=
 
 # The training of the model is slightly different depending on
 # the quantization. This is because in 8 bit mode we used signed
@@ -21,19 +21,15 @@ else
   endif
 endif
 
-MODEL_PYTHON=python
+MODEL_PYTHON=python3
 
-# Increase this to improve accuracy
-TRAINING_EPOCHS?=1
-MODEL_COMMON ?= ../common
-MODEL_COMMON_INC ?= $(MODEL_COMMON)/src
-MODEL_COMMON_SRC ?= $(MODEL_COMMON)/src
-MODEL_COMMON_SRC_FILES ?= ImgIO.c helpers.c
+TRAINED_TFLITE_MODEL=model/$(MODEL_PREFIX).tflite
+MODEL_COMMON ?= common
+MODEL_COMMON_INC ?= $(GAP_SDK_HOME)/libs/gap_lib/include
+MODEL_COMMON_SRC ?= $(GAP_SDK_HOME)/libs/gap_lib/img_io
+MODEL_COMMON_SRC_FILES ?= ImgIO.c
 MODEL_COMMON_SRCS = $(realpath $(addprefix $(MODEL_COMMON_SRC)/,$(MODEL_COMMON_SRC_FILES)))
-MODEL_TRAIN = model/train.py
 MODEL_BUILD = BUILD_MODEL$(MODEL_SUFFIX)
-MODEL_TRAIN_BUILD = BUILD_TRAIN$(TRAIN_SUFFIX)
-MODEL_H5 = $(MODEL_TRAIN_BUILD)/$(MODEL_PREFIX).h5
 
 MODEL_TFLITE = $(MODEL_BUILD)/$(MODEL_PREFIX).tflite
 
@@ -42,11 +38,16 @@ MODEL_TENSORS = $(MODEL_BUILD)/$(MODEL_PREFIX)_L3_Flash_Const.dat
 
 MODEL_STATE = $(MODEL_BUILD)/$(MODEL_PREFIX).json
 MODEL_SRC = $(MODEL_PREFIX)Model.c
+MODEL_HEADER = $(MODEL_PREFIX)Info.h
 MODEL_GEN = $(MODEL_BUILD)/$(MODEL_PREFIX)Kernels 
 MODEL_GEN_C = $(addsuffix .c, $(MODEL_GEN))
 MODEL_GEN_CLEAN = $(MODEL_GEN_C) $(addsuffix .h, $(MODEL_GEN))
 MODEL_GEN_EXE = $(MODEL_BUILD)/GenTile
 
+ifdef MODEL_QUANTIZED
+  NNTOOL_EXTRA_FLAGS = -q
+endif
+
 MODEL_GENFLAGS_EXTRA =
 
 EXTRA_GENERATOR_SRC =
@@ -60,6 +61,9 @@ RM=rm -f
 
 NNTOOL=nntool
 
+NNTOOL_PATH = $(GAP_SDK_HOME)/tools/nntool
+NNTOOL_KERNEL_PATH = $(NNTOOL_PATH)/autotiler/kernels
+NNTOOL_GENERATOR_PATH = $(NNTOOL_PATH)/autotiler/generators
 # Here we set the memory allocation for the generated kernels
 # REMEMBER THAT THE L1 MEMORY ALLOCATION MUST INCLUDE SPACE
 # FOR ALLOCATED STACKS!
@@ -67,20 +71,54 @@ MODEL_L1_MEMORY=52000
 MODEL_L2_MEMORY=307200
 MODEL_L3_MEMORY=8388608
 # hram - HyperBus RAM
-# qspiram - Quad SPI RAM
+# qspiram - Quad SPI RA
 MODEL_L3_EXEC=hram
 # hflash - HyperBus Flash
 # qpsiflash - Quad SPI Flash
 MODEL_L3_CONST=hflash
 
-MODEL_SRCS += $(MODEL_GEN_C)
-MODEL_SRCS += $(TILER_CNN_KERNEL_PATH)/CNN_BiasReLULinear_BasicKernels.c
-MODEL_SRCS += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_BasicKernels.c
-MODEL_SRCS += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_DP_BasicKernels.c
-MODEL_SRCS += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_DW_BasicKernels.c
-MODEL_SRCS += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_DW_DP_BasicKernels.c
-MODEL_SRCS += $(TILER_CNN_KERNEL_PATH)/CNN_Pooling_BasicKernels.c
-MODEL_SRCS += $(TILER_CNN_KERNEL_PATH)/CNN_MatAlgebra.c
-MODEL_SRCS += $(TILER_CNN_KERNEL_PATH)/CNN_SoftMax.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_BiasReLULinear_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_DP_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_DW_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_DW_DP_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Pooling_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_MatAlgebra.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_SoftMax.c
+MODEL_LIB_POW2 += $(NNTOOL_KERNEL_PATH)/norm_transpose.c
+MODEL_LIB_INCLUDE_POW2 = -I$(TILER_CNN_KERNEL_PATH) -I$(NNTOOL_KERNEL_PATH)
+MODEL_GEN_POW2 += $(TILER_CNN_GENERATOR_PATH)/CNN_Generator_Util.c
+MODEL_GEN_POW2 += $(TILER_CNN_GENERATOR_PATH)/CNN_Generators.c
+MODEL_GEN_POW2 += $(NNTOOL_GENERATOR_PATH)/nntool_extra_generators.c
+MODEL_GEN_INCLUDE_POW2 = -I$(TILER_CNN_GENERATOR_PATH) -I$(NNTOOL_GENERATOR_PATH)
+
+MODEL_LIB_SQ8 += $(TILER_CNN_KERNEL_PATH_SQ8)/CNN_Activation_SQ8.c
+MODEL_LIB_SQ8 += $(TILER_CNN_KERNEL_PATH_SQ8)/CNN_Bias_Linear_SQ8.c
+MODEL_LIB_SQ8 += $(TILER_CNN_KERNEL_PATH_SQ8)/CNN_Conv_SQ8.c
+MODEL_LIB_SQ8 += $(TILER_CNN_KERNEL_PATH_SQ8)/CNN_Pooling_SQ8.c
+MODEL_LIB_SQ8 += $(TILER_CNN_KERNEL_PATH_SQ8)/CNN_Conv_DW_SQ8.c
+MODEL_LIB_SQ8 += $(TILER_CNN_KERNEL_PATH_SQ8)/CNN_MatAlgebra_SQ8.c
+MODEL_LIB_SQ8 += $(TILER_CNN_KERNEL_PATH_SQ8)/CNN_SoftMax_SQ8.c
+MODEL_LIB_SQ8 += $(TILER_CNN_KERNEL_PATH_SQ8)/CNN_AT_Misc.c
+MODEL_LIB_SQ8 += $(NNTOOL_KERNEL_PATH)/norm_transpose.c
+MODEL_LIB_INCLUDE_SQ8 = -I$(TILER_CNN_KERNEL_PATH) -I$(TILER_CNN_KERNEL_PATH_SQ8) -I$(NNTOOL_KERNEL_PATH)
+MODEL_GEN_SQ8 += $(TILER_CNN_GENERATOR_PATH)/CNN_Generator_Util.c
+MODEL_GEN_SQ8 += $(TILER_CNN_GENERATOR_PATH_SQ8)/CNN_Generators_SQ8.c
+MODEL_GEN_SQ8 += $(NNTOOL_GENERATOR_PATH)/nntool_extra_generators.c
+MODEL_GEN_INCLUDE_SQ8 = -I$(TILER_CNN_GENERATOR_PATH) -I$(TILER_CNN_GENERATOR_PATH_SQ8) -I$(NNTOOL_GENERATOR_PATH)
+
 
 MODEL_SIZE_CFLAGS = -DAT_INPUT_HEIGHT=$(AT_INPUT_HEIGHT) -DAT_INPUT_WIDTH=$(AT_INPUT_WIDTH) -DAT_INPUT_COLORS=$(AT_INPUT_COLORS)
+
+ifdef MODEL_SQ8
+  CNN_GEN = $(MODEL_GEN_SQ8)
+  CNN_GEN_INCLUDE = $(MODEL_GEN_INCLUDE_SQ8)
+  CNN_LIB = $(MODEL_LIB_SQ8)
+  CNN_LIB_INCLUDE = $(MODEL_LIB_INCLUDE_SQ8)
+else
+  CNN_GEN = $(MODEL_GEN_POW2)
+  CNN_GEN_INCLUDE = $(MODEL_GEN_INCLUDE_POW2)
+  CNN_LIB = $(MODEL_LIB_POW2)
+  CNN_LIB_INCLUDE = $(MODEL_LIB_INCLUDE_POW2)
+endif
+$(info GEN ... $(CNN_GEN))
diff --git a/examples/nntool/common/model_rules.mk b/examples/nntool/common/model_rules.mk
index ed86dd3bc..b96cf3560 100644
--- a/examples/nntool/common/model_rules.mk
+++ b/examples/nntool/common/model_rules.mk
@@ -13,7 +13,20 @@ else
   MODEL_TRAIN_FLAGS =
 endif
 
+ifdef MODEL_SQ8
+  CNN_GEN = $(MODEL_GEN_SQ8)
+  CNN_GEN_INCLUDE = $(MODEL_GEN_INCLUDE_SQ8)
+  CNN_LIB = $(MODEL_LIB_SQ8)
+  CNN_LIB_INCLUDE = $(MODEL_LIB_INCLUDE_SQ8)
+else
+  CNN_GEN = $(MODEL_GEN_POW2)
+  CNN_GEN_INCLUDE = $(MODEL_GEN_INCLUDE_POW2)
+  CNN_LIB = $(MODEL_LIB_POW2)
+  CNN_LIB_INCLUDE = $(MODEL_LIB_INCLUDE_POW2)
+endif
+
 USE_DISP=1
+
 ifdef USE_DISP
   SDL_FLAGS= -lSDL2 -lSDL2_ttf
 else
@@ -32,59 +45,38 @@ ifdef MODEL_L3_MEMORY
   MODEL_GEN_EXTRA_FLAGS += --L3 $(MODEL_L3_MEMORY)
 endif
 
-$(MODEL_TRAIN_BUILD):
-	mkdir $(MODEL_TRAIN_BUILD)
 
 $(MODEL_BUILD):
-	mkdir $(MODEL_BUILD)	
-
-ifneq ("$(wildcard $(MODEL_TRAIN))","")
-# Runs the Keras script to create and train the model
-# Exports the graph and trained tensors in H5 format
-$(MODEL_H5): $(MODEL_TRAIN) | $(MODEL_TRAIN_BUILD)
-	echo "CREATING AND TRAINING KERAS MODEL"
-	$(MODEL_PYTHON) $(MODEL_TRAIN) $(MODEL_TRAIN_FLAGS) -e $(TRAINING_EPOCHS) $@
+	mkdir $(MODEL_BUILD)
 
-# PHONY targets defined for each step so that you can execute in sequence to
-# demonstrate the flow
-train: $(MODEL_H5)
-
-# Converts the H5 file to TFLITE format
-$(MODEL_TFLITE): $(MODEL_H5) | $(MODEL_BUILD)
-	echo "CONVERTING KERAS H5 TO TENSORFLOW LITE FLATBUFFER"
-	$(MODEL_PYTHON) model/h5_to_tflite.py $< $@
-
-tflite: $(MODEL_TFLITE)
-else
 $(MODEL_TFLITE): $(TRAINED_TFLITE_MODEL) | $(MODEL_BUILD)
 	cp $< $@
-endif
 
 # Creates an NNTOOL state file by running the commands in the script
 # These commands could be run interactively
 # The commands:
 # 	Adjust the model to match AutoTiler tensor order
 #	Fuse nodes together to match fused AutoTiler generators
-#	Auto quantify the graph
+#	Quantize the graph if not already done with tflite quantization
 #	Save the graph state files
 
 $(MODEL_STATE): $(MODEL_TFLITE) $(IMAGES) $(NNTOOL_SCRIPT) | $(MODEL_BUILD)
 	echo "GENERATING NNTOOL STATE FILE"
-	$(NNTOOL) -s $(NNTOOL_SCRIPT) $<
+	$(NNTOOL) -s $(NNTOOL_SCRIPT) $< $(NNTOOL_EXTRA_FLAGS)
 
 nntool_state: $(MODEL_STATE)
 
 # Runs NNTOOL with its state file to generate the autotiler model code
 $(MODEL_BUILD)/$(MODEL_SRC): $(MODEL_STATE) $(MODEL_TFLITE) | $(MODEL_BUILD)
 	echo "GENERATING AUTOTILER MODEL"
-	$(NNTOOL) -g -M $(MODEL_BUILD) -m $(MODEL_SRC) -T $(TENSORS_DIR) $(MODEL_GENFLAGS_EXTRA) $<
+	$(NNTOOL) -g -M $(MODEL_BUILD) -m $(MODEL_SRC) -T $(TENSORS_DIR) -H $(MODEL_HEADER) $(MODEL_GENFLAGS_EXTRA) $<
 
 nntool_gen: $(MODEL_BUILD)/$(MODEL_SRC)
 
 # Build the code generator from the model code
-$(MODEL_GEN_EXE): $(MODEL_BUILD)/$(MODEL_SRC) $(EXTRA_GENERATOR_SRC) | $(MODEL_BUILD)
+$(MODEL_GEN_EXE): $(CNN_GEN) $(MODEL_BUILD)/$(MODEL_SRC) $(EXTRA_GENERATOR_SRC) | $(MODEL_BUILD)
 	echo "COMPILING AUTOTILER MODEL"
-	gcc -g -o $(MODEL_GEN_EXE) -I. -I$(TILER_INC) -I$(TILER_EMU_INC) -I$(TILER_CNN_GENERATOR_PATH) $(MODEL_BUILD)/$(MODEL_SRC) $(TILER_CNN_GENERATOR_PATH)/CNN_Generators.c $(EXTRA_GENERATOR_SRC) $(TILER_LIB) $(SDL_FLAGS)
+	gcc -g -o $(MODEL_GEN_EXE) -I. -I$(TILER_INC) -I$(TILER_EMU_INC) $(CNN_GEN_INCLUDE) $(CNN_LIB_INCLUDE) $? $(TILER_LIB)
 
 compile_model: $(MODEL_GEN_EXE)
 
@@ -99,7 +91,7 @@ model: $(MODEL_GEN_C)
 clean_model:
 	$(RM) $(MODEL_GEN_EXE)
 	$(RM) -rf $(MODEL_BUILD)
-	$(RM) *.dat
+	$(RM) $(MODEL_BUILD)/*.dat
 
 clean_train:
 	$(RM) -rf $(MODEL_TRAIN_BUILD)
diff --git a/examples/nntool/kws/Makefile b/examples/nntool/kws/Makefile
index 3d41230c0..6512b3983 100644
--- a/examples/nntool/kws/Makefile
+++ b/examples/nntool/kws/Makefile
@@ -29,11 +29,14 @@ $(info Building GAP8 mode with $(KWS_BITS) bit quantization)
 # 8 bit so the input to the model needs to be shifted 1 bit
 ifeq ($(KWS_BITS),8)
   $(info Configure 8 bit model)
+  MODEL_SQ8 = 1
   APP_CFLAGS += -DKWS_8BIT -DPRINT_IMAGE
   NNTOOL_SCRIPT=model/nntool_script8
   MODEL_SUFFIX = _8BIT
 else
   ifeq ($(KWS_BITS),16)
+    # use a custom template to switch on the performance checking
+    MODEL_GENFLAGS_EXTRA= -c "model/code_template.c"
     $(info Configure 16 bit model)
     APP_CFLAGS += -DKWS_16BIT
     NNTOOL_SCRIPT=model/nntool_script16
@@ -66,18 +69,15 @@ MODEL_L3_EXEC=hram
 # qpsiflash - Quad SPI Flash
 MODEL_L3_CONST=hflash
 
-# use a custom template to switch on the performance checking
-MODEL_GENFLAGS_EXTRA= -c "model/code_template.c"
-
 pulpChip = GAP
 PULP_APP = kws2
 USE_PMSIS_BSP=1
 
-APP_SRCS += kws.c ImgIO.c $(MODEL_SRCS) MFCC_Dump.c #./model/layers.c 
+APP_SRCS += kws.c ImgIO.c $(MODEL_GEN_C) $(CNN_LIB) #MFCC_Dump.c ./model/layers.c 
 
 APP_CFLAGS += -O3 -s -mno-memcpy -fno-tree-loop-distribute-patterns -Wno-sign-compare -Wno-maybe-uninitialized -Wno-type-limits
-APP_CFLAGS += -I. -I./helpers -I$(TILER_EMU_INC) -I$(TILER_INC) -I$(GEN_PATH) -I$(MODEL_BUILD)
-APP_CFLAGS += -DPERF
+APP_CFLAGS += -I. -I./helpers -I$(TILER_EMU_INC) -I$(TILER_INC) $(CNN_LIB_INCLUDE) -I$(MODEL_BUILD)
+APP_CFLAGS += #-DPERF
 
 ifneq ($(platform),gvsoc)
   $(info Platform is GAPUINO)
@@ -113,7 +113,7 @@ clean_all: clean clean_train
 
 .PHONY: clean_all
 
-PMSIS_OS = freertos
+#PMSIS_OS = freertos
 io = host
 include model_rules.mk
 include $(RULES_DIR)/pmsis_rules.mk
diff --git a/examples/nntool/kws/emul.mk b/examples/nntool/kws/emul.mk
index 257b85d87..052b6d4f4 100644
--- a/examples/nntool/kws/emul.mk
+++ b/examples/nntool/kws/emul.mk
@@ -43,10 +43,10 @@ endif
 MODEL_GEN_EXTRA_FLAGS= -f $(MODEL_BUILD)
 CC = gcc
 CFLAGS += -g -O0 -D__EMUL__
-INCLUDES = -I. -Ii./helpers -I$(TILER_EMU_INC) -I$(TILER_INC) -I$(GEN_PATH) -I$(MODEL_BUILD)
+INCLUDES = -I. -I./helpers -I$(TILER_EMU_INC) -I$(TILER_INC) $(CNN_LIB_INCLUDE) -I$(MODEL_BUILD)
 LFLAGS =
 LIBS =
-SRCS = kws.c ImgIO.c helpers/helpers.c $(MODEL_SRCS) ./model/layers.c
+SRCS = kws.c ImgIO.c $(MODEL_GEN_C) $(CNN_LIB) #./model/layers.c
 
 BUILD_DIR = BUILD_EMUL
 
diff --git a/examples/nntool/kws/images/features_0_1.pgm b/examples/nntool/kws/images/features_0_1.pgm
new file mode 100644
index 0000000000000000000000000000000000000000..9628a4a77ce8a8b83246e6f6c5b247d4c3844984
GIT binary patch
literal 7857
zcmWNWg?|*s8^&jLW_HhWu?y}}q);q4w50?oR-lBSKdiV*f#M#577MNo!70+>Rw(XP
zxB#)c1mbdcd%GjQ{R8&>jJ?nEeV^^s%+mCmDpgvxs8S`mS(7HsEHCM_l*v(@ZPDJH
zW@p&Gf^hs@Sij;aS}Vss^*eQ*C6)#J%kW#6MD1_`m<#5BZhV^*EgfK;@dP|se+AFW
zyVzP#M|mz*@tx=|`ki~LYk=*(_aAe+(3bhp=vvsllJoiyM@V3`&tX2zs|A;n@lsuO
z8#Dmh!4IGok42j#Kdpfy$V5E_j3o-a$ZwKy;s!s5F4AAzKe^soCwb4C7l!W6e}Ha>
z2TQNh%^{=J)&5uJCE`=CjQmQP#lqkKumV&9Ue*|eqbn>PFCt8T2oB*c`as@}++=Zd
zhjflMbRUkKVY!g`TA_{sxxLWnh(5j=>|5tuwZy-|vPX0X&LNGZJM<dp2{wQcpetX2
zdZE*77oICOVc)_=WIR306S2zHvDWB3wYqmjwzSUk{Hk1Vz`VMsYnZ?2_uvq_?jPXq
zZe0iVs&#NBX&0LhPlEoy1Saq#^b@MYA7YhsWUVE$+>ZSxYLI<wChLGM(WdTtu1nSr
z9<Dra49j(*+Ts0*PpY$QAN<U>+)@c1*2a=guqx{SH-b@sfdBEw=zEmO3bC8arAP`>
z{QMi~rP5#Iunp*6I@R6I6>DAMnQlr5nVPFfso~X24yX-m7yO?~EvBFN3Kil4u!?G6
zDHsnr0E<|F6HyG`NEG?AehBVVN`(bYH_a6zSRHhQ-gozoT5ofDFDmUFf!sv=cUW8@
zRmX?;gDHV{OSaI1%}6i!nEn7~fCMlGOyQkTC8-YUL88f?;4qO&?z0qNRW9?gY=`tG
z9pS#_YHY2a`HU>Kj{mH~$Dw}}R?s>+>uZhF)s{TIFxXmNA;qv!a0!?X@<cDzUfKX7
zXfreq)z#`rIm!fjfDsbIJ2GV42Xb$SoMZ)Aug#}J&gJH!Un7o{JW)?t6#wl&&=Sl4
zRx8TCOSkDw(A!vFEJ)z{P#!#@-$04vn*JEJP~zyf%!_{(jd>k(n{IUbBG+0Ed2gEk
z2(4L|M{b3mD#{AvS>poN{k6;kxl0?W%tS5O8>8MDFb*u^%g`R_A)SY2;?4R4cwe5)
z{t*@Bnqnq5;j{EB_kzgPmK~no%@Lt;{vT+1n6I#%y3RgVUFuIUE#{AdW8}%w6`BTy
zgRS5uIL7m&%diEVgCz1$KLIq{p0*KBh?iIA$;N(Lxt~V{Ec-k?O%ol9a+XPT!dsX6
z=rpIM)(9N13<k$Ems|`V&@bReuoLVB|M57~5T4Sv;}XKPcj6^Z(XaCw<Roj!dZM#b
zagT{?W<HmGLVoDjm@^pO54~1YNgZh&?C<3tZhp+V1RhAkMLoS5hy;hhR4|>F#~V?7
zHWdxT<Mj-Plm@J(xIr3;Dxwj&O24=(MrByrdmCF~LwDw#MXrdqC5^PrwqN}F{e3KB
z`B!Q-{u6GZ3S4iTUUe{&Z$f>f(exhbNE%Q9ugLMN22f->uf*yZda&HR(8Vq8%=@NH
z=fk{Z=ta1x^t@Kd5g)u8%&|JfVKo=mhPnDGFvNH-9l#R41jR^h>cO*QN;gYYl<!zA
z(T-H)E7*_dIIZiBaeZa&;z==8a)#$=s31JMXp7q0@k_9KAlv+jk5TvH%WyJX2;#sj
z&=QR25Iut9=>k-M^JrPrUP)rd#9<OE3i-F_6n*{P?y_249)~$KR4?dHo`q!>)(x(6
z+zzZOJ*%AI#lbJ6n-swqm<%QW3;4p{;ep1vzd#4bYW5E0%A52F+$C2MBX|#dg|2iD
zjjCaf$m(n!?mU&BhDU^LDZH(Yv@Z=*2)wcUE)E2{$R@Oa*$w^s4S2+Jrb$QPXZ<FM
zC3cp8Z<&r!D|e9=yoB|_=V&AMBUilbgQ53joL}VzL21Zug?|M5IKtJ6fgFnkya+xc
zRi$`3A4G%opgrix*Pt^}FE*DfS3-FxidNb&rx-xi^LMNgI!D{M6I|1+6*HU2I~+;5
zI&2o!tyIu?&a*+RKD2g_=Fy*(TT&i94Z4B_Ko$S8i&9zXNA?Vx$TjUO=pd)jXnq1c
zqk?{gZqldj#x7yGmsu)%9ocy;ks~y<XqooLw${Hru-!TfnDvG7UKmdsz=ehz<%#X=
zv~(YKr5_Q)ZD<GdS~<Wnz)hvO_>;Xh`osPHpUCCb;oer}>dp&!1m}d^Eb0+_Z*QWW
z33RntrE>ZM@)ulBbHHq4eQQ7tpK9pA0D1?#Ame!o?rkc={{&~`JpK(okIv9}@B2nB
zu+H~3H}`Sc^Scs%<d+hsI?KA)ALn~-4u|8lJNPK<#(KfkU<zmlrt%2XR9eXTkdJaG
ze}=}J4)Eh*0{Ko%=SK`bBJLZJK5Nx1Y$hR<^4j9JVT%g;1s>QkRj+#27AyUsb8-S^
z(|&NB;lI7XYQ7D1lgiSus1u=j1K2^{$li$|vI*Scd!<LTUdjzuf}!^VOm&^n`5kbz
z@ZCkxDzYC`-vvCDA3y``0tqwpWtZ`mH-nWx<K^%&DPKP*mB%ymsj#EmhBXAEl(Qg%
z*GHG>H1`Epv30HInGzfFKJOlmiC9#!Qfunyt^N|IX`Ki&^}cdTIGnbE%RxN&6^!On
z&=zSd1*klJqa6bk<O%Gf7%F?j|HLXo|GKz)x-M8pc&aKL9qV#OBS%DbsZXyOQW$gw
zq16Pw)(^;QppEVXeZfMbKkD+yXb()$R!C*=z2G$QkT}^E-V?{M{>+R|(!1}yk=Lx(
zJZ@!W$n?Ay(!Q{W(u&mV+^&b}S=Noblez`J2b**ksA>3l3(%NLs4;x5B}tihf&LPV
zk>9eVq7w-ddHkN?^RheDI@~T5m&aF32mB6Ym33-K5BkMCNDmj?ERU%k+)d2VG<FCy
z1tY;5F^$iWx`NHR9nHstO_v(U<9P`Dhv@tnk4Is=zPq}dZSGrA3I(q3?@lbHV@3JF
zWlDkmgE(bcNfqrZt|!&!N5MCspW)}z#R8N7XR{bwm+WOP;e0Yy)RKOZn}Mrh9=gQh
zQl6ThnBz;zm}@An@~h)B_Nv85yJP#x@V{*)AFUa@h<i#kS+S@Kx*Ih+f}Qvy{Fcqc
zBk@Vy4PDA9eoCl#k+{HLOC4F`l))jFtyK#Knhu+G<tC$X&S25!z*cK7T16kAOrZ_5
zZ{#2xMIFX|hl6ThvdBQOusWTF{zF&vZ%|)T3_rj>pzeG)Pcw94V@e0dDAUK>p=O7r
zOnx0@X{aaffN!n6p+3alMt;XfYBg|u7|m{hZeS?5DF*XS=r1^wZbIwvCcOkKB{yjS
zuSPENzu8f#53ig#)>IoT$gg5~jn{vc!D!qm{X@ZJyCPj=$K{6l+`wQsi5KXrK__E<
z9`TCLL<L~B?ne{kP3#RUCIi_p-VW_!t@&HDjQ8`_RSZ=sq-a09kvE192Cck}iWizI
z!aX93bk+w3D@#9$o~*pVFKxhG;Sxur4`P<SUAlvw(6ew4-b!Wef#1{b*du8Kuk2Z4
z${?qT+hQz5<|WcX*yBsvqH|J-mPQ@qx@K1UfqW)(T~r5yz$xPm{vkaU=XoZXA-xEe
z03CN_r$qw#o@KI2QY`P9^*?8f3FMW+9k5pRL2WJhDJP@gCAx1AkZx(rd#JyQ6*NbS
z1cO0akSc)KFU^DT{4ClBtLVwnLQ<P9<d+QsUdCL~1U@9|PiIH+(c7B+%ri3^YZXjw
za>wTV1|<3!=%ywb@E3?a^p~JnL>YXVX;61OI*9IyB;3a6vD4CNvWuM+4pJBF7K@}=
zJT|*U_<6G1!`TQi&NGgEvaK$hTf7FvX*S_C@6e|O?!o$OO7KS!W6=E`@iiYTO@oXz
zCjH3_dKQG?cv?lY$2KuUe3s_%k=a+nH{cN&@ocSFnYomuJ1UfHEgg=g1-8<u=GpqZ
zz!|BSEf2O4&A~vBE6VZdFjIV_i-{m@=m*e)v}0#@byStDWJ9DSymz)1KA9}em_g%2
zXHPjUhc5Qt@vTFfgNf{=TsC+mFcr1sX~E&5p|RgrVh~S)89Y}HkVB+}whzQA&sY+x
zi?*|>>}zQew`6ySOp~jm_tlny7vA4#fpfBUMV*K~s&lA9S{W`9FzEha@UZyNm=-#N
zi+mqU5+N*1j*(l^NLX2(#Gi;7xC}pJ@Y*sCvZGw{mB#5Sf_-_mX93ef^3?1gL+b*g
z>3ZDH-&XbF7zTrRBF^BK&Y%--E^Pp_X&2H>Zb~adEMH^GMGtJ|Rxu0z##?7~bj>uu
zj5IY@FQ2)QVP`w_k(v)T`QNg+cxg$cK$LuhC95CA4<OM{m;h@b^#YUh%EYB;x&=fN
zg?-}1$jL7W7x^C_nDukiEz{_X0v(F@%tgFOm~4>2XGj8Pc|ak7h=7eO;HQEqqCWWD
zSYKB@MS3P=J&C+hEcA--;z_h8x8oo9WZ}m>`Dt&WYqN4IqdIr-t)EJ@|D1Py<$cp(
ztbYz0BM&K6OS_Rc@q2KqsBQ4>T#(G8kPhPLPjZ3$Fu2qpA;cH)(<qA97jN)jzSdj5
zOq3<olg`_Tx~b0KW&4FvpI^hOmJUNqi%Q0q&M>rhWUzvv2Aho@dCk(KT9TPo#o2OA
zx>%eg4fq5ei5BzTpd0DL8+k#Qv6e>O1TjWDNsFfrr_HzCKLJe%jz^QNGks29BALx2
zgFl0r#`#qNN9X`3!$G<g`{Z-F&Qr0OX6lNxmsbZ{aC=_UyFBWHd4=Z`uPvUY{h?0@
zY2~k_o<dvHV))EFs<dzEM;ymz28V)P;JBgA5v-&1m9&{|#5c%Htv%?Vv|^K4d2$kD
zixTubujsW!^)>&I8O~m_@U&d*WJs03UVn<{=}(34%$rNYd;z?by;JKOwf-~|bu>FH
z4Kq047~V`)YX1Vaa)FItHSs^<ACZE-HT17VRDW}f_g64S+)3?43qlhDzXVoEP1J+Z
zLF-Qc4PPS?!G#)W@be1rSm?BabP@hTx008ndvKBf${Bi;9>v!TuX>5v@hu)T(rljN
z@v-OJn%+-aWgq5C@Gpfc)%8-Esbc9hUk8#;>lyVXfOUY12==YC2CDigTw9)_eG(Vs
zg>)x<kITa6q6YebE8YjLR^|jxHlHY1nx-{zy!Dxa>3F;P6CmcT{_Fnk_$aLvJYsZP
zqTwH}Xol2W8mX^Gb4Y7L71t^ISy@($?ub|7Yut;^@$PjEGR1nL!AI~_dMmBE-Qs&3
z<npOtf$*Ci_=!Iem0|aS7mRs-zoDl-dS7ZI`Ses&pUlysU<K12R)?KKmBc0SFCM_3
zdaFi#XL4s8<;~#Cj0~-o<B5NP)<(Xg4igdPnE|ukf||0r+D_02>;dORfIgLMQagGY
zA143P7Jv#$DgBv^!$DCE48<e(8E@aHF{Vf9Df%zGO~yT%?La;~P?b<MgEvsd`~ChK
z#uRVYazS%&+PIHb^ojHkPSF?P{_;UB6kL@b(mYxbwc*JkiVWv9vW7<WG;Pn=&+dt}
z868=s^Ic$Va34-qv%qb0NZ^xy8=k`aK>&w>BOoaLqjRJ=@Q!B1gOnBe6W-jI8t$?M
zD4yqvXro^LtjH)TSI+oNd;=$?U)A-H1V2}olOyVQQPKP`uq-efuclRkxd#31G1eH$
z%1hf}C@oJqD!R6a&m;e_k^Csyz)uT?hw}pOG1nXAeEJ(bpTmp+TAIDK`dB-Ll6{wG
zp*&n&7A%i@=|h5p;Z$$|^Z>P)UD^e@>MzJYN<Hlq`wMTTC)q|s84%m?FrMPgaaC5f
zr(V?#gJGVcV9;{SHzwF$dgWWq@5sOVasr2NU%juo$KZ`CpbuEbDxiz7A6=}>H#gDi
zi$b}S4dLPBl|Y~i>Cdygoullg==5cD6FlZQqa|7o`?hG&q%a_X64N37y1*3jir!W|
zAj#0HA3+_~NBRQ$=|@n!a)ch@X=p30$g|Kr{=JCAUHNhEZdanxD19%Dlw!PNHNWMu
z@2>V9_X|`KUS)t^4J44Mw5z(<$X^l-UK_vw`cC@R;Fm{AV>+Loz(ZIuUq_<BM1#D(
z<MqAqu5C&|nwcH}r!p&Pdn`3dLev0mqTXhy<h`$!x|+PFAo$R5kAsHB3}B-q0jg<B
z&|c-FK9)^J^=LV!pje)0P*HQ<+504Fgy~h<*X*D)*^{iDwjM5y_SeDX)D)JcTvYd|
zL-2N5FSr3rH1fI`AdL5udV-~T19^t&jh@5j;~3hP-@>x!BbMW@c^z+BR2Nf7T5Eb%
z8tq-G-8KJKR4L%bcl^`zRAN;-2W<uiyjFiT==p$=M=ax|(nK&w|5a{lx~O3>O@6>u
z@Vf>dM2gusid((mWlff+>CwCo&du6PCtJ4^4^qG2IlgoHOw$4FtahCk+#S4Xc-v7B
z1J1JRk{xc>$B`5n=;Oh6avge}t-*VFFHxUhzRr_Wc9wNsMt2@f8h!r4p4#>l_4hr%
z1%V~{3AvH}PTxuzF}wD_IJ<4243K#UdJZn>73ERNAbmNAC2h6-v?Cb;5=D9ZnWbbt
zEF&ysJ=ei4tY+;J8*Qy~X^~a_=${+dN0RAPy+2N-)ipC5Yv{{TFo1uMWO$XP%Keon
zeHNHPE^FVjLF5Im#}n`!HaDYo*(B@5%ve}nKA$yGe70xh^eFJ5MWs0<Rd5MiskKHM
z*<o$2;k_%3_m|8^qE^x*UMNqHSL*jcL)<{C&aabXzK~ZU$Jw6rF6DD=vogv`1I<^z
z?2sykD*4+AFG!yYyOcPTT-GMo7B%GGYc`|Sbc3IB*lXz?{9-8bJ2IUffuFEb&)|vj
zCvnzDYL78*+L{V~IhuI-;*I7#+0)^B=ZCyO#S?H&e)Gbq@?LJ&;xH6@wHTv!mjVaK
zV#QJ>oJAw>ar{Ut3){&O>kV}IBnK=>+QIy(G3BYfm1j1dZl06Xns2qe{qm}C3))z)
zrI;x_S?9n&$;M4aQWa&~?;McMI!UA8VVZ;|k{fyjsjcERX0c4!B3kf#w1VA9ty#hA
zFnfE-)vOn@?($8J4S7pSPbzbZ4j26*pQTuJ;n`x4c2&5H4o)!U%SjS}M)HS-lHRn3
zv{L??W{J1*C~=yP#RFM`Pp`|Zb^Po3o-8uY@Nm7atxE3plC#RvqUMEe{E)_}J<%$j
zYVc&SNH*s49JWgu0i)<`tSAjx0{oGbp&6p3azrfQ<8cc%^W%cDw;VB9&q<QyO7?Qj
zZ58rnmNrw?7CkSTCvRa5)z;EWHdK>=6`TZ<Kr225aX3<sLM7x6BY`cF57LHWzWhX#
z81JPz8}+eE*(r{<S@)GUw&!1F!22Nw@=y5RTbh?nEjeW3e6%_jT^Crl8Gf|aP{39E
zU#W~Vg6+rc$r3#P!sKS`2Qi8Wev|8{n9lvMGpd&Dw&#ib#g?4Y0lf*GT(HJ}#Zs-L
zSJ5`5qVNSm&~DJ0?l#zJo}pLO_(Zf1sq8H}Moc_Qijg}R^UPo)Z;D|frF*nR$}U%X
zYoaGz*=1jzqu`C<n+xyx7h7xiJNX)$_j5(vhVp=w&4XJFLijAwm<yeNueIxN0<Ox&
zpo+?E>Jsb8&wLK^Np1MUjASFF+MN9gmsi#ljggO&X6cQK+SrGR82;Xx0Nw>J!f{3l
z_A`tGYrz$<mF<GNMI2p0F5{x0CO+f&w7#(7W~@8^4~^j|nJ>*ml*yisUXeiI8ZwCt
zPw!Ls!M0Xd=q}SZ(J|N$tl;CB*H~M!k&y4;Zg@__vU_qdvFY<b8d=B_K`u_^FT^OU
zvp>_X*pu;3UpkZ4rp?7(Q>^8Rr+vwWkS;>klFfe!px!s;B0DbuX0Y2xP;>YRct~7g
zMe<Y<s{JnV@kM&y(7!EWwU}<q``>>$Vx`ic>}*t9zF*Kq`OW-4k0?&EI@P28x26t!
zsy`1rGG4K6{98ygZe)e%gttmxi<ipJGS!yDI?4z3Qrsau#6)2xr`dy#zuJc2lb^@Q
zcg^F97n-(OhIyNo*lg>xWPO;!3v&bK;Vd|pcZU59nk*1|c!cyqyk|cuH}S^cYdBiz
zOrIL*-JiS+Z;bY{M;~9>o6EgF$KhwD%%W(es-=UsLh&fuPpmfI6{5m5{+VDn9LFuN
zuR-LMjXW_EbQ4oqYf=Hd3%-Csxw4VRUM6<Ygq?)9*_)4xY-`DvFDvA7)_1-Q*6Y?J
zPorXDchYFRq5UqH<{t^WNVEAzL;vQ2`=E*V6<#sEZHF78YI<|&E7?pfd<m%zC>ss`
zW*0x6u<s%>K9864tw()bt@o`Fp2J0UyOrM7?pRZKlz)n}N(!)dMjkr}6dEZ@73q@b
zV&u<Njr8>`x~H^f=XjjF1O6uJ7=3g6Lm6jTWlolp#8|7AuCXm~w#@EZwAH#qf1v+s
zUk?+4QKUY)#a@7AhNAWa_k;%>gg>y}xH+1x<xBHSM(?p)w1}7E&!jf2`-i?^F($LO
zI_Y4WUEJN;GW>XsTwKwzH0aj~968b#HAU(P+p{bqYo7-4!6L92zlOiCPb7=n)kjHT
zCWQlWpEL%g+=jkl@Z+=arphlFjYzKTO<@DehwwGI*Gm4jRn&jgima_fAYjL9;A#37
z7-pQ`LQqYNL^1FLT}%EZ2enkV(L71)=TGq`@x2&^oU9-v82*DYD*Yg?YkykU&#Z@*
z%gHLe;i#sIV7l$8=o4_GDw2ggHEP8H0Jiaq(h)IM`v<?1+vo?uDaFfPvTJyd_-HtD
z9=(tf7kSmZIJ38W-m#=eGgS*~nD<AZb;uI+mA|QN4Sc5-AtH@o!r1R9qen(?B<<&u
zgXPgCyh+;*Zz{)FLs3Q^DSXV1Jaj=y)5ro-<BaX{NoQ73xH2eoLH>2s>3k5}>HlQ@
zTP##Jp=kJu9yijGb%r8j@a>XYyw*0NOL&Mr2PTm;y_py+*A*sS3%#T#+;Ndp%-zxp
z@nC1O;^SnCV@vKsb!ce3_QdzMX_-h<b@U1*vMR6-SY<e7d86O<N^@x`N+Aw5PFf*D
zw%5?-b7C|fiXIyOd!9$^H*HIglY511%+EyYLk{O%SI0UNwa@Bs+Z=FC-HaPa3s`43
z-SG1Zh6DdWO3@59iM&>R<1J8%;YagCEhPzjEl#0(^tF4pD`@%JbJW}^?7xC*q(MYN
z(WAgs+uOihf1Kr^2oL^=zm|5hj&PbmYc0TAejQQRm35Re<odJ(Cdo(WUt)wZ+{lYp
zpvRQC%ek`6%`<14?l><NT#$bb|EJ)b8s|vxbtoQWItCVKhsXix78?TR8SiBR$me0G
z7l_ce;T`f0deq1_HnZU{SxFYzd?>y}kGqQ^x0?@VTvUdJl;o8VHN1Y&C@mp``BID5
vnC|kVz(>>zwxi39d^g^x*p)Ysh6AYAN4-c}IvZ}1^Lby%uQURujnwJ?L<9mW

literal 0
HcmV?d00001

diff --git a/examples/nntool/kws/images/features_1_3.pgm b/examples/nntool/kws/images/features_1_3.pgm
new file mode 100644
index 0000000000000000000000000000000000000000..f682773e1b23790004576f44f52a03f77827063f
GIT binary patch
literal 7857
zcmW+*b$FD=*S#~Z?I!C<2u`55w75IL3barfpzy;f?(XhRfg;7NIK_$=D-?IKK+t$L
z2}yQ0EAKn<&GS9`|J`}#o_o%@XS&vls9Q5Gu2I9dxcc?#)TtM-nw)c2ik@$+<4Lf3
zqDL02SEQIh{+r<h>%-u2|15Pbi4PW)pP-xM1}uVKK!G*vh_nd%jN*8m977kQ#&R)Z
zJ{zy}XXR;aX(=g4yyem(mu41=tm!gxH=_*a9B;``2MY?dE_|j&(6~^BJOme^?_dTD
z2hMNN-S~Sv%a{Otq&wsw+>^SHuKc2Wg?h*)JcCS4)LoY%`(*qWQQg(`>oGLJInnpZ
z2-xq0twE3JGW7+&$}T*aoP!<k6GTE=mWO-d5#$sqDpA9QipUF%%WS*6g;u7?cowOf
z_{3E@@@m>P(-Y^}uM5ymPVTdlO#5NIZK$NV1sxOYEAK)!(h?@Z&*0}4_5e+S3&u)R
z0N&6q{3LFvx8r8DIXg{HOY_K{#B;6^kyp}pn%g;t=hj5yoW*@UJ;gptUlv%T{Yifd
z`Q?pxGEIaL&>J4|a%?kx2Ca?zXfD?EA5olqN>68floND2y(@hp<B~cRE#kbF-N16f
zHRfvpOm#$hSB3Z5YJ_$FUadNB7YgDY=ou*krC<tFfE#R}6oHqL;~2>g$WHW0T4QYF
z1@Z`bkG_;X(%`4@C0j(d&;RO-h*_LnnI5*q<n{2~)lT_V=I@cKvT~tLxGnS~KS5ns
z1Boz+@01SWXEayZDz_)cptSsmY=F*cFTS2llV-9#X`xaxTpzx^aEy%J<Ea%M9<e6x
zg8!UcEB{VGf75<g8^UNhJ84`K_qPHN(zp*%SWM^2rIkbE3B<^mq#yjG%wdb!aOogR
z$>>>fyX~8tGqw$`Nm)mOjm%^7zYDCDOXO`S7--Ib0Re;7q4`Dt2Ejh~1(oE3(LvbD
zWbHq#kamNA@O6XoXmuC=z$!@>+4Zc_B^O2B%Q|Xb5napkD0swN%6l|)MvlvE=5<+{
zNmT<T`YX9@B%sCcC-g<9*a!H`qv%9+jCl$V@<V8?p36*XJy5tyy31yH>Xm42zM2{D
zh>8wpTnJQ&)cn7PcHpxfcm6JmONtEKBM*!UMlG}#Ho<E2H-C<%^77=MIy<5TOod8V
zF}m_D>MA(Qr%O*+j;B$vFX|tezd2t;A5ZV<pB+)pzabdJk8`f)O)^EHOMzkZKV!c>
z7iPjND2m?m$9O&@5wmtF;s^L26kvs}gEPu%zMfZ;-K<5<$|8nTG-pR_?U>IgdkQ_)
zBK{ABl@+Ux``?;gv4ep({2=w|ePFtnw{=jPzrdrQvT<8(5m5~VIG{`;AAVDsv1#nO
zRE|H*+voC7SI+!mQq=NK552O*oPW8XnW-Fk9PX&Kp$`IUVK;wDdV>Xi6TixQr4&Rd
z2Eq5Vmk<VqiqI}-kX)A5V|%38e3Q3=t19X4c@b-k-t;Lk_k{VNcVhltxgWi4yipsm
zK+p=kpdD)mclcTuFHn6%9*xQxlO&7jEI-Ww52VjwzdV^;U|XbFyq#~9t2Rl=P@)&d
zj7+7uGfiy*H+?3#KTRfM)ho0|sE|j)kE{Zm<MW{obb#CPa_FTWkgjUoSW8}B`b;@L
zEkEJScnGiHdwrYj^U2w)Wp>4NG_z9v9OY)f2n?0~Cavi^wU9mwCb1`cDEq*7^YIYo
z9pF#-XXvOml}2he*;lU0|1yB<@*~*7e-iaB`kLD>kjkDzw$e`7<Md8eIs{6D&MW6h
zOPZp+V*dqCu!sC-mcjq#!yp2hLle0LY|&@pZAvLt5#`7-tIp$;Z&3tKMa%ec-za+m
zd7W9=TF&t-Yn}J3a<Xt*aFJ4$lqci0Zv1+169qm|oM9WE2872$uAB~&^`<yO@vw?`
zsPdlvkMB@y=oRaU7xVePo%Y3~Pv$DiuZ}UEcyAe{ejp*#Nm*mGB8RoQ{8Vrh-O0ML
zQm~WH1rz)LEtDV7G`%d&R4y?mey$W}j15=%A<8P_d3>&Ksa>VM%(|91M|}48zRk+Y
zKwhYbdfV7z+|jPV?NAxogpFd&-~gWq2CoQ`vJ8Q73hk1=WevnvpP|=StWpt)dqxZR
zTHhM`7qUF_ugJ~zpr^BcvbHbKIk-`g$U}X%HW=>=w<fb`g22leK33H03PE`$YGrIi
zu`;J)@eAb`t;_bv^H2*u4$b2Ge17{e(l~QNq{%icYf#}kQ&M3<V22Vmrs=h{Zg{YM
zh2)Sl+8eHkdO5r<c;&4KlX-Zpbb-{sZPihXvug4&xW#XxfxMh=vGWfakvY?XZIv?f
z1Ir`N7G@RhQlA?4!}(e(DcU$rBWPFJ2lDt3f#%B4P;QKFkmk~R{JrrE?Nw{AlWd%P
z4!ZLxs5?LI9qLlql8j}RLDqfg3xdV1*ZuANuhscRa<H*BQ+ALkbS|kxCkQPX4rRe6
z>g`5@=@IENex>h5iRvVl%=XI~y2Q7jj(ni^L{xj$EB%?}tks+PIMB}aufLmbf$B7N
z2486#<XuK41$vE?6Iwn15}-ERk;b4DT0^cNF})BPsfBD9Z!Lcn>i0K_=ihsSQ4d*c
zhS_@Faw4@}=&>!vzsVO=&+4~>{Y^*Y1|*wR6(_6>MW8<nhLZ5T^a`BpwVa2iih92(
zxpXt1D!T;ME8(U*(mOr+GHa0WgRP$BPIB>Z565z^;0V*6aQVW`rgCZw*}-<x-Gp)T
z|JSPlo1|*!0j(!{@N2y!I<8PUoA;C-@`rpr{*F&7_&sJSua;rh-be2GQb8Z#EX*HP
zu*Os>oa+0kwNQVg4|qJ)NGXUB>@ouY9!SMdHn}G6l^5zacp3E+d&xplNB9=*;^KT?
z{_7&6P_K;owg#4C$yM~y&Iw+-Z=5zD*xFCEa!NIphQ`wGjXFXvr@?$!$InWW(SGt-
zKCHy*wOA>27+=JmOaDP5IDxIaR{q!`)$yCm8n%BUPAC6sjCB53@Y!3|R3`Y|`@8x{
zuF8+&dh{D(A~b`=FbpV5k~-jCWTJdlouns`D@tt`&BjS}(0)k7z)$8qift}c&n#-Y
z7}+m5Bizri)jQZ<sFp3P=(A|;q>^l}6vL_*GsNUBg3ZvA2c_4D8hP?$Ek$ohGnHhX
zN?+hqD1v%PVOBn`a<QsPLgpary2y85%7uS%{^ze)I8Ti!T;Y|K;`j&NQ`yYGm?^q3
zAO40J{D{;G-8BA{leIl$GJ7c>WNlaq4ssO{$<JDU{jqp??QrHH%ln9`pC1O29W4W&
z3*E|Ue?fsmdciZ;47EN#uh)R?Fb{S^KW>(z@nd6^oMECgUQF6L?&m$FOm>QomGarF
zTvN%m=6#vDk((n9e(D<tIgSOK!P;7VfBF22s4u_5HmZksO=B7ifrW4#=J29&XZ+6C
zAdS{C=nXzvvBCFn1BXa8Hdp%0I^^sxSu^r}*1E`A=6WC37QS~h4vr1>R!8~<<>$Z`
z@-025e&Q{SzhO2k0~;y>59PJ^s8LQjuHL2ZL02~OI5bDjAWdkx^oU)~zF8{AQrXid
zGA82Cr^vv1M}F`__=u^d-%`*Rhl$_Vr<N1?cnH?QNGODDkSs4jWAxV8seYvKsGjnQ
zR)zC&V;V>I3jfm8Q?B$5+Z&G(F;hGLp=04wTfYBHXp6bGKR$mYDrTgFZpv3+meCOA
z3P)KAnNT04BCcpKyg~cG-NKJ|q^ZzT?ZelylhRSvD63LjIp;A?OS59?|8ZR5ZQDzK
za;SfVyD-)phj)ZMfui!ys4*EMyviWBDI8#JHC`HRti>nPE373NA<v`-prcwG>hT)V
zX4XG*Yupg$qs$W8T+@xup1@XHw0~8wk?EPggYO-F7QEwsEfvFCNJD}D#qa?Rz<9N>
z+=lGL*+SpG6<>{52u5nnpg9{V{A8Jo4RQZQ-OX;RHB`5K?xH6<R}~fyM@2CIt%7V6
z2;B)>kiWqhWHNjMTj4IWf%WQHxdM5Ja^)Sg0-mo#(UPdPiSbf&4erYd(+-vy7d<1V
zomxw+nX-`>uED_-`tRoJ{-@r?xNoR((5-a96^RMT3-|I08h}k*D#z2Ul1=@K7Q=ni
z^6WK~(t^Aw`%Y@l!l_-#%#Oa3Eh%25Zt4eez?l(vM><-r`HL1DMZ>}!gw{Pp%Z(#E
zQk*XtTEiQ~Csm=3<#igTk$8=EoyVeuYBKN4ERu~)N*Pw_lk1-6n%qVEIkPuD95Xh&
zoG-NXEmR8Lp=05xp%UsYG|Bjv7ljS53s!MO`9<1G>dFxsp_j44G?>4I@3nuR6T6Df
zQTS4-#CgXzS&x<Y$R0Tv^2FGi`W<NMxE4q%cr2|X<@JSX7(F*~cokSG5aVW4Y9M__
zZ%7t3hE135nSKBnl~*ZGVx6UKH234VqL*!@GjFRaY&Y^csW)QR8avSoN4Zc1|72x5
zX%W7mB%u<-0#5it%&^9E+#c^Y?6{XwK-)_@OtW|!-be1k2Gjev1ikcONbEw}?aYtr
z2y1RmRlGF%ez+~aZGBr<+-u;g`smOu<tKrcN>EWaUd}1aK&h-!=qMbP=aY5lt~!XW
zp`)d@G)t(lm*gi^j~#2vPS=zu>yn&RaMOjuU3r0ZX~5+#qqH^3hEkR8_=qu*s{(%s
zu#(NiG0-DC9Db4Kveoj>rVsQIO~H+5Ct6c_Nt(SI5?#lVkk%V7ipb7+h}}^!;R=v%
zuM}<-c&(H+T7=4~b8#i|iATXIXa(a~cWDqh8D1)U%q_YO9aK)!H~fuKm#?SC@pUrq
zt=}~!qEy-pX{vcgRvxs8Dib_JYuY*lOB7bu*3lZ_W=cc!kI_bKtFxgD453rdWhkX5
z@ZWH<*xx?NljtcZrViv^*aPV@srGiY>v2RzdNK86WGzoep5Qp*?@9i${t`T2SkY9P
zbq#HlmO?QyT{y|#1jFp7*)W<<53k^rv0>~+ca`=m0BzJ*=)zCn6J*MpsxB=elzKsa
zWm%9j9@aPx`=1&stqVgF1CiQ0@?+?!^c`FkeA-XwWfmVoC!wJb)F+`m_*eZR%u=&y
z6!*x*`8x{uPm=JatE**1WZD$PX^Y7@z|Pnk`wj-Tm}dq53yjk`()iFx=_K?fpJ0pV
zMxNOBgJ`eN%MSP(sf)1!zRH8?9{8d@;8W=#bcB3z&vj;+KcpR3_uKAe+o{WXvtUZ-
zWJIT6bl|;unRtSmrA6R1dW!oS3z>X6{RcHgdkrUAh|3v4{*64GJ^{Z{RH$$epC*mm
z!yVJiTheEkE;>8qQC{7_{af@A7A1VAP*Zl3Y2lS}9?T|Np(hN5+kCT_*<q+Id4Ybw
zs*#SIT4mk?-BK#DyR@P7x2R{>Kbb0}XKKBjmi$KOgyUdgHxgxY>9$}+bp^Q_8Y@pk
zn7$HvIa1(RV?}W;G!Xn(U8+JFNUzk7<PIw-_oavF66q+Z<!<h{Wm3~$YX90Za+gCp
zdkb%8{e|^GXingkX(+E4-X*0&GNGaylZ2a0rk{}$-7#9D3V4%IOZf4}WH3K2U#HDk
zQ~4Mv>E`winkTiLs#@=4N5V8)4Q~}Xz)?EfHB{ZQ99D<!3H?qbL6IJefgs;NkD=?}
zH$LKBQeWc|x}hi}pOsdh@tWKzA10p@FF7VeL}X@YMXW`$6Zm{ve{Wwh(Vi4K66_OM
zAGOkt$xYE|;)6LbP~6`w8YBIICz6`Dtdys>MzUIooTEME@7Odkbq7gL_YKEd^Q;WJ
zdASW|2U#P#-M5W2besyG3>J^ffRwOPap2vg7j%YEfT0P?$H&m`h8y*l_8JdSZxvB1
zU#b`^B>J(J<Rw;fywy&mmQbHYZqIV_`;LEo9q3`_5~FOmW~2@Fge4^w?KWD&IN=at
zAeSCT&A?&oK+{D2(hqmjPSHc$qYUG3*;i=?`6m%Mmzd9_wN*D+vOOiCv15<#XZnw`
z1(_9Q=I88wc&d^MYmBu5&wYi*`i+giSD>$P3$4YKM5^<R*rXQmY3g!Tmll;alQQnb
z&ZXw8G^TB{?aW>cen){fL*HbZ9I6!9YpTnxgk~yBu}Vvzqr#6*ffQCkT7a;jq0>@R
z`W8=B7tzc7J0)3o;)7@#xsrI)alk}UcdBMvFgIG65na+BVa&H}3ikKEQ0ve;p<-$f
z15FX?F$k(a1-2ij2>)>x?Uue6pW%Z%g2eNk$|*LEZV>l8#LXP%Ou<w|8)H}VmdjhC
z#`qeAhgj+dzb)*c+34Be1UU`8CK}o!`dbI?&_U=L5MwXyC?69n`@Q5bLadH5oWEi1
zq}`;RySUS4{w2Ma>5O$z_H8^VYNr2+QOov6a9`mGHA_Dqm?+mr3&~vcLh!+Rq1u(u
zI#_CK#9d{#F&XwqNjl<v)DdFmej;roJaM$MvH5UXF-^8;o=(z)7{lMoz>cqa=TKSm
z1M*woKjCki(y;=?9pOA*L1VBDjWH(R2szf61c#MDv^M-tD~@{e1JZi3$351y(p)<2
zzA9OEWV!Ins0Y3+<c{-1c&&el;FrO{JCYe~AhppsksZwB204eCpikm_J*7an1hf<W
zWh}&N7ojZQE^Q(G-7lTRBC^xEs6{Q{dBZz8o_f>CL{|mF8OYJPvmv2v@=QEY^mjkR
z!%6;#HpG4yVsyhb<da4eyqCPjIX+k&#ABFA+Dh&x&Ty<V1=7Zum~}^1XST_n<jo}6
zt^;I#kZUWcKR8-egquwjYLp-{lW}xB`UQS6hT*ePys-iuRK27P`y^js$Ehl9C$AD$
zIj(DEQ=4j+ZO-gw?2PS`?-YCMybx{?7+`9{qQf!DKva_KgeA}e?(uE(7McdX8r^Xc
zPS-=YnCWMVc|T<V?M3qNKC-|aa7;G&Qhln`7L_v>I@zBU{7o#bmU=>AC2cgdgyzY6
zP<hfpu<2mIS6x_roCM5xj^{~KzYTU}2YJB{D&?7%R+qPv#qPmQ-Bdm8jGAg`;aSA*
z+7A~j4cD?J1s?^{%%%C%P^{cZ;677)Z+|G@59p70D|%_%Mw_J0q&TW9cM<>fM5)XS
zx<lGT#=Fy<Uh}QA)#_eLif0b;IeU7`g?n4ug%$=bnBVh-;ji*@(cgWr0J^|JuF=M5
zj<~<SP&T$2J7J@2Cj*3@zh^p~E9&LDe{%Uu?NghpODt)g*La0%eZCT!U~3=V7}#WP
z!q<ha$@6esx?Oa4G>qf3Nxop}AB{G6uryI$B9!+M{fk>vKOex`$s5RL_ZU|@b8K2O
z?SAB;jC#-`>Z<p2sEVyjxPE||4zYK^7&#xUBlV$$(2rx>O#7lb=rh?MjgqE>i}6@x
z7Of70)U!N?)tCPu^W6KKv&}uzRQ0FG5t(!O5?2xbfbcKYetNqwi8#P3ggQ#oP$_yC
zx(a^TDpa-ry@plBNu;C7`eVqHhlp%{pY~bo3#xpSjCL<{tTOdT+oM{ntvu~`va?BG
z0=?}xOwQ@{$ar=sFjQKJ*U+iLIgfxu?xnTyW~gFNR6)wncL{!JLQe85)h3eo!O}sJ
z;|@BSn0`xLsm`|6_FQI7oOKIh$Q%1g@<xw}Jk4$dA4nU~bka`fZ-U6MCeR(IH6-di
zg}$v1Z{;cSZnA-YP*=b(_6Oci41t#<Q|+|o+9ccdY#HL5^L%moDBBJFYjC`2D2ogC
zmo2C&`5xMd^IhbN=n!ne31lR?fhOyH(IaIB`NF0tn(!~j@J{j|v65qpHX&6uRdGzq
zxyF|{?SYE)sO|UAyFf2<fBuKiBTcx)VrZt&qfFrs>f)iuYBYc@=!8BW_towZiJ6oF
zHiw?ad&!N&&-Qs*pVTR8eQUaB0GxE@`D3Zu{w&lwaMaufo`+k>fc_#S(C^SkWKPvZ
ze-Fc0L&E!|dSng0ty1!qak)D~%r5UFHQg1Roz3CYD$1tFuAcYsrz_jv+vsfj6dD~U
zFy-(edU<6yI!G#@^8(N5{1}~&CcqBkBAzY(Ny_0kwKt6dml|Y4nMK}528;RaXg-;~
zQo9&gB<nroyN>!>lfI7EdYe#^IhJn<KT-zbQ)HPq-Dr_H*;o>8h+69l;VM3%C-EdX
zf%bqyYJZr`FG|PA5%*$8H`A!J@oH&{*E0}zjq2_%N-jAkQ>Pvu;bV!R<FXf}k+lNP
zGa!YZq8G6nRWf2xZ)u%z9sX5r)AKw+JqvqyQ|UN4<(}iHY}%K4MTxVv%!x-^orb?7
zz2Rstoc&RghgJ(^NN3PuS|3dnY4||?m|Q|rQFU?#x0FYcJakogDYBkkS_%~9cIhnH
z;*N0iHT{t$se3H{%Xx?t=NMlbvd&S`hz>E+Cwd@wN?L(J<eiw>0kBK({S4F!9TD#h
zMR9?C6VAwM$O2fVwSZXm0AC^p-B;~#ruFGrS~u&E>=a~=YUN+1C)y_H#e<Dazq4b)
z?^Z>O6hRxrc65r5r$umWyo$Dv5~YPC8dsM~>jT*aHGxYs0Usr|-PIipv?-}4wM}*<
z*No;kyZa+ZX-7ljL-0>i3Eo}brFccXl4!edyr=mX8bD{zBk~r1l&+GSc&;+oSisIG
zrFkBGjsGU!xb1eX7EcSP<E)ReF{<KR;_Ghs>~+Y*@HO)z{)dj0CMbni&;s}o#`8(E
zx_FOzXAF>@OV9NFXti?LxXGQS_mIe5NtZ~xySM#-b}j9d+Qgz~ZQ%<Y<Gf|UWo;qj
zL%5T<F)I~*B;Q9WeF?t`zCX(w3g@wfk2Fr>eB8n)z!%i|q$Vse6+<$wB%dVH++7?=
z+QZZ=^`Z5RCxMII)u)DcTXoWjOplQ1j3Aa<qbH;+S|}KLEm&C*be}IW7UF7BQ)3Ns
zC>En3tDu&Km*PF(1c`Ph+vk}!q)#`2{a(%sWQy8Z*u+?DCE*vLw<asS6*QzO=&JC~
zqeULp8!l3eR`J*RRQyGJ??e8RNLUy1>Y5pq<z1x1qTWcyx8@b;Z#BEU$JbBNqNoDj
zm(ZNZBB35ZvuO-D8;n%G!)}r*PB&dRtj}}{%7R_SOmqTY(4X@s(h8$7C+aovMwNtj
zkvi@=&e!Gv>9w^7)`dAA@U^HY|EAFJ$mC#);CS;EHcaTpEF2;7=X&DBER}zyPU$wz
zC8h8dd_dnP^l~KG!9R)jC_il=_^-74tK+5leY!)NZ22?0t@K9JTc-bPiwGwMx|_pn
zRLCyx6?yY|@vQ@3Ki@@N635M`EDe<=hr6)9<=6BKpQr5Lam*_GUs3mGhuc&kZG_s^
znx8!yy>(3WwlogeJB9xYq?n6Aop7|=0F5UbMc&j3Ci05xABmzu{W@wdH4GPFhvd<8
zBLAo~gl~9z;r|x9S2>58Pp2)@n%m@T#`@R~d6ya7HX^h>Ff*bTpzu)Hh6~6M(Tzr8
hCw)$bNY!zsQD4fIw}~ydp1O?n<J*-cu#`=}{|BS^y6OM`

literal 0
HcmV?d00001

diff --git a/examples/nntool/kws/images/features_2_4.pgm b/examples/nntool/kws/images/features_2_4.pgm
new file mode 100644
index 0000000000000000000000000000000000000000..58e3bc1357c8d78014f139afb2581d1b52c62776
GIT binary patch
literal 7857
zcmW+*b#zt7*F7_H@6)^lQY=6yZiOPjArM>&1a}D(f@^V?A1;Lw+5*7}#ih^|FU6ry
zD1itGaU*#Nk*8NizPrA4|Gu+k=IpcgK6{3=wY6zkyLQJ8wQIL)8y42qc7QI3FLxXv
z$!WO|ZC#naUoUfvE&Ih2BQJG5@N~D{7n4+uBgK7v8}xydz=V?lz5{tQoeanMY8Y;B
z^3&_6srejh!Gg#Sv}=5@V;^puo{S4@WqGYN9<ZwPu;;Y-qGyt)n%Tn!D68-q(STlo
z!7u}Mh;LaS{tZUzGmsPZt5;DCIYR$eG&9|2d)OkfmA;L?5?E7;$XsK39ndH@S*aL!
zt#pR_Pjj)io_C)40;g)SR0hrIR+t4tVTIVv`r<a|3z~(zkf~&ffAIHeJrQM^$LsTB
zWDAXruNIhwN%}<+XG_dEq$UNbrNi9g%uhUrT>HsTZKE#_`^8;-8H|DDPziox+mHlf
zwRYfyP1-Kp)6|IW6U5|YALwGdl1_|299T~FrALto_TBj<`cX$hapUr%vdvw|^&4rS
z{q3tx=8DDof3U{*`am_l9INm_3q!%Up0*JkGKDj*@XO8l33i^WrjW2cC_vtw+1xbQ
z5&J2h&8{%N<md7`rsm!To|n>nwa_yYH4r&^4$L<8S0qlc2>b`!)E1(xDBHiA_mm##
z^~HU8HqT^h$Ts>pJ}vO2l#w}A?ra~H--f@dkW@0>{myd4bGmFg`dX1ZOF`vpX<xJe
z)&hb;b`D>GKy3#kfJymL+>wrJS*)VzxR}O6$#LpWdQq{X>1^gZc|g$P;yvU=r2to)
zXRfu8ANl%P_VX6XXgo`V&@$Kr6X2nE!>VIN1ZxlBJ*-j2Ktq}6t@$Ons_^n1(y#2s
zhti<lh$l~g(4dyCht`c%r<7(FZD5;A`}$G?9-<_FEtt!K^+b38^`Wll#ca3^%GF=O
zQ||Hgg%J6Sww~WNWs5~T6Bn^YDd9m8{J+G}tdjkUlC!3uN}GxzofU<%Jl>z<$i&IY
zYG}&VY7HS82ElF-%<GbJq|m9jvAE-{D^kcp<ux5)S|BR$eWX9Xle07EXFf8EnQGeW
z6op#DLU($U62F|MJGBV=|D?ez4sqH=FNZDg9khclm<7(EOo7NNK1(S<q4HquG21Vn
z5g&LI86_G!yW3WIqcaARSk^PGq4~Q8J(WN6YqJUZZN11+iqBIE3guC39~uO)FbQtZ
zLQ#P0qC5BiAEiu%ZPHUcpEkyI_;VhLe;3Y@)>iIWki7;s(aKWl;&)#*_Rq|Z)c@8p
zv~i|~FhrjN%XtJVf>!W7EP!mfTxj?yio_@QPwE#ine?Fd*?T-k^b@7%tr%V2$9%;z
zIWJU>5nVHWVu3X_sSOHOunA1{zd(oZVg3_b;_KKhqq>7(FLdRJ;w6qkWx~f6&^b_o
z3ivU!R?2{zBG;%`1$P7aR_T?jwbFEP=VO>wp=PWyEH{WZK+&FL{U~}(d(l=bleL5H
z&=C&6b6zZFlDZ@WbrPT11`z|_KmoQ$N$^%2g?_Ntqv9rI>+<?b|M51NSLqMco!Z*M
zF>nSi@|*c|{41NnM)IdT7NX!ws0B^=YC(t<{~(I_DZWcggAm9D2V&wfyn~)F&Qpt=
zEp_G=NN2d3)=9r#y}h=fpc<-4V!eKS6WU7^-N^#Q5r}|h&;%xNCL+mm)IkXThIbOp
zp%~txpCFTm!$s%};hweRLrGfBBdH$SoBEM9s1f9E{wV|}pc(EGJrkYNi?pLGK!k%|
zbb@zc0+-QsBH>l&6ZGN3#SPROokQnQcj%3xQA;RsU&Li)=kvbC>zK&;mPyqL)RRTy
z(Ew!f?O{{#0czGKu_a;!l!`DoDW>u>uocH44ZRUAdPVF&>%>CXf;vJ6WJcBCoI76n
zT(%?o3JNsNyIJW|^_hC75TSkexHpo%z!ny-PNSE_W}|n*VY2AYUqBApjFNGR=uN{Q
z8(rqhp+3$LGFpnL*zcZTZt981IS5ItQ^q{?T9pB6Gv~K33kCX%_y`ilTI)OL5bhEw
zq9dFU)%khR6}?9b$wP=_UO0v+PZp2S_fUZ9<C}t(cee#7Ww|HuOgNQQP8}h;lnI3~
zz#!RoO~goFiehSEb9q%r5FKEu_?i!e5l{u}(r8qwsr*;GhK~?Uah#|LT~V}1Df!*<
zz`sB5p=2kqxj%|lA)qLQF?;~6=!s@sVK}YHX0vEs8y<*AI4)|4D0~gIgC5dF7^i0O
z9GpcDu`sli_Y)&fgs^{pXP)Alm;DqM6OsFx)vC5wxl#BZn?h}#`LwrquRG~M_BS67
zabmEsCK21wM|dN;5wA$mw!_!B7Cp)DqkmYa_!otVJ;g!R4N8;TU&ucsChwKtA@?<F
z@n^bQd*OY?b47RF62f?{(NhBqzWQANFMv&`8GJ>?L9X5b&nAd2;MY(loyLn$cQL#8
zhV`tnB>OR(MzizAL%opN>OJQf?SX%%CykY}rp)LS_B(SzWtalz#6vb7ZO5Ap%m_YT
zdxZ{?pY#j-2>G3dh=aJ9SXc!1sVd5vB9_AJ++g&e`f}}3Q7dhezu0$M9Hd+HR8f(w
zW5W%;>IOD3fbB&ePzj%h+OnUO8l<VICUuAmDUm<oak!dLoD~9o&>CkQ6Je-BUT1_u
z(*5_G3$+f)Z)zmD$tvh(u&_6@E?NkkV3jCm(@|Y?h;K&ISeg<=qD*_}88J@YA{L5O
z*dpxC-vid@*E7wcKYsIx<HyxLDmf*ySY@S!zRlbWuwKK^kE=A#;Db&uNL*x#P#g?o
ziSU-W`~hf_+=jgnjpTd*5JU?3<xj_LPm~I2GxaFeGwUJSTKT27LvcGj!E@VxOitxP
z)T6usjn&t}XoHQ;i7LD`UXJUD1$d{hsT~nEtvAs5EvY1;jQhLEf6Q-hU##s<OVlcI
z$bAn3t8G*pls#tO`&a4zGoR*@wJ(vMsq`I6ga)uwq_YIn9c^Q~a3Ks<E20gi3$za1
zWOPP%k!jpRVQ#GTf!Z?djCN7*{Mq=YYGs<;mCL^OJ<(!KBiIc!5=ndpt&DaWYBXBp
zvA=LHyn_wK(WtG~01q@bquq5vZo@F~2inb-<bGvqsr5>&tJOsn3jTr{RjSd+p6T4=
z58!FGe|UrvCnR1*JE1NAUyt@ihn+x;*;jZp%F+JD4^7?aaq1v##C`6-llfOU8J6=}
zaC)R3gmK{#(eR7s>QwJ;G*z9?W?Gv;YrQI3$qCOun+-<oFHHOu-im;Q;XZIw8Hpmy
znash%$vQrSe~pLmyzEit`r4!PT+NCWep;-54)iOfzG@^-9YgzC&Vi<nLY(*DOVJo;
z1H|BiS)>u}!4{*+VwiFhxy(z%2hl{TEvkt*cmS`SlW0Dx^~)T=+eqyT4(UfK^w7Uj
zs*??BEqc(L%7eAO(2E~r4Nx!W0UDpg2IBuv7Oe<xm_yl)Dwtz<Unr9ozzZIYD)A=S
z+?=8h$a=#cNl670^}a!g>N3BTWGll|jWpwVdMYenlh`oS8HOA9`;xE3(J+*Lf%gcD
z5{8<aMzN!C*z~0!%mo??&YEZ0&!V&c<-bTx3lsGpf-=-t|8(hwepv4&>Fg-ok4~`z
zY$P(n2KZCV;x4=tHRo^15)tF;232HD`;Px2PvaNqD^$Q{WX`la)Ei~igob8sVKIFd
zbk!H-nN1v8iV}kN>BVYgkl8r)$hg0`2ETY%4cr%v<yoW+r1<?XU2dm)SX1dSy{K<Q
zls(S)#&TTmlY!x(b$H2N&@8yCf2TW!?51P&Kk;k*vo;Bi=?8TQO*H)YM$wu-!0*s_
z{+R4X!TL?|yJ-&l72P*2XA-@I6!tM=xn&<+m%&)5<ztB*oR0ObZRNGeNPU&Y$QE`%
z&p^-FSM;>8yZX>u?B{oJLsXHw$T8GPn~p-HMfw;qS-MLP&^kDQ(Tok&d2B<*6YjOP
zC~eJG2gJF?xLo**8me@|n`kF}EiU2L=>ek}hTjlb+(8zhMQksY5!S*XAJ@<``6;r8
zexyh774{;1uyr-FWv&({%qN{o^r5zurCRBA5Z=YUMx-jer4Bacqa0dnxWAr|BASaW
zWC7|!j~Mv=pAs&z$j^p<_?=|3BWx!=!D^&Ww|0P~Icd<%TD9alAL%&d`dl_!Z1C*#
zj70_dO?5o#EEwC3=E7u%gdapzG644Iqc9<wrtmh{t9KS{Nj^<w*YFYccUm9o1XMG(
zrTAcKUo=iTYje77?kHIA{mMHBlGSK`Coz|ury7hjCZul+)Fz=#f~#F2lVq{+q5|4Z
zpTSVsX3P@r@ixZN`q?(2E4h==5ObvSxc<yu!@b{q7CrGE_cxMVw4T}?UFEIV3bYZX
zLJPyM?ZDOHntEGg;%{jdzYITW>qITn3`pZu@Q*AoZH1+ZIFUU8PMdx!n5d@Ps(BuG
zX5m18sQT7e?=R&DY~l@>Fuc<|2!%?*L^?q;?Mvu}7t-hAl(?bzML%;md?7-}ZZ<u2
zgym2EZ}uP@VZNQ0>Kks4@o1h$(h@aE$(Ne3I%))ZF5VjYHrS}|Tyc(%z>oQ_Y6CP6
zKhrjI0`t^1u+Ur|j&L`QWv-9U&2|x#QysUqJ}Mlb1qTNEvfZntffV#H@^gMpI|=bT
zmOX|3&>UjLHW7h$u?TG?IYid!AE7$AsVgwk6vK;HDn8EMeY|EqDz4@vqd%;bitYMh
zd!gIpxknDGgOmuegZ-+Vfp9*UJv6-J5b%jS@fXfyBedq^YkWuj2s@-k^ogh{Pvoum
zHhhrPNUdNQAQH3Npa@G`!4`jAYZKQ-R|PUjo#d~HmTSNG4{^+<(*VOuZZH^ngXn-K
z@TdA0vLKVR9&pn@O$0BHUW*v9nrvsz)LFJhcuVei9AMjC@X@=>dct+S4B;M{(;tV%
z>JNO!88h^}Jrsyh#ys7L*FgRGPW>6#L=J0{j2aBrhp}cPi_haK`jI82uCe`%y5yvw
zhPI)fTDf)ekFKNTnbJ+#+y5<k$g&m8Bl#uf7U`lFOc7E1In?1p=vXoe-BSC*bdskn
zW2?w{9>kq!7h9Wp*J|8J=2`K<vh`C(ca*8Rd#(4PtSg7SUC2dIrp1Cw?BwSlz|h|%
zqBqZh6TAgmDeXc}mBk_!E9y*EL^M8LyeE6u+|(-8P(C9)gnKMo3Yxgi;FPjQ-XT(n
zx29(<KEn^`_s}SDo&5;qVkMX%oxedzd?a<qdr3`o0B?&MYFF7s>6jQKMw5N4b?P|F
z9eyk8H&kSU;$>>4^@FEe*<)6`gUe&kax_U)l7iq0+XlsA9XOznuf>&N9|h@4B59+=
zF&w4c;d@Ny;Ub@GOe@}xOHCtaP}VaPXT4i=NH4Wra`(`N1gub(y3XRJc)7@xV&O48
zE#8aO(81`B1DL{i7DGOgU9<`;Lp!xSBHXkCEJDI3nLV|)sX1Go^+>!j&u}(TglT~*
zK<giHSfA~^Ouj{bv&IIWtYtxvEtWwS=qKLdXDEw<REB%808&i$=ugEGd5lQq_wZ4+
z@}p|n!LMd*<=7Nfu+r<6pL-6`rS`?@WY1tcUtFNWu|xb$6GW1j2LRuQVmtu3c&fA;
z$Iy<_b7{MVgjue{&HOLCm3{kBGxvg$oIQw{TNJeMpR*~xOInWYynfkh!y#fTJ&k`A
zFX>H@BPPOK@dK}o1$dc)&!X%44)iBprM=+Cr9pfs>x(wB_bHVun;<tw!_)1xoeRC~
z%^lpmeI@2_I^5qIS?L_rjJAjnc3V6Y>kWo(BHH7hU^<(HC!u@#6x0RR)mHI3Qcpge
zC*n=)o0RI75cFN%2>Gf*D{iV-%ooZQyU$A#wPtEL@zN;mCJsi+_;mQkxW9)Y*Z8Y3
zl<P8Xjwb50ume|9G}c;fWZ-!+S<W6Le`jfrS^g?hYCybG@dcXamf!V!Ee-R1aMywu
zZJP1}+~ct{MqC$Dp^w<cdlNhQNb8aAxHDZ&dP^s?`=XOf*a~)^Oki=zovbOSZ{B-(
zPGERRUoF=Bp{$YbgM80t_d4OSveLI48uIpfuy`c~K@~C9@KOP&gkC09@g?<y2u64P
zw`eO8OBoB7dN4Wpp>+_}a=wu6I<}TX=(j8#%ags!<ioxO-dhl$O!HMi^LbZ&u@GVe
z91<IO87k);^l;Lbe53b+VQ8r0r)Bs8?Z%5p8@4OiW7~;4X9pqOx~HhVo?=ZeyX~E0
z-lnYa#gdo$zsk3`j;NwH7D3R~IBzKLj7IY?eIdC{meD8Z6Oxn#EMJP{9_}MeSi9um
zw*Nux%otH_@)sPW$LxDc7kHMLMti5YpWs3*)PD@E5<lx*M3$HWx5ZEVI!b3()zjE4
z-J=DlDo*xKU{SKh@AB28IxGH=Y}<>5W*tYftPP#j*lovW*Bf89>6xe0Jw)!vX8D(*
zNVsI+*$QLfl{n4MA;#XR|Kdn#3iZG)<n#sUq2w$}WGhGwmiD30HUjm{>V;QYcNDJR
z2P&p{ulg#>_1zy`bEV1jrB6aHL`V8e)HW1J73)L-4it6tFezW^&e}`oWv(=*HaUZz
zWk*OI_UJ=jn`ZDICSlg2pH|Y(L4HpS|2;XuUC+~9x}nzed?VWNwfZL!3iFN3WS+6!
z7Cus4N@|;bfdZ3ap0D5ImCf75EOwaK*y0Zz>}S!t><e-?`;CI}tbS0iE7Et>8m^x4
z-!kRVNB)U;IaFlVp|{}=`oMH?*l^u{tCAFIiZK$z7ACjeAD);)#SQuvYxG#sE88Cs
znUyX5VVm>mr9Rm)uFU2eX)93P`$n0X(-Pk@oD5Dn3~WZ4^9zg;r!f(M+D@`s4xmS1
zJL#<jiuvY`qB(1cJv1U|qJ050%v>$k3Rs>$T<sL_xNMUT+x}9<D4Q(@X)~XN7#RWE
z0F7Xpp-Eoef?N~#)X(S=iPEpZA~Hi;BIcO8K#Y-3`smW6C-#a^ke(q;3rNZf_gAr9
zEE(=DHqG_N`3j{7^|B}0$U=tEWMQPbFjj=~_xMW@s)ph*lA^od6OL1#iu2|Sah$Iw
z3A9C01BZ$(Wo(j91THV^s&%t%DemR^!V<3R@g>M7^p3uns921orNVCH5M7NFtQX$J
zE2>j*MQNOVA9~@F{<`d~T$jJ5xA8+-GpWFlfL~|!GS?2;T`)kKX~RV)%C}mBlvVCN
zq_@7+*B;#xAL(;L-DVqn`X`UagJGzypj)t6=>_R{p0b)7Gm)6bDv}5ETw-oOQ`91(
zmC5N)^GB-(Z1ak2<#)_Wd_CO`>3iB*nTl({WHtbehB>fV>}UJ%La=B$EJtmXt-J&e
zQvadfOCh`;JB<IJM-n;*bb&`{(Ne5^b>3Aa-ZI?T&Gn19o41>9oV6Q|^gB_cXhiQo
zOE_p$MB``3TxhHTc}2>U#$uYZLfgXLNNZRSTTO1#Itc^p<Do}JWm&dY%rDp8TjL7K
z%Q{(Bc@KJwSWhG>M{u;5Oasw3#(ImO#BlbLQ4dW*)lfr!Gk%vKZ8!7Cp(2Lm;cN72
z{CD=BVO&NFxr;3*Zxj8=@r!d{X`spE9piDzUFZjY2a+TPP_NM&CkzDod39+RZb7?}
zE~G@gi?*8T>LL89X_MH;WO9XO#Rmt3pl{N%@n=h6ZV>J6C~)>E?P!|m^Lm?`tz1{#
z(g-w=g`%eLD{O->@k~<jQu+Ybz>C$9__=9{HifM=EfKj)Cl~3Bgy#W~ke51w1lSMc
zzty|h?M_<0-|F|>^;#{Jd7-jW>W+e0D<jW21-oD@4<TJ~HvO9H!&Kdgo0=1~{q#5K
zYhHtOCl`!*gg6?Z#564bFR+&LJJ!;X_4yz7L(>v>y62_2GEMQ`F+4|GS_4ftR_g>h
zJCBE<VR}5;ibM5ZNv1hoKf!*GKGO<D|6Zqa5~2gr!D2jtG;nM$(A5>T>&5?;_mKUr
z0j_j|uSWTvh>dK89tB+7glq7a-zL?_BesPA*{)qg+f3)#ZRl*`Yz}))?o%ycZ9otz
zNVVgM4qH)sW)93OyX5`KddMH|?Pof|{!%XE_hK#GZ=|Oy4No-E&^Lm^Srw@#DO9h5
zSw5pT5j*7_>`&^#uc<4+9B>HQr(MCH1JVncY8UOlmd^BiXU_D7xF_KrdL{KTIRMR#
zJ=8GXk2;DgOvU%$h<=<jC4IGf*kXRKzvFA<KI||JCE2t^;v9QD7?QdVYS=I4-}g<h
zJt|x6Ni;i@KJH+ss=ZMT;0Xr)218XN4_jyCoo&f{^c5Q}btDb+3M5&+p^f5=<@u}z
zn?j0dP~vubbu=ukDU7s@`SgqbqBXB{i+8iFg8sMnz2Q(sYU9a#F_3mOW|`iQz;_ua
z+m38(ASr|wiU$pn<J2BZAp_|a+L(Mc_IEtMK~mG>V2<5e5ba-Njws1;_cc#YPx)7q
z2U@B!58vT|v<Y}bG_(-ics^N)@+g)5!vmGk&{DpxX9+O9V{Q3D$xE*#K6ea|?_@T{
z!vmWayOfnyN4dkBZgyx>eYcQTo2Z)cKHidc1FP}6&|fHQHO?2`=}GuY^p}5zs3Tp`
z3EYr(vlP}<YRI-Fes+NQT-FWb3fk~_vVWKDu;;2L#Wag1`bLSC+AQ@b$}keK)#9b$
z|Ki1C-U}y*NBSN#0Y<6&MJnQ|k)p^R{x4rd+OhYEJpyl;mt@rttsG^=Nxo&4e_R=^
ztK>Vao^lQ8`WbC2DrE2V1LB#OZm7{_uHfmAujirlVue3X{7Y=wpX`%#*6@?Ja2NJE
z;c-Bw9G7v1RkS~HUiR)aohtcUG6gO7clJb!d)h!{jCjQk(BopOk>R(2gQ68_FB<BP
zNHFQCH9#J+LhZ}i$>HJxpF%>}`S>~ZUDD(9YK+*Q7u8d&*4AZ3WtF5p>T~Zr>|;;W
z9by}+Zk+d|*k>rF1Z~J|zCv41PLd0nfSb}YEs4%1Ml!@(5t)^|cUe>Lt@LDm!hYJh
zMp<H?<m%;KX3o$L`zy+c;*@$>{L4dG9itw@;V*H5Z$OD$qMfAO(gEXDE{wF&vgms3
zrYqSkoJvtbj=dVOr%!{u4xckcZ54RMea0op!avNrKpqVz)k5(n&!>wFuiFz&h~0cP
zUI0xDesPj$y@i;Kf7TC**YXG>2~9!wX~Tp@0bk)~Y17cafVG8FXi9}JPqb&Tth-~&
zYfD+YliI~_^LE<M;M0DvRv=Drp$O0;@EFoYPY{nV(ti{!O>w+A%S88R-T1S%LP$@2
zBJwPgbKSo20jLbh;&FFRcKHSrquG3C#S<2%4HSx)1Ddc3g>1&7SRvUdUDmTjMG~f;
N6$8zmAyh<>{{yx7=4$`|

literal 0
HcmV?d00001

diff --git a/examples/nntool/kws/images/features_3_4.pgm b/examples/nntool/kws/images/features_3_4.pgm
new file mode 100644
index 0000000000000000000000000000000000000000..048c708b52dd593a51ee2bfafb6f923054abe3f8
GIT binary patch
literal 7857
zcmeHM)qho2uwJtFaX$$fAh;9UDM14X4TRuc3N0-jG&mH36))~kq)4%r;9e-Df#M-<
z#1kS%wk)~({t5T}zMZG}?O8MP*%{Ko)V_6aaF@=(!5uraYuCZloc2fyb@wvX&%a@O
z;Mnrz3OH-6UipwTwC?vk@)a6u@I>jhP=I`F9`b^=U;+=O3t$<Kly|cPUMwx+zvE`=
zOLksNV->VF4yJokFS^zmf6up>PC5T8^TQ7I?25nT{pQWm1?i9}9Nd@VgxlydYlzZ7
zGccHsqvv3KFkL=ND_NxSJ)DDOt@amDWoa}EIjASq5-`U!H{WkiZR1P+<K@<}@?{FQ
zwpKSQA?CSYp|V+60A(toH=qOP!tHbyB>YeLD35}*)tS&P)Kw?(wPFYx%dlXi6H~9c
zr<)e$ryCmB=a-I!4Q%?diT;bG#_~YbY>fbaNW<}M(1xCce}i6N88_2hP@Bif-Qii`
zD21qpK$QOMgYZ3T#^SJ-gr=Nw4K{Yln_$>u4=w$jf3QTC{peq6%$EKolWZ42mNXN;
z0kQNtJPV@0_dJz|us;7*o(2aCf03mqNM|Nqx<;7DF3|*3N#axbyUUEb^12%ew0<}7
z&bGpe^Gc#+sp3`cnpU%q(jRy{NF*!aIWPn)<N}R^|MGRpJ9Jb$LLrXTJyqY4aQvR8
z(ayMnv`fix4Kf)D{Ki&}E?*qTU=OJ{p?0&kQ4cFtOC1Q+I$|j7Mo+*$Ks0#7Z)rWM
ze3J4fVuG6-hfr5rjZ~k&MAC|8A|Kh8Qq8^7w7g)SsnYTLmvq$M8SI&%j<uatmdVFW
z<=m<46`eSOU4(Z)U+^zarHkNjo+_t+C^TK^4SEY#6--YGm-utm2iKr#$}RVOv%XL@
z+MVB(O+dArqOS#gWD8VJ%IA$KEL2`DbV2=CzBZ3O;4rU7$ABHIxx9^A;2n7mKZN(F
zzcQEDiGN^!VFQg%IpIz=`||(OU9b(Pn4?4P_P*B4=7>={$zL0ulGFa(cmwoP4s$?r
z5W?fhK`?@^P!7Yx=!m?E4a6PDM&49B#8TKgZC~!C)Cw4H4$WI8l$k!1+($QT?aO~u
zfrF8UB+zn*4)$F}vtUiu4ym9PP}wuG4;FwHWH}xv3|0HUJ>oRAh&;lv>@tfGbd;s2
z0lUmU=Q@O{CSG`vjWBopqR6?{6^dVpGD~!UU%-Pv8o35PgJ59b(ewzi!yaliTqevV
zw^6b#f{bK?#6-4^Z5K>*V@j<1hG|sZGVzt^Qo$>-%rdcjs5IO(Qo153hAZ@nzZp8k
z50L)wF{lduVoBr$>;~&o8LRjmIUt<UKPF}To^C52&qs+SIxuyQ`<SUlev!VyR$fvI
zT(KYZ1gh<<;VM+Wn9|r9|5OwP6X{rZ8Z-cjY$16B4uF^B7P^OqlG?bw_)_7tudtea
zpi_jJ^j7Moz%c96f=c~P+l4Pn@d?NAir&f{n@A6l2<u+>vn*mOw6b^bD(DWX@m1ut
zb|*DSQ(S=8swzkms*yfyIR2Hir)RN+ew$huaKmaS4mXwAZk4vj1Dqk1F-p8`GU=yw
zx157LlxlbYm`BTD9%u}DYVXHkLpYG!K=V;A`4*oq=8_()x7K?!y@B0yVd|8?=a$n2
zF$Rk*y>zkA#kr*HiT|MWsybQOV0zE$OaGziU@{Fs4WSN{vJx^0N?cU$p`&=H@)_LL
z<&u8%13Ex9l9xy&J5m}2^tT8Fzv%{9|M^meyVwKEBBbk<ACzcqzQw$mTn__qpWK0Z
zXaouyK=WV+P*rV&e-$>VJ>f_3iF%2|B0wIfy-*HWo!rSCVSbnYNnc>yQ2H4{+oJMY
zYJ{zc++Hp*?c{BhapDZvgQja+*9;i>ZS7`<f%%F7*@W)u8Bkx0S6|Vug*>{Mj>qpw
zM$!^@wz+2EkESA9_hN}}x3w<+D21E<^#{wJ%zdF>U9MXR*OQ*`F6aircrqCX8-gv$
zUT_NhF0BS{#64soKPCP}uWN6bM2;jCxms8n6^=CCu!nt_1><bt6>F4tmLj=QnP(y3
znsQ%w3JSD+P6zEY{%As%LJ`bUX22!rv1|Z+#ja!&J0cvUtH~0ikZsA+-Tkaxiw~Ms
z*rn3D@Qkf*MF_d)=tr-sAI%wDl#_7?Y($s9R1l=~`+*FFd%<?K1P(zaxi9+_BNE95
z3E}KF`V2{AU-Cfr1WVV#g@&uP!(S><ki%8^yP{YJkP+k`^EBQ?ZZ6D(N9eEck+v^y
z*ak8Z7V}@_cRUg7lpe5sc#1NZIPiLErZctqUP|8P{>E~#V2B~jZYf`byE(`BjxwDC
zk~fOe)SPXTcHu{$FZ~04((X5jtt5?M0lzQjb1w{41!xwgDz}LNx1_b`JPl8qrDVIg
zxp%=ohVzcB@;YLoE5i3J?QX9|zE{6D?VzXqJMmb!j2?xFpf*7K3yFatV3V>EL_xQb
z4AzT~=CQT-HR(qGK$I*`aRj8BJ^45Emu>gUnv12*I8QFoIfhdgeQEB^h`%R32By$t
z_*&!3DIBx08XneAm&2#9MEZyK5F<$nU4(vCZ;~k(Q%lNNcYAYY-X|f?=qcI*``e=`
zuTz8bCFw?z%m((*hY<#?Xc_ct^Jvd2XeZnSn$;$#BQ8~vVU&)l-_uKImpX_1hi%lA
za@_UYw7nov-^QF#*ceW5HujC-Yn<0eEcwd1gunC+gd2Gpxd$sXJe|RZvH-jR>{HI7
zrNTmWHh6`9lNYGF;T1KJWZ-7>Y04!>vA$P9Ptz~ffFd2-=1%b6r;4MTPv>{6^LU7V
zG#UW)Ohh(l0?YXu_6v@J_tivvOXpy%z#JGTKPD9@nntjvxD~yfa?{>LXD_&BiE^I&
zV%LRNQGA(dxMK?l01d3qSX*g5RzNuY1-<|+!F1k}jl_-MM75a^svpWuz+Z5xY^3|}
z88VUVMxANx)Y^^`-N%9t*17JJWq;z^uGyY^sl+^lY^4V+#jM2t6n8-j*cj9r>cMGV
z&Z4jmj#KNR1pJIdpkOhG9Ae+%II@JE!qK#KDz&Z9pD$`=PYp~hv-7_lpM3HDCdNaw
zDZ6A!Vv65}T<8Q}fof=bT$Ar+FVT6>jJWYip(XnpFVL-`o7ogpk3M3T@O1hqZHT>&
zzE@Fo+k}91r3q>;`$50g|A%1%?LbEw1NmI33`_<i*dcA7OL-!*u~K-QPgn239%u+@
zjmPQiv<<63b|!0jD3TsdTjw}0&da}L+2i<7RKROEVP#Jr({J{lk%P=j*(l#uSQ`#z
zdX%c&TL)f1qCo)jO54FibV}I;ZV8K3J>8D<G?eueqG|iIAjfC1bHQ?JymM5^YVgz%
zP`T3=XMjo{I>IuKF7!p?%V-FHfU3f}U@~t-XMix)RjGs53W`z#c!Yr@j;=&*n!`Q{
zlj)As1@^y1R`8YWs-s@fcEH_dy%D}F{R8DN%`{C`XL%#=d^C-vYV&Oa+VJZn3RGi-
z5`!(p<EoKw!Hd;GG8I*j9NJ5mLcdP!VPCEbD$a8(c5N)W48{holb*{TO#vFe^fuX5
zr`L@Sp|$K^4PUx~RlG6n02b4s(qb4Wt|u{|SSTeOSR}TvrW}Z4Xj!W2SZ}bG)_3E8
zUy59yUO=k1p-<8+mL910&BN$5@4rYvV|WyL4+a4{NTb8SHM&SPpwGCKdV!C{E!3eb
zNw9MhA0Z5)VX5cs4Ge#lc5`)b4J&R4r)qpTKx$~}C#{lK8S~Y?UW~58YJ3yA3g&<!
z-jZGb*VrXlf@T~g6_JmqmFgqgP%(K-bMbH*o!Z6$4aU-~u2HTzg)jLr_eNi_)WG;m
zs-^y6JgLm^)I%O9vo>fASfcIoHBtta@K5p)_zq2$N@)vmDILJJ;feGdsfEHc{+;2N
zp}$mo+1cOqq_7ou>auzC{zSuMX`a&Dgh(@ATcHNNz>?rr5DQ$O37r7qSW7tr97T7e
zw`3CvAw7AP&{x~c*SHs*lA7k2Vz^RV#WC7(GQT7J%JIIUvu~<ltmINu;||iqHx0+5
z81@aE1;&GLUX^GXo6V8SL3^}W5-7$!=vXjb+{1da&bXsiPjvohNGQBuNwe+F-=zBO
zef(#X5yofoJL<L$VzK^h*bgJvdAL-&lRjKW68JI}Bfo&}HU0dQw-EZ%0bq-`hRxQL
zNGJLvHPNXUwiOxdja}J=qseM}kZ*)C$kbmk(|F5Du9qhZvFHiQf!ja?_`qV-Xnu})
zmC^W%(2;b5Gd1R|3+L$?@muU9-b~+S-gn+a1G2H9z#<nUfja@A@+Mkf(JQk_Yg-bS
zCEeDXRyutHFM=-MZ`Oi*r~SIAM8lV;zjB@55x%1Rz<F^AtD+%~k5>OY#(4o)vs>st
z8wceNMFXpBm5!3h)_Jm98EqW}xB2Sx4eVFq0rNFI9>kl|Rp<o#R^=cPRVtIfBOIYV
zV7WpDZ9<128#|u&I?$mTn!8&6wXu0_5v}W9@4qYmWJvTL_17{V0jvG3Kr;J@{0F|#
z=5dhErvp(fltS8|9Vk=@=XW$c?&Rk+J=u`Vf{WRl!f&dC3yE3x(R5u<ZZTQski0vk
zdAj4ChyFCvEbjMK;Wt<u82~I`0XV@g(iLbjJf=CAXnaHc0IG|NXf}T@#M6gFg}d10
z!aoBW;s#lx(NOVK_6udNJ<2o6J4k5YIph1v7{PXVvgjEWLvHdEz6>C+pN&Pqn%;PT
zVsJP09EcH@v7=y}kV}WN8Tc>*MN0#>2xC5X#X0C$79n+92Ry8D2_EddBXu!dVv=_&
zugz<bqg>&Wz(4#H8-e!ors_Gg0_~Esd2O*59mS)BDw<zigfFw*MK1!62~nRH;0XLA
zbFEtLy5}=_dZVUZm%PWcp3n7l<S&>=*6?CJ6};5&el3~}93%{H!9OXl`FODdo694G
z_52OLji0hf#l?Yr@GseY@qQsaD_VuFm%dBh{g`^*NL9?2xzpE{*WsPWc3z^@yULrf
zDrhjsR}J_oKBsutGyFB(#%BrL`7yo@zh~=<U4b5?WDi3{Xm-{rb%Hb8+uIX|k9ytG
z7^9bU^R?k6%%=|KN&E+pz<*?I(GMV&e83$AZL4`RVIh6Zn~Nf-0?KeYOD|3fyo?jG
zN20HU;n_}AbvpbvJwxyT-!gfK=?Guso6C3d2-2OW^U+{0SLi1AD~O{PFveRH$o(jb
zgn}mGP`;RN#d*wIOacZYkaHEs;=vim<=w6oK3u88UHxg&D?>6{<BR51c!64rC-N~G
zK7XL`Fc=D~z0eky%KO<CT$66$b;T;+TmB4vVRcKw1M8v8tRK)f_)2DgI?FZKTdOig
zSm@v8uWhKu7yHaSm`kdYC-Y%oHP5G4U=0YF1}vD%zp!x_(Oo=L?5AY``?XvpvSejo
zISk8cjlL09WdE&ha(43G_KX&Z?~&ha9LlTv3RqR1uex~#j{<Y}Gr9v>VKr8wvD7ko
zBWsPXYbX;d)&TSQ2jpc<O2${2iOyvbD2N}jEvnfu)#LESi06EQ6ltu^8~C2H1?;Ih
znrHF}Ac9Y$4wMGpYu+jxyA>CEi`vj-;Eec|59KQIur4J>0=uKG*;8>7VPe*KHNv^J
zQuLVgQ>0=3&4!zNq%VSvVmH)AJc|zkt@s7H82RCREem>uRpl0a3WsZ79IngZJ$VKy
zXT3{$2ZkX>&Li9o56nzg-LA2fTPx4&8_JcwS_V5<?=!P-ma2B<Is9wTonNO@(N$=q
zb8(h1T>VHAVH_I^%Z1ZCp68-6Hnt=vFcAOnc@Zv!<1>FJlU&U_>7IN&m8wax#ut38
zw>oRdN02sJz22JN$1Dy3IGZHnI${^)p*j=&%-?`hcrq{J8&C-gFS!=@5OvG>1`Ft9
zdYatEkzDz;Z@j_eAL3hR{EJWUB#_JOh?WtQ@Mv(3Q#J%Y0NsdJu<3dz&q+6-CUC(!
z!dt$XKSzn|Sn-Fzd~`2+9{L1crEQn`TVIvO`S$Ad-k074!_RbP<#+Td+f3eS-?vob
z^XB|6?x*>$NYSV}sC;BQ#D~nFseC6WVHeSA_Pnq~HBmnx_mEgutdSWizqhCR{#I%k
z&Q?zG4Ka@cdA<YS7T=+%mbzdWaD!g#0lE$UA%ZYbJg0W$Mfek$syY3MJe-|F*>p<o
z=&Ff^oB09eCbo=%aWu%5?77YA*xUK%`WBf-AfvJYo#)fZbr7o6%i@31yJ#aSprt}L
z@jvA?>xECLo%mm3A!BqQj-ws21FF0=)G7Gcdeu3z=ssy_l{{U+H0L3Cy1&>kkmX8$
zVF+rFVlWLX27hx=yI&QAlW1X`cuEP^)c$exEO+a>f)%U<9!C#k%yL&X9M2zRb~->&
znR37sTe+0CcR5M2G~0;5Hl@075p1Is@Vdqymw7%(2VQ<m=?epKo-&Cy5O%Ppc%oqt
zNMOPEM|vq^c)%{hg#7vDc-xcDLEf{5n96GOskKb9%jeB6Kn-~%Zl&duf#^4le_Qdk
zq#anxE$V4hPl#6(R!>+<uY+k?UNVC<!=vcq^iA%cjTHs&OvKVO*CAE2obq%~@0h#D
zQ<X;62DqQvN7#;5^Dwj@L;}J*YNVE%3?*0aUi_78Vh+4n{g!{LYr#j+^QaGfoL1?Y
zXnI>5YP)QkpVwCHV~_RLP-Ypw_$uTWYY1AbqzMV=0NV)XX#MupCQ|}Ff=#3au7T&s
zV_6ECqwePq#XLHI{*D{a25I%(D@<xpXKP>E-n^=++t%3=qU<!z_4f9Mm@rR}+6#kW
zF{uu>Yu^{m_mS4n0-KYT*d<mY?YJ2=Rcf>5Vtf9OEytbcqtvx-#k{TLC)*6i@WLO+
z9;>yox7^rt*?(I4(b#|m$nnA_m_QS>ye<U9vkfZaK;z35s1rUbk7vhm8rcMVy1n2G
zKd9-oo2k&f-rT8lpS{8!neSB`wj9rP<)ks&_gs!MD@>Ngiu3R=z6NE0_MnorBQm%F
z^kg)CC}7e8b`(dGnY^X019!4(IE?N~)jLlcGK;4>b~;lF%=EA$&DWZ&H~Bm#d?Dsk
z9_OEpyW$Bv9DM;bwVPT&>cRxDT+M;4h3O;?>=GK$eLPYe&u_CmxCISO9qZa=j45vK
zT;P6KNa<+T1ph%b-*nD9#+PUM4)l|13MKe9Z;I||7c!kUqyNCku&$QW1&Zl}@K8LN
zn7}GAfSKrH)Po*PHM)N@JuaEyIvr4>C_&A&HT3<ferL3MJigz}k>H86Q<#7|@gQ_p
z%i9y#GGatB%p*&LMY;^q8pPmS<vaFLT*Y1NDjGmLrS)@1n0goQu)AD~3PZ^a+jQ?M
z^`Pm9_mlsy`6}Ne^%uJclehvOX!%eA8>J!WZM1=fi5qoy>2UZjmXw~XRM^F~&^D+)
zZJXwBPc<zs9%nCfo+|uP?PIA~p6=gg-0h?OyQXKXoBx%j1P*ftItWH;d~{CBUxLvl
zc1*mfn@p3ycp;KxvztN=4cDeKou0{D=iaJcQIKI->DXBE2JW!`RyM~UY)baGRlc&!
z;Ym_$5#eX7rFL(NG>7D+BebNgy1EF~!CTZQv|k^_7V}&ol_rrHD2}ekTJMh4HOxyi
zop9o^LinBCRyj=h-ZDvfq_(k!p($jsE*=eL|7iMo24I}hO~?)JD^tObaJEti8|pvP
zV)g*nq2;6%noa9xwGK$pAITeNdgGi`uE(wHD=G}?4Qr;nUtVwafHz7T-LH6&<`=eW
ze(NT$!ycnaaE$r_G=e?l>pWX{NV@TFM8Zze>gXt4ot5rhB`(Yk(;c*hmIi|q3;z-<
zx3tw%$4e&+^Y~rmt;o>`wppt;Sxbo8uv_pnzbM~fD&6MIAQ$i@lE$9k-6T@23pQ!}
zjteLgzhsB&=h|PFRz;1RW4udfq_Y;^OlMlcpp`7qF?5r8;YJVxtY8SsL`y-2Y=iqy
zyj&eD)oo|1L54V=eMR4)#WXMTq5HJRvmOX5ERTyH0^*4ErH~@aEJaawnuoJKa(!J0
zeopOhlBS=l0+}X3#^)$i;Bh!qz6XN!FW6RaRV<>r$q#4^?VOe99-@oPc_|*W_AKoH
zZ`z-G?y6r~_A0|@ZR=DvMp~^a5>l9|x#^ACg>+`aP!5Pucfev;OIZgW=p@pYEfjR@
z64?t6(K%W7T!)3`IY)KBS!xx>f&F$;aYSBi38j}oh`l}g=<6o#(DwNWjMErI;*9P^
zL*PBd0M@|M$^-CB=tWlZLAp!)4c!Q1>35myTqlL8IcfSS)<#7;z(CgpZ)atYIY{YA
zs#|8$KE8YSC#?AfI2Wt~O~G-ENq&Ms<P3~Qv(??&z5T2{1DEt>K9OvKF*G^jwR5JJ
z{&|;PZ@FLiC-esVARSaUTXK|oN?&6T>nL9l`w7Q+lI90TY54pHSp!qRTxA?5V6Wl;
zHY_WD@=9G-euT`1t7+HFRgNwC!~((Kw(3j%;#=HX)DSY=cvBkb&la_uQ%b=ja2iVh
z{WZVUh(9A7<bWgUB2WV_pfWg!r;!6JPPop4*nXHoW+wgT{NA`JZ=^BE9#=SsHwX-q
zSIg!4C!R1*l<qOf^R>a%Q8zkXL;FEs5GUk4e52*#9g$TOSrMEnW)P7fp@RMIKS9hF
zc+C>xuDbQv%z*p#)87K{veCSp@QNeB&pZc9`~d(2l{Yp%!vXRhSPeb{0L)b{3U2(?
imxQ<IUwHv&YFaKeAz{Y<NQSao{Qr9Y|9=0Mefb|Zb1s<x

literal 0
HcmV?d00001

diff --git a/examples/nntool/kws/images/features_4_2.pgm b/examples/nntool/kws/images/features_4_2.pgm
new file mode 100644
index 0000000000000000000000000000000000000000..88e8d1488262d82bc0fe464822706dda518ab3b5
GIT binary patch
literal 7857
zcmW+*g?|)R+r2WA^$o$Hc%f)06n6+(C>|_G(IUZ%7uR6LEkJ<+eG3!_5()&0){p{)
z5?sP=HlE#0$nMOQ=exh}57@hN=Q-y*=bY)&#NN0;l`1WoSE<spNux$h?D=AwH_!bq
z{?eBcVYk=L+eo^(1_m|0*42ewGUr%3N}W~Lc0+mb1RqAdP&`}`iDWs7H7B416l*lW
zL-kU86gc$z!Y*TIKxBJ&M%u}e^!^bsjs^MG$<M9{1-tlj=OtsdS<%r5PiK*ufqKdh
zcnSI%t%C9506q<i%n!ISZNtjqLz;)xhNs$TaYl@%nc_QdzWY56`f6L}+7IT$<FDN#
z3wH{yYm`}&?R9KJPs~S}7uS_j@h~(6{RKH<5_yPruw`T${lIqPwc1d2SJu%N%Q7-d
zGR0+2$d!TjXT(`2JI?2A#@ifY13B!tYY8WSBU4G3jnxjLVWKAf63s#%ps&m(S*SXT
zz{k;x@UO6rmS-(sq&{8Flf%`0=Xy@KcH`Qae%mbP>AV~iZ5y4d8C#td_)X|oOyJhW
z0^&wQyh5$ebaV&4kPpcYbk5v_zbBK;4bYi9F(PDuhWKtVf_lX%Pf7P)e9o5^kz$R?
z-Yys0rsTgc*4a;o&YIcIMYy$@P4>X=ye1x@&P#$#;t`1>t$BSs6<0EZ*ol8OUh>%_
zm(}9e@e}dh(<ibFy`Dj>A8au>!|{6ehr-V!bH$jSv2Psv(JeMlkHM?d@0P0bvLPs1
z(8_d`7)xrALSs9urIpzOaf{{%EDMNN<a(OBN8=~Hjn-<8wK-p)BhL206!ylI%mVB?
z$05iFXOOcfRz%?$3NIrSat7j8XeEy(CCO#;D0)vfuzY!4>nXirILQzzyoNg)FUpu{
z`^-5huRB@i+FsCJj&UD0+~ybd2Xek~gQlW$VmY3J`k_yO3QAt0r|cGKM8~rKa1Sld
zcq}UE9pxL*n|=^uy<zta63z%(X4;$Nx$p+tn*4gap=(dLj*(zJ&x7H!+820$_zrJI
z{n0$wAhwe681Z7XpH`FaQuwRNMoFX(mKHff&EtXhm&i5LnaM1-9DnC8B2%12fjMlv
zvx|At++%wnJDT;iRMbtpLygchbOdgRFUjBN5gSXckwS9_x<MA3pDTVm6@%q7h39?V
zw8$Bh`Bq2tws+0T!c|?fgPYkv*Gl#~Tkc3hyUl!h2TzgBag5@}2IwQN(-cx)-MT$q
zX>P-*^c!;#RJOE2{o#$m-(&Bd$Y!LyucIZy?#io7I=Lql4iGNacC(LSNpbvCy}ylk
zv^;}nqv2>V91^MIE7Dv9$P-eFmB)8zJ*J^~5u4>x(NjI&RByG&|B)*h2d(!Uf956O
zyN*_YQLK!sFYgO}_X`}!zS7>I!(t8|i)Nt5kS+F*mG~pCt)0@U@EZ6D9nNmTMZJv7
z73*lKxbL~=Hp%gf)fQoYk#`n{99@GW_#<bcxt(`%PDIz#`&*29i!FE;8h|c<E_adI
zxB;(E|D>haGE_ppC!V9#`fT}7R?z}th_|MD4xa9dw={LO@h>Amr&dsvN4d5#CtqgY
z2NzA7whwI=^YFK5H2N1NDOGBNd$TV|TWT23<a2tNZ-L*mLh(X;Mf1fi&u-UYw9RL=
zy>VX5uSEB|k^_d3W*=q@WBnXkV50GwgrSM(ga@Jds1%wl{~%}3T6T?`CKZii@*G)j
z^yCKVAyULd`cj<m{Nx@%Z)Ezc6`Vu!SCew?s|6p-G+X6xX|uY054<uulV}(!9^miM
zIFti}Wg4lBNAq^t0d2WC1n$!^EK2-Iw({}31__Ex&t~^P+#`LL-o~~wubp<zbu)iN
zc!zzZ;pF?B579dF32mkHWq`tS7c@!Dqa^j=NWtkby3X{WuDX*im7i!8#HYeavjz3`
zbDzTxe2EsD<H!6KdY@wT3&xlwoO9VXyqDt=Dr6SDI=&+|<8`PzItb5YbFBjj@BmGw
zh)u`0w1?)uqM`Peh?Q0?LqvHyyBp)RzBJ1XTPW+f?C!vUW#$fNP4<>OweNu0W(92v
zY9_u?dOrjO;gM`dDb8TOkd<VkS%enS8wL{}wYGAgyhwebrMFmQBl5&I)7suyEpIqV
zaOi=1#xwg;qY1y_noM4s=V>2YK~BcAP+znUD$D8QM-<JM(pPj2TaL2GYI8i~>r3Q4
z5hOWckLQ)^B|el<$CluF=}#tgo%j4l!&|Lcp(Z@i{WF=sN@#s>3wZ=@K`l@#NEZjl
zMbwn9r+<^P#sTz5Yrxt`tG-Mk8BNoL?)lV}gr54S?S(VTKT#hXSr}Lo9%Zc;uFMxW
zlI10%gf<T~6)kXkv;sYV9fD&9pP187V-ya(gI)R;A_^_mKb0;SPale*o`vqkWJktH
z>l$Y;e;cXhY!vv-M2^Pc7e=Ig3RGe}^fma37=@=Qz3K~RL=hQ|Z?b>MDtg7Ng#M)q
zS$Qa{50~AgQ_a`!neASP`}kaztG1@OK2*lGAiLMcpk-fCPh+!vBfK;g(z+;@=b^S}
z0jh}7<x<)Z*XIvuRqZkBN`~qd-U0m`@gKO*4_cns;{E96xI~7{nrPSZhR{Lo`hmK}
zw~lOc2hVhDLP>0ez8-tUL%bbLMrF~b(uX;8U_U6nHDf;fOpoSia<X0=-pY^kg?Q*$
z=Wb47GTvBv+jr)~qcP4m0cM_bHee-rC&y!GW~R~~lpaK5rOt?fDcTW^g6t!%L7K9Y
zBsO9YF9n<R8?v^1Ks}<GcbD29i!%;bzqNnN8Au%NS%K-s0(-4+hEdE>57ji8!b^R5
z7q3DSkQXB5KBX_?*+jK}&$1(UlJ+(GO|DUXBSPL({2l6f=NgW=Z-w=`y>YIM(#RM7
z=x{5?<M6OhuB9J@jA2wDDwFU5wcqXnl6iOqn#-c_T727Vh6a&R=3#kCTP@~@X!=O_
zKJ0L%;IY0T5e;o8vj2nT%3u9p+;_}1s~In?Rglw6B6d7P4#Fc*AI0A|QGkAd_WTjq
zgJn1h{vdnITJj66gqm**%@A|EIPw_XlX=-v$3gQC;9s1N0_(!7ZS_nrSJ`Hwe5Pv|
zsE2HTb%np_FhcYo2HL{P;RUFraT&eTR`4FEZ^Sb=3qL8o)%4bIH>O)Nu_ejg+`op5
zarpdC44<uUc&8cbxQs@cJ?Zc0Z-wVUXe2rg5i*(V#aH<oQlFk<UVK+CAqWiA{4y36
z&~ma|y36$=)$@e4dPGc4b$ZD@ATN*ADVD&`vqVQcN)Jb13(QsfJYMO+GAJRl6yLa6
z4p%}I!tHQl%OKHB@%I!Y$yU@Uzwr)p)*z>{Pgy2LB;+)wVDFW?%Wy>Q<bRt>>_hQE
zwu4qj<3w9LL_Oa!U}73AMJn<XvX?G2Pr?Pw$8({Ur5|nynIvDtc>i#{BfYZ++q~Az
z*=H608VBd|rLJtFoEc|-40X)gl;DuKjDJ*mdJR6v7jztsVK4C`JSMzFj@4fANR%0o
zi1x{D<fB;W{otBQdSorP%!}xgH5Z4S`}|vthK^`so_XA!4quxo^aM&3ht)oshyw6f
z+BF}Z#vb4t(uv(hL+Ld0ri|13%SQ5N%Eck?Bv)xNJ?me~L`z|IOH$SON&eGNye%$#
z()`uF3ObvQ=^XT(n4tXb40I2wNk6%ca?J;1rdET!g87<5=?m6xiH5S878F~(QSQlf
zZT4K-C-$Z}y<vyrLZDo@mc<gfX*{=mii)$JXc8(Rr{ErF3|bAJ$<p*URE_;Xex|YJ
z*8ub{g_qy-6SAGGr|@^sGsVSlV%A+poa;c&RN2gVwV*gFw2v^|?3gty%9}T6JJecK
z!kv_#JOIlC!%q}{ZG_>9W-nNXZy4XfPW`56A%`e^0ne{4KaR?}Vt2UK=hxD*Ba?!=
z!?W$CIh4Jy-V^nWH>4aoDw6ST)J^%xwW2z?qwstg&moCyKW?RAejK%kC?@|9YiU>v
z_0DoXBtx=#*aObC{t?<^cbmYi(0%(DF#_5-6F@V2(GKXkNK$^cAL<TcL?n3t$;N-E
zI*Bn}iV!ZvIzx)qMU)qu6p5<dDX!W0eC8?JWqW$gC>-lNn;!^Oa8%;SVxeO-1k8<E
zXQZipxl8%0D{xaeXFn=1ci^pbKP!R(bO7roUD`HLLnV`d814PZT^UDZOtjs%liV}3
zT;xmtHY3tCgnusYxDxR1tge1r`N{KmkDA9r;GzU|k$XH&>lTqF>XN-$A2v{~*4oHQ
z@;`;YHQu`J+vpG9WotP{Ox_jxhkIbKHoNI;$<FfGj(*V2ETr{OBQXt6RQh~b>D761
z0JT^C#YPVq)u1bF%T~xSG?6!uh4ih6_T)O3p(DOZmSdL9nYEzM@kwBWX*ez$ea%z0
zX|k>nLH~qr`CQ~e>yeHo$nNwk{)Ts^<CWhyi2l`%Fc3lNlINtP??r-VxywKkeV<y^
z*`8$Ag{k(7`S-$y?5_>NcH4Hy+hz;Bj`AxuJQ)pBe6z_`Bo4J?hw%cu%;<|6Yp={_
zVy)(tBVmS?EoyppIbXoG^n;cUju*LApoe|3-ycF&EgWwaw>=d}#$8$m74qJAz48ag
zAx#8vF8pIA<G1)}xQ*;jyv9Q=iBpUgcBS`&KLi~h$9oI)k+x1b5<-r+;Bi*h+1y;q
zhTAjcB6F%X96jQIdZ0PzPdF^z<9sM(Rzx3ReaIzelD9?~@hP3mNAWv2SNzX2)>RT|
z>5U_jY`^A~qN#3c!BSSiHI_BtjU5hva0xnA%{LCOMzQD^_{BO>8gF2ya7VJwtc!oq
zkMqTHp+;b?tgiA_x+lT?6rc8GSblSK%ugi~T)yB(vAkHaSS1cS&!Il%JL*9j)O@$2
zjw&z2%f3{iam*xE`c1flY^@iH>o8Og$(f=bekHDZ_PhPKZAN9=L?_Q%Po}u;1h?>d
zt^wxHEWy4>=;3#yJ!&ap@Mz_qw?HX5jCQ~!*+f#Bb~gTyD(&zyC_SP991yd}E3wJb
z%H5PEWR0@5b9B$QYIj|hK%!C6QQQ2L8_sn6p0|le!PmqNyhi!^Sg0g4@<h$|2U4Id
zR!aI8Ib=4MXSAjAzG$TK-~rDNS1Q&st61OJzsY-opF1}POY<YH{%i?*>nKD1V+C|0
z`azt)XHZL(X9B8^_zLf1@%RSm!lL0K{>v;6*R-ZGM~qYcZ??C{?I2OU`4N>J&-1&|
zUtHFLbe8VeVkEQD&gp2Uc~2|A&E!s%FDD~}nD|#E>)EWiO08v#SujJfcox|7Eh5N=
zljp+jEgLz9ev&!fvcmp8?>L#|8dtD|_j3MfY-L_YU99m*`j7abXo5SU*(&e9Q=Dy!
zO!Hfe@ZfM+$e_pAGr2+ACDw=r^o=OzMUhL%mJGjz+1BTdAxX{+ffp?32!_rXqwQ@W
z#cZuF#79JD+z*Xc`+S3_O&&vmd5=!lV$2mVm*$vtV5y!UPV>?vUHss!61kRa&A4P)
zWh<NW1m(Cc7d97-orOjxKGac0Ink=xEYwE%$#@k1|N7FHXy~z-j!m3uxbT<yEB3wo
zOe?GM!W!~cjPu-fO~bQ%$q|Qa^K;X%>C6orFk3se8ui#-+fME;+KX$zWd2fZ%cUp=
zCCaI!G^)&ck}t_gV;U;b9<V9$nzmIomnM0p`jUU#fE#A?wISz_yw-G{`(Usuzu;=a
zT8XF5YEUEmH8}&j`Cq7w+8^h^C;E|ks2FQY-s3(-D%!8t7OU_?%K}+J>{a+1<f-ZY
z48KaJ*8iL}{DVnpXD~2}9ka)Ua~W~Q0Wzy;E72se5l>V1Jp+ZJ82thF=l$tAnqelR
z%{0-RuKWg)uf%C8#9MEJVsZ3n##L)YXHIS`JhG<d&MvyE7Zp?pOKU98ESf<+Ls4QV
zPDBmSdD)&<#|7%G{)+aIU8*G-N{gFKWEs7Jd?>!BHDveno5gapp;^h+Q}%^9y<{(o
z$ebIvM6HGKMNKSS#gotw+zHx>HFz&-iZqB2tMT_R*BA`@;YcV`R3xd!UNKzzQ`8pA
zNwn;izCxY1J!`71z*#51EgZ8H%h_L8F(T^Y-lA_UDZ&<x!!G!VyYPIaFBf31$V3Na
zStDImh038`{2eq1*WrEClTmq^Opu@Z7P*ROQ~yavC9Qh;1^lD?$LxOo@2#D<5&D8e
znl-}H@L`EXUzI;PA&|OgkLSqI;jR#g9)xy^MYxx7n{Owd@RDL7O_G24PT3c0j|%qL
zd*iC!Ww6z~Aa8EoDD4kcx@e*Fn0E{}tl?hnL$y(R^jLNit?+G`Xtq-Rw6`%39i%Qc
zLPl%*<N|1}U6Un!_pKg%aOkmPpmsTX7%AuKqRu-@8neZrWc0Z>ZTe*sv0YqL-0gu%
z!f>$_`tmDA9GWgV7U>EvRmEhOs$WBYqY4^=+>AHY7g{*nKk^0c_O5z3TIs=r{1SMY
z*)SB1ljSV-L>?5KB*IR0UNcxChQbBbGkjR-=jWmC;F>-beM?5^Zy+7*(qiF4)@(~R
z+&Wyl_(z=g+#jgqI$k(BKaou4#X^J0OuU}`Bn%NRXQ-_ICHfL##4Gs^UuKjSH`$G%
zZ^c+`BYhhYvJ~L<WQA&47v^@;QecuX%he3#yjvH%pxycCP@D)Eqr_XwYdC4fz|Ufq
zIIQ;1GL_#JiWRaB4~F)r{>>h~skYsDd6g`Sn1Ew(AMFlY%Rdi4u`7jb@g-wv#+w2s
ze_A+;zeky&pgdxU6@l=#vYmLyFT*96h6HSplhE&?y-|jbV9t<(mxtc$fa+tX;K?|R
zrot}&bGT$qF1$s`GoNp2L7vpuAo@=C8ztbLC00%{-$FOpPdtOm5RX!!zl=pfyfd1J
z^?YI|nl%<z!oTw<V#q77kiLg`{xYg#>0VHXKQVRRx&k}e$=_<rBl5%V_&L3)h&1;q
z&r)Cf3I||;%7d?@AFCFTmql?<&8#X`i~XSj^CdV$6^PW*;EX>k+n7HEA4`Y%Ro1P-
z*Qf&IX=&Oc<FMj)rg<!UQ5s@_U=W06C=vR>pJWRjBs6#}ju`j(C=n6fWqRa8{!(_J
ze?aZPW<0|DGe1q7F>!W$(QpK8uD->ZZHzN7qaEQ3p>t3lTFc$2hC*~txF!#(sjuOy
z<x;tlHAngAgE61&hAsT4*oqV3oIfGr>+pcgdN`gBP1{#cUHcH;gljo!@Y7}{UTE|&
zs*n#5BUJ^U^2`{>6jceuJNZZ?WQLK3cB#Jj79WhuvgIrh9fCFfdvv~WH}?h_VG{5C
zk6r0D!%50m6OB>q7?~4p5bjRaqVjSU%7-}AQT2b%@l_lUKcGSKXJaW|r1j>z<s_OS
zOkNRhfhYco5j?af3#dbqwEqg1SPq3HOOF`EZ<wp$Xy_XwN$rcE*rv`Ki3Y-3QIEXC
ziLxfKpoi=^wd?QMVfa;(!Y>|>8IYa7+$zJrXZ)srjnBO;6+CM%FlU>GY&j%>zZKKM
ziRMK-4t7Z|N`p}-8a$#KX@ajRR}@A^SP!~Kzt1z^qIOGsEq)+VU`c+!MvThot+bK&
z{Tmc$WP1`~p*Y(?vW=A%ON*w3Zh;FX$}=kK4?&$_m};$)@H&-3D&cDUHKF=w@eO)I
z3;8B-iZq5nc^w>>PtDk)177fEu78p3TBu`D3G3(Dd4WWaqNm~g=$f1<AEH}|A3b2J
z>`DJY|M6<tJzBt;;Lo-HiRpO0HiOp|mq@-$%K^vN0@63pue609$_JlEq!tb<e5!SZ
zmgXtmAT-u!r}X)TsHnVYJn90matG;#+VCYLo($j>$!vAg&UiH~#qt;?NpeVbfzt|K
z_|(?|n(DO`ZPL30dKbNq=)ksyYC^a0-H>u=va#rb9>Gl2XLpu^=r;0B6yf@~1D{NB
z#CG`|K1WZo6Wot?%Yw|&_DnJ`cOQ<{O6GlQ{-)P2y2Em<&*THv4mV|w%r&UBtS2+k
zOPG#^LnB#-HXv72Yg~<H@glY5^4UGvg`DM5oF)%t$agTJn--Iw&3$BR@b~a9ctglz
zcGat@Ox^<qv){N%GqRH$iO#`f^cs%BF?tVYh%R)cc3Q4Lh4>pW3XbB5VvZ!FNd7PV
zM?FzL;or`WYsZV;n?KVuR$Y|Vdc#$oAeNaqd>DEy;^b`QUD}{1)hA{sKY5!!$HnP$
z(G7JV*&?9+Ey!=n``8IByjJady+a_G#cCVEgBYMfqnY@NQZ<9wGTDq5UQ|YUr44_8
zo=CY`X`xm!PG$Qy_zr)IrqE%s3Y<mdL`}FuTEkjz0?pAU1&$iyNmeM+EJ4~cotM-a
z(<Nw?JjW`@Cva4>fSc$9^hR}{E*zyEjASluh%YfOjH3>i0w2%{@m5BWo)GlhrbU**
zg7d7oo?u#3&#*}xm3_2Qgu^h^JI|9dWO05`?W1Q9gQ`KUd_e+efY^>};Xm1XXh&Ph
zzOoFyCR@NN{29FREY*Io+6(_<CG?L*Ilfz4EUOBgKENB%3zhTd%G=Ob&WEttM;%pO
zeGFgFpKx($#}uFBbzlolk#C_ro-B7mIZ_)^Ji};l%fG=!?7Ci=-xBM!gYrjto32yc
zYiZStcYy$`kT;+lHlQ`y0SzHa^>wvnHJpGW<z8rnPKr-Z0$wkDAaO}(?@6T%toK!C
z&_$cceip@XhVmoZv^}bCjv|-ja=3;oLU+hj-=e-k^I@Y*QB6!Iu>p6c)!_u5pmjs#
zP(6|iNpJ<%f=!;rI=9{qer}qymGO`@)turx_K~!s5u`Xd2OO%REU_BuD3{g_O;g&?
zo;dJec>~AcbkUNmrrpFH(E-PT18pbO;Do2C?zQ~oKW3cL`<YSZ9#qFD8(x71tA1)8
zTCZGG29%dGfZ~s89;xsWo|C8eFQ`O|lkY?lT1Q`^6kM82m1AKWPM6I+xAk_GMfu5Q
zg5@O3=J{k?cx}jq|Af<WDCwgdWD#7DuVoFC0)x>P$gUd1cW9b?jRkhf_2>@ijy~cE
zY7^~+#rUnP=&5P>)Os>Mny<2MHPiV&`a#yf5cn`|h3~57v>fz6pFtFg#zAP07JwlO
z@gn7ua$q9V<AadEW8{0BqWuOTc@1aFK_3Q26tk}J{~{dr6!RZ;M{g_6npeqUd>M4|
z2sX)8uwOocN?23<_%#><qwyJV%M+^AzRHFoA87?Q@MWzB&O}WJhJl`w5p}Ie{^8=d
zt&w@jm_yo{pNHGy9%Me=MslD(R7U&dA$Xy_tu{jwpbBhOsGZ1j(SAHqZpJ0ZdhrM*
Lk?-Melu7;%!=ayw

literal 0
HcmV?d00001

diff --git a/examples/nntool/kws/kws.c b/examples/nntool/kws/kws.c
index faf147edb..b41eb9242 100644
--- a/examples/nntool/kws/kws.c
+++ b/examples/nntool/kws/kws.c
@@ -30,9 +30,9 @@
 #endif
 #endif
 
-L2_MEM short int in_img_txt[] = { 
+/*L2_MEM short int in_img_txt[] = { 
 #include "./in_feat.txt"
-  };
+  };*/
   
 #define STACK_SIZE      1024
 
@@ -52,20 +52,16 @@ AT_HYPERFLASH_FS_EXT_ADDR_TYPE kws_L3_Flash = 0;
 
 // Softmax always outputs Q15 short int even from 8 bit input
 L2_MEM short int *ResOut;
-//#ifdef KWS_16BIT
+#ifdef KWS_16BIT
   typedef short int KWS_IMAGE_IN_T;
-/*
 #else
   #ifdef KWS_8BIT
   typedef signed char KWS_IMAGE_IN_T;
   #endif
 #endif
-*/
 
-//L2_MEM KWS_IMAGE_IN_T *ImageIn;
-L2_MEM KWS_IMAGE_IN_T ImageIn[] = { 
-#include "./in_feat.txt"
-  };
+
+L2_MEM KWS_IMAGE_IN_T *ImageIn;
   
 char *ImageName = NULL;
 
@@ -89,11 +85,13 @@ static void Runkws()
   //Checki Results
   int rec_digit = 0;
   short int highest = ResOut[0];
+  printf("Results: \n");
   for(int i = 1; i < 12; i++) {
     if(ResOut[i] > highest) {
       highest = ResOut[i];
       rec_digit = i;
     }
+    printf("class %d: %d\n", i, ResOut[i]);
   }
   printf("\n");
 
@@ -119,7 +117,6 @@ void test_kws(void)
     #endif  /* NO_IMAGE && LINK_IMAGE_HEADER */
     #endif  /* __EMUL__ */
 
-#if 0
     unsigned char *ImageInChar = (unsigned char *) pi_l2_malloc(sizeof(KWS_IMAGE_IN_T) * W * H);
     printf("=====>imageinchar %p\n",ImageInChar);
     if (ImageInChar == NULL)
@@ -128,7 +125,6 @@ void test_kws(void)
         pmsis_exit(-1);
     }
 
-    #if !defined(NO_IMAGE)
     printf("Reading image\n");
     //Reading Image from Bridge
     if ((ReadImageFromFile(ImageName, &Wi, &Hi, ImageInChar, W*H*sizeof(short int))==0) || (Wi!=W) || (Hi!=H))
@@ -137,25 +133,21 @@ void test_kws(void)
         pmsis_exit(-2);
     }
     printf("Finished reading image\n");
-    #endif  /* NO_IMAGE */
 
-    //#if defined(PRINT_IMAGE)
+    #if defined(PRINT_IMAGE)
     for (int i=0; i<H; i++)
     {
       printf("%d:\t",i*W);
         for (int j=0; j<W; j++)
         {
-	  printf("%04d, ", ((short int*)ImageInChar)[W*i + j]<<6);
+	        printf("%04d, ", ((short int*)ImageInChar)[W*i + j]<<6);
         }
         printf("\n");
     }
-    //#endif  /* PRINT_IMAGE */
-
+    #endif  /* PRINT_IMAGE */
 
     ImageIn = (KWS_IMAGE_IN_T *) ImageInChar;
-#endif
 
-    while(1) {  
 
     ResOut = (short int *) pi_l2_malloc(12 * sizeof(short int));
     if (ResOut == NULL)
@@ -163,8 +155,7 @@ void test_kws(void)
         printf("Failed to allocate Memory for Result (%d bytes)\n", 10*sizeof(short int));
         pmsis_exit(-3);
     }
- 
-#if 0    
+
     #if defined(KWS_8BIT)
     printf("Preprocess 8 bit\n");
     for (int i=W*H-1; i>=0; i--)
@@ -182,7 +173,6 @@ void test_kws(void)
     #error No bit size selected
     #endif  /* KWS_16BIT */
     #endif  /* KWS_8BIT */
-#endif
     
     #if !defined(__EMUL__)
     /* Configure And open cluster. */
@@ -220,7 +210,7 @@ void test_kws(void)
     
     kwsCNN_Destruct();
     pi_l2_free(ResOut,12*sizeof(short int));
-    }
+    
     #if defined(PERF)
     {
         unsigned int TotalCycles = 0, TotalOper = 0;
@@ -238,12 +228,11 @@ void test_kws(void)
 
 #ifndef __EMUL__    
     // Close the cluster
-    struct pi_device cluster_dev;
     pi_cluster_close(&cluster_dev);
 #endif
     
 #if defined(__EMUL__)
-    dt_close_dump_file();
+
 #else
 #if !defined(NO_IMAGE) && !defined(LINK_IMAGE_HEADER)
     BRIDGE_Disconnect(NULL);
@@ -265,11 +254,6 @@ int main(int argc, char *argv[])
         exit(-1);
     }
     ImageName = argv[1];
-    if (dt_open_dump_file(TENSOR_DUMP_FILE))
-    {
-        printf("Failed to open tensor dump file %s.\n", TENSOR_DUMP_FILE);
-        exit(-2);
-    }
     printf("\n\n\t *** NNTOOL KWS Example ***\n\n");
     test_kws();
 }
@@ -281,7 +265,7 @@ int main()
   //    #define __STRING(__s) __STRING1(__s)
     ImageName = __STRING(LINK_IMAGE_NAME);
     #else
-    ImageName = "../../../images/feature_0_1.pgm";
+    ImageName = "./images/feature_0_1.pgm";
     #endif  /* LINK_IMAGE_NAME */
     printf("\n\n\t *** NNTOOL KWS Example ***\n\n");
     return pmsis_kickoff((void *) test_kws);
diff --git a/examples/nntool/kws/max.log b/examples/nntool/kws/max.log
new file mode 100644
index 000000000..3c62f360b
--- /dev/null
+++ b/examples/nntool/kws/max.log
@@ -0,0 +1,8 @@
+8.5547465e-05 
+0.020743534 
+0.00016057519 
+0.020964758 
+0.00013261518 
+0.02027892 
+60.138706 
+35.190804 
diff --git a/examples/nntool/kws/model/nntool_script16 b/examples/nntool/kws/model/nntool_script16
index 242b7f485..248d0cb89 100644
--- a/examples/nntool/kws/model/nntool_script16
+++ b/examples/nntool/kws/model/nntool_script16
@@ -1,4 +1,5 @@
 adjust
-fusions
-aquant -f 16 images/* -D 1 -O 0 -F int16
+fusions --pow2
+aquant -s POW2 -f 16 images/* -F int16
+set graph_dump_tensor 7
 save_state
diff --git a/examples/nntool/kws/model/nntool_script8 b/examples/nntool/kws/model/nntool_script8
index 11f720155..f701652da 100644
--- a/examples/nntool/kws/model/nntool_script8
+++ b/examples/nntool/kws/model/nntool_script8
@@ -1,5 +1,4 @@
 adjust
-fusions
-aquant -f 16 images/* -D 128 -O0
-qtune 2 dp
+fusions --scale
+aquant -s SQ8 images/* -D 128 -O0
 save_state
diff --git a/examples/nntool/kws/model/nntool_script_emul16 b/examples/nntool/kws/model/nntool_script_emul16
index acdd3ea47..248d0cb89 100644
--- a/examples/nntool/kws/model/nntool_script_emul16
+++ b/examples/nntool/kws/model/nntool_script_emul16
@@ -1,4 +1,5 @@
 adjust
-aquant -f 16 images/* -D 255 -O 0
-set dump_tensors 1
+fusions --pow2
+aquant -s POW2 -f 16 images/* -F int16
+set graph_dump_tensor 7
 save_state
diff --git a/examples/nntool/kws/model_decl.mk b/examples/nntool/kws/model_decl.mk
index 5f0a99fd4..7dddc6b94 100644
--- a/examples/nntool/kws/model_decl.mk
+++ b/examples/nntool/kws/model_decl.mk
@@ -4,15 +4,9 @@
 # This software may be modified and distributed under the terms
 # of the BSD license.  See the LICENSE file for details.
 
-GEN_PATH = $(TILER_GENERATOR_PATH)/CNN
+MODEL_SUFFIX?=
 
-ifndef MODEL_SUFFIX
-  MODEL_SUFFIX=
-endif
-
-ifndef MODEL_PREFIX
-  MODEL_PREFIX=GapFlow
-endif
+MODEL_PREFIX?=
 
 # The training of the model is slightly different depending on
 # the quantization. This is because in 8 bit mode we used signed
@@ -32,10 +26,9 @@ MODEL_PYTHON=python
 # Increase this to improve accuracy
 TRAINING_EPOCHS=10
 MODEL_TRAIN = model/train.py
-#MODEL_TRAIN = /home/joel/ARCHIVE_SDK/gap_sdk_old/tf2gap8/examples/kws/train.py
 MODEL_FREEZE = model/freeze.py
 MODEL_BUILD = BUILD_MODEL$(MODEL_SUFFIX)
-MODEL_TRAIN_BUILD = BUILD_TRAIN$(MODEL_SUFFIX)
+MODEL_TRAIN_BUILD = BUILD_TRAIN$(TRAIN_SUFFIX)
 MODEL_TF = $(MODEL_TRAIN_BUILD)/conv.pbtxt
 MODEL_TFLITE = $(MODEL_BUILD)/$(MODEL_PREFIX).tflite
 
@@ -44,13 +37,20 @@ MODEL_TENSORS = $(MODEL_BUILD)/$(MODEL_PREFIX)_L3_Flash_Const.dat
 
 MODEL_STATE = $(MODEL_BUILD)/$(MODEL_PREFIX).json
 MODEL_SRC = $(MODEL_PREFIX)Model.c
+MODEL_HEADER = $(MODEL_PREFIX)Info.h
 MODEL_GEN = $(MODEL_BUILD)/$(MODEL_PREFIX)Kernels 
 MODEL_GEN_C = $(addsuffix .c, $(MODEL_GEN))
 MODEL_GEN_CLEAN = $(MODEL_GEN_C) $(addsuffix .h, $(MODEL_GEN))
 MODEL_GEN_EXE = $(MODEL_BUILD)/GenTile
 
+ifdef MODEL_QUANTIZED
+  NNTOOL_EXTRA_FLAGS = -q
+endif
+
 MODEL_GENFLAGS_EXTRA =
 
+EXTRA_GENERATOR_SRC =
+
 $(info script $(NNTOOL_SCRIPT))
 ifndef NNTOOL_SCRIPT
   NNTOOL_SCRIPT=model/nntool_script
@@ -60,6 +60,9 @@ RM=rm -f
 
 NNTOOL=nntool
 
+NNTOOL_PATH = $(GAP_SDK_HOME)/tools/nntool
+NNTOOL_KERNEL_PATH = $(NNTOOL_PATH)/autotiler/kernels
+NNTOOL_GENERATOR_PATH = $(NNTOOL_PATH)/autotiler/generators
 # Here we set the memory allocation for the generated kernels
 # REMEMBER THAT THE L1 MEMORY ALLOCATION MUST INCLUDE SPACE
 # FOR ALLOCATED STACKS!
@@ -73,10 +76,48 @@ MODEL_L3_EXEC=hram
 # qpsiflash - Quad SPI Flash
 MODEL_L3_CONST=hflash
 
-MODEL_SRCS += $(MODEL_GEN_C)
-MODEL_SRCS += $(GEN_PATH)/CNN_BiasReLULinear_BasicKernels.c
-MODEL_SRCS += $(GEN_PATH)/CNN_Conv_BasicKernels.c
-MODEL_SRCS += $(GEN_PATH)/CNN_Conv_DP_BasicKernels.c
-MODEL_SRCS += $(GEN_PATH)/CNN_Pooling_BasicKernels.c
-MODEL_SRCS += $(GEN_PATH)/CNN_MatAlgebra.c
-MODEL_SRCS += $(GEN_PATH)/CNN_SoftMax.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_BiasReLULinear_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_DP_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_DW_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Conv_DW_DP_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_Pooling_BasicKernels.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_MatAlgebra.c
+MODEL_LIB_POW2 += $(TILER_CNN_KERNEL_PATH)/CNN_SoftMax.c
+MODEL_LIB_POW2 += $(NNTOOL_KERNEL_PATH)/norm_transpose.c
+MODEL_LIB_INCLUDE_POW2 = -I$(TILER_CNN_KERNEL_PATH) -I$(NNTOOL_KERNEL_PATH)
+MODEL_GEN_POW2 += $(TILER_CNN_GENERATOR_PATH)/CNN_Generator_Util.c
+MODEL_GEN_POW2 += $(TILER_CNN_GENERATOR_PATH)/CNN_Generators.c
+MODEL_GEN_POW2 += $(NNTOOL_GENERATOR_PATH)/nntool_extra_generators.c
+MODEL_GEN_INCLUDE_POW2 = -I$(TILER_CNN_GENERATOR_PATH) -I$(NNTOOL_GENERATOR_PATH)
+
+MODEL_LIB_SQ8 += $(TILER_CNN_KERNEL_PATH_SQ8)/CNN_Activation_SQ8.c
+MODEL_LIB_SQ8 += $(TILER_CNN_KERNEL_PATH_SQ8)/CNN_Bias_Linear_SQ8.c
+MODEL_LIB_SQ8 += $(TILER_CNN_KERNEL_PATH_SQ8)/CNN_Conv_SQ8.c
+MODEL_LIB_SQ8 += $(TILER_CNN_KERNEL_PATH_SQ8)/CNN_Pooling_SQ8.c
+MODEL_LIB_SQ8 += $(TILER_CNN_KERNEL_PATH_SQ8)/CNN_Conv_DW_SQ8.c
+MODEL_LIB_SQ8 += $(TILER_CNN_KERNEL_PATH_SQ8)/CNN_MatAlgebra_SQ8.c
+MODEL_LIB_SQ8 += $(TILER_CNN_KERNEL_PATH_SQ8)/CNN_SoftMax.c
+MODEL_LIB_SQ8 += $(TILER_CNN_KERNEL_PATH_SQ8)/CNN_AT_Misc.c
+MODEL_LIB_SQ8 += $(NNTOOL_KERNEL_PATH)/norm_transpose.c
+MODEL_LIB_INCLUDE_SQ8 = -I$(TILER_CNN_KERNEL_PATH) -I$(TILER_CNN_KERNEL_PATH_SQ8) -I$(NNTOOL_KERNEL_PATH)
+MODEL_GEN_SQ8 += $(TILER_CNN_GENERATOR_PATH)/CNN_Generator_Util.c
+MODEL_GEN_SQ8 += $(TILER_CNN_GENERATOR_PATH_SQ8)/CNN_Generators_SQ8.c
+MODEL_GEN_SQ8 += $(NNTOOL_GENERATOR_PATH)/nntool_extra_generators.c
+MODEL_GEN_INCLUDE_SQ8 = -I$(TILER_CNN_GENERATOR_PATH) -I$(TILER_CNN_GENERATOR_PATH_SQ8) -I$(NNTOOL_GENERATOR_PATH)
+
+
+MODEL_SIZE_CFLAGS = -DAT_INPUT_HEIGHT=$(AT_INPUT_HEIGHT) -DAT_INPUT_WIDTH=$(AT_INPUT_WIDTH) -DAT_INPUT_COLORS=$(AT_INPUT_COLORS)
+
+ifdef MODEL_SQ8
+  CNN_GEN = $(MODEL_GEN_SQ8)
+  CNN_GEN_INCLUDE = $(MODEL_GEN_INCLUDE_SQ8)
+  CNN_LIB = $(MODEL_LIB_SQ8)
+  CNN_LIB_INCLUDE = $(MODEL_LIB_INCLUDE_SQ8)
+else
+  CNN_GEN = $(MODEL_GEN_POW2)
+  CNN_GEN_INCLUDE = $(MODEL_GEN_INCLUDE_POW2)
+  CNN_LIB = $(MODEL_LIB_POW2)
+  CNN_LIB_INCLUDE = $(MODEL_LIB_INCLUDE_POW2)
+endif
+$(info GEN ... $(CNN_GEN))
diff --git a/examples/nntool/kws/model_rules.mk b/examples/nntool/kws/model_rules.mk
index fde767090..e8346980f 100644
--- a/examples/nntool/kws/model_rules.mk
+++ b/examples/nntool/kws/model_rules.mk
@@ -13,6 +13,20 @@ else
   MODEL_TRAIN_FLAGS =
 endif
 
+ifdef MODEL_SQ8
+  CNN_GEN = $(MODEL_GEN_SQ8)
+  CNN_GEN_INCLUDE = $(MODEL_GEN_INCLUDE_SQ8)
+  CNN_LIB = $(MODEL_LIB_SQ8)
+  CNN_LIB_INCLUDE = $(MODEL_LIB_INCLUDE_SQ8)
+else
+  CNN_GEN = $(MODEL_GEN_POW2)
+  CNN_GEN_INCLUDE = $(MODEL_GEN_INCLUDE_POW2)
+  CNN_LIB = $(MODEL_LIB_POW2)
+  CNN_LIB_INCLUDE = $(MODEL_LIB_INCLUDE_POW2)
+endif
+
+USE_DISP=1
+
 ifdef USE_DISP
   SDL_FLAGS= -lSDL2 -lSDL2_ttf
 else
@@ -38,8 +52,8 @@ train: $(MODEL_TF)
 # Converts the TF file to TFLITE format, generate feature files and corresponding CNN outputs
 $(MODEL_TFLITE): $(MODEL_TF) | $(MODEL_BUILD)
 	echo "CONVERTING TENSORFLOW  TO TENSORFLOW LITE FLATBUFFER"
-	$(MODEL_PYTHON)  $(MODEL_FREEZE) --start_checkpoint=$(MODEL_TRAIN_BUILD)/conv.ckpt-18000    --output_file=$(MODEL_TRAIN_BUILD)/kws_frozen.pb
-#	$(MODEL_PYTHON)  $(MODEL_FREEZE) --start_checkpoint=$(MODEL_TRAIN_BUILD)/conv.ckpt-10    --output_file=$(MODEL_TRAIN_BUILD)/kws_frozen.pb
+#	$(MODEL_PYTHON)  $(MODEL_FREEZE) --start_checkpoint=$(MODEL_TRAIN_BUILD)/conv.ckpt-18000    --output_file=$(MODEL_TRAIN_BUILD)/kws_frozen.pb
+	$(MODEL_PYTHON)  $(MODEL_FREEZE) --start_checkpoint=$(MODEL_TRAIN_BUILD)/conv.ckpt-10    --output_file=$(MODEL_TRAIN_BUILD)/kws_frozen.pb
 	tflite_convert --graph_def_file=$(MODEL_TRAIN_BUILD)/kws_frozen.pb --output_file=$(MODEL_BUILD)/kws.tflite --input_format=TENSORFLOW_GRAPHDEF   --output_format=TFLITE --input_arrays=Reshape --output_arrays=add_2
 
 tflite: $(MODEL_TFLITE)
@@ -54,7 +68,7 @@ tflite: $(MODEL_TFLITE)
 
 $(IMAGES):
 	echo "GENERATING INPUT IMAGES"
-	(mkdir -p $(IMAGES);	$(MODEL_PYTHON) ./model/save_samples.py --batch_size 5 --start_checkpoint $(MODEL_TRAIN_BUILD)/conv.ckpt-18000)
+	(mkdir -p $(IMAGES);	$(MODEL_PYTHON) ./model/save_samples.py --batch_size 5 --start_checkpoint $(MODEL_TRAIN_BUILD)/conv.ckpt-10)
 
 $(MODEL_STATE): $(MODEL_TFLITE) $(IMAGES)
 	echo "GENERATING NNTOOL STATE FILE"
@@ -63,16 +77,16 @@ $(MODEL_STATE): $(MODEL_TFLITE) $(IMAGES)
 nntool_state: $(MODEL_STATE)
 
 # Runs NNTOOL with its state file to generate the autotiler model code
-$(MODEL_BUILD)/$(MODEL_SRC): $(MODEL_STATE) $(MODEL_TFLITE)
+$(MODEL_BUILD)/$(MODEL_SRC): $(MODEL_STATE) $(MODEL_TFLITE) | $(MODEL_BUILD)
 	echo "GENERATING AUTOTILER MODEL"
 	$(NNTOOL) -g -M $(MODEL_BUILD) -m $(MODEL_SRC) -T $(TENSORS_DIR) $(MODEL_GENFLAGS_EXTRA) $<
 
 nntool_gen: $(MODEL_BUILD)/$(MODEL_SRC)
 
 # Build the code generator from the model code
-$(MODEL_GEN_EXE): $(MODEL_BUILD)/$(MODEL_SRC)
+$(MODEL_GEN_EXE): $(CNN_GEN) $(MODEL_BUILD)/$(MODEL_SRC) $(EXTRA_GENERATOR_SRC) | $(MODEL_BUILD)
 	echo "COMPILING AUTOTILER MODEL"
-	gcc -g -o $(MODEL_GEN_EXE) -I$(TILER_INC) -I$(GEN_PATH) $(MODEL_BUILD)/$(MODEL_SRC) $(GEN_PATH)/CNN_Generators.c $(TILER_LIB) $(SDL_FLAGS)
+	gcc -g -o $(MODEL_GEN_EXE) -I. -I$(TILER_INC) -I$(TILER_EMU_INC) $(CNN_GEN_INCLUDE) $(CNN_LIB_INCLUDE) $? $(TILER_LIB)
 
 compile_model: $(MODEL_GEN_EXE)
 
@@ -87,7 +101,7 @@ model: $(MODEL_GEN_C)
 clean_model:
 	$(RM) $(MODEL_GEN_EXE)
 	$(RM) -rf $(MODEL_BUILD)
-	$(RM) *.dat
+	$(RM) $(MODEL_BUILD)/*.dat
 
 clean_train:
 	$(RM) -rf $(MODEL_TRAIN_BUILD)
diff --git a/examples/nntool/mnist/Makefile b/examples/nntool/mnist/Makefile
index f969041a0..820c507d9 100644
--- a/examples/nntool/mnist/Makefile
+++ b/examples/nntool/mnist/Makefile
@@ -8,30 +8,21 @@ ifndef GAP_SDK_HOME
   $(error Source sourceme in gap_sdk first)
 endif
 
-io=host
-
 include common.mk
 
-QUANT_BITS ?= 8
+LOAD_QUANTIZATION= #-q #to load a tflite quantized model
+IMAGE=$(CURDIR)/samples/5223_5.pgm
 
-$(info Building GAP8 mode with $(QUANT_BITS) bit quantization)
+io=host
 
-# For debugging don't load an image
-# Run the network with zeros
-# NO_IMAGE=1
-
-# The training of the model is slightly different depending on
-# the quantization. This is because in 8 bit mode we used signed
-# 8 bit so the input to the model needs to be shifted 1 bit
-ifeq ($(QUANT_BITS),8)
-  $(info Configure 8 bit model)
-  APP_CFLAGS += -DQUANT_8BIT
-  NNTOOL_SCRIPT=model/nntool_script8
-  MODEL_SUFFIX = _8BIT
+QUANT_BITS?=8
+BUILD_DIR=BUILD
+ifeq ($(QUANT_BITS), 8)
+	MODEL_SQ8=1
+	NNTOOL_SCRIPT=model/nntool_script
+  	MODEL_SUFFIX = _SQ8BIT
 else
   ifeq ($(QUANT_BITS),16)
-    $(info Configure 16 bit model)
-    APP_CFLAGS += -DQUANT_16BIT
     NNTOOL_SCRIPT=model/nntool_script16
     MODEL_SUFFIX = _16BIT
   else
@@ -39,19 +30,21 @@ else
   endif
 endif
 
+$(info Building GAP8 mode with $(QUANT_BITS) bit quantization)
+
+TRAINED_TFLITE_MODEL=model/$(MODEL_PREFIX).tflite
+
 include ../common/model_decl.mk
-include common_rules.mk
 
 # Here we set the memory allocation for the generated kernels
 # REMEMBER THAT THE L1 MEMORY ALLOCATION MUST INCLUDE SPACE
 # FOR ALLOCATED STACKS!
-CLUSTER_STACK_SIZE=2048
+CLUSTER_STACK_SIZE=4028
 CLUSTER_SLAVE_STACK_SIZE=1024
 TOTAL_STACK_SIZE=$(shell expr $(CLUSTER_STACK_SIZE) \+ $(CLUSTER_SLAVE_STACK_SIZE) \* 7)
 MODEL_L1_MEMORY=$(shell expr 60000 \- $(TOTAL_STACK_SIZE))
-MODEL_L2_MEMORY=370000
+MODEL_L2_MEMORY=250000
 MODEL_L3_MEMORY=8388608
-
 # hram - HyperBus RAM
 # qspiram - Quad SPI RAM
 MODEL_L3_EXEC=hram
@@ -59,37 +52,30 @@ MODEL_L3_EXEC=hram
 # qpsiflash - Quad SPI Flash
 MODEL_L3_CONST=hflash
 
-# use a custom template to switch on the performance checking
-MODEL_GENFLAGS_EXTRA=
-
 pulpChip = GAP
-APP = mnist2
+PULP_APP = mnist
 USE_PMSIS_BSP=1
 
-APP_SRCS += $(MODEL_PREFIX).c $(MODEL_COMMON_SRCS) $(MODEL_SRCS)
+APP = mnist
+APP_SRCS += $(MODEL_PREFIX).c $(MODEL_GEN_C) $(MODEL_COMMON_SRCS) $(CNN_LIB)
 
-APP_CFLAGS += -g -O1 -mno-memcpy -fno-tree-loop-distribute-patterns -DDONT_DUMP
-APP_CFLAGS += -I. -I$(MODEL_COMMON_INC) -I$(TILER_EMU_INC) -I$(TILER_INC) -I$(TILER_CNN_KERNEL_PATH) -I$(MODEL_BUILD)
-APP_CFLAGS += -DPERF $(MODEL_SIZE_CFLAGS) -DSLAVE_STACK_SIZE=$(CLUSTER_SLAVE_STACK_SIZE) -DSTACK_SIZE=$(CLUSTER_STACK_SIZE)
+APP_CFLAGS += -g -O1 -mno-memcpy -fno-tree-loop-distribute-patterns 
+APP_CFLAGS += -I. -I$(MODEL_COMMON_INC) -I$(TILER_EMU_INC) -I$(TILER_INC) $(CNN_LIB_INCLUDE) -I$(MODEL_BUILD)
+APP_CFLAGS += -DPERF -DAT_MODEL_PREFIX=$(MODEL_PREFIX) $(MODEL_SIZE_CFLAGS)
+APP_CFLAGS += -DSTACK_SIZE=$(CLUSTER_STACK_SIZE) -DSLAVE_STACK_SIZE=$(CLUSTER_SLAVE_STACK_SIZE)
+APP_CFLAGS += -DAT_IMAGE=$(IMAGE)
 
 READFS_FILES=$(abspath $(MODEL_TENSORS))
 PLPBRIDGE_FLAGS += -f
 
-ifdef NO_IMAGE
-  APP_CFLAGS += -DNO_IMAGE
-endif
-
 # all depends on the model
 all:: model
 
 clean:: clean_model
 
-clean_all: clean clean_train
-	rm -rf BUILD*
-	rm mnist_emul
-
-.PHONY: clean_all
-
+include train_model.mk
 include ../common/model_rules.mk
+$(info APP_SRCS... $(APP_SRCS))
+$(info APP_CFLAGS... $(APP_CFLAGS))
 include $(RULES_DIR)/pmsis_rules.mk
 
diff --git a/examples/nntool/mnist/README.md b/examples/nntool/mnist/README.md
index 63074dd08..4f42a7374 100644
--- a/examples/nntool/mnist/README.md
+++ b/examples/nntool/mnist/README.md
@@ -6,7 +6,7 @@ It goes from training right through to working code on GAP8 or the same code run
 debugging purposes.
 
 * It first trains the network using keras
-* It the then exports the network to H5 format
+* It then exports the network to H5 format
 * It then converts the H5 file to a TFLITE file using TensorFlow's TFLITE converter
 * It then generates an nntool state file by running an nntool script with commands to adjust the tensor and activation order, fuse certain operations together and automatically quantify the graph
 * It then uses this state file to generate an AutoTiler graph model
@@ -19,34 +19,33 @@ The process can be run to quantize the model in 16 or 8 bits weights and activat
 
 To build and run on GAP8:
 
-make all run
+	make all run
 
 To build and run on GVSOC
 
-make all run platform=gvsoc
+	make all run platform=gvsoc
 
-The image loaded is included in a header file. THis can be modified in the Makefile. There are also make options
-to load the file via the bridge. This mode is not supported for GVSOC.
+The input image is specified in the Makefile and loaded with the functions defined in ${GAP_SDK_HOME}/libs/gap_lib/img_io/ImgIO.c
 
 To clean the generated model and code but not the trained network type
 
-make clean
+	make clean
 
 To clean the trained keras save file type
 
-make clean_train
+	make clean_train
 
 To build and run the network compiled on the pc
 
-make -f emul.mk all
+	make -f emul.mk all
 
 This will produce an executable, mnist_emul, that can be used to evaluate files
 
-e.g. ./mnist_emul images/5558_6.pgm 
+	e.g. ./mnist_emul images/5558_6.pgm 
 
 This mode allows the application to be run with PC tools like valgrind which is very interesting for debugging.
 The cluster only has one core in this mode.
 
-The build defaults to 8 bit quantization. 16 bit quantization can be selected by preceeding the build lines above with MODEL_BITS=16.
+The build defaults to 8 bit quantization. 16 bit quantization can be selected by preceeding the build lines above with QUANT_BITS=16.
 
-e.g. MODEL_BITS=16 make -f emul.mk all
+	e.g. QUANT_BITS=16 make -f emul.mk all
diff --git a/examples/nntool/mnist/emul.mk b/examples/nntool/mnist/emul.mk
index 4c3ba4bc2..4320a6450 100644
--- a/examples/nntool/mnist/emul.mk
+++ b/examples/nntool/mnist/emul.mk
@@ -1,4 +1,4 @@
-# Copyright (C) 2017 GreenWaves Technologies
+# Copyright (C) 2020 GreenWaves Technologies
 # All rights reserved.
 
 # This software may be modified and distributed under the terms
@@ -7,50 +7,48 @@
 include common.mk
 
 QUANT_BITS?=8
-MODEL_SUFFIX=_$(QUANT_BITS)BIT_EMUL
-
-# LINK_IMAGE=samples/5223_5.pgm
-
-$(info Building emulation mode with $(QUANT_BITS) bit quantization)
-
-# The training of the model is slightly different depending on
-# the quantization. This is because in 8 bit mode we used signed
-# 8 bit so the input to the model needs to be shifted 1 bit
-ifeq ($(QUANT_BITS),8)
-  CFLAGS += -DQUANT_8BIT
-  NNTOOL_SCRIPT=model/nntool_script_emul8
+BUILD_DIR=BUILD
+ifeq ($(QUANT_BITS), 8)
+	MODEL_SQ8=1
+	NNTOOL_SCRIPT=model/nntool_script_emul
+  	MODEL_SUFFIX = _SQ8BIT_EMUL
 else
   ifeq ($(QUANT_BITS),16)
-    CFLAGS += -DQUANT_16BIT
     NNTOOL_SCRIPT=model/nntool_script_emul16
+    MODEL_SUFFIX = _16BIT_EMUL
   else
-    $(error Dont know how to build with this bit width)
+    $(error Don\'t know how to build with this bit width)
   endif
 endif
+TRAINED_TFLITE_MODEL=model/$(MODEL_PREFIX).tflite
 
 include ../common/model_decl.mk
-include common_rules.mk
 
 MODEL_GEN_EXTRA_FLAGS= -f $(MODEL_BUILD)
+MODEL_GENFLAGS_EXTRA+=
 CC = gcc
-CFLAGS += -g -O0 -D__EMUL__ $(MODEL_SIZE_CFLAGS) -DPERF
-INCLUDES = -I. -I./helpers -I$(TILER_EMU_INC) -I$(TILER_INC) -I$(TILER_CNN_GENERATOR_PATH) -I$(TILER_CNN_KERNEL_PATH) -I$(MODEL_BUILD) -I$(MODEL_COMMON_INC)
+CFLAGS += -g -m32 -O0 -D__EMUL__ -DAT_MODEL_PREFIX=$(MODEL_PREFIX) $(MODEL_SIZE_CFLAGS) -DPERF
+INCLUDES = -I. -I$(TILER_EMU_INC) -I$(TILER_INC) $(CNN_LIB_INCLUDE) -I$(MODEL_BUILD) -I$(MODEL_COMMON_INC)
 LFLAGS =
 LIBS =
-SRCS = $(MODEL_PREFIX).c $(MODEL_COMMON_SRCS) $(MODEL_SRCS)
-
+SRCS = $(MODEL_PREFIX)_emul.c $(MODEL_GEN_C) $(MODEL_COMMON_SRCS) $(CNN_LIB)
+$(info CNN_LIB++ $(CNN_LIB))
+$(info SRCS++ $(SRCS))
 BUILD_DIR = BUILD_EMUL
 
 OBJS = $(patsubst %.c, $(BUILD_DIR)/%.o, $(SRCS))
 
 MAIN = $(MODEL_PREFIX)_emul
-
 # Here we set the memory allocation for the generated kernels
 # REMEMBER THAT THE L1 MEMORY ALLOCATION MUST INCLUDE SPACE
 # FOR ALLOCATED STACKS!
-MODEL_L1_MEMORY=52000
-MODEL_L2_MEMORY=307200
+CLUSTER_STACK_SIZE=2048
+CLUSTER_SLAVE_STACK_SIZE=1024
+TOTAL_STACK_SIZE=$(shell expr $(CLUSTER_STACK_SIZE) \+ $(CLUSTER_SLAVE_STACK_SIZE) \* 7)
+MODEL_L1_MEMORY=$(shell expr 60000 \- $(TOTAL_STACK_SIZE))
+MODEL_L2_MEMORY=200000
 MODEL_L3_MEMORY=8388608
+
 # hram - HyperBus RAM
 # qspiram - Quad SPI RAM
 MODEL_L3_EXEC=hram
diff --git a/examples/nntool/mnist/mnist.c b/examples/nntool/mnist/mnist.c
index e346954dd..24b0ff41c 100644
--- a/examples/nntool/mnist/mnist.c
+++ b/examples/nntool/mnist/mnist.c
@@ -7,15 +7,17 @@
  *
  */
 
-#ifndef __EMUL__
+
+#define __XSTR(__s) __STR(__s)
+#define __STR(__s) #__s
 /* PMSIS includes. */
 #include "pmsis.h"
-#endif  /* __EMUL__ */
 
 /* Autotiler includes. */
 #include "mnist.h"
 #include "mnistKernels.h"
-#include "ImgIO.h"
+#include "gaplib/ImgIO.h"
+
 
 #define pmsis_exit(n) exit(n)
 
@@ -27,22 +29,13 @@ AT_HYPERFLASH_FS_EXT_ADDR_TYPE mnist_L3_Flash = 0;
 
 // Softmax always outputs Q15 short int even from 8 bit input
 L2_MEM short int *ResOut;
-#ifdef QUANT_16BIT
-  typedef short int image_in_t;
-#else
-  #ifdef QUANT_8BIT
-  typedef signed char image_in_t;
-  #endif
-#endif
-
-#ifdef __EMUL__
-#undef PERF
-#endif
+//Image in is unsigned but the model is trained with -1:1 inputs
+//The preprocessing to scale the image is done in the CNN AT graph
+L2_MEM unsigned char *Img_In;
 
 #define AT_INPUT_SIZE (AT_INPUT_WIDTH*AT_INPUT_HEIGHT*AT_INPUT_COLORS)
-#define AT_INPUT_SIZE_BYTES (AT_INPUT_SIZE*sizeof(image_in_t))
-
-L2_MEM image_in_t *ImageIn;
+#define AT_INPUT_SIZE_BYTES (AT_INPUT_SIZE*sizeof(char))
+//#define PRINT_IMAGE
 
 char *ImageName = NULL;
 
@@ -54,14 +47,14 @@ static void cluster()
   gap_cl_starttimer();
   gap_cl_resethwtimer();
 #endif
-  mnistCNN(ImageIn, ResOut);
+  mnistCNN(Img_In, ResOut);
   printf("Runner completed\n");
 
-#ifndef NO_IMAGE
   //Checki Results
   int rec_digit = 0;
   short int highest = ResOut[0];
-  for(int i = 1; i < 10; i++) {
+  for(int i = 0; i < 10; i++) {
+    printf("class %d: %d \n", i, ResOut[i]);
     if(ResOut[i] > highest) {
       highest = ResOut[i];
       rec_digit = i;
@@ -70,51 +63,35 @@ static void cluster()
   printf("\n");
 
   printf("Recognized: %d\n", rec_digit);
-#else
-  printf("image loading disabled so no sensible result\n");
-#endif
 }
 
 int test_mnist(void)
 {
     printf("Entering main controller\n");
-#ifndef DONT_DUMP
-    if (dt_open_dump_file(TENSOR_DUMP_FILE))
-    {
-        printf("Failed to open tensor dump file %s.\n", TENSOR_DUMP_FILE);
-        exit(-2);
-    }
-#endif
-
-#if !defined(NO_IMAGE)
     printf("Reading image\n");
     //Reading Image from Bridge
-#ifdef QUANT_8BIT
-  #define SHIFT 1
-  #define SHORT 0
-#else
-  #define SHORT 1
-  #define SHIFT 0
-#endif
-    if (!(ImageIn = (image_in_t *) AT_L2_ALLOC(0, AT_INPUT_SIZE_BYTES))) {
-        printf("Failed to allocate %ld bytes for %s\n", AT_INPUT_SIZE_BYTES, ImageName);
-        pmsis_exit(-1);
-    }
+    /*------------------- Allocate Image Buffer ------------------------*/
+    printf("Going to alloc the image buffer!\n");
+    Img_In = (unsigned char *) AT_L2_ALLOC(0, AT_INPUT_SIZE_BYTES);
+    if(Img_In==NULL) {
+      printf("Image buffer alloc Error!\n");
+      pmsis_exit(-1);
+    } 
+
+    char *ImageName = __XSTR(AT_IMAGE);
 
-    if (ReadImageFromFile(ImageName, AT_INPUT_WIDTH, AT_INPUT_HEIGHT, AT_INPUT_COLORS, ImageIn, AT_INPUT_SIZE_BYTES, SHIFT, SHORT))
+    if (ReadImageFromFile(ImageName, AT_INPUT_WIDTH, AT_INPUT_HEIGHT, AT_INPUT_COLORS, Img_In, AT_INPUT_SIZE_BYTES, IMGIO_OUTPUT_CHAR, 0))
     {
         printf("Failed to load image %s\n", ImageName);
         pmsis_exit(-2);
     }
-    printf("Finished reading image\n");
-#endif  /* NO_IMAGE */
 
 #if defined(PRINT_IMAGE)
-    for (int i=0; i<H; i++)
+    for (int i=0; i<AT_INPUT_HEIGHT; i++)
     {
-        for (int j=0; j<W; j++)
+        for (int j=0; j<AT_INPUT_WIDTH; j++)
         {
-            printf("%03d, ", ImageInChar[W*i + j]);
+            printf("%03d, ", Img_In[AT_INPUT_WIDTH*i + j]);
         }
         printf("\n");
     }
@@ -127,7 +104,6 @@ int test_mnist(void)
         pmsis_exit(-3);
     }
 
-    #if !defined(__EMUL__)
     /* Configure And open cluster. */
     struct pi_device cluster_dev;
     struct pi_cluster_conf cl_conf;
@@ -138,7 +114,6 @@ int test_mnist(void)
         printf("Cluster open failed !\n");
         pmsis_exit(-4);
     }
-    #endif  /* __EMUL__ */
 
     printf("Constructor\n");
     // IMPORTANT - MUST BE CALLED AFTER THE CLUSTER IS SWITCHED ON!!!!
@@ -149,7 +124,6 @@ int test_mnist(void)
     }
 
     printf("Call cluster\n");
-    #if !defined(__EMUL__)
     struct pi_cluster_task task = {0};
     task.entry = cluster;
     task.arg = NULL;
@@ -157,9 +131,7 @@ int test_mnist(void)
     task.slave_stack_size = (unsigned int) SLAVE_STACK_SIZE;
 
     pi_cluster_send_task_to_cl(&cluster_dev, &task);
-    #else
-    cluster();
-    #endif
+
     mnistCNN_Destruct();
 
 #ifdef PERF
@@ -176,14 +148,10 @@ int test_mnist(void)
     }
 #endif
 
-#ifndef __EMUL__
     // Close the cluster
     pi_cluster_close(&cluster_dev);
-#endif  /* __EMUL__ */
-#ifndef DONT_DUMP
-    dt_close_dump_file();
-#endif
-    AT_L2_FREE(0, ImageIn, AT_INPUT_SIZE_BYTES);
+
+    AT_L2_FREE(0, Img_In, AT_INPUT_SIZE_BYTES);
     AT_L2_FREE(0, ResOut, 10 * sizeof(short int));
     printf("Ended\n");
 
@@ -191,30 +159,8 @@ int test_mnist(void)
     return 0;
 }
 
-#if defined(__EMUL__) && !defined(LINK_IMAGE_HEADER)
-int main(int argc, char *argv[])
-{
-    if (argc < 2)
-    {
-        printf("Usage: mnist [image_file]\n");
-        exit(-1);
-    }
-    ImageName = argv[1];
-    printf("\n\n\t *** NNTOOL Mnist Example ***\n\n");
-    test_mnist();
-    return 0;
-}
-#else
 int main()
 {
-    #if defined(LINK_IMAGE_NAME)
-    #define __STRING1(__s) #__s
-    #define __STRING(__s) __STRING1(__s)
-    ImageName = __STRING(LINK_IMAGE_NAME);
-    #else
-    ImageName = "../../../samples/5223_5.pgm";
-    #endif  /* LINK_IMAGE_NAME */
     printf("\n\n\t *** NNTOOL Mnist Example ***\n\n");
     return pmsis_kickoff((void *) test_mnist);
 }
-#endif  /* (__EMUL__) && (LINK_IMAGE_HEADER) */
diff --git a/examples/nntool/mnist/mnist.h b/examples/nntool/mnist/mnist.h
index dd7582068..622b153cb 100644
--- a/examples/nntool/mnist/mnist.h
+++ b/examples/nntool/mnist/mnist.h
@@ -15,13 +15,6 @@
 #include <string.h>
 #endif
 
-#ifndef DONT_DUMP
-#ifndef TENSOR_DUMP_FILE
-    #define TENSOR_DUMP_FILE "tensor_dump_file.dat"
-#endif
-#include "helpers.h"
-#endif
-
 extern AT_HYPERFLASH_FS_EXT_ADDR_TYPE mnist_L3_Flash;
 
 #endif
diff --git a/examples/nntool/mnist/mnist_emul.c b/examples/nntool/mnist/mnist_emul.c
new file mode 100644
index 000000000..cf11289e5
--- /dev/null
+++ b/examples/nntool/mnist/mnist_emul.c
@@ -0,0 +1,125 @@
+/*
+ * Copyright (C) 2017 GreenWaves Technologies
+ * All rights reserved.
+ *
+ * This software may be modified and distributed under the terms
+ * of the BSD license.  See the LICENSE file for details.
+ *
+ */
+
+/* Autotiler includes. */
+#include "mnist.h"
+#include "mnistKernels.h"
+#include "gaplib/ImgIO.h"
+
+
+#define pmsis_exit(n) exit(n)
+
+#ifndef STACK_SIZE
+#define STACK_SIZE      1024
+#endif
+
+AT_HYPERFLASH_FS_EXT_ADDR_TYPE mnist_L3_Flash = 0;
+
+// Softmax always outputs Q15 short int even from 8 bit input
+L2_MEM short int *ResOut;
+//Image in is unsigned but the model is trained with -1:1 inputs
+L2_MEM unsigned char *Img_In;
+
+#define AT_INPUT_SIZE (AT_INPUT_WIDTH*AT_INPUT_HEIGHT*AT_INPUT_COLORS)
+#define AT_INPUT_SIZE_BYTES (AT_INPUT_SIZE*sizeof(char))
+//#define PRINT_IMAGE
+
+char *ImageName = NULL;
+
+
+static void cluster()
+{
+  mnistCNN(Img_In, ResOut);
+  printf("Runner completed\n");
+
+  //Checki Results
+  int rec_digit = 0;
+  short int highest = ResOut[0];
+  for(int i = 0; i < 10; i++) {
+    printf("class %d: %d \n", i, ResOut[i]);
+    if(ResOut[i] > highest) {
+      highest = ResOut[i];
+      rec_digit = i;
+    }
+  }
+  printf("\n");
+
+  printf("Recognized: %d\n", rec_digit);
+}
+
+int test_mnist(void)
+{
+    printf("Entering main controller\n");
+    printf("Reading image\n");
+    //Reading Image from Bridge
+    /*------------------- Allocate Image Buffer ------------------------*/
+    printf("Going to alloc the image buffer!\n");
+    Img_In = (unsigned char *) AT_L2_ALLOC(0, AT_INPUT_SIZE_BYTES);
+    if(Img_In==NULL) {
+      printf("Image buffer alloc Error!\n");
+      pmsis_exit(-1);
+    } 
+
+    if (ReadImageFromFile(ImageName, AT_INPUT_WIDTH, AT_INPUT_HEIGHT, AT_INPUT_COLORS, Img_In, AT_INPUT_SIZE_BYTES, IMGIO_OUTPUT_CHAR, 0))
+    {
+        printf("Failed to load image %s\n", ImageName);
+        pmsis_exit(-2);
+    }
+
+	#if defined(PRINT_IMAGE)
+	    for (int i=0; i<AT_INPUT_HEIGHT; i++)
+	    {
+	        for (int j=0; j<AT_INPUT_WIDTH; j++)
+	        {
+	            printf("%03d, ", Img_In[AT_INPUT_WIDTH*i + j]);
+	        }
+	        printf("\n");
+	    }
+	#endif  /* PRINT_IMAGE */
+
+    ResOut = (short int *) AT_L2_ALLOC(0, 10 * sizeof(short int));
+    if (ResOut == NULL)
+    {
+        printf("Failed to allocate Memory for Result (%d bytes)\n", 10*sizeof(short int));
+        pmsis_exit(-3);
+    }
+
+    printf("Constructor\n");
+    // IMPORTANT - MUST BE CALLED AFTER THE CLUSTER IS SWITCHED ON!!!!
+    if (mnistCNN_Construct())
+    {
+        printf("Graph constructor exited with an error\n");
+        pmsis_exit(-5);
+    }
+
+    printf("Call cluster\n");
+    cluster();
+
+    mnistCNN_Destruct();
+
+    AT_L2_FREE(0, Img_In, AT_INPUT_SIZE_BYTES);
+    AT_L2_FREE(0, ResOut, 10 * sizeof(short int));
+    printf("Ended\n");
+
+    pmsis_exit(0);
+    return 0;
+}
+
+int main(int argc, char *argv[])
+{
+    if (argc < 2)
+    {
+        printf("Usage: mnist [image_file]\n");
+        exit(-1);
+    }
+    ImageName = argv[1];
+    printf("\n\n\t *** NNTOOL Mnist Example ***\n\n");
+    test_mnist();
+    return 0;
+}
\ No newline at end of file
diff --git a/examples/nntool/mnist/model/mnist.h5 b/examples/nntool/mnist/model/mnist.h5
new file mode 100644
index 0000000000000000000000000000000000000000..be6688073a939b747064b2a3211c1d6e3e131724
GIT binary patch
literal 288232
zcmeFZ2|ShE_Bd|JkQ9lK3Pn^3na^I25+x<lgh(<(37JZxc}PTv%tNLml_5EMofJ({
znlukerI}_;`XAxG_wC;Id++^yr{Di~-}Cu6``K%+XYIAuUTf{O*WO2rnaM1%!E%Fn
zdOyO#JOVu8KOYCae)NByx(fUR4b%tPSM)#d_LtH9WeH#3122y-Pj8z{KU}<@z5;(A
zK&Jo2Mb@UKJY38H`U7SEYkwgyK<6*;KOg=rBw%Jb!>V_nHvOa3=r7Oo>sf!5XRWu3
ztEc07SC3Wh{(fAbw~xQaT91vczJCSl#U0RB)qxlPpp@v>*I)H|2#*=pR(k0S<r%@%
z@inf#PJWJouD*UA-d<d|EVqMROX~gW>r0sXH1N#BGpM)H2m0AQglBp`J>j49RysMa
zarJWfhje}#Za<w~QT)c2*iSlr@^JR{a`RZ#+vPvv>u4{*etNwoI$*E0xqYK>?<K<h
z@bU=#<a@v#2k^QD``Wwv3Z6c@=KDjtu9fdY)bGdd%I@oDV4nNIe-{6bN?^dQ5B85Q
zp}(|p?b8EZu2u9t{i<g&9)0b>{rG=`r{UR$H$b-^ooB$VSM)7wJi+~XJA|jc-wuax
z%|M37(<zASJG`9My7qb#9v(?9xnbOrm$#3u$WJH_&p^qwv_LHvN6mh)le51^pp!q>
zC;SAhb=u(Q<L&L~;kBw4sUKPEZ;^XJzem<`^K|m}ckQFYZFO<=@^k%5KRkcc(X?K2
z1NLYp+gsz|8IW&Z?YHmQGcD)+9Eo@ztZ!8P{)r3Hnlf!l?_dVpY+s<j!^7po&)e6{
z(|dj2d;QBf&rkos1#MDt_H^>|`zbjkLj|RUuImC^z5G3#Je4LZDE0XxE_{<xuV{M_
z{QiRAsM(A1Q}BM=mSw+^n%OI2lRqFcAphQGe_tmLFQ=8Bz4ZNk16;YFl}`T7?v5T_
zJ^}uYe(p{_y-mx!0z5q@D`@HW{b@RI@m&0aezqxbN9g1~O{<rjn}?@A*S~Y$n5M<8
zay`Bmcd7B?E-t-9rcG9u*88TPzpsaj>rckHSX#XxA14<V?u>J>lmeYRJzRQ;xj6Yd
zIl6iKu66S7g*&@Dd2y-vIdX;O|FhkLJKeo%<Ll)AlfLF;g`b@LHqpKBaW%=+$+!1~
z0IoKy^l<9!xPPqu40?EZ^oqTA4dk}{D$FHLz8+3q&aMlcxhPy7xs?8Da{Rc^-rhB*
zXmA^P*OJ~&-JHA}odSR2x_I=CcV$2?tG!JDULL)J>Lugn>gvJ;^$K^(7H++lIj-dY
zBWCPeeZBpD&%)1F`$yvIx+=hv%WvOE`ev<<?B8wqDJc*CAjiMk+E0@^Snde8deS=$
ze@*gl8hSbTReCf2V&1>!`Y&4j+idk|_1{s+zo%-yz1AyKUsulnrN7s`h0_MBesA(e
z_V9Zr^3$^ZNgjIr)L*pwKT_qtqw)WtcK^MR%={;8`lk{8lg$5StGe1;-TTM3I$&OZ
z+UlRS>gD*asM>#*t^O-K{Eyn|tiC|x4?Nyq!j#_jf6`k2Wp`oH8~pqM1O0)~ztBB*
z(em$IH#K_~x!+IcpX=+-W&7{0pg$$`f6w|l?O&Mj-%qlix0^qAo#ZaD4qLYLg|k2R
z0KJcY6z~4rzjNCM%7Hk!e;dIg+#g79Qu-|e@mGP>?}OtRE>7I6g}>7;8tusq?Yy`_
z*+2}~7lrw{dvkSFV~T+eS6f|Not=VyR(o~V)yL1n^JgHY>8h@w_cM0#^!Dr3Z6#-J
z9J$Kd*Ml3;IXZL0EI)2E?(6Ln)Z6D;S8fpJ{4-|d>c4Y<uak3-Qg7timq&4Rar_OV
zKSuI%TI=KK+MiT$?2iol+j_ekNVjmi?u8DBl_zarqtGwsKZ`#l@TUa+_av}zzNHB-
zcX!{P^5fC(&xZ`;0e;Po4CG-H^7=3a@XY$_?gayo|GhE&Z}j|Mk-zN~{cri(|9oD#
zZ*A&N?EE5>KgyT!jOjy6>&O2`=Q8d}eTW14^Gi2>R{tNDz(D?XAYVV=A6E3|^#_K}
zjeY()FZwg5+uJsM0O4OO`~23RzvP95r}PmR@ID&-bt{cNxLH4aE63matquM4G^ajz
za6g_#=I`-r`s*9|&nE`-y}LiZI?%6zTpxkyznp7CYxlti@DBFZFY5Mp_`g&P<iUUC
zdkD{p{yezY&pdcvB=}n*yf+Un!R2`%4?d6|9w-Oqdum_m#ZcoffZh#-VgIc34*HM$
zlVG2Y^b3rad*0Uj;T7lu41|#b<$zojeq!<P48RA<zipTKNnb)?Y=5k;z%x>qXXLj2
z_XlxD-TMw7AK%Ycd(Q%TKm5Gi<9|Nz1oy9$eYN5JD`+pWMFnR$Pd~qXt^fINUM@Gi
zv<K{KVBRi{?W5hL*jN4|e|>OVAKrle_SOFU{&$hUul`!0f8gT%>-c~i2F!M#K47&!
zje!f)A87a|%RYbIdmE(hQ_`=u1N45?<A0Luza82@yguLux+nj~A{dZ&T7O*kA7lUf
zw7%+&LM!oQ%)ziCup2JQ9A|5ATs6;9iNp?U5*B7!UQ07DXf;RNbvx4`pow$l{lFbj
z@k~W!1~X~@P4=4`9-IXAC7chg7L3(_#Z0}uDYH5;2CsEb<h<|=;oMK$%QTKT0$b-7
zaXLqsaCTJ;VM;CaIkQ7um?Q^vCTIO~@C_Tw+&7!a+*z3l*A9gPZ{`V{xiylMO2#o!
z(=(XNC`HD~&L3Y^-GP%2ual}%3z(X>VVsn!vYabPnYd?+AZL<!Ix{gw9nV#zFl;4f
zre$j^XOtMj+4outdHi`9PHqfG*Ds!^xmYvjO^;z~BH@^aE@I~9q=ARVYihdJis>rd
z!jNNbr0wn_yti^S^YpDHXZh(0CT8(0#!RLLH&1H8ToZLBKi-|Wn$^tt9uo%2_d9`K
zF`X%%wgg|Uh~$J9?Pmgxr!dMwDV*(2(#)vK5}Z?y?&DWFk(r@%79Dr68T**UjF9a<
z4x1H6Br~Kr_LmizxnRL`;CnprS`AYU@FHF*;OyAE59BjHu<qS%1BuBinCC`vjL(-a
zgKpEA>{dr#hI6+QOH)#D!)*t2erLdhm}fJZbz$(KWj7qh!HhW*%NcX8nAz_!j&rQO
z0O4{L)^4<eracCX_x5sT((cpvAgK-S3&b*f((a4|#}7O;&*Po#3Y?u2baDE=A||vn
z1Z$F)GDgqXIPAhf++`=rQDp3~(>8!vFByZ|_JxwMb55hA@JTq>w2X7`$_qN{!UE<Y
z|0i~;{Se0B`Ee}98szVaV5(mTaXi0n#~jhMMB8r<qrvOL?1&i4QB=2J^2s`Idl||+
ziA|xk<Bt=2x!sJ`+F6XkIsqhB-H?`-z`3J15#=l!u=VgISRnENJIlp5yKH0_*5S#F
z@;5Ke&8_^L?xTF1!g0Y^RGWc`)Rvj2=*4LoEXUa^?8t;&k>Ol<dk0Q6e}&d1$&Bkz
zhOwP}8Rv*cagJ>-g*Cp3oX*p`>A8>E9Hk$zoY>->oFk)lbB;C7V?H_uF-;z9jJ(T1
zs~0t#XSTA;nwS(Cr%0HUN3(F{K3m4P@DMZGeKRNJas-pl7G#PfhjNnGIgl&TPTd!}
zGD250ITmg~9LMJO5PnsU^Y)S=qbgKI%FTu0`*GluoS4ROoRfyR*G$P5&qu`a&_&!W
z?#vmZsm$#8xRa>}Ks<OUnmXK&=7bg{Gs_)$IV&Iez}PE}IEv&j=LfwfKVHt^B)4WU
zX4Zv_p<OVeZ6Ip!^n@HIb<YIm^RNnF;zK#-)x|h>61=E7X9A;lycEYM+cIN9Pjlq8
zv{1R)mfn7=&nQ}FFpFj$W8#OYbKDmqxSH+-X^{!cg#|r0cUb{iu6@I-YoeHCXU@dS
zuVLQHEdntuUdDXO8curGZjQ%;Kqmfq1he^?HHXL14Kp(I@nqu!PF|S@$HPaBV_vd=
z8M51t*)>4`Zw(&L?2&Y3)*Ht|{kRNzIZuNff`_2SKOH(Nt`gJrm*MfU4`3cJj&5C;
zP8%jnU>?S3FomxUv1(d_VEmG3X#Fh8=$;$H&?s*x3)v2Z6358yU|uG_U5<TlcPBl0
zIs(*;ZnG{~BTT3@g3zyb!0r4CxUQ;bxX?(6Hpi`_8pF0x)rEK2kvuzSv+HYi&7qOB
zdF&;k^f`)+V*1omWffhLnoeZ44x+EirD3F>0I6WDHY|#`!V;F)$zJUGku7ApjC`3{
z%6f7xiPb%P0h?nyi7N65(!;6@tLX|4^*(*1Ze%8*aviR$bTfXsX{iytW1wsh(DH<p
zaWtEb_uE`|VDf6JvLT#3rfw<g!1P4+Mw|IGJ*bY%I&-nkc)bXkcj(u>Kl7Z-m>o+S
zjdh7^oDIGHVlCx8nNPon7Ls`%B8XmY0PXD1X6f7xr7Kwz$-Sr{WbGIW)^i6Q_C(DW
z2G1K)h{Y%+n(iu04s^tm6+854Mu`HQ5Id56PjV&uwN9Mjs=&46{>dJ;u*g`$*8TwH
zap^Vvc%KpalFp#N`T9bGT?^M6Slw|lIOc9-a4Sc_!03jC;eyx=`eGK%`W>o;2A^XF
z8QcxvH!N&aHTYO?!(ic#Df(-})C@K}c%Z*hdy;{yRGWckx~aj$PI<%R5po8T>%|Rv
z?tRezuC>x2`*OK~@O@pw2lc9k@j53AW@VS_vv(fQV}_{ckDD`0U&xnNKj9<l;k~8$
z2Zi|b)9n28<zpx7%~(E5PgyWack#9{dK0D?=t*V?PWutns`t8yM{oZ&as5p_s`{!Q
zF6o`Bova_XUtHfEH1wDF3+juV+O9ux=S01*%xt}n`PO<?FQT*@$Cl_VIeuI3&g+YM
zpZD?WZ*Lf*e=J8<ugN`IZ&`4OUgvl*{d+Sr^)?x2>fNZV)tx-mRPUa?h+b=Dh92kg
zb3G}(X1$9UB6^34#_G#CN9f;bFVQR1ZP)7>Ia2?EH>3ZdVXa=`As&6cRUZ026Q1jF
zq_XthcNgeA%5l+G{B&H;&10tChp~6{(pIJGefE2$x0MR(o0>h*laczYKX2kz{o;rj
z`q{QV`i0v>^k>)Q>L-Zi>qlF*=`YO_)cKqzq$9kkN{27<i?%?Pm`-S^tqv2Qpfly!
zY@HpFlXcWYjCFW<e%)X8MN|X(S%v;kXrSch?!0<c;a}e`ZcytZ72H?!fB)@%al`N0
z|EDW|ln*@9zf%wHXQ*#~$@7QzIsd2m{<FXTyCm@I{&Had;qzA+pI(j!_I+0WMeGmc
zLw?Qs{gzMfy$>zJ^J^YULcyqiPdc4PTa-upM}NX-zz_T_dw-O#`uq1(h5Pe-!Tp5(
zw4c9~=%0|^B=AS}bMWV_-rw;4yX?oO|K@T+e}Dhm_G6~kH|Dhdq5s4DCaVu|!0-Gf
zu|J>w9VGCp{S4&Ex_&ul=|7GbxO)GW^=SJ4p^ygFpI^^){)^60w0=ED(V9AtksV<8
zkJhDM<6N_!FZ|Itib6lR>HX!v`N=@}x9$I@aq)DfzYB!{U)Edy+qk%o-+tWxbn!>$
zC^80pr1ks#$3OBj-J}oyPe1dYo|6Ax68P26DD;oQreA*s2KC>4j?$&y*VBLv{i??U
zeEeDdUIM?KqfB2uAi>|`4b%qgysbYT8G!%0m*bR<qLb7-_-?B~x_Eubo85@2fvM;&
zFAaL5>(P-j9@g&4hoE$GT&gAn6)n0j)O9|w(Af!-n(a}~-j-cBuZcY>+6+&AtEQW0
zbrAQR&xp8nAZF_BB3kEDXxkVTy}&~-J1PbuL`Gr$s~jrWxCHqs<si&C2JU!mhflgU
zNxiWh@%@qsQG5kBe7FV%<t(6i)Az7eggwRL2pNn_EMleac}fLey(gFFEy8$-5*&U@
z31=5f2XPY~s6X@o^TdK7DJqk?UYH7U0=87wwF2|qUD=umH8{0Mf{uElf}L|j=_SEj
zY`min3)6St5E($ByBZknpi2ii$l&fWN}pX{4=3kth9F-B3^=NZ1_~iGsi%XTk@S(B
zvvDd6S1rSoFOiVnaU2EGiecJ9OSF6t3s$@hXg5a)uZUX1BZcWWj|m1X_dD=3Tb_Fy
zrNKI0u$VZviLfjb-jY%&6POn5jMPPinAJK$^LY)JRB#K6-tHv#JLW>>_d;;Fo(qzr
zGN4*!28i8Pg}GnKQFT=`gk_tMI`zZ&!dn8)wLCFgn%@rPU!ve_K`}l(b^|v*j{}|3
zLWnqXntaVP!RJpm5V`f|*y`Uz8S|$~xZvU@+SKU^F}LM$@aqUTvR)Eot}Q_xI|WSg
zEGAcrQ}GMz0-X~aa@jSKUcEL7zf7n_soO>v+GEFhqf&_tO0!@o^BVPje87@0ebyp5
z2Vy#^gH>&k4@sOD(lBlkJKVXI1lL$%^R<jRlY}XhXBD9-9qy#T06_ST7JKgZT)a_T
z05jdnprTtIc1}Hyi&|#DFuh5frS(N98So0)p@{PTI0VnY2WB-NC)4uF>5t2rc&#L!
zt+>$;lBG^yPrDE^cJ?kJx#=caU-UxzA4_0oBro~u$cKvBu5?GUCnT;D0@1g6V9k?4
zJ%rP+!bpc)<>I~TW|Jtt8{~u3Mw}!Tf;VrSf|j-6cxQqEE;NY7mI)WBh?fDNOauJb
zU;wsH+|fY&6<T64Ca+tDcFEW2sJX`Q;;IJfnuy?in??}dy%>&;Cy+g%6}De3gE4;N
z;p*G_^pUs~Ub65(pQ<3zy1bF(vJG+QR}0)|eS~Bmi-dr?lkn#I(|BK&kM7GG2RVzX
zV6=xWx^It09-Vw#@&o9{219)O#T`aozfPoP-KAjCg|^Qv;EHrHJcSzib$Jd>&6lDE
zqD8>>MU?Wo-yrExg?Q~P1M6RelCo)PDEQ_Uy|YV>CcZjNwx<lEZ=V;U+S3;5{rD5R
z<(M%`Y2;y=JMj=pwMGPQ6&8ci>Y-pgbqEArHK5fqR*|F)NpRLO8>g+PgX1a$U!9vz
zx1C*zI_Hv+nO{isEb1V+ogZb#kA==5r_e{Ko@IY%ADLU^1@BrG!KExY7}ZdWpSL(b
z_?3xtm30V-tr?5F>bl5zG6inbTEn{8YD6e$CeFy;ho;ftP_ShgZdM#Zc|yvdT$&AL
z+Dq`&^M};%M;`VJnud$@MnYBYG>lY!#*(;}kH-X4amm6UT;D2#%6B=WYjrq`nJ@`%
zPfUXB*;O>k=>+>h^$1Mp4yNwX$ety2fm%yu(2@H9gGbrn`lU0#c1IgIxi}b1+^53!
zjw|@)Mi$tFT0#5bO48=K0r#`jq5g#gHC<3f+Rf{!h$^KK@dog0JTF!x1G#ch2By@7
z;Ny|@c+f{0!^=w0!(%b#UjD%<mpF)?Rwt;X?Jfwmu%St-_~Fr|BarT9&$2q1gLXR%
z(IILoM$PR(gB(lv?vsq;u7!Z>)vq*%xk^QhZSXL4M;YH{wnNW){4T;^W}z|gXqtol
zwhMH0x(_DZNTPmog8&w%qfB*MU4fwsif%8UJFQQU!&z%!=(rDX;maXXG(#JPopmC2
z>O%|#l=g$2R1DFreN6K0r^0yF7Q@N2^XSZSW7?d+gJp(kD0J~GT+JMgyFAoE{q#}T
zI;xgFn<9(yac#IPX9P2Qtq!)l2}7Uu3fxjJ0G_w=(Ja9l8~M{vF7^d%yQBn9zQ*CZ
zMWbMw{bY`Hm_N=OIu0W{$8f5<V(3Nl5Xc`h&9I}s43d&Vp!1v*EVp{hx{{EAEW6<-
z%6FK3L$;9!-n<CfryH<1ry18*1mWo}W582daKAd36i&E{xPpx<%dWFF1`Z{&;29O5
zqR>%|RO9GQ`sAuUw7TUJb6FlJ3O;~31^T$(DV_D&emewp+o9V1DP-{)PgLoN!}f{8
z@$mu|P_D5-`A<g;D?cSsz7bU{i!uXff1{1Z?>)nnx{>&3{!+ZqbPj6BL_o#YR6<#X
zIm?^^Yk_W3{&gX|5>mo~uxBjEO?>Fotb<SZPvg9Hb+p|57><``<BJMi{9$;WRDE7V
z3RkU#f-43fS9=`hJT!$<3j$#3?5W`R`2g$r%{K<!5quo6=_PFbnCHYiJqOb28|khH
zVaQ!G;fRg&HdwCHKwR?&L+-6Jl+z*$W4BDekwrV9&DWgHy~|7U7p{ea594urTOcOg
z;bZoioyBiG%IGl3m87;sVsKd{-Ks9ZiHa$MOkQP7y|kUCdQ@Nnr=FBMp2uryiD*3Q
z1nPP&Krb6BXcJ9@a0f?&`Rp!Io$?M2C?uk|%uRN5`c8=5t%A*h1lNpeX4{zyGDmW!
zK$zSM81LCZ<-Si~U-B4>YqU>6!(#&=0&k#*Cm&U(=%N0y+eGzFHVM7R0!(Z}*NzJ)
zV)K@mmRLdXnS&_DP6e~pFJ#m=9_C<fBTT-@;LG}p=&g1UHf9*oK<;{MsJaf-&r|$3
zw+j>eqVR|IZ3>Aeu<7G&(3P8ncbj%%?X+sJG~(sx3eSW=S56SE9#M9SbRyk%nPd1t
zKY`Xn$zi)^G|j%Ylyr;;XI0ya!3)_LpjM~^ts>ndH^>m$r)<N|OYdWY-A%Y~p$0Q6
z_hMYoN$iNGEX9(wI8L^du6Vx%5}vH1#hQtzs(uQO>=7e{XUj2#J%b!FQzaVN4cHN~
zk!_unMEv~fSq~0`!EkvavM25#4A#qq>(ycq;yN1~@=w!>`<5)<_9x)gr49S0wa}{;
zL5BJ(4e6qbF=S+|5WZQHgVd&h<rBOa71LjWQ@jnN%)Sf$K6UiO4FN1@xdqF<nPH&!
zBbeSU1g>lD)3}DcD0BH5?oeo<dVI@K*GCW7H8b&H(*in68QI6Cx6n%`6u?f-9(<+0
zl5e|?kO(IU{1R~o->y$USzT$?^`I#70xU2`WHDa2_7Kj@kAnQY9qi9qtI_|&0uUd5
z2m{CQ!iG_<?223b#PU`u+J&UEUT7`A9WO-j<33rmD0>A9O*g~rM}eri?l8@2=z_!~
zS<sqlj3b`y#VKppU{!jJT%EhkkiHAWH=pzAjYaC9r7Vr6qsQPgo6XQOVl+{`R85Zr
zuZ6bK2{1xw7Oj_(gy)+}=&(04pf<b~rWQM}^4%^%{^Lm4w^a)#J=G<43k8XbvlJdU
z_K50Bk0CV=E65|gg>d}gG19cb8ig{#h{YLE2r}Ho7JhXJogdV*o+WLC$@X!iF)J8u
zm?61*SOJ=Tq{GdYoiOr6GRk{y#nl4mi7Rg=)-Tu%hnrRs>(|MUxZVi2otcfss0SS@
zlJUaTi>ymCD#1n02}cZ9fZ>8d^i!uRZvC+VJhq0A6C|5#bo)ejSIoo^Zrohno=F8G
z(=h9t5@_*zfwq%4E-RM7``dcRgunnuoWKhn0x76A$QPG4xuG9sftgzod+n@!?Bon1
zl(%<4^~@xE>Ba}|C)Kif5BXu9R|c>)7T`Y5MeM;Rju80|+hE~BZ5Z$2K&H=K#OjvY
zfiG?jB`|dlZW0&70~%}?CFp`h&h|joyBYZ18biESy|2?&_QR`z6F^6+6wjAm0H=;s
zbun|d!@00@c&CwxT7%rkB+nF_QFER0DG^#YcNa`L=L(nBN@6R|ExLR}200NI2<1|d
zIIj62sT-e$2Jt1hq2vlY5*iOC;x0sggC8uqRZXfM?5E>SpT?T7?O^Tpi501~1i$t?
zB*L4%QK?b$VPZxQ8UJlIu9-L&^)1%nXwz~!c~CRifAlF{R#}8T`U!;W*h+*S4dpCR
zO$O)NWoSBC82lf0Q(^n_aO)u-r(oAOdI;wNdu=)$Y&i(MmEE|p2_MHs-3RBCSyRQ!
z33Pv%5~^Oj&dL%z1;fURW2xs=I<I>J*)Y9;rSpAEomrf2oq$XO?U`YXBA*0MJusH0
z7v3PZ<QO6swU8dpOd$1_bs%liDLhnn3`^&<6Z-~V2-dhmyFdHmMa9o#-i3K|$en{^
z&5UuJsy&0q-4lXvt@|Oo3mpt6!|Mp#Y~tRlsRdb+Lr~`sNG5Kxz}g#vpdvMy+RU><
z!@;U#u#Xs7Jj{o^`=dK{mxRLx{WxeX{6HR`Ux1d4KZu#fY;Z63$6GC#AT%bPK;?Oy
zH*`EOc#i#i>T@!FtvGV7egMzhQiCbuBVntzB<DhoDqhcfk4wh*qeDa^z71-H{5nl$
zpL`TC4?lz(k4M9fPwo((twHm+_qj?t!%2%tD~|nS3HD4TU7x>*mZjU`OXFtBD?Wyq
z#v1}R?;68xrPB~Lej<_rBg*glhRp9)gG-STOul&xw5lD29aCgs(oz|?P^1pB3-{uN
zr;G7qc>z2fI~COU1(*psd+2h$-FQ)ufgv|u!R2eW(Zp*d+SctPRvUG3-tcvJb6P1r
zR=1<84U=G)Q6yfOr;ir*Z<19<W8sa*6gtHx9WIQOK;9)sVL?MYK6VR)?^A>D{(fzu
zxj>Q__pBkKm#?Dy?W@T8*TKMkxdRq269uD{W~3=#3Ixp?3OXSy*lKu~&eOLAQOaPW
z`etZ85lWtJ7s7+S5x6eo4C~#7LC_Pyi{Wh<cqw@;HJ?*NPqz5bQJ(|I^M{^rUN#8#
z3S6cYWj;8#>?W<Z6|WUqSb(d(Cu8xsL9kNuDrs9Yi)2rl2PeOVV5KU>)s=%l^oA+8
zWk-R^y~8;8@IqL#dKuo89!&!u$`I*s<;3YzE8yJ<Qgy@ukB%IVK_bh*^ZRC&zEuO;
z>Uaizale9}R^CPJj=3~M@g!?vm?}PKRY2d5X?5R=Oj$EpV&J@P0PcBm4PRyP!MaE}
z+_BLchs|A!FRzPYtMObcwjawnTbIk;_h=IA%AO3q8y~Ru>wabx=?n$o*tvM~!g_EC
zPC@nEUumMwTXtL01QO-+0*W_QLeOasJn3Z*4wtvl3*SfM{I_b5S}%+uyL8C&6NqQ^
zzCiaBbDCXlLWL^4alK*|9@1Nbnfqpgm2+9$n{U#D87sxzmz&TZ>-WM5Z#9@K;0hm=
zCxKC*Fk`($3nuXfQ;~#IWVP2>ax}RGBpmf2s!AA)9-KkVJBR5t`6rY!VFc>z{y-OA
zTn<~Fw4#@J2~6Cd1|K|6&~C#c#47U~UEMi|iHLWD7w@`=W03~YHFSWiHEH-{qYL<(
z6`}gH!F28GgE%!f93J{UrbhcK@%yv)G;Cok`s4=@tH^AKoxYL0auH)BwQs|rb2ZR#
zWgLpV*hvZxmyxrNlVFjhEW<i97BVk<r>6siIqB;-WXNzwV4PF&{>c!K8oq-#K6{D$
zRuOn_a2SmKyqi86KOQ<}AAxmwrSMdA87c+b2mATi>}mEU@H%P_4qw}V)3R!@=X)?c
za7mG6vhfAU?CFHeSFiD_?L0iHp@p&Mp2ElMTkLZ~Z18jhgV*kKk$B;+EZ4-TFj6^-
zI9GCL&~qKqR?<|PCo2fNQnkcmlMCp*<KeUl%tf6$(s+F80hW2lSxRDGB1<fdJ%8F>
z-1W!+Rvjy&oR1|)Lw2$1rpCa7x+mnu;TUSClndvN>tkAo8P2+8Osw~_SmCG6gT*o}
zR+TM>ju1JA8xC*ByxD_M&cud}v^hhKKOChUEeEMYR|Hs^>!X<Dd3byCG5c#mG0X=o
z%=5DVDf3L$CovAR+CPBHl}Ti~1UE)3v#d+_B9Cva$DxBYn+h*8VI|h*qVcE_T%jxk
ztxFG4rQrc&%o}b@wK<2hC!Vg;E|-MNq{p~xOF`Y}_Z)WenAtSDbQzvvQXr;hG?N!v
z4kra~qs`YyYTBL#8mDB?;B^O{o7h9zl7FCh&kmTuX93fcIF#KUj_x5RNR-b<sLD}g
z4s{=<s~hLyY2}mP5zt9>OLwAU;3RmNWWbn(#<Q;mr~==^&*V%=JZt!1A;e`A?CdW>
z%dp|NFx&>D&sV~Fbxmx0u!}@w2r=u$cEh-tfzYjXftD#%0$=`U;<O+HCbxHhQ-lR}
z4BkmRF1OPa$-HR0ZU@w!9}1h22UDr0EZV$xHF2-X#;iQTKA!ghEv4R4yKUb1eTN~<
z?zl??^zX3_9CyU3t7f>E-AGn!6yi*u9}ni%X)tT^1w1%H9F3ahA*Y*%`CO4n+Fb`T
zBSp1vi`x<U@?$vc2|PfGyQ}g3!#0>(5Q_c=7f{^97>1Z-k=US5bjt7+B0oz8L#A$m
zB^wjKdz&+MzUhR(*kN=oHHQ$FNHS;s5|rg1#!)>s4i>5kF~ZNpu+w2NeuP?TE$WKw
zh7c?<TZmh9N~rX_y<{`z6wMOg?#oA&z_usNq(v%~O79Tn7`ch#x49BX<}|`Eg~7Oa
z|0hg{OU6@fF`$!e!JZ*%jPrTdg6xHR^rF#aj2zMg^ELVL{-acS)<Fdp9D2&ytjr>1
z)!|qg>jPUI=d<q|8I1B>2TAgb>nu^-LNtCHjSky`@%yqNa6F|6hIx8{@wUV0^W_e-
z&E@Xh);|OnrDm3M>SOSHa*CXOI|kj3-lst$55UWtNicZWJ;S4Z=gFYWd$F)-Erd?n
zMZTIHfZ<o0>I$9H@Y2);5F9oGpN=_zg0j-gSD93<l-gKNv^j8<yT{GZUI<Sn<>EI}
zQIvGgpk;5f@#f*P>;|*RIEdMctL+aP*16}SYh47aOq78kgAPNJiW<(XjfY{8v82wU
z8XsQ`X1OhRM7-V$a+aU0tXouHOlMgpqsDYsj3GKuzx5liF8RUO#z;_J?S@zCj9`{a
z8O;#Ahl5=WaNaT<7Q1O1raXMdZqC>Td;*TB+~`IjAc!u=iH0V_Lue`dhWK#TZg;Iv
z6m2o32jA?VSr>$uDbP-*dS$^|S$$X}qz(~F27`gYAX1V4jx=sx4yS~A$j#zPXzVJ0
zb4S%-Ld$lR!R?!*N%1kJnCqZhv^JBV8Oz=scOBAE9-55y(Yg);EL3*Ib+4v_kH|Ih
z(6|*ob{xWPYcaIee9Rh?v;e-`E+KOkSJ1tSjX`Tm5_GzDkQc|tl6{TJ(Dbnd-2(Q(
zlRG;}!?i6~7Pt<-yQ-7+@W*H;7m3fSIhePm3)G#%>4*wNWV2lG<AxTRA8P{+Lt~M|
zsi8mn7Fn`(JGiLyfab$uwk_*A1S-8`-6@!bUKO)I+d>(_^W|A*&PapY+YEB}<pUy+
zvK%cvYiUCI4MRa)XLi%d0IZIQCfk&c)2j8M2#ST|(NtMv+4qoi#sx0w42A{r9N0I(
zhqzU)!V1n-2sxtww$I$anyQk#qDy$tg`qMMvshK<(%3_Z0qTrXf!Fy3uz74ZIaRU^
zpZW+hQ{KO&rya}5YTXRB(iUSn=EfH?{LEoP3%?$cSXYTH8p^nDL^qkJDvc(Yl%BR9
z#5q+r3o5Njv8OZv)|Z9Bz4ya#$o>K{dHE!0ZQX^{GGX|9e<tyKSOPQ7q(F`Samq8V
zmJHE3N4M;i;S_W4(_2)8gJKOg_iB)e`6s?%<;cf)akULbS(SsQTMIe4JcG6|O*lj3
zDrx<&3*s9-0~5FoF5Di1999lk?-zp~@)lqjvkQX!3dz3en=H0`Fq}7Z$Jz~z`0@L7
z(z+@HXxvsf9#PC1QZj-pc@vI8yrnR7NF?a(l*g+FlR$Cv9&*Qi8HQMlgYP_I7?;__
zK0DC_Y6p2BZzn%%eZYFMdH*yB_!bXGi@Vv?J5G`}`IpEh*BI*fJRVyMeDN_zlNGra
zQB5|4n#8>|*tf43tJs!UyDFP?{PHZAe6^eyGVNpwYZp;bw<nyYm8f&w9Ut?>0g2>i
zx1Nk4%^E;e)F09lw;c!``(*g0Nr0%!m%ud5;mCHEC(GZsLjK}7^gD0?(<cuh54iDr
z{Tl9m{W~wl#kGO|@m(<ERVX?7kl&C`%7yS38G*571-NfrO3tqAq5BSgC-5T%<t#43
ztmpz5eKd<6dUS@A=V`&{Z<=uXK@nz1o@VRjeWHz(Sr9l>52l<rkFE=i!PFy)23(ZG
z7fMUv%E;TShBukSm7b(bL?oMM`WzCXaSV4~$fob?N^$t7rFdnA7-Q|<Ob<C5qw$bU
zaMJq;h@N&QTk>Aes}B#8!Cf(AZjCwB-OEdb%FdI|lDXJ(NQ6n#E`m+U;#50$232`J
z5na+pfXwo5v|-yp;-6uK?Aub{rdb0K&Kp2|*lesj!Ov*%E&*4M&2TGaG_jUfL3WHL
zd+XOdP`lR}lgVi8Vn?BLo(YyNQ^!Z;yIIOAIq<RlQJwiyeP~)5juL4Ic6_=-b;2wZ
zcOMD~<c?wMM=$JB6UD<%OmOa0Q(S$(8iLZSFs`tcrMg79Hd{FiRNpz1Kvov{;yVa!
zg0e{Z6%GwwxCwrgUnUYeLf~$#3h3rZ<M?CdAS?6(Ph8o6yOQp+7F0+<<d;0SbZjRX
zc90itCX^8QiZC?49Y8z|wW4T-AC1_b2Z1wIg7EA#8ZI71Vlk2$fj_v#CPDBJdxEo8
zqQKP%xVKOfy^J+5c-=gVo;nS5mmZ*ns+U;z1SivjBlpw1N6%T}T0CfAng+4tARc>r
z6Er^7;hFCf@j%BgPBrL*S=J7e;~PrHo}Yk&uk1qhR2wXnP{FDs3f)y1)amIZNU1zb
z<i{MrMx||_-y8y;L!_boqzHTo)Pu#The*@8kr<zM20rE9fG8_f^y@i9)0AJLSMqbV
zN#GF}U$c`AKN$>jjvpk;kIrNH*KdP!*W~J2{BN+LqIc5E>?0V`pvZ)EpM_h?)$l-R
zdfof6nIN;S3v5Su(2d4B&|0~GCEw7+ZXXg38+Bso6LU(s&1{GZ?-R;;ri^p=T;Xl3
z3VAAMO~r%*!T3reI(?JG0x2y>f0hHIM~C6}^fvlVQVOdpvuVg0IjX|_QHI^h!n#p~
z&#{{m3Ox^lQHmLft28vZ@sKr3dqO#$lbp?(KYs&M?joqvJQm*H_eAlL!cfzFjTKH`
z8y4AcX^R^JU3-^G^=PyC`Ku|(9M25p+FI*!VH8?<2!7mA1pe%cAT@aqe4Ac~-^8Lw
z?rDD5WImX_(%1!Weq^Bdv0R`>=D^u0VjQ!sP@EOF5<I?7q*co`;NF2}R4`Es=1rWA
z*=7lFVUaY5XSGso?mo!;kpap-SqYZy$V!~Ef~f9Fr4HkBNqbQ~yhymmzS(REwMij3
zxg;5nyc1%ywMMdDKoxNb<<vEpgu;r1WEg`%RJs{)X@UeAd>MsrZMbJN6W7v~jF*t*
zHJEvO{XQ9MGX{rNl#nOZMKGAZ5)SG<r83<QNN)B?l2Ef8i&kYrv{aMfGA{|(`T8<F
zxweZNKP~}ZS$oJ3Uri;=RcYtqTr|&>h9#O)DS6Tc_Pdj~=an|3VS}yVr)Q$fINe)d
zx-J|Sy!%4^UaP=c4O0?lE(tRtit+v0L3r)M0Z7<m!B~igq2SmSe6KwSjy~DP-W@Cp
zdZ%jWlJxIXw)HXVS@dz%yPNOGYhi8<{f;tob$tij@Ms^^-WCQg<u5@?Py)Rx9R>7y
z1RT>(r2C_}IlXu}oSBk{N3V4tpG_9Ec$<LAn}bn=hnoW&eIGgvR-uD)IEwG##tx$z
zKuzyh-OES0q_UF`8$TiZlqrn+I~|WME-R#OJ{@93aL>n067#{`I0k~*AL(ZKE*gJN
z22Z_-#G?2DSoxKYd0xZ8*XtLsP4}0A&J{k87@tWL%s<f<5pFKQHvv8DyI7`73`#FF
zgEu{U=tRkS_-c?24ik_nw$G;DBRe4XX*8`iY(muvZa$hVf=%2Q?JjqHWO{PBd%lPC
z==*&T@#r)zKlBWj*-3-8)?&KdZ!4vnpRv78rNfsm6YyM)Jc!!Zqs81VDv>Wwk8g<t
z`;#$rp3Dl2)D?lE`Q<cw-8jlo*^By>A;e)>1l>NR9AoBAgas=H<JSTMESVdM(>}Md
zr*<~rq;uO@_lAg}#_rJ^m1D*jyS1B+^+{%b^G?HyV|Jk9(hxFlSq;>Y?J#_cE&9KG
zLAyuBvUX>0!C==scrnxoH;)dY!%o`aT7_*mHf#w@ZC{Na76rkaOYQVzeGi>gwjC>7
z&yla^buq(}d&eOo6Aq=SV@bCxeAL-Sl5ZTS4Sh$UIB7Hc!-wZAvSuz69FxHZ^-Ebs
z-qui6aRR5uAEtt*hM`a%2Txf<Vkze>@cOIZGjB!4Jj}sx#715`o*o8sHXH<)`VD>U
z*1~RIWUoH=5Z2FFk9R+Z;r7!xxLvZ7-du2#RUy3@LN@@I`j~?3!BuqLhMDNNd;+OA
zb--y-(L^Ox7GA5~fOGK?;2fC@$t}7l@g@-bvcfSf$ry~ziNN605{xW=Le)CM;EoC}
zYMvJ16fi}QzdH<Pg;}ACrZdi!=fj<4`_U+WJu2sMkG0z}@zgsl*rij%J?BkEA88fF
zxA8o#*kS-C0@H!x^O^1RO^uFv6^^=-cA@B-GjxAvE`54oKdjLSA<hb!thOsxQHb@d
zZYNI^PGO7JWi88tg7{?I&vT6GRJ4<iGb5;Sl_q#PY=yG|UU-@7^LS4s!rU8?*d=!Z
zZ=UC_;j|Jn4jPj#ouSO)8AU9ek55>`-=<=Kk~T59rijBPmBUa435XCqLENRynOn9_
zXn3KCwV|SuMp}oF+vyLv_aDY!zF`ejiH|~gkuoyNBNJ~n%A???3cQlS-D`PFC9TJl
zA%0XOY2%e9jW)8V6T1aBja~x8WeeUj{*Lc9bJ*+m?m!Fs1tfiZ4;9lCrV}@{z(n5Z
zFfC>`$TzN_KG{d{jGGtCXXT;d4-M3oiK6e8g#)q3!CiIxq5O_BIVE}$Wfy0_EQ>bq
z>nJC6R|Ie*_nwAL$PC7EX&N3+YNzHpvytQurCW8cAv4$u1m`zkv*b6()7k|clMd5c
zT0w9-W*%zCOd^*KMnn2)HrY152L{d2A?X*tW7@VK<lc<;c&4$L3|?12jx0j5a~YS1
zC%X8(y%x06LU72S(eOFyIK+(i!D-Pp=qi4LjvBTXkGxVP{*QLR<e~_0`Lv1%x-W&M
zCvhP7un-q*Z6wc<^2lhdJuq_6do+2-oiowVFw*c0q}XY|`%pd%^BRZNP6yaE-=wL%
zsvAlhcM+9KW%RD&3|g@#kX|`c1Ru>}=unTP;Ok#U$8+aWRAd?&Mf+pv^CaRlW;?K&
z6d=7@3__=$pmMsppjbB_Z+tmR@r(|3w0^?LT~pBD?H=l=qe!-Xk%M+meOUF(6;G(P
zu#OB9gqz&ENv-4ZX^%uDp1D-Sl6pUanu(a>L(_>EQ?wB;9UG0i62{}kv-^mZ_CjoW
z9gemvKG0Q5#yzoVEb?I!l{t_CFW*zlwa+C+6QhaQ4sC3|KLu|&H{sbO<uK-TJe^{)
z6BFKW{fbT^EGzOvIsI1ZEwB?}Iz@o>Bmu^3QUIRA(ztwBHY9C~Luc_qJW|&IE5}Tw
zzP?L|^7I1CTUAf^vnA=asxSDyx`Q^wuD}Ow>Ja$o0ST5~fn9vh$?4SfP%<V7y%QCI
zl~{=LJ6Geg$(7iw5kX6c5QIO|VM*`)jPV8<nEZSNq-GT(=ZpeY30x=p?;OJVsit&h
z!vQF1FQx?(R^eMC2Cb?c>W-*v0W9dDcP*4r_j3bW8Pf(eYSHL7DvF-z_NJYpdQ{Cy
znu)Ft0Uz<Nbo~(}a67aZu2;ms@S=&RHBpJVnlg{f6%=4(<=sFaS(F*$mqeEvhfrrd
zTg)u=z;)H$M7(qlCcQYr&U%r8fuk3~x%0Zv9j$~l??!PnrH!!q!UHsJeGU&BOyDf<
zR@im(7|rCy(dQ!W5%a-;bcet>g9R2XwCes>)^qd8jB#oQ$*wF#ZIuih^kdM`j@Qee
zTwaSgnzI{YvWLQveGRlEr4R?JPeA=p3wF{?Zfsk*i}LKbs;@U#3bVUAQEXE=JQ|e>
z)4QM49Xr)bwT?J|*@Nrw*nB&*)ZHOjg9D&4GXM-t3Ar|bA7WbWgZGK?)XgRZUNpWU
z#g5UWnfqH?4OatJ$#8G_CZdL3R@#9t0|&tv#Rgn1<crp6gK%ffG8iHx&Kd45#C)E6
z7;lG(VAk;y5GV5pZ1YN~t5GE`9&ri`*H|zDxw?2G`T#0(d0*dCk7`c>*n{+T8ya6a
zO1HEehP?N}I6F2D(u)&-?`kj{Vnt#1;9Kx*n=i>17i8*fm!O&LXm(5C399~a9p>lD
zGnwz+lUM}_&fUlWR^)-l@H$!;*VymERD)DVJg0!SM|9xeciB+Zq=F<b9KVQ(Gwb+{
z;(Hx_j;vZEtW(y&u&=>nxtTIE&c6ePXpLg_Pdkq74m}`tc^;fsUqi+!a5p^LHWJ&#
zrT9ZM3%(ds<A~GpXyIZ{W$qb)6jg^;U6r7r?nCsdLeQvnABZnahZ~Ck>?V}rR38^o
zcrz5j?z523GzX%ue*kHVDpFhHkI#I2U_3d8Rq6)JMOQJrchv=7m^>pBx7>u+W7EN}
zVkjhq*rL^p9k6}*Nb;t$8fzLq5&h0Ya!W%5B}9iXX)-OO#9xQADVI&UO#<M66N9%~
z-f&|-J`Oby;JizTgDmBttnW8fI6)fC<ksmbx;u@V-wjlQ_2T8^sGJI}l;i<$o{D#V
zJfIl@ABiEy4Uc^s%xHvm<7EA-Y|TYUFd=mo5fq$+c6y0)weLpqemXx6@*fMVr+0A1
zf)zBa*$6p9W`O^CBe-laiYUL@ha)4`VXJi#_{39k|Ew9Bs9wd=P-F6`-392UI57Gs
zivr#5a02hKZ5Pc)F#SM&oO;5#`qH1&rH+TrJv#WqwUk&)+JqXD>WIs;XH@-%HewYA
z?()deg|iRgE42#ByYB(b>=1^Xfe(oFabK*nR)AeMJc(B2L2~1%D=ci(14*BS;4q1w
zBf)hGfp)hcW5hB%ejo=dhX&({L)!4er2wv3J|O#hxIXRhUUX|IhUMHdo9VWRWb1<{
zn8X|<EvL&-<#7!*D(WNexJRg*_??ct)Wq&w{RC9Bxp}bL^T;S$RS;3#2|*6`SQod3
z(z)xT(do7rlOeo`>{*aQ@&h>NZaa$e=<s^rY&we<6ahWuMzfMQzNA~H32cH&p@kg|
zi}~i^qbfF>rG;SBG663yY9P|@wiz0RiL*880QP?=gzqOcSkol;pwzabFg#ik?4}f9
zi^@rs>xKmobKZ%4Ch<O=7U5$DG-lwz1C?wYsq?JP$lZ{r_XtAty<uK-8%-4!qI^f>
ziS09ctm4T7z43{V#%ZSSFYhGrtnK(nS%9oi5X2V^8Sw3-J<HGgE8UvkO^OvJ!U>5{
z@K!e!NOv756ulzi52fL&krqARBTF~T2u5-7db)=s;=$u~;JkQDol$ZuVZR6hi5rWF
z-Nhy3mC7FKf4T^iH{67IuG#Q?avG^m>0;}QHHZDP6!7VS$y73aJNR;cBQKW_kNfk+
z<Gx^3OzL<+=SNkslD+nlv@kd5dXZuHwRr>Zr|S_3@f64_e8SqPk$^diK9Jml!Ektu
z5wh!SA;!fDOv{gO^T$s3{mw1+<6>bl^cKPQn%*$yd=1k47}nnU7`izm5)a2r!=CJP
zQf$S*n+rea-VI@fQ>@%!wcS!f{`v=oA1+#fK~-v9^QlPC=JCZEaUmjgY!7}p=|g)Q
zBH3*}PJz~~Ff_CZW9jA=(#)|_QPM>Kf-X1Gu&w)Gy4YTtBY7E=N954MX>ZBbHetNI
zOA2qk5r%1%6{O_!PFVfWj(gW7gpQ7z0$<zbL2Kk=^8Rfq+z%FlsA;~m!hQsn@IPk_
z*&0lWTpLg>Y5|?V-S6LtQG|DIci_d5MbyPdhK6h^!Z&P7n9^Q`9hV!h$i@~0L;}b-
z-bOrg-;(I#C}zm3N;?1aNM=K0C-G=L3M)FR;il9M+I9b(p;v?^bboq_TFtubSRO@A
zWXv@jR3(cAAK5U!>=Z4sy8@A#+n_`=nTC(72Hld~Yz5~GGTe794!V%VUe2=`MB)&4
z=1!q=_A20%txxa--!1yZGKWUbtj5^2Ga36^IrvCZiL_a*z?<(Jq24lu-1R;UMOPd^
zeFPtqD-=#6Ne9mIP9T%!Oa(8sU|1{5fI?e53b+R0<`WD(cVsa;I8ThD)X{=lEV{_D
z4W77Z#$HNH9?-n2@|;y(AE>QXH!T>h4*n_`WMM=j2ph`K_+}aCJjurxo96>3U=G+z
z?T6SMs?4TiT2$d>68D~l2u?3LOHQ;@(-*}~SSENG4Z_Fb9Lv`*==lMZe6)fQZ#;}c
z9XxTBzZ4Tas0ubUnW9SAdio(?Gx!?$Fh8CcqV{kz+-$u9Sjjr{zTIJ>^l2hVkKKs}
zxn~~+ks07D+d)<Y$kIpA6ESV&5MVzW0neXjz+9JDGA(jG<c+SRp8~fLwbV2kE%zOU
z=y*c;ltr*dBZ@vY5QXOSlOR!h4$SQNIK|B)@iv`ARjiF@$)Y%R)WHpSLQjc&w!J{4
zs_kg4Nji8f(j+DsHkkEz4^H&ojxkB8`0U1UD0|X~UT6GK>U|o{_e>#^SBl{t_2b}f
z9|C#4^&q<R5jDvDLD&|75WMHj(Z-claN02kdhQK_k{Nv9u{<1xh@S!eyezC~$RS(b
zi=jtnAXuCl4u!^Xv}?>=sxjV*xKtuk*IARV&e0gCWJkie_Oi`s78NQ?WivJ$C@r6k
zW``f6llBf|35NiCc{)y=6a~+m?vcT1qluO22ezMwA+bK&fcHmm^Rd2f=qi<^=;9YZ
z?tKWMLP=KmF@*v1sM&a5jg6tl?NLs^3FkZxC5@MM(Ay?kz^U^s>pPW%(Jex#$SVeS
znQFGiDTJ;vhTf`I<kBo8QWIs_iIcv<{vt_GZ|SPra$OozO+=tJJ{F2!<*}Swli*9t
zQdnm_8hyBTb|$m$fX0Z!<iI0k_TB0voGT!MHF`DJRz-<ptsc2OR18)MAHj?3+Swv%
z{t#SQ0QEbjz=`6a%nJK?bURg}UK_`P<>Mg8sJcgN?#F{p5g+W;<V8PaGt3>ujgLPw
z=yoWUwuFg;!yvBQ=d?g|f+nuM@P<8Tge7P{WkIOp5tM6oCz8wd!o!h`!0=21;p753
zC5ML=B_3njaqpz~UQfo(;+^QB97^wqoQ1`nmq6$Q3yRnBG0P=&V7$l>=E{gP_K3J3
zP_MWPX>UWJK8_77kNjBHWuM5g!?|^B#VVNUeV&eYHDjytT_P#d_d!VyFXwUnEEeB!
zUSxHzhUHSLu|!P*A0|hWuU~diAMXE|S@Z5B-T%QKB3C)V?!(@!GrE<md79ObJpU@v
zLx8s@sS+MRGa{%qq;BMl8xZ9036qp<z^_Y}PRCbt-dbZi`A8~GJS<O)BT`A^xj394
z{gIkSc7n)5HoUA=!!65O@!~QT9yp%?+h^%P8>xedAD<J>(8=&faw_o0h~hQ4M;kR%
z@a5e&HvimM*0M=_#9MhEq?FCXs`ydNwm3~VTKA9@`F<Psj>Sc?ah?STE!oLh{9`9v
zF?)$KSJgoaCkk_F-jGeJs&K4>EBkTLd=xI2j0eM=;97YgY1{jO1ddChm+RZv!*@Ty
z(hZStaM2A?nm|ChZ74onFO3f0&x2d}NSvm>8?skcp=Qrf*jHIkhs2F%owB<KjXaZ4
zz$=9HhI>Cic2fw(T};7-&_uSz;>$2gG@qL@O~vrI)tFgyh%Hy;jebi;qMO8N$ffC2
z+)V_N&hS9o@KNa0R7+B{xG_`sbrN%b2gaQ~LwuU9gXNb{P*n*Beql9`klqgR+<0zh
z$URUh3Nt+Odb$DA8Gv8TW<p)n2pG2Q7;b5gXQei!VF2F(=F7y}<i~Cv@NK<C>l-YI
zP|HCaZxl-xyD3Atq6y>v{0a<ua1Hr~?qj=VOL2mXN5jyF9K7Sa4<$x;Q*Ft`bz_wi
zK<)pd=sf(X{=YbGuc9a;BN?HLmIj~qxv3;d+DVdzk`^sxr0ndh%w&danfJcWB@{^#
zDs7}vN%U>d(C_p63+{c~dq3x%b6(Ha>li!YhxGS^Of99$$u-hYC&0-`y2Id|66o_C
zrV|DR(9;{wl<^(m{YN#pQxXfKRX(KQ-%~ghJOgSaB{|>D29X1sA5pt|RhT!@Li_1F
z-gm<&>?nBz6ThQL&Dv)C=N$zV&eQo{PJN@@N#Y!}f<AnFZYIZz<=uZ@`2<E*8({iX
zH{2eW&(z-7LhZlVVqcm7$Kr=L-K%#Me{MTPJzn1CHkFIg!XF1fJj@6d{&qxz=UaHX
zp~iSY+y-3d{w4Ejs$sk127J}@3X@lj!yDB?u&aEFkvtP3&V2x-g&R@l=vt29w5ymf
zvjBzCcjM&cS{z3&dr}*k%M(&LN0qe%h|RbR=XUH3@+^~ODbu>>*?|3I^PfrJr!^C9
z9|)uJ)&h)_T^Px~FGzAV-r>xiN4#l1sc2-EON|%j<5Cht4R+~(NMa6*dIrF|L;pyf
z<~7FDe-_*lxX$+X94NY{iFeoQa#Rl}n%a7>+VXrS`g_YmqUaWbc5s2XoHawmgfnR5
z&U!s28i~2?S-g7UJQ~MW(w27*NLug$9C`i=Ljn_E$Ms;m5wefWT|JiyBqU+oI&=IR
zLBPq;2+P);GgTk+g-I<Lxb^A<d_Iu~yY9>5i)W%7rw&~-^yY&-%|uVJHLRy8ke=C|
zN<LcF!qdIF^v%Hra`KD_$}}y&POB2$`$-un&?d;46>tdc#&+TH^m`;S`5f$~KXB(O
z6TCia1$=eA%rok`gpY=sQR+($tc!X^l;srRW4QsijhleU>|1PI{0}6os-YpNklnvX
zb4=9Mz;&Zl5TAJtyX+T&>iNmAbFUTb(X)dGu_<U_#l>s8&4H`#hv_nsoc_xXOeeOr
z!}rM9G_g<#4@l{PxNkH$?Jx~ulcsTe?sVdv!5t9z!~uwTC>#ko0`lKqLW1Ksv8wKb
zu)*Clp>s9~NHK;&W`JCntBJiM+35S)h{K&+$MbM0Loust*llnO-~Nz;pSltpxi}MW
z*V2aH$ve<YXbLEuYKOk0ZO}S%IvFmWi!Y`qqei$I_DzbWk2C#gRdfz{^11<R-d}}~
zue+I~h8WU+#tVWur|`m>a2gS80dB=3Fbc<T+NA<82;GE3i+o_tg3FlnP=PZgu7Fe|
zJSV3DqfzH7Lv`f*!29NGxNR@ba!t{^8FTHyZHo);y{}5l@{%!yYNM+`2EK5h*j{Kw
zvmAGV?Z7E?*u${1cDiYvpU1MJ1uu!b!77~Cx{rvwp2Fz~pNkH{_i#^DIo@(}C*fKM
zk&{}$SKu+!JXwV?o7s8itqW0i<YCA!a~PAB!3TQ=$@}#cppf4V=LFqJr~PS`2Yn3R
zz7~@!U#gJ*){1=m9>JJ0Rxne=ADkCa(44|httTsC(;Q2vxmJnBLjJ%T{Xl-KnGQW?
zS>4sG1)8O8X>f!VoL{q;`=Rw2sDBfn+r0W{y@woWc6f?+R>eX_fgm521(5s`m8e|P
z&a0_iO&S(t!;X_dq<`uhcv(CdTJ%!kV!H(FV>#eH*KFMSD;+ac<nWm4H!KaGz)chE
z|6@xO6Bz#iD(8>#&J{(%#+OCpW`qK|&t8MWb?fkfVgo5Wvj<&|ond`BE!aG~gr;%a
zX!hzzD!nj_DxSS=I&;Q8ly;B6lBnhQzRw8#^<Sb_$~?@{D})czLy^CrlSUr0rk#~p
zC~{;YySF+G{JCm$S@kIIY;q~w54%h!X9%FmPbVDC*-rxFkvXFIf;@Za&m-s0!GzRJ
z2zkF8>;(sys!!)JQRN<2ZE!jK2~mRm*7;<<a3{UzSx0{sPw<>~N|RheRwEJ4g(XEZ
zaZ!dYVGevCD;CG1hUj`MEw}-m-<Q(*d>xuL8j4}>ce3?afG?3ev@Cxt9UpvkC*9{I
zY24I8T)*NjO8-|2%^NIWJn;aIPn(JYa{Hldh5{ZEzX*#tLj0zKQDlrancmPAgog1>
z(~*iH(}`bKus7=#Il{7v4exkVot;<b*oFZTd-N)0+1Y&@&{OfmfP1N2t6!-kala%-
zHmnd@ikCrcc_!SDm*yW0Izy$pX5;e}b<j{a1={@0nblD#ILWaB+xgwh-7gHP&TqhV
z5(_ZjFdMQJ;-O?n4B^OsSfY0Zrv_Uhf6fFAdtXC3rJYf$(1sTy{uK0sXAsw3JKXyE
z6xhG*0rRuz;CJsG>As_ar}H!+m3N6ZeDe~fEl7oTkM&r#-VCBOLr@L6sC%y@x|Rgt
z@(xodb#1~MMds+%GY|I+M1!JhEbSkdLbmPdqLb|1N&G$mY_?GW)hCB|oh}Q}bGZ?E
zEt!M{K?gxfa4(PZF$RzRutIjT4po2q$dsHScy-}94T!l$+>X2?oy#7;nrcHLdU*@k
zjQe1?<{>0AhWMgAjuE?;MOJPKCf+v6kmEB!-tcOm@Zo8b?MupehhD5ex6Xs;FK3TA
z4_=|SHPC}=o^i`R3h^fPoP@TBUT*)mApRXTC2?!ZQQ5eMamX1#r@|ee*it|v1#d$2
z<>%<P_A90>G3AM`xCq|V4>&{Dp=U!BraFkhnXS?2meRybzUYg#;_JzHRsbAWR!HQ#
z+EF(8GWmAflIOBJ8pbrvBX4&q&YGCP6O-SM+IL>D9)x1(bBV$Q?pEYp{$$Rjx(%2%
z`5xp23Xm5ra-2z_%i-FL#pH9oCTf3LOw8~7z|MkMP`zdV&B`0_QvV>G{c9zJdVa@S
zL-Ps0sDZXmN}`|Ip3u(@gP>6M8h7*?!^1ZzT(37D$<bv+IN>xKw|rRzI;Q2k9pCfG
zmqZV^xnl~x()I#V7B^Au4#02gj=|8s8JxlVzr35=T<~^}q?qOgZ}Y0an|~3%g&(K<
z=55S}sX=fc<1-BJy@h?%dKh$Q7k08WZ>QckUc3IDRM_}qvP1<>Wgrlmrv8VvI<Ilc
zA)vb=gmGjhhp6{w@s{q1z}vP*;pmp8+U1dbR6I=<{4cCUt!xIzL=>^yt%CIJ6aeE8
zN17pHN;g#~fWPK){5BL!hyJT#K4zCfenAu#g-M{3Y$G}^&cPFBeSj4B@}9Btd|R;>
zT3)xMBR2IA=E8dPB&uop`xKLuCqdXiwwsnbErnS}q%fmOjHBAGj|%N|<Zg8yMq?{{
zdRs|U3m91Frw9r|>U7@RI2znF4W$M;xV<&LIJNX4jMdh`G43#)%2)ui4$cAnb2p&N
z+J+t+6~aM>VQRgt5koI7#M&!gc?<5GMzMvyu+7Z|w(AGs-${X>?{FXWOvJ%+TOxOK
zLnh-X7DrrLvoV2lmKJW4;v{<P1BYK*VS`l!uDY9u+voR@?JM$`5^qiZYo-$C{o{aA
zK`chR(dD?tOr`k!CkEcvg!3Ea;kU~*oOSypx%FTiUNvvxOqDF5`&SB}zWzb@!uyH?
z&cfJLu!d6cjbu`10A0$P2UiB>!x?v$VU4lF))n*c>32=k^$mxV6)Lb}ODG1)DS$?$
zG2AZo!v`))p;0pfR?8ZKVxSrNy_n89)?E*~r6TFJKdg^UA|4OeT*Y=h1gZLQ{N<fU
z=FO7iJX@^+3&!nv9z`!%1}m8qHdQclFH3;t{Um7UIYg%mN6?!MZS>c<de~aJf!MC7
zAb&hQ@E+f;gB@&b+vbykg&MBZqDq8w<Bbv2cGlz0nqBmdXfduRo&{dL1mC}U1{Gh0
zLG4TtS=qxfnMT)Pi_(7F{`E9Yo+m|yMb^OG+e5q^7n(8ZR43uioCiVf7co&I1mfbJ
zm>N}Ag9AIum35nf$G|Pv+!9K9jjlr1rxqG{{svg|iLjr`7zwrX!8US(o)ScuDd&ey
z@poX{WEu`DNMOgoa8xgdr;4JjP#9N@dL#zU;Az_QoQpF{^dX5gy+`Z{2Ti-PFjoJT
zo;wo{%+6EzFLMLAUor`GgVV^DgcRZ)|EcC*V*_mwnu>28nZR{FVWw}O5I!pxqE=W8
zluRvzDp_q1cRYurpbXxAjz!aVE^u}8LU5_Sfz9QjL~>CFjlVQX^FMxIx;Ey4$$r+i
zU}b@sAJS1VT?)3vg`=K_JX-Gik9XjR9?sr*9PU|gA!odd*04T)zh+&;lr><}7z%7R
z2;bIf0m}R!2W$IL$tj9a$kf1TtmjLg^`j1~)Q4$z9Z)Vb937Vahg(D<!BEAE*Buy7
z&kY5GhTdbICa%MG)DmvYNx=&mPnZ!c70$JPPf>829Opuv5tOSb(jKxJ3XlIH+b|CD
z*QAlYSCO#uq$LPiH{u5UK3ZgKik(XTkxR#|Fnp*Ga+Vgr-L3(&b-fLYE9>ceeFgoN
zJzy?0y1=)C*~B(zjEsxtqe}P)S-wjNrj;Ln3yB3Fa$<-WZ?yr<d^L=Aeoe>aF2SK>
z0qBoQM%{RScDE4*V&-LJ>Aij&O0K{#QDJ_kPXzv&-i()aT_qih{mHmfJLnyBqRWr(
z2lL+(n8mXBtrj(~apNe|{2Rt@>w3ENL=dkr+=;sG+C@72+IZ?m>+n>5Bt7eyN#pfX
z;Hl|0ob`b9Kxn>UHaMwc%%pj+&b<)#A521S@FyZYZyqOX*)wQ9(~R#QzCnY~?WQ>=
zCgX0mNxaL|<~aQsk^_gg!`&}4L2s3hX<_as^!+RgiaCkobmeoDs}cgC@+Y{L<dB!&
zu7aoJGy3GLCMIm(0CV>U!-|PY(_jB$K~T#Vgt>7v_a0K^OYZov{x4Ns`wqILMKH2c
z3U6Ex!3g6S&^K0uCW8{31#Atpth_^Sj>>`I=?Lx*vYvn4N}3}U%7Lj(LA?J~twRqH
zTaXFM0?E%xg!(3t`PH?Up%)2nmi3_NvE^Wy>1S%cS%4lHZ-Iej8(?Mg1PR_>Kpqc&
zq-V1uiLb<2n36vQmnimtqeTSnXbNG>70q#0E<^XlWRocilj(7P9*nG#gy=#)P`af{
zg<gIkn@2v8!Q1|fLE&=@9qXoZvM!>_w;U`tSH%@4DaM>wM`ThKLh3SQn20sUf2(6?
z+4wp@I1HXLXHoI^OXgfOmrfDRBLBMm@T;>Zf4inT6|fAWF+Yl#cn?pi9JGZOx|r26
zU6NqQfFR!8(8znqT~E3Uc3{eXb=Y^Yh14ATRI7X;1g}jTfrdHZP^4K(swP6o_Rs#H
z{6HQh57wePWP_XGB2@FZ1;f#`Sj4?R_s4|O6V7^gsbK|%9!i73h0PHEzLfL|Q}}u@
z7@IiTv0ZpKeu~(DR(tNC-C-^C?p;kKbj#?F2J6w%Fo5%=Pl?=PCA<)sO^do3ct09u
zfcT?0V(U@>bSRv>(97ix-kXQ}S9J3xjou@MkB?xxZw)jan9cQT7sX)KW8>B`1@qnV
z$*CKWa5GL6W<^{?0l$4%*>;pJ4!;Wf<@!m7=^)XN(!>$zAlh$u6ro!X*GSF6hk6@O
z<d&^z?mQ%+s$o!XoCmVgIg}mD5FdAurLW@Q*p)~429JZN<}j|X@?q{di(=sV8te#K
zg&SJ$L-i*Kyyftb{mw5z#=aq_aeoQz`Ld)oc?vcTpFouXmgjOj4StnNsJ!YG+-nhz
zUDI4pv05KZca>w^nQRCiA0lrx9BAg^E3B@sgwH#;^a1;OJ^_E|g30G##Mc9F^c{x5
zl2vGZ<pvx$x*hfmwo-4gzjXS%JREzL05iMiLdOa|Rf&2>Lf2KI=*1lB@wbD{F1QTy
zw~FAXGzV4Q=zvz;U2^q7F(z*oqC)K^5LGiwV<yDVF6s)HskYP3(Nb)AA_Tg|(kQSm
z4fX}D#0&N3NloN0(($Sb%fGPCmoe*S`4|9~0;*t^jul)639?RMm~7DJGEC?X__W3x
zT@3W$rfDZ_ynh*Qc}#<zIXU<>^)=k{%Y#SC1+;{>7Q(W>kzTVTNSM8px_L6-aU=-W
zADSSW6szeMhTZ+oHGtw%4DelLvCQ#0sHMomG*?+_aSt(a=_7b3+d`F(*Dx`PeBAO?
zj4xura;k=2n8GrkIeXTb1pEnu#DYm=s926P{;fm*&Qg5Ysm8fnFTe?>f}F3{4f*|1
z(;)K+>mwihLDc2%lOg@Z{9f%VPzaWIz~2xix4$M>kdE168t}2YjVwFz42%YTlR~a9
zOeCL%P?IAtd~GFk{D_43Jqyua>l^w#zlV;`B{?b<vmmae7wS&@BSTrosrRKX<gnyn
z5}D_V0{=cznOIGpxA=43$lC?f?EVni?w^Ur=k?JS$F9M<j%VbFr8uqn?ZBInX@Zg!
z{>(l(Sx$HvpB|TKA`>%Pfb4XF`cN}qL{#~Ag~!qHqAp)!b{gFqw~~guyA9`hBk<0{
zAiR0o4CAE;N_=R=TN(jW<MlBRd|6F4xc}uv?~%sTGD@a=ilrroPhy*p3BO0Q3J=cO
zN-}@Grh*&qvs_<18qa;ng#LX@VD=bYG0_Dl8pEjY+ZlLUhGA|!DS*wP*^pJUo4#%^
z<j);xz`>RJ<i*n}tP!h&$KTs=DBuO&eWypho{eRB_d8T)nC+>qZ-xh6w@}W}9)|?P
zV2@8aZ{J`$oV7@y7CP;8(r5t2^&KH_CX2NFl*Aq0E8rjNMQNKo3YI5)*?!0hRSW;2
z;`~y`xbPEiWSQaZ+FmI6)<Cxm&*B(-x&{)yd=e(L6uwyqb1c0jsQFXYdo)iLi?j8x
zNj#l+i)7;5wr(<6_B@T3(W2s+I(R}^9Y4EFh8fLv@MpFW%cUjIoXw3OHj)O8z_Mzy
zIA}fR2>O=9L$Q`WNL7zO@WW8FIVlPsugu5JJTs8XP=XGNLNq$oO_b%0Vd=0cSvA~-
z^<fI2o)e4C266bvCk76P^zaV%uO*GwEU~+)hVBn$a|I04K&8k4(pOLAY`bwD9df6D
z(_sofS2vQh`&OVC{F59v6roESL(sxvGAHYBAV~1^F{@XTKfmW9GCGFj<KRa4_}vah
z&enm9!$tTmb(E-GF~I5g36fgJO>R6cVRc6bIwn7l$7y>DwrlgS)YO1_Pd3GtX(F7E
zEMZ)}?IdVlYasiy9ue^)ggFxM3kM&w?8+*05^=AUbn8XKnVUv%FT>XKX!B`&FaCx^
zs9MoOrI#VXDwooPrS!IK4Y}_8oJ?AmiVqV1z>BJ>c=k;fCNEfn^FQgsPeTzRd2@hQ
zKZW&?H?Xrxxe{*mXJC$Z0{8s>s#=qOf;cD>4*i>^!;-reP}cYs!vfS$;CC5-T_bpe
zNO1PuyNajnThQE7fKHdMLGx=TsMYQoP)=U}pEh(*^UcYybH4<%>2;8O(xqf%M2r)c
zB*fu*mg3t5C(%^B3O>KO%ly-qqDf38Z2D9K^XuoMXSfI+n8$&AUdgPNYZavQJtnU|
zWU>DD3T||DH9c*69KBxGk*~);kkv=#p#WpSTY4-49MyFpUho6k<4p!#p|d1*_#Bnq
z8H)kW2Ta}HtRi8;xkOXJ7_C7GvUk+dJwAJ3>#MzV$Kg_l6qiGTruAS~ycs{S+;Cvn
z9^i=BP_4PP;JPga7alprIJhl@ukGyjU_S%af87VkYWs02wBl!L4sm@Mf#!>w(Dt`1
z899*5wC3ef-h(RUj;tXjKYWVHwV$~kUj*@r7e$ek+}$W{b&$ICdcn$&PI|s36dpTE
z(M1;uvGIB|sysXjuU9dc)@g$4jRWbeMc3(XubFTzbtW?{DT-!Cp2w;iRk%^r9JJp_
zF>cEed5Q7W^aqcDD-KIh-l>2|xLCnFw@oA)BML}w^*(0b=mtD3n?lt_j3D&xX;Ra_
zkO*aXLG-E5Jc*1ss9KbS(b?-UEg}sUD;<VOFXNclxqhVnRwWF`9D``*Zcx~j48PYV
zp|3BSxAB5Ov8U|s<BKTkw@_eG>dt_IkUHwD`+%44e51erWYXh*R+0_(HFyas9w65y
zg3H~0prFHZJT|@trgmE4`bEj`?ZFt;+<^GuzhGR^<$yIG6ES|t38KTS;B;=UMW5M(
zbK10y>*SpY0-C~{IbYQHJhNr=U`RR^M2L`cI|rc3bu$0+#w}=EHG}`VEs<w5(}Z78
zItcyNtbg&^IBm^{1k2emFcwI#sl=E$5Cc$pU>TR%&!okp8xh(5<k_|q-u(N5d?Ot#
zQZEsS>9v92^7|s>=LXZ<;aj{VFEWth@(mhqzJzU`zR+a#EA-%PVO)0qIo_A|Co8Y@
z6FZ+7e4UahoGZd7i39P&6IT8xnkff0GNOF-{m0SD^DsHM=`PNC{D$gAEdzsTfhagG
zOBBDZhk2LAa7nl%TwSS&i$)sh+zV3VR?0TGu<Z#uhdQFaOb-;x_`tCz>|8oI9+E6X
zz)!lCNCz!~9otjEd&Up+7F>o0N6Ls)s}KyWR)U>dS^cll1F!$fgyYldY0T1hC>+&G
z?If1*Hkw4B$K1ylxZo$MAKiu50_Woo$t2=$)Bv6PBjIB~1{6mLV)ME@QemD0P5Qn}
z+{1EQ>^A_Hk7vNDd+qFN2xDFEPkeXdFOHs0z!eQ!LFtSdXQpZ?Z>fww9DaBZW?!m+
zKjYK*GgMM|XC5^`=43XvBT^N)5+$a^)%!tG>k>|x9{~HLZ<#Jo`%06h?}M(2PDVjF
z4mYn_2Y-`l(0|u5IPiQXWzJ}WY{W2c^CAbB*dzwlO_k)GUn(45;D-+%iGqWqKE!kL
z@UfdTHf}kHY7s?@&BB8u)M69L)?H*QcV8nHbu6fKpD43|AIwYpF9<IyWz+hoQQBV4
zfn09~v?vwkhj*QV<<(A%g4szJWPbyfT9QduV+Qo9niAXn%VB%G40tbDfy-)4$X&iU
zzG$|G?V9;O7Tn`%&t-E}1Zsi%IFX)eE61z4Vff_ZWE4BK8hlypKRf9yo{}yA*m@kb
z*qSN$RUPZ12OuQ+7+S>p0;gdKh+9shYP|wDmj8#`nb3eG>WlDXu^QnPEk?9qJ!mmY
zVDXP5IQw28v3|XkjEA&>_?!sXTWSkWQzN-{YGQO>^aXT$(?h4kw~+WqWKz5-nR`zT
zU-@U^uy{1eCSM_<>onn<aVPmUW<r~kuES7gB3`NwrUiN`M01i17;;OPu5txVi)bin
zzdwk#4ZLtTv4^<MJ4Q7`P1sq5!0li2n6VFv{QFtybd8P{YK44+xC_2y%<C-kr_L4a
z3Y1CFq(KaOE6CYIPQkS;n;7L=h1j8+0#llU$*R^0lsxhU_GG7Ex$7HJqMVHGPmjV%
zjoWzc%3l28$$A!*n&~Jf7+x{C^oP+w(BHKU6t$z#-P0WOxn0=Pq=qHGudvT_2ma(~
z5;-ABIM}w7Wus5R*Yvx*4~seY+x$B7RI(GzVs${Xlh2iT$T#tcw1q9-jKOASDXhJ!
z3hD!{^wPd+((PUkw@!KC;#fnT=8PwBu_A|-%b$U3mjqE|eG0rP?7~M?zv0{NWJrsw
zL^-Jr9Q8BcqiX_wPl?3Uo;Qikf=}Eh<2qEE7mrRK)v$hlIEhL($DUv@PDR`;<o;5j
z1HaV4XnqF9`Q(%AgL83@Vh2>4-6A%+LA)3GhvCfC1dKRP0QxMa^+56?aViu9smxpS
zl6X7IIk(bDmr_8F?fJH8Ra3{D2zcf*6YrZFG8IPON!FSG?CzOIcmJ7Swh1vvTi;P1
zCs`CeJ{_IR&cepoi|CqL;#m8>7Q?TtN6zUVWRANHO8>IPK23MneEbH_UgtD$=bpr{
zfjB4{UJj}If6>v1ACNNaM#A{NLATC=_B`q(K6Z~VxZ@7y-o5}8Z{<Nm>zv7-&}rD=
zqXuT0N>C;Dg8mD-Nsew32HiX<j+wJI?=<%j6`bdU{X1vC7s-CmcD{^vp99T(sgBuG
zaxsC;OgL1>dQ@Hpz>^0nQ8Bdx=3eGQoOKs`I<Lx!xR``ye0z*8sKCGXcJl;QRq)I$
zRPe6j99-nG7>@h@2RDA3a5t%6MvF6X&|{N~JIO!Hc{BwsUObPUtnQq@rit9Qw8z>A
zW%#&#kdFQO%*(c_ApDqkP#2SjCtWOaxZ@Li-%?>3;+RJa)Iw0`{Zr_h#D_y2;+$(w
z<LPvPDXgD11xLme>5KL(oOYlS5*Ld@{>W;KaaF`M7cH<+S(q-_pvPIPCdE<6p2MkJ
zoJt4y7ny>9J48K^?ZqmmL-kA<{<$&(CUST$?67bHRgKSJ=qJICVY&K<>Z!QK3rJLK
zGpNkjibG%9Flk{BPS^~C?aDexUh@(U%rW90ZIi<8Dca~8`wV~E^YN#kHG6Z*3rs$A
zV%tf7xKkI7ZY5`-C}juexTvAU)D&Xrv6JqMQv{{gT$;O3n(zMcEt*$<V9s!z$UD*L
zoIe!+vve2WPFZ1`-ZT#X3CV%ouoOS#;%y8M`AH>KHS_psh)<fnP=^~HsLUyY(_e}q
zU_mVF+jRza>$_x~&{NzHy#*GP#-XXDI<r@b138V`$)!V2c(tzQX}$FgNLe$Pe@)Z_
zmxnr$z^Zx7!b|};o&$UXV<`-1n@*PZ?WGr*a_PjZt+4r0plNZUD;O;+0Hq>nxE`8~
z%~JAI{Xi17+`NjnE#j$W_EB``n*?XIHo?redL%ncF{VG1SMQPze>N+@c~IqNSv&+a
z#V8ESw}V96N+x@x5*gj+WV(eut-iy>V^w~jJtYX{=mhg-joaX>?}i{7sDtBfXNcNA
zEl}NYmYBEw#3LmiFi|iYo6KgRxzq)malV$WmE6hZ#_fe=bMr~Ael_~9_vb8JwiI5k
z2?PbBT{!>gG<fDNf}VCWpq2gqZ9e}T|3#L-!+{V?+czICc=3UJSqaGkH6ZT455KPc
z1w|vR@J}xt{8_K}uKBX$Rd+7^*<Oaq*0VU)#SCyj0^FB;fTPm}Fn5zO$42uF7IhVq
z`h%V@Rf~b8Ex|lll~gQHYb9ADLFk|uhsT}-^FCh_<mAL8!;6M=Twk9C;af|f(!dbs
zHoRl`t|hSVxGgT-2Ds>?ESh~*Hue4V6KW4k;a}9?pxw$Fc&k={AL_CO)-;Xd=V}KC
zejNi#?*9f~7fGUhWC~|){y{LKd-1okI!yVthC1%uL(VLzfQ2mcv2Z7^R-g6F;g)ie
zb8r**84dClvf2rYz+;-23htTXfcvH&Mhj63hzRzlb@VYWu0#t3s||S;iR|tvBnw+o
zzQc>arJRK7YEqEdi9bCEa{kGZdj@|@#f#f$)cZhkcl%AW^cLlBut_E>=g+`D0S|Du
z^9b)<%szOnUk5gu^+Ec@1w1p^0tYYkgFuTOT39c}R@ToMRv(6!R@^7+ZIp53&{VLW
zl7{-r`e5F}e3Z$E#9hA>Fk@7MzdGhQx=+=h)~)TZqdN=IN_0`hY(1QH8$`uDy+GH*
z!vlx{?vih~uF(P$Iwo_@weH2KnTyHu4>4fATm*hlSx!R2Mo9goLAx|gVW+kjZ)0KG
zvd`7Sw7vo`Qo0v}uB@XrXV;L4OS*8@#fiMKe1S*OU-NpU%YhdgM`Lye;vA(pn71br
z&vouaoAm}T&P+#Y@(ABMsxxEZjpUg?Hob9W6XZHxLEBbo_&9QcNE?2nZ?vrNP(4!N
z1M8qM+YmYw?|?=_EHpkT#V=oSh-Gmc$Y{PJWLhY!_ha{ep>i0W?FWL92f0$){?Owp
z@9|e<B<k8l;8^Z;NX*Z|8C$Mkt1QbOtp5lybOy(b$HkAEbzrY8n`iuh&oXoxJcC6q
zXh3E<c|IlsH>Z2?YAk|?S>$4@`1c4s<|mS!2a<8q;2>F|Ylhr`X>?OyD*7sv!->wB
ztdC_Q+-pb%(<NKsZXN>z8XJK6%%+bG_rSM%espjDLL8M!qqT<yVK_|!CobkPTkHMc
z;EmbnGya%X&9a4?GwXPB8<MF4`^==h8>Lp4r!m?=8&T+@5aW_LA7$w$UXHdbbZzy+
zE)7@6OVz=e_FVWi<_Tuq|52-Dnh@1}3C~q!qt@98^2IQM>&9jm4>fIo)A6^-VNo_W
zL;WPYDxCuM!&$IkW)>rBW(N(E>=^Z~SmO6b7QY$fL%mTFJKP)rb@5-M)69qn>qddz
zuUyn*B+*H9n4FNAORkRx@NTM(5qJMf<Y-bSbsU|?Y0S{TsjP4K=V@>JJ0i>P-DOA{
zTJ>Sl$wk;>3&hJ$gs#4mi#5vHwB5It7zC$c#D8<4qV*U#zmg04!?ienK2#EQjvUVR
z6XuL6In%pOL*d-XWSE*ThQHzfmRY_;`8k!i{9QOX#m;RKHpakHe1)qgui%%hzlL8b
zD=|a%B&jGHhed^95GN~+$I@#d=f_`+zH^7I@fLW}O&QLd-Nc>G`A&;osDMFM2v+5)
zf#5}Lw3p~ZjzuswYfdM^XA7y_$+@(&<{b*GswY++4@l)q279_+6Yduih&z57rtiIK
zdTY{4(4G+w(a(+H+0j}i>(C0g#rlk%_HmFO&Ba0t0}=jP@?c3Ud`-RpCWc(5&7z1j
zP7g-GIvuiWMGRx?c?mQhRq<}0569T{4zzlC)^t(XIXtwo7G0CwFvr**a^{?;(OaCz
zkAiHvvwR&|`yHmEbJ+Uz@f7n;x(cS&Y@`|au_(!uW7*=bM8JIkT$%2~^;;tV>IqHE
zqdG2LbeW4i;|@3&5(Gh;_TjYsiy(Tz1q=&SC45#RdXb*N%dpuBTBi_Ff*H<aL1~n5
z*X4XQp9>-uOR>RV6RSPHz{ia`_~K^_`pSHP&VP!Wv97DQe~Acx<Joc?`VmcJ3MKdh
zEr(&k>l{xpmDSZ&Sz_l;5qK1uiri!IsP?fL4u!CK|Fbc4cMqp&xkdDNWGf6;{KL%0
z7eG})4%T<s)B6cYpe+-PZ`r(n@D?-1xn(0)S!oKU4oLCO<_hz-wzRN&QVx2otRf@+
zilF{S1-0A6I2O^m@cKs^uW48xzm3d>Y_(7H_Wb9#S*QX}?P|cHV>j`u4SUzo;{$hw
z=}-FY<Vw^_jmBA9l|k?E9`MW0h99N6$i2If5RE{x;H3Z_JW|ETHqWQCoGy@o&P}wv
zQXD4Ne1*~JophgP4^grf<EOVUD8G1&N-mttKh(3)Bz!`gZ+(i*)JnI4S+lF4gUxp<
zUlM~op4z}0i~_S?vUI@RoBJXp7{0xUfcegI$;lf?HuPpdL_eiU{dYj`<O_I{tb}R_
z&M;lv4ijDLK)$w<SRV@^H`>JDoUjw?QK`U;rr-4R(s-(rm`q%~jLF%yW2P|;LvYPc
zn)BzV48J9*9v1U=Vco7_j2x=Onax)~*7X;e_j(m-sVv5%<Fb5@YdKI@vxvVg`8xDD
zN^owEyFqiXA;-h^2FB#&5)!)te1?2s^Q19mYkNCUN${hav`R44c`nrdSVglgh2X9F
z577SgBTaWJhI!|kcmk_y81d}STnE+75I@HbcU+&x6A+{{Ikkr6k~PpcT9{wHb_*Qt
zQ-@dlH^^aofurOPW78`NB>gqqT;_yU7Fpo7_X<jg%7aaQ4ZJzPddZ*Gk(rjEc)qC-
z!}3?4vF$V7i5_7*A#KVrxg7^CIzb>85)FTj8W4qD(r9127AAkOX6|i%MZ_ydaq6Z5
zrgeWZ96rOvADjqK^0|(te*bvqUOZup^$*j8r?MQI#R<$J`Nu?0D+3I_Y=fH59n|Fh
za>!RlW|Q+-?2QsbTi-r><{%4o|1H8bqgRP#`a0OP$N(K5+tMR<r*JmzQf3rdwPEfv
zHor1uJL6Qm2#kq5#-#o>mEnG5d)jyS*d>*gx47bm0u?e4euF3<>xI4R6~W3@3T=a3
z$cG<KV27?XI;_ngdlrPyH_xmv`^Yqo_|9!u{c0uu&bKY-RiJ|^({JOT$|fudy@<|#
ztU<P~iw2+8AQJD*@Xz)r$e@X!e6s)=cWp5#c@l+|T_x0TAcRhht;ex$F8VESgkdRH
zRAFmu@L31kz0?`GKc+y5+aehKVL-;T0}%XHqJhCFh?+AK_E_}N$U;^ZTCjuE_~y{@
zN20hAgy2-H54^m69;3Pr!uK{goVIuxxEAlho^6#-IsS!L{<|Ko&7KQ)y@epA>?o|+
z7>VI5Dzd86n3gPAP1bKIK+_?DjZa>qO1Cr3H<X0CS7*Z{M;Z9JVF_K6G6<p4fpqFZ
zmdjGA#Mm8jsMG!edxMui#iA2DucBb+wtYf}Cmc!VpY8Bi=RDf9I6&(_JNdIt3?+`d
zr_Z*of$28QY>#b%LZw<T<Log~b0~uDFR);<M-A|VKoD}w>!|(NEFyGpC+*%Bfc^37
zNWg!B%+}R``1ootemHX-29pkBf%1M(eSIB%i+`k#!at*2%Vd@<?k7!BemHJ_7L3-l
zam_wC!QQ#-oNkbZBQaMnEx!OIxozO7Sw#-JWzyNl*vvGqYw$~8h~%57qDw{*^?p4S
z^e#lh<_aN{DE1>lq3ekBf_4}`BEjxxdvS!s@R+JXsF*Xtn`|6MCfD6&KQuE;Pg{@9
zC2?qe>nLfN&c%0Kx9GTb5(WkYLio;R*qUs~c}EcB4%>s?cp}_cU4~Z_ze4E32P9$m
zJBm$N4c_IIG*sd`weh%$1O2yQlcgev^xsF1?h3SNS_RHNY3Q&05UweIM|HNBdCYoB
z*QA!v1E(4>wlWDDHb&u-TRphaCIVdtc0ljLQ?R|v4)5r_=cegi#PV0|%n}zb=-ypM
zOv3(>&$>-GX<`S8rp-aiCw{e#%l5;jjQ7kd`FE&%ED=Ab#KVVR17fYQ2Ys%y*@prH
zyn-joz^Ww#`t#k{+tgdYe$){Zk7)wu>Q$O|d@^;*dq=L9g<#W{-yrp*2c`y{=f&;&
z36qXg(en{^$c>@`W@dLAM0^mS_I^X8rK+C0cCj4F8mJMa&{DYj`xsts&SQF~WP`zi
z8Q`>XKbG%($6P+xN2>=)@%eBEFaK6Cw%&dY=S*rS5xsydW%-QzP6_^j2Vry~Y8@GK
zVOg6yE_f?rDrdh-6AI1zMh#a_MQztSdc&arjQkqtRpuJ<D^{|;t!6l~bq7c<eNMw!
zoy^ZXg4{SMz&Yfl#rw(b!6vKblDryeZo~Gwz_GkZI#g=F($b90?Mi3$**FmM`3cfm
zzlf#yIv6vFh4oDdpfSG)mGmdU>y&I9b=ZN=htkmT3&7hu-$`Gs1%{VLKu()7Z-qz~
zy0E&qLbDF+-m<1Pca9#6gm@ACTtAvC%l7X0nc<mD=XE6}!4=g&Jeo3OI<?)2qzUbW
z89k?QxAt*TzBqtLo{EC^$(ht(+G<qk3V?vsv1n4d5PoI4g6caN+|nP+zL!`uJMMzU
z)<*2@jsfOh?;`LnO#l(kO<?POmklqti3;5tSe>b|_Nnm_v_BF+>0>3Hk!dzaM`TgK
zM=|hcZz|+1%7yXh5BNuq<)3(cxOzee6o$p<<pmO;6`_Tr&kRs==@xWO666Zq5yRjQ
zcZo&6CmgWc1f_S~K>uSZ?(Jvw1?mY+T^~#jb?$-6A~mSunX;K~^|ZH|L$fw}<642A
zG=apDDm@Q6+Bj%>?7|uN@4$5wFOf&79kKYJO$7^oS;K`D#?0+A;beJ7Gw6T6g$HxL
zaCi1x#Xcbekh?02xm!NKjOSaif2|U%9*o7f|9qe+w3PZK#ZteXC=_zaM8OyLm_vU=
zu;|e(G%n}k!}BY#QA-SDvXQ>}B!#l(S7=g1DIQ?W)HTahamu0zQk==oIAbsIWCfe|
zT#`-`Y%PfAO?LmWGXi_hzM~^XYPF9-!+}j_C#v&J$%>SE1W^fW5HG+B4`0)*PaA<d
zONf)E=1o@07Qr^|JX{*mhK$H67)y<y#YTDbjH@+7?2o3}7eCOw`PDd$Hw)(Q^I_Fp
zQSv!M3r&OS!THV&`c!lpKR-MU)TVplOJObkyPg<0{-}*A+;61!%nEUx#w8T{o`a?G
z?=jf>J`VZ%pr+O(;Plo}v4MwV<DXhs>mfmml4P;#egb60Dnf6-G~6;x6E3cdM9VV|
z;MJ;bqN8x1cDk=;Zk5l1ACk&^i!al$Um*~WTx6hLvj`6x^}ttO9^?D95JTb~!uvLL
zzWwuh!ez5FR?i<McAT|ncw!3<2#b)8$4f}(SA?`P{xnKb94obqV08im|Ie*?^Cgrz
z8?0j4hXmTO+6?)>f^n^1K8iU9!=E@CJh5m!)PWf1p2BLh5;4KgZqM+<aWVcMl}wOf
zbFU-Rw4ur=pY7Af$)5A4aZy_#T_vGL*Ez9SKG%ln%6Dug>Y{a|bZ`dPJU0RdBL)0#
z!w@a}rbQl!YH-|)ilAo943Ad|a2%yB<I>EXkp3!@toSpP&Af?%Szp|+C88JaUyG)q
zc3WZWKp&GaWhp$G*aog0wrKwIJe_eV0Kx^oVlJy!#cB34vTpal)t(PW)mEU6RvtAK
zjN!#>871%5%;HGReoU9xAHqSN9V}e`1kGn`!ECNAsrae}r2Q2s?rO&Kss?EJiM=}^
zmkvuF{xfyPweaz&1pixg2nlYkrx&NQzM^xPMEvMR)+^s{8rh^vzZ7nT?SGT$wdqGt
zqEQmQ`)87w@q;Ai`$yuoXa}|xJ*2{^voJv36~YU|u&G6nmTQLM%eQ@Gq%Ri&c#b4Y
z(jWhIB;twgG3dy64E8n(yyjPvIK`f8>Bmb~sg9d5=aJI{2+cSF2jv^^+ItC%lU|Lx
z&jf;Oc{BYiz7n`XhnVN@96_mYIa6jl51tPl1LrBe;NgFg%wByLB<LJmHtPjV$#BOg
z@iMrrrB9c3T0>jG3p&O94mvhlVx!7m<~m70_!-Y;yO-g^ni5DAy$aoupXeR$V$59V
zhksw1VP~c@s2u0gnnSB-o9u2FS@4mn)&-*28wHcf&9hOg^DgvRE`;jHco-Kv28qw6
zvfkk_uz7Lcw7767wuVi>FQb?Ed|xKMAM+<4G!s#CS138T>n>iuZ_oQWvxM3Xy@Xw2
z$(VRbgw{UIB~^38!6V<3{<Zy&B(1oHtBu*bLdA5D`1cOgoXk)seUMS8Q=z5Wp_mdj
ziNyKb$6V!KRC@h;TCR2;i7Xd`?`%cCyTW`V=ZK-&YFJ;kkGFf-U+yZt1+#leB>R8Z
zO$v4gp^`@+Y<~Bhp3Bq0Ud>m~v0V|K8y1n6bD?<sfGDrWp%Vi>+kx)27_9nw45a>w
zz@}&6WP`IX|N6P(G%GC(PA1Esn|l_$%4USD7b7sh)+t<m5n?9QL$ls-DEoOE(k`oF
z&@-0lP%mNcQMAC5kQiELw}_rz_MFDE`2mmE+Bqbg3a=Ij@P)~Ga8F%FZ&u$Sw?ln!
zH0KRnu-%Ykv<vVX<rYHy&P`Z%NCA|BC*w5jQ0QHshdQ0hKzC0vx()k7kyjw)u?(Dy
z<00~9Qy@kxvSTxeccQOg4K7}}g{zy-2WtM3&8^>uC!5@%@-EU}Ri|malN!F`t%1`*
zYD`oABPiZ^osP`kN)2<C1GnA^twjoIe%McDY?3{A?fWj`Cus|K+I9)|Exb>2WBYl5
zkxj%`V2SAu8AEs*#&W!~t9U=3ijtRM!MN8ho_?NYkLA+RkXoHX9ZKh;x2Fx2KN*S1
zmBM)L?+n=Swv{^`ki?T8$OAp=7?x2Jr8h3lg34b`Ks=Y?{D1rL#)2Z0FMG=COPK^a
z-(I2enZxA%Y(?y2Gg8JGN4O!=#oNUCIhqm@iL`ev+~MzrmO+O8J-ZVG-{f&?4*fED
z!afr}3Y=la)mx;|<ugyEC4*NMP>LC>=Sgs^gN(|J!aM0DaM0No?S}JVm(^sN>RL*^
zU81nXnu3w12+Yo_fc*zNp)qbR@LSh`s>@7jbapa`|Go*&AFie14mW78ULj_c4B+uK
zpUA6~a&YpY7`4`242$IBsP}bcSSw_SGrW(1dvX{4t8NARTXFbMu!1?38OtQB@_{}3
z7QoDeOx#eHLLNC~;o2SI_|Jh$w$99lC7qk_=ch-sa*+fs`0PVx`Z(g7Y%lN~{X}Yi
zg`q**aU5@H1A~!n(m5f5hjQ&fD6SFipB};qZahg8TMT0k8}LJ_4_fOWwpOOoo_pW%
zYC-|3>qerd?rQW1@WR-#we;YZi@4eEG_|&p<J{l!3pdUCKm^+3sjja9Y&CsFw$H8Q
zE*4jT=VOz=|N0gP*8fMEyj1Da6iv9TP*1LW6~Py(Z<%`eC}{j#ie}GBsPM+mu>Hqw
z-e%+3Jn40pSTCg|4E%cx4j<-l{`z-;bJ}#2O|K^x3YO#iIWffKSvt)0zDho?4#5%m
zY8d_woIh3h<jh%r=46j3r%WjkE-dSS>*DY5q;d}Cxut<=WC|J7TZ$|Hd?$}=h4@SF
zi@@$7R_l+j!Pwy`P--}zcJ4S!)3@7EThlo_y<TUMaEjH?2E54X;eO<u%7epV`>=55
zATP`A3?4Xl$kh2K%M2Omkm>OrL^flTwl*tqrh433mfrCY^;S5e(}X-edmDwn@1@ai
zz=Oh5GdSnBK7(MhZsN%VlKrw>beD1`yOLo&?5AI%{s{rT<YrfBFS5tSdWYfj4|PyD
zd=2hNy@r#*67c-*biR|A04!d<68U~%Xl{Lk*obx!*LF{M=qLcX4SCG20V_0eb%Tv%
z>^-Md+4x(G-C^vU4D<fV(|n;JVrX-e)%gQKsL>iD&K*Ld_m4=*^)JNau^0NemmvI?
z3%<IkXu38O3u+^IgYVOM-!TZjG;nEJmmg}oxj^95Gw`Lkj;1V0W}-h$koQH!bbDP9
zZq6at6ETl!MX}zEFK2L8lN3D5zl-7PL_nzPGV|3yp8sER94d(vlODkfaM=C<{d4Fk
zIk$a1BpO!2<mKti8Yd47ypsbn@14P&a@xf0ADgLxR_IUf6PvUG3^);v_hv67Hs8N<
zr*W>Lgm)0cGTTw%o*f1$tOBz|8*sKjDQrJ4M&fEZdH+uBq&cdr9ywY^uLM}rj)6d8
zs4WDga(f||^?`;?WD;S;Ix6|iA9pvtCCW1Y;VhR)=(%$)FqW6OvwpuP)7XTT6=m%F
z{Cx(7YBw_8PiKLCry<@Rt_QadqA1(ni|79Xteq^+u^63z=U0!Ac(*CoAf=0g?H)WC
zvwx7i@Blm#nhG~vgE2bcB<`EFg;(`+5FM<FdD8D2sZ8b)rgd>LU930{FH$4ZkhXN{
zCiaqS{Vxi{dnVD~!C7cpHo@gcCX&mE{^;wW2(MP^LHyT0WWQYnlRrO&8nao1{gTTu
zV_6*>YW)b02drS)9v4`5r5aYPAH?PeHg&*Ji8r2hkj;?Tg~eB|lQTurG3sP4UjNlf
z-m$F8Zk=x!JGYArSv?>N9z^k4MqlEa9(y)#znhMqE5yiavY@HeNgVeY!QT~Es9u*c
z*8FF~2%d-{hDu?))$7>|xP_VY)&6PJ$wm!DmQSZK=QZKxBU1=4*#)RC4oXk`q1t9I
zT`qhF#{$2Se*Q7WrR53PpzZ+jnZ+1?B!&5M<q8B^t6@-|G5RId(6`PaoZcW0T(~vd
zbWGzt91}^zLb)}l+Vc~OKU(3O{WZ`ZT8ir(!kBR~8LC^n;8svHtXf-!le472XP+Ry
zJ?I>~;%Z<*n>PrhnnD^!g9(aabM!eb^vcCRRN7e%A4S&!{jUTDe_n(+R2UMOI$Zr$
z2p109!JXZvH2K+5h;`VF1Eb=gAnA^xqRYYdhzw3WJ%;D(>##;+5=zX_0p~n-l%f%o
z{_Q4K3V|f`;S*T%NeSHYXVQ;{y>U2A7I)OH!KEzoQMh#-*EXabk9^i(`NzLBK&uiB
z3nQST{xzDJZ^WbZiIAiD34gff;m=(eydUSY$);lwq)a;quAE`-`^=k(>1E|mv2rp;
zHBuAKJRBjfw9P<eYc8pLoP!qY6KJvHO`K!>fiAJ~fz-%6jP!g787<j#L;GDkFO-1H
zwM)cowY2FuEl=F#Er8R!?vie8KJ7@4!q#9Tq8d{KQ9I7Td6C8767h^$eYs5xq||tq
z*tzfMJwdS9pNBhE<d}xuY(a~XE)a|=BDdRZ>5N!myd@ojr*hmuWXT)&B@_&i@Bw`u
zg^=BO)1k_0DQR&I#P95l2CpBV$Ts^ZkPeo?kb&RSSBPa(*X0v6<5sfdus*c&DenIo
zLO(l-;j@W&3}qP@c~(i1ds&N8j&I@H{F88RYX`m9um>0Zb0ro%i#V@;<neCCPsT@$
zhG5IScg@||aKfz%E=aQXKud0z=FSbp@}m(@!d-?XyN(gtr$v}$`yC>S0vQol0=G0o
zz&j`#U*GXzW_!kCidPmc74(EtE7rjdySo@Y$rWxspN-W!_;kd@oW?8Mp>0QR(%Pg_
z3@h`2VP{twaq}o-RPd?6=~QgqXG{*1o8x|^*|c1jXDXJnl9$}c@?V!P!`LJ<kjlLU
z8(pu^l9q#}qkD8XcAHOwWSKK{n3Kn5!|8%NdsFn=a}|z%m<;EiLJZtIAP%el_(H+n
z*Pyyo0(XS!llyYXFj}*kW=AiA59vva|L5zF^;n#LiuIu+_*COsR$uwmrwg8D{=}!U
z8{hkhkZ1Cp)I@s<=bh#=G)dJ5hlmgolg-`(x@v%iFTJ4kp*o06yF<c^(s_NgM`7m6
zy|nW|58l{)9d9f(#j8<rpz~4|gI~-BPFgp37}~>x<RJNOq{#6#K1>}Ox``lVvpoOD
z(0TY{)rN6gNH*CNDY6=5h3CFbC2vKFN<*QNN`nTXY41@8*(1sdA>p~Nhm=T5WmS^W
zvWh0n_xuCN=X0F<+}HK{eZOw}ym6T;c=SpQ3dJN~S4tv03X$R&2o-SjLn~SSZ7nQz
zd}<+R!GYxyc^0;FMj@Y+Pyrn_3sP~Ly7rtR?MhLspAcZY{s7s3wFXqlSt8#xmACAB
zCAMsp!)(D)j{f0F6f>7Wxfz{Yp3&|4-Q(xrb3+GKul)^PGJPnvBp=vJ0^HcH2sb%8
zsI3*rc8vz<>f{<Up1T#Dd=GOTTb-pB^R*Z*b*5pff8(&09k|vdvu>s3BxnV}M<I?-
z{N4y*)QFLup9-N^M@oy1k;L4?SX*XGFKVm-Z_z;bkPu9jmZyMUuQiIqmC?nW(s1=M
z+wpoEgloAaSh>l8cWwg^frd<+;uKHr+BTvQ*~RveOF+k91)do(rYlEVXotN3#-Dru
z2V$Oq%yTEQM4}O=oE)q-usdmPvG@a#GIGEjhOD1u+7+0h_Xt!fif92=(K+2NQ2Xu)
zb@YsYMHeg3Fh?6NefvzpE=SVN<6ZPbUo43{;sd*O7QvK;>&Sne(xnI5;f(wv81<Fn
z<-QtackO&Ux6Kb|R(K-W6g>yV7syk)*l{{&r2(GZH5fbgk&r{BoEMwF1FY}|e`gnN
z)XZ(T`f~;>4GP6<@j#r}=uO{i>hkQXgQ4`)T38oyl}^s#V8XBu)nl_Q3Mn3>(=?QZ
zsy@N$^C9p^dne>AGXp6NLxfF{Y)3K?WJ1}jFUzMbxyAM%T%Kc1s}3D`<O1a#OMwmB
zv-if!oaP-NctA6ShPtXkOgO`-oD~jYTHmqQ_$B(s-@=wec_x)TJKlI4ApAzzv`Slt
z+>6KpJLfv0u0Kf<3&b&S_9f82z6NR|KCrW+ep>MNIviMV0Uf2T!_x*o6lVF!FE3Q1
zTU!dm{uss`Yuae$nqMe1GZ%LcedP|Or_v2sM)ZAw3r)Q34riBh>FZt|ZJTGw-KBCH
zoj#>-{FcSyOtWS64{qq=lrI;+qeP5ZWmG}}GAgkA$~ZdO)N}XMHp8+N8(?+39rd{B
z1SeHC<Ll7`i!{6Ckoe3U@?5t<ly(+<g9^M<hod+(do~eren;Of2!wNvTKGPp34OWt
z@a}aKc(dI`h0g}C^72yf+433b-bC_UvJ9&Z1X8`H*>p&KDeTJ_CBc!8anUSO=suPX
zqls(Cz+Pn#W;3g*x)E3z&*pGG8o)_63y58In3|o^qYuoYVNpT?Ui>efv+r#hh~86z
z<9AoXjGf2e?;<C-D<Z~bN}Gs{mI!ZQ`g~ySUxbA{iA0H`OB-sPiH7J_dTZx3(sEW5
zuCY5GyCF#s_&Fa3%MxfvQxRSGED}y6Y=h6I(oofKfHOPg0WLOs3FluK(x$4PWb3De
z*pe5Ft1_Np#^+L?m(~DyPhs}VLAbEi4V7B@xi0))@QyjVAAh<DHw`9{4Uyj1$=pDF
zA4(;I&XHdRIv5?J1kum^$^NfeR4$oiVx+o)#d0HX(O3=R`f<2z-D>#9e~}}%Ed|W`
z%jiN)HDa=N9#|J>P&tnbNEV#MFpJ+p0k4QYzEOnnb8U$mk!E`1dx?7JO129$h0XMd
z@t)~tk@Y8H(C*hTCh<4nX|q*Ss4au+{XL13t62^PO-FtHaq=hm4@;wGd0{KsX?eFN
zQF7QskL=rt>t%;vG+cleA6SMR8RyVNWhpR<PtkBj2fCRT;?jN7q4TaQ0RJ0$Oi7#$
z1=f=fEZ0j~e-jS71cF4{X$*PhhR0`>!I@hn<l3+6aQs^|Jvh3Ot}$l47e9JP;ZO#t
z7Qe>ks*C8G50g|Sh(N-Y`S?w0GqD?PqG#r3lJwTgu$4|BBeOE0%Riq6&fUr0v(94v
zuOR#>l8@e^Q(<p#BMxpwx~krkl+3Z=S(G2)WIaoV>Q$8_)Z-#d9Ah1Ve4$+XbQ?(T
zWtoWDvG{iQ5v+P72*MrWxbg5bcr)`5Hl2M53l0gxkI2KE5uXJR;~EXU_b<ccjzsjZ
z4?(5YJp592i5BeJhXYz{9(H0HI4+&dc=!E6Y56Yta6Loz>BN(v_TO~D(d+QyTPB=*
z7l=}k;pETJHgM`XPIs((Tzg*a6*>EK1j1}RFg`&EC8Mi2hrOrr_#{(_RrCc^V_Dew
z_0!nQ#4P4z?-X8dDuL-cTi}^>2-trMCZ!YnXekv-s;6B+lN2$0o@jw#g9#RN?mN;Q
z)<)uTQ(-6TI=YfAz`V3iq<3BYP^a}cj3rqDoECsw=RxolRD!IB%W;R5B(qQF7)*Iw
z4$pm5!Mbc1&W$l_$7K@!b_CMiPdezZVxRe$Cq~ScE6%X4C4gobR)bQ@d&=09(Yo_a
z++-7P4o)2=SF(zzj_nBHv%Ekj8|PwI(-R1YR|IvHQR;qtEg9Atr#<Tq&>ohFbL~{S
z`Syemv}(6y`vWa_=hQ9yT^E39yT21(+YS=9sT3Z^--Tzgaoml;YvFI37-SU@j(yQ0
z{NB6<e<3@Qlg`EP+;!&Di{Dby-0N`q;2JU!KOJ9o#*>Dy7gSZ2bxQ7trk67-@TTW4
z`gBwP5}fD3ORH9RpK%v;=l5|RCbV$#pUo$?ywxD-h6-daVducBCBQo-geEq~g4Lw~
zvVNopgWAnuo^d7Yt#d}Z+do05tB~5CxoRF(VT464?@?GP2o(H9IAMZrkTZWKH&Q@=
zS8D`#r8fiS={>=(+cqH0T1Kd<4E8*#CwFd5!97!UaWtKUae!sgea%(DQoA6KcfUZF
z!E=&y*A3j9J_EnDGkjBX!ii<6kR~j`OZr<tWYuSZ>zb{|pMH~AzjA>4MNg<t=ps({
z^ye^ZuQ?Q{2s7_AHlY71MW*N9OSC<{7r(X-pnG=+w#77Kn(TcxBNB)0V{y<I989FQ
z%FwppE96=FDD_JY#dp)fVcJ>=mL>L*EJ==rb*k}zLuEih{y=EkMJhHTho3Er$i6@W
z664Z{+;er{%>R`NTfW7^G#m<7tC9raNSs@tMSk-lP(f!9GgbAmv+OXMFT4->CYy*&
zNjd%cRE{y#n4nMc6==YsBz%2oHF2+cK^4k6iGR*|yf3?te7mH?x)#DP=3OVzSCnUa
zS81H}SCg=nooh}_Ng#_Z&cG~()lfb22K5(cA#x`)m{>tS&R&6);P6KbD<lr$?A}sX
zY4em?^uC~y|BTsu*<6k)pB1RZ&Om)N4tO`;rx{-PAl-h0+u1XhlU}6^RvyhDq}GC&
ziqSMQ^9n|^^E1Q$Swr)#ChA&TPU1acaF+=WC8reNE?2~NKUt=qUJunjv=`qvIMIdW
z*TCY`M;ez)K{p@C8SD3C#zYyX<Vp?XoRBvw7MTmlsVUHE9Z51mTS1PK3|(gP;GfV0
zG4AW9bA#fsh52c*FS3&O)aH{bOVhyGI)#MXPJ#L7B*Ep4E+=P_-<+-#K^gm%_=vU=
zE<d8V%tDK^s)^`zc#uxN{1}K{I-J;rL^!&Xu6g_i?c1ZkV&egH_6&p!LjlfPyGPh&
zoj|;GTVZM7U%ZeP0;3{2`1!<E*#BTEPxE{yy<Gf~G+WJvKaV7#_4Z$KPd*MWD}{4&
z=f}dy&*D4}%@y3!gBA4tr6$_<P8LEnN?CZrJlrB@0YZla@J)Cy+{^W#*4a+zUY1Lk
zvJ3dJ^(ctTzrje6E*K3q<DFvc@yzjjs`6BTnD%!<RR!S7x?q@+JIXEWcfuoXKUptZ
zEbwkDMS(T!9p&O_Nc;MP*nSg&jdulzpPLjg4k37Piz<H2R$}<fkF!qUa(G`S36bmi
z@Z+s%3=wI<;HyqpZe9lw2kN=~>pQ{C>li%gdqv-6^K)*R%A;#_23*&ZKuN=oaI>_E
zsQ&GvV#`A~)t|<pYP~3P=~@~*|F;MxkM$CjghaAbdn2dEsD$eDjBo@lzD9|Zc&Pb2
zNNmqWV6dw=*$e%2<?L4^;np@V9b|iqc6^L#ur$_%rGV3mRQ#u31p6eX@zh7zePQ_>
zv=^O3BcCSP^+1))41MB8zTSv^-7!@2FJeZ_4LFuvhElU<KwOG6B)se3l-0Py&Z8Gt
z|MM_xi;p1sc46fBST#*-u|uE!jUXE}hAZL{sl$#!h!4}I785ZzWc7o-m(4^|Q3;mG
zuSm)>r-AVIXq<Xg7FQ~;x#MR?*gnoT_;dai$Mfu8>|7EIho_0cs)foBR=phMt{B15
zm(^ID<H2%2SdQ)^F_e)hgIg63C^gs$297NtCSZkOR-Zue##BZkFBF3^*Fo{69Pr@3
z!LlDc>V-Y!nX^eNpya?^T$|tz{Da$Zi)SsU8@!^9*A}2;bun-P--CeJ3{?1e2;ZO5
z07afAIo6|w3Ex|>&iAXuoDVzLyqh9paA=fDdR7DZl?P>Vn_zf#J_IgLrL#9x!7kc|
zg=zKh!~G?A$b4qI!TI%4totiami5&BjiIymkC3b@t~esZI!zXP;;!JGH1V|o-Q05v
z)P4hj^VOWet)d{-upOT!O2emkA?D4FUo4l$o~s!UNrY}5#-5XBIQR4(p~_Epl!^1g
z-HCSSr_1^&6}<7kfC;E7JWI^q_>+|`vG{jq1l^WUL(<R7!msxsU{x!IZc!g;b5<Ds
z_;L;6`V=8jmd(bVTtoaW#NzaSS>&ATJDMFN40`QK^hRzH(bL_;I#Jo&e1{nZ9Bm~9
z8p?3y@N2r`K^ga_ZZmj1=qFk(z2urmF>y9rLamS3;;||dlonOMKMr%?^dBDDScX#w
zW8d%9Y@RHr5tmhbruH5Mq^qYCjn2p7gFBUYR{9Kj9A=$~yTYN>^%X}i;25^t+yEgb
zT2WPdCmyZSM(tUBWL?g2dj4`GW`-TW!n>ZdM@A7oT*_kE20}ddqp94GvJ0d&)0Z5Y
z;er2NjnM_s^FZH92fFuJ;*RouqO;C|L`KI#W$yw=4N${btvR$JI|}J&CZ}`vF))>`
zWp~a681>bW+>1+xbC!p>O9jVhr|t+{CcO~$*l#f}niS!g3<g8HcOJEjDx!+VbGXNP
z?qFYB6&yV|$t`)CiGka`upQGxq7mVYmrqR4rX@+35%G`|sV#(51v#>`VhMgasg0+%
zXQPNrKOTY;@aw;;q+(_)96P!gZ%->?yAn^yU9THtA)9fz5y5^h?rDLR<lpdYMVm#K
zkTm+!WGZ43g<9_&@Ia~+UJZzXfu#}fypW$)^KKo>jOXLMm~9WTSD&HpyC4`B>V+IN
zg7)2Z@IEh)dVMJ1_64>A&5FdhmGbnB!3ZbG%p5K6b(_mKITC}@SI{qKBOZ{`pnLs1
zF(|>F>|9t#^y~<{cv#3$EN?=A<&w<rRqc?xdK6n^e-b7?46@fpf&EkqM(X}CoD6(L
z40NK=-X{egJiSP!rD}rxSrdHA=AyJMm%*Zg#i-o85zcr!Fs*Uc@Y7R`G5wZ|4{t7p
zz=$svJ+=<a*2OXqeAW`AghYw(thHd9FVA`Ce-2visxV$txtP|l6Kk4R01GIfCx?<z
zD7JvTzjctNS=(@@=XvZcWpf;QcThL(GTHiN5${0ABXY!99NM<;;9i<5L5xKG$ZI9G
zKRSCqElJEH*5=J9d90O+{o27<?EI9vn5;ot_Fd@xdk^k1^9CbZ9$YSzL8<OcaN2U5
zxijnxBb~SE^rs2)sDlzQn#>{Bp8I0cCiZS<u^7b1rlE{H+s}yYC)I(G_~q&bxX>qR
zF}$)L(iBU%S^8Q`_Ym7b>9+)j#`&P{EzZ1>`~VSBDclF<`S5wpO#CT46TZeAK|zhv
zc>do`>RXaZA1z+T{P|Cc*;RY7&i~sS=CL@-d=F^HuOdYd{6PY)nBNES=GWB7P>ETA
z`t*)#Ep~Fh0sppSI%j<zGzpKO8k_qt3Vuw@=COpd;zVpzyGV5Y-G!|IDcp|<cX6BD
zG*TuwMjB43a8DbHGE#H&phzhV>T;r4MynR1Y>+{c{ez)Mk?lY3n?iQI^q|SlS2IID
ze`Bv}J}&Uc;(nVfq;u82lP=9b&h#DXaFv}!OjIcI?(ArV#2#7Z_*!FT{I?UY>eL9%
zQ4>O?2zwMd_yBCxOqik96?7oG8wBrv1WDBuxK=v}VwcPV`7d*Ee25=DyOxr9GtZ)J
zXCQVDB;wJAet4{PkjmfLO^Lq>-QB@DJq+`3?Y&@Z+%gH_4J@B#(NplrSxc|v=%V(&
za*pzjb>O`EGx=}pTAI91nVPs>#PV(3)bx!uI<kGcbJb^|YJ&lC53a)6GkZW%A`x``
z7a?QVKy!a7!TH9U)Xn`h-qc%wSqtUyo3SqJ`Md*i^Hh0RMn_QcD?9tYkj~z#7Q@f@
zcnEC~<++uySx<#A4mU4?YZ3K<{7$(DhJE!!@%txErCv7nJj{VUmNln4-a>_bcay&c
zQDm?|7b?p0A;R;oc?7>7**ua8XV}@$#r$_{4zr7NJ}AYoA3ofb+U*#|osRXJa#7Fd
z3(Bn+qPrxIvo0-n(td!S7rrG9_&u(0!=HRX1#1!Jq-ZlWI}u55CUufyb4B6y9c$7)
z8Nv3`%1O!14CHKaK#gaY;rc9bdivHaP?tdZ&%}gk%u{4LLEAy@QUH#|?19994%(x+
z4PD|(=&i*o>Ft?_%1N6^2>a}=yH*7em#!1Z#=Gcxc@~-Pa}LZZx%hJ3G_s~47;LTI
zbJgwFfR2qk@8nfA#&@?1dk5bPjn6JX+G<CR>8rIMx~c;{FU$qSoO;-M{5I9TB~0`9
zKaodAQ}Bf>;;lt5h?sf;Y<jx}F*KdK_qi~JcWsA*QTe28mj<>STZ6|dtguie8TJ&3
zk@qLwarRYD(mHN6=_<cOvX(x8PMaj?|F{XJ);oddkret!KL#@RZCQSED|zZU9hdvw
zfx|KNXym@0B!y1r6^Dmo>Ch<m)o?z2G+qeToITmB+$;zZFNKrl>SWqvG)>%C2#PFM
zS6L;AK3TI7WR3%_vpf$&&O;;}|ByAwah$K}MR4P4G%CzJgUhyG!DE+wfOqRO-R6D|
zK8HL*uaNg_hHM$0o4%Gl?I^~q^(;fXRtm4F=7EgIai|uoghiQLICAAKer%e;OtL&*
zMX6AZM$jtA?&X1zvjfPr`Qk;{ZdgC(916<)R~Pa(0V1uv$jr57;4`-f_)6=DRlGM|
ztoj7Ej{gTU&PT!~>$CXf*bSVJ4M(r)WY&cqg_939(o?51$cx+TxB7$+#x5$vwPSIV
zKHtJ^w*}l9UjysaHSoXk7cf8HjV!&94l+;Ap#RJQ^uN?Z#EQ?t>jF)Lj|zyf%JBQX
zG%Q^^h*}A(Pj5M!SDKjtvI7DjE~^XA`xUY2?k}#X!v*@t-W10)&1vCr7ji+hn2xQ8
zhw70XpxTxJ2VMK&${z{Pt+_@+UurRJ{)@SBjn8T2nVTr2W6GpTti=tN{YXINPHscs
zKN=qLh73+wLaXZ|QG5$K$66E!?~~H8%ufx{rHY_Jvlw<fu!gX>5O}sw1_yrGq2rPj
z%;`51ToGshPi+ZQ$f0CuAj_!Y;|FysL&ifd9~bo<r<qT+m=~_;c*s(aTJmMWbSYcl
z8z=(V6OX~h@;0pcw3FN6xD2yW%V22m0(X7bQbr_NiRZ-jzqiP+S==Ye<kL?%#y3ES
zAy3vqr&=TKT{uKO?74wiAEk(qfd^PGe*hw-lki}o7!S^G!^4E__gb`J(sCQt3nBr^
z#gd%HnrO7$o<N1dr9l4LLtM0WElhO9;VmgKj-lv$7&8CJS$c}YJd;W1ln-8`O&Lan
zFEoVKCul-oMlt8P=>YLF=^--z38GL@Fulw6GYi(TeU}*$jH;|RNL<~^vhM7laEmb(
z`u~6x*X_|(<uTR-8(_l?S)AJY6wA+VgL~#yuqbZ<v!XT&d{?vCtBsC0b=zFxaB>W_
zgW8A<cNU{R&kTLSDp?+*I<^p1=19UnFmc%jTP#@O&r~D${eiuQx3_Th?{%YTN<225
z2P&CFEoKR4l86u`_`aQwn`mT3{f{=H!JmFgl(%D!Y!-;UYh$|x4sfyOEt&r%51)UH
z2kG(^^-;|{y7}8Q$ewqLZW5V6n&KQ$>Tfy8Fr7g!ygxy_J8f~$h|4io$t89VP1xRZ
zC@wGyhn@~wx^Qb19ymV9QIu~4jg~%iTRDSp#b41*vt6LZcMM~{YGK;Q9^&%75NeOK
zVUzVa)}QqPe_0<Su7b_=ZMR?3OD>u`<--|RS!xCgV!xp6?#tYr@haF@cZQ_41Y?$B
z0X8gnL09Gou>FTsaLKxmK4={Q@C=2`D#0Kqpa<^+73!z#mgass-HV|*r(pJFF3#rM
zhVUgUbIvaX^S9WuytW8Boz1`%sOO>h34r=%61*ePUC@**!27cOARRs7j(t1Bsph*C
zC<=P08CSyLey``g+Fu4{XWYSJ=U28BZ3qiS0;%`(W2h2gh%YM6!c|-L`F{3|le0?{
z8_x)mea)xYOxqBB^71$uDYDGlNd+d9%^g+Ga6z5hQFyMo0gj25gOr2{INJ=My;}qP
z8W9FtzRxr}ir`p{78ASkCM@1G2o1%oZ*J;lJd?(w`jampY>qOs;_63uxvdPmm^Nry
z^%`yolv0D9!?^EeKmI#84Kt0{ds(F^T9i(J%G@|m(JbX^#Low%_-gv9!I7MB4uJr*
z3HYM;0re7QLXXu;j!{3mua;0IHJ@2j`+zT%D=MKCT19lA`#$IW?WGVB=Zdygmf)1<
zg&hM)U?R(-foZvL_nZ}*6Ltsjt-8F@<*eW83VY@&+u)o0Y4o1tFgN09E-9590LQB{
z(eCM6TG*(Ldn^EbEmP^dX-UNM*mRy&qAbWi(Z`_KQn+Jb8yUam%hU)NlU*xs!c~Lc
zRBA&G{*+uyPi$3US{+-6t|xn^T*5<fenDn*Xc5(8>9+%#D^TD`I-PfED$i)x1oTYj
z@Pfx*QtrE3^uXF!da&d?{C*onUaMxX-nD+R-cyQUAw)cd*wr97NKx?|)X&rsXLihs
z!p{%du;|C2g=^gu7&f1QRZ0ygx5R*Ts5oPRy*%!-HN~*#4`e%Rf@f|DkXvyIUHQZD
zwebRWhciOf)9J`>)Q<z-eQ=81R9J+f#MtjQu6KMzs(yCk@W(=!F)56Heq?gKy}LtA
zWF?sc61T~Y1qHbBu`%9!lmss_(^w{W3$1B94Fz42c>f*S-+yzH^_}pj!iIDRsQZqb
zS6a*=bwlz;cLT0^y^2gO55)1@2WZ(}0;8*1Flq04?AmFI<MzwRCTBB{`NDR|R&2$R
z1B*$o<!MlyA<66FJ|w*o*?9kPH0Qg714!800DA1AQs2&DzfTF4g|b}x!ucHa%g^bH
zsI%BxU<7U@cj47bb95<w4qb~nxB=5ex$YggbjQdU5IUkm-r8$Z8L=|l+pP%?cgXNg
zv0Y(JNj(@?;0|5%Ejd4?0mbKUfd04*oNhB=dAAoKTeJf;`jvryObv=xKF6n1{}A8i
zzw`mydCmA4!u47oi#l(U;D~-VeUPpOO=THyhGkAoKgecpnprNpB|qaeG)P?SSvOtB
zQBWGq=Pvo?4qD(3V)3z5wOfoiU$6vc2{%J=#(ZAKsoA)0wI<G-(M&%Ul*7DN^Kr@)
zN!}@I7pRxWf!Kw1xL<n~3ca+&w0&jtN2m&_JE{=r!F;eZ$Oo}-9d^bmhTi%P@R7L-
zd*UZSQsgOF5_Or>I**ay-8N{s{UbYjGiGd$)!=u@lbAn#k0bRtntO0w9Zk%7N*)`e
z(Yroh0a=!wmYEHayEFzv|LI!{IXI)+ihXsT##?YV%Rir?Tnf{OH>mbL!iMhe5WTDj
zQYMlhal(RW{6T5yo;B1<>@ZcIa}w8Uyd!7NDv&?7R`aG;s57^(WTW_f!e(_3kfW8g
zm>*G%Ruc*2c%K4u;PzJDRh$Jqt^&NZbJ=BCUSECf)ocn?A@qq?I|q+yVv3L<Pfa}@
z_?K1Tw8MYEh&{WFABJ)G1(%>QcM$3~jBpo^sDajMKHlQ`BXHmI2ZXoZ!JDppu+QlU
zitW?`l~Xt2Bl})6mta}R7bDS>KZ^MM6JX}5w7_ucEHo6Tg0!Rg;C=B1u77`vX8y8c
zF6jHC#?OaT)=B`t$PL~0Kc@F(WuQoXC$?3~p~;g#FgqcFQ=`fd4cefr=RJ%sPAB%x
z3GBDTUt;TW0gLns@b4W3c;tAWb(3C4BC85ApUptF`wb?<&W8m57$PFm1#@KiG2Wg_
zX1DP%KVt15>XTr-_w%0+8?%zMy#4|)yYe}GyT@T>njXEQ_L2G>3!|HKLV%<54unq4
z1=%_adg`Vr^T}Wo&uePX9d3)5M(!25l<x`dz*)TIH>;?@KroV763l4!EX-4rWxh_9
z(0xvsps>-A<`rw8jgB2@SfGUBsS!}?aURPb7n9v{cjA{<(WKo*fhj)QL%UAyBK~45
zPe6kUTWY(ZWltt8x6Xr}k8?rMx&lw#Rv}yDlz2l^<ya?d0;bgm!&=SrRB%TkeLFo4
zzxssXa1Nh^>ZV}u{q+Eju6{{HUO2(0Za!Xk=Q(odQVvZI)I!fCMfiQt7%%TA!v6Ry
ztd59*?Xz9+w@WdQtUAzm-cCle6<~(MSI+YLNhAuxuw~0a-sI#Q__6i|+-L7ehIs{O
zeXj_MwAxAM)l86!Ucx(L-b~}9gSdYUx=6~=Fud^QI*581p`f|6g_hwuScZ;t_PjAd
zrm8U3?94(jcOjGJe-imee^c{2*=T&=92^<X1Lp_E5MX=^rmb%S&3|>^bLtbChIQeW
zotIEc{vg=xFvfnrN#d&BO~mX~aL3;3X0pbnV0W<$HQ!#q==;}+$L8s<)8iUSteH*K
zcj=K;6NfOXJ&IJ(Tqqg&Ol7A3K>Zqj@DaL;;uQpPZzphF9@%q+RDej+I#TcV8(dc#
zGCAjF5w~B><cj)T%yGL45-&G^sc$xlzLn<K&Ug&T!`VdcOeq-O(86<<LNQ}$Ix)?y
zq|*y+uq9$EK4~{%GY@}2_-YV2d2=cR)T-m@Yw>Wf`6b&=Zl=pU+c^j56dXA#PVKcn
z!JcJ}T#N7X&|AbFn-)&tt!AHPzD5N$@4KH<RM`mg_EeHL56+_Oi>1V-igF+3?SMre
zhseD65>h036N2(Z>E7&af^GKnSY8b0&#EF=_HQ>D+;j&Xa~&P;Rb$~B3GTx(8{{8K
zAdl8f(B>~J|7tj|UU@+i843Q)*?mlz4u8K6(VMmCwt0M595+tx?l8mtR6*WJ*&LD-
z&m&mu4$Q+~?!r!GsK0WLJi5_N^%NuN@1GScBg!7r6f%jLttKeO7eR?tJ_<h5ftt(}
zu&_1<WwZZ7MUfC(|9F7Zekw!bw0yd&<0>sastUC69LdX&BVz-f!Bc1_*#FCe-!_@h
zv+W8M>{SILeRW(f+6Z-H+Pq3#b>`RU|IoKI2xmJH%;C9nWX~Gl!gse&Q`!wyeHO(s
zxoXf;Q{#;bE~QPWJ8;dZbZ{QKgA*xIjOEEW5PJIu9o*3YPufagaY8Am{MQ6!3Bzz<
zY%9E4LSfr&A6y@!4N5{k(V$zBH)ZN2DDm_KufESjsa}!ySTqXXU4Fs-zt`|qVKXFu
z?4;`Y2k?&XayY(71A2%nQujzw!#e?fNfEe!vy+&18Z!e6qhVWP4yc6bldqEhNaaJ8
z%lYjoJj>gU)0WBcw#`yQ0b6S-TRjiOvs|F;oC-eLwH_Aty#@=G?U~FnLb?vwpi@K!
znY37jvnn%5)j~OJ4}VVVBLqOHz6rxtHvvb<fo$i?=7yQv1!0w)^vdcajPFjTF;Xey
znX)k~nC}A-`vmB5tp{+dXbSyaS&vVLv?!l(FdZG=jjJug*n6Tp5E2bz$AoaLjXHR)
zS&Yj6*lvp=fe>v=teq|le{)7jxn)1?70Iagi)6ibc_*p2@J;MB<6}&OrFnT(Pq~W&
zSYKkt6yDZb1Gu!g6rxzB_)1UKi342LxttHmEJvkwiZriaVt~}M=d;I{9;Ix)ZsAIX
zep*@#PHWrYg>)ord~+8n7EfoguPgwKXbz*_ssK|&MakQ*4DnasXQt5?_+qUZx?CKE
zgWr}A2?qk)CF{^NYB~P7^n)mrzJQ>Ao5;qtA{wawgSKydNG=NOp|0%FsLtkU<{#FA
z4X36v79Wma)akt-emI1htXs+)Fe)SErcp$qOqlt-;y5+wYohOjXEARZ5$E1Ni)P1P
z!kW<=q(-BO`g|`Z&Emtbxn(ac7-xz3Y~CU>^dT%ed>CS_X7bEetDxQ0*Jxz=n1)WB
z%Pd}53vrAV&W&XEL3y%Vsdt7T8)<<vve`b6&JODI7U5FA1Ke2t0*9Ga&V<Sr8hr9E
zjBa#*l&~<c^(m&`zxZ)Sb*8XBHYHwc`y$di12ODHN8J?9m(+AiH|G6LAnkGyG>WE?
zw{<DpD1#%g&?*&Ob4uXe)k!MNp2dY3XMro61~!J`(46`P&Nx}oQ)7JiDp3%Y1<j)k
zQx$N{$W3^NGokcDFzWx5N4ZlUxEcc{JgeP*pvgE7+l>6V*TqXfY?V3uUVIThEStyn
z%J0Lazhy8HCJe9mEMYuEA6kl5px|XAy7a~$PUK`2Se%F;A1<%NyApg*pk0p>|2Qx|
zw}&>K_J=+jHgllC&U)RSpk>};nBOZ+$FZCwn@f@ct2jt|cbjA!?8mhiSuWJ|1k|qS
z<HSgb!V~9ybj@zyiqQFRF^db?w4HXBZm7Q|tjxHFj?*TmNfLN38aOIHV7pyDCi{58
zVx>^JXhsZFdISI?A;S!4Cg2+hVR%3A798r{kWlN3(7!GTz1Vzk@n9WytWJ+NebWJ~
zcDV|!udn0RwOUMo?_zTBekRTGHRN=yp8_k=k3gJe0e*U^!Sr08!F%*Nj~op8!YyCq
z1y1XxF(v9XkhZK1q*b?)EuqyQUUUna_m5Ng@E|Zb_MTI!YXLQ1`FNQd7Ls?}>%i2U
zi|>=FAnV?FvSvJ${0a=<s5J2L%EyIKc4akY_p;2!%uFnkxCVy%pJQDADLUZR0<X3>
z!B9?Bz49et;MaFS%jOjPtF24Qmal+ZwgVT#K5sovrg(6DA$$;zhrYw1@Ff2(CY^{w
zq0+5zrL-94#uTB5!a=wsnt<H=RRs7gQBYfiXK>sbC2ePtb?a}Ct8@E-?-I*cjXr}C
zY7uY_Ot}paY|r$VIMIrk&a66}1%l!UREN#)%r<@u?e|o0zs^cXv5X;uzy5=}vfr@h
z+Btat;U5uJA16+Z48D#rpdfq)B=n7-;NLCSHOB6)s@}p|mJKg6=m%xuKcTWh5MrOm
zkvM@DRQ%>4c=?7)zPUDX)Er&uYmaEo>(iI0y6-SI=H*_n>wL)BJad9>&@_UrNk2F?
z$<GNBydB;QuYmC9Q+e|SZqTm=k5J}x5O?ix11*U(N4bgJcqiD5rpsHyi?AB9Tb6Yf
zM9=1}^?MHFy92J0iv?D710E|6;vMaeRM`6lSgA|V-JSeA&lz%5`dSd)UAPV7*jdT(
zJ-YbrP9;d4=;J($T91$CEe88vCh$DN0?&k5g8yaKh0xc8(bj1oSN{q&G$iBo&r^Bv
zdVgTlFcY*3R>F=}Pbln6!<6D`G@mMie*%i2Ns{%FAKHaqmMC*RhzW8WRM~yeu@bHs
zF9;vZ`vgLB1c4Y<g4MSnYMS<lb7*-COw8Iw)GaEAgZn(RQB4F_{#tl@x&SjP-b2Zc
zGCbeFz_RwMw9ChlR_qL;Zbd)1W49Zjs$&WBH#{B=1kU2+Nw$#}CN+?}Hvj}u{cvY>
zEXx->$gz)I$ewi$bSQB@Ja^_}R9h$M`Iulr_`|sAWF}6zU=6R2WWjUh5k9}1#B#U7
zae4A=M*m1X$#XEGezi^Td>#iTmVP5!z768un0Qcj)TCJ~H^da#dGD%!wC{L5M#!8a
z8@bmYH)A~`_x2u@D$7AX1umVO;sPhw9l6f8Z}j>15WIa?3p6jblF*V|ygFA0huQnY
zoPI@;eAR_cckBU&+fTUMSsqvei72x&2sUfFg4n(_u(36td)DP45sQ+7^K&YpHa8Sy
zbhe{V_;PT`ZNmBbo%oiI#U6Y)2V$rBc;{Yy0DfUp=;Fpe>zcc$pKJ$fYpv1nh8p9>
zAAowh=QBNZ*KwA-6f?CooxYME0{JE}?wyZibo}ow)ERHZ9ZT2@&$cWwnN`SoN?3ks
z(IuQ2%m-<@eW2bv2P4^hl=;A7EOWVmr-Pi(Z-E&cZMcSt+q0-woE@62SELI*hma?7
z`*3DP0m_z410U{XvaoF(Sg6k+&B=XKlX$?1u|8bs6+=$nZlPBeZ^8)KBT#?qGxU7X
z1fh@jiOgYnSO6C=Igh>0CdJbl-MuVJN|}-R-cMVaLg=F?e++Xy0w#wwaL)=MnAwm@
zk9*A`nv3}H?CnU@K2#2NmZpqqiUaIumg5B<E~G1No<(EE0!xc;!#~!ov{uX&c{;(k
z`==Tf&uhk-$$fZp$P^E-_f%7LTN<>4b$r-I!z<@|=$RBm7mHm+$-lv%9af4b{<(1r
zyB4y$;cOBW@DpK=6P=kJOW^1>uuGaGH3h{aHQWRp$6s^)Cd~!6-CSB9Qi_e51$1P@
z5BMzFq3-)5vipe&@NIC0%N%8nNT4D#ADPBkx??KVxYe?r*G|+RU1Z>d7RO90f|^*d
zvkQv~?)y38==YKBZP|pNujm4fY9t50N$<pt-@TZY7!8uM)3CNi7@gSONujG1cF4WK
z34acGxy1wB(x$+)_Gm12yhumFbKzyo3wlu94tqw7&1QK9u)H4)NapII)<!nRGxZ2H
zG-LM#Y%lQ5GJA9hFD2f-LA1&+2nK9_S$Iv#Kv&ZVSi3)-zL0x>p)t3}lF+T}&$|nb
zcLGVX#4chf?~dP>g^_{l>xpNfFscT4le#=Vn9u%u-~2Sl>2MBu`edW<x3y$_=QrY1
zvj*dG{t_vbN(>G<&n-Gy4W3W`gJ}YyWX1+#@MT#`S5G8U*U$H%t0S43M5<%L-ed63
zKL|JQN@=aU7qPk?4ku*qquJe1EY%d}g=QQA3#~I4y<Q(O5{hVtb^~{!qncx7ZwAJy
zNiaiY2Hm98OcLjta5{W%(mm;kpcNfNbyOzlu&Xt1Q_Ex6_>ko`3MJJG-d;uCEY^Yd
z@fN&NI~SsT=^1(owZT0PL+I8j!7T3)xRCY{vTu&lwbzXC_u9AM+i(P*d&R=L&UK)9
z&j}MA*TM1;3EugD5eQFK$J}Y9xUK6IaSGZ8Q;Q<-+GBgzVq-!Q`fre)j||s1&5=Bg
zdCHAA5=C!35r?dcjr8}xBbso40hxd1ux?2M-f_Q<PtNYem%V1ZvObE<SDrwZaWWVR
zn&8A5mPMH|NT0`dVOi@8e5x{xTI*s_(QGd{9eWe~WM1Hef*!=>ox-voPe`#~0L*^6
z6v`KUr0Z7c^2D{q!EjL&wl*|DCCiDLRE|U&yD}^b<Z$o!=Cj#Z8|rZ(2zD+G!3aYw
z94j8Aj}5!)clxJb>5dmLnxqL1-cc}zojq>!b!D0HVsv2t1owr^a#Y_i16JIeN4U2v
zA<L+p$hcIJTb)sKfT^XonF!8<;|3V!la7gtx6|cTattr}4k!<;LjHo+SU0bmEc}%~
z+J=f?<xxH!%xHzVdiU{fupKtfa)nPrcEIOh!Mx%YQ{VYA;GMP{1pXDX?((&idu=|{
zI12N$Hch2otfwK<x{AvGR)W0udHC<`9U2!(VWXrw(|5y=^LMotb3na=ZpuyKM$6A;
znmpTS{=+#CezLqyZp@dd^!du&HnJJq4tc?It~%1O>CE^4ZsAjZDH?hGG>M+M8k!co
zfPMdxES~l2z}_-NbnP^vZ=QT3c?N&Urj@ZUK4wl_-cF;Rvl8i_cDBp$wjbu)^usz$
z_PH}r1>R3(EL~Cnn<U!N>DWvZ{K3JiWf7q6U4^sSzma7wqP!mhbuhfeo_rhb=5`&(
zrs39SpwBs*xLiDk-*qc6=yp9m;Vq!wKMb<$f~6oZ>puST`-)43Q*kBhY5A$6kFhDw
z@QNu|%#^mFhII)R1LcLd!-XH#^XsC(?ize5HWlx%=Sq^+D~uM`L;3cZn7UyJ6Z)`~
zb=DoA_ePyL3il*%{DA^oc$`6gh%dL;+VKcycZEP+)_*i{>Q8(iwFMPsEy35P9iYfd
z2{gj0@cWs5sA1<je^UIwL}WAlxg`e!w#mV1n_hZ<D3Ol&1;d`8EEGwufc8uIP+@lo
z9iNVq-{XtH?EW2c^R)?jkGtccHR)*F8c*Y5SV!0Xv*gsmJ-{2tq9s2JP%m7ValSH#
zx5c%G<wFKQ<kvYUA>$5f?hO*5$|x9(yM?i?%CL9n2R-~I9f`tJURd)hJgs>X_Bf2-
ziBD@_u9FvLCpS}p*<bL3>U&K1;Du90n&8Tvau5Jd?7z37PA4~*Q?Secd7WjjH0E0E
zn&CGneU@dgpEKYF93G*<6-w~7(U+Uv;03SbFOc4AK@b>q8n$pVsi!T6lX`eAERIUS
z;9dE|QMQ6Z{>?($sVeyMRV?@#mw_r{4Bv(~;$k&F$hh!{2!_tX{Z$X)XYxYm+xm&V
zYd%97=e5(-OMF=8o^+j3aVhxr2f*d2WAL=S3bkkOlkXydXsPv#j9G@jQd<TalyW)m
zFAT!MmYFc~hAyPGl!4-RHZ%6TANz77=+@7(xewT^bD+axw0c}g3JYp!RaqPaJz-g2
z;@Q;V%Rcnb`9Nbl1Hk`k2|ivqpQ}N~X`zN5(W%IwQKIiDuVgcv(OZPeot<IZU_9;)
zl7O%&oAKLv7w*j5eW3ay18LDa(i5IxCbY2%o%VKccg5s$Z}?@QT9hPOo3S&*&{DiU
zV=sUtfa2L1oV^jUxM)=>`JTQE+A^*Zv3GVjCOAZ9?#@L1C?72UmjpsJf8lHSZOqHb
zL|6APR9PheAGfBFKB*sYLBI=h5(Ka-;03Pwm5H_Khu~wA22R&-LEi4|7++M%2}+B^
ztG7GoTlQ|U{ZcNd`Ds8l`#tk?;|DTtH;*QDU9_-K2!~GDdE~a~ZF1xNRCu;1vwl`a
z4Ttw59ABAF2k$#Sh%%2uXTG^X9b3aO#pylWru~jqHQwR8(wyKJnS^k1WOK2x;}UuJ
zA_e0UivbVT&{^CAMDt9!MZR(_89JT@{=YTx`^_XA*ZE9eKDbDK_iiQzecdEK#sOCJ
z`QXQYMG#S;3%5#H=ieFr`gcBu@E=bTSDNHtz4MrP^MN2NdgTGm8}`6z_vw(g)C-31
zzQ+vtN@{V?8xxBC!0Y~OU}<tpbj%t?Iwv0au@{1F?FB)9A#gat?nPWB=(5}KBy%K(
zottl9Ryerf?4>32^$&vi!MfOKD$V>fRi;JhLg?q02c5d{<k|r?zpML|j4wBXO~rFT
zXLTqB429##6?T{y&V#w_et2+312>upBBykNXmr0fq&>>R=KGyAOQZyT1hHL{P5mG%
zYzGddAL;5>acC;8PYRx`;uOEHh2AVSj~Sl^@84d8=72Sz`kZ}Na(+Q^$~)+6I1RJY
z^y$Pf%QM#RL9e>`%rW`jtiR+BjlF!4)_L(DY4HdQq{L#*U@liX=P&ol6fx*j{7bw2
z?_u5xBhJhN(|Fqg#py$-DZC@9!8q71$ny!GkM5;!Nzs3c5pvgH@ZU$c?*fuE%TG8o
zN+I^+S6CB#23}a*qxTOxvGa|1Zou`KJc-*%RAAjPDBJCTAH0`f;DwE_aM~bEnjVNd
z>O~mePc?K?WgfcED@Viih1esl#cS<jIR!mDu->J|n8vRp!K(g5%|n!_j4OdF1?J4i
z>JwaN-)o?D_6_!YP@|8#UP0vHco^AW1Q$2Q(Vf>%&>ec;sHD~~XO3_hXJDZdw9P@(
z3^T*lou!ae;X}pJtT6C^6>JflhP788;Ylq@bLLKAf)nS$V8~rMzOovaQ*VHo-A>G$
z9N?j{KUuHeMCOO?M_cVw{J3fp%=P|D?d5cEW$|Hfl=X*@j$Y)XEheuHdcoD$C&Zqe
zecyj{604KU;mMIal$t(_w$HA^IlEdqZ+Mih``$n}uT1L28qBcX*V24JjWc>*kc9mk
zBjM|n7%t!HNosjc1|D)!z*_zt*?5QLM~XkEgOxR8-+>Zz^w<dY!6W2@P#s-3c9^66
zbTh3v!a&`+z2NBTk7nP_g2rck*!8R&+86^=yu-3E^%L=`e;plv%s?wd64A%q@YE-s
z%wOjPAHSDdR0tQtU*nr}_+SqXc(&mR_h8^ZT7`cv8bC*kC|sVd%?N!Fp-W&oyk5T;
zlYbb(7TZ1W*K~~NyZ<7;Z?e6U6_>a!m6{M^vySfmRYvW;ic$WoO0L+y434t93TM`y
zUtGJWhh#>=X2^>UB*#RKb5AATr<p6`(d+$8eDYF``rHpit}Dxg-?|ou^ylOI@-dpR
z(h-(>sKZ>#Cp6bo0Ls**c}ttFa;x}F>8Gf6`qfYf{yhmN0h`3JQvEVl(>Izb9lH(j
z`9=6*M3i>?cL~mCBogg)4?t!l0#EMsz~ZLgbim0NXOu;Amu@Ua+iodFa=#AvL>>W)
z-c-75+A4h6{F4^h>>|<Zd-~pXafTL$gR9LZFsSPQeU}k%+Uf;{{%Q4vUyaC-KsUUh
zy#@k89B3>EVuOh^V|-MEH-GvqSen{GkLS;ZIfDW4hV>pg`0!)EtX+7p`Zs-kc^w>%
zVs|trBtd!l5xkqf0d{#VNAFi(>3!$>G<W|fNwJ%biSwf{!)6Z8K_n6<mi|GO=#N&-
zdvL+rD)MIJJX`7z0AKeD<c*Ffy$-6VKh9>riart#vBR*ZiAyf!yJPX67MS4M%5k5+
z5UxF)P26{N<Ck?G*?ev;ruj^xqlaeWuP}X3(;DFpIx3j|C~d=UmRt-XDP&1O8=Ppp
z%bi&}iFuFCgYXA)+~#~6mVUlM$N0qX&9P-@x}z8?Ligc<f)_|?Y-oylAm@klFfISY
z&)BLdU|hKvGx+oXDku0*>#lUp;1*rp)^-h+8+V;6<L`<4TQ<|=RSNJggrE8Tel~OS
z@(qkH-voBow%4a;9Kd%)v7Cth2P8jk2uB2q;I8*MIP8CpyF_LfikCKn=9Z~kzI`FE
zUAm9xY>KTfq$lx4&`<cjZ;<d>ra(sFC>RKugV`m1?!wjQVCLx|T6J85XSJXG8+qwM
z+M=UyB9fg6BsQbb_X6Db!;q(E_W~Ep>%^+2DWJXlF+7;-!QI2o=Gw2n!~UcDNk86!
z>Wyz$m$WW5jB~@{<00^0NC?)mJ>Lz(?x=UDf_Cpsh4MBX*lfHXcCk6co_%a4L9-O<
zU&`{#4lBa=@*w&U12I}#4&Pjlf%wr2;C3Pqrrs6jDZI?1YWlahy&IQ+xWYDKGjtFw
zj4Ltm(i!U3I7a>{Mq$fKcCMw<4UcQupsj{OT68UNFb2rput3rpCrOy?Z|j%Xex}n(
zdf`!vDc6y85WWr1B>RH*Ga>==7`~Egc#hKxU+ZMRnf*>mE*$~WlJ`{5r-%qif5gJQ
z5zNm2u5v9D0$_BzHBGz}j;10P$!jMk_Ss?gD9kUi$J!b?kIo>&H!P^_hiWw4`kmtx
zdk9BYt%33bhhh1%64>_YFz)Qz#@TYBp1{Fn&@g8e(?lJ(k2c0bw)|x{y=Z_OqO0+$
zem-r@nV=`%`=QSvB{+JB&qA~yf-Kh!q>f!-tcUIk93_#Yx#Jd!80f<BEA?1=d<O1Y
z%f(eMf5V{_p){aNmZ`ETr~0-AsI+qxIr<|J!r7klf8W~h&40RZyIhy4Jjr?ld_}QR
zvY6_YB*CtC4>*f83OMp7uHzc{a!%faISJY2N|w26;?n;D7<C#!qBmV(nF0;ef_ckb
zFn1l5*7d|`EYCr1hA#dzXs4lZI+&`V%KDz8;fbmYZ~E@bWbR}O73F(Pm$e#VS-&}c
z@cF<!ko=PC-o?Y1*=n2)gLPc{DYwY_*D)Yna0c67Ux)g3S*CJm0dHma6dv=tfavqi
zQ^$n!<UwUH{a`Ht7Mt{7=xQpYN|vDWQDgFalQpyF%z3i2=nwd)EAjj{vyS?ktl!Qv
z84jG(!EQHE_))NvBqjVnH9PkAdnUy8_%a|RZU;n~O7gtzL{V*zAg8EH7sGDEVL*Tt
z2tBK!Mwj-ILjDMh_MS>p9_C<7lRgM+4P<kOB^)oWN@zS|Tc@^uJ4_9h<2^sa&$#A1
zqR}^-QOL~7LjB@w=FFf0i1nn?vzs#L54kY%(K8M@?*)LM7wgU3-$9==M&ivMK6vZT
z1x#SsGmHLi$NVR&ITz0V#rTQ~=;4+HD|}fl!KoEY`NqvC#mK<flft~M^)tB+^$%&(
z=s0=$rydLsSn-S!)6r50vFT7BU2|Un<}O@>!P!4Jrz}<Iu|<gGA{9{bn$7xJ)?mW@
zUNY6q1wM4#h21L_@dO+c;I@(tc76Rs9o`<LZYpuK!Bv>2uh<JogI7tox(8$9cp29U
zUBemAmw=E<1NdyKAyzW~DDBAN`1W?u_sNBDZ?uR0dZ5KKY>VKu%ctX;RCbT@v53By
z`4V?Z1;EMgHQ3<EIzmGk4!NPkGa0di%CEZkwDlEPFuf4`uWZIHo4MrWY%~19W)i+;
zWTI_jI>^sYhVv%5SZjNp=nSpm^*j+|cy1z?;mm&1|B0s&KkslW$1YeDl(MdGcOf1p
z$_vKrgXyk_M&hiT0504^5bFP(O#C+l_Y|JOUbVAaySy^mVziZdNd=?&f=Ey>R{}on
zY^Lh`B{Z<>=WvSa>FVpoJg3H;<jB1&;&j4*CMw3_oQH<EU=|-r6<lZYKL1m6-r-cf
ze;hZnXI3O_$%u;Nxj%<gQY5KJ8Y)Urk|@gFO7<utNfENL&;2>kkd<iAke1PqmZEQ|
z-}C#|AFj)Fj_0}W_jtV*<AZb4=z+R0RC)ag`G#a^?XWzY5^9C~X;XM+uRddD5zBqZ
zxPV^WEOSVI0ilW8(e9!O`d^!dl}(0N@>Gmd8J)^(5aH)NX716IK0oQ=$3rkHY7m_g
zQ*fWb6H@%#imnV6CkjWFq13%};xnrYz9a-fmv$z)?|Maa&0IL*I*;IGl?kWXtrgoj
z&v1_ae_-Y*!+AbZN%vVfqnfD<G%Wo`WfpIP<}?DYZ|BlS4G&1mftMiFsE_3rs~|d2
z3U+*Vg`#Ea$&2&RAgq~yiQbn$sOu3f)ajzdDyQN06J4tNF&|#_l+nyV4y;j}g?}F_
z!m+{tpfCQBX#cZt<g-5-6-m+BjVEZCo(C!v@!?ywL(ujtgIgb&K<;I?V()T8v`d`B
z)zG>KPu5)l&p%Dzre=X#y+nB$pU;qE5gNEodl)@`^3lMt;)c8(S4r~sWNIgU1Fn*@
z;5Jyw-j~P8idA<|FYO^2SS@4n_~9T4S2n_g>EaEttu<h3`li7s;26_(!JB1Q&*$(x
zQRR9>Tq9B$zhFa4C(Lh9f*(bKytFxebhYI=CODJLQpPRDm(Cd&-yeZv86{9*V2P$9
zvp6cBGN_{DezND}aqfqYvfwItA2f1=!J}dkf=nY(a{9{1HJ@i$K7KSb#Q`k8@TmWa
zAP5_LPCS>aL9K~VvS+6|4nI9ZCsW^(Ey2ck@?J2bI3Z5Ho=L!&&r7J#EiGI(Qis_j
zgV^|XGjDuP!I@K5@GJBc3~frq>m_$#)hRKairQ32R*3>DzB0@b+<>aeIgqyEFnU~(
zLdnz8sAZ524>SzX{Hg(%TAiipdoGfMcS*SS*>Sv*7X`+-J?K8K4{y|!;r*E(;I&3>
z!>5p8s(dgE&KLB;!3Os1`Ar4J_tsGF$1Tj3z^f=Sb2g;MD&RVnzmp{}3t!CG2s=KM
zVX8wb*NPWLe>JTG%Q0`zT2%<K!xq@Fya_(IOy%Z1U5F=SW3j0=m%b`WWsV$pKrcDo
z!r(GiyY7la(K;TLeAUE!&g~-i4>x1~7DX&%x^Pu*D(uX@M%%>Z!*G8e*>Ex&gUrJ5
zdDC9#&b$gUjK}Dx^(!(We2mH35r#S<nW*=49QXDD4LTG^q>^0Vg5O5C{i~0wsk)1#
z&Y2)R-8s0aeFt8;cM)ydBsdAIXS-=o5$mVz<+KR>A$NmAVDsz<GNP8mn75A5E;GRJ
zIkPx#f(vk;p)5>l4#U$}MbHkcZzwq^hCeR*W6G@EbaM3#6lJqB(MBl{mp_BPJd#3h
zZ_4E!a#JFiXYYcbekVwzs-egAx!|4S2X{SxF+uhGoEVz~ICC@$R?NtUmS=A0=K*NX
z!e1WdH{!c1i+JllrIJF8Qw$ySfZZbc7!h_AjCXs`e<#`?>XIqT^RVEY*Yl<}0}70u
zO#`tD)&PYMpD}9lBF^l~>STwZ4|h}icZPGJkJ*?$jnmkf%Y^Bh(N8<~5#MTYTp=OE
zInPz)IeZY}d_9%LxOlcu^_%NKn9caBM+)%_gLUYpsq4UDvJ;A3%dqLB4%gz;3fL7}
zhS@&Gs5Ewr{&v3!0{5q~4B20>^qeqJ`jmsl_2DK4EH6q;APgD=ljyE6Z*oa*J*u#0
zzrP&@aI*CtRlHxuof%QX-QW@d8`+#$pXCNBIZFZCb0Sg0RGD1aEzk4cbBg<Yg3Ijl
zzX>Dao#fGuU`X#4#y4=EjL5Q?8TltHC%Kfn)$IrH2J7+A<F(NKF&fwHkl@tz77&w}
zE@Ze!h*#dG2w78AV7rkTtDih1Ez>11!ZMxg7kP|T&hvRu_2L{qK5=fBwjKmcQgAJZ
z$BfP~+@b1$2TyK-qMPxIHM@m79LjE1)UN?cl|7J#ugUO%izIsB8Mq&F!BN%+=uqie
zE*?LXSN6pjjN^SxmS1+pj`Xi&L$x>HWES3;d`W(^rLx+X6*P7&hPYqLajowgl&PDF
z1Jl`^Bv)%R_N@l#s&YoO|2qD@@dl19bEO-CjW`)<XX)(S%}m#fhjf?ZbM*ICU>QKH
zUjA<d$I+I{d|k+Lt5&jGEb>Zl|CJ;srNkaSblTy&I~C||)Pv90ETFf1YA|}Y5O43t
zE#Ty$2+1PKXptC)q7SBm)VL+;^!>#fR`b|B?;<Sm*TbjzB^dYZ5WdnA;k?v}g?j=?
zs8p$kdx|R?WVGwx^iU7wlXoY#>O!$?`DNf<E}}9$4OE3Q54%*}*MI2`1G9f~sfV!#
z{%nf{j)MsARKZ(%$qDfybBC*K8h|arYq0Io9Sp2Hfl<{3pnF-5BdqKWlP*Q*J?jie
zq)!rIpAGcJ>Sxqj#g8_hSdV<WilK3H0WFjWCzoHdnq8J1TzD-FH7C8usrNI<Gt--J
z*gT0?T)IWCc;3K_#XE3ftqjb6vY*&|u)>2i5|A|!1$-~{@cGw8$Z_}pR)w?Br@EiJ
zuOl30AIc(|_->i}`o0L>UVKi24HKy%uaF!ztsp}c6<9G4Nu9PTV&n!>+}f!~a?k98
zt&)ALMp8j`pK2wC{%yq29w`!1TF1To;1XAQ^c}Gqy9Z7texQMTFfi;3Lyu-N|BMvi
zVtW81TQ$Jy!k&1`q!250@|YLtBix{IUo7}>hwKe;!&L@HpsRK@(OX35BQ~2OE)Wh9
zMxroL7{XmLV<n`kOvRT55p-LxKjemmLb68{Bm~7VvtCP3r%PKwaQ|}TF-J(R1pEG8
ztBpGLH(9Oa2Q8?wq_dZ|np~6^qu;Fkn4J$!<Kh2WP<yi=j%E7c>Lqu{28W|~Sw9bo
zn^#c(7kr$<xfdYg;(nSmp#Uyvw_)?Yoh-xkA6`4!0WN=qz-mD>zU!9)NrSg0+Y|Od
z!F3)n{TU9~iwnuOt?b_XeS2IPno3T|5{|8OFK){Xq`sBftS)g7zt0IKe^)F;V@RMm
zHzSDj+p|EUDpBjiPPlepJEVTf0UNdxG?MN>58qpkg_jo)o7sAp*BFk6li4%PrC<2s
zu?sf)YofGK0azZ|z&u)i9#)-U3vSt_@SoZUv%KjS`BI<<MIp<`uZc38*_TZs&SY_S
z)@6X6T`H;i8v;e!*T4~$Gt~Dq3$5nN#l_q^^t`qvEU=a23}ofO3F9;zC|CxnpaB1+
z%plFF-6VhAHApUKCN#9E-o|t;tuXvaxvzO-$pvp1{LJQxe?4Hh@jg`Taw*MDE+Q?x
zqOk9}C(0TQoA@sH3mMt{#O2L8IL`L{bDqDYTGubae6L8V+I^KeFBK(y|3y;WYgcf}
zj`y@)yBKW?-&4ungVb479dh@FU{*mMJ^d^lCm*=LsJt-GY3)oLFxSO<X<wMozXwQS
zQ4Vc*91D)qPNMYrN;o=l71J$cIUz>xXta|yL>-C)Zv6)E`m+@$a?|PCwXNK$rAKJX
zA#vW(L%O)~!bhrky#Vs^ld<{sQTp$dJM7ta4U%3|Ly2xTF%AO8XW$=M?`wo>O-*s?
z#g(Ag-+=j>B*C|r4}>+!xPzNFg3|DHs`sfC-qc$`!W{=}4q8gS9n~N{N*_q}k}qWQ
z#t=NB&SM^JE<)?`V^sPBV$;o!(0@7;+*e1#KcjkB^lJgEIh+FW3l9;yh9lfV#yq3~
ziR4A!e>g|yJo#ufNN+YRh6`SyP<OzIROp|_C4X&Uk+2ZBbT3A|_2-yrO#z^@ER`B0
zErp(%g}CkcPIRis#>_r#wxhfp8!YlL_^AL^uDeK!me!$}PXT=Tbp-?M9uod7fQ~gT
zT$|Jyw)^G^4<hE%dpjSa<7W{JT<!>8m$Do8*X@bdY*$p2^F)}Uhxfu=q43uQ>g^x{
z53{b&vg1Zf_5@qw+w_xE{nv~p#a8g7F9Gc=MPQlxJWQ5b4xfhw@aM!h<(I!j<a5`c
z%nm*Ho_B~Y^+}}zP6z4SeNmv;`J8NLH|={inZfq1L-5z_97*2YMW(f+L-)4|>L0Wf
z3c9Mf$2!Nk`CWGCz0{WYKJMfW*c~IUlboqhND;I@@x!#$m83OCnQ#LB!1TUl4Qg)d
zq3yQ~n5)W?U5bSm;V6e0FLf#TJWBLCZqrT2W8nAARLnRji`k!dlEzPBq|Isr6TW*3
z9d#cf9$Cl1>|-lVy<Ny;pIC`$eIZ;K1wK5#(2&YZ`9bxz^U$s+mWp+pCTX^EG%}Ly
z`ORcI`17Vf`kC`^#K{2cGS;)btlh9Yg&zvOpQJUS)6nWuBK;+<jY|gEz194481~Q{
z-yE5TitV~E*`Gk8Z+gMULy-`Exq|%LIgdF|FbeZbg|NM3F5cMlor&6R4{j?@LI3)>
z_-u~{GuO)oHmJSBj}D^{-LL?zsHpII?u)^w!57-KJs$UFNbnYFh`{dSYSit*1hI|m
zfkELF_;*S;x-^Pl`@Q9~Vro3}Req=E>o$X~<rp;GXvg-cl{i_t4a4q=0RMI*(@$FR
zj(6ThTZwMGb&dlw1}Dic8y`%O9HPT6_AtLX1{Q1%1-n#sqswvy5qE51&UFF0x##2j
z4?dV3y9U=(w!%P@Ebgf+hgzptSj9h!sE+r8<W7C$be^Vn15z=qw3!AvO7ddg$H5Ov
z9(U0eaeU=20uxh(p=!Q0JWTe4`kBvR=lgFBPkLlPyS5WsR?EN;d$yfP+DXhMRbKOn
z2$&Wp0D+Fy*!)BmM4Z#8W5O5mADeg7ckTlFf4cDVVl=)k?dJ~9*M^=dRcOsn;)vK3
za!>v-!~Hh@HEhVS#(@og$f~An=1aj=Ncb~^Yt;V10X{F9Q2G^Q_Iq+}ic+-Nd6hP1
z-(r35btGe>FddQ?<z4#8p<PqNaP{~*wny8Fzn8H6sf}-_pu`s#SeQjz{C5)1YG*V|
zRE4L%wV?F-DXw|22E9%ccv;T_;92-t^s>6kzLWVl?yIzTjd-@<`>S^(D<%$|&0@e}
zN-fKueMcfr{Q-k^V-$4}#G`hl*t6Xj9~51oi@%tVrwV0wsd)ee|6ayC%~|9?wIr1O
z`46@^?uFo-qu5t$4LnnKbXX~gQE!Ftu0{iFTDcQPBDcZ*SNk!gJb>u^5&@ypKcIYS
z4vw9U#I-*~p}0K>re8`R^I89CpW-<h{_{L6oPUl{f2jh;T<q!LmA%-rVjbqRr;;n{
z--02Vy*o0uj}*<>4KM$Wk)FyYR7Ld$?HW@dB~syF{Q5(kouvcKd1FpxbUf&So|$+)
zZIG*BmjY$cYeDGQRL=TF3)pd;OS`w62dU~(y!ZGkwdJm-77b!Np@1B2nX)v`x^E%w
zab$M@Je*J~R}_2GPEfio5i=5F@b!#U_;zX|V>L@0>Z~RpHXxQP9#91L{#2AY69RD}
zmhAW5o<4c@lq^>0goG>Z;BI$^mIkYX>UbcoSu_gFSRX#FI7Xwby{X=*6ddlG1$Fy^
zxI$%uY`=dg1e8Z}&CIsK#Ljbc@%}W}^Zp@-T+JZsP9DI-)p9)9d=4Gg{K|cmm_+Sv
zW?~zD$MlFnGQM~aTdx}7-?(U$yp@iI?uszXW%DFQD`BgQ94tL<4t1*wkSo(|GT1MP
zc6H@+o_!^XnB|hSE%o%BdKxHQ_)2!J2qR<D3b@xBgHYmD3EQdo0TYI|>Fh2Gd{(#6
zgvmaO)!!0f`GK2oT8Rh!bGSGb^bEYD=HTxref-hk0#+-G=(5yMG=KIP_8zo=25(7@
zxE8x5r6xgCZN+$-LJhFiF$E60o<!yEAAoz>gW7+1PTL(DLB@PKE_R!Z!|Ed@(~NT2
zyT%g`QjTCZSjW)UB^<*^0v?JEN8_iW5TGZ<>#VyDd*-?VIUh}S3znm?X(3Xr2Sn}d
z0o-%A9((-R`*VgObM37u+*Rh`+<n^2pUpRLaM2Z%GA)89++dut=@>{p946h-j|sdB
z#F3afsLR?5rJ|i=+(-g$E{=epRqV!gVF4z4>f-4|`gBso1UKXrbLHl`Qpv58<g4E`
zQ1X{W^&$yes(PH*O}`2!`+}i@?-4#>*_;>k_EX1ax5%f;b+CqW8RKhmQDi^>-1e*k
zzMn^M=G$WKv-%XOBg-;<6$W5*p*M6U?1qK}aXgoQ1eAwNu+&h6-qu?N+3a?_x6Cej
zwvF`+(-hhLmuJkuvxczy&QrA8ataSuvfsz8TPdeCk2&h0iA$Empr!h0e4Oh8HD3*2
z)njAO&b|N!X2z)T{xs-nv)p3j5|<PD+{DkOxcb^HEO;vo`!skYu{Z&z>BJ!SQ9X@3
zIYRG%CUEUWnNB@^6jhyv{-&2msQ{PCs~UmXDGylglSiGSWiZ`nj0#*$A?14EI1=~*
zUvFmpu88%-L`)W5{8@|MHiwYE--Gm9tb^^pGvVmPFm&UvTS9kl(Y-10C<<MSo1P3W
zLc0~zQ@!wI+$(CC{t%Adk3?Nn7gqcD&3axjbdFsF{CMgHx2=?c(-J_A+;D>2lr-F8
z+DhCe@4(-8t>`2729085u~VfIcFq<=&%HbG>$c0#yT63hd>o0u&`xTQxquc}M?#y>
zX|PP4!RBNEUfXMfvX&&)TdHHi+&bzuDF*AcmytX7q&WArD!8sioQ8XG1`xGOn%zp0
z!T_T|JZ$U+_D`cBO;3qzzqf~FC>q0v4aM%xPtfCV6?Ym6a-%-nCSANd0QuWs{P7IL
zy=Ko-VH-(qQWh=pT#0Azx-t<-fACLb4o;Ev0|UbxhW`T}j{lA%%50v>re=gLmk9*>
z{U^w}kGU8pAjJ6EbICFp8J;=U356Fc@N8VhNnvjsmM;$?yYyHV;NHhn^obV!iV*;-
zpzmazWdYC`TCj4NKkj)=$x4YIRK%M=gU4LXPvd+n>}PjuuDZaE=s?Uf48z5yaSg(f
zo8hEP5>>M6fUxRBV%E(C%J+cQ%ZS2zIT7AXt5w{@lrQXkVO#yLYiZ1(&^D&F;y(Jf
z&F0jn^^u-J8K^Ff#_OlIp>}i~%$atcD3~6HPUi}I#rFg<Q`gXU6>_}$5*y%pN)rAY
zZ^Hb^)ud>JJ6vjN#p_}%C>U@KQ#P)rBN4M<@X9UZTE>Exf+VPHJ%e_gYP@*Mwe+ph
z7W{tc1&R0^3_iB2IgTyAVAJ?#40@i2X(QG6XrB(~o|OZSpe@kkngt@ELAbr88B+5_
zFn5|Py6q_>0Sym9b@?|k5L*EWo8m!nlNzeDEyFo>=b_Q~3st>eL5k1YgTgK`@+rXw
z6|;OnL8qTC(&OT6b2hu<s||;`>+ruVlXO*c8y;L?&%SSV(RZ^A$e7(c;<-@`*9|Lj
zE&9C}&-wq6+N;NK`W4URU$$MPF?muTdPx<xMp)zaRU)|BPy#u_iy%Ip-NhX(BGbN{
zK+XRg@kV6>eE$%SK0+cOvW&-OBMDeNiY8Y#l##1(9F$#@fJTZZuw~9dyf7F{Tl-o_
zccv_sR!CsNRtBcz&jx|#)hOMSO(zbroX9J}wDNKo6jZH7-S9%Jnv+1M^|sRJnsiY7
z&3Zx&W_T@S4yHs4!;H)km}2P1oKCF6a5@(yMP)(ZP$=Y0H^$1PMpW@yBG?W;2Cv#p
ztOr1$b=44gekY1-=~CiF^?k$pH+!+RDwLKLE8-%PpO}2|V#Ay*exNh2fcsZ6hifj|
z4I4tmh^Z*xcZWH6y-pAO7R}`;A3Vb}j<Pw1<W&0OtO;5NpTp^wE~9?4CmH==gtsOt
zX}Rz;V17)ck_Rs0vU@Rf>TYq!&KQQdTFvy_D}A)@dkWSa<tQ0@5TgI-<3ME{aUM^{
zIq#m+(Irhx-TE^4lc~uIQac9xvkkz91`?lWP26o?i?wV&qOj}?j<Q<7_p$wKR$L9$
zviEcECCK43me>3!gAlvX!{nQH8QC@7UGKjp97Ww~NZF%d?vien6?#gAw`taXykNW;
zub=Tlzr(61x%xb|ms6S~YX}AHL)51?494Wn;eDI=n57$oS;GcU!@l=6C-22?x6dFa
zCm9Ob9AIt2JXk3ZgG-06vAm1Vqz0m?v9tnoPDY^Ul-KajPZB>ZPXm!M0o)j&46{4t
z!m$Ir)G%)v%()T+!)7y>{)xHhQg@r{Zg`94uRBDi{bs$w6lXd=pb~e!w1$48R+^m~
zfUl*N<H*t)LN2ho@`Ezq!KcJoeYlp4C#=R|IZ;g7l?gw@bWqg14tCim;@G*(_&QS)
zbIuOXKu=lDZgR_HE;k=$Z9YrSLj)d~uEJdMw&cpWj?-^qQ+a#%2)j)fPDAX>a8bGr
zl#VK6Ub8S-|1c+8mFgJVKYuaT<10DZyaJ6mPRxQ`@o;`hHdZa$hj#>(pxwO*XM_ef
zl$hRR`o(|II-!NcFGZQRKx`Fz@3;tB;tgPCr3D@=L-n+@2^hSsXN27n8S8IKXf860
z`y>#i@(DwDO(#RiQ>yiJh!ht~a(Db@?~+#c=;6e(+<m8qp-)$c*D@;1vA=T>GSk+9
z$Ade#>ZTC&>{vs3zxbl!mKHeuppougnuJMHPtl!^Ssh={0QQL(kVD6gfo}Lh-g3+B
zL|G*alh)R-`P~boy5J)Y_N|7{xhY`j+l&jh0?5sHgJQkGSfSqsriM=dK_7)1|Ka=~
zPlnvE!t#*&z#lu6H!EJ8{3jhxGz_G94`yj&Z<{5qYrc=<CnC)VBhQSL;6jBMCXQxu
zv-{bML7fde>;A?pR?eko8EcZuFOKp>Q_%m17CLV=fTULm7?wIhi(c~Ja&aV_Nj*ZU
z9bVI*3`h9zumX3;UBK{?AXwjd4y0Zw^7hIZz*B`#I8!7I`Ne|ZcRG<KG~FVv_mqOu
zu|SqvrBCmYBdEOTHFT{1f~%OL_<%)L$tyY$zn>i-<rd7G*ja>`yG{f5{bTs=buQ>-
zUVv3Str#MDhxAXQ_*Q*{oO;z(UwTazKJ3YZ-=vbw%bcMNcfR8%cTFt&8bSBuv6~}!
z7F&~)m|DfN#Oxj0Y3olULUKIJlkFvGJLhqpO91`rxEpjw=g{<@vFOzM7+dCBz;`cW
z>;PF5_?nB~C+bMmD?WG-!^6=mPyDfP79^ZI$ntm0!MI`p@~`y7nLDPDP2Y_<zASgK
zEn1nZf8<6_x(QJ+*BDIrqRy#SFCvEp#0alcoQ5s21^1bJoTFKhWL`GgD{b9Gxv+)Q
znC-&N=@bRz4w!fnM;w29oQQlFfD;03r16EJ$+`72sN?V?QFJjU>+~`hsY{PYqUlTI
zo$P~3t2w-f(zUqMY&Y%-KZG*UZ?Q#pKDjbtf`7Ps@zRuY^z2hHRPeimXF1`x@MAua
z`Cf~qUy+<tvjLG58JgzpgUh0pa(;c0<P|Qh1Mvu!&Eltz0wyEumi#I_V7Y)Bw}nGA
zRGaY1BR7cHyp|q!R)yq)dvV&2Ih=V@kK&OT+v+xcQiU(`c47ECbLR3fd(w0|58LN&
z$KD-TWCpLAoC=cUZPok3Na)<blnuMsE%*+6A|Hn{SkdSHus0NKHizKni&5U}JPFU<
z3rqT&L8I!i$$harm}>BgoURB4_4^7OO?r#;=PO}VKqv`3WrL#eYT!4Vgtm@%sdJz<
zoZY8EquC9?_v`<o`?-5yac>A*USmd5?Nm7Ls--!WED7<CS1JzsNrH{JH}On~Amt9O
zxVCXVo^{PfWj|Z+(BP;0SWcIs&2%tlpLw4%JW+vV4;jZqqjG#3&M}gw{9&TBxIT-<
zHC923{{|2~HH{dr(1eBKGE}}k7UXu=vW&}kreWGsSpS~__d%8taX)t0*nR3-?08-P
z*2@fdpKIP@S9~{WN{i#0q!5_VDMd@Z*3mCs1vnHg$1y8tpu^W{;YG?*s56#f7JKWV
zicuK!Z!g09o=$l2Fdb7K&t%dxr=WqlJpC^{93$Fiac6kVLykfcPP+Pm&3A9u7Ppx3
zn=FId8j3J_Zzb675yq_^>p-|814_1DgVQtP(4j0DE~UR?ci|o22kpX6zgWiOM;T-s
zp9-_yzoD->lOSH8mRotI1lt?-(1#x)S+=7Gm=vF;i~dT&(_ug2>2CxNiW}%1-IciY
z(Q<fnER{|iolO<A>gYK*0FMpFp};tUd1gO_r~4rmxj8Qwo7wN7@wgpkmAS&(PFpZf
z<<jjIEUWh80xHal$2~tkptSOD6Y=_H+I#^?p>`80Z`1@2Rtpjc3&s1=Uigko;`Pgq
z=*w;kn0`%>zB4t!*M^&5%I2%s9=QfbmrUm!iS=yA9`9iKlPi%EcN%4{nqchb=U6_J
zMI+}#P&MIM=q&w~`937U%&lvH-@ESNK)pHW{jLC8KM`DVM1=d@N*?<TpCWfk!tkum
zS$avi7{AX>!n-fn?x(6DCObD$-`KkiLO-Xl-XCCk$P7HVvjO+JWHPobWuSTFJg!h#
z3<K=D-2JvPtWQXz!*P2cW;T0vo2SI93OobHEGtnZaWjYw^ugc2tK>m~7+Lm2h__;E
z7BPxBgdH*rx$`W6WGuDD+WI-rN6b;y<6%QfiYXP<nGZj=FM%~FC8Y7<0^oTTupHSm
zY~*H>lF4C|D*jA`&mW|Dep;-LzMhN@@1oD2Pe(VtX1aMO27NNyP>Izz#w4_OX~NCK
zJNPbyaAv~gd&}4yT^N`qE&{c0hw+EiMfwxhqS|I5PCyU4FRPn_X~n9<ht2%8zm10X
z;$tQ}tHmgNfz@hsr8&i6JIUzDZFuwW3owk!r|D6qR6%||PpE$ge;=QLQfr3@G0;Mb
zgEBmI|5xC<f1;swkvL~H|7H02emN<c;tL-|!tlGzW15?Lgubep%WL=l1<%I5GCRxF
zX!~t_=u{kME^L>8DQbz-rbH3c1ucN<P)%w-^gyM{E3|vThb2FM(8(%6%=HU|5kXUI
z3_D0u&IRNA-s4y>cA2Eg?ZQ#%NZ?~L1|^Qd*zr^W?K!vMNwYS2`k{@kFipeqMbq)K
zdnt~x{+%z|ol$sx3OgO9gX1DYxNVTbmDxB0f`-mAO(*`*UmFt9^!+1Ry)lzMm2;xW
z2kmeftCN(?PC>&P$B1iFD(cR*!F{*lKtkXPHj9eUtX`H^HH*EQE^C8%bFNTNSAA?O
z*CaN-FTf!G3*vLI9qKbzK&6Q$rbh0-MGDd+?aVa1JIfz)_2nT&el0FsI>G3$I}U2e
zll1obc<$b9*T}<{$#`NxDfRyR0ADp`6013GD6=)LA^M33YA@-8rTnR|_4*_+b9TXp
z=nK)3g|KmQBa<!>g6|LAr{i}H(|^}hvHE&34SMp9cJoB=aF`mWt@j$7jm*c&n)&eG
z(^hh&cn&s(3-V6%#KXtc92))bB#bPGXZMp??McQKUOb3}gMY@b@s$ilzF5j`gWP2L
zc$Rd1`Yx*IVT4DHe&x#PcYy1%6R`VM9#OCs=N%J{Bf+q3`IV>-aJ=<4k?Xw+{+;7Y
z82=Q|FwBFKWen;cz04f`;R1(G$U(k%8uz#EO}r7sa+58c!OcUQmvt=>{eqonmFo$x
zJ|PKqR}Vtx*JErBivvngA*ge&8)4N7G`vdDP~ar)cTgk0D~=G~*EOWO;W!afw}vn=
zO(?y3l@b5=n0s?`5T1N#gk!stL8^8HtxneBM}um(-84cEyVTKDM+ad4U1j*D`UYh3
zC}g1$%$&Xk@|MoQEBtk6C)0_}Ird<-=@4!$NCH34jri;DBaF(iM1mGf<R5vMr8vpv
zMtK+;#iQNU^6<g-0vvzRLhebk+|L|7&VjNzreli(Wn)FSFDI9N`5Fvk0)q_)oWkie
zEnz$+I*ErQzLK-WUNo<v2yZHn0(f4+PYdh0<7~fq)h}@fAACrK(*-#-2d~p<QiZ_m
zj>mO&`Eatv7yM@N@qBl<L3o5UEc)KX-IH_{r(bO~xp1Ng#4Ch(ZQXk~FZXen4?dTv
z{K+t!;x5FQz40|B?)X6zoaJz}fDPIP-B@1wv6oJ}XorDsJ}|@bL11AJ2^nfiJfrua
zfEv-%qUaKgs6@c>*F_j*ew`X=Y=Ey)PS{pI%$-P3h6%qCqEi2l)|Eeol+HR-6U+m1
zy&T9BIK@2bW*KfX6?p5X7Qwh#FZ`*Ahvct<youyE*s=N=cQ~JY<{qb1^Un;<<Cmfw
zr?XGt=H^1ypWOpi=6n!oDTq4Pa*2ti4Gt@RB9Sr@;Biw0(ofx^O$A?x*coe-Z;FJS
zzlKQl#2I2^nn+f(7=y}*2plkpfwCXM9Lcm7BrgSt<s~(G>+n=K*X0FO$D}z2U$#(w
zp$pI)v;af&{-baHg%Imyp6K=W5A=^}^G@hICIg#-p{Fwl+GhNKgp@GU@>PV47lm|c
zq#BN&If|ZXQ^9#@9r2Z9aI4!D;9ac4mt!^f=UXmxvzx}w*->;=i5Yrba--7y^H5?}
zFm8Wz0@<e(sQG0;vHWguc%6&qHTS@S11T_jS3F9kB;sQ2er!5lKvz-khU^0jefsJj
zGf<R5tTfo?zV{y5CiRo~WXjKb-|s>{3X2lU+U@M$G?gp=-#^kc8Uf}ad#TWd6mS~g
z(c7|r=w<yOl41}}_UEd>3(1S<_UaU#;5&eKPRzuHU%$CFf0q#nPd)TapAR!tem6`=
z+QQZ4u^8CCnHrcEbJaD*8GeUyD6lGJEMBsk8M_xP4~<cwp4Daencam^n$k}8FV+Od
zmPq{m>^;dyv&P%+@6i#KiQREqiFV&mgDD>*aP)UG%gZ>*m006Qx2>h@-qS8-t-KJp
z{q%zsi7&}4Pk9phO@MQ8r6;YfSPs?-C-8##HWK08iQjLzVY{0jeiM6y^)nU{DHVQ>
z>(Ub3s1QJg`LCfnEygvTEDPQ15m`U26S`6saK28x1~$VRaG}-%;7q9{qkC4;{q3w?
zHQ$sBKP$n><}TtW!)~r$QRk?*dg5a7MWFJ2fLsxHh!@&BA*d$~y&tk!k^mtNzehaO
z?=^+nTE{8O>7rXS#j$RmCIpy7kxE-TlKZ);c6hxW-nsOPuBu;&vVUg+Pty|yG$$aj
z${I7`_t77`YJ5MngDb0}4o)+oQRV~E4H1`dLAn_%QMpL=3}(?ClAj5^(#>%9m4S0o
zHdlS<Jt&8;+#r{8^z`Old{r0)bu62V%UcKnLg}c#zaEc0Ex`{%65zH#jyKr31efv&
zb2h#-<EZ&xftY*3X!lPUW6#g$b~V`3=E`r}&vs!L&GIF`3Uc9br9M13^%mOB-vT|o
zatK?%1?2+^$*|Q76ngcjK5%0g@ELBWhoOb58gLG3-U?%Nkv`=6+@Nb+F2avB7f7#7
zB+fHt8Q)v~a3_!Lhd?!U!|8n#M(>p7NmsUjseLx62QB0^9_TTtW!X3do?UQX@ea5p
zUxQim`Jw279X?C?#QyHJ$RCvn8N=~d);127=nC(7&!FSyH+(E{kqBl~lDo;m;QlcI
zMazZAP%1yqp3T~wVeeS7%{q9wc9d&7=Lu=vqfCq?#ZlOO1Ly?vu&X8nVv`g>r(rH0
zJn@1aAWz_rKq_om=mgc4;i!3_4GKR^aK-m!u^yHo4FA={Yy*DIl{>)w^<X;AfASwZ
zQ+fi1Dtoyf#)C+i|2V1#-U5rJ*W^`o2&v5LAkrVk;FaYJuI7)GFn`4~Fm><-?Q_CB
zd5a<%;d>MK$|X=%TMi5H9sHSb467SUk^iYYt&Sd}Ovqy{skdPH|2hndd%@Thn{e76
ze{jB0k2UOW@;u{<AP_o8imywe^eTVI)C<CaN1upH=@j_o%1`!e3y1Te>F`mt9Rh5n
z;Ks8U@}HwR6}pp;?QvR+dDS>ETpI`Xa!PUQz$0pP(uho~{lPTHTqezl$~a5#BATkY
z;FOL6e1F&vr(-WEF#bczA6|zCCGp(*&(1Ltqpo1nI-R-tdLjAPS^;CO9IW{?hsH?G
z;E6nCvq3d~8?55?vL0Lr1ut1R6fnVk-1wIkd|iTzFRvv<vG!1QY7JPJC*Yb{EU&Sd
z!9X)Ewg~KC+^v3)YftM~-iA8vUMt1i|B;4~WjVBD^<fNhkfIt_XMn}%B~mx?8ywyU
z(b!7khBwnhcp}c`prfJ)1tYz1SaChgQT6~|{%o+V+<<M{5^&|?6Extp0C4{8g`ErA
z&|E148&@S$#lT-g!A=Z|C9KhZ{{q<Avjx3G5@=o9Ct4yJLLlHAQ5Vgp>%7Xiho-T<
zefk2NkPgN_<R#-#smWYW;=+<f3jKe#l3xFA`ZRqWTz|>#p}kQg_lq^CMgMx3ZuJvu
z%wiZdi$avP_kptcEZ1PcZqjfd4X=vN##Q+qWa`r_^0<xd)l{5>E0%jvX?7#LjS=QN
znWYV*t?xnjdnovqR5SJu{?Ob!8M>@hnB16t33bcj@lP{>4WE6ffv6AZZw_W&Dg@wz
z?H5ry#1E_;qQR?89b@ahqO)Q$u}~4=9C)>mGzotu+g5DEFr^eY?p{p({2u2n-|CFL
zHD>T%i!7=9B+Tpnb`q1Wc)>+kYq)VY2CcT;L5oO42Qht4^MoL;|19eXu9?ktEWa>b
zEaOgH_#!j1CV=>!UrjvZ9DsLTo)@o>ji+DF2kkXQs6D-z*=D^OqE6+2<BK?&NV7n2
zNe3iO{w9GvuCy;<COmn$l@tbbVyX372)!xJIk3td%{6^NO>;Yx9ZDkRGsStUO0t+E
zY8%kI|0lPiR2KP*f57qntJp8&N*W6<)w&)lL@~21ARv60c9aT0va=3Md?L)lZ*jCx
zjD1ddY7ya$5olsMN!==*!@VLyxH0$uyex&WPq2c}{!Z?K1NUjwKh}%(smBb^=X_+(
zjtv6dsPiBcR5zOA-ojYid@GY>)7g^h^+{;<TpO=cg+lIPXEHxp6&GAe2Y#h0X1FJq
z)g=yts8<S#37iJ;csF+UJ`pCK<zTOZ80T{67Yw_)6!Nc^!myYO&pUZGPF)v8m4>Tm
z-+m)no_L$PV<HCz#6{|d=1UR7JMwTr<SS^rPeHjY>zGa}N~D{5iKL)3k9&eg#f-br
z%_Z8zbBYr#Ej-37e5FB-zP$tvf@aXj^~4u9uF-NWG0x}?F88Hg4*FPIL(A$2xaJW7
z0gczG@be*<F^WXC@)x}OIR=ZOgR$Q}3BF~|Bbx&EbLZVN#2Oto|DbD4Gk=JK-QW_i
z7L031_o^iujgMpdno9b8)p4k~=?v+z`LKW|1@Lqx&V4zT9-OkpWY5DsqHJA?U2CpF
zwQUGp_hlZu)ktI{n+q|2CEM@vE5UEK@~O@xD_Ao#g=AP+!C?4#wCCA^!vPcMxGM)5
zc9m2%_YOBwUVw<tNha@m4e{1NQLy}1fq4p%+!g)7@X+r7jh*`jelPz8FP^d+9qebm
zW|bjMx03;}Z<-k68b&+i1R(oeEIf#l1;Oc2q^<QKRQV`@&X3QelRt(^W+yO>L!YU0
zP!BF2l;fT0)~9mqsxZW|GCF_dql!ryjvGb8uUl5Q|FRk<d(8sStSUv{eaFCa6I+v>
z+d_Z${v&>Q^;9(3nHaraP8T~Yr=)&6KJ*TQ-b0r`PB4n9$2!1>_G1zdrj41LNEk?E
z_w5X7!01~m#8e-GqW@NM9LwzJ^mkeiB7X_>d(JZl`4w@j_bAsfL<kF-wK>x!cC&p2
zS=cA{i6q}yNT)62!0%KWnBgkVv459Ey$;oZaz#Gow(o%2RqpV;SOT`+zKh#f&*zC`
zas86hZj8?+KA3!W4n)-Kse0-lzEy|;b=B#-nkq{7KJTYt+Jdk~#2!NH@6+uPYj8-y
z6jT$<(4yNGzbB@m{F6S?p0Nc@52{ne!XV5#pwF{4xJ*iGpL5r?ZDKpZYe8vxBi%UE
z0R<DwVfw5=P`6UVD|HPd@lq5hOL*dh=sFN*@Bhynm%<)TPwY2Hh6jEZNzUqnC>Of`
zQ=i@dleY!%AbSaZs?Nh(LTXSwo&5~bj3H0AkAC&fMo$wj^cxHUCq7Hie9va!SK8oR
z(QWkGba`5)*}?Vu@{iSppAe%LN@QN<I@mOF1s56%z{y8bIN=fD#8@Vj>`9o3ga6`S
zi|Q?^v}ZA{?@=KQ<(6omse(Vf&Z5}L>5#cZmDR6>QQy9pkt<(IOy+GOnjt`|-(=IR
ztS=w<I2#j0BA{Gr4NmFICR>!7@b9<#&>i88QjP&c*4!4eU#D=XP9bq?@&%>Ur6gAA
z0IdI-LUZ2V!)1e}FgZ#I7)im@<3&_Ye-yv@EWx0WNuvLwlI6lI$KLc_9MNduN*>w<
zPkxus$3rX0PWxe++3H9v4QBzzGzQZf)}nvF9F~<41+C8t=y;(C9%y|*8#C>3ucReR
z8J4Hpx_8q=z6`4U^bTEQ6^(J(2Z+<JFsPZ;0;zG+8Asd2V4ZXdpRqg9^a&r{He<-Q
z1J&65bslmff6{@lSn?uggw~n}uwBSlHVc$Y=tDtHS;sVt7-suX4;ZliFN@rsIRm#V
zEdv#dp<Nxf$VIi2D0=WR-rGM(+=soH({Hvgwy)*!?ju1A2`B7*zyil-|E90^MnL7S
za_*gwxwtN76dclSkVBhHFlp6N)aez%Q>hc!Rb`9qfwkCqZ8~WY{DPCOAF&>JA*`80
z;ia5E82QMPhgC{gw<s0@BR1lJvM$!MW!Zl26Wou^)nIegpA<iy$8kTE&itqFnB7CE
zpxh(#@ilvgwVO5%PJ9+&w=l)f;q-Ed{$W8)FDVcMk$rg1`wFS;&&JM&el-1r3Vc;o
z;7nN+3VXJTaels+MqTSRn14-z_ul9^zAvbypI7`K(qA&T;Z4~%7`G4~vP}HzJHx?V
zVkiEJ?n7ti47zI_>q%S`;UscDGl42^;jDfz>{@65D~iX^Du?YNbZVe4zY@-pk>;FT
z>j4?gvYhg3W)PnzOd6ubu;^_(<UZ5^ZJjuBFIR;l-R;1f$WA8liyN@yYA1R7VGzk9
zaUO2V27fI>c+<8E_TP}>nMI!@ak~lZ2))1z$mwzd*ZHCB40(>qXCYed_lNp;wZb-i
zbNudFhrY)xK>GsQZCdODJMwDLM79{KIXT>GLWY=>XNg;d<$0f6q=|657WpJVNnnjh
z!^78Mv_W2r)BfNh{_*AK{E<D1{r8vS^vfksIyDqCSgrDw+hrQiAlYzSryQkC`LNpZ
z3hQZ1=Ozrr(wJdI(i4zC9kd3ZCn_Fv7kot3^)umx(Pz+luow?Vio#(@A5y+x2?hRb
z(DyqVbYz@B@o72ndH$Tf{2)zsrOLp!tS#u%!$&su*3(T#S3{h<Ff5`Xpu<ZiJE!;K
zlb^EiE2Np&>pq6=wphCHO)pp^AA*M7D{%H_B9u;EGLf-uqrPg3m>%B*ls&|rZFBT!
z>7QrNxMdN{mTx8%3&&u5+Z-sXTt_?8kFd&EDAtte!jXVpLSC9d*XnWF(R>;j{dBO1
zWyHq%&u3RBYhnDUIH_OgL>iR0fpCo&=(xQ^7qvpvJJ$_1mS@P(ZJkteQz`u>ScAHg
zqMV|9Avpd?4iRg}*{9xMw8PgV*3bo=4t#|_{Ypqidcf822AH3BgW%h5;B4oHhBwD<
zbM3f?$@T3aEO-7SllVS?<ZA@cb$mV~S~3Y9PIt!%wlmv*_aL|&cWGD?S%*t?Envfa
zA*?CB$K|h3KxwbdP|8bzZvSXlCvL)dn(abMVvV?;cOAul|LQ^e?Hpe6;xiaykbz9~
zB|NHX2xo?*FfaQNUbFoUMiT3Bzql~HbG3>@MNQ$<-RcDK!B()S<k5Gll1Xg58S&cs
z2?naf$b+>dpsxOm%&Jw#!ub!8yU+)BKngln^TT;-S-hM%8&7;V%7`2GGm1wxf^(}9
zSf}Z7;`F`|&!sllGXv3@V}LWP#i;Pl1ng8EW4<T|V8_`&^iN60T<^ocul0+Rs%enm
zAF?no<b+)n>rn4eApSVL5H?KIqwpGE`m8;S+BM|DhKez~_GS)rSasmi;smOnP!BWL
zP3J7jX75Q|T2$hA4X7IB;QTQs_;SM&LQcn<XbQT6SAIAwdUKTu9;}3aVUC=%y>(=9
zjvUOh+X<uhgSe)iz8IwUj2U0(Nu@r`r6SrsWcrOB?t%L;@Z#Mx`1eklmv}RiUjBCw
zA4s&~+JI%KRj`v1t-YAuJ{>>xsGzmcVI1CHhu3GnWR~*gax`W|z{M4+oUDtAIJfRU
zkn4;AkyA$?jLn&g4V@+2Dh>Ltb2p@~3T6@*ajv}VCgN%yjzZgdXz`{A`in^dJ?%RD
zw8973k$Gr6+6?n|Um<G;=R*HnS@7BJ&+b3$hjnY8K;yA(kTlG8Mnhb{|IrklWtSqE
z=@<!1vLd0B{Du1-&A6!QI3yh7FoDS?oWi#(8)D=WOr79?QTq*a_Ar35xCVGr%+GNs
z4QC?7BC%{H4^)pdnbd?vW2&4K&n>)=I#?{juBHGC8Ev3KB9#!(REiN2ELW^b4!)|6
zl3BaAppf(-TzTURsAVakx1s?AXK7;Nva{U3k-6X%e+DHz3sB+hJ$f`gjJ)3Zol1ST
zB6}<DF*mm|G)Rt*S9_P`Ee6{2s^(<F=C-?76TgaH-!uxD?=PGD+Oz<h`6sxyzTU^f
zH;duUpQ*gKZL^^E?r!j9`B`Z*!tnXSB|J}O2fVpX8OEH9xqX>@oH5sN^6t+m@E_4d
zzr1F0wPpvX_JzWd_)4PGD28?KQ{k`71UD*o8=n170p69G!!mOx(B77eO@j_FG*gGp
zuT+Ebzt_<JjxQX1=LD~J=fb>$3Ou!<Fv!?y!aI(Q^k=*SS1d|_S3SHCwZvDz4@LH;
zf|*$K=NnUa`UCWqg`n!-LDb(DNS1~B;ccf?Xfrzi4!Jxbr$=MRtfVUNdL)B~PVwXF
z3vB-AKq1WE_lso6YJi3QEtGMa2InUU5!_V7Xe>&Cd}|B*o4kSKOnF1CW~2j`qlBRg
z)i}5MLqO*AHYn32*wqt4BlI)D@R&0?N|lgDQ$(oR%X0j?Zx*>NwG^-2O9True%{rA
zH!$!=3DyN9!3`?Okyw_6LH0(pal=PoEJ~@wFsn)K-;KfLN*Jb@3i0{cWSR2^y!<$V
z-Qf(wkFTphqgDbNE7Sq6PQa@pH_6K*MR09<98|xX&e{F4j;IX9&=)bY(aEU_W4rHD
zgJ-`1vlThIPcku`?;RN3j-W|u6J&k+Oqi2=8>Ko<;zh6TM6AVzUXQFq#R~SlZ{rLJ
zPg-DQff-K11M=3wgwvAR!wslUha=<LAv8>mCoyw1^TE{>XNn%e?ny~bo2?@lXY=!Z
z7U_a(`Ax_=!G&*Iu7hm26z8dGJ2q=8<D<TppxWbxkINs@iK4oOfgNd7?|~O>bj>$j
zP@e*(LgCDyToWj^UxBudFX5!C89it^lcOTwgbN+)vGVSIHv1e7ei6%YEPfNJCFpP*
zBeGH5EC7d=eI-+kpQCpgAC3e}<8AOvr+soAjM!IQj^m^on(bF5&ul(0tGwmGW#cAz
zW%>|L`p3fSEi6lQc!;caZ-c6eyU54OC)QOTxQ_-EC{lIKj>k#R`pJdodaoU%b(Jyu
zMLBhT?+2T%mf-w9p{Rc-jy%s%<t@-G<l3FL<oJDz!NycuUU{Sr`kU{-&+j{tulFnb
zw|Xn5N>GPse4fhoO9gR}n<`Ncy+SrGm7$}ntBK`_<6vrc4!51FYB+IwCw^`g<D9F%
z2a)4jpwL<xv&Kp=UoQ@%o(PiX->c!uf^|6Wp)+Jnd4g^G>>+#^`#;z!%6n@Q3Ss$^
zG&$ZCq(@Tl`EGU}>_QpbV*a9r77tFyIbe9mQK;0EhPVEiCTg>ldEN<A5C@_$h5tNR
zFd@X-ee4XpeSVMJX}LhIr_AGcs53;?BM^-XL@?!J36oHhhD%ef<N9Ob;9L@ceLef&
z_1j*!vd<Pnw?8Asj!K;HSz8)v4{1>C&sp@tMLsb7#OlT~q(Sf2XK0$a7Rs~l!LZ^?
zuzkrcP_cJQ*EUsRFt~`@{^C2G7VFM#p0O=~9UDNb?-LffT*N68+fXV_59IcpB>Jjn
zQ07x0gsY^1s%j_f9eu!jQ(giSUqf))mt;88)WO_&z7Na1LRdbZDSFHdg;(cTFX)IZ
zt6ij!3y&VtE)^->5kX<zCixs}b_k}i4?-L4zs!b5l`C;<Sei_8(+7>*yNp+t6*^Q6
zfxEgZ+aX{%+dtT6O~-Q9v*9D*>>Y3XI|m%?lsLcyVZV16bLqP<hkuz6M=?MYe|8ts
z0qH+5%4W7_IE#S&)=-l4aUa%wiNkMe)xa@y4)~Tkf$+On>S=f#?w@%=-haDaU)68}
zDr`fDc4`kE@!1D6hgeUhZ9P>L3L&?|{(nZBOH>|)v3}hWc;-<8o(564WrPoR&M2in
zA0MEp110cYzz6;oYqOfdU0l{-!?FO|==w$;s;nKQdduzE`|tyDUbmC1X?X&wQCj#h
zD-G|-nPZ>qPFSvEh^~=VR4d5?l~Ye+=7w3MX|WO95x0lm+hpnGJq?VtgbNPk9m6-H
z77!qo4CNNA=3FF;U&4$aOd%aBoGNL0O%z#6mZ7&sB24|82^Z7+h|bY77#uT5ZmHUu
zWCb5Y3sE;PR4aiU2fq;SEtydEuophKo8xHGO|TS<!&`5jlMdchbQMk^J$~&V?!q#Y
zPqQAI(^dRjD#s~VABYP2cge;AGp>EhAxs+(Wj6#_U1eDTp4wpnKOa^@x`Hg{+C4Ty
zesCIRTgy$d=bafAu0MxK$7b{H6)fdlO8m#oEFYk|UwXk}o(0}ajDrV*Ge}ICFkbUC
z<h+jiAA4^CmgD#K{Z^VpnpBb$B^5=c(!I`=j2Ti$p+pfOQkjJ)jhY9FN|d5driOc+
zizq`vgUFDX5{fcQ-s|`K@f`d8zt6Le_t@{=&)&y=pSz>3)^)A>y4Jn!HLvshe1-M1
z3tQl^?MX=V4ua87+tGAYIkC7s0BS<EV&5-2(7QPlZU%*7x^;K@=D-2ex)uvBF7#s^
zM+dPDxxplKtO+)lJ%$ANy`sU<qp-2;9ws`ek#99O@GCg5Q_2Uy%2pfqo<9N->y)rS
zITqs=*5l;KQ6fcS9f57x2nSW-An(#t=H!tf*c$hT1glfx&S!o&A-b78)(9gj&C?jV
zrIWId#pL9kG_uX_prDWYf;69yAxn11qO*#?rS3?E)-*lwg4h_?GR_+JU66w{tx|Yt
zY9!RoG{KsN1@Jg=5ROt4G(=~KaNE>%q<K>@I!uvet!a^Dro<`On&J&A1rqRGuoX!d
zR}5r!K0Xv#!gszJ_QnW(M(`NcY;hdsg|8yd=D%eZ`U(5GhTc%6{0L1(pTMB+=5QKw
zK%*DJ@iq-ieXYo5f82ulvF0FM`2n3?6vDg87<jpV7qK6+i@iJE8)HVd;P5e##AMG1
zsLL!AUzw^~YIy7wNq;sDBknxFi6g{hZsAIh?{yiMtMq4bZ=|VSFAFmKW;$qJSOY4z
zrh=tnAv!qTgYEYa60Ie8Ucb4_;EgiMuU&wvCkC>iC$<RsDn(W=1)jkX$yNBP@e;V-
zaARpE53n?&immi95_INv;*Mrrni82K?&o$F#@$W9XTD~nW%~~3UYo);gij~)b*{0`
zsfTgxxHNRST!*SIFU6CGz9rMjQ=uU~5i5@_VGG_}hfz_jtVdN0hU^L#ubGz3%vHaV
zZrjUHV%IlP*i)L0_?AItCf1<V6djPxKaBI|T!!f#^VkJvZLqnvMdbGS33y9($Kf)c
z$;oAfEOO;md=gs(D<1gb2c7l!;$R+A%Rd6^S~)n*s1nOuG=SyNZ^@CF$>d|56<&Ya
z6Z^bAjRu0v*??dA7(3Ax;x^93S@+ejsCOzFYmdY3g3U$J=RDNZB`~fe9qi?Ii_dS6
zC5cZ>p)NKa)Z_9=5B;yAM|U#7r8*w$?!*dvGbaW26?0bn)C``*ZiChxndss?8&)^m
zCL+HEOseVw0gGRd@msgShNr(+B%dSLIF+IQaTyxfp+qu;`j@cm4w*PQ7H;M~0u#Cb
z#u_W3)9{s;Sv?6Hh6wf&_Du9s)(V;h|3x2R3>y@^6)&<F;CI~Mi+nN4_|`+gpzEap
zZawK`!45deLW(XJ@roo|c7n3ZAvAYQf8OJ$G`0FJtT)f!1GDeO2>u@-_<U$M=_~LK
zrQa4a1(^nBUYUfARszSj=YFz!@Ef>U)g30yj)f;%r2*}GP#uK`vcgkC;OgIFq;w2D
zaJU196ewZkArq`>o6F|x&9!<p=m|>A`vt3aWP;+EY&aX%Np@*ngAZCuVCbI1tm{xO
z>iy{mk_=5Ky%!G;6Eu0Sn++bySAoMDP6{@;;i&#<47htqlFeyu_)g|I)Ytcd3vH9Y
z<K20|PkJ94+*|=lb!T9oWFtPmB@3aMzM%Ih2KNj6ms^9o*mq&vk&_n*ifh|NpDl`s
ze$!eEy*7}|v6JRXBN|buYzkbPz7_&E{$PH&>R1pon&{n*0_W$W8FPP0=I@=xW@SaN
z*<FI~v(g3pl(rJP)uiHAg-}5&u^094t_~mVt}>sXY#cf;7@jv|vAGZX!FP|F@ch?D
z;=MSOl_)SMjOhikR$~!TT*2w%Y0|B31e!PsI^~H0IDB_9kbNt`;EXCc^3DuaT;Bo~
zvbN}=FbJf(>d8=c4%R>ZLX4k>;DBqjaO#0Ju6;cR%O)G)OqW35t$7gBwG8#5v+&i0
z2)2K54-Eae7$a|$6PacCWK8*c=IgMCG_z>DJ>(nlORZ)iw<f00G#Z_|OoaLHRgu^D
zLwIm@D|0(!3VYo`ae!W!;J2WP^VcZgbx|gk%wl-W;4*7;?gmQ&$BNu}9qan_25t@O
z22+z(!JxHLqWb0@B83~v;f3dIw)cK-2r5Y;>vY{=jA|rK=zJy0U3mm_5^fRi6+=ZM
z4ObEK2sfhE{Sk(*^8pLn4Z?iJh!>5Q;fBJRNvUBf_UkZ&Q{zU!65G|_zSafT2tF*`
zUL0dtWr-kdrVr=Z_m`Rr+*9YQ18^&QEsQF4!QnPTAY!>JSgdzqB@N$D?O7gt*z}SZ
z%*ep`QZe9oY)t9c*%7c*Za599afBoB@%YF@QgHA0N0T3d{lw8IcxN5Nu<sV~TI(`v
ztN9MP_1%a|)l)cd?=F!kmL{+FsDs<i325~8EqYn+6l^Ay#Yc3@QL04Hl<4<_^$tje
z<%Pn&MfnL-{t=D20sXmkf;$dh6$AU<EF-Z=jjZ+jVv_lxH)wQM!|g^9aOJ>SIF{C%
zH>IYK1v{ir?Z<AE8l#R!Z#6S3#d5gx!ygL@*1&qzAGrE!FZyt?DfZ9FBp0W@1kSI*
zXNeK$JL5R!y}X7!hbpnmEq-{#MI96-4FH)%QnWC*fTSl&L;jXAWS^4?%u(F~-*@KX
zh#zZkyvG>Gj><;6NBaEJtPrBR`XIa!);d!vi$&gF5<~?GU1U>LWATU^J(-1O8hNiJ
z=;&esPVb*iOdiIw7fMSpY?&6C*PO+*>&BGk-(;n?lDyEaV6R}C9|~6jjli&C7W=%n
z1p21FC5Hue)%fLFaPn~o*0-CGsy<nQX6#Avi}}&4YpfD4=x+$BYpYRPcOe|yV<TQJ
zbpQs=Y+>(SEkKFkL&O7YQ{mF)+i(-I*v>hl@neQ8^*b{QZ(TToJIXa-=BXr+FhgTa
zO(D2cAE?8y4LEOV1Q-`(vt+4a@l`_!bP4?__)I<~%14dyz=JQK1<PPa#W~#mY8=!%
z_l0D?&eG)ji^%%HHL$ky1H9OzjgR78!LFf|bO?LZPbyEaLHCcKd9=W7jQPTPeh$XK
z*{byF(zk5J)eA7OXAH_1=HrL=PjT+fUpRW$X=uD1DL#DA1E*O}fbzUVl>JeLlZCSI
z%BR8V@az{%Iy@8ZYn~M?xR!(@poqo)6zt#)D&USvqS%pb#C(@%QfTl1tS01Q|Ht8I
ztx<^kRThXY8vB#b9W|)9B^d&zS%AXc2cmmDD9l@ygq5$(ie_joA+6V6h_;>INA6YJ
zXBR(yW0@W6AZOqXe7!uGDT=Kzx2hi)2VNlU!W_}_y9K&ld?#qHdIMYcoCHu{ZUdKt
ztCX%)%_BYRA-xLC&kn}y+s`1`w*lR2N+3b=EU|x*h!Q2{@MilFeERhS=tV?BZB;yK
zdu5?U(r74Z*ag`S!!V(FG?vkM@c!pQa__kx6ufdJ7pH{4ww&vr`OFWbcE;kqeY5ah
zu?w`FQv?;~0`b(x<8e_)GWwoDJWv#b*%QXI<eN6Ee1$j8c$>h&0?so@t&zm|!*?uM
zlLQ+}b>Z03SV51c3hm}b!IUQ<V6x3ZM8&0I?_T>+PdP)J?9xR}$Zx<ew<6GJ@d#YJ
ze?Feva2}S8xJ;IKuSdtWT-;-j44QfGN&2rlcyC-HIe)Db4_thVpUPL0l#MsZkOSd3
z>|re#cDg%}(FtHbBPKHol}vooQbOVn2^x<b``FS?8&Tiq0R;aDf>1vVj1o9NvJ%Po
zxTz2&9HgMxe+91WRfQIU)1$4-Y&PwiG%<h<6w3vpg;OG9clEHd(Ha}C%m90Olocp!
z$NI=;U>8#WXKR1q?K`dbI{hq3c`0HW4h%xI(c5s-_#(V8>HsXAJ^<lm9QoXJANMvc
zg3sTwfZC2k8}A5F>BenPv_pZ%zLn&YEwfpsf)bTHIu*aS#lZl7FVIUW#_&R0k&i<N
z-uV&?k1BldOh7!kjqS@7ZmL_UJCEnTLMKCx_I2#&K8c>$Y>P{l9w1qmgpM(eO#9|W
z$nI^5qg&h9<<+audi5mSq8kc_GS6BqFrJKhNoQGwWr;Xjl9Pr7i@~9EHuFsw%xfb;
zq4%*;438^gyWI5!TOrOS@}Hz`;7VB7+<?wo;@Lh)19qUtXmq#KM(B~k-hBB<@NA7$
z`he47w~dzgVW7Ylwv0!SbuKgoPX*EG9Z;-V3rDnrVRo-FHrwnt+<kXL^w?n!)D|R?
zW6$0&$NQ}~yrKxbuA4FG@(1`NU7nrE-VMK$yMfZ!e3)!8jbw(5C$Kkx%uRe!`tas^
zJQtvb;bx8EA->bWwTseoyGLP3u_Ki43c({|0<j@s3+Af}{rcoIlshg3C$tra$&6X7
zpL`7QuRV-9F%39@N3mInooqyI6AAd>iO09^Bz*<nsgH#+Fgz**<Q_$XscRh$S^R*R
zZV1Hq@9V|l@VR)_Dgk%frQy;Fd3tl$6+u_31J{p_ft2WA-1Y1R*`hoJOD>M5^Ji=!
z9>ZUVS4*rDFO(XLkJ63sz-}4(wwA!lZ=b}v-3QU{H+Qm2Tco&s-3d0U`Yfbfx{q1|
zABwB<FABa|<<N5}!zX%rAn$w^iw_K=qiR#oXmBGL9hlE-I^*Duog8W3UC6R#^~4bi
zHObwna$F;IGtM>Z1%`LF!lbsl%ssjeb`70?aj%1k=8DN8aa|tFFKrk1SLsh`WCTvj
zv^iM%Djz(JW`nNUAe=qj8QpD<vF6UcP-B|QR?gW2KT?n3vgIid<SK*P^@q^KJ8g-Y
z&q8Rnb0=?mYVi}o{HbZRJ2={}7j--sCfM}*i0AK-fC2q8@$BOZ&`@^}zK738qn&%O
zWz`-qwdl*z&#b|^(Us^E-HHb;loPkauOhdtheW+5IbqYHJ7lJ+V6WBbkIPI(ViAZ1
zp4l<H=_A5emo~hcF%vZ0BXG%#P<ST3hb%M)pX#YH>&6H8?4~lR#T|n)s(QHMS5M|I
zbqt2y%7J;G8^z(C+7Os@vLrhYV0y19_&K;AG}XSvCm)p2qJ2O7jOfmeXKyI+p0EvP
z`Gzsm%Z6l=VPCrUV-FscIS03nk^tZ2Iikv;QP5!xxJTMw>>3v%KJPUWi+hYA6SqBp
zO{Q<h(rag6!cjwLIs6#g1GAybgu{ko_H4772qq0s$KlgQq2rl{Y{B<>eD1dnJL2`(
z`{0c%ef47qHEM;Zu1DhCch2GUZoO!mP?u9Z>af_)2LnF>^m~zsJL2s`B?IO7+`t4J
z^5zk|&CA4%fnwr+Fb85<Wq4k%g*aqpG*0`GBML3BCMO4&LV4?Ih?jIBmie)u*(3o=
z`U?7G2d{~g#tvuQw)LV~&&R;hQv+C#U#ci-SQO^zYQgi$L^Lh`EUt{4j!DyZLFJ9B
zxKtF59>;?O-?u2-->?^FJTNSsKWREP?!HW>ya)rwqXn>2dji{JmIL`3&l!K}h377O
z7G3K|f<g3%sJ);kq)Z7zm*t0uf6Qzgo^-8P+cA!u${2{2+c{_zjuY77y}@$$X7n&E
z7i=P>@%UyLVmBlXw-@Gsy!#QRStoEf)JL-+TttEo&j8uBCbmI*6bDQggCC;qGY_H7
z8>147>n!%dsX4Z+j5%O!?_BKTs{x*)#xvO&(JW4X0y+(l!wrSQK=l42zL;^A&EB<(
zH6HSUaD6?}Lr~FO6%kE(9O%U8CFQU`(S^xR?hoQyN-U(QC$8601&4#ea(ClC45}E3
z<?3FrsAxEzyK)3Ct}O$(j?B_kaV;#PwvZK<dXd=dk>p4GH2A8KjJFE<<D2}~;+-ps
zSX@aYoEFyD2MhZa9jg?`Gpl@2s!RcCo~#Y`U&NBr69jv~@=9WOEfQ7t=0o<W`{F?(
zFB7ZD#c*zi8g4kSOGs}V@Wn!3VHF0?gBQY32}ykNY%BE0E5(MjAHiTnxX>0~5goX*
z8G=4VkmTJC;^_RV(B-c!_#H08c)b?U!K8lVl9B;G68KQicwWHz{ul^b(%uV<78zVQ
z<(Al3p%-0YD2dYJ-eSDB6W9e`6|^)8aL3Oud^Fhy=1Sfq8#E(OKR*}aXH|jRjTZ6d
zyi!<nMvs^eIm%4;PlZbkov@=U9{0SD!<#c4MRw=*LpiBrYMO>9_oNnXl-*z($A{p+
zW!tUv`}L$;AsX_h`NQ_SLwGlHxL}jtiYkli$;Gwb*nqoB!K&&2*{$<k{3a+4UBW$u
z{jb~DY2c3SpIzWaN*GRkHUs)Lc|n>^EUY_dL?io$qDJC*RBB4cXWs_l7rVo-!ssr}
zoYI${8Jhwj?T4V*u`jqx*JegDH<ZpivPaMq?@cFP9LRgD5i^U`rH~&oi0w$Yj$1(k
z_f@=t>MMd$r(y!!7M*9agtZ)5i{ZTMjvbv9upcv5??Hz+8CvRfmTmM>p*Gg<NKlP7
zM%69GnW=MGazztvi0a9M+oPFFuRW;d>VbN`h5~<Q2&M%%v5&%@+2ra#vRBaT$P5#F
zQT;M-{JA)c?6;3pT^@jyTb7C1XR6Y<KNa}&v{$5JV<y`-2ibuwfnY5^VXRNoAbjw=
znY1nl!G`UYSotUsZOg|(e{*-%-rGb}U?yk?XylaUpV$R%d)DK+w+>M7*bCpjyea4k
zXTY>Wt4Z~lQnXuo6fBe%;Qm_zGpc(iuCnn#^FwZM`p#X_f7c`&H9N0lf>wl}2Xp{*
z8n@s&S10Bd9fu=@{ki6wPLQpUhrNf^k}=!kMN`C{qFpIcaCDf!9NTlo>c^%ui1T<&
z3|^(NcfAYPn*FoU@8?`H=FSz&PThe+^>d)A{VIWBMo1-MV9ezSrKuM$qv(Si7S7ql
zmT4=)O!Zz+cLBifIl-6Ft1+woov3QSdouQXJVf6)4Dqs;aNU{R%p}Mk8_&$c;WKVn
z9XHOv#ZKW^YyTO4=B;KU)ek|%*EHySU=6Kt(gH&xN-!CUf`D_Q$j3(-T*+4!Ck2UM
zY0rAmWGR0*UuXl*`+369m@t+l@X7PGhT<vj-Xgxx1zxmSLQDA$m@j(>c|T{-mHiP!
z<=!SCy+Nd;QeemhA115SFR}+ajx+6!TzKGp2ani1fb|}`K(-(V4+Ksk%cPsg51%ZI
zH;BQfGdhX0dN#|Qx(_=ot++;eCU~^=!}hI{!13%c#QpCvaYP9*Vwso~oe8hP&Or8%
z5Y|ujCM@4}4bD$06AeGxjct6bhac{^qq=Ug&?o1R&8G!D-c6xoS%wil@@a+36)Nbt
za62CD@r`}+T!XzV3&d)lCX4Ie<l~kNYq7C52kgGd(c?}Bv2Mr*k<cNMTNediqrTFl
zGp!$<9ukAEjRmdG<<8{tb}LvqV;Q?0>j*z{wP4052T_pkVb&6`S>zz;NbJ{oV$Y_z
zXf;xWj^^2DF}RwfIlKki9sSWbw>PXWi(q5b6d+o#AEcxkpH`yFSGo$e&TtLux2VI^
zk4@rF6|rFKX230TtMF3ZWc+mG6T8>o08&r(<DJH>_`IbLx#YKl#C>%|Oq<JIOFqYe
zLR(n5;RX597K&{j$3R2q2=rPY!dqpZaQzrrTvuewDo-zgCG*CyEa#rgzThs{MvmdK
z-OiB7cDAC#w>@aV$J->j?_05VsD(JMo1kH==?^IQf8RT=26sgAU><oG#v7crO5XjL
zh(?M;3*ENE>t4t4+5#VT!QBQWHYG9Hz&OmC)q#$u!f?t%Uvv=Cm3`|rWF^|7cdD>H
z-`%t{b80QwA6A3!gzve|E}tzMH65!r9}(x?kAcNIkK@H{yNTHxfnnJ53QOO85_6o@
za8rsDeq35C@)9^0I{WtucDg;Nt@2FlwP+el_nZvw(;}entw7e8X2OhxwlpUrg-yS)
z0KKF~pbgp1jt5M~zTv}2$Fyr0@a_his$xZ}eXpT<=upA8xCXAKr{f8mKJ3(jI+0P2
ztDq~FfEIR2=>2drYJZ4>`q-^_=?8*9{{RzVU%SHMCahkx5+i#F+_5pYn1%O#d=n+c
zvyVz4ub=?W4OT|8)B;gKbe6a!zMQzaJSGoJ_d|rV1W(Z_hasxc{P4Abkke%&?6WT=
zVSU?$`-i}x+~KgnV*^XqErFw%<Kfa|VQ=A41UX<kSmY$R3r>y6DfMnV!qiQ>*!-Mt
z#BAqL(y)0clzQ9;t%!J`OqPM}&Rt~u!KsjaERS^`xr#OU>hVs!#khO22QGC?0{8Pa
z?C?Z4bO=!sDUVTsvAPz}*nX8MIp=`k+!r9ZCrYd%lHuL@k0HmbhoQ&KW^B5#2#5Z(
zqJAqGY!BN+96ljf&Ps!Yct&*YMIO0xTVPHId?2&2yWmS+I_oI@h_3>cKylfWvE4^_
z<Ni2VteUvfYI?E)4LB;x=SQD{M8QwoD&Q>y*%e~#1xqq)-(gsqp#h?VKv0#C6kYNz
z0!5`Ytl;2hOziH@hF_0F7q?9C8gZY@QM4i^nzu-=O%39GJ5!-;^G8uegCX3!7lb}A
z5Xfc9&kR$i`MvtGur0?h;f4Y9mQ2A#xlOEbR{{GfSqlZ`1$cj9C7ga1g_$OnG&g1z
zu}mEV8)ksmcvu{s+^B{ALBUK(@WJp;Jtsc-7q{o6JQY^UaNeNhta>1d6BVc9vWdRf
zr5%Ru^)E4Rkq!B5@{Il5V~C!QtXVlJ6g`d_O`$^;9trDYKX(%NbubRL9y|yiE}h25
zgVKcdC=j*n#pvCj03WfNpc~{%B6r_LEyvsB(v`VbzwZ*>wpxW{6M|uJWHkG}RbbdC
zegsFhhfLWN2GL40$k&P*%=*-uJoJ48A#*>$Uf)Y(#p`@f`Y?g2|N2BcH;04qR%!at
z#E5wwGADZimf-2C-QtUh)#CZCRcO<xz|UJrbE^QxriBLLqPOOJ_K!U*IBPks8eUHB
zzSQO4AC$q^mp}1*Lm=xXeL>)wbYR9hL9^hQH(s1y2ztYAfqS$Db?T58J<f^5w2m9N
zrDGV*d|}N^=C8yEMS&UXGav5hM8mXXDX^b^8Gl{Q01rWP*=^|>K{L4tYuEjPcP(<f
zw5=cYA8W|9P6(`P?>Ld~iYm6#LW>2-uOzz9+`uq40%W|?#apd<QX4-fEYzQd<M1{p
ze+VW!D)qUtUo@_pEocj9%FsUhDp=WRb<FFhg~6U7;5@|`@2oL~GtXMsxrg?+XmSjh
zr=UV^SSdqrP8Z9(Jc3*+4itP^_G3*>9QJsv%R4u|hCLf)F!o~=Oo;k|MJbCR_x&i?
zs+%f$KRl0R<jKSGvM$WMl7jo@Im0T)2V~JlPn@RQohnQh{2OOTaK$WnfqN5-=@YjT
zmj-tn<-7o|7k$OVl1Xd~%5ZW%4)3YhvB8h73#|V{QBzq98hkdxXfJ&>{L*EZa%K(|
z_N+r!Z+SLp?=Y~HmVoP_Z&|d^zslUP1OKhnOzX-X96DVKZ@)Q&lJ<h8u)t}YYc>d{
zxLy{o*H=SDt)s%4krA2lW)IBE^eFAGS}z)TIRbjO14|Wrh%>{&5l61VkEf^Ms0(Y+
zux=KF+>;jb&!#j~*Br7swFGARCUAPG3>8MB#KoJu;IiUMyk=sLK9=>k)a0>9anvRJ
zdbSFOdFNu@E`+QSLT5Jbfo;;GVawEP48JLG_~VYF!;D<Kw0$aWj*COxkNGh5Ss9!v
zk>h6<NP>}6AeKq?B=$cJk+2=<#PW>|uJ+3$6~i)_&5=zI;HZRO9>(JJS5qMSi8rd9
zU4@&T3G0_xqd;l2AG!Le0#;7E4pT-qls@zFz}rK^@QQk-(1+)e;>;_!vMC((j-Mch
z-MPTU>dnrL*N0f!)#%xg0wzY*_@kT9_71RR;?=uF{Vt5cJ(cSCIkpHB!_A>U;~+We
zVkbUZ9WNd-YB`?PaE0A*VK8xGOzDZ&Lvh{NFnDB^Lrys4!QgO7Fl~EFFxv$+)}9jC
zzc7O(Z){OxWIE~jN}ILkK45**PKuaKH)=goAGBqg#g94^VCAGfcyW^(8|UEx*QD3L
za_gUD)UE_<^Zm&*^;0paW+7N@5@SYA1}q4uhc@NWNUjPzg5+bY!|58Xig|-W@{U6K
zVkcOC@+tH2*CDMZRAKP1TDIPK7rf-VQ98y7@AR8b9xM>F(OtEvT-O==J~{)JBpfDs
zDxG*H(qA<0a1eR<c#QaElP3-y<AxWv%21KaR?)B@Nf2<@2^vN>!hooO+$N|OS>bhx
z&9}YFwpqGjV@L?D=uu7FmPEst3%!`(WF0=c@Fd(Hc^~Essw9Jp1Rd}rN$hpNEAq{E
z9>{N0;l1N~!{WFKGGUT5tEw+06Pyb1+p#y8ruBfmyl+h8?g@J#k*OG2y%ANm9A{s^
zoJ~zi!rL+NuvN1dS4`|8sooi-`<>)SSd%rTO)G+?wPrAV?Gv^_@f{gi_Y6+uuZDSp
zv`PGOdn_34Mly_+L7#W8$>hz&O!MOkj4HCgH%jj?(VCJTX?5&=ohz8X90Q++ZpCxw
zf3iELO_@(`WgPL4k$EGJqkvl$*{E{Xwzn@jMp|LAv;i(3w-=S{#bABnGJIIu2PaFb
z^0qd?-qRrlOfD`4lLbrBPqYM@`<`cR2l}CBu_dWnX$vNHv1I0ZGeP=^K$E<qXs0L=
z4!qk2HljFj*Gdq$4RLtMdJEJS_rk)cBO*Js8=$wM8a4>)3hnNJP}NOff@ic5f9-V;
zTXUMV==x*g<7cd=#RwiT=peb_zYO|SOoyJkO0iaT5e{D<1qI!fKz>ayB-?wTz3w<n
zeen^jKg@#$<wF7s?1lLGsntS0^+wIgCUK7f7rJlg8Zsi}iD;McL^32k1dNwoBCu2m
zGFxTv6V=2KMv^o>h2fx87jX6sJJMrJ3=CacfV0l#va){XNK}eB6*=T$iojp@xKo9F
zR))YJM^)ZEISktGy)2!e+y~uf9br!{FB7{aOOYqvDnNcyB93dF0T(QSL@i64#K93Y
z*wPvahZWM{w#q?x*zy|SnT)8mZY+j7ydbtG*TAgiTNs*ji?|)X51I<y_=tvJ2;F}k
zSMOQ`uScu$vz^N@Q*r<fe|k$?H*OqcOZGtZ;ZC^z=>d?b9tE~PG<a&VH{*jGNSv(|
zo-{CloRxA^&in@y6bStJ$~R>1xh)tqMh@7JU+j|eK2lx&j@$z^>Qr>3)Ma5I+7-@+
zjgflT_9+Nv40OS1xdmh2zF^SW%Lp11?vu6?-MR6!3(!~795oZlaMF+qP+}cSx}Tj6
z{hquRY`#|roGyQy=MjeQjO8GD%_Y&=!-m)}b|21s_8M*u{>ltD8Pg5f(KzsF2D_bA
zh!gt{V5N^fmn1eD^6H;Tcyz`O!NuwmRDTFzfo^+PuIe)qJAVqky{$&$MTt1Sa4poC
z2SC!aX7r1&ggd@~3CHG$J1?1VtE0&<EyD|EeV++Mlk|AmYb&~4<|uO!=6IpP_(}PT
zG}gOWQhopLpm}T!bK0_)%}o_pA_bw~oGHVfJWRl&0=x3~j2?XZgs&n$qmS(M^<>tv
zwn$jhDTdU`@!&~?Iz8VTwdZTHA|o?gGx7rJ9<)P2fq>rC7=SkptI>%?+M>=E0pf&T
z1Y>qg#1dixDX$!HZr(vO7W9)#6lTE*%bnuN*@JQPrWBm(nSe8chVnCxqhU#k1(U3&
zI4*V<&V6nGyG--&XtE5b8GeO|f#E3Q)E}R#Ze?dX1YMM_cyW|M9TE2qfYzuOEIr{1
zD^|s_{XL?Hg;5a>%?W}?)&|~Pu44U?VyN=$MK<$uL{8ctEY&3NTh>bUcFh6IFnEg}
z7r2Wa#fXVhr@%uj`^mnnJdBz%x5M5`3vh(06BtkaATDvpBQFKJ!?_f2rP&kgmSuuV
zzV2o>ubxGL(?_<>pHCLW<*<ycuken*((HFTn6z$xiINhs5|R?a>+e5*9s2wgl8}`A
z=ft?bLlP2yj@^Xoe_c`0)0L3^`<kAFro4paj^FWQB;^0TE+r-P_YLHK->;kGSL5GN
zen07-kg5>>uh(BE?M`wx35iXAhyUODBPo2UztZwgE=Wiy3qOCols*1QcHrM32?@v9
zlP3N3@2`J({l5HPhyTrUz;=?2!(Ul2?{_}@Q_3YIirxRa;{SJ9`zy-dk$=biUpc7!
zF0Y#w{qvlCzn|Ar!uId_Dk-5T(OW3p8$DMn_gc4Tjr(d(|G%E6qG$cPCXSOB)k9*`
zuWtXO;!iv9Kc?xQdhxI4|D*aNvFyL<&%fr?e}(_!9Qcpw&)22@&(@zmDO%#QX2Xc3
zi_HIo-IuIevB7=a3ZFIqoLlX_Y0+9AAMX`wmj4~?cl;6mPW->m{rB-lNG$VqU$@Tl
z_sxViE%jXE?<w5+|L~lVf8FcPr`7u_@bA3-)c4}w{Zqs5{Q1wS@Bh^g{ySgFf1Ucb
z9Qcpw@dd9xCHtSKe?tFv_k)4I`<;WopZA|zFC_oN@nP)Re?IY_alyZ3*nj==zeNuG
zYrXh0nrc|}rzZT94S)KDKWA<K7jx%Nf3a`HKX)wt{k)#SNcFGz++X9vzvgWJIzChr
zqW_h~KjT5E-|6^s{GHBWt33VIczRn6{}c9D;qGrW{IAG=KH={-{yzMV^G~C{uSotg
zef+l$P~p$perLp=@c;GssGk4tTmAFE-}nC?=c8VKp8TJ3loY;!ztZ(*{`u$o`nvj`
z)b{z^Zv4~l{>SZ0gYQ4_<^NMs{a+9H|5^_GYx|=2JAszJ%g>+m{;98j!hh=P@46vj
z`RBs_<Z;eS`-y**;6LTA`gghgbH9Hr$N!VJ{ogLyKlv#2Z|#8I{y#bR?`OrI{J!A*
ze;)7OfA{}?&uS<Mj9{H^e6deBbe%N^)kzxkX*V@4+G&WRpKH+W8{6?n(nxr{eId{A
zw-k7hUqm(EuH#gxZZwIV0oRo$V9)|NEMK*UjHp-&Cu%bxcj5x_A>NqJes>@Ce~{sg
zi)&GD*$;?c!*OK%6`Xh`9$U^DaEH)hqPArikN2F+E9`4oUiZzYuVYG;%BA_JZ^J+*
z$V)V3H-$G>r}1yLwxYN_kML4d5tE;`6K>^<rABEJ_;uS@=<HbomU+!Ev+sk_Ve%5x
z)Orv-Grk_rPFs$%XG-$r#rL7&(Pvn9OovZO2*fy@N^suW4OiZrL;Y_^!MsFczAJMO
z*Z47-j*7ZYK9vgos`Y{V>^37fJ>?g;AD5?as6X#!sv~IA&E}=$VuAR)3p-VY2<!mC
zepOkMejNA`B3?CE8Jd5=64y8kw)ufm*2m#7kv5kYm~OS8y%3UGN79p@meG;tw0PZv
zA^f3jcfQkeH@8qXq7yB%(LN#zx2%^Hh2QXj!@)P8o3;d(@VtWynm4nAt42_KVh{b1
zdJ&J=A{?IciESz|;6IGd;iXhdo?hoc)0Kaq+?DO<>zV~a#|7cs_)wTwyOX76En`Dp
z1HE{^9sFMILqq3H&{y^#F&{4n`hwm3r;JH_lx{q9zqJfkd!EI6!?R%g_^HIFGy+<`
z$kBvtr?9)U4BvZx1<o3&f@{lLMX5EFFm(B7x_o>cMz!_lQ{N4stFn*ab6E@ibAJ+y
z4=lucgCuF3Yzr7=&!RKVtiqcC1NnzD=UK7TIc%0Q$Ju*(P|tKJRK-+?nInrSca^FA
z%OzZKkS5oeO}R#^6aD%%6W%z<;fb>IaASit9hTLJQ#*EJz={&~;anlqgt^kslGeOl
z;|Y7{uT2*YFrlMFV|dS&DliC==YC_~h^nM+vPUM5abx^cs@GltTf5>>9ZNCT#}LKk
zl<w$sf$JBC@{p0LeBH1M;+%-lRJ>p$FSwq75(2~Ze#?2#Hq8XJOO5FKvk%QSmBQJX
zOst%c1j|h1X~Mk<SW{Ik?s-p*w#>bYi#mQ;Mf9sdaqr8hTYelglg+8%1j?t6dxY7m
zjA+uyuV4#Jc=_Bdwn*6Pe3&#5c4wurY1fRg=<_DQk3)mnxP)WonLF@(eKCeOJ;#75
z;d`613U-`SqM4Pd^kd)qxVtTtZ8~BLH=ip|_s>0P^EoTpVEL0Y*(Rd1<afMRH3Jj(
zJq1sJJ8;-5P~b<kkRI!vLhx1@tW!7y84_DrUW)=fX>blICys#*QKV>xfd;*M(~umk
zH0Q+wL(oUiWmzZD!M-cY^7eve)>Yk8WHD$6Zc^w?MFTIPyHsyFU0n{e7B_(U_*6Eh
z@vOi)x{MQ3CyL@W9Dr*vA6Y{G?sQUvC9R6?z%;Wf;8rZpk60OSh3og&0GDcfQmD)g
z4<3ires!4Fr9p3<mW6BGEk(ySKfqh<I<!nb83vyY!q89+-r^(%3DI?O*maG_WaA0A
zXDTqTBAr22_92tZ_(EQ$EQeE@yYb;KR=~Vp`EY!4S?QA`bC5Azj2Y*@;gN~~7}QUW
zE6<bVIqCyo{pM@vk@*dLm^AIvBL+fr-j;av?G63wjUcHm8V5-A=8?%7*tD;mY)QNV
zp7R;V)hxle_QzSNPbgZa-h<m0&%rz0Np$IS!C$_Aw&?yNeF%6`#R%7>-7;T5`J@LJ
zxS$s2%$9&#uYa+TSj}$R-(kNpYFO!K8-6|{1LI!=qK;cnFxWhlFZ}!nT~Do`L8cej
zz5TAdT)!PgYdAod_fuA|#hFXTiShBUvD_-|2G+Lrr1HL@U{S2VU48pQc7H`aVT~HU
z@lJwXVQKL6y$>ksq==dZYSIq-eJuOXaiY9QnhWh7zuYvGUyE0uGOH`d6uCXbuF!=%
zZk$ZpUK+x!rr!LSz*f3cPr(rpL;+g-*+LDvSkV9%%Z^0<h*jjxJ4?Q<;S(nJC}nrW
z7W8z#+i+6j61mx&2}@ny;G==@;^p}f*b;mVjO5Rul|zj<xVIADw(Sh69MPr*&c{(T
zI1*mHRG^Y}3nA)SASPZ5VQowM(LF2DVbpL1y0kh557z2pXUiOR!O|GVg_lF7vkd*_
zwihF3-+;j>iqu{u6u;N$V4uZxsBfQ$*`b-D4er*sxU`ZTuZsaPvpX%hL%{F048_K0
z*zi@*E1Bj>?6yr4ShT9#aFrpq?=yuK+?@%No5yn3YFS)4P}s-*5=9yZE7O_pno%Ll
zmFM>h!M%&GVEHl?de6BC@{Uwt@B(A2z3;m79@+zFp-c^v`rLz0R5GHj8tSyIhb<lr
zwV-9P^XbXy>zJ0e4tjWP;~#G~u+HU!N+#1m)HDLIov6?yo6exB?sRTrvXg9CQwS0s
zihSqNfn2S%4JsnrVf<c0t~qoBKd94<dewawe-8*oJtckG-()1;RboTWA6x)8Nsy@M
z%5gMXREm|)y3rrgqi{q1SJ2pKh?1u&K;np*$o8_9c<&BnerP2^>KYNtsUF0C^z2Vd
zJRSI8XLVZASj+hKA^eTkIIC};#bA)`K<mP~fz-EFtZK4@^`BdDpvgD9vrvNCzY2kI
zr<{0BlLQ6#SKxR&0~c)?!@G4UqgIPL&#8B!ayIQS+dCNgUj2?Q+};YBnNi^IItpjl
zeub|!T67w@Cu&SB0og&}<TTc?@h9$)Vee|#*z#|rht_gb|7i(VdR!CVo2t#PhE3u}
zw(a6SZNl-KgE8Hz+MOmon}eC9fjGu*2whq3N1OZY<Yi6SxUfc^6U#U{)$tP}c8P+v
zr79lo`iK)c6!}n{!94Ht9X9z_EZlXPD`<=Q^Bzt*l;75-ti7GY=4sQG_aV5ZPc$2G
ztPVz9-zn17jUrq8DlkRe8P86Ai37)mva;{Z?3v1IQRlC7xM|XRIN$#oEbACXB~Rwz
zXo(11w+P54Em=rA?ErVfbhxC~3pTxR8C-CSKrQ<NY)hjwJ=kJ~MYqBP{eTP%`XSA)
z-x2t5`>g5Vf~|aGk-+#J?1jZDOXzsL;n=*(kB!=_M6F(Lz?t73gJbC(;t_Y5ZT2{X
z9usb%s`V9-L)JHt=+GDJLieDPP#+JLTk<=0dx`YaE%Z}+0_bj57wk_os5Bjmm%`Mz
zzW!s-)gMHkUUJ5qE}_4Zb_YI0mABYu5jDFg*zY%tcls3K($;=dwZ0p)9FeDOQ%tEi
zyGR^nvzOcGa+aHOnU$oE#@o+7ldhCZkX7{Mm31Ky;WU~mUe%|IGJ-H*L8K@+*8svb
z=h6->Gdkt9KT7MS2>#rY#QXG)v#9D$@KzYdyKc4vuD^uQfvtGmU<gk-cl2+qO=YOX
z%`SPUKGg>l$!=U2dkD*SSc=m&9m12ctH52&m>ZVJl7183u$2=AQ^SQju<yHA=6gkt
z|M2KV&C*5GzgIOxWgkL$B_~vUIfu0`m<#b~Be`SCT39YHbH0x2Nl%P3<ELFaaoAIR
zzIf_3-ZX2V=!vT`wKLhzRV}P&-djU_zcYmQ=rx0u5C4HD;_P|f3*qo(?Pw719b#pv
zl_*|@4<Og3o(i>4<mh%@)U9zLmz=wko*KA_XSTk_fm_GH{@D`z%co%KSgXlrNGfu{
zftU_7_#yc8{vcI}ZIE?E5?2JhAnl(@nBby?4ceyE_KN~4ZPljtKTk&8Uw1^ME@xoF
zoJW|m-U@!6RTS4$jAagb!{DG^5KO!|7ussCLvNpJ7=N@MzdE~?Wz~7($D335Ds>B*
zP#H{L482a;wwm$HX+N;)QZRH*9E>|Vzp>*#qv57w7gUA!riNp8!duBU;x%Xu@El31
ztNZ|>-w&Yn^+tTjZ8!cUDHy6tUP5!#PTISsCpW8C6!b?FvE*AL==Hh>ExNLNMaO7f
zotDdnxaGlNi9Rs(f{1GkSPgT2RbU0z;#0Gd$#R8UP+d1rG;k9W#aE`%IpzK6vRnJf
zh9_Uqec2=Mckm;F*6yW8Y;w>^;TY(q?4%R>d$19eebFOg0fay7Vza(`aLveHq7{*z
zWO(>crn;mMJq*i1t}-7+NaqvPZe7IJSdp8VsPTa5TcJ;iAAh890N|D}(+`m&14l^G
z#hoW$-i&e7Dc=ny_t}arnPX{L(GO<drOjXG+Vfm#W6DZ$gmHl$6XzB~1AB@uKlPyB
zf{bZldlEbjO-IK$i}?KWf=!lA8~a!h%Yq8*;o^ff7?m!Dm%EEF_F^pLU?kd~-_70+
zX~4W6buf0^Ak6Kur&ohBaP8?_oH<pMUO%Eh6RxI`T@#*&1Nu%9U2lFy-VW}~A5Zf|
zqX#ocw4<OmVqrv`-h4t;FC!*z7s}#R+Te{@vEX@Di(g#z4$8XUz>0ItBv(V3M<mPg
zn_uPW<*SAG>{T$|b-fv;3^;__FMnYM@tPQ$_=atF$iOjX`@li-C^WdaaDU4<95(S6
zY~A078!nzlZ_+$c=x0mgGZg6TFlG9!*C5f3=`TyyA3K7FO#;{oYdiFAmE&nI7Q?#F
zX=q?x!G<oIjgPhq`Y0x^K)=O|A6R)5<V#-(oa<`QP4$BycCUeB8s}kNx*U5wBNf7y
zS<?5_ihQQ+B%U2!hGuUD^NSt>XxB?)s_ik6b@YjXsJ&zP^N)LALZlvd>$V>n+g?HV
zur+jeg*RkHiecc2MMx+AVB1<taH#YejQM;Cjy4%{LIO!~+B$r!r$nDjtVD5B60RIC
zFmg5@Lb=&lICNJx8sUBsh`&I!oN|&iNFTy^%jD?Mo<>x4w;8{`v>T57p~?Hcwufo2
zv}w3K&<JB$8n^l)uD9Qgi}*}>&7&t#o6yKo*j9KQd=PK$<Jjhsh-)ho;KYYkw0S*G
zY<@ux6_4A)h`G0fao`prG3zrMywaFGZZ_Z@Z?e!*=Me6=d<|yL=tZX_e@2b@D%gDN
zy`U}a#KYdtr=6=p@e3ZpHR|E`Jgye6?jOnBt2^-8hDK59%kN?*uMxbr*8&z`l?m1J
z&!BhZG}?cR2ITY?I8BaA>BnAC*t4Bst<ZpfI<$?lC)d%$*P5FPwretXhJcUMLOQsI
z7ERfHnyjK3IKed&O5aM*tKO0PRPkgwYGW#7d5-7D;@*ocZ8Lz3rLts0(imD19E<J8
zhVsXAWa+-z5j?Tnj6O0O1-RxJ-uYRD6F11hch6w(S?bP11)tt&HI`64E+6O4Y9;<#
z9^uh0!Do3;5ox;h9G$02@b{V%>7-g2Jpbel%xl#WuUfL4kME^O2d~qh<@*<M^KwtR
zsNSEq#ay@Q7A{TqdM*|C^x0tkRh{LV72w#(hat%7I@X2HpxfUF8gu#+c}G?Xx4*2*
z_kLJG_ci>$c|ZElC4&k<%d`RIz7)Vkq5bJ=UJ9w3!?=`9F3vde0P8-T5ZEwRh40T7
zFS?b&T)_^zeTqCEu0Iv)%Ygnovxmy`mZFy*S@6QLC_XCu3^|pxh-;0DfiQJ<a_`L`
zKEBf!?piDI^ml;u&XustX9Bn??h-H8xQh8xoncJ$E?m%BfhVqoKvQH0S(iBu&djXB
z<1cjJr2JN*a@duBtL!0;{yv+i)fDn|Ytms^p*mhlwxP}^Us~<CwHwK}as0;m8|bbp
zLA@2s>3)kqE<5iyzHis&FXl6xb2St5UM;2mtycVeohg5Ax(St?H_{ZTEc~#@l*&29
zV$8xbxX<($*i>8s|C%)R$~OvJ$~KbZ)G@p{QHAHJ&86Z;H%ZHyM`)z8oSl3-9VZp{
z;-e19V!nL^zI9hcU4t<+O|2Av3jEGIb4C8RPZ3!#tqSA32GL^!wRn^cK{_HI^v%C8
zR|6HkfAkW(>Hdjyv;M-)bPl77WLrf;zSiO1=Re8Yy5o>k7Qx-k7SrVO!|?1F!LBgk
z16XgB#!FeQ)OD~qwrUTdg_BOfO^Hm-ZXH7d^+4WUoyWpR4TxLZz{f+IZ<N!ZSN1q@
zx!8&H&B$5w#13m-_pAxms|rk!UX>WcHM#zqc-WYC6Luy|r}hOWaiW4f-70VickcEf
z6{972KzSf>?XSdZT!HtPc?Zf(SBh&T5oX66gJVn9z!euWe7IBu7wffo;aq2)?jy-(
z#2eDn<EBHeVLMse?oJ$+eGI=$If`~~j<Z)O`aI_6b!hin2ilflOkGU|BS$u3cx@I=
z(n+Q(Q@#>wuN;`;nu|^=O~J!Z#80Q?!l6Su$fIkT5GVMys056lIRam%qFI&KH%}rX
zj9W0PZ#A}@>dSX#-GT649<)@hCmrEBgL_VQ<mngUAz`{6mG<jT^JD_3{FFfUZ02tK
z=Cm4{?|i|q3-3|!gfX2n)DM21zXto(X|pN8iS)n$Q?w5Mg{MAS@rJ`I=#k}juzc5M
z+5*$~8j0)dd*4))Up^Py!Y?vEKM{4@Gmh13mErnyFY<cbP#D!}iv1q-r|DnD@`@*Z
zbXwade4eVs4xXFN>*wp^O3f??Uw4XBn^FFG?n$EmZ6CM~X(gZg_5pdJEf`;?Nsc=<
zi$*Bc!wh=~V%%JW2UmXvtDdc*HeW3sntTlc26Vyg?!9P^iU#*xJepq6k%ZM-8sU7H
zA+IQ}g~6`A!u&uDrtb3)IO4<k7poQYYKRX>nqtZ8c_^%yG8)%TTR}s8H2H+JBl&mn
zV6rPti}ab;pC;YwOAi@Z@|^W*eBGO|WJ*miil%tLoadAdnj#0%bTCM4e*z%^LIwXd
zmY2F!ux>tnpmkmm+K%e;-a{j>;`$*{s&NIBhgE@}eVfSV$wPcGwl6tbY$SdmQ^ZoA
zuZHNep1gm14))P)f=%UebjYmRaNW#>e{t2}9(!#0fQ60FHQt%Zm<ih3zWQ|bm_XQh
zt^#g-O9#8*^9k-(<SQiYDLxy|9eNB!j{s+Q*hhs=ch;n)$CT+PgW+_A))Va95sodr
z?O?q8dOFreXydA$p+TG`-yW+25!0*5D{~$A)b|)`^HZiqs$sBOLX*F@nU1nE2hskg
zPoQ<nC@}aes3%AF;JL3y^4U9H!DZ_NOu1HuMJ_A&A@?0HRsRhXe9I=mWn<uKc{oX~
zD`P6A<LIr11MoR<EZ0k&!-s!=fF_<d*#0Ix=<M?XVjrz!N(=1y$bdW;{bm=>c%y{=
z#S7s0#3`tB?gGelX_8;7XYt!JC&A=>JL!kB8`!BcQP9w_fv+B3j+@takbWP|!u9>e
zywjoz-Ybsh748l2`Tl8?*{Fn%JU8%xGc9=^z7T@Vi?Bs$3*8ZUk-gpQ2#tYfxYgZ}
zyu&*OKYSg`WHp63^o+Z(cc=nAGixy47aR+CR*sIBmS@Sykx-NH3jB_H@$CC6`JDRE
zSZx=9reY;7{jx9pc6ls5byMUy&)*>#sDcUW=1{NQm+?ra5>+(wh41}G@SIVv;oI7H
zaE{Hz7YY%OCFp-FJGq#Axt2`wAqn%JDpEJ|#n@0?R8+J0iNLHd6sJxK=jKh_xo@or
zy>~NJVDV3)akL&J^84{?o<VTAXbM!`x&`ujHZXq0P`cIVA&JhhfsB~DWczCg!QZJ8
z?POGG-Ly9H>V=3KZC3*?**H{J_Jy6XvOMKi7}DBc`pw`A_^YR5OaGT}Y}j>JmAU~)
zb*5FqR$u<Q`6Q;heS@hHwJ=vtl}<}AK$D&Q;q7XFreYOCD(9bq_C_%*aP3Y;MRlXb
zw@vx9)n+hwm_8)0v!W9QKM}{7*x~rHi98Ocq2{D>s9;};k)=PF+a(olFZC1DBDJ}V
z@cVwFCW)uDV1D$Mz>%9sbFYU8+{IEtpTvQwssf*Hu21*OPZ#OB2J*223wUOxA-kq&
z!5_Rn$BsX+qghRTc#^9Y*K=&e$%Qp&oKgq@^*;qYb{)QQPZt(d$3oa?59*L2jb5{)
zcuBN6xC|_0+5=o6yQWPPRBp)S^Q7t5jCx$u)tlz;>rdARoYlgdW;P?^2fomr$Pb%p
zf<}ux+O|F-m$VMTi!K#T^!51QqEkesYBoRk;4t)V)TKIZ49D3VAP!s3i=U6{&okT)
z<CJ%q5H;%x^LyQbzdTHFMDHQoYf&7Xrt%3-<hp}_a|ldGXoIgYGuX|!2{1PNfw=bs
zU3zusMiOQ^l1s1eWSUc2-~^tAs8t_CJABnh&gM15MQS^){Wt-~AJ^eC`o}UImrfjR
zTm%+{`ncM@4KK>b(7g^?+~LkIQPJ{cP(5?>*ov)v&~a5d#9Fk#jS~~ON@gfp9rWZk
z-1ZCp{n}i;T!&(no9N?&qo9(hObxo5@X+s3&~;l!KrM9R9Z`pHuvB*{iQCb|^*gM~
zd<`P|LU<bZoeUAHaCh5#&{;>hS#Szm9kGKHs3u~Y>U5YeCmLP0YS1~hgZa^KJ?O!Z
zQqUXBAmCmX?n&0=8~0sB@r<F=Kd(C(dBu(FI-U$hgn?+6FAwnDNj80oMAIK{$pvBm
zqC!}=I1qXt%KcT*D9()E(Co>*&M)B0bO5ycufx-oeW6snAIJzA#|@Qf<fUaa$~L6o
z^tEPm<Niigd&G=eYZ%a3J|#FX-~^a_yA9Lkgn(%7Wz2SXh;NVR!mPSp+;B%S`!;wR
zyMJ#d+T4zWP#X)XvC0N2BXcmy<2#vGQ-VwD<gnmMHLfadg$1{5M6;iNfH}=O{~LR6
z0#9YvH4aM%nP;VpNg~tPYh8zPos3bTl#(ckL`f2jlw`=*Bng$N6hbA0>m);=(x}ov
z8k9y+Y3@7EU7q)Q?)!a)|2sV2^Zvir@8`F#>)Pw=VePfo-g`}(cc}e5!}eaw?2zU1
zMB@4U<aKfFr?SMFr@HFA^>zl#^6+n*;U_rUg;bNp>jw_J(34}iQ}oC4z9@?DV=w8@
ztdNhi-V!ZtpPK@`yT^pSsvX2Tq^Zm4i3*}^Y=QZlwWM0L<^<iRp2^Ub1<Z*b0^Gw!
zqj=kv4btX{yUn+0bur?Wjf^f&k&Bme=|=?~yxfQJbX^WVKBCnU-jn1R+^2@|j2b^K
zeeeP+Zno1w#vt<zeUu;FGFD;~v+@C7##OnLHWIMq<%*uBG5QNf&@72|vDe|Yjh5x@
zj+WwPq@Jh|8Y98oI9itbB8|nYS1zJe)AgAn{55Z_{2&vgTtQ#!tD);=_}6}3t-yWW
z%cH$Ei*dL4o~<2q$ciV~VoF!8<@=BC3E_SYzQH-Gqs?p_NTp5Vm3hWzCUDf<4Vc04
z%Dj6mJZ5H@J3Yuz<OzRE<UXl3rrDQt8SgDKI4_pZr>_l5rWgA1XrIq7=#L|$xmA$H
zn=`JQeqpnMr*<@yE1FTvl+X9(I*QM=5bij`=yK(_8fO%Ef?HI1iyT$CZzL1x_c=P;
zdAD}g_U;j4Y#w^l(#J>*D<Yc~=y#>7{Mo!|owt~8ZwomWCri*~&w+WbWy5WOQfAB*
zAMU%Xk(`bKdEPzsdM2Q7kd_bipo7Qp=-qRw=*z<6cwj!AroN2kDJ4_9iW+6!=2clt
z-M+{4vunEC>KQ$B<uLvnE$8d?ij29^(-+g*@5%BO|Ip;!5ftZ2%&V-m_nXg6>glXq
zyLvA(Ct)0Kx2_>Cs3?^C?(iTTT^UP<PrAv3@?#`<UgOe2Q|dY9>Ds*Iq8m8Zb7#|~
zw)u==Gv6<4E{EP<ZN*#RaE{*8r^pk$dXUbXnNj;P8tFNQKXA%+y7IogZs!Cp7NMW0
zH!<JrduvCmPo`%}chPEd*gWP(3=_A0Hxs5kntN9^n72G5hjy+wKnwHZ*x#p4GlyH1
zIG;?v(YhB+dEYd4G7B16JXbS!uJw#OdO`6z=BPp-Q@TBeLo|nT{Km{@bfA!)leeh$
z`r4A(cjoGJ6W6Y0n&K#?xIngM?%N;y*cTP_cK)5{_akT2PLmhqZZ=7*_Uo|WrRVtb
zwjcUL%e%F3ipJ?O)?Uf<NmX%f;k=W~yX&HKzU?7qT6-W}<DN!WryQ*%ej~XVeYN!D
zJ=yg1`NCZ7tJi9?OO$yb3jBDs>XEz^cD;<oB2{j!q#zxgcZu04>B=2Geiu{F6jqxR
z2&dmjtfO5t7SK%<!+DQCc<}wHM)0!xE;EmvQg}ua{J5b#wscU39oLWV<JqBZ#LSg4
z;I@P-)4Nk*nTY!7yu+<2+=^T^W>C6_)AINSz4X)?#;e7Om$@{LX$$4YYYv{xWS_cD
zZ|_s)_)P9&#Meo1=azGL#~(#=&fC4ALpEht3}g=HX{_#Gp5q8+M|KWlZOiu!e4)&J
zGife;8mzeP966@=EI$tCmTe6G(jj`_@&KdWp-K0(DRIZhb~2Uu^>n4&6((ZT2}W@J
zVJ3B}Idf67fN@%!#!QiZN3(m9>8oR;d1BY<Y9a&8m|f{=+=Y>k`7!Zqc=s1da}C4!
z`uW5jrt;_^dgk*ox@fs1ck+U#HU41&ocPbGyd!J7nY)wac=u|BXr1%V8M#_FCVB1z
z+O4jX2^1Q~`{dI`FB|NlJLD$vT4Kg=-?(bmuDm*%;R@++C!QI@wSIGj(XdwH1`QXX
zjTfrZJ~4qjKVM~TRGbE*>=8(>E-<I3HQ4gzjtF6vT?=M>gXC*Pq`H_dYgCxZh!lpq
zNR?-=c!$Y{X!_IFXx^J?Be}8-Gr0-IQaraug51cSO4`+1kN0g(I5(}`y5^|mNnUNg
z6Z3tF3U95y5cgAG3C$Y8;uc*BV|*1Tp15ZsXQlZl?j5B&^hwQiJlV&B%+c(L+;)jf
zdXB6aPh$K5dfUjWj8w(|z1B#aw~sSO$F#m;5?`}<2Ul{K@lHm(s&@tSd43$-V<MvT
z`zmERpeKacdu=UOLRyOF`t3HoVS6NP5_gVHv{=eN+f8ON4o{%F?_Htyu++G!U-@yw
zf+J|4=JI&2(ipDxY~HeM`m|z95@X1n!jIXwr{*$0?&~YZJf^g-o(>glVX8EeXeM_8
zGv7d;*_R#9kmV{&+&2-fHK_8&O_|8u*&InX_sVf6)@yRrJ}suHns5Ajy(PJ?1DZLx
zc`eNPg*)i0v^Qs=%ROdlvp@6d>IK?!o-j`@E0C7Fc7T~Bw~6_}m)nmGmFLb2%VP}W
z1bI@2Lm0P#GmPf0Z%nT1d}hwh+5B+1d+5jteeRaU7nwep`}AJwJ7-5wH#5sEiEa=*
zRC_%28}s6YMQzRN9_D;l2_4e$gXxPt&xGd)b1wRLG9_J_oV!lyoZ=-{xz-QnGhL#(
zT(iMXwN0;XF*_{M8EWB1rt{-Up7{zDu31hEeQeO4`<;JZw4oJ0KJ<)cy6KG>ca5qv
zQ*|++y3}NB?eZ6DbcV7x2l#tJ2RVPb_1JRe**c16pfE@$T50g|vl!0a`FG5xAC}>D
zdQ#k(YO86cSf6`qvpw%Z)Ep*m;{fe1>rIdQbcPX%yu~pyTEZ+D>&pZuAEpD%#&h8H
zB6`Loe%ysQSD0r{&oQ1yCiD8u<hcqhQoK#vB8D@33HQRVK6?K7<IJJ7o3z#Q+1#;<
zkI`L|pD+m)H<<D<hdI5?Y_5a)M6RilJ#%VK0dsi8HlDahPwm+APW+hbo0$}9D^pR<
zk2?}(&NHa3XSUuY{QFu{YRz0J&dRSo+zk$=n1YLnwXYkt(F-S)^Y7fT;Cde+%;Rz!
z#^u;8I?c|U=@IFnIePNdZkv3$M|u-^c_UPLn-opxsMZM<MPb@>(sEnwUM)-Bmo_2V
z>&96|r{H64sz(g>yLTFW_PYn~{;hOIKe)<bet0%VD!iuFu(*Wd*;q{Po)pH5oukOV
z=Vmp>;cF!w8oQ5?5u3mzFQmDTeHCjh?}>9BJaVEHTKRsn3*<Q=v)9t;2l%&_i_fmT
zTYHiY8!ySrymXxwRC!#Jrw`1I)BUul&J>FcJ>J~>^Gi5iM|<&>2i&QB87|DLmfcpn
zMdBeXK3<k9H<EwOz2?j)R<_eG3b{=AAtRoHjy1Q;oy)i{JVrmf!ev~aHCh<xX>!ch
zaOg<);dG7WU0PkVoi^BWmU+L@kI(n+(H|M$$4XkvU9muqX+3n17HZl?m&-QsV^rR%
zJ{YdX3*O*MKicHW8A#a4+r3|ab2V=i_x08Wj*1Lb(`V4gm_4)L>S)|yW-ZX;3brUQ
z-KVs<p~0hh%T+^}=i2GKPgahc=rSd4Uo!H%Uue(<Q8Ba<OOhKUR>MRHd}Xc~jAF{G
zG?=`elbm4_#hJKX2ku7CR9fliGv@sBkvuPTeeMgB<;-H!BnIqVc>Vh(@@fn$cv9zz
z8I9c!I3F)WF<o9_waZ*enP3AC<~AOvRZ`wfmmf`FT--PDiY(sMrVSJ0b>0%^&QDuO
ze_1WTbssjKd&GDx{bR*q8qd6;pOsFft2goQADmTKo1Mxq9XWh`$HQJG<1DYXUQM(1
zVt^B`X8~W|Fq^||8I0z2e74|?{h`nBUfb~$r<!rz9qy)ANgrXfSDmE4@Okyrr@}nd
zy~@1I!5OrWWgeaAy`r{6>V9ptRW>tFYR=tTb)W8eZ^cvoc$Xtm#?ZGm++{M$C3z>W
zrPChI#A`OYW;4!K=c-qYaOVvi_`=k*dh>=k`p{F?6)?ku$8)!^u5uP-h;v(Kvv@Dd
zQt57=v79#S<lIR4PCs)F;-6=B*4R$1;T+%L%-ee<mv^kllp8Wmp4YbWE?xU&5927i
ziMhc)-)1I=@FEh&bBpI_)cBsrq8o3I=hm-U#9PYqVx;1u>GRwydcVd|T5X36O%gY8
zt<I_OzRMId19NP+E9BgHeFFB}QvE5sx`AOFdGA3c+*Ffm7(Ki8pz}m-kf#VQ?mIu0
z`K)@n^h0v(qa;1vwHbcA_ZD9n&Tb`c8JElb(_I*M`Elk>QR=)qE|xqSgFAGo+iB)v
zUMl^);WVQ^EQ#K{P>HwXtrYL}^+DP`RgycGAIrayxy8H=+(f@#ZOB^@(!#g~HquV=
z8T2=&{j{}v0F#~-N)KOnlJ?ih`MdtjLw4jt>3`gw{G<L)D@wh;FsA&YJ^8x7$p2@*
z{5AhfD*LD1XymU3{jXowKYL{UXVv$6`|=_C<Mac6X@5NQHuJxzdq3@>h5j5RpjqT+
z!9(@@-mk^~SH0Q4gZsT-*wCzX_~r3AR9^6}_Z`1^WB!{z_l{rwmP2sA_rLrv>h6DA
zF++YO^Rj;SVBN2A`)B#b{aZaUe1CLNfzS}|fFQmztry>s)-PbGfGWRPfASdm)Bn#F
z{-m%We2f0+;TO^U9NIrY{_*dx@w*3kKTF#7%Yo_d`O{E^KjDY`a{gG;|9<(u83VuP
zcSHPQ+b=pA>bsS%x9^g`Q17AlA-W!V|4Bsx0>(oh{!ThHPaSf8{?h+feG>ct{eRD2
z?@s|&hWzy;f7LUT4z<%LAaqH{Z+`8+-1L6mo}msH{rMN(K0aY9!ubB{D?_}Dy-a?3
z_X+%Y2LJnjCjTg)=|2i+_KyOx{!u{kw*Y?|Rj)tv{g3GRBj9g+|3?6S>-#?f_*>uq
z5y0R2{*M6uTi^d0AN_rtpugnD!}*;0PZTP{|NJw@@;6HQ>+ygzCjKO~pU^*_1qA-M
zU*0j4^)HqFH9yVlf}iuW?&#0-@2xA5ML*&G5)1!QUH#w2{5N9Y_v^~g{^G$e`WdSF
z_iXwn)%;srt|7R8G#&CU9HP5*zvy<T+~3pjP`hp)`w1}wCs6Y9Nu%t~U;fc1{9gh0
zdw*B|!~g%p!+&-#{}>0r;kP1(3H`+9uW(cXL+KEfHGWk*^nED(WBz|MZr!s}Kg){z
z8Sd^^eSci1ezx~l_J2D0YwOGJ=iA>~U*?_s+4`Y*{-18x{}%8+3Il&_eX;x<zaHA%
z4|Q&6{#Xuu_&-el8vWM&s`tT(pEdlXU%|f`Cnvl7C)~_m_4}*-oZ&J<4g5cB*Z+e5
z&%(eE{Vw`7-g>{%k4i(F{=cU`zhBqWf6?s_+5Mi5|9e{TKflx=dF{~p(_B1+!GFJR
z8oxe2<7;mI)*tmN^CRzX!wvC`s=B`o_qXc$SI8T-?+7Kg+?kr8HH9jFvX%0iIfvb^
zHI?nT{Ty{F)QQsVP+@m`6rnz(?4ssg&7>~gE~JW9zNciatf2CL9A_tX8&gxNgxHO;
zp49S}Nz{T50&Jz|!<1Q$0ehd{X!gygRn+mKRg?}H$4-b3Wjj>^`@3liwfkfn<-PC~
zPP>&)%~Se}<{sU+<AWWQ`NNYvW4i@g#Xpkjsg9?*@H-XfDnrRvnp0=<Dk;&bJjz>H
zkZob)O1-+zcPU~%W66$Qsvsno$}N~l)!(~Cm0Mk<=6kMZbF=nRn=K-#jne*<Oj|zH
z|8X08!x|BG;2v#i+~EZ3>oE%|id{(+B~GVypU|T6)*Pf#ET^(F6h2WBDaWa@Q^%-%
zng;CQzBF}E&Y0SCS%*!l#ZgqJ2s=U{iCPs_&Zdn&qRqNS>e^HbYQ~rhYLn^*O6771
z6&|ynEfzVKs;t;bDb9(a3`XyySSm?ub$cE5h4;ejeeK67H`lRLPSOc#-a~h)sdh4@
zmXJ$DJ#uFUp91#PWp63`zLa9Ch_K5h)Zyjm?NpxracYWFH`O)oEHz=)Zt6n}!#*?a
z9@=zwP)oVF6!m;3wQ|vEN<!u#r9vdx3*Plp594B}iESm6!uX>U$1;_Dd2ke)Gpw4D
zACzMk?!1Z0qP3LPI%z8B;8Lo^$&eaeIFEgSW5h0;JexX84p0FVg6y~26REV-lPSmV
z!`O}c+o{5P0&L!*jg*GRWwy6!H#SeKpp3`5Q?8Svs1K{3QaaBEsmLaA_A?np>e#Zm
zRGHv)>TYZnWtOmy9ab&L&gf{P(vR!2cVum$j160;GtVfhp+kz&jo(5wJ-1-HIqjpA
zgf~)(_KB2!t{GeQi49efIfYVbkzjWpsiZ!qf2Pb|7gGA3t!&}BZRoIl7q#rBDfL*Q
zl*)^w*zh@+8WuW8$z|=K!kn9_S1anNQ7(_Evy(H~<8C^#PtMGv60DG272!;^3SFnN
z(-%=Ksgcx!gC*4K%jWF%a#6On-BoJSNOx-E+Awz8?FU#mt&oZ<7Gy82d`wxSJFw>-
zX{4U19bs$vp2hNuMO2hr92FwiNS#@Gi)xwjgo-`?jyiOAJ~i2mO%05>MeW?PmC7Ya
z?6_A`*#nOS*{pdTlw7kU)#2Vs<(5yU8ii+3TF=%{`<2;j{e4xG!+KjPJ=Tx%(v4$}
zQZu4HMEO$Y6Na-}ZQfJvd&aQeY#pR}#@4YHUDcr0R1{J$Wi6F|IhuNOMw1=9wTK#U
z(q;!r#Zm{_9I1B49%_Ya19i%JC;LM05_U@PDatC&g*~h}ikhw5NELNbRMu&G>a$iL
zb?(ww_ISx)O2RXeT3B|73JUXJZ<``W>3ngd6j-s;Y0IlriI5Qc%j0)cF1LXle7qk|
zXC0zGbk3s=P@5^oUEXZ(z}Zycb_I6b@N1OZ>yuP6w~KNe!J{$^cCZuQ&0&-EZ>W^%
zQ`lVvwv<}uN-{BAm7G4yBCGqh67zrrvd(Y;8Ske=q;ABM9Z}PW{CFqgbKZ!&PJ2j}
zOqfcFQ_2WqGJ{CR2a-p(eTZYTA+gqWA_`+ONxtYDvSC>O314PU3cgPx`<9B5fbFx$
zB()H7Y36?N_Sj~U{%i?3n~*@d=XsF+Ct}25W*kZTY(uQyMG@~K^2A;$hP>&VPx5D*
zk;|hE$g;@sr2OzS5^VR7_41_>*%$M{G$liq{J5Y+*4S+#D@3Bn@eDSpyWvIFU6&)~
zOIHx5NP9x{wUQ&%a^$<QGHE$Aht#PBnx2$q2<N63i51yGm@&u5+~f=r*z7`XIGd0r
zo&_;onnHG+|HL{iZ$zrp1W5C8c`_lzg4Be06DfH);;S)}c$khMcNe&l==M~ix@Z}x
zdo4>cmUGDrV+nFo?HfyJ{W_v{dnLIgWJqRw(<Hmx6v>(+K1A`57g;85M)tM}kxsR#
zWbyN@<X>S8`rkJEe}{oT%13@m<c9P+8o!!0l>W!<SoD6$<s*NU_%r#Vykp&8<o~l@
z{)msiEicme)j-Q%>Cow6DE(vpe^_4B^lPW7@&Dd&{t<uwweq50-TEJs{BivLlAbMp
z^<*ghkJIy!U-bN&dg{;k`Qv!}tI@OGZ*BeWkAwQ`$uAR#pB4VX&>!*R|7YC&GamjP
zeGJ*_4W<7H`Y`y}pTFq-zoUozSECPy-<tg|ARm|f$wU9S^6`HL4gM?D!9KSL?B891
z<<GCce(y#IjNS&4_qEYpF9TMIX<)eJRiZtp19pC4<i^ErGD&+R*k=-xHm_7L4Y)|g
zH=lrYocplFDIW?ybwPc|eONN92x49~!{$s&^pAW?3Vl?-YL6@&WILF+ia9{NR|M?V
z+5$In8=#oi2gJUKFgIDyer7w^uIPfJal_ySv4*I*d&#Sv-v|>@L~^8-LL6NSft(Z=
zc}D;Ss>&dSV}N^vynq(i10$Cv!|g;loTL1h7=@R^mF?p(X;T_JmJ5e<nhBu1NeuP2
z$H0_3--v&63f$9Q3hKsj@JiAIHl!W_uJK;Ll~qJlKA7wh{{U*K!gv~0aF$sIw0m5D
zNh-MzQ4k9r0yI?2PBx7IW7x*MNWzcgLfeBVkStS#!zZ0^LxvqlEIxu6!PkjheG%*$
z;{(+}GHBS<Mm7rJB*mP^kT6UR-&769^c&ugHNBsR8oVcCL^s2!9lDUE97V$Hu0bIm
z_ZP+w!i1gYLCZK64hxC`sc8et@<^x<-UX}YEJk|ubFi4>2J6yP!TLiIMum++gIjAM
z5W+x9bQsDns07m92-TYRpr-X9v>loQ2Q=NlBzz$xq=~}9l8a!KNuc?B3W%2*<G~A}
zuwlV-Qd-1C&v6%^vN;+FX@iLy37Wf{1>>?duoxW+v2JtBCc0@twfACh{+b0TxpH_+
zFAJ{7R-pHk6YxIb4C-D@1nbrjIJ;vzyxKJiTYb3j?(sZB%Y&ccz#SjVuZTfIyVKCJ
zelP40TL7o7M}zOQ68NnAl4S2O#}YYxT&R8*3cl-MMBxc&II<k}XKJ9z+AE-ZN(rZm
z#bU+oXdM5v6tu2|gRR~^+_YpA%G^8vl>t@|%C*M2zK>v;ybgwswZ$mEOeD**Kna>a
zWdBLH@KF+yzWCyEi3#w7lLpgQ9f2=Fb)-Qwhj<5SA+onYV(A1F9h?p49@K!?^jL6B
z*bfcL(%?V+rRmNE!(s5~5puj=82oN-fNd9s!(0np)Nincn`=|B=Ikga++GEV36^lm
zKNZ4QwZ!-9R711X*J0+9C$M(<RIED_4`pY>VPDsC(mGxhqKfrlSU?^r<@!L6#t}&M
zUkt{c)u1771kJVI$Q2h^4C;>uF_$Q)e^Cco;tg=egMdMR5k$s`pxY}kjIDY~s+{fM
zl{E`Rx8#COtPdPG!h_h}!ysh%h)jJg1|~n|K^wP*Y%eQ?esL8D{JaxpPDzAq?$I!2
zvKf>JHi4+MD{Q!b9oBTEkVo?8h*gdt;e1UX@rs9tym_zj!^1OxULH-pZjFSETlizm
zS_EOzanKu_0EzBvfOUE^999rOpYhq`adiVp_{xxj-6KrCUwTCj4%dP)#X8VBX*ERp
z=K|VqC1V91k#ig?7);m&V$17E|7c+tj$6r&@Ej80?oGCglY^9&S#ZCL1>56N2!2=x
zTC)dWW{wENOmKzLA5$RvZ8e-v%_Mc6%OQXJdB~~efW(HeP~EQ$i(K=-@4-YEv$uqp
z$l5^Y1Ql53ZU*kNcER{^HSFCWibjTKVOI2R=r);(eLW9BDti?+I!b_D1q~;{%Sm}=
z2f2K~2&R3WY%=}L06e+Fke)DUG@~W4p&$?JJwC#o_DZmw%EddXr7%5lA^OiA2L~S{
zf%gYVNQlxlndZD2lrIdzqxwp?c#(ma>B1;}@de2*HwJ+P@$jSmE!_NA2&1ppfJ4X@
zIIzwN209JlI_&_n60ZSn;?u*FaiH{NG@iY)1?6QO;MMtypv@9Pe;<O187h#Ha}`3f
zO)#LO3>-z{z<#bP=#Nmw>`gm?KDPoMOsR!)lG9*WQY$#0Y=J4O7NVk42)<Pm0Ri<u
z&^Z{1yVVci?y@G_;OmS(R&B+E8&U|u1+ZAK2=simo8Am}!WWyAAWLUG21FmkH#^qB
zC#x7N%8vmL9Rtd~v!5^1Sc0p18eq;e4{YAe=RK$W3{M-{<AL#Mcv|@qo)VM5=HW$P
zy<r=;ia!Q3^$XDXEe*ar+=H&GdFWfBh*R|^VN1{mJOTy~`^Xnj`v*kqKMH~eQc$(I
z566`phZ>3TxM25w6w_z0=SmMKHyh)3|DAYR%o1%qtgygd8+&5Ku+m8w<A;5PD_>2}
z)F2L;PsCxs79H4qrWoYf6Ty>nkjQmAkuAsSAo)uVgw5)Qd$y;*&8!@DQOS@RvjoO`
zV!_#m>rEBwRlv^jF!6hs0Zpr%A-}4FT)#LGgGP>nOLO+%TiYrkOdo=clCwd`X9Svw
zRFSh@QIkHcX#{iYui)bN625lY!wUU7<VgBOBG-@z7OzF2TyrTg^W6hA@8z&`XAfvC
zE{2rit&o0D0PYPdgnTP^@aYPH5PeGwk-7kR_U7=_LIoPFB2i6O5JQxlz}mzMT2H?N
z=ZIoBEqMmU4&*>Y&~bP)$C|$mav?KkC1@CZAkUB1Ky0o$)JYtGlJ)hl)=>uDCO#s=
zJ6zE@#04~h95K~T1T^3!G#Xq4@6t=KG|U2u&x|&^xoZbGWH1t*FZe<Bc|-$cu@o+8
zq~qg`GH{(`i|R6aVgHA3aAvg=Y)tF`>&dT3oMgL!o1Yq%28=-Islh1oz8PjM$cGRw
zT?icK0P13!K*dB9M&5FQS&x(8>W54)Pw9s1fs4VT)esz8W@7)?{V?p=S=c&y3@)bf
zV5HD$s1$Vvw+%}8%u^DJf7~OBd(~l=*h1Wr-UMH=#9@uQ2%6p_xbwjk67)zO9$i}o
zR~b!6`Q8RfnKR&P(>b_(U;tVj^U3W+RU}tM7GJg5VW+kXhMQ{Pmidaf_I3eW>#~HB
zf-Gnox6@QpB>@PE!X1T6V4^z-y>wk5`KT8*X~=-4$URJ0_J|zJsDjonrtl_>gDb4+
z$i>uyhIJF)LAZkj`n8WniJ4r`a9ae0Z^glT>uxakuo&`su8_Nln=r~~2HyJq1zgPD
zg5cxRAiGN%sw>5@lXn1|mn1-IO%D3s+KLJn*Fjdx7;rsNicyzrakR}fP;SqK<W*Oo
zrMC%mW<G)ECq^P<*kSaMD!A#;2ug(sQ1C$yj@s$thVc7jG*ZA`Vgsjm5hQYEDp@T4
zjJW$Z!D7d1urxgcjk-yo?(&XwT`_^n&0-L$Vqxm`QWxf&I6`!mG(ZPtz~!)7K7H>8
z>A<T*E=&QxmaQZM_6^`Is1I!+mmoaZlQjEA85p!`z@6d(7-94go{VlJNB3+ayIn4j
zd<hfa-5vu%O(n#bzaQCkNCzJ~?uP2I+7MG50s$(=N$w9{DBY_JiQ;k~d&LBo)fwUa
zr7F;SoImHrX`%}|4n}<n2Phm1#i_Aysb>f1xNL#V>Brzg+fy(yFM`&}V35064%G%#
zq>Rc1=EM?~@aaz0ZQl|W%WE7fGv&Kk>`75_#&<Z`z*Z&ZUrSll6Gh4Ly!|X~zprMU
z8!cG*q60=-EH1Me?z))WO_3#4cT~ux*`ry7`vr*W+Nmu2T4$0Ge9J86h7K`LvthYq
z-(ZdLIc;Vv?rd1?m%tjxvmzmO+9Y7=CKeWjuwEzXvxr9|tG8kWtL9W7>(kO6)?!6f
zQaG@W^}%}^%ihPIm8)^i?8$ja()p=^m3Mq1>&gOcl2YeQa;JBhC4Nk0O`qdNT#bIP
z_K%;$s_odpDjlsuY%|MQOQJTiMt&_}?TP!wN;sLodZQK1O0=qAN!}U38Z7T*rJtl>
z?&6a$5MKkW7Y>2+xRr3;UL1oqM}hx$Nz8GnB`Sgn@NS|9F{pn@Dg{1}&-3+6hJ|l|
z(G7*<2R9wY=br;r(;bj5&ZoIcHQ=%_4d%3$Lu$t)oSXfe+<YwqrOpEIJWtDndyNb0
zm$|}+tmQCg(=nKI{VJ@Oc8utEX~V|7o8W*te}6W<l{|T=4@(;slA}|fk@-={L}cDH
zaK2vzPg0`bUT!~$jNb`PHR|XkV*|UtZ-S1Ei@|QxSK#(HlKxSJp!re--FNcGe&>9c
z$&Li+jSs<T&>NhW-y%itqrvN@C2TTU1MV3n5UX4aLEmfn=L<Q|Na-Y_Eu1jSItp5n
zT~Otg9q5034HuU-L6U9@B(MOYT`05f^DYyo&tkCYqB!`!j{yn)g<$WQf<@&gA$~y=
z>N>}O)Oi6cuAU7GgrCFR-TmZD4#%+nfC?^gQsl3lYfxg~98}oFLw4ghSh!#&EVBxQ
zhv}b4*SVPx5MK&ydk;b@>4*8jfe_zJ!F$2!_=&&Xth`tcrG2{im{S8$UaLXV!5*Ue
z05jewqOXE1h^!kA(F04-x#R{I`g393brHNt2=3i;k!*7`1n2FW!N6P^T9)5{@e_8#
z){ml?zf2dq_-C*cVft`*??}8Fe;B(z?!y%gi}AtMarh}o9v{i^&n@Hvl#N?$7Vt(G
zFB+|cwNrOsb-^smRkeXQIS+KdHy<{bJVV|MP1rqQ9B!I^4*CPraM-*{#4E>q(%uJ(
zSkzL5dlL=tAuAU8!yIA4Ruf3m9e^#vcY}!YW^hn<#Md9wP?)8S7YPSP^q8QopEaZ@
z?L@(uUtrXNVc1}#MX6-R;`%qYAar#D9D6vL+B7K=A8wGs-CNH?+SdS7XmG=r9V)1I
zZ9RrpWue*8@yH<p7`dEagxfS2>63yhlfJ>%??LGG*$0LC7NMr6A{xFqisy$@IK!wI
zwdSq?-Iv9%Y=0Z+ezg!7CKZ<MykWxYHo%E@9U<1p8-0s{al#!dtX@11HQw`|C)?q@
z5D(0Ma|f;65}>IrAIwJ_g7%qxCU;LZ0hWA&@Db7|qvMKmJEHK&m_SHf+yc!tdU&E_
z1A2SxhHUv8P<zq>tW0LYY(D}!FMWo(L=&{>RYCp87!cSz9RqnyxZLq6?Cdtd%9*Oz
zXq1UIYqmn2(G+}0@^KzV6+bphpzs@UtjSEpV|zy7?WUbjr#k_QdxY`hM@0-|3xEU7
zUwgJ5f{b0O$oQL?<V0%)q!bBZsr_TvQrHHBoeo`3?I1j6fLv>}hIc}Nrk_rvL6UhC
zDb(k|wmK0saxEYSZO`z}ehy@A&PFV=^Cu=@Q^88&6Y(s$0(}?elHi1N!^fGiATF+q
z*22d@`<4Ve=&vW$rdcFmr830p*OA%xTZqkM72G(g7j*0bK|g_yiydK*o0vrQPpXG`
zAKk$Jl{)B!t-uw+rda)SB<urUaFBGwx;;`jyweRhJuYx`^(jdGvKN*=*#b9J(m~Gm
zD99>KgT<?6fX4AK5O1v}XOc#uQ6ml9+NbcK;Vrlw+($meKOw>c!!Z7v7CsokMi=W>
zu;aZj`i~8VQw>I7cufNaxo1uMmCu9qi#TFF_7e#5CZJCx{~W0P8Fa0NLv}_Ps)?;4
zDvQ3ry-;hYPHBg3sr%&an+=BI1GS*4G74`fPeb3lSkM*J1W}hB@+8R>hFLEHc%TSA
z&y}#Dmy4UeZH5zV2SCWm8H)PKh+XnKI6WmE4m*s4&ec-*HXs})WI91@`e|VOn24V`
zY;cmvGUzia0gYTyEIV+LkH2dmFeMZ4Z4@kd847|i`=F=l1Y~{`f<=|WC=sm<9<fo7
zHuew%xA>8n26-grY$RMx7>m+P9q{IdH1=rqLFXPXIAZAua*eJ~qm^QM&Dsv0s!D+E
zvu?<^DuQWN4j|LOM%&ApVB(*FeXmZF31{Ab`XVo|Vn*Y@q$Z*>+D3m2HxHg`$l!<E
znfP{^Dadae1-|<&fwJ8P)@ECP9#Kq2yi~>HFF{y2@iW*JoCoiF=U{H5B#f%9hS6_Q
zAezr><!!g(-8->p&=n2BjlpoPYc2K~zJic}3O;|B12@0bKqq|z)~H?tS-ZP%g})Y6
z9KFn!-SD7AxCXde)j&<4A41db5c>^F;Q8|~xV&mVp*@Zh&CQBnHnkmE9^8Rx5oh7k
zsGXqtT@m)am;&QUOdv*Qqv`AR$)J6fA??@iLidrYa8UClIh|7p(^G`OJ(e#w`cg$a
z_B{ik5OauVehaZAh`gVqXeg603TCD>gX?T%l$iIBBu$PctwKM@eCb($lBV#%_#p|k
zN(RUI6R}l#59GH@18F80Mn+sAYYS6AB8d&L$pG>(4yZ5}abA!ttP4?u1_uh;FYSiH
z{zFh*H353^a$p5J3vPzS!M-Q;aO|`^RwSN*m7~I;NuVBDR<#p)!%gr%qYPDA>0p2A
z7Q8P|fGm%1BuU8~m$%G?6B^!lVV*Y3_%4W%a(6*N;trU+V#Bv)39}>D50V{`T5zvl
z3tR^?VZxzEsQ+*r9UB`#G0hpTIUR!D&=FW6GanW#yAS<!A|O5xX^<s37H>7lqJ+>!
z)LGRIb}Opj`AJK#*Ixo|m($^Zu>`n@CqnU;T-eLxLHoxipi&+R<6l~VY=AW?i5G&p
zR68_Y)WgC@=Yf)02cJ{?pnS9@4k(YnbSXiY#M6Q=<9%@6_J?5pO$x3Qjzy^PKzy$N
zor_H%;o~}R>QaL>hx#D$=_v5pwhJz}%3_S&LK5M3fRt@)g;b?6nECw`1PhM9X{$x>
zn8sERb+85fV?iKz>X2zf_)NIvF9mM%PC`zh7D`Or2xzkqJr@(uH7&uf5sF|d+5y9D
zra`CqM0AuDhQrNrhBFguA#AoDN^1MzNM{G&L@Wlsu4!;<LNbg?i2*h7B64}V3oiaf
z<E>#YV3yr*>~y;cji1fIceNlkmhXZ)X2+rL{Yu;}or&8vW<s>L6L2l}qSC+!tg*ca
zPZJkF_M#l9zRw>Ev217?-USawFGhz|e4dro4>tz#!LDR7)T$d}#xyU`nj?vqCFD`&
zlr`wYjRIXe15C3E!<=FJFg-v5U31PtHt!6WOf3h^!|hNUByT3RNfWL1j)2Q`E3sg{
z0mdX%5Z(LLVD9yid<s8>&RfTV&btpV^GXz0=UE`_l1KaoHcuMYlL%Y)p2U~!{ZN-l
z!TFOm&~|q$d=`lY1wS>A_KpYV0v!x7oq##r{m?zE57?HHX!}YI#5T;t_w_Ouzf%rx
z7^zauiZ-Ze9SI$83P2V`sKGvaOe`sY6Z(5Vy37IJuT#f|S>2H5HwmMU&&4g{x`69&
z3?igu@W2IUINZJsZ}A?(bLm9vwNJ&RGt5CSavO{qo{sg)ucQ0MC%8RvE6#kGh`~`h
z801zDlZ_>?N4n8eUvdZT8f^_njS7(FUc-+T3D9kwg1or^vG3<mLPhG}@YEYK9ou1D
z!7dbgWdVm()FzFQoR8xy@1o(o0u&S!#d}Z<bJVloYxQUTzNr%Q+}oft^drvu(1<eU
zCZL+NE2f%R;#vt$C|25zx11*7*~`Pw;e<GKPez&Y(|QScy-vtG^&Lg@o}-<tDqi9r
zE1X)h@KxCg4DOnZE_xoQ<g)?G?wg?4PE`z#nTZ9PD<F}54THp1lPZ_da9na83{MUx
zNAyET)Tpmyqoh2nsnmmnWBx$Y_;PdGLUK@79Gc`O!l})Ere{|2h}Zf8qS+S&Oid+R
zKcoN!Q=6gbz9a}<S_ipVd1U#VlQ5Po1@{}HAj%<`e1GIN@u^HbNnI`po3k}gCsi5x
zo>mas^@3pcL>n3;EaB^j1me2E4FdB7(Z(?eA{-RJJ46ERtWPC-2UuWmyPuq_7y&bu
z?S*r5-@~Sx4W!~~J1Kix0A4>RIPFV8iP~YZE5{P9vk1r&8s>QH0@?O=KyzYXNv}O$
zt~ebI2b>^HYtx|5APd4)NMgVPDg69J0FOGHg4xaPsB`2Fm_3+*jr{ZGw5K!S#QrQ2
z?<)fuVurBnP?pIP%{D0e^o`WJj6k``e0j9z4Jep73TNAo!QM&t;ibJ8I&-4&xSK6B
znk|QlG6y*CA7`@iOA;vYjsok-ZQ#5R!+XtRakZEREb&Z$^6oNVpHjx?3sa%4HyjKq
zyU9mAB{+8f9l8B+AIzWs6mDwN!{Z(1kiF>xd=*`WtnYi_RqrJ}e?1SDjb=Ew!vMZd
ze*?P?&cng6b)Zw44$p*+!N(3q9CxQ0M0@nW|M3M_eLowlpInD9$v{}~>^VGJt&J+%
z-x0|fBOr6U8BT7QgEli}VV{Z}#@rUiyaNolE|>xVI;Y@vVXtZ8oabPFPXTmC%j57#
z>#={=c*vb?gU6{7l6C(9=G*m=73K9H`(X`i@1;>(_YjfpJTd9rb3xpw7ln$QqY?T0
zyNmq)8~ZiDAR!)t-aEl|J!LSnIEYvL*{CS>4#ciX;>Yz5p}R^Bo(NcDQ2GscCRYLG
zQa5nL)D%3S6$ioV4?x873%G=ph&Sw;q4#MuIGKp!iAe(>b?Y`{pVdX1PsZr+>;}ku
zx&&7r*22{>2H^ZE79%VDu=&$%Tz#w=_iwp?qq1W0euy&F$(OIhHK|jJ>AP@EQ4!UP
zDOg+F0;a1((B{q*(-Rldaba66jGxtrFZuJxm0ONar5U^)avN{9mf*GgCOo>7OBrZ9
z0;9E(NWW9S5Bc*=zn4wGWR5QuZuG;f)@pQ+eTBlD>tGc-5x4hcqr>hlG;k2*>rKot
zZ$&q}n$`dh-W>;zd~eL1l7ZLP#G}}U=a3szk0zUqDbnYH9OE1ea7x6d#^O}7#&Zz4
zT7>iVN>h&;x8udR>oAbD6h~eCig({8pi06QzD#EqZkJt+Io1)lx7iFL<O-o<*8^Ce
zs0q^@2guUq6&NlV28wwrF~Cg&Oe;iDr1~;^)PD&}xz1potY@b4u$W}zs)DqkI5>Lj
zgQ6`fVD`=fn7!--TrORUDPyuA!bJjgb(Vrg><jQZCj{aaGYs{%jmOEodT2c>7T<<m
z1mTW@ut*poTg4GV+T-AXmn5)k<DlFp1NOz%fkuuX_C<Namtj*N$if%dO2<L5>n@zl
zG{uU@YA{IK0V%Tn&@tQu)n1H2uCW-D=NN-Z$!a{Deh~~Tbs^`eJU$S!L3y$J<jCyt
za9KGXT-T2U-RfRgvV4Hmzi}oRwZsG_&pO3gW>do2Sn!ebDxV}dO%nijF(l3M9eLLt
zNw%bIAy)z&N$%n8CY(SavX?uCh&^^EU#9dBzb-DhxF12_i8JA;C%~BmN%Ck$8#!p<
zLCi1J6HW1Ztm5#u2BSE4$mS{PU=qOJS0yhZ?2dUP_ks{PRcl9H7|tNcOg$@Uodztp
zdWl$x-6F*7EaC1MOCEleCF!G-A=qaPu{_;H-Yl>LpHZriDj7{ycL)=`dGRpvt33GI
zY$0EN=#$yTXUKy|+ep!Y4dj05GxB22C=l(pC()fpiS4Wqk``adYMo&N3$k7k?LA3Q
z`Ro|XaEc;VW-KIO4Z9%jYZdtBOX2D2N=WO^gVy4muwFkF(iigeA8}2lu)_pi`CKOt
zMrMJRWGZy@<dd0uv~l2l51G8(2fh4HllHD6n3tpiQv+W>{nmJrl(BEpsi%byq@sv^
zi5U>E)(EzD9Vf@O*OOP%qT%X;Gekc#h4im0hR5wMU~^s_7`L2-lG{^YUgjAxZG#{>
zo!bRQOQWGX*b9@g_d-y<1tg!=f>o0P@!{DX&{*#ZWQqo~Qa2z)G6zcYcEEg*NANAa
z8;bTV2CLD=;5lO+tnhkB&I`PR0JH#`y~p8J=00!?*-b>Bq>=I^Pk_9(MZayYpoNw~
z*1&KST5<q-MP@>5dMHS}PBzW{5(8(a_K{5&uR;7bK8-#=m|Qa(?QRVRhebS0T9!j}
zI`)Ar|D05qXNWU$%Sel-nV~6Prhot47!*7sgy-^T*j+pk1mi@&aat-28nNL@DnpJ&
zPe$W17rg5E0(?0);Qfhoa4;2wL!1ZDmb(L7rg(y9%YJ-wcsicaatF?Q8WJLsG5N(r
zoIa@$ChDfavdEh-_rpa9(0BsQqs~FZ6D6D^Pyo#nQ(!V#1`odrf}V;1N)Dd@>>K;w
z`GG=Mc=ZshedGx<biP7KPZZo)+6If<?-Gf*w@72}By!UI3DG)xfjsuAHhGa40Sc>|
z2<3GIdL=LLg<=WNn_LBVwlzaHFCWgIz6@`?C!mGE8zS|Y1!_I&&^p(_q}FgE1a!+n
zu8%wDe%uK&o-t53>>-I}n}9*}R@ft705^we!#z<Bl;5f*HnLBMG+jzUay($Ahc75g
zhQrd^cL-xw3Z8D#$bG#Q-dH9B=UFTSd-2y@wl?fZi-G5O72-a}!Ni3@aEMs~!<LOe
zJ-0NtW^{p=>G1b>k1WA2X$!Cp=K^<$J|0S0hHLi<;Ie^O*ria5_uqep!_G2P&ooz<
z&}fCFZ`JVNR#miGlnV}_>rFS7)<ZzWG@$wGzFN8qUO7_;@a6(~O2>fF<|<t377F(w
zL~(ar9H{m2;L_SQ^2t0~?*qpTb0U&ZO)?Fo{EmPLT@3bG9`G(H9u$Xtgl(+_u=0Qf
z=3T!8$`vBW$y7l$6AF7X#zFJO9Ngp~g_^@g<D5M<C|f!aZ%x__&%d|8hwohEoh`yU
zE4)Bzv<W^L{umo1O|gJ(g^Al1<0fBU9Ntp{SGR?NSlA74s7{BLL>lwFiy{BTZajB1
z5+7K+0oliyV8_T)<pML1ek(y4>==iohA~*}?~L_{Bk<_SLm(zH#`J}O9roVOfzP%q
zJX(^8ldKNFh=)>?h)gPMT%$!<ELaVlzH9Jh@f{ePtBaQJvtW6$fuWXaBpxZ=g7y}z
zxTx6_m&UvSB9;scU+4BzYa||jS`Yn4N^$J&P~7aoL6=@x+*FYSnm+=-?#nBz9~_A(
zD2HFwTX4SIb=*6p9YlpDV@#kqK8-nron7^y7iogx>HOz&ewe<Rg_HZHV7F`tp8u8y
zXZ@eUf$5s)Gdu;p_GIJAN1`xp)@rECFu<f4E5X6q2o?<NK>4@I5aq{1se}W>Amut7
z#CPC%`vuJPiHFHff+m+6EFkH}5m2{ug)vQUK`(hHUxs%EzokWikm?w`+r1lNxqSW7
zqy$*(U<uot4d7jgzux3Me7&u<5N?_1gaa$~^Y>wUq3q&Z_`GsF1PXKkTVxlM+24iy
zU}un1Y6Y(+2chA^UGgAJ0ursFaR;WsTcy{~wEY&`cpDG5+MVFN#|$uCO5lUV5?nD|
z9{kw1VAy&u3>th5W&=WyDKP;@TD#%?S}wf5^N`$(`T!%-CxC#$GjKiig@jF=4-1bu
z!?EiNVCgXh81*a_#`4ek8XB=Mv8jkmy0Mc~SM{;l8nVdSnn+^kyv-y}W&+$yT0zn)
z7J{h9W_VgZ1@7<N2;UXA!ow^(2wENo#a>;Yki3&@tbRcJ>+h0`o)IPj<QSQdbdiX*
ze<O1rxd7b|3Fq2&llxg8N%|oT@a<dyV_kBIU{^cQs*EFZjwX_wTf)iSZ6jg&pa^VV
ztPhQ^wvs3Z57;x72VOCX5b>G=V>jDC#w5NTK=d}b&DV)Gv$w;WPbRSC>KGWGJQ6&o
z7r_MuCs4JCC0)-nAvQ}GimtIhaLjFZ?%W4q;m^UYTox5qodyYaK+mRQkW(=O`#VR#
z-9<}awN4Q^zg7yq$0>rjLZV4g%^Bz|yiP99l0jabB*rUU2Q=>mWtSe1%RURytJ<I^
zZVQ^LE5OYVS5Qu}g)!f?Od5ss;e%Wvm^M^H8Q(sHV`hWbGbmWe-~YQU>wwf|RXiMI
z3)efALHyWZd>$qV>Z|Jry~PgvHsyo!t#;U#uL1sp6(G?v3Tw7Hf^E<qFy`--d=HMo
z(s5>R-tj9$%^;}%r3vaV9M*O{fWscP=#>8r9DfXu)gnBYoRA6U8ZSfWbWeP{e<z-i
zDnT##3|xKO3gZuSqPY797)&yz%9}%=WX~GDEsYQs?wf+5WyZMZv8GAYQC%#oeFenO
z6Tb+~LgSRBxa5K`b@tvY+-5Ka)8lTyhadsU<@x|fd@P0!`xD{YbAbu7l5Ma_G6MBI
zMpIjF8({SISX?ZwfX`<2fq7#)-gsV!DS?7G_)Qom<neX7>Jqqhf<4TW@B*2lYOH^g
zh$Ef=?!8+Ba=cvpx@!*<dacLV4@B@WZx|Kh;06P;TJX*Hag<^x3qS86IGcY)S32E>
zNrh^Nhu1(M<l!Y_8-$g<s4lb%KD>}a(}bxwtMwyvz1j#PLigkHic9cd{yRJps|hl%
z^w4ar9B!K~hnqGWhJ67WOtmdD;OG+_P$lJH_SO=+g${!2;$!F-9t@&JN%;A02vpn?
z<m-=?!j$3@u+yQ8y!xi8x3|OqKfm3EtM~!J<4^4b`MYUQC1?k43w>ao>s^?X$+v&$
zmc?m&p167Q6G&4Xfg{$=f=7N60W1?SPD~1=HwodwQ+!?b!U6cv5Cr4z6oaX+F2-)p
zLv?2s2<%hipAD{Igq=9T`vc$}<%;XPJ@B1gG3-m933nSS!1QGjWLazDvNL7GXvaSI
zc+eM@c`pQqN8%7xcn7PEJYoI!7F4)04vcK&(799_BW;B7;f~cXZKH$9{kYj6wf`Du
z|5(eHF)HJpWGnDFB}zTE+ze8u_hNPR32<N70S2YVAyXw3HukNDtA%zGv=^>GuCoHh
zPYA%l?-j5u=NX9gYyk_tY;NEZ-(GAm1bUS%aNYGjPzZhk$3-uIR{unZS#1f6Opfu#
zG6#mKEA#bST+|8e2JB4+SJ|nsD$xbB`RnS*=dmzFY!`G-H^<?^6s|n34v%78(DY#t
zeu|g{bq34e`?F{8e5F3@=_7cjK^A4|(lM?t2vxPrapAjHu;4%w&ipbK-|P{lc+<~<
z*hDtI9506QH}1opwi95M`owr#x)Q2&%Rpg<IR@UIkNceOK;_iqXm#i~ywa<};Kp4f
zB`FD6J6!no51k+~^&EL&I&<Rtr@DA(*j}`~QiuFI_TW6;hvWOpp+)Z^M7(67EnnV#
zJHZ6|^R!SqZ6um#-hutC`ypHA2sr_%cvV3UugLS~_uXkIVvvgcBLl!B#|$SGPRCgN
zN;Jvd0-FLCVBnPN_~M=cit)yxynqj$_A@|5z8%Mz+xuXap$t~Ocnz`_reP#$1R)Cx
z{9?u53yLw&6~niKd8dO#Dhu$yxOm*r{S;0edIww2*20|8m-#x>9Jsk;pQ&flL(t^g
zzieDX@PWu}=#nmj!C1r-PAg!>!B%_~w~I*UOJe_P3hZ~8<7xjHa1N$Us%{p*V<Fkt
zab-T<f1M88ue-oi&<J!gGeI_DKA0Wc1!MZ|z>%e**uCH}#Q2ZEWVJGIdM5(v;$v~&
z=4KF!*$maQ*W$_-`%p~$7Ib_T$AYv9^qdJ;wRIVE&Ns$S{%3IHy6Yf1OA|#+1u)p~
zF+3iX3WpYELs~#5Ok+91sR&OjQ##9f$=9n-nMH_7z7dh1T+P}M7EHb$XlDgUCy|$%
z6IpAVN?BRbQLHguCt31?+gRW^!bp?7mZkc(*X*mGA;}RkAZj&_Sb>M_NbEO;)mY+4
zhTS$~ol*)Rx%tyrFO@S`!kd*@%j-TH99eXZ<>;wEYMNun^(Tp}lUJvc-l_tY?T19x
z#tLzgKTU{8hn-`kJUPSKaUq5^Q7Mgez-<`Id5r+;hoU@r9j8H@TT@xtUQH~Cx2D9p
z|Et;b{v4LdjnAyl6Cz0Hbw^g;LrG#VFOB$2y2J|V%wr`w^{|wUrja>vq9o^yB+EAQ
zF6&TdHmlm(gxJQ(Lfx`>zTSQ}Bt78oVKxG&_g;nSkDlP_UI{_oZNvZyNt)X_VtDfj
z-=5(Nk%-7KxwqT{nm)D>Ey;8^oOb{WUaf_3Yl>h`R58d4Z-ZE+Q-GI6QPu1Q34f{t
z*H8rXTeVCQv&Mt+qPHYA)ChcPVnI>62zJ)qC2PbLz&bq$E*kFwKQ9HCVXFY#H6f(I
ztBtf<?jagGt>9+yVkj@LhqW8;k%40wpt-Fdwgk9A!L!w{?tw2HHg1Ca`H~QRa50Rx
zI00XrL!kQqVd%W$diujC-jWh6S_+l+9^cP-z9@-ALzL_yD-}_8W}%@dO%)B1ik1{o
zY0^NYUqi?$J0y`6zx#i$?;rQx?&o>Vd7pD@?eINp6{@^{z(ejZY8Pd(N0A#aN}gf;
z2XDmw8fGy?7jdp*ADw@^AJx9xOkn?xz8^b*SGvDxq71j6b?VVbj}f)gSQ7jh4u0K5
z)A1u)5Vo`)XG~5&M-#*g3qiy@N&cI_2!!x+Najifnnn+!zoh~nHw9svNDyvqbka?=
zI!He+Tay0E2zsy70p05#p~CI6)o!Mk^;m>jlux36%VJWo>w}5nKRlZD0=wtVLgu^q
z@cUIr!?8DTuu_$prR{0&UIBXY^)!UVHX@bNF=xo9lg{%)oZeE828l4LxnM;v@6X4t
z%bV!<ienTv#~b+Oi8u!d3Yn{l^Ch!sTk<igOs%K%QQc%4>BsE}bI8?Ck-yaA9l029
z;rFQTqD)~I>UX_JC&Z4B_jqrbKJlhm`^1Bk)9#ItwGXIeav?cAF{8Cih~Lrt2U0y=
z{E*U6cx6SBV&E0XFYcht7j~mb*UBi<D4sgg82^q;HofLp=$CI6P|rW^y=t#TPWFuE
zc+Da?lQ?P^%%K$J*)((_f_&Ckk}o$0Cu;KfZ<YK=p<xw;8jt1wm{Ul~i4$no#!Yno
z%yj+*4`aSWlQ!*JpH3C`H}LJ2BvPH~5z^=@CbiYq=vq?{ofn?W&B0sA?DHW0)O{r1
zc~7A=$$~N~H7U*Ah$O}TLj2AaazCp>9nUyDQ#=9ss{(M-Esa_JT*v9iOE^!}*KAXr
z6rI!nTG}kBd!H|bhpN+1g$;FeFD0JCO!CXvKuWPU=tKTSq)6XK<do|W+cIDp=bVih
zUy5)<q7(B>jH%ASnW|z}qotRd)qecNK|>4r>YRd$(Je4O<c+GF-H?-5jY6qG+?vsa
zPJMCe>s^a;xsEi;rGR2Lh>)|O4xQ~XqR-{C>26~la%IL-^N$TwJw=}Osfu%4+#_79
zi6@(OWBOjT4=L5sr0mcNwS#h0;Z%V&)@qdC@dwIQU*X%32s;xiI{B~|zaM6ivYkA(
z?mLS0BdKtX@Wqrp(J(3$Fj?@s0OG$onSrMyxn%c3)#3y`dQYNn%oUE?<Z0Tk5Vnlz
zkf)y*lAKqf$1j?xZtB&Zav%p@XD5>4t$9?WYzXz&_pncEKEhAV#HTO9<YMs^!qd-T
z@AYb2KJSiqQM2KwI}zK$4A@Em9-SV(3$}DMc2yL@^o$s7*<Qf{-amrjohE3{^&m&n
ziQFzHKz1AU6I+yn75(?IQ&xiH>whB5CmPDj#zC*I1wOluVwCkGY+ciVV`7Sw5IBV%
zX-d$&)&i8nl~mpZb92BYx;{Y!Rf|htu6P8?*K@vOeKj6miZKp(l88rJcVHm&GxGj&
zO!wDjOun?8qL0-;Wo{7$0?g6f#c2vd>rm^Xf+b2*uwzxX{xh*la7k!I$@X~4)=R^;
z%^X*|F&-i3w_@kh#Z+)fk0$1NAk{1efwK-G-!Tk_3m-AFo-F1rF^}{Ph|`&xRNS27
zfZA1)X^Qw1H1K|-`&l41UD`=L)W>>dX3~^3r>SIi7IY`wM9wH9N=cnd1_9ZaYS_cP
zd1_=HatpsgAH(CNFqLkLq2_<{DY$zCV^-&5WLqq025lxOg*&wLjsfkm*-9TC|HRx3
zK?>b>11FQC%-T|o$jLwof0L(C+v}zDBc%h|ds0ZfCImgaA#RS#WETQwP|hJ2y!xg|
z?LFI&Xc}dx88n*$cji#ixIE&^e1g#P3d~=B5XFaD@w4#`)C9^QGweaCpUkLCVk-3?
z)TJ1Xoq6OY3?|LZQ?hUHWob96y!MmxolX+?Ax>8eX3&scKB+eyrcVyh_`1rCbc~*n
zL%9^`{Pd*4jhqG`BTdUoE}<l;3&WQLNjdxyE^i1S)s@|NU*beTvI=zAwj1S+XV84f
zfHJzn$XzFqTI*zJW~wlaboF3)?I&~}euDnS60=i5qv%Y09lJZUnbgb0Xr<T_OzfOZ
zt-%H8{xC=ZILA7x^=NdZEu55BlfHQz#xDpk8n`!xa%^kK^-?SamfgbMIow{lVm&wS
z6rfTq7SmD+(B(FawpY_gX^$}JC`gg5YBf&inPI&-$EE8F(e=qE5t^AxnnT6pb9{vJ
zq*bWJzKup|57N{NXE0;V3>tY@N1i){DQ6KQ?*<KewP6%(7OO+`{9CxIDoJAkR^g9t
z5Y4#xA8QYLim#JBX|mcHRBRfH`-AUjTSFdNZncqWcQkw!8&bnV9ggw%g2$H+;@I6J
zQ{8^<oC5cbdXWw4wjjqmhLeZK@;fq*Vod8j8ZCVl?K4D3=}a-aGOnQh=?N4cEYj_*
z2&5^Ix|IJcl&<H#ft%D1JYBsHu^#qN;Iyqv^LAmvE_b><N{RNgic;yrcQEa@Lv`0;
zcotu!fUJDH)EiGS7dF$K=eiV_c@b*wBT+gj45|^~RPZ_tyr;?dufm#YOBc}f7e~?h
zn`m~|7V7S`<-my~NZSZfhk*@ZN3Wnin}6fh?2E(!<`lF-j@s7MAbV~jS(=&<d(cUu
z$JMF)-$rshD@kWU9%D&CG(0$9O`1Q8=2WU<m8&7eWo;)o-N(a<7@8l(u@pl0i2b<A
zCKZN~^68@-<1oSvrkY4PRBP~klOk2^Jw!GKFH?}@Q&|6ai0$H$Fue5)^X7_Dcwz@`
ztUo{=DORK=q)ZW_pK<K-G4z^WW#1k~Qs*uK`o?PlZ&e6AmT#ho$Fq=h(v~Fj9mp&#
zhCF|7ho$cfs-Ay^I_8b0**1I{$TOko>Z56BOfvrMxP?<UMQEN)7k;|<lJT%9$?RT7
zJN=H3MYA2bu2ZH$tNWy}?-bb-OyUct{>3$qA2=27M2B-l>3E7heR`E+_WRLtnqb5|
zFE>ibG9r@Vd|#o?K8POZWkAzWf}bqHd7fJPX)q-b`-*px_`lI8^cghFJEKHd+xy7*
zu^HKY-htJjJL!&TGy>PZ#es++q<bx(<AJkC_2^Xk7%M=^2Mozpb2RPQJqa`JJ*82W
zJIF0YpQ_s`X~Ol<6r1FO8w=zqx~!RW3*S+u%14gxl^~1RqxfxUb7=npEmA#4<UIEX
z-H)0<m5QejCum1O>k1$$dxmcA&7hc5y=3~dluS=Qq!lH*N$sy3{~dQdyO#LzJ1h$D
z!ej-PSK!fl9-~7p^GLw0%tW;$kVH0hptr1wGHavB|L9S&xH?F!hg|8~lsu|cJcEMq
za(tCqacX%fMOL1X7;rwSV-~lP?AKON$6^h>m9r){t5i|QsA;sIU^Lk-`$R%wJv8P4
z$0<H`qk(p5`l2(I<i=e@qVg2<)ITG`_VeU+Lxb#E^=K8pnf^6%*`=phl$p4lViTtF
zUyo@-mdyjYRWO@h-QZ4RT7qevN)>Ic=%$*kC6w^<I^44JxNGiD`}|WVn;(i(6=rnh
zR10n?#$fd!1~nxy@=LU*f*VS7n0r3{J1t2obixt#a5ofwlwzWBve{?Oi%5-aWkTX2
zB(ZV?ib_|}rX@!^h61qH?g9z_$zo3Lf8wT@0giJ!XnJuv65Tc%g&lbf@hh7s>wE&8
zJMaoVleO_{wg4KrJ$7k?Ka4Bnk((k!eb(GAuJQwmf2Cm{VKFXSO@-LeZ}5E-4Q;*v
z+LriJ^q+h5>f|GQ|M(T_7lxCYvMOyE2nEmaH%2c2S=px`QP`Z$iwxnfYXrw#u7k+i
z`#8D$8SaT&VBIriD%g4io;D)1>V6+$rQ6WdashhxHAv686T3!<(d|PT&{vxZm1Z+`
zrSTufTyr^|+hfhlId7_DwIG&n<ha2LQ|Mb{Ei(0lNGwE*c1|Bf9@^tbUUnB%1*qYL
z-U<9S*AoT1LrtHWh2!gk0C<RGp~~+QMwyPL(i37(SJ?ymm~*&g`5Lk20kEH#j<G{R
zm~~qR`JI1R=eq>3++4WtD1~6AB2)y&P`raD4K2yXe&+``tkr?IXToIIv<3rTOCV(=
zPlfgc&~rG4F}2}PQ@7xJ=?8dcY>b89J8?*V6P$mR;Mv=$l$W1CHzoaO*2BdlI4nl-
z)mKSm=@eRJqs%w<ufpArf*eOPjXITEVITh!dp25`N~T-Uzz=n(Zre@|53Hh>ZQbbo
z8$t_5UBp-Jd_TMFBO8Aqn!IlBMN8Lf7<sg_+d91l-#O-Td{hFh&N@vyf>NQ=J())O
z%i+F1AG>}#(zN-rC}uYia^}#wwFB@TEJsIuJkH!nXPVdZsngGu@)TZU`oHDmxH*t4
zA6cNmdp>;<T1M-ibkMrbNuWEfWERmyIlE_&!X}QFakV7j150Vob1rYRHx9LTrqYGP
zw+J0vPp=QyQ1ak8dZ!RW$2fj=lJN@4m+GWwxmbEwP(osrLs%#J3`<mAv3m1Hi0-Mw
zul<c?^Y<R6FSpZhtmFc{XU$~3JeJ&-Tq4hRx5#hY1(IFdOg$}X{J%A~A@oh3Y-=^>
zX7x(5%A?|>R4qdjx7bqC)zdUF^g6{=R6$GInB<Z+P|n@+G-j&^nf>C?{`G^{wfhkq
z%4&d8H~KoBNB`#Up_!Joknk#`Uq;e=r9vON;}c7=dC~M_VJ?Z;s?(U8M``rdQnGdk
zBTs`s%KAK)bOnFX-_m4qDe6Jp-vBbd&8M^l0kmP{85@36h)uo+sfck}@l7?{oAizL
z=K8_+)JJM+G=oruE+y9yts0i4wdE%fHE3*lan5GEZh8&pFQI75)~A;iPUs4q$bVxQ
zfypvCbV9!rK8n3KnRgfIb|-OJ=P3GZrs)4}4x+aQbjZeWC;c*L!qmDy*eJ=(xJo+M
z94<y((@#KM&52HC36j)hQO-wx2c_lH;e5pfj_2#>>yHw6Jkg-NUzgAl!@ub6kH@UV
zJJH4W2Y*>S-LE)_vg{o6&09wUX_n;p#|E`Jn`wqy7*+ZCVCt#ua1{`xgEoZ2V>l*;
zca}|d(!ih}A!b)QQ;i8?D&|?}xOs`~R_Vm)2XSlyPX;x*U)hO<6YO5&8unx9Jd;W3
zU)hu1Wz4Eg2<P%=U{uR`ro!c|=EPgD@4aETU!~6aIYBCqg4uW97&dTPl!g8_HdrY$
z7K`+!BI3RS^!zWfkv+-GwA-0IxU`B*iI>Hu<}8-mFdc4-1fjmMmf7r!Wg)6I?1IZ!
zwg8*3;aD3RGbe-1`V)@r6?{zkJ&ipZGsxa^dP(qLIJ_rXF+uZwmV9w5UL6}@*-}T?
z;hgtu-B-?A9tdTgp=+3D+I?pFWDDo>&qUaSn|N?Ro?|JOlmDM;#0>6$!?b8>Un)mU
z3*XY=Yw0-q`4y_N<;b#4f}1x=Fmdu6vv<K4(L4Bu8ALtCFQ=*GHq{3b2ZCwg$wd%K
z%%Yzcl+YYlg7zOg)Q|cJlc5Y|${#e4)D)tl_af<iwlVFT<Ay>y0j<=%aGSgjRlj<W
zRlgTQ|H)FzjbGS!?-`dP?Zmc6uE^$e++%6CDYsUDJ~}sGhN35}3H^c&GjF``NrlIc
zBQ&_Vl&Wm@VgIW-2qs^mh~rYU`u85}{o+Ckl`ZMRVUEWX-Urd~XJGbVAAVflK(?oU
zp<vNLsvRFd(I%5Pf3Xg)>+)&T2{k%vCCZ<@mSe;;=acbMjzba_q=TEUVONKqS!Tv(
ze7Y`+%sP2;8kt4B>?WLRtRnaMnaH#*ravZaOu)f`%CDKAyss5aau3*xW70Z#Vm4%y
z7e{d)3Tb_GKHk?hVX1RC^!HS9c|avnxceEY`Z_det`g<O2vf{s0m`u3gW7Tbu{lF$
z$xm$*#iR>US+_3ze(6h@%eg$l3uRJh@}Q1Ad9=aV5BvUYA%pv`sYt<)+%8QdSBag}
zs5_JLV~6lEBMkGZx}eYQpftveCUN}xb-!M$IDZ^B{9_S0%>g}AIZq=r2DN?_xHD}6
z)~xu%qCHJnz@)FNP+AQh8SSQFWqUF2el;6RJ%xtSE0{F*5LRp~#!`h69G#kpxT*xa
zd8kX>4}P$^(JP?psEXy~wx;=wiZJPpM-j7ydC_@n`WA!Nyh_&ab}jsmwz4jPP^c+t
zqr;fvI?mr=(>U%kF`<!Vbk2i!j2r4-hTyE~IW~Alj6VA_diE^@ie+giEos4~S*e(v
zCjc3aIro;6COhsPzj%89KkP*zBK!buzKfs{HxVD3W*{bSfZbhu6{UqSkWb%=xjNp|
zu<tOm29jYm?HS#ecM<gkqI~7M1jpkaF!stF=*x(am(V$={)#dQPq~WVj+glUX)Y~K
zRin(d*{D-LOVR(1!Mkr2m2ZBDihMrtxJ>ebBX8NH2s0=<Juy0X&5qv7?SLCwP7juI
z{QqPX`ulGLDGE8T9|@z$F9oT=U_2d)=kg?9M5u0W5lm%{!_d_niqF#N!=&eUqQyw1
zu?k_E44|k|$8HvJ{Rc_sSY2Q@<>hRGjFm2(ADBhK(c?)&jgP6OX|y!wB*hm#Mf}Pz
zwuR?J76%{UnNu$6o~h9;Yd5m~8cbs!xX|NQf)wcghZf2H!+0xges~^X)-hF@TBS*c
zi`LN0L!~I*lxgB)s7u*?$`q(_gqG(oC*Gg;Q0uLx*d@9YMSG~(?-}Y>Jg0_|C%Ag~
zDAswIqhRMT<NxYU(4w0!A(%LtzfiFo2gEPZ#R-hM)$d}s`5lF&Zl^O#6iIUO1j?6G
zr9BJf$nm`q_PyDR?2KG42b4>3+Me9`z}<^NJ$fHJ8^#jjNYBF=E+0RT-|64z)4oc9
z8=A>X)q)1siI7Ix8LI2QPFlAONmy4B<EMs^-0rR1JyWIV0#S%{PQuOa#n4#p4;3#_
zWV~ERcb!zwU#w4>i)G<)a}kz`TjS@oAiN)x!rt4vObq?Q(7FFM+V&jB?4E37?zqT4
z`K!}6@AatpC`y{0oadz?MZ#-sQMo*p<yKEe;Fc~U&E)^!c_f+5Y?h*qrC}(ojKftf
z!Ez+q1KkpOB(ZD}$|6r7*NtOA2g0$rH42LN%b3vxZIor`QmS4U-aXw7$d;h7OajZI
zov`x4JTy)Hz}xU#fxJt6aCa~o#qFgWE93>+`=6OG=hKz@KEg%|VPs8M!LkaAAwIzv
zWw+*Iz4brlx;6s(<{tQ#GzH36#-Sp651bknVMXB~*l-L^-;-3PbyS#%E=Xi^pO>=h
z3DKrYmMEe7j5Fg2S)=VMm*qQSiZyc%LS@ogP9HpsQT1+E#p&Dc1y8a?zr~;s-ojj_
zjy5%jsbNKKHqhSugiWhigQA;r;H!R!y;YY&kL*_F?yd~msV!{bY$3EPk74q{P3+Hq
zr<ixdA2v=+3?3(@V_l^)^J={a*?^Dm@YRCQk2xsf{PQ;jd=zM3W4`%PDB4klSv$0_
zHA4gavs+o{NF2hBs9=&{3-b;hg<i>X?0BXR`f5Xw*YE-JD?9K*DH&eV<G3t?99jS9
zg4?F=7<2p~d#1|6eBF!eyXXX5RaV3Dnmp6v8X;iCC2XhkLo`m5p{2hXpl*|e6u%aT
zIKDwg)O9Evai>cYezM+OD^VupfViJiO$A%|aMnADX|<k6>-Yip?H@67sw--PHsU~#
zK59>&MPG~>avJQABiX^eD`;R^WepqMHxCybHo{LS3+v;qvzJ_Uda~GbDh~>S=*L93
zx7>jF>{`G`2{u9Xu(&Tti?VKF@yK-C$()A(PFvAWe*?1^F&K}WKyr->a&zJ!S6_^a
zL!xxy*=cfrkdN4=8a$P~MvoO$$y_Itb`L6IecFH6`X>s%64ucm*AZa=KjXj$uQ6`y
zQ#^KAN#XBKQ^@@R+&Qy~`Z^70d;-YJfKQeGdTH1z9l0lDadRo3vK8`-gDutQpXV}6
z*cMD8A6HTA&OlmOdy?KN3K9R<DPs5R>6dXG!tUI`%nBt+u(^-Tn-0S1PB_X+PSOem
zMQXe}i9F8*<HVtNXx}YFCpfM8-KUMrdT|u}NH~Y^L0`(bu!7{?jX>!ew^!$`q4V5M
z5_Q#z-pB{A)QEYcQZt2)W%OXiiM`P6wL@9kbW$%ggNwpmX!_kI$K%Jb(f%o2EHOgo
zlSjB)T!hdW&#+o94atM?CN|qs5xlhnGmEEk`3G^D)vpaFr*Misv=UcOEGCT&?O6Im
zl=y3lF*385y@|4befwIYr8jgb*uw_<T_%z9yp{Mb>MQmaw7~kwapaCH<=#p4P#Ydc
zp?fvyvqK}uI0XWoVX)q=j4h^7wBg`2^jXS~`G18lj(o({>}_P~LK`q{_i|SGu!1VD
zGh7gprty!YsA<VtT+mm7{>C`k+Ud`+EG1Z*x`|EatI>+j)%f*<<4Jr%VDsbwME_*t
ziR^e1u$YE@@_{rYXNfd3Pa3|c4K=N0F#BGM1ifq|HlKiV;WiWNElr4du0=yX;}A0x
zhUS-VSWwq)O1C(MIZswllmBe2jtHa*s}L-|FOKIA1>vqPW^~?XJUwvy&R+6%(vf4?
z;QjXzCq8!JxycHcs%)Z0ckX#?FGKbCZuqC2K}WABWghNkCL=D8+F?QOWR>arr*qgm
zFp5HKF2FTA1rLUc@y#QEP24-5TBUD5a>IL$oiL~7PuX}>YYzL(Lnxe8389b1$oVCL
z8XZBZR6ULSJvVTm;tmR$Z*%wR5PcOIMLPXekk@)ZejcN#!u}r380uzUUj2rrUK@O^
zEr^$L1>&9Q#y*|(xMR2(WrKNiH=py5Qpyon?ndvm%JA>LHXU=mg4nIaq_-#-9&w`Z
z*zJyeza|?0RM8;arb~$a6Hm8?D<LVeg_Pn~&|K3DF86YtrbREN2+o6evO|I<vqrSn
z-h)R+I(BGl;7;RuI{Z?OUOVw9bkivOo1cq>;YaLS_%(dB7DLGVZ<IPC46EmdlKXit
z3g@(skE5U9({66R-*lF)4D(53TpFvp;YQj@rj#am8bJx;>Gr06JTDEWua0+t{%X`*
zxJM1{cQ`)c7e$)wW)lyKkwu0A(Qp?sZ>8a<je@bSbRb-J?&8?hznHmo54GBTL7VFx
zsy|qa^8UHBaPw`v@SaQ3T>r@7W;a~@@SL3rbuqeK%BQ5((X?GXhTeJFBWKlY`m!z^
zk(>|g^45<^R~;l}bwf(@dJNvuE^Ik>4xe}1VgFbmnD!RZs7|iu<mn*ir&&QuJr2ur
z?AbV>a%4JQ#`d4D$&ot)V!CYTkM(6b9>HkY%0#Fhj-!Of-^u)BKNeWEu$WW2B;6@R
znr&ZDQIf*j{$+%>_1;>xUo?t0=n}+p+aATrQ@eQ<CWfq{_pSNptYBVIL^@A;b31Re
zygyH&R>Np%=22d3K?Lu;@@Td>O`E-q%I3LUlxDm9!+5@XrC5hfJTLWi2J>?E;Q59K
z^CX(%d2`)_47Ik_@Zg!in_6kWwjONf^>F>Nk=mbllV`f|wk){AJMnFVC(-K5lkMEc
zv)X9H8`BuT8`;)meoD`lcXfs!>+UP!dF}AvSx8;v=`9mser<ldMekF1KSQK=CUT6q
zmOeGV6e7Sp-)gWeS&ckr^Yc7W`$66nrHL#iqk_lxJ8WKj@E^}(Q5<iUQx-4V-xvpe
zRl_dkAnb<%;g_HZzoKM}=pVuFHR*UKEP{LLZOmWIgv}3WXL+5YQMvlM>2`-@P@Gr7
z;-+ne_~BFB{yrC59J!2haT4wyJC0`E5LlK?q%5a;Hn7(ayHAQ>C{NAQBTf>tns%Tr
zT@Q1gN8;7u%{Y!UcHjt?*LiS@ZC$zr>T)vJRj38o-gsty{srq6FJKgGg85_Sp-pN7
z2AYnt57i$aoT^Og*1JPqBLX>l^PtalG^LC6u-q0?+;jPZ>x%YJ9dN<!Z4cS6!94gh
zPesELAygKt;jvOXyL&el-drBJZq8$rYrciFpD6j%aBO(|MG{t74udmEl%K8u)vhzR
zy!R1A*4&1=?g`vbJa002T{DE2YmwpoCLFT6iZ64<AyfJ!S#bJc+VlWAc!1-pOioZ#
zMi$OBNJCuF5M>{gja*s{$azo!adHt9;8l*2Ei&Ze{SG#X$6;e}l$LI~kKEU<(UCox
zCe##TWr`pPhzKED-vv3(+$lCpp4NY@$F-dkXj@=4q;^Jf@6h|05|G4}7jv5KjB@Dy
z7{>Asb~Mqo49l%NaIr^+Hf76@^S&k6>Lbqilu{Hkm&-kA-iBsyB4u;=ev6B8{QRl&
z=&qG9jVyBIn;Y#WsnN&ySMt_kZuUm<c1@?2ML~3F@&;;He$%AE-<ghCic;*oGTL_F
z9^K$PzNy=c_}|7(B4d9+zS+(>q<iBO#akGYzw328-xrHhZz7F696wR@c&@8p)+K5;
z{f)Ezm#9==0d42zjn;i8Tu1mdGFw|tYl5!OoLQ@>)O8Ut<<X?q9t4TI3;B)f!bn;8
zG@YL;PP|#sxHC8!hWGyf>o_*P>^%Pl$NKnR&Z57XKgfG>H|e*Jp}yy8{KlJ>{2`8C
zIO$-7E}u(Ocr}GOznPOpR5uP+9wHS>Gm0uyrc(dkIDC2yX><3<U1ud-iMWWFGJ7#|
z&oHZt;WSwDOg!GS-%OJyM$c;*_U%z4_3ch{AVro2_bjFH)eETgf-QwUG^14cavDkr
zfam1zc*|Xb#c7{RTPAWjiyNl2BI7<5{AWe;n)Jv@eG$s9k8nK<3lKbY5*<2N4&`@G
z@luoHHLP>suImd4xu+NvAxw{VOs3ykm%uGIl71?5QZeTd{Bbg)tvmf`zcqI@-bq5Q
zpb+Vt&!n6rNt$<Ef~tSkLe(sg*5z{DGn{_o`n?BsqfTSuFIQ?FAB2yk!H^gDi4bmv
z-pS4ICwA!5w<Q<xnX5r-uUy40{M?PhzMe?f-vaj}Q#jtAYP_nA%RhHNXC-`n%Fe!q
z^VWqNgP()pJ%Kp8T9Awjy^ywXD^)$60?GAvn7*z#VhXnzDV_{Q=?gP-4|QP9iX#Zx
zDMei?KH;H1pytV^!-F*t?=nK5-7%cXo`Iuj);P6N8xy({*z^f?cvKz?Bt&wZC1==y
zrGZ!@n!(!GSR9=j&1N`TQjp>VoSWZ<&i@`jO6vyF&x9d&GROXVNKnt<7-}kf$%{Ky
zkBpEU%u(@0L&-D*d=AF3>M?ZYo&`SWE{DlqQF>Pqk4<a2Jb!a2TUWjuw%&Rep85vT
z5;Azd<c$$qx}3{3TVvd>GFab|qQ8*=7=Qf&O8%XOg+V^vAOo{Y4pGH-Ls(vjV57pX
z;=rDT#{Da!!Txoy+;4(3o%1ff%y@@yw<O5rrx)g|5~5wR?m>LL5*nKIFw^S{EJZXC
zZTg#q3H@LrCw?H*{sLS$&814~GgEgCz+$UFypz>|;T#$E!}lB9IL<)l`$O!ycMmsY
zybxL$iZ|Uwc(q233Qs=9q)&HvZo_5R^&uGz4M)-7Ie}c<B`D?d1=`&*40`(-Z#D??
zyXyMz>6jkBe9Sv$q&t<|7jkp!TRw@Vk6>N%8Dq@_*O2if6Z2-RrHSJ>@5Ol(y?R+m
zxlv+dddY?aY=tR#B!k}Fh{daB3k05@jMz82#=UF8>D%Q0;Jv<;ykGmH!zP#}IgO*4
zsvl9x<rfyuPNF`68MHA)iF|`pY1-UQY`uI66IK{<{`y1e@^+@|ah#sl?}=--uVdy&
z7F*)mg_`h{h>DxaZ)l&3jtTiRL;p4jN6jYQ^%nfOc8S)S3i7uoiBPF*E8DISOquKK
zsidg~p);pb+(aWfs8d1#ZW?sr+fPiGDZ(FV`i1iyQv7K$T<-I%3DxEkiMvTrX!SJ|
z{BklrlUfF0t?j7!rB15LlIXm(A}PszA_JSdxTms@hR1%!_57psWMv7$q7qScV>E6q
z7dO&$u&0o;m6R-5NV-)UATPR^cAu}ovhWtH-5g9a*2dG5);Xkk^&fo0DzUn&3fcd8
z!t97X+NV~Kg|s>eln9dJ*EEEfen4=1I@1srqglP*QTJ7tzw%=U#!GwAG?6~i8g!+}
z!tKzSUQd1BWcliHN@UJu_NVI3AztGox)BX}I=d8(YsBfcLmiiGGN$pP*I`p`IJy1^
zL_}f)O<6$jNe;o(obPCz{2D2;8JMEtVdB6(;j*zA?JKOnlfDAv%$otXuZfhebcN%O
zchj{6i}7hz5_v>jz>`p882L)T;Bl&vTagwWi`PPQdm<UEt$>B37AZXVia(00;A|F3
zh1P#?E$$xD77bx?&JA3t97|8L1Td<?1OLrhM?n&<<aoIi-?U|^F6b4kHz(q;L>D6O
zl(Vu}A9A54Eav>U>MvXAWO*~*R_=wiyArkU`-YhK9T<IjGG^9llf2G<Fx~MQPbP@b
z19t^_@g|hsdq`2AU?b$)-_Qw<p9o($hQH`x7Q2<qbpUw1Mwz|~d0cD8%lA&kts#Th
zEprMxbK*!;W(g^`-^NYLAbLG+9LX7sCRM9e6#3NCvOPyR?$883EnHCicE0iYL{~~X
zTY(!LjkJ767CuXakdPFkzOh`l+KC)`9lM`aziY)^$A4Jn!sUmQi(wVD9WMjyFk9vn
z^-8UyMVq+%cCR>8uYJPUCqJ1-%u~dyRKT&*g8VmgSE3~03d#9p($v-3RNp2{V#N`p
z5?Vxa476zE!CBT`euUapw~*BOYP_?tq3}$3va!5Ede@c6K1Q5QpLj<t%NCON8+pD_
zy(;`txjD{Si^^vT(~gHmH2rj*acH{?NvzI-hC>v&)U2a;U2Pik_5=;zx{SZx`857W
z1tv<nkZtibh|S2yZJ#Yr2tKW!;<lP>FHWSSuyptjzCikL0O@jP?YoQFh_=nA@?JTP
z*>j+g<CbKs#&xCkeZ<)dmyo(a8a8H6$Tn#wm8_H@ebZv-Uy6Wvd@pk`T!-sY`M7mP
zn=d=e^+{}+Ng~P-bZ%k}MRK{-r>EnoWY1;#+jf+4#Gf<e_hxiIP@9ql?CC#AHL{PK
zMYl`x>DhFSt+tv%W1hdH@=*aaX8S#|o}`SvHwtt-d;kya<H^XS7DJtzjlC{^gLmas
zjuon-*ef|CHsDHceypX*+dOHdN-(WxpG~$G^!Q<!EzrNagUiPml9|kD;}WHr)N>&P
zuM`t#S>7J<;N2#EXEt@-6(Sj44_zI1n6$LG_fn@A8T86h@dr`zi>krrzrlF2<^W~!
z=aRd)8Fii9h(p}}?;7b=)DLu_LT(Zg)T_vL_!caXO1F-jB$1YlRKIKneVTTe_IK8k
z&Yf$t%jFo`nH@-L`vXZJfJcv=#&X^V(U<i{Xi0-2t*>l?yX9xPEP5Ib^Y2n$$W)|j
zfi?@v(#$m@uzt52x8I~0{VpowIs^~m-O^#`8LXx7JF>K_zKG;A?sES11gdqdM>^L@
z+sKbV;%tBXYn0^vpEHau98sZ7pY+LUeILoJnTNYi?P>e_2F%Q@;qsqWG#nK~3mwI&
zVPPQzxNP8|xh2q;ZHQ0fmAM>168+9uLQ2Qp!~Sa`{%+^EGM_p&JSfGnJ&zH&HI7dC
zI-|MeC_Srgrsjz+F`)dL%L3<9J^u@dy?lvYLqVLEHX~~bQA%c@b(c?LTd^@cA9{=g
zLm~R0n}#xzDI_l2g?AQ;^fABzq5n*g_#}p%?wgG*>(^qek&IciP7$Q%i{o2uFUB>A
zQ&rnF%+=+7bMqJ)Q1}ITj%!@55KdQn2(B6_xW{RYx(*?xk_WuurSk-nhB%M$;2$KO
z{f=WcdJsOF0DpBo7+H(Zju*QiT^)~T8(|FguED>g@9bkRmyt7V!y}UxD5*%|TNB7a
zh~wdQ+=Swex2S(Ufr>dkV)4K{O#fVkbEO_M-k}8kA(_xiiNm5`4Z1b^ES7n!#?Dj8
z2<-8K?|ng<<ne{$Ao|gDnPULWq^bDJGbr~L(%Nk*^p?vgd~<7M+7m=5^6d|dES|<?
zVY$A|-ccrRKHNoR`VxG8d6SHit;v74E}554p*H20_~*Tb+BEN>?c0CUmcj8L|K_3g
zLJW>PJZf}&oDv!LUc<l7i>YJgeW-^dlKBfyE@vKz1lB}nDrQpQseF9@I*3_ZHZx=K
zS3Dgkz?46daBQ+Azj<6YnV2|z88-p<PH;S|*Kam#cNl{=H82p<ND=FjvFiR}YA!rV
zTDEiP%&`e{HaVV#UIvkA_fgufznF>lJJF))3bgL=M+|t+Atk40Bo%*}Y(s*`Sz!e=
zcV400OH(K+xrBOS$CKBn0nE6x5(bMzNao8V5?1UrOPscw@+{-<P%ME8`mWO)Gwzvl
zzfN;Ais+h21?65&r5BH<@WXesLso1pIgimG356AA4=TAGlTs-r7NlFBO;(el>4R$x
zwkWKj$}`-aq`Q+G=WEdH|7^+r*8{YKaXn0nA46fS4Xv2v%H@zlX}jJ<gzWr7o#$rp
zUz;8y&qrrz>9&XTDeokSH_Omsv(=>gaV)>~KoET|JVIGo<7x4#homLCkqU%0Xpfl<
z^_7Xxql7A|SBt=^E06KWwgD%_<;g{1F>W6^PNr~%%FScceR>Wy5AWu>d>T1lz8rnC
zBhl2EX!2aVA99xZT;BCE=80zE*81OU$?Gsm={t*zhLzk-;*R7qp%m|O8XxY+;B~4T
z{5P5y$rosHnH2#D-sZa7qKY}@MS$w&zQ%m9{ita_Lix+f(8Kk>iY_0(PTL}MJQ_!~
zTK%kO?^Y=4IMBQks+6W(hF5l6KkCJN^jM!pNB=FH8-JW-RW9XN%|^%xi_>LK#`Ra#
zAZC^o<Wi(bJLC~!e=dXL@ISWfF87;@&tqv!1HvQwSwhPnmh?yqsb>@rda;OE9zBM2
zT6fummE4(pcnX{7*3EW|yUmWWS|;>$2|HFb&saeIKHHytojL3aK!cbPda5H>e<?#!
z(HUmUWa0Ya5OY7x^$b0=W&VPWY=yQi+Z(58*t%RB^ZTx`;*%?IDL;|PDQTf+ts-U)
zJF+12^{~ADlI!C<z?zQxvztbLSkvZf>|NGZUWt_yGmw`>hmi>WTPTRLyTe(?>r_@$
z3?}e0hSj$$WQEtmpi@=KZt<PrrR5H>ZORzGt%PmtSc5A!=AnOz6n>mf;sq&9KuWPP
zY!)Q3hh{hNVl?-+fyZc(bu{df;&EQ)9;bU(VVL)kR7_i$)v7BvC36iQU4`j_`wav;
zzBO5CUWk{Et|G{MA!$F8C)*)))T>2NZ^c~T=>p<46`^bNW2|HOkWZ0=Nw7TEDXnGH
zxNtEQj~sw^wGzpnv&4@Z&*8J0W2)`Kp|?4ll45@&I!ToR<^Dq6un}&DbKpIE7RE2d
zkY`ayuP;4-8t2o$uzG;AQ@%1++er3f{WcVp3n9^D6yGD|G+rf+q2QKTH2%FDP2jSW
zzxM~z>twFuPwN(H+%~g63%PEV%N>Y*a2C?SrC2fU6m%nesBUI4`o5Q<Oss=+H@?B&
zz7I65SOvn>T`>OF1WA7#Y8%yp?6CL7uJ5^yW}_&aIu=OdrW=!WNGkprhSI{;Y@Ax_
zK#BiaF;o5oRjDQ8iKZx=*3UpnnXd8CU@JQQHVuUfgJ{}d61=_UlIm$y+P<g+4l2=<
za%vVGvJxS^6}t2@QGk*sRHIKUA9F1=xV@X}_fr?A3q{k&Qqm3OHoIZFtCIDP6k$We
zH+H7<H~rIGfWE5b^r>qFB@1$#w|^$uyRvB3r2<k);dls>Xr?rm^M6N8qI*68s6Wnm
zfLrgO^zL)GanHic>z+`pm8V3}Y_xrxMx$$#;o0|>Sz0Erf}zn^@S}{`@9i@^`pOQm
zf)5$ndyea-ipS=OCvaG^3Qn)@V$t1NydQTS=rSkwlzUA5*9u6@A7Sx6^Gz2VJB5XL
zTn}~MIUIR;AHi)GaBSje)CdQ{YkUs6osu9T@rF$_8DhI{<*@e?{;<O-8EnbTHArzu
zhN)jFyrUm61>@VezM%;_nhxS_Wjc1ZCPVV-csjiCISaHZK~0Mu(Z^_*5!W-mssvw>
z4Cv&O?O1-Wmpw`=!J)rvAiL)Q7;gaGmsiopngYD}C=H8bUyK@6i<9$$N#pz{L^}$Q
zdB#JuYHxu{;9bVb3L(m0Xsp-iNwFf8tfcucz58NCMg!HDf9Va1uBSjZdm4SdbqUi=
zY$-i15PzH{Xk%Y0>Rzljn3XGn!JY?DF}9?N<27u@k~f&bv5A-VhQj^iJp^qU!L7MI
zv?1awWok>%gsJ`zF>1n#`bg&L^ck=Gui)JKeb9LyN-_HfNR0QHjqh)PJ(r^usjwxT
z0a>!P`-Ce`E0C;r9&P#Fv}NmUY+3Lb%co5tx#&)K_Kc?b9TV|*OAd0kT*e=*1?285
zNWSw8;O+Vr+oi|TQs+8~OtYhzzM<6f!JI~IXn_9`0Xzx~r9_9RCcH-pbfsf7R$GkX
zf9x!zk727Z^WRKbr<o1Aubo`a<`S%e48=~2Kw4oCX+Q6SFfYOMYp6GJ|8PDB$Fj9b
z??8=T2fXK8<NS^(q-7Nav*|`OESX6Ym7^#%R-6*5Te1HKk*L#C=DtaX9&?=q3Wl|u
zZzIM({X&vI({Lh`xLLzVL74xk_!K2iwxyaHA(|Gyl^jI`X(!j`^FmXWCeCu9GHDBX
z<EcuMS1|JHZia)t9X+>7#igu;wDD5}7Lg>^F}@S`bwucgu_GBg5~p8wX<VN`J?c(v
zfWdn;+}1vex$DYI{_!5bI?#p58yzR1=eO|Rxsz~EJ%A_U7NL*hdD}`}uqGu-lHcCX
zGF*GnHTflrceODJ*aol!5i;jEsDletpj&+wZMF*7rWggwg(*noJfRy4`mlJNIgLpu
z#<9Q{?)?#jknM-rD*a^i`c~sqtu9Owcaex}4h4r8W0`m{cCCvbNnz0CwN*$C`H00L
zQ^+S=6S9*Rk?iv?$o-zn^*TI<$%bMqILu|8Xd?QP-oema3|qCr@h|>3s!s36B@H<=
z&Ao@vCI-pk9_-J#%{~g{u{%oR*$I(M7I@T=-Az7WIx|uYSy2(}YJn|obZ&$xXFXrw
z9mUjFC-LK(A404*ayocFJh>iBtv!7#bLa~5dpO!u<ghW$-kOAQ9Q*aekkh<*K8TmO
z#GY1j9o7XL<8jIzF`E-u`J^i>QNotxIHobTlYI7yoBtyN9k5Ga3-oP6*v0%c*e#a=
z&%2W#IWn8;W>LbFFD1}9mBNf$_rhjJ51g~PKAvgM*#VAe?mE|nmywG2b~c6$`8r^n
zwJHi-{o$gU2aPUO>JR@4wT~*)Mn#y+7EmtNq1kCMofI#tV9uHqNIrR-ElV=S<K2R=
zifc5Tf2125wxlv8@B8>}^$A0po^#&~;AWW&4eGmg4Z_1W;Uwru6HSzG*KG$jSi7Lr
zLen%weGM8#Z$T|1A0;xv)EFsCM(_WzGfxj;)$!Yy^+1Y}8u_@_aTf2Y3Yo&IWr)$g
z#UxU<WB#EbJjm%pX|Dj1s2SfIEveSc0jI{?gPu<-3ZyisI9m~&^Eh3|htqa16`@As
z7JLi>vHi^y@*0Z8guW#>H9ZOD!8O=#_W{ZN$7yf<2U2+>L-BeWX?4>y@-^n>*VtU@
zm#w0swMOLdX+Ql?Frpz_Avz-`P8xzvW{+}mX<Bd|bH;x(I`0;FZCp(E27F0Od>3_>
zR#N3{2WVaxppR{3kka6jfN&8Sw5Ax_=;Xj}OeoE^*hrD1MXAOileWKm0qt=`IC$HV
z9*TvLZ&)Zj*doslPai;f*%5lXS%h3Z%|m=%3?=My<$AHiDSP@63OYT3-w|~LMoB)D
zeCZW6Dz}nTh$I=L?WOD5d0h9%1kzHBrtSO*wD%Fm?sA=4^)AzCN%|qO+igf&<t*q_
zX&(|lE~PY~M4Wy!8DDiBA(obl%@5bn`}7C+x2yrX94ql$&jCf}+Sr~YQSdyOVB8;S
zMsg|bOtNl1U8<Dic<B;EoqdMODKYTzl_0O-cu1BkBNeGYES&QaClBtys`yxgk%fIs
zhU;Lxsi;ftGwPYT-$UrC?dSNY6)4LpM}bf^9660s`C|}`;l4rRGj$_YrDWohTR1D=
zzk*1`Ubx$Fy6#UO3TdvPiRIla(xC!-dN$H$Z4FM(6QFd?JD6l10mlRWNDZ;4)NOeP
zeNYMgD>8Jost9Yi>{3p~C*~H$WpAraqG0w~3bcEPb5njWn@2&gc&b8A`+~{qs0+Q{
z$fv?FW5{jXLF~Arjg<>!NUe04=^ld~82H4q+N-6c;2}W2^-kk+W+eQ2Eb#ToUTRKn
zWP_Y$ymIGW7~eA_Df<Cd;+|;qb7~@YO+(2#b|zJuS|d+17~lP7V3X(od|%rl{zMDD
zybvOBS5=yVUmOQgi6r+TJP62T^9J9*=9)OAn_j?{+iyvDUlVmVZo~GNQcO>HOa0P^
z=;LHby3esBeTHj^A02^Y)3vl<+9DDfk)YPgMilr(fHDIYl4eT~Mtk_vpNqZRS$vR|
z%qhk2^&FTtHNk5xr)?h$q8kP>M7QPW$g|hb4txw1$$QKy=Nkmpt}*`gHk=kDEnquN
zo+P!gXG!GMP51~ZP;vMptez1}dQVnB(PswP|A>O{I77-&F2mn%euhm;#kp>m8Kj}f
z^$WH+LF<(|&GpEGolh2eSABt&$a2y+b&U9tndEfBfF_^1jX1Y%D0^*Y3Wk<6f0Q!C
zeaeUOFF(?`D8z4Fewx{`v6R?woLsf+Xu5|OZ47vi1FZsd!J;1}U59DsC+^*@odKV;
z7I>;xU|G;Lgb4b>W8r(Q8(0%DUKdaimWS?$i%d;t0&buOw-4OMj^hux9O5?4XFr4c
zDL$BAU%<wQ2I6XUm}$q|pHPsiWOq&Tai@Dd*`4Dfph1m{B|IQGnnwYSTo1(0EYvE_
z#b$0Uths21Wh#26SK|8Fc5ANl{m(2~$?3qh!}p-XbK-gkg%LbI9dQzl*f#zoIrr*N
zOz<9V=QxW04%OkF#96jJbqI%AY*GJh4eaG-&`-fcQYkyg-26{rmWe#&HPk~p@&lq`
z>>=kya9MN<7hhE4sp@hZzWM+o_UWj4xE`<6kKmNlT3j*C#U<Sqp6;><j8}G#_g6`q
z`PUZm`T{JOx9tPok-mSts3+#UJMNLZo9!ETGv~(ehF72E30%!J3TPK$=D+RC9pXjV
z(R2g$;c*L3Q1LfUQNn;dc{0L#YqORI8+TUizMa>fUBweOKgct1K4Lh0Mw#a}W0*Hl
zsFyeHb2;zkurRBZPUFonp2mxA59eLG+{zQH`^`JJK$QLcUdnUrDd5esapm#Ow40AM
z7i056U-A6(!g;^P%CJ%cW%kUu!ra3#ikDt#!|Z(2SVL|SZ{OS(yk@4wG?J@%4q@Y&
z*_jC5JF|PdKE0PbX^BK$<m^1&`hyv~hhvS{`FB>RZm7Z{lSX{X&cKZTCrs&(rjs3~
zap=4%ePP0w()W`!?+Il|;Xjz++H_XAN5D+Z*b;XfZ?gAe({S)h5dKu{fl+5VuG}v`
z)#%%(^bdy3FMSd)tYtdiT~W28kLA~?o9-;<dahayVJp{5+cLfs3+s=AANY$orgQVa
zgd|u#4u#ycyX=bGbEesSg(Vz%&8}x(W)E*!Vo}dA>^+|hInyGhshowH&*j)t<c@6D
z7-TnwL!8SCRD0F3%=UZ)ah#3tp`#Gu%i;avID8KoM|GWUxWB89oww$6TlHCx4=qKO
zXeP&VZYHy~Hmo@=44JY}yjrD3TSX(NoXfc6xNFgRPWy8Gvl}Zz8H}C?QkB_J)978o
z<n{gni&nisyQ73CZFL&@rY2+NDtGMV-hYKEGH|^E8ql`G4Jji!FkTkEil>dVD~@8r
zsa-@r9Z29f$0l7$#+0;a=s(nh!aREno$f=+XgO+@v!usf-(lQ$4dd#rVBw`qmJ!f{
z4q-7m%Xx^4%->M+!Iu;f?}4VgQf&G5nO2YAN6MolX`8MX%^h*3#<8K8FUe*0v-!08
ztqh%fY)W~ZqsX+{mb9~N5EbM`mk&*%U2PZ1+lXUs`Yz&f!CP$6+D6OQEv0eScha9<
zuTZ>m9ybq^;(B%fQf|y63{EsPJ`_w(o3-I}&xek7J)p7kt!Ukh<23u~7Fz1<O25Rd
zDbJ^nTsXGq=NL2U=;Zq6JQtdN99oLDBzx*Te}>NWyoT$6OQe!1P3JWW5n$v(`9FLq
z_IDp`2rsAhp-p6@rA-wprqQ&NKWy_E9}-fNrK^q;sLZ~QMs}>>8{QgWq0ElUpWLAP
zGU3!75=<kJ3+arv02$=U(vMMTwBrHSTT`->!uM<>&v`;LUSuH^sB_=Cb8w|4J03$~
z??M_U?L&HH3&?-gcZ?6cM3kY*WkXBpCg+2nzZ`=7{o`P_A_C4T;QA$xm^s9}fykz9
zSieJ={&4%=fl}@}19yEW!(=_>L@y+vjkD<yr;VlscwuO9B@BP0!`W-Vv~i9Mz3h^u
z!Z*`N&vFgdo5rUp%~4Qx7p4IV8`7)Mp|u^}kY2tB-Uorza{|z{Od5i{|B!HAn>ZVs
z&V+8l9*_SyI`6m|-#?5uq^uNDR%lS#b)M@w5h@fRMA;)VJ70UZwX9I7w2+q7AW5jS
zY$1_dNr>$2cfWpr^?&D_=eh6C=epi+IhTz2kIs$lSf^>h&7~c<sVtJwM}qOv*oDn~
za(QgDE<=RVZ_A(dd=`0*Z4}$Eljlg-elh3Uq@NhpaVRf!$wN$`0S9V|T<h#`XbW%K
z#h4pn9`y!lU#ih<&?XcKPRmXG$!O8JD)rmw2aO{utu!oK@vm#N?D3NBROq0|pjGE_
z^?44I^UmQw+69~n{2=)(?!&`_jqyb;veLFApu6slS>f*zDLVEVI-ZV#)e$Y^h<r=y
z9z@jRE?6DA6boM|a_`0*Wb2#q+Ld6$7am7Y>@XyCpw!p(7V<`j%zDg3cqF7^Iz##3
zn~wCg%X!S-Y`|Tw9^+2>T#RlN4U08rkz%wSUH!CZ+rK?5_w+=quQSe^+YFQSD==o0
z8E$ICqFsy{%?_>O;ZA~KqScJ#yXi>zHlFi@pC`JNBU`NzIkxN1uvzquL#A!O<BmH-
zr%=gSL?XD|-&p!vHk6uy!}!hY4c51Qj)kQPEIl%w1xb0*rD5xNW#ll-yIq9Z2Lq8m
z@``zjtsJczI<i&60|fhS!!W_dKj$zT4f(*M`vu4r{V)w>1-?;=VSYj&Iuxj~-_*@G
zX?IOBR_?+DuU;bSP6+16m8db~Ft6QxDye!a(Bi{nHp<*Mw=w`FrC*^|FY({UD3Mpv
zq>_Ft{09z%UV+$=85Ln%^E-T6orNUXCA{{F!pZqs{4o3ltfORzzp)=-vDJ7Ny^ytu
z?f7&-D@L^bieVP1$UOX58oi?im-|~;j(WD1>G`6EsWyctub<-@cSp3{V#EJ(4x=U{
zfgx2}gzvExE&J`pGtGfKD{@ocRWr=9tvbQ!wgpd*7H$OvZCp_7z(J1=;=J(h?Hl+B
zG2%Ye=ut%XNf+40vJI0ro`k<{S1yrVkcQd0Q2+5m!6*!aRn0zTxHmGvJWG0<egzc|
ze7Sw-P<Gj+$!c-#8~*MjRK@diw#<@+nIV`eax?xW-|?lUNc6}n@H)i@0jkgO_I-cU
z3XWgVuX2<aoRWTi(L!vWkGP<49!GDtK(=%_&Kne9*SP)oTy#~^s62wbKYLma9#)T_
zjC<0Tp2_G|w}ejFD^Qw0jSE#5A@9*#2E|9C`-T!!I*a?PcNNT>mtpSPcGkh~+G0jn
z3%Y%?;6~$BIAm6XMM;yPQmiF<IhpXQ5InE=2<r6J<vXRlSZ<PyTOMLA<at(dSou@r
zLT2Le2=N)KPUnfRB#{?6C2bse1b1)sp<7%Ld<Lu1e9sn~ja~+YSEZOzDYz6%c0ozy
zC+<gy_r$EtSfLn(zxu&=rm8?|lfAgBG@Bg)zCvlD8qB>Sk^8a-E&K0eX>U*FZujC0
zTW!8`48i8Ly>W7g1$`WsTB+Vp=9}qh()AS=IsU`|UaSzy$gfvnsqKJ`-DBu0-IZ3q
z?#^Go0#GX61$DYQnBaZE{K1Sk6s}C9lGr7c9vutWz976gC^&!%TT?s2995m~<ILzj
zjGbY`?%x#o-_=TdcfOCaozF?CQL1!5rcHynC5Ts0l;8Ef$%|_9k$y7+%S=CVeNHGh
z4em+R4}ux>&YMc!$DwQL!AH4Mxu=&Nr(d?=m{TI}vU~)c?jA;|OCY;U6nR$hJp3&>
zT9bAL;DzlSWXvlRnLd9$u~A~4$ZBnC(~O_?&xObFyyX8$o5|ZcT1=mPfG6jvVAP{{
zs?5lz=h7kQzD+z=TRlKd|5Kc`vMp|j=kB+Pod_wNz!H%~*rRgCVuf=j+*-St+bVt{
zvDGv@dGr-Fo8!>s#B-E?7o3E{hV;uhPMd$H7%J}MQ{#_g^7KDgzbr*++C7wWjCwM>
zRRp|;rgM#MJuMFANkhUP<JQeEuDG^{I*B^`-7N?PHtL);_6IIydUBy)EO!d{g3FB`
z(d1o(GLiLu{yGYELj@-#qXP}I7SsA=I(m+JkAjR3*!yL%=*89{xU29t1`olAQcWf~
z96-#^B?uKcx1JmBSdGqa&-r%cQthSzEU>VmfszFSjQg^G_(HZ=TH;;jZo&Z(L%U)<
zEZiJ~0@q#~XLZZ!&rJz41XJMAg4Ue+_%Za-0vRbdT_-jM3T9h2M#T@|CL?89jPJqt
zJ4LYkq`>pyJ@C!@m$aa>8b`+o=H19Em^7gk12U_rn-U}4^VZ;}j`rOA>L(P7?!Z-a
z9q#z4^7-$*`0Fr>zu&}Sweodz*ietcdk67V>^t?fPvO_FQ7qTX<mUg><o<1Y2_|S5
zKezVe0G%r=7<+}aE1q!slfj(jxrVc>op{RoH`*N?&w-8s);XUq^3!Y|se1KyI?iln
zTjK-Na){uQH!++rQ{3GgVi0BjlaG7+#kMSac4*y=Zd2P?>^93l>!!o>Dx1%nvJOlO
z5**YPU3OBv4(EG@Y+PAFr_vyPoTw>(pzh4woeuKy->&r7<AOh1ve~pzWOK&Js93*&
zky#dUTMa!Nd=|vCK8?cJSjBDI4Or9nKeju0hC5@1FjVIPkDOMbgPGWW&9Y%X%L(M}
z<;)dl+j+M(u#^8E>3gm?_pU#Jelv$l*LO5X=f|DKRFx#mzI7WVb_v*aPlg8DU3ed{
zTAI5n9`6sdvVJZ8W{s_tDqd!YZsK%t7L1eLig$2IWSL~L-Iv=IKa`X+2jR{(;Wh0f
zSRi6n?i=&a>QmNJ$>enndLC5fK1Jc1b<o9iV*}JhTHxo~Zs_2sg0(5*N!33%?L8W%
z!w%q$S_0-K9+K{UF2b6)0IW=N#r>lBv^-yq?u&1V9avk$p3~#ZSy!;Kum&x?6`*l4
z3|*cdg?}%RQD|6;+=&f>!yACV@<6m1Dms9d*FyD76N);A;FZV{KkeF=cVzDci!K?v
zG{$mt@GE4@5v;C(|3Ue_7B=KnOPUD-P;AfxEv}B%mw!gU<#l^(+S-5;t<TtJbrC+!
zeVI8{g@YdS;kJNR=p}hEc$hXu_(ow^2U~1V3APHzJ%KT;ALHz<uVP-@nm!&cP*-b)
znMLVX_~#)qJf1*tj0|lKn+bnSy;L(wCVVLM(l@^tOiX)<VXvxjbCNbTc&hPN@81|6
zo(DaVk-OXS7s-2_gagw7gY17`*zftAByx791<RmYRg9N6*9hkH1@YeOi9NSo<H}Rf
z5$oQGSpnJ{*}RSCD^K99!9RE?Hi?;pI5Ul!!@PfTnq93x)FEZwXsk!#&-OT>ug!zU
zCtKxd?qHbOd)ccEiH!4D%|&~AQU9+V+fkp`){onZobXi5pYz^^AoPtQ`xRanzilV0
zlz1DA$Q{qI!`pE8mMHjK8Yi5dXW{ov_)j_sAEa9d>tFR{;_`4ld~QJ-bsY}zJ&p3i
zn<e$}4!mV2JRDoj!eoaz7teaYUuX79U+;9K`^G)oQZj<;E$T2tFt3g~Nt`Bf7;~+{
zStXc;4WCjlaY6y!9<IgBdu4DQ9goI#daP_3!i=;tyyAX~2R5DO$y!fJce=<`-h^`A
zd1HC*U3FHS`hbxKSEFV7cPJYs;aRKe*3Uwnc{%hR41W7lcl{y$_6_4<|2w=i?GCHs
zj`EvI4$Xs&<*%odVp6m&@BC@YqMT{gUAt`Iov&UZpOnCZcS>mCEwak173ex(8JF$I
z<~OATE^ElcZO=T+>U|8){yxIq%^QTDatSx>IlxV01&P?@KCXOA<l#eixK@7y?R!U(
zHPbjiT}eJ6yBX6(w|Ml7-tzahVRUJ*7PGVfUTD#mKX0BdRJ%!N*JckNx^JM<lB4{A
zMC|q7NFT+wA}8Mt7seby_8GA?+ZDsx3GQ5_Y|neKT{&jRZUlx}B5R-_TWhVgIy<lp
zw`#;n7iT=?(_!6s+3_G;@9o3W4ij;&D1dIRza*n+&Z66~9>IHu@<9g!tZ();@7XL|
zk=fx)wi`#!i*6Xae?R8W7zt%xWv2gHh%_qmf^Z|*ytL(yY3+Dk{W9iUD8l{2+0v++
zbr?TKFg|7;h0^Pf;(Oc3RMA&A&3ORr$6q)pEtop1w7D!qlLp&-c&czGg1!gx;a~^O
z>7vEfTjiYiR+XbYSFuLN2aOI(skCg7G;3%VY+Di{ed#?wS|cx)tjE6=T$3sI_n<w@
z>)uPg*Rv#h<5+3g{KK*Z4@}`WXpiNSyw%Y63XvJTEWq^%vvIV~Qt7ODjkHhfIreoN
zh5-lLONUI%F=b&J>1oe@(&g}@((ZFRtPITuNQSzbasEb{G%&(l@^(8a6}<|SR))n$
zih>oe@skY>#&$)Kc_#$){wF24B}oA-dD4EH09j1WAJU}#npk{#qg2=G6q5F3!6W{I
ztj76_v}N&esL!&)&v!qhQ9t9P_0Ogu+CN4rSYU(X0v~BoZh>Ub_lFd}?4We&Qb$~I
z*d)pSewR*^C*e<fb?z-%EF98G$XD>dOL;U5Z?xmW!U}jxVd(tn7y=@-F<@<##MT+8
z+wNmgp8OZ{_oquQ^g2*C$dn}?)6j2x0fviQZ1*+SF-v$sr@!mVa3x3l8<dUa?ZVfR
z;%sSRUL@5YjKtZOdc41=Euy<!hTYt4NW1I+AML~VF!vnpbhhT)FN2wz)|R8oHo>?@
z8Y(I!X{tsl#`Zaa8C#cP{Qkkbp`FI!F|ksTUOEzATCwbF2OgQHMD?+$!pRhd%QHvg
ziJld$qK~00tqK*s!pC?$1RGcU5Db>~cs>6x<kpR-y(nBt*D_$+;Dbufc%&XWj(bCW
znP~PCt$uZ3!GQO8;~s%A8%m@+vvY{8pKTHG`9F@e+$fc8^yUrGX?9D>giKYFR;y2A
zN!@17r5|Rmn#^v3aq?%HK1==`#QM%FOdT@+Nanjmjz7O6ANeVub68*Y8xn~DS$nX=
z=@))1FyQ^rP?ngUW$KOowDvxVpFYpvc`-`ztpYXMK7`-h2t0c=m!&m|^6F<NCEaOi
zRNK0dtIv<%yMnG9G5j6oPQ8GHraHWxDbDXhcf#iH1$;RD0rE-ZFzopNhg3ygs^uX%
zEc++D{=OL6i*wN3&=q-WdLzI3C8mjceE7QGa9<^u+mF+vHY-x4Iolpd;n8~d`|Ft1
zOEK5p{i8(cSs=~<QNoq>+zqpZtI5p45Bigpxyn2lIunx-Q}$5Gj?=~OFYU!WW~9})
zGxK0Dd=SPo&%(x^he5ybxcj~phK~z|+dVlPYgXcfUVl{Xl|%dbbLmS}iR9V*Q#x8Y
z2NM>oN5OVicpTG$lTi&eWC><M`ZlyST!D)-Mj^^I8_V2?+KD#!Ppc7=4~l2?Q*~6>
zxM1Pxp6uJp7#Az<ONYdq%j(uvjNKA|RforNV9FylZtuYH20HvC_)Q6lew_9)mU&aM
zIH#`<OuXzU><W0|QHP^<KI3I!rqu_#`*^e9pcJ20#R5$ej;i-%{eQ6t9o3gZ?EA5~
zV==mwD$CnWS|Hpc?yOta0x967@!KuJ$$NDR<ysotFBqXZ@({igoz;(vYvHrv4-UxB
z(|CUvu4=r*2azH49eE!bW*1N*tC2?Ed5JsO?(}x3g3Wc2Ra~qnKdycVxl>lNUUq?D
zxBXdvW)SpW2eWX=EuN}72;XDj?A|_6WGcNmW63)1yPAjp_U&WQ-gpe}u!~pg&ro|{
z9fut8<}00hyigI&J|ix%o4JDgdv!axJ|1ARZV(fjtoZi68x`FbF?OBI+9WBOajT-G
zg!x+XA!q#Q?w-m;KiV^MXbjs`6>yl=6y#L?Wc7y6*kc*M9z&W1ckYMT)`}0fGwc)F
ztB&KU;nw8GLRJ>)aj(d&Jvq9JNwa^m#~gbuPw{8|Vn<%TJ(**rzAO)sqh!)XR$V{C
z$lSkJlsc1YaxM89amJG-1@lw#SN>A#EPpeuEemFx<N6W0^3sFT=)EwW|J^-6?EpJ^
zy-H_xMSB_<W^ltQ@`6thdvv;qL}v?*%+_W90i}putjPgl?;GAegq`b7Q)lo@qzk5F
zs`Vi}5}n_Kfb$4FHrUF%AQ&^xmPt{Eg?CLb3f^86{pZX_@L2N{SC0>*;#oO{j#$ah
z*CwIKM}u?JT;Vhf{l{E6hGQMA+3t@5n{D<Y>-l%V&+x$+YhCtjK7ba(U@Dthqo8~(
z?0?+B_BjbCy>%9;_Y$S755LjhbPi|cZ-&>3T>Sdt%^~NL;Ss9H-3#p4QtQK=8FI|5
z?@2w+$Bbb*+FEzx^tqP2{y^}wwkXqg*kCMrxsY%6i2K*<?mTidQu3B`5jJuO1`buk
zK!<8+n~rcXz3hXtafz6HAYF>RHBGWLnkhNY^Oas7DwKX-o@3R)&I-3uw@Fj%wXilR
z1Ou*hL4s=(&hNFw7}5F2n6wUV_M4!hx=HH&-zkY(GNfq1{||4Yfse1sB<(U87A%>9
zjLqFKrzTFSP1C`-OjWc=P{f?}x1>dS*QK6Sp;Cuk&XRuc66wnlEsT5L2~T5QNY%4W
zNKR{l&}oY=&eWN}O+guZ+JBY49v5EkSM^eCp*8}We39Wa5z8i3NHHDSB4+bd98;~4
z%v`*r2=A$wt=}1^!@J?7t`n-a9Yl-Bgpc?u9CwTN;mXuey!bpGOMXqHOY#$GbEa@O
zjw+X~DECLsMMc<bjk4OE6OQZuy^*q~?}WL(76)9aKqvbi)R5l6II#`Cc2;M-c|Tsx
z`6rzorHF5ft-wEeRv(td;``HR3<!D;`)!KsVxh?DB~vj+%$RR%xFLE>{?INEySbhg
zSUFq~epeKbdj5~}-gY1EeM!N^HMMxr*A<JZZ=s#K3Drdxx|`8{EHeqm=PAbQ|G6_-
ze%^%K!jRDxFOj~g0$%<th>Tm#UcWCQ;rvy}v9281YC-UoJ;I9GecXTIG>gut%1=3!
zGW=XA-vpV+lf-;!6I|q}cU5>ab}<V~G#P8+LS37-RG8G?dcEK*t#{ai)y?tTelwAk
z^Rk%wDvr65FW=o-E7-vY#Ti^CpRIKo@rG73@6nnW8t(nR{@ufC17aC{xrl20thwM{
zBX8Rp@u<kLK7I9=Ge(6madr(tX3s!guGqUob!U+1m~T+e!1(JcIq{Kr<_+&oKL>R_
za1(uq)@?cQ{yb(XU1d<Yp8RLndudhd8~&&3As?+Yj!Sk7;kp=2c}emZ`PrP4Oq~*o
z91G$1__RP|-Wzx_NS6yop5aWvUHf=KfkA#2%;_|f-P6RmK4c$XeD}rKiZ1jKK8Ba0
zuA%&584|u8w|e?A6Y`1^lEageY?~-@BX+YnqJ1dN^lwcq;meX99EGt_Bc<O?IN>pj
z7vJ8*j(|L)i#dgu-bU=?8#Oqu_z3>!O{9(#4)+PAn3?qo0WrHNHv?RnQZb?3aeTB*
zMb(ga%#1COj?|q-YN<0jxtzkR3$KJf?kZ(h51`jQ52mEYu;HLRvo?3cVwIVko^_7@
z0;l43@nR}GILOtHrf}eXcczLg!J)JucChrrP4i{U6YL^8_vtJ)F{JH_AGqRU$bR|z
zI6Fx}Zmf5kug;0R){t5}==KLvgK%gcB~M;(v09UF$fkc8lB`%+Zaiw7=q#zyb4?FM
zY<PvmS8_PpAWf?Gb`bt3G4J^9%%y_UbLpqW0Q21Y82C4s+h-_oS$-)Tsyi^?Y&iyJ
z+S0Bd3k{Cv*}Ulpx-a>H2aa|enJPY$t-Yze=YW(EJBQt*AWjy%3(qOSed8p2Y0i)E
z;*2rVpLlS2ZYEcc|AJ5N`f=Sj1-WbC5SDTli>~(-Z0|N4uO>3;(^Fw{JDIg5^LcG(
z56)CeV(W?LInvXMKkSnE(qSi0**@U>$8y0ye8wFbld$#m3Jy06gU|eLINx5ln|(T1
zn{0lDzSW*mqvw8RU3B31mGLy+t3vzR-ZT?zrSnI-GpT8S++CK2=BVDB;rAF-ngzx;
z+7`mm{y2{v8_Cf(#NI1IQ9c^4QLtwh4kS(!yy%nE&#r{&{pZ+eEaqZ)+Kd^Sja?Ic
z5ZPkQZ==_9f2<LGbILH{$6M}E?0~;deR<S8ojpo3IrUI?BnOuA=+z?rcV2;i_j_<d
zRH)dWrSr_LINrN<1W8}*$j$9Jv89-8>j$w_a}Dd7O0l_cFz5RY;936_j5jjmsH`zu
zJGcT4fA3=W2El`=zl0CZ4+!o=oz)}ZsH(HMEKQl=N@w-X?5H)1rv;mEj_})<RcQ0`
z?Lrh5zUBB(S3EWE#Le1im}nMmzV>7>Jat_eR;kV-+fr~lWfsS_4#TVEuGp>Anbk^m
z%vy6__~IP-Wo;qiGiq?N(jThT+Hm~%MeGvv`LQVq!P<hmTU5`L7TfV9(TeHUzcQv`
zF^4Fw#KUivEcxk0*O&|xe6payU2S^Cq+-$3T9lu7fj6`M!TItDg#HcXjoQ63mp((J
z%92IWvCB@<!guP@wx@B@qo!Wc^>bULD{@y^(DJ9Uj9)WlH=b>mxqOP1bsB%#+@x2T
z%<fzlS-{}IQp6TdDaZG|?9yQhN2QX~C8A!I^H^JY6CWjwemqQeeOH>y)ZSNCwp!6F
z_VRDpw0mu(8?9SOE9zCH;~6$mqF0X0J!_9lZlEO@S1C$K`@&_3o*A+piSe>3r&Y3!
zL4mSWH9@ih9|cJYw3g20hs#Voe#ycXMMz35M`dMWZ^>%<>q!AwGo+REnzBt-t);4-
zv6B79@3Mb8zsLrBS|l~h*dR^Vq$F+a=^`tS{3J{FIV@AQvy|i?eo2oF#=`1PGB#Z`
zhMk8FdIVp?U6CDa<M|q;2`{D1ulGn+KU1XF36G_W@-Db-y~k?d`*o;2pD(!z_Eh2B
zY|M1B!^O<!IG-^c`GJjyc)A-W(u1&IX3_uoKSNHaz)|r3&vcsz<wPU2PZ)~ury;nx
z#U6=UzDmxoccOZ0Uzqe?fESB2Fu7J8M$^7ZE3DI`ci$@{-v>ir9z6rPbEo56nU3I^
z6l2(!1azIU92*_&(6+lV-Z>l*9KOC-UMV`>(H}%-Y#&0uzLku{yLZAKRdGHw!0px*
zl1lG%(HGf+lzo0k8aI%#rcnL~u;txv|L}XW9ra|wY2T)q@6I*y#GVYSJ>CK*-+wUl
zdXJaxX7rCuvKsfZJ7e>XNy~P(mLJ}~n4@R)q4n18Y#Y{vgGApbXZ>sG-;e;_aTQ)H
z!Oc+|7>P2Q)dSuws6xK;A-YZM$Qfl72wP@AKhassA2FPBrp04Rm&?plOT(`jiu^c6
zCj0{`yzAbb>$OfwUIEh?A{;O-FSBq<c??a;ud%oPOE_(^V%+&%f{A-h<X>N-f8}Uu
zAL=5%FZRXSQT|+bTX5}*1aGf=DE&Shflb$RI-GLlvP;8w>smHl6kX(fpM>#|+Ce@Q
zd-p=qj&kFU9pzTzYuU-XBO4<FsoziJrTPwF=sHK1YXw?OTe^uM&*x!#bT9dfdB^w)
z>hcQ<d|2snm0@fB8P#_W$Jg$V?{LV)UWG%Hwco<JHtWp|)(>apv<uAY9Zh+qD~}G*
zmv_CZ#K>M+lxZB`b5l+E^8Kc~R~<^lNmh*RHipUe8Vvp#4$ZZrxN>(c<2SeAlEW#?
zYmSi{wlNUgO-=c<EF1YJ>laLEd@SrfH5^~}fLCN4IVJZO!&NUc_Q7IWO+HO))fg5H
zui>sF9nNp;F7IBq0&~BsQ%lW>JaQL_iK$3e5ll^cb>TGjW?^^1yEnB&!}N~W(#H`V
zxrykzWTv&5ni0J{girqSH^FjU&DqPY;kV;5B2{q4yKUlAyI~wS+KE@+d*NQMV=$Q)
z0&T(nud;uS6AtGwXqlLI*@$@A$R{}Bd;oR}zTs!!4Vb#sz*4^m>JCMi--&o#tc!MI
z#$iU$KiJMy68oMjXeiu=xd&JBb>%ANerrRwWsih|q5<2Y#QVR0CB}|#z^SGg)VpWG
zB=bum>v9W!mM7D*e;Ou@n1ey`Ui@qF9`cJS^vF}E%Vg1$h_IyLJas<R(dQkXt<-&2
zh|Z-`7>0aFt?M%+*IT1x>n4~QO~7)S;Z{p-)=S5=GbBTiDfFIPkBD+}wsot+{NuXZ
zV6g^$c78$fqEqa8R2kc*_~SqG6ucd9!1QH|zv%JQLy+_E#wr(Y&31Ctgt<_%pM=Cd
zEjTo}D`#9?jOlAEu=%ICV0TAh^{{p@9-{&OcMmY_ggQGd+Jw@-s_40NB}>DvOGRbs
z+%{2(<&6`$#BQ_X_sfb6d2{%u&pzzTyo!Q-#{7ByKO(s=YczUb@2E;_c$1BPcWv3F
zq!YF4+tSNAP-H`G`FWQ!t0tV{iMH7|qj8DvRD#jF(`(@}*^9EsD_A={2vHlItj-N+
zhxt*xkm}QomEOI1zrvQ|-{~?~od2@g*J0E)UE#1zX0_^IOp6V{AERAxzEy3qR{0Y!
zyA{XIbmL!tk;QBsz=LH`80glS#-bB<F1rhzRM(^9f6BOf^gP-gjDg*lPtvp9`q)$V
z2@~{J@#5nHnALX!RKv8nT)qk^R<$_Q+?y$a1D!g5hSVouG4*XLh2!A`wuKZTwk3vI
zb>;lpWXM;`HBk9Qi$NciSbTIQEgMs4mhhF!Z}no+7jZs#8_YFs$Jl4gQjWB{!qG|X
z`BwA_<~SWirld&+*H2im!P0u9%@k_(I4vE#7f%y4D>17T?8B?7^p<(@U!Re}n|%xa
ze%i^^=ZIO$)8X7P_JP=KEHs}wM)<%C&ajQ#l64=2clho(y5*K*#NmS&{l$)*os!s8
z@*Sxy6WFTuBO=cA;Nd$LvCGH~C$swV@6}koU!lfbhCXbg)=B<i$xgJp7bd!{-Q=8k
zi6axd(B*yt<xd{4O=(B|+cS$<rpdhMCFh;z>lv@2!0{qmGUBzea61(7lz|nU?Um$?
zSKj05%ULY_0=gy%_Ib$^R#~m!k%bEEJmC$}C*%tL&{G`FyN*t6=2=H1ujQ-$PbL4r
zKst_)(f-*Yw&_=oX$y^*RX3P-1z+7*<TI@fY{R*sX8fdg8{vD-n0K;&0gG|dxJ&F!
zSI3I;-I~>WC76<(o-c#ndt;vcGJ=}Zw8hLml<kw+@rIa7byhoov8Jw=rL9lj@x6G$
zFb2!N1XJm~y8Neq9D2Jt@zu^&a;M~AcH49US}Pqn{NPOSSry}e)g&(e*Of<X(xJcV
zI|h%?6#ZK<W0YM(>Bz%WE!`~k@Y|>&@)*A5eVFSlaqfZ)u3g$z-Y4fV+bNwzrf^iu
zINgEIt|(Gn_)VIWgRDXfXK;_rA?eA$&hiB!H}zzCZyH?|JD~0D>E~R{Ukj3?C$e#D
zjxU6!;GwN{_Cr7WX{II-!W*3)$6t%pIOp*jOcY(FiZ)HyV{6Sv2b-|8f4P`t)S^^F
z_^7|z@tcbl2UYdqv)!4}`yGDl^CyVjb47nj^q_Zsy2RlHR}pzu;@6bzR6bV1j&D0L
zQuMFJRV&KPD+NQn(3|UKS_^)S3QOM&W{3O|oL_vHLxwEiy-?6>#A(`Zzsa5|9(=!}
zntGRZ@nO?x&fPYQ{ri0p9EE%=-?Ei`R9<4-)xJ!5Zop^jGOa@^NAaUxjMOqbiqp0Z
z;L5@znp!H-wrzmml6K&UKbh!f(ow!{WEpaNyK`Dq8O9!&ZFW2S5&G?XNRRAAOk357
z!?N#EWl=|d7`X>=?rTIwC7NTb+tKH`8ISGm&Xpzod0Ab|1rq#l(0vd`cFyMfwF8*j
zyBAM>E)(7UCTV5WGA@7rjMCdOUWy-y7hg)aIPZmMKAABr$A#I~4)B`ThXjlk&w(A4
zcy)d-tE6^py;3|QvRZNAl|m{O&EeNdPlnmr@@Ma2t`0rTybj<L!90A|w>6DD`irwk
zAwI1=i7`rhEIPJ}$JqFOXo(5r=_^j$F#G_GMFwebbs8V>7A&*Esq3O3pCmIulE`E4
zjPJ>`tQ_-BCzSc@K~K6@_GWqW5Jo?|#ECbPh0{$i((|;~O)$-EX5SK-@7^5x{uP>|
zA0S#g9f1qOux^(IXD%_~-%sLqCRh|3mE`j9nen2_QA)dxt~@Z@n<mCli2Gs7u5a||
zaQY;I$M5Ac(RWhWK8F3?dUIDNCC2E7P~*#U+$#@e*z8Ik9eAG$duhx4ZhhvmbuAn;
zXM()nRDZS~ESI;}tU$l_;k;<5%l%1Xsao5G=cWv@o^ay;HW|fWMca#P(oAQ(M+;5z
zF7xW*N)C{ZWPxEB6#{3;El%WPR<k9?)QqOvsUK#^E{AyPdm;-1F4EdMgl)G=@`rI2
zT)lWI=T7>>A9=~5OQlPF;h}e|zK!6|!)f|;AG}09>(At5O3yxURl0Dl2}h#qk{`@p
z-+)Zp({#FAN<6le`y4byKz~*F!32BxwcrJ;KDLF|Mybm?c9|}ppVPug+b$sYL>vdT
zY~YM1ZRHPM8L`N>gfZ@=kW0fDm(ZRYbWLb~p#$$IFXX@6R)XewA7)>x@i*-*@>bMg
zuu_oqtM@zETR&AY-tEYb%R2Jz4}I=jU5t%0%CRzkHVcN|lvHN;ad_`A>=EqP$V<C$
z&Hudlqk?2e#^MgU*-7+X_CitgZZ@u)2fdr_NbA{^siBYXZb@4X`EL(X+#evW<9pFz
zIf<OVy@WrqKdbN#O(OradUOI4nh!CrwI_bG{*2Rg@A$-bHRl<<McHt5j(G3I(G4Q6
z(XKu7dY{MQ538WNS!5ja9$~j&%RO3Di6_J7@!v}?n4W)zugeu!CUWXZx`7z9+KBU%
zS`awRkl7<#pfs-|Tz}q{9;ztfd#B0hI!0!FxuF>wpnzUmYtX*2JBwX>G3%ZV2Wu80
z;LJeU|GkHE&8=AXelRBa`(gj}VYnpt|N7REIINqFW5O%=A@d1Rp2g#{@Urgueh8B%
z>_q07biD2z0lQj}PYQk~eO%uO*PiR(uGt}!j=h5o%lBelq=fl3dOVURW;VlwXJT_C
zo{r5&iMT(z)&}7H+(Wph23j>dL7vS5SZ>^e1A8a3S<GpB?$yG)OXtxhN$?%wPhoQD
zHae{LVdw5q{1|kArPKCt@qtGiYBQ2C;x5qcq#>5C-Nr9V_Y41)A|vM1L+59N)qRmE
zbQxYOS&v9!^2>?T^2(&_(FDGqca(NRGI6=fNbZ}~RX*zMZv1w5hxse}&_Tn<+<Dx6
zOuDv?^HjuaA$$NYWhuxzYyXDY&jh?Jbz!2>4(=Fy4R1Q0#saTu<fI9{=9LhvHcQ6w
zU9)ICa3Q;98uH16WeCu^N6s}y`2<fYZJ5H`uzXt9S-@JbJ`-Q&(6Oa0%`-f>tfMcx
znpLqr;Q&7s?Z@i&%ec<onnitz8RvN#s?R2~LuCS0(?&3Oy9#T(3%OzIBIc^x;DZ~Y
z+alhvTg!YfTs;++7pSpm)fwvni*_<<az2iUZ1vpJw>a;hEr0#E$F*OB_^0q5Ezf4r
zc2WlI>L1~<)QZg_bCfCg|1*SNb)!pb_IlyQnERraTO}7RnqRo#GM-jHB<?+B#Pwdf
zob#n0CpI0z3cGm3?GrP!>Ny-Fa@A_4eOYEKnE5*8G~RZb8C_P;NW2SQF6zg9)8pBu
z!A8vNz;(kixctTew$-uZx_CL;oa-PDj?v(&uP5MEyo~8q;*QvFG))FL^V^O!tUGMO
zvc>J_??HBVKg1m-ZRESFAMvl4_v|uNVES7XDwe2mkNr@V%KBPq-_@u7=Sr#n%=Yp=
zZ$;K*t6+*QFk;EN_8jo_j9{1CmEr?t^Fdh&=JocVOJgKHD=#(4kGYGkdw0^>xjlRD
z6j=<JIghTth0tH)Il}T9Hms{+{|e#Q)K+3E`9StFSL1XAefr6ArM7KX@Z|KJjNTND
zQ~i3gcKb!nIo^c7YXomCW*JYpUSZVxkGMR`mDQu#%Yz&T)9urGc9T2M;C>G-wI9VP
zZPIZ6M;60B3pQCwUpiaQK%|QsCJ4@T+lpwITZ=oMVK~P5`QqflNc=wQD$Ug}LT!Dh
z)Uflj6p_{zlk3wgXQa2n)2d{d>k+{q(^`#QQ&!=k`#UN5<2npE_Cd1Uv|UP048*;x
zRLMrGS@J%WAYFRc&s43^SDLEeht@xo#jN#_wAeTl!?JHkFMpkuVpep(gAV_p`?71&
zimbQNHMLaf$dPA~+QxWE|K1eoev<|+-rj;4)2~P~FUCm+Quo5;u&$K+rZrLr0v9)m
z{zUo~Dd+quamTt0-TS@qH)0O5yhTf|D{*Pc2K4UeCYe5+jWPbZNcR5^UsmeSO5_#a
zwR(!a5A)GNL$+@o%-1)MF~w#y?T2i@4R>|gd~6SuWPePE%7?t@kmb2<x6s($S30S7
zku~9M`EJ<)rg{XShf-JWU-B0-H(i9r?|goEBO!Bu2`@?tJgIWm)X9GtWQqf6YV}8W
zrP82RyNDXU#U0%FEFPOZMb4>6rf3FW#kenMrz#ld+Y*4fy`r1-KrrM)C$m}jLKMOv
zm;b=^I2HMtA&U{&C4h~&TiL$Jo;#eJVYtzT6TZ4~QfE2T4MI6nKa>l0h?&;Cp)~&Q
zB`$mn;f?Uca5J3Ab2ImH(VQo=Qyj)^O;f2Z&d^z-PH^$2MN~Xo#yhEDIO6Zd&_Qbu
zQTH4buirv@X-8{A!z-99=6+k|3g_b6flR90N15YC7>#jcTz6IWun{|;(UQE_F$n7|
z<xC#d2#+?q2Xviy6YlRK`L9(guCr;zj@i|$am>f9f@8RL$bjBQ@_8UCMKHNU)~m-^
zc#6GoS9v;e>?QOQdxkHC3t6{cNz7%0lj(O``I-yk(X6?Lf1GdfnpOn=o$QJG!ar*>
zw2FJq+{BE7TWAoH!ZYI!(Q;@Yd-T18vu-2!J4fWGjneq7Zaj()R^!fyFvNE+#3>DX
z3=Gaj&aUwokpB|xELHHkusgIo|C6-dG)PYt8e&{Znbnu$>FBMJAsNp)h-;;hh+Vh_
zyLP2Q!!r>->I>nVGfHIpMCN9nGFq>hiafEG>!smh6<RP0lZU6kHfISc_K!gK!xIpC
z@uZY#*A>4)2cpqG5G5jq-q3v@+>%qIBOh9!U`La5WcOsaWsbtL@=Z9ORV>{Ld4nal
z-{VED0|xiqh}!fDEYH0Tk0HR*$gOyzU4r?SmO?+p6Ah-V;jp^`At(DGdb2Xjl6;`7
zpoc~OoyXyo8p0t~jtey=3?H~1b&a?1)Fgl_Opggxd<r!O-jpSrcnQZ<-!LRhk&9QS
zW7gdDrW?9?p=7K9tj312Q>Gg&FqY}AJ6Nj(I$|ZSdiG$!ZzGNkDM9NS2XXbB;At<B
zn@Ne{*;V%p?ec4|WX5zFt`ZKa(Rui@ZLRp8D)376ZJOz13kPT-LL;qN;dKQL!i8pU
z>5Cp#!e=iWgJYW%gpbS`y>W`88q3faD)E@lKrE|IVc!{dCHFQ<`SElRi|=}K+zT%{
z@AVUW{H?r}FW4|a*QD?X2N)l*gGjH%?K6AXe*RWER=#DaR(C!aG@29Ebd?YGD`NE9
z{_>jb*^*<@Xg)imLi3Rm*e+F_(JKd-4=RkqtA>5>DAtspchBP2kH@IeIfAA4(&_s=
zj;E|+`C+T7+@d)Le_Iv9+DC^SBYv2AWe?#Zok47Tcz{$3W#V52dE$iL%(oxQ3c(TX
z`cLe1R;seWvY)tDyhK7;JHd$=%yB(mLZkC8&K`e^CHccSOKl1QtDaM>%#_O)_%i2y
zGbWp<$iKJ^gU-9o@@dj*mJ}bNSN&|BTYsBtzbngMZ#=^>8w}y{A(#4d#_|4XPu|(^
z2nS9K$5oS)sPEqywfckM?%Rv!&un31p#yz4?Unw_EJuXPA!JP#?w~unv21X%`So{x
z_z-A{Ucw`A*z6wUioY;&W>>m(Ig9Wn2R<o|fWw+qh^rI)zaC?8`nDI=wSH=LzkL*n
zmxaRaumO(R{>HrH3WCEWIxTOmA#U+wD7NWC3z6Fx-aZotiq~P_^EH@e(Sg4Q4i{Zc
z;e+mZ4};#EgoSx8>>l$4dd1sO^x_B%JEut_25#jIvwu>ny{2sSSCzX$U1%_`3^9V`
z@j?=O`$lDsOv#ndQ;&W{`aCG+>GB7UB;zANh#1%jw`VO!aQJ7*&2Iv_yi-E9<vzh;
zIWGB%ci5|jPEy+PQ&P?8M^d&@m{sES>FDa=E<H>#Lib-2;MuWB8kn*jy|RaiyV?Tm
zO3*^X$LpwmlqMZK^GiB1K27@Opk~$dQW;}Uj=<!}ItcCXTQY2VEHyjKmDZ{jN!a&D
zD)H@!q4!@(Q?))zExXrCEj?1DR#mH{9mZ<-{;?}gdbWc3183<)-(>Vp%S5Dx4z#9r
zLg$CUn9xD6?{+mvAyMr_-{n6HitU9b!JSd?IY~+oxg@*rYUx|My^^x(N9odmTT*86
zMl@cN!|AFzr^JP#%l>Ehb4%Pqs+v&JEfo4EI`G1j?(li23b#eOC9P~F+_z|jQ58q5
zbfe>7Yo&*B17B1e|Bap%ZupY+8V4e7V%_d)RD_6gr5f4u=3uxC(!<aWI<QvMx6*7q
z8&}d7Kpy)Ji-O)Ee(+-W^=gOzVy42iY!P}-j>gt5(=oboEc)w2N|Uy$;p5N)($45e
zq;^S1)`u{RJ5nnJG-)uTiy2L8ZbR?JQH=eTf)_XLVD<hU_}V2Ly*kwkhU#g2?H`RZ
zOIqRQk;kY%>Wm@w1(L&qS-7v#8z(eRV)CL_Xh<?*&*LWCTYD7_>kni2_FoLR8_Ue&
zXV|jY291kT;F+exTc?fLs2GjSQIpJ)2h}2N&;w|!a%N!r*IZqlj_5ZPoa8^6d)_>u
zu4@>d-4CMWv_703+9LJMoy*&w^3B=?8*tdnc^Easjl&CbS*juYwL_J7$kdB}E;{p!
z-%^$@GNtFC@7TQM0X8N@plZz-d=s6>;jbbn?Nt_D_aB%S(usK)-MHBF2+!_P;mBwo
z$-?F!_x7~Lg!C7P)Cys3-#8X#T)^*k9vox4lIU;6;Qw|=v#xp3?#g!IW;hJ5Qx9SH
z{xIxn6zHz$Ao#fPco*Qra`k9#S?$MgmdPxKJ;R)(;x4tR5i1kpkmMU>ddPh+j>M}8
z{_7&18gELqwWb^$zJd;ex^PS50xtjf9W{F&LqFgm=7(&;WwUO)5`59DY+C@XXP4lI
zILo+hGU4jEi|ENiu$Z=pm3L}!WM3}-eon_>$3R>fBe5wX6_x`OxwCl*ibek;;HD?@
z+P_BR0c|`Nj?xFC<IwYC55^5tLDvobG(K@%N*CNmg+MPZsh%Qo4Fg%{G>(_wj$!QY
zmsmc(Qks0_KfYZT%#MvG;TSxFg$;GMx_ky*_vGV?*GZU$gmJ<1Eb_o!>W3)d+dfyi
zwJU+Yof0>X{(#DgD2s8PHOLMbi+<yj<##4jB6{dj>Rjq5_^KMBH#CBFZp+0Eu^BF6
zPu|Ku2kLis;`gh3^X-40Vrhm33!B4mqNo)=^jyR8L?u={|BTCF{iqe;$$kyRFrF%Q
z6i<>-D$hq*r8`F#t%ZYmy*MjR<CQO>@6q2B8!p?jQ>r8GYxU!<epBI*o+G-ctI=$f
zLoeapIg+@8-PRjZNzA=JuC-zEjUBA>Fv5<&oxC;Hg7MATJl^^`a;{o%&aec|juNw@
z=~pnVsFoEj8|bE+DrO<3(t^)b7<KEd@C1KFr@4zz7q{DJ*llx!Rp%kHa6HcqKEunO
z260PM04+B;GXIN}*e^wJ_L>-uijIb2)nMou_2QKCJqH|raRX}<18`#XXeJ&_;Q0RM
z1gokV9&JZ*=M@8P+_8u6<E{usUkU8275N!{*b%!6{Vj6Qs!;4D?E|S7(Vktz?@-aU
zh^h4px$XWy?mW>G?LK(X(6NW4TIIzcs~}FfYftszc3hpll6)P>wTDL0(&49M8M%Wg
zV&Blx@)~xzTKsd(lKySOd34f8#J<&H=GPip{#wCqvLa5&JT3JLeuJ}f|DxZbo4Bp%
zgIw>>0Sh~d9`DB9I6B^idCC{Ld6oqarHWilnG-(;3MYrb4E|VE!~4#gu`6&Q4j13T
zqW!)58$6DLMQ3eJi<L9VwhxmUk5f75F+Tk6MbAr$G*HfDLhw86vlBk0mTOQS7=~Gw
zoN+7P2cJ)Ru+P#kPCY3&9u5aZj_@$c2h_kIaWuU;eMU*om3%YSM4FsEhXxDYvQjVv
zm5RG@zsSeS(rRhgbr&1{SmJn!9?Qip)KSrt53XI5HSVyM)|q{m+1K@w@><2qv=aQJ
zfPs*fEt@N4j&3WP@}NK#;xJt{E&G;i>%-Bq0bd`R9=W_*mK{D;W;IEYWTPyl;XkTn
zJ6m@bcRq6|#QB<Rk8^h^E5%JxbWf3`zSfhKA4!x2Z_+U9c`{#SXk9J%|Gv`dLN#fU
zvz1hm`9$WiFI%=cq>D87V;||1Zjemc;Uz0R=q6hoyi$hyqhzl;oRT?xcqH4j`+zJ&
zmMQZwt(CbKkCj#)Z;{;$u92<(xl8un4tr_V#4MZKD}$u|CB~9QWQJ@-kcJd?tX`%W
z=q}m4{~`OP6K7M>+Cki7@5wyoRmx^m+N0-%Q@CQc14G_M<NahkoDfdY#mbiWedi(O
z-+dxwn5!bMdV*B8=AIN7+Zn!6s#RqAL3|$*CrR)9;WTLpj<j-t=aMMwve*IJ+Cy;p
z+7GsY|Ag1%o)kQWNVGd8`7{_>rJi%an)P9j&e-E-d=Kav%aCt%Qo5|GfT~^np}A{1
zoL?AX<6b>T^25?*$3{uBx=iv=v_p3<BaDCO3>E*A($THuXjos0QTq*$yl(_FMTb*1
z{hZiY_7Uu#d6?jN438>2;Q!VhCp<q(UTL}Te$rW-acU*kn<Mb_cY7E}iIA<C%eHN*
zQF~}ATkP)PP1Q{l&yJ&c<xPIlInF)_4N`O25c)5@hMi@qTxjqGD_iZdpyxwOv73p2
zj>>YKZNKqKWM-ZSK1YtK*gYOt$jYsIaXV6tXV%w2u5%e!5e=`eJIvjWDYLk)1OFO{
z^JLe4^sNyb_r>a5I<F7U-WkRCs68xbdIp=dnygLDL*JVP`1Vv}m6En&(QO0avRuOv
zRZ6_m)(M)E7jn+fHPG9r$20Qvs9XA&`Omzt=FbKG-Q&aX5#jXfEEohEEU1*_%5D04
zSn_&+;Fm<P*VpN^m?ylf!CTla^t|xO-sU@f;jv3z#s}V=<m$(i<q4zS3-`1(*7cms
zDUI5^m=MT*@1MiXy|Mp~P|>X|EXA0wzj?6c5rZdJan`n5?BZBPt;q{GRIQMgk6XxF
zUv0-eH=1B(lE5Vc?we{ZIf8kE=W&j14%e%d@Zlv#x%~PfPSh;mo09>oHW?=W)7zBu
zjy0h4eGvPqiXGAD?{ILRNd24XT>Vf%zSkgyhmsAMv%*`hWH^#`<(hKUUXAdYbCdVP
zp2*c*@VndFirv6YmOZ@9)^#nsdPr41+8~#!lCI&&iW>gcoJ*^-$GB)m1)g~dPOgDA
zhkW<o)$>ib>NbvNi|^uoUMLN9BB8cibXEduB{SvaxZF#e%Trcb&wDFpq=q?8KGmS_
z13RvgJ;SOMqO;&&!uJ~D{}ufkepV;B_nR*=r#GNsXapw5eXt5o{fK<c!R(^diXqb;
zBQ)YJG)#>#^l2XE6pMSHU=<ioErE|-4Z7UX!l|nL*c`qD4Ue87X4V(Xx~W62B^HQ(
z7ev=~yV+s;YYcn*1D)KKvu8I~&NL{+y3p4A{AdyPol<81=+^uvdfz8XRxxATIYf%P
z$H&T-80>Zk0dbSrX|F!K1s8tqrBcMtTYw%DE%5wr09B(b*t$T8N)i52W$|Df)z?Aa
zPl8d~?W0sWM91W5D-GzEyTefDAzt@1qqk-nT9zt_?^``O54(jmceKTM(t?H!hH$Nq
zl!6rEu<1v#v37J2-0x_>dqWd4orW?(u{W=j8bGT_u+Prz#|7maoC?{9shYM}eRGD$
z5<L^l0WCz&ih!<N75b0M$My?L(NWB@pIsQqvm3vnu&c-o^s|=SPh7*pulHmdwm0F{
zynM8gAI09j#kl$35By3hz@~G%vEx9pbmR9w98aH(x2t@`-f<;%imr-(t8BsUn~5^J
zKJYrcmZ!b6c{hN(Z+t<z_e~8|Eg=|svH(l({gIBG^DyhRb~)bMoP(9(z8BYTA$yB^
zgU%JuY56tb;+n+rQLSmdSe#L-Bd|$tnRG|_1)dlwn>R#6;Y!d)$#LR)kzcZ<`h`Py
z{yY?E=Q5BacF^DTuVVGp6kOY}8G<?v?JXLpIISoAesLHxQDnAX`lA2tRd9H+9|ccR
zpkUXFSR94;q7SmQ740bVKP9bL7KTq3#dAzag_n%%As6%X>YexTeQqYgPN+&{lS)wY
zL1ao741mU|A^cq^XL#UUzR<XYHr>eb6&>WVz_ql9`M?CN-BQ4!6DWvuWQC%bYw5&b
zPRvJ>H7-e*pOprMKcaVk;1#DNEac3*SkB!cW)!`gsB-NP^G7}9&a5-oFZN_zHra|9
zUA9Tny?Xe0f5#SWA6gdg;6SHl`t5JW@+WI}EZmOMCw`~$Ne#Yu7mKj`o@`fm8r_41
zQ!g_b>a&G2T0es>)-xH?bqrK`WHWoLB1c3n;a%?vwA+)#*b)zE<+)&vZR{XlzRQ*y
zXSr~p+hf+u(~wW-k-<$nJK&VcX1+BK;Gkt<x4zqw3hx)O`Bx6#_8Z62x5H`Xpd^=k
z_H#>gYk5;k52%I=<i@wHxo2VzF$X+{%g;KPpNm+6_=J9#8tuzL^Pf|$u#kqadF)fP
zf+ks@&H6xUo$n}5>97x%A|p^CvI9Y?TTCCRyg^OMQs%7;W`UYMUrwlH{NT=ft}|G;
z4Gh?4&RH6d@5ua+%`m!<hes36!>x5N;uhp$i_I45rJiQk%E^55{WX5B{l-1c%3Sl_
zmv2{&V6-@YeeoM1H8mwOEU>pc@w_H`rVZxPf->O+?IMpcOyi8<A$WOi3ZE=>WkawZ
zm6`*&Q@sm|4R_LYkQ!}=wBY+Ak^hLjz;hF>h<->%c;~O6)0*3Y1FX##@BgAxahgTf
zW%XF`!v#6>yUT+Ge=7Y(I6DTK)8u~?orgb`?Hk5JNytnQ+9a}{`#2t@NQ;Js(oQ=i
z8cKVRUC2m9Mn%a;6iI|ON=wq-r9CxNZ@=sJ2fX!uK5}2zb)LuZ{kjWp^X6H+(Ugv(
zMWZ-Ou>tBXSD|2@kGa2&TB&9!^Jcu0m<x*i>mEaDs_f^yo$9>)OM_K5L)kn(fZL|s
z$3GJ*PWo9SSRxIAQRm6Mt%5Ogh$<bMwy=|GSH7Ov8>7biGobTIJdSYV>h62d#9A(|
zh(_4LM;t$5xo|Q^G9|@{Z3fPx<?rPjGjJa>rZ^yRh49mAS@Q1p0sK$!Q+|Bv$Gvy&
za)og9{3q_e%hi<S<K~U0jmSS3J8Mb<8?NG3l{rlkTGM-SF5H)wnH|;&!1O;i(cN<;
z8_ge3r)V6@&Tr$>kyDwgJBSrQnKVl+Wx}mQ=(>$W$$|ec=DkUu7QvnVV|@sQ2faCJ
za5&X=6;u6&2ABCv;vc>FEa;FyhkKWhenId<SE<o|R6JT8+ls*6yRg7Aj*ohU@x&fe
zw$c@Oia}es<*GN;-}azo;}QfM&8Ec;N$T0Mom2W<;zWg^RLbta9H)bf-*T6y+r)Ee
zyJqR4)jF<rHs`=Gikw<?9&`6*P<4HG7KR$r{A(qyjo-_Xqh(w^LY)=AMnie_8+dmb
z4#)2;*ip6vb1ZEvhloD1h3KN~G>zb-XyG&qTEhDiXK-!*C|2}3jIxzWc-8s=SM~6K
z%RMo>jQ)kh8U>4YwZWJrvi6nTCevhrIN!VN;rr=#!Pp*jyw#rG(~`vu;Sd~D$06J3
zB33;Vv)XTh&9TRxnOg4=H*yfe8|%@%#fEY72FmwW$Y}EWK2<BskSNz<e$Vz&*!Otu
z+`NUi?pMNh^eSGDYQvW?-{7PE57$5DqUG~Sesj2mh5E}_rFB*8UgNkTW(D_j>B)Yn
zPhd8tzkKD{`}{END#LfJ#@2-|u-Ew>Li@Y2qGliP^={ust-eC-b7#I^yqdqRsmT{-
z8}r!Br=0J$i&I{e(Qd1lIXW~@H&l<armLcRtrr!Buj{+!H#vHr=-d|PbLXeuY;oAi
z&AF}lu=Pr+?jFl|zh>|;1n<;Lut%MB*ydaWO5dEtZllT6TPOMz^PCu~*PaD+g8vp?
z$@3a_s6AP9hPq@+JuZgP#QvvfOD(70@a?p-j;3~<oQFOgVUAw_=jab)xoLZJirU3D
zhwP{x`wwSY*>d1hGqw`Fvnbc~^nE6H=$+fkRew$6I1O!i-KNe6Dj3R*b#3YQ^E0;o
z_ZV{vcUira55uJCMzGj6gujlT=T056^_EyRhFH*C$${n`^BFO@mE7T=4>F>n(fs)s
zR32(sHE$Ph{hLADUm3=Vj~8K*bC~U}zC_F7zj&=Tl+|6lIMP6{mySljwsi_3W?z8%
zOnuxHS>Xjc139wY2^Oj9F<iVgLSt94dqOsHr&u$0>NuKQI!XQfQ&LD^oX{q!%X>Ao
z<KqxHpW!WcKQxlxRmr30*N#|fG@Q<2$2vbfl1^TEXx*h3iw}H9<c-eaJzWU>HLfC?
zbOb&c!sV1nbPHXJ%Jc#$Hq`{ud|y;2tJ+mMG-BJa$I=0{e`vb(N4OL(z)$oi6dQhF
z=Dd!4A69|^>z46wjWv|}q@!itSbTdPZX2yxgvLkW|7-bagn8$oS)3=QR<}Z~^KvW?
z*^PzqmoWByJOVrHL_l+<wCdMH+}de`QzlUuJ~0i&8NZ-xtALLedNW4sl{Ptq<AuNA
zvS)Upexc|geh7x=wm*V7;2>DqWjLi!ju&mWV6?p>e;&)i@WH^QyjxJvnufX;IvgNR
zLiWH3+?BF~9c+%He9kWHQ+z?4%_o>~*PVAqS4opnOAuKeBlbM1Y)PMwzE|d$C&XK$
zuKQOE959yO_h!?ny*)?Y+fJoQe=fNoTwsO=#r&g?gHCS6uO+rvJGc`+v|nJZCz$&U
zD~hpGV<3MX&SB%DBqk*6#wJBWM*mS}Zfi^73%di2`3cYwEa^FW=VSkY?FdR!W!-9U
z{6INB8Q#Wv!3Zf@c#%0@1F7Zb%TBdrl4+Xg)!j9g(t<)+-PeWArV6~O=*kR@0KN~g
z<^4u|;VCmjlj1~nS#%VGM{4q`U{;hox=fe9UOc_8oV(8tp+@KZ{E=wRXNh%;TiK3>
zD%JR{NiYiCYT<d@h<}{!+Szu_;$Ly*{5liBQ87Ds{ej4iuFT;2k1@=@lg-7~#?VjK
zNFI|b=B`B}IaPEHj*0z$c=`zT-MNn`qt|d|n*ltv#gq$=r9iQ>KHZAN{@}x8p4io!
zjg!UMG+-M#{r!iEs&c4_K7`8n;avI2pJu(oQ6Kk>V;277gR@h4FLFBd8|&E|n#MR)
zdv<!hhzog)zC*m&;=7O&Un_8raXGK4wdaK8Z*hKRKUTUaaehfTrTdE+8UF)rSu^Pz
zQjT$dDsX0CG)Gica(Ltc4%nuIo$j6t7oKuo(fwNeM}gzVuCm78XE=Ui4j%7NmAj-j
zpkwzSTCVBIws*Vp&HBj<uuaFQky@M<{1oYLPGj%B6zEizTUGV_jw>(pIoo?5zH1w@
zb4S5?6|T#zn%_|$Zq2|xJ}kDn1fOm_IB7*57A4kTl%+4{T#UubNrF$Y(T55z)j498
zBcv*C!EIQAfx_olsWn${_0F^5@e-7JT@bDkHyXCYv*@J6PlIh)`&N9zyoCp6Lr?ry
z9>q_a9eDSs7A=;FPWK{f7|AE%uM{Ea?-Sg?4q<4&c|4-+!g1!mG@1RykJ4<dNz%~E
zXQiR`mn7Am0hY19^`&Wdjz}|2{ox?Goyku{uld*j)M<~vw2eympy3EJ!GKYA9xP?P
z@RxjJ^QA3Erdc+;`6bP;h?n}#?tr+iJ<#pJbZ9@^BU$&lC%N5hjkf2F@Xa_{iqcIJ
zU64rW*Z4GP(t}fy@sE5dw!U8a8_*q?d_kHzaD-%Beh^kGOre@&ii?L<NkwfIW8VHm
zS^a<U$e1)7LsvS&IHDD{zBR{#(y<tz(I4pvZKT`Pw#eOFE#33KFTGp-3af)v>C)MV
zW0x<$u;P6fd{NFfh+}bQUk0TPk(2|kW9{a3n5xs7iV=%3{*z)~6^oU4F}*GN?+)VW
zRh_7{atyWHwK*fnmPNYSJaoxGaHFPBx7`W+?z|dLd#du;e+rfb6V(Kd<PJWH3|5GN
zCi|qs@z{$5Y=sS{xmV#?Oa(*4e6;D#YAAng#dzx&czYhe{L?!zEYq0YwUK<cvK5bL
zJBfa06+5Pe!E<^bhotp_YN8iE9WIjGp1X5$MIv`Du;r|dB71BxM0n`NvAp$dSXtTP
zQ`=>nJwW8~QglV`MdaJkw74UB10VG~hzAX~VRq*fo1X;pb!IWOjep8gG)s_wRP5<Y
zlxTWwDT>v!`<$8ViGPJ_gxlCl_{`Ip?=gt>L$^^S$dqerMlk7B0L{h-mrs5sMm!2Z
z{aZ7}+*#N6VoM&B=Nw1>yH-?g7s;|;7x_`Y25P%k(78iLuH1G}yoJud(dH7)$5}A<
z^*)5O7Oeczy?BuoM3lsHVUY%1lb1mSXK7g>GEQ}UY1-%tHJ?Pzxj?CR>uJoiPG!v?
z7wYIt<CQo;`<A7%!o`$wyUS8iXe_h5#&Z1hGpM~f7^md-q0sL<bO#h-iD0G0O>V<h
z%Sy3LuO~mbe3!mC48*hg<&wgTXHt4MWoY`evyB?<0k?+B(zN9w=e$?&B5nv5>-5j~
zT6z-CZ`6rwT{Y(V*l>*gYiXo|8)h98zLtBT);8UiVSqFTNB$%splYGuQz^2k{aeZ7
z&?2n$iG_2XaKb#ZhsH2ttS&e!Z5NESnJssuvcA)>_(>er-`|Greg8@4x)tK0$1u(*
z-3+zhG}QEo$BO8`aJ4iP4wX9LiWZ&RGx3<XVkTm4Y(xD9efGE6j<JI~K`~+<er1_s
zY4~acf9y!57s4BSqYVpRsnJKUFJ@0nrtZWnTu<}l<h*cr2zKL`-<s4Plm~6Wlvwt6
zp?yEWw(|`wkQR!bRNaXp?%8z>la{22_mkNDtTq?C`jyzaIhg~Z2%pp+7&J8#s)vm1
z>TM1~=kRoD?n~g`cKYn0;lwlI8(HvVfTX#$90o)5soi~=;5tv{rGy~p`)IK-Z!1EU
z^o5UoIBg~vGqhhGJ~{?6WSF>|tluMrPIv_iyI?MJ7JGqik1#MpjVd!u1lPM43tM_}
zjCgy@`d*DuFB75s;2c`McSf0&BBM|GbHA?@O<l6+*<Ub@p9v;KRa@cWO6T0wmb83I
z_S^Uh2bztUu%%JV``b~?-k6y_t?d5=O=8~U)6&N;CY)DL%alLenESShueu-PcRyRM
z|J{~@KdZ^Z^#x0QbZ<WFr_bWIFYUHAAHkKTRNghZ%!u#3SRWQmBkMoNdhdhciKo%o
z(3iDOwulZw8uQL;a*Xl}8l{z^es3Jciu>A<{k<uh`yG9MmvZrR6ZyYg-7#atT<XUr
zGrgw~J-2^CQ~7Hc#|`IL_t$v$_AtMWYs0qVe`C5=9ds|<#kN+vQRDIu^^3BpHTW5v
z?JOv3TMen=6@DGL2mOR-R_m>Xd)^c-_t6zUw=|4UJcjj|doanx1R6{F+qXOry!5<q
zDJf+=2Il#*)x-N3@IH+BZ^v`DR}HSj-GhecK(~r9Lhi(a7`#?^A%^d<o1wb~#b*SE
zyM8D;T8Ww4RBxV$nT~&tBc;I;FQVp-aCa7qjQJ8Xu6ZoHfcEdvVXq$?1NuPo`Y175
z6!S~*CMbL~Rxq_InRcsGI%}=O!Sk(I=3v1dVt*HO<2O<wh2!S<RpfbTQAy<%LXHRE
z-1l&_nK}Z;q>%`jbQhD1yAv6|rT@HEV(`mQk&9b^<02Qf^ztsK8w8<pMm56D<VkZz
zpOb#iGLtfFw@dq6lB9?C+uB~<p@<2KL#6ea+p)vj5o1*cBk0ju6gRpd+bI%uWm{l2
z?jkb94u9L#XOhO11CsW!0xMm|-cY&H3Vz}Wp@-h+TDcWY<{1(SJHg}JENm(FK%2Nz
z(qiW`l8$45)Zo5N>Tq_c6nR!hu$;~Da{e&5H0+mNZgms6C6SMAGDX?~8_ZhTA4|t%
zh*`inDbF?(3AfK<$^bboeQqW4N)8zR;wlb49{|~)^HRqSV^HV!O-fy$fz_uYu<&CI
zlAekF)%^y{9wj^-!@97|lv-r1A4H?+hTzo6xP8AwT6t3o4KrR!+Yi{<F4!S>Eqn8&
zPlL{(n^g`v^t^;U#iDOBq6V{vG>bR&4fMU>%#STUC39Eth7PyI+{Q#(x%lomulL6U
zn-y>r?A40J6}VtF6hAa(VAKG?Jw3P+E>0RKvKft`|J{|=#kaz<&Znir$M?XxLkw1)
zeu>XFEfKw5F!ML*)1mtY{6M7m9lML-C5CM8qm5~T>p1729g9B*Z|1#eP-uG!7Ki$C
z?Z&6DY3Bet-Q!5P7Kj7qs*v20$nlTU_#<ZwQ=aDWQMX}C`f`&##q|iNYvf?Tud>u7
zZ?CfAj9MF(r|dxXh_7}ZwjE-q$bOVQZ^s(b0v2vv%$k55Jd${o@DJpZ%F9?VS4E!t
zw+fx^+R}ZR4!`cxx6?jvz&+yq=RYo(-(H1qM7LzNb`cDmvl}FLao%_TPtN!06S%e0
z1^&5h$v=66XrS7b-W&8d=f{4Q#BZi<$tR3!Ji%68_b7WY77v|V#C_lr=Po<JStl)o
zBQc66bz|uBp9!ab7)Pyt>uJ^O!U>ZWaZ!LNKkpR#lBbbWbv?|$0Sa7I)`?w8zG3oR
z(Qm1Z#-D}JyzIFH!6L^~K5#zb>m!lfUx(i#x1)D@59n_8vRBCbgYS0>r1P7%BTH~t
zpBLw0-dT|eKIFhNsruY~e+U%Zm-7}Z(e;;@=a*$-v!$lpr*RpOe{*E@OEHfMY{lex
zrp#Mdj%C#flAp;zJQw^c`GWxr_ZPX~w=<9^dhqiz=c7){$o)PnpmB{l{oJ;qHf|Ar
zzTd=;jxo|dlWO!I@4<q>D)h0rf&t=AW4fj*W3L)8aMWMidVB-ck$Lbh+60TIdvUl<
z6Vrw&vtsKgHiSRMZsh<fh&hFa#XqQ-8&Q4Y3FfFgL)5nQ{C8P~8HbD+IIaY1M+6~l
zbR5z-*#1VKHTT$8ND+EZa3OCm8wBg3y6;8K+7!c-k_UpfF@guLoM*1ydW>{`48^L)
z2)%pTZm!_y97!6@EdhtPt*{zH*A>tx@+2;8wnF=ZDjf94pH<_h(yn?w+h23wzuVRf
zJDURAmE$q;X8`LoKBIHdL(J(I&ROsJ%14f^kwlb@hjtF5mfHfZExRUi{(8h98#*t0
zh!JboQ1_iS6RgWo;8B2XL7{l*RfU<MHK<uJh(}xcbGYMdPG58$YlZvzTG3*BT%E|U
z$J;Q^YXF~(IgZ~K3J^TvIu?9yMsn}LD4mdIr{|*2n$3r$v%O!yBtBfY<IW;*-dvU~
z3Zt^<P-u?phG)kv@cWW*H0FH7QPB@I`q;|$&g6U8)f7mdDZBVsbSAo_Ik4H{KBV%4
z(p}YsXtPm+3x4*dL#qvJ%sGVH^<7ypb0ti^L|~Pra5O%(<+%QPp;)<qqpoe@_ql13
zL9lRyA5CY&&+ZI}2#0Z<BID0%Q@x@Vk2CCe%R*7uLat+)RuM*vPQv?*9`F%odQofw
zLlVUtFTMoF>w@7u-3t}HUrJXWmEpY8J}keQiE9V*(Nen*!)D%u*==PU`Y7iAmGA7n
zMm6JDO^W2_^8k4plX>&BB33UF9wZ+fzPdGp>4P$*1NArXN-+L6sh8m0#6Xlh{$%^(
zl<-SkGUm1Bi|~2+5<csE;3hKEYo&eCoFGfAPd$gCxBuYs$A+CY4nfE23iPiVi<%bk
z=WVy6{?*p3tL=;a1KUyQ)kDGW&zGFmjl?I>X=rWijt-$G(7o`yq|^H~j{X*YtqtGc
z{v-+`&P>FHd)k<N&P8}CdZ2I79Vm`y&zxIlWt$x1WQs9cW$NS3$Yd7DvVDohQm3#y
z+4FvVC7+HFvc7*}WKNTp$oB2<lx<I5D03|Ev^lL?C+j$(+`egkx$I4HAL;U@tFn=$
z#*#t(E16lu1KE@{Rx+DPE6KD?51D_DIkLiC%Vo<S^|8sG9wYnmR6!bYy;jy$u|_to
zs#3P!ev52jrIyUlR9klWPLOOs_k5Ysw<cMc%VL@8`em|4jc@jU(%ocMW}4DZ1ubbo
z)+Cu$fFwnqA1T$|>?re_K3%qWi-vUn_gC4|hZ|&H9ZF@E$zNm)-z4MKYMIN{2ASrG
z*3yx}GTGDMezJqQKC&+Z3uIr6J4lbJoMCq60lK#l0O~cx7}k0-I*YEm(i_34+|ije
z^PWn9S9@cc{VM50)I*U;|0Z?2+}YOK%oXE&PD=Xi&mi*sc4Xe#jWcSm&^+uE?&KH4
zYT;>29^Z>^W|m9MyKGS%riYzbr)}OidEoH(u~?8HTyy6HGfZ27BekDNy?YH6bAr9X
zJt;bibuwI;*$dux4@;9|52RH|mD2h^Cv-m^2Zb(yNXfn<EqBbqx<+e;@0^2)KVp%S
zydLM$J|W~+d;I=djkM$Kd3t1|U|CK??3rcI@N3OcYkjf%j}|sBjY01#I&j%L1qzoG
z8FR&t`?_kf_pHzGd(?sIW~Ufn{ZKeN1L<DWAB}=Bv)Hf}l~ZEiA-)T0am(#z-*DmV
zmJ`y}*!OVwSj4!;z1Y_K9FxC9(>l2oqxU$n!<kw(_4mQ)ufN3k(TMjWTHA+(?}WCx
z2WR&Xb7I?jnB4jRM-9(H&v_<@Io+C_Z_VJ0CyQ9sa|R#gi~jy_Ge+j@$2NaA{MA{@
zbdi-BFYc~cTVpura&LLN(HEpa^X+&fWD))T%%)-DJ4{m7qlK!RMGrpU%41(z)OHbb
z!7GR#Rf_ADVR(c+2)WdRu?C)^BkI9pbzbZjHcIr-y76`AB%Et(ptH_<#A+4r-Bx2>
zsyl(#--EfT^gMpq{6mVxW&4XMTj@P|BHC5-7P}KOd5!9RX!@zhYf#B&U7JL&JsTNf
z7XEFXHx~4@XI8y6+ZvbK)vdRuWuFIZQ1<2b!zoO1w&M05;tf>xSc<UufZGjvw6WXI
zuN%|2NStGarrY^I{2Te6xCQZ=EnFCJj2GQrLht7__FXuVAKQyPV0ju0)nlo7--g=`
zn{fZ0vq;&tmpg1mv&O)NQ)8!5Wotjao&ONcDQ#HY;VRNH;#e{D9W~u=q26GeIQu5?
zc#nQO>8rvr&()kA;lW1+={#b!2lrL>!Fcyq>1DtIC@IB4(=*-n--Z`3RhWg2-plB4
zqbm*C8PmspBH!KYONUvrd7x-I<r{POe2j4Q1l8g7sc>8lHnTY@W^fKCYtc1WpLx1p
z@yo(PxOPHOF+`bjW(y}!`ysUZZ!do9C8K|Ui|E07ql@P_O!EDXs6oo~{cOm^)3#y3
zY&#CtDdxLCbuJwyy5AYvoD~qooq8F_zc-848L5m?)uhh$1{jVq;lN&5bnIk6`MUj>
zI@FqWLqw;@<t_fRuE6<L<p|uc2A_AGM!c&jW`*}=Y(&0vr2H=ytn7^swJwkX$78MF
zN<UqBQfe8dXQw{r2>zQoQ%V;;sl#K-aY(o|6niMJwwD(7?Gb&gy4TYFE`r}y^G}L5
z7w?M?Ztyr`VAr!L3hK76v3>VX<SU<r@8=!R@?C@)+hW;@#5$>Jj1L-p=Rq&_1UhGm
z9qZ0a7+r3QHyu4tn0go1gI}Op<ag(6{~_jV@1cAmNV={t0S0R=I3LdudQuBU+B?xl
z;U=^@+92V`PPjhIM$VrE)a3i)h52Hvj52{z=Qs@1>c+3X^o4KMngi;dz~zjbo+2;3
zT=XMm4RXiQ*h%zL^~9&|4LD{}fU+dPZd%m^&qrRjT{6g=6IZ87Pi}9+Ho@B7D_3H~
z647y4;7sM{hcN8b2N9>E`O|wKE@_=Y(5EOYHtB4eH}W8!7>IjLYHzxVd#z)FDv>W(
zG~Nc1`{6X)RLy}_*OQ1T^WdI+$At5-2y>UDphj?64UTrB*8QLGf9;Q*g?)H@%0Sj;
zUYGhmyMVM8lbAJn7;V-Zz};AFt`=R9&v{AsHt7vU>OK`7!;7#_|B7eH!f~XOh43MY
z^lU}i<@RL9k0ZHW|1mO36uDu^82BoP`{$t__&7+3ZG4nC(BljKI;pbX{XG0Gs)vtW
zy4{CGrW~_(kJPp9E522qW5v7_*n~y$?6wuGZ&*QXt#{J7^acFzW(K^Ms!*X-5t4!o
zY@VJxg)S+p=%cbwbkB#frB;_O_x`}6VpS~3-T|i-+N>^+v!lxnHn!V>*>hSmC^rdR
zcGx5Iz3Ani9ZVhN>$sUXlg$B>xlwdM)~g5)e8Lni^DlybtLwslwi|DEccbe!k+sPl
z!FKt={Z=P_FXo5CsCxtI+~#6pv@s1G=5n8T1O_UeL{UhfaN7=o{yin+p12FMeDQZw
zS0U!@2_*Xk!tKZ_6j!y!^*LuTb$2U!CCm2wY;{ih^}v?F%~?E}{6ae2X&UQh8S>wR
zW!xOnAf*=xXVe}UY!%PJs%Z~Ay?@#2Hm*W#m@WGo97AbUGi+A-!ND{b9h@IaBP{H2
zY-ueHuGL^c_rdHKD00Ko%Aq%YF-|`_C8?k6%hM(LtXN=<cY@n|zWqzQdHO~=xPJ}G
zH7+4k(HH;jHDc4D%aZj^9j;a13p-<VmY%&N*!FATG0g$9bq2%oM^}+ae+!Lgo!DC3
z^Ruo8voO|x6Y|;+dVM%;O93^?)ObX=)^{$Pjy>_F%w2p0!(K$=ebyPg3No?pZb?3H
zx-1=%X)x|-1}_U9^TF&oHaG2JFBkExTI0@{cWyCJ__gnz`-bDaTF~}IiCq`bp?L6g
zCb{|~KaRbJh~y$(-_U^6z{yy#RB&C?!WnUB5l2s5#szx9qk2wG7mb5>U9<wN$BDUZ
z(jO>xeGiL)+qfjdQ9k3{M@a>)Jlbt6OS^g#6Q3jaknn5V93)&ZH_>@QG>3_NMd8Mq
zaP=!j>beX(^tps3-9>iy!VKQav}7B-MLf5=7*(}eV&}C|aEHdQF7XvAN`B%({ZqJi
z6CABwf}3jm9myAJV13`v?&5VbZhRggsb}jkxF(LN{jMPV%vjn_ieSC3;M09*hbxLj
zOuMretNJ!$K-pK+H7~UdDK5mISKfTQCW2pn>kALF8OPQ=hW~XP1R925<XCNfE$zX6
zTG4dw94@|VUD@&RcIc-2VZq^LTwY+n&b^Kzqpc_J-`yg(JJr&*Y!m)2iC~V%e#IV+
zK<M=&NDOJlljK_5U$KJoE}n+Xl1g+BPQ-{>1$tdrhYr1TnfEk^q0^4T^T}n5)OrDn
zUFk?!+aE6;28-ESKbXFm&(lMLkXI{VRM`dWnHq`O<W<;gGS_}azmxF(t%2*AmvQjK
z8m`grf;O)MId`Koo3^>~+=v7mKOkehRS(gV+J)H(BA@y4rQP)0pXhMSmAX#*;n2^J
zo^hK|v*#R!8+%H}D|_Rw_EtoSedd|U2y9fZMnC=ENSwY5;re5tbIggWesAJG_f43f
zO(qr;K~c>A3KZ1Dyw91754K^Q)mAi2TY~xSmOMM-DBk=%hV(B^{3-r@JC|fb%Wx!m
zGXnXmA46Yosw<xEWp(*3#@Nr{A+fi2mTY*Vos#_1zT^1S{R7iSC~?iCQS3C`obwNR
zFg#bV+>>A1U3|WWnbZ3T&SgJ-U%8K-mpwU5O|ax%f27HQ0Q#P+Li;b><lieAQMW|S
zU*}CYV12k<XrYX~u4Zzim}LwM+fAK<jl5{(!0g$n($G=4NQw~I!zvS2Pt0b+-O+Tn
zn@a867Wggf$M!GwvG8#|KdL^2VnqSf8fvKBFcEWyxbnW}zpu5q!NKAUt$H(*C+_5M
zTVL_+J-(h^&vvqdd<l~ZwsNVM3!FP`N8Ni7y!PQ4pI&f7k4r&FSFwQmSK|AB+ITcz
zu*hEvu6@N~w1h{CJ-{|x+Zctjv31hr)=#nFaG~v;gm;+PcB^1(+Ons;7lRsaNH+$m
zF?DVuj0}t!DQGcuuSFnk{}fz39*r}ZqE|oL*T&uLq@*<HEE;YJPvVO(tX(-#_yM&L
zaL^P5I-T&@?i99}+=TP9$^0*350-1M$NF$f%x}q&Y&I6*#+4oTYyL<&b3Yp$HxHqI
zeTfw4ordg=@%VGd1FFJ}SJC0DH2A_!<Yl<R=&mM}9fu%Ikw`9Vk@V~B;Jog&;FyKN
ze|oss`E7+#p(d?DmH2AWBN*H%LP9?aKKUvBgGHmcX1*z+_C>?;#472UN+(orTn?ux
zy=))9J|yn9Dp2WU!d^44!Y$_*&SdEe2K;@r576Kwk=@r3j0M#iB3j%Twafa!q2irQ
z(uh<HbIipA;W9dqn~4GIyKu}P1MGIm!rYn^46W!yXO{p3Zk~lTdD@7)YJ;BYz2OwK
z1Mfx&XVt^gD41*|ItYqvJ3Wyx-np17xHD$m9|-1}E$irkbc+@o&h+5Bb)`rgFZ#1i
zr(jbtg0BabAiZHc>?0my#*ble$UXr-!M(Npsm@0tFF4?e1GiYMN1aYQ+YRajrA8MX
z?|KA<;?GeXeFUY+zp?RjPkcySVfUqjikM$Lk+!~TzzxxVb!y2)Y}0n0G>sD7z6#u2
zI!^dcD_GNeDa>Y^!+4)_$lo^6ZmVxw-u$>oINg1DGtHcSz1nc0OyqnDJ*9(gy%8vK
z6}g|TL2ByHP7!x-sLYUF)91oE@FLo}4B-n`!3Or73r(ZxT&pDJ^TrBr-z7NKtM*ZC
z@E}h1nS)bD6ezoH&Z*y{1Z%eg?{DkHcDA3OFsl&@!X80eb0(~lb-CU>o-QA)nIDwT
z=&UMc&e+Gn1+&;`^KFr<Izi*V>T=Uu6%I~p%YK}L)Wg-#4Sb6|O)qSn%?0x@wN_-@
zuCXjCgfAwB^O;&UuaAylcFB1z-dM$;ojUTQ&6nVu*@p$jKk?~iUmNpOkyqFuvQ}aS
zI{oD&dJV|uykWnP+OnJ;d()}zoy4AEU!-RA6hVSfl`P)mMbk>5X+4YkZ_c5?pzRF%
z@C6S9x7DlONWMyC3$+JFa#XE9n-qU?eM2i2DqZBQ#qH!vj5g5nhXZr|OQioRefd3~
zXdV~u;yrKoadOY@-0d`+J>1%Gg<BL|zI0)eiw>)gne$Nc6;3VthRd%bSUY??@=C-R
zx26)V&oUw8Tj&=y$6ifMVr9iy>D!rCP#0{;6^kX#^0-Ai(K9YKYQgGN6X|^M9rwF$
zhPUHC{G9$C*^?gG>Bc7GVbTJ+4lHDN<U810DdoTECHQJ)4~I^wH0r*QS2lVxVE7iU
zdFRNc*-nf(bp*a<v*9~EoE@&U<J?bQp<k82H@zi!bIns}?9`!r(P1|IR;}aq$cI?*
zp{L+aj$-tWU&tE0l{5Qv<h(2AF;2AxQ`$yh(z|MypMHf2UuUu3$sf|Y-V^ZaL8esD
zuQjf3FOl@m%|=>lf9cP%UTD6ZD&<6FN$J&Nq)oeTNb?IqrG9q(ZOi+%gY~atvRl)#
zr0pU8NY@Y^t{=XbsV};aZPTPK2eYKm#$+6v?<K9Al_Y&xbWf_i{nqyO&y!Mpjytx^
zS%a#yt5WEjUU)Ncw`B75qHLyYlC*cvP3gR2Yb@$%gD$&^r4_Apu==vUWOHJIv`ch+
z2XA>QdETEaHHbH(d%F!7b>y*Z-BfMdKIetai#wsdag?;ULy_d%t1FZb$4SqoYYSe<
zc1c&3AmynDhh|8Eq@yi3&e6Hj!_Gr6N9_cLuC2x@_uDw6kt;qGUU=GhGe0CvLtc_A
z%^lWbUw|wAo@m1*eJ0?J@Na64@v?vNz6Qe&U6c|M0?@QJl{2nRL4KPg*7WO5LvJ&F
z6`t#n36^};>Y;S-d<o3jW#f~(jm?a6c^FVTipOHQu}p9=`rC_KWc+T7OzbVa$=HAx
zDH-;~L;3Ky8T&=9#L|K$1fCv`&hCov)>uHBx$Wp{I2Ajx*V9!;pN3N_rHqb2P^s%I
z*cg}5-!=)U?PFoK(vY|H-r{{r33hr3KS0mD7%|BUM^k6wSO-P)Nx1`yjnf!+PDT~Y
z1uQ!L3-!H)lPhUHTyF@c$-Lco-D^CHGotYMRua^`nlUJ%L~ti%SlzzX&ay<E)kjmM
zjyq1{#GwP+<a8dFUxo2n%NANS^=9W!hVXBn%DqlwV6p!{INT~kWn^pH&9mxY-rb*D
zTJ7cukAB>C+JT?NSz*?Hsx(bxJq@~bqP8?qxX@R#Pq}cPHfnO;CU4v{9*eRkv2<ST
zMBR@07$LqF>S<v-lpi7W==>gkNABXO3O(NGUkI0;8XRTTmG1=q<jL$#G`-Q9x4dq_
zWyvwzO;X{z9;30Rhap{!wy^ZC2`=V0Vs&ho;D3i;=Cc8KJT3?4FI8iv-%UIYc_LY?
zwZxT`*<#P2jl{Pfq=)v$ZS$w3VE@!V(ho&(7q=F?0<AbGU%Z2UU3bBE)K#1oXZ{|s
zf1an)0p%lx;h=&NHv2i*8kH@>px{8<UK@+LH*4Wl+lE`)R7v05UD0cD2wo;Pqq9Ku
zDgPObtL5*c!uh@NT1^RGKJ~=yY~hwWVvj$&u1VE{j^UyAWU4ROi1~*r;kh{sj$7-n
zd7%wdMJ`=yi6Xnq9)g7GO?X>z7+tmNP@1s-r`o)cu6XUis{K}Qx)+1t9j&+{{Q_fO
z2Mb@)LU!?-#smHzdAP@9)Q@Xmm-gi_ig^R~-mB0p`xNTi-^Rwp8Fn)#mZHC^0{Vw$
z<MOCo+@$SF^^Ln|@NEItwHrpu5&N0%Y%IT#DRyMm8_=VNBU5C`c0z~8*!6R%URTd)
zf=@QN=Q@!i)8oIf{V{J<7UhQTU>et*-pl&YK2*G8M%=^P*E7(1L^UpN+)h{H)%^6P
z5e=>jL~i5=l~M((WTVI~+=^i5$`Y|FQG`-Y57AmZLWkm+^mDOcMrYA)96O(Ch4wrw
z_z4z=ujBL6&P+5}EI5Z_`8dCoyp2{PyPo|@<D(hWELbRSZd(W3(3EG!R^eRW7+UBH
z{>$GdIBXJwiWnt3FTpR*^z*{|OlP_@o~A$ZX?N2^Ug`LZ;Uh=#mV7sJK1Rr!hNYlV
zqbE<f3%6Bzrp<AeU~U<3h^G&|;;fhyuAs5}?<jjNm}-VC>sIs6;#k&Cp3L3b%*n^f
zJQ6sG6`w@cV1y2xTR-K;&SzPs*o)>Z8#(rXgWPX&4X(-yIp@O*CK!KYKV1*uw>ZrW
zZeQuLz7HD=ayU6GkKbx^<Xdj;<1kyn-M8}N7>)7#od1*KyA{Jb^*DcwUc@Et3%K&J
z0dptk(fr4D+*=z(zizWJ;=(&*RY_<sFNC2(2ChvBwW;1e7&pb<+;U7Mk~2ldDBp&G
zKVtb~h#O~?f5iHI8)!C5L$0#sv}AZicn&`q3O01Q<-s4{kz(`(zMjHK&}6`N9kO|K
ztmyjG&cRXr4Ls#)#2!0tLA{5_mjv&_`2WITIHe={-H@QTVHwqZ|A_92U_9+_MIEyX
zG;+#El$9NuP4t+S7|BD~sZ!HRE9MLk9*4JI@WR`UU4~BNmks^+GUFivirZpxW+ke2
z7UJr)Pl#+=FP)jY2&^!{_WPQ6F1S5Lvn<gn+7Hj(tjF~ZF_KfmL8;%F&eE{i+oeA*
zlO>OeU|TD}?XA?<BW-)Q1JjgTk+P&K`W8$>awh|<*New(HwP^Gyb~?w&q__ze<k;Y
zdnAv!%C<Z5EYMZbg~C`fwD@bHPqZie&ihLZV&|=BrH#2~HX+RVqEtLgIDyyflr#+L
zq<uL_($uy0q*Eh-jfa$>I3z-<a`zOxn%i(u>4IxJU2ylF72YYXfacrRlEy|0)OAfo
z#SwMvic%Clfial6BOdSGy_Z&94V9#SHmLjZTryqW4o_MvFy)x=X}rzB_#4G=UosJ!
zr#?g*wK}No6*=Rx%2?G+1>969E&B0AIv!$xDTm{2Kb(q(+m&+3#{DMZ<R8&}{2Y{R
z{DOzGcf)><27mWxz=}2<7!qrN#tZ$iV`V#d#Om4Jdo&;6Cnw@ZaDw1=CLs6eIv8Dg
zA}zXl44zsZm@2Z5Q;LTmsIChtmRN}Ff1TvrzgfbCWyl|N1lw1N3Hv~OwARl=pt>$E
zWu+iRo{0KE5lGqb2I}K<G4I_3EIx0_X0>?uwn@aZpu^axV9$v<t8p#wz4U8en(!>F
zgXyzH2oKTarvqpC$LJds8g_HE;P0P_`op7Y`s{M;Cu_y*^S%BOrnr@%CR3LNpB)*O
z6K&(;co&}L|Ip#USg|{Q&NXc!*?c6EhqH!ox7%hOkLWEgh%=XWxEzFO7sB!6SQKMS
zCiM-^0C(s+@n*La&KH^6N3CbD<8V`+z7|B+qEgnox^jfSDp&RH%gHav9MOF^)EI`I
zk1V-&Sw1&4Ut(yyU_y!erK3R%d)LpQ>%4(n-n4}WO|LRv@GG8=UCa6+TlxBp8yPTp
zJ71|qaOBb6@>=&z{Hhm(eoK8AJE{qX@&g%M+KJf?M|nnk_Z0$$^SkKSXD-j?n7dYR
z?U=*+wHf$gRfcb~hT{2_8<?{FHzHm4*`2?ehilF)Qir!mc%vJ{)}nJiJlum5ZuFwv
z9Sg1q+DE&o-|2a?v*>LP!=ly_{dI5Ke*fB)rccImQ^Il94z*?O1Br`oh(7$dUU+PB
zkf+1T(C_L8ydK|$ttyOpcT*9vk~~n6p8|!%Wvs0l$dW5{_**lG^^XF1$~Y1h6?d`0
zb~Zl@PhsweZ_<yNKFl~9N1PI!&u^mRsb|HJM|$u<jE2Y+nFxp0X@mr+FvQ7$y+mfE
z_RvR8)5~JJU8%e&=1OrtUeI`5ivUWUXHWnA7~IQ?ZbQ#v`=5@SJtqMX?<AXQrTzF^
z7=w&;HncAgJ<CfWG}@{x?@)7uXB~edW3US|ESJh7tDR83`2@@~ofy@%ztw?;?wsy2
zpZ?`P*d}j2RU>WWqoP#koYetyvf?@PTdH6p+VK0Q9)b;%inqIZh&SIZ9EyxX$dfXL
z93@Ar|BJK&6Y39jlqUo{#QP5=Tvk6ua7&Le-2RBPq&$I5|E2Kc!<TqkyOu8b2l>&#
zgYH*k4EZkzU8LFEu)Q5$-`UBGFTLp6BZ^P`lK4}10tai)r9r&4{LYu<IH&ST+ygV=
z)%F`qZdRkv><B`9L$TC!qV4$V9QeiA;<$7N`j_@|O-)b!^*SyX_;c9NbuN!M<Wjy$
zU;eD9E1FAFFx99VW6T_Fnv5jccemr9a&Ovh-psRqr?A(x)~wlH2gePgcuHAho>v?4
z)#&zAcp@B|qZ$y|(^cfX+VIHyC<X>y<iOl&d@T|)dbK&6aIXXtM(;(JR<U&3U&K@W
z&r1V?hA=Vi3OiXjvE_z6hl-zHwefXMYxHH~tz)RXY07_d+VWj+px|72i%ye=m|xp+
zW*5;jZhC`D>ANVus)m&=#Y|HP#s;;v%vN}WpF0F|U0=A?8$a1yZ|A}p{{>5JMt;R#
zrA{<B)t9#Q%Is;qh}T}Xqr$ppI2^W}IXZLEV*Ln(VU-xNWP#n2m@ByL>BuoJuHpRG
zw(Ki7*mI4AC#oP>>gQ|5K@WC7+IJS3twz&p!8Ig|ypGqAjmVq16`sNye!EJChx?Ua
z!?#UT{#}O~4KJhtPs0%$oyqI>VyHep5M37a<J0KABB$uZn90Juv&Dfk9{1+U;cXfA
zy9i57?%?+$(Pi}8$&>4gWhc}}NzLAxQvWe_BBz}tyD80*9{3)SDY{RUo)5E<)hs?O
zoBjH={R8DB*~If<vJC@1Sogh<BfHzJ+<w8=64|j;kenafm&N#Xl{P80$eOiFW&I~f
zQr_SQX?K2v?6dE3+30?IWg|xY>3h0;k*wpH*3$T8)iS-v3YqfcgEEgnyJd0r(quQ=
zDoTAK_sdFC%4I_a)XVNGE|%RaStpDA?JDyflP7zyKuh|PpegmT?JGMk{@ydSUt}8x
zgvyR|St&bzs*ChR*-V;Yx6R%z=b3Cm^BSosq^-2G<4~!~ZByy->E%-6$m_D;W_#J<
z_R7+k;&ZZp1&~}X^}(K3m(Vn6JI);yJp6DQv~-KZM!jMTIbMa_ku{Q=fjU+k+bkK$
z^kI<kRC3#qY}>wbFj|K`l?H}C!=3=)44xN-MOX6>G&BN-2Iga5Rs{aD>df*+B|O+5
z;(Z=%FmsckZBA-94)$M-3xf}!)M24;0JY#_;TdU^w*$VK?!w<Yk6?Da1KO1iz%SE>
zQuV@47(DcmbbD?abl$ZCp4WQdz0Ec0ZBrbgZx7)Fg$?-Ft_T%(#7uZzEmU*Wg+nI=
z<Ldt)>WwuP`Yp#gk;zMWUJ5J6iO`O?EbVR^2aE5@Sa5qI9LKb0<Rk_84y6M;oSMVJ
zHOqJ?=P$>bDX@9(4dDUVhquE9@P*1r^fGD1#lls2qML<nbNnF$jSEJ~Jp-!R?&hP3
z+XX{gNp6{w%Vj5Z1@CSvU#l#V_deMVug{mlOldG%E)BLy&9>n6i~hVn{Tm|_mec*c
znLKhwdsglhxzdZVOiYZXjf)!#tX=4^;<(6`>M^lh3^v?}Lvcej6->s`JoF{p97l0h
zHRJ~`T*BAoX}l%+jW5TX<)xNJ>G1Gy_ANicwO54G?DA?R4&6niY2KV`-jAv=F=#b?
zByDRAnOqdcy_t^~dFvCOM_=Pv(_5S^c6L)&+RIy9DzRzlV)=^i)5%S<X<N06ezu;R
zUG2{NQ#<U<{BpT&cRPH4IFAa#le_oNQhu$uLi4H5cq5^ZU(8o=yQ_gbbovL;9ag1h
zw;0a-+|9nsIFx%WkFvGKWu{%NV6T#ujK4gE+4aLPEAcZADzsvkD?xl+_?7bx_;K=p
zacrD9fo`3?Vx^jn{QIp8>RhvD`aTtTOzA3aa4trdx3BRa?KFp9>MkD<Rw^7d>D-)9
z&C67m&n^w+>y<@h>{zZ2n9H7Rn~_~Xem6?vDBr8>Wq1^8raRDKgJ75Ev}101CEnKQ
zv)AuwT>r^kxZ&e4ra2DXduw6f{Sd)?-6C=_K6Xu?`_ipp3$6!jq*rbqy1I#-?nze$
zsH(7}yEn5|Xmb0gFnWk{yK&45bbYx9k3W8}9bhUt`6HCMW}fJLR{h1OB~J7lIsnhF
zeT4bJ`*0ES{vy3R#BR6-GvQ8EO1Ow?zZS!yya@VV^tmza3I=ueN5(tBYPeTRi-F4A
ztYgMIVLj=#XbAiFx`aV5J8+kBAYblo#EajpxVzMVQ~#~tuM5xNeSR&>vqcx{SvAa_
zDDt_@7IdF;3R_2XU`M|*SUUAIQd$dtr>6z(++V`fQ-&Dpunyakr(p1asrXRU0UPU2
z+B6QaN1WwHX<#28m^2CQfK?=P3j4Dv<RZF#d5v-UGR}X#nxj|Tkbcg2BTb)`3RBH?
z)<3((!SIn_{|F9ug_(Hcv<t?s_YtUE6bIc?d1%_!AFDTpK(%!|qFd~+`g2F5IvL>L
zx<I_D>_*k_{>%<^hF97DcL)bzY95EF`wazuBOh;mnJ}qJS$fgD2lmY~Ii~C}Z1oRf
z%U-c3wI0JG`bQD=;j<KznuXV2!Vpj*IET(#kTSdv&pqA1p}T~Evq+cfyVr5};B>eo
zg|f(EAZG5mgYxBeShHdWK3$7N)xIcedEjv9#c#q`asM})GMo3`E3hWXM07YshhpzX
z=mzX!r{%dk;i!Vjs|u)ydyFUDA}r=zE63=4BHQuAnugV1@ly09%+mJ2(zHFJvgI^0
zxPYE+!nG>;jahcP5EG>)-U;1c_*h(=Z<z4bB~PAQ79kv&m!LFE+{a^IV$JXzY)ra|
z*{i1T(WM^Jk%UHUxKYZqHlH!lMT^Zg`kd>V&*wwG!*RkF$$#2=7$(of&keUQzEddk
zXCCI&-N|Aeu%AZ9w+J?~x_s8`iLmM0Rz7fD4m7gKsp$svx+L}-{c|9XKVbLhl@ssQ
ztD>#oz>b+F_?V8tycH|hgvSzj=nPq*w33ehiTh8`Hauvr$)5_E95?NNou!@)SHIuF
znLTYd|I;#N-(Eof0Ua1$?t;Mkn^~Jvg<)m7Z2CBahUe{>8z|hfdM^+W^#ENw;yB(p
znX)$O{P!l2o*4^xcJVsFC#yq+;v04ucZVLwqfj_Mj@R}aq{HqxG`}o<@3X?VpsbwM
zzgN)vf-*<0Ys>aibeNa@m43pNxT4i6E*vM(Q9Yd5Qd<_6WO1}#UkpE5&WAe+5EtK-
zRi&+YM)n3*A$||bI@!Z$ExX9FB=?&tbO{{9HQn48eb$_31zYNkqb09=d5Gkx*)-V_
zg#vSJwpn@=!!8W4t1nfc^+nNJ(|L>0(W)XhDY(70x#-&Qj5P0!36sCyfI-qrl=uWQ
zP3<0>pMS%(CPhB;J%wII!g+Y7J5R3oj+O`U{4xDE#*M3&a+dCgbK@Plzur%U&w^#P
zc{HzIa-(V8RvH=hpx>#n{J77RccYBCsQq<x6#bz96(cre=5f~(W%@P#N1YwVsP_CQ
zJs0_NU6!g`^OFjlY=mEVL_TJg318ru7Tk*LK+D!?c<bB7c0qL|lE!XFu$C)7Tc`76
z>o{)c(NR95@jSC##U9pS08356<=^XlF#h{XL|cyHi0CA%;;zEG=)Hq^tCi$0XKta>
z(ZTYC>T0atqK5kSf<e{lC__t}d33TRO#^dq(tQw*FFg#$x=MWBaFI^^XY$-dO|IJS
zD7u~#<?>#SutohElh%i_QlW&-6K+d|Mf-Rm{U~ijS2^)cB=4TgrkiUda|TXi-$w_~
z(KJ|mE4zz*K^1LRkKyRJJrqTG)(8iVuF+P$ap)=k<g^oK?!M<Dik-M;Pr=m?d-IY!
zeEv2cznb%H_dfp(i_sP+)#=S=10#epEtuK9IV`nWMAP~n+^v<svGqOVsh6k1x3V1_
z8^2=Datqr_RlT|3)*@cNJC@!mGiWv{nip-2xoJkOa2xjH(I0o<IZBg$GgWwhhq*Y1
zI<m({;VSR)3y;%6dD%Ok{r@O&l&3S3`X-6@@(y&|q`~<|PV)ZKb3E-c1cimG*=u$I
zn}!RofZ8f%+)t;^NnLsF*m!nsY0Huowrp$BhFuG5xub^><?Xxi<V!<NPcY=2;nB$T
z2xp(?X*gwYn1`4CMDU~?Ncm>Q_wnNH9Ptjb?K;_)-qqvU$8E7Z@De(O?WA7oXiPb?
ziRRwIH``$)yU%Pyz#`!f4~c@d=N=@xC<;cwFuPFA_Pq30k(vLL8M<;X8*Af{Wqb~*
z-8P|>;8NBKPmH<GFUZp8GCJ%e76^~-<CxR9Em)QKltiUHeYhzk0FMp_GT9^)0U|4>
zF~<vaifP#IvYsyj$6?B$6m-mTr`Clas^q+b;x&kw<|};85qz72J#ks^Z@vw)WI|F;
z+HKcnALTf{QfMVl>>0+pw_`bJS!emjrf!^(YAm;Md?NOSQ-p`<8%p|{^PqVr%5U$o
zd33P@r~DGLpYE&J$x>DRe8w7n8}Np<=jQX7`$-m_G?$w+xX3?z+XL5&1t=8rxXS!3
zeLEYuG4t<OYW$4k+T}@nv7|4{g3Z`h^c52OC-G8uGE${CyJ-&OOa-www9kf8<VBPl
ziOkIX>pZ3VmV-|j@W*#w@on_s5@T;J5$8Zo*aAjudq*#i8&cZG^>lhHeylNj`Cni-
z6ISi#^%i@%|IQG`Y}$<z*JF6)K`-i7hj8qOIV`jE;!?xztXbp5!%^)R`zwGZ`#li6
zeJex6d3W(wSFY2$0v4Rcg_E;z(mUF&hv*%vR+ULAS)Z__M>9%J2;Rb!ZlZr7GC1E#
zaH0A<qGPK$!#^IQlseL-eK9^9E3$R-KLx4XGP)bIp!2DtXx~lZnxI%*GB1@BuUy5@
z8&@%S(lb~bpTyTMFW`DxHTpJQMTKbt2J}_r@n`?xteBm(S-*%WXC|=KtZ&lZov+Yk
z%4<G56vP6T4EPUq=G3zew4UCE_x=dZX^a(be+c50)NU*+{tmV2%A94S#iq}t%w4|;
zj_Nwh6`p&|Pfu}9{}A-9=&-_3he!T(qOSK4bnX$2?>TQJr8pY|Ylwe8C2j4_sWgi-
z$xysgdeAvrfmd`M{*R*b48-#N;y7iG5J`w^vU%=v&h;d#v`ZxoX((w@G!zXhk`a-W
z$jEMx(NYp6l|)0d2O>rFYmfi^f8nJ!9?yNB>s;UO=K}(fv1svZ2s~Gf!JkJeVNf#^
z>GCu<`Idhs`>H|2rbz3)AEzOpo9|MaHUX`vgBkm#;n`&)_<NTl5c4ezRQxP(vi%{L
z&3j*MOO>IE_^!926BxQjK)}lX;NRvXP%DvzIf*Jbke<nVK1!i%**AFX{1M)5Q^p(J
z`#^2iD75A0FT+0GBg~x!-JBv=dfXV-4PJ)to9tj+<x7a&oC0VhhdJ~VcC^}|=7q!P
zd0hiLyiHKOP=xOD@9i0@pJKe_F{q8X122z1g2tVdV0GajoLe1e{q;mCL?-Nj54Hcm
z$Eg8(XAVcpxo1!#$pRI}?m)B5JS?k!kL@?6!^NoWFc>`w6{qN0pS(H>X9>;GmH%JS
zdLM|E4+i1IL!KEw<sTGUOJS#50?c?Kh6<~`K*y_M5aXGQ_ZG&(SW{`tf1Qj`$7`|w
z=ou(DI299i>L4d0!ux#lA(qcz{&Y%3H_=kA(MS{<%CDoUJnx;%)x-T`z3`FMO;m5u
z<2}#wpxV?3)kaBR$E9WH;3I~ie6KKX<8%b?g*ZoM6!yH>gqrIv;9ML29>DlF>{R~)
z_wu8`u;&L<OnV9EFW#{EX_|tIem;Y2`CItpWdfd9yd1~*<f7Emg*fa|8?Icl3TIU}
z;d^N%^c&-ho`tpGd3U}|$R0P`f7=bswAN!%%N%SEOvVRKvte$?EPQubAM37HV$B17
z2IV{L`H`}?!Nm+$tb7QzRfhQN@qSb*FvW2^%X~sX0V)R>QOwRwC}OxD2e<J1&sPcf
zq*;JY$s16c_djn=5n^!8WOOOtj%R+{MHOQ^?0RtzvJdaZ&Rz~9yZC*l*G~v*79nZX
zGx&1eDNIV(h}X|bk>$l7;3@qC6}O%NkL62o<l<VWJ*AEQyYnDV%E>AxErsuD9*4n3
zYuqlCg`dl!aPz<jx*l{6wcO-!$9-><7#&6qFDAng`%929ZYD~fm~Sy(#|3TQu13+n
zG8FhN1jo#=qJ{jftEN~F0^jhyEb|liX%9o`A`@J1Sqx^A#-a0r1hAQW3}PEwajVH(
z6dNUm;%cV2am7@UI@t@(GM91V<y9Ec-+;S%&T^EJj!H4rs30zb7Y(CO@V*Kk`-EU;
zo)9&y<H4z93HH5F!pR#B;}+F8?!5H|7@-vn?*uL|=es4i2DHJvzy!|iP&H)O6>;4G
zotz^Ta4Fs8oa-fJPG2|2>fLWAPCaQmXV6v2Es0M6xgvdV-kt|buS|lbC-R{0z;g<_
zByjHa=Yn=R&i&Ln$=%NnwMsf@17_kzkl&vT@xLA5*)*QtcQ2Q7uyo@Nf0u`UX%dj}
zSPse}8#wtpJGjv0S2(2unq0x^i`;^W4KVoPARJzj$ldJw!*!1<2i?QfoNtf|tZ*>}
zr(==ew(_9B(@hUP+ns@mll9z|GFR~Pj(~8>5-8qj235L~xy%|_SPLy&ampn4^+1Eq
z5vAg#9adPi$`-{A4uHssGdS+mS5Ae`W}N$Q1vYi3!Pc#buyj`mw8`?`=~)kLwvLy;
zYkrAbuzoV!{y7^1Ous+~Ki8@*bHLLR<*@kGD7-VS0UK&2z#cDSP}#1DlXE?7R0DKz
z{%lR$2ASBCtAn;l3b@Jo4wy$~b0_Y^;UcM>a8gYHZ%6apE1zZv;2AOPUqWDxQ#jv4
z3q?;~Rs5q^0a3rEU`)In`iWaWP<IY&+^B(G-SOz8ED78ZaSZct!#IOAICjBPNYPTj
z<jC`I(`^uhS8YMzKqd@dt&InF@tHnvM~wB!!PmK|X!3RgR_+hPYf=h?mwceb|2;nD
ze^1#)0i!-wz>ACL!0bgO%pU1rGx@?fh<GRg-CoxrG&&9K`TkpOdOQ{vZ$~p5H{2AP
zjKc3av^PTsuFW_E=Q><?*1L$!#9~{NuwR0%kqK!0B^+zV`eWAXG1&Ja6s%6iV#LZS
zn6*qDgEyO^<OySp33>pAFSbG6s&|mGESdMrl<@A{8!(s>hzB({quGz6&^aj;_7r5|
zNW(@H-69J8S6z7CX&auIu@0vd8)M--hQ4Q$P&d>aCwwo2qwNFm(?Jp=EW^-x*Ge#s
zdIYX@b#QL`Vfb}*9aOy($LYf3@M@eGo)C0!o+cbvJgMbA`aI%Z&6EQDMK`TI70&>-
zXBhNN9D@1h^LZ~_0qoQ5hJ4*pn5}+|cf7<vv#lj6dlqnu*X{xNr{B2;3#VC2rl|7W
zd_F6%Egp2v@lIR0-w@Q_$=zOU0D9TH8$9U|v>NKc!ZRMAccq039zPuNxffhehXBHU
zu7rN4LU{A)8+Y5V7uxL2(KOc(l)DQd!S5kdj&FyT*AN==+F-lHUr;UafSU!gU{sYg
zpDk3y?|mB~=dK)F{&^7clhr}w*iA@Zz~@j6X5g|3V{yOiB>Y#?3hVAfV-XqRX8l+^
z?&}J@p}DZ2dp^AO`wlY_C&0m<vF6P&xv<{860*t);p5IYGz+@{PnJdFFc)(Se)}F)
z@b^j*K1~>Kc^=62W^ni4Dd31XeTJ(3y|A@)1#}c1LF>g{nCR<(X>UdG%C{j1*b<Ho
zcM~vn#al3X^8n&A&ho6P&Cowy4L)VufCHBg^IaG@oVN5iWXrhYZ?V&;y@*i5Z5!`3
zG=|7I#prw|l^fQY21z@-@W5Z5nWHU*66Ke$#^5J(sSU>kM?P|@QEgy4R0p@0@_mK{
z?_g8y08VL2#X7M#JbIAu_*0I5+C`up*N-CC8=>~H6dvxm3O7DWVfge!$avLZVe#e;
zysr?!yEnD4^N1K(Pt(Hm`|6azv#3N=*W$(O`#7b@or>g7!`9*<F8x_3n)gN<t^Cgh
zO`M)U$d#WMP~VQHwrAm9d2{@+FBu0W-9km{OIR$h#CMNu@mT3^=zn4jCH(GZ&!8vn
zY3{<cC(F=%8Sf1r#qT2{Mo`1zG;}YDL680|{CDvVo;dE#t>xL5%j#7qC_NbkTo8Ip
z;q%$@S1_S$25M9#g1z%TeEVW8N`1A$&j-waZ7@Sg<u-Wp?I~EUEQcC?M=^e}I`+KR
z$0sRLz-c%_ORX)G{cDBM>@c@Co>^Sr{b%nM<%90-&oF1LIBu{w16hmrVa>5|s6R3c
z^lzlWHSr>x_3SrizT+4t<nQ#Kt!pr_-E|&h&M8Cw#LcMTqJhFQE;!X77@GZCp~}P_
zjjko*WK};97wm_y_*kAPGXXxiz2WB0j^%qD{5)_r0Ya>5Ap7M%IIo(4KQ7#co`=5t
z&gwk(NRjUqoUY;=^h)4Y&}UHM`9u<<Zb22#<BJV00{=s0;Bxv5=X~fMl<}@y_oMxQ
z$|`Wnd<Cr8x*THdbs^105wa9gV65RJ*pSb=x>Dn~GjSc<*ood;x$`dWm`wvG5f)>;
z;`Jg>Z!G4T_C!H~<T|M3IlHO;8zHcAGAzhVg(qvqLAK^ecz<al=Qv9XvV~q;PPe3W
z?x-s6Uzr>DeZRvg4vv7x*WqxzX#-dM?=ENWlF6OCvl1R#oaH{$O2fuC?wmv4Ij(MR
z9QQJ*m6QJ7%`HB_An)i>?z`Agn78^Vto3}&m6S5D)s2Jxp-^aa`NkbM<_{DV4KY_`
z;b4*?Y)`()8Q-jdn_g1zeA6jTjDH@ihX(GmY77i3*bI9tTfvBq!eqYZWimJiOuer{
zCsjjRo&vUQ?cuH}5EQK|;BM{^g-06<pkFiB+TceEc-DvjH}D*;JGDT}-U4|1p#c8d
zQwE1TwJ?0|7FZW|7ly@Xz~(wvNVaX^w1??g|NA+E--X0L<j&C$s;~((jW5FCpt114
z#||QOCV^FFJv_WW8nW#tfYst$F2r609JD3j@7(F|XlpR|TOWhtA2K+x)OVnjV}zpS
z-q5p_&r<)ZfZ5YV;M6}0LF`a2xVkn&%-?+8GvNb1@jM%+;u}~W_J^jx*IeRNo{Kt>
z<2h~@Ktgy5!sI64$A!&M(j<XBa-|TwUJvc}x1rtA{V4Zs3CQFR!$=o-p3TU=uXzs5
zd*K+%C;2n5;a&wyFj<M!B~j@6vJ+n0TJUVnSbS4lg(GE;gJX<5mPB%RSm!Z!Bc~Ip
z3vEn%PG11^t2bea@fZ|l*x;PHAxJr_fL}9KqlMfW+_?TK?)Lu$;$EkrTelvJBEG;1
zsT3Gt{TlWQ_M?oP8NbWE4*CfpSaT&2N1H_A9*YW8R7Y5>SB?6PO)z<!B*>C6uJlpI
zN_)VcDk^9;ssh$osN%Sk5-u{<1qYt--pNkhYuU6L_Q~<Sy-#1EI%Eva8kY%Cag%Yz
zUrnBYvmSdBZNVxj7JQw}AzZ%~vZF0|4(n&LB-wcAyqN*xcO}5PxFslaCJoY0nxj^T
zDt2#e1$g!fGBtCNSNcHTyaQa8{UF@h9I2OJbPeY2S_?L^8<Ev(;e}RR%zV@g`%gcI
zMDWDU*ZdA8@G3;aWx+3pN{F2p42@bZx%^vkU=iqzO1qyysM}@mU1Eg!GGX{<jWTZT
z+=l=791CuV!a9XQF1%(s4BxMhc@yu#@TaX{GWHBgKP`bdVO?-QrHDKCsTlHaq(kGr
zN>CYb3e;y`!TOkGSWw}PMUjS>HnR!kE0<wx>H*B-&ybGlRUqfcd+fKXp!|yaoYx*{
z%iSNY!l{D___%UDw*0n3(+ETKavDKJqa$!?`&kg1X^%6O62)ws35scxA-zk8t+vW0
z9k+h)4!uZ7<h?I$uhMbY+IkdS&hP1t|AfRn;rK@39<GtU4wW@GVZP%49RIllE@~0P
zRY>8q_7GgnyH%}K46$>w16sK&Qd`qsFbd4Zq5&z$<(W+*4ZOHJ8&>1~$B{T{`DlEs
zIuGw(iN!6y0Kx1#^j&a=`#UVqtKuz`PuhWc-Yw9;GuX;j%H#J(6VdNpDkN!#@pr?{
zXs=m;CJ$G_=<x;c{m5yk58*jbldeLbT$#mZTM4`qyA7h8L~)hiDEeD3g4bpRC}*#Q
zEuX#c1^@SGx*dlW?v>Cz%Y&0$`5FFBkTf*BR|9UEA)wh3iLqZ3(7_`OyjR=cY7>3T
zGT4F@qh{kYi9tBQ_ba%od~dzl9-1F5hN2afFq9jK7T5W?LbeQ=dKU3sx>@)@c{WP7
zYGdm6Hg1gj1)Sa_$~)==;I}6XH`Ybthfl4bY&-)s*(0c-4p?6No%_1m2rnr91%>cS
zP&d94;znBF*|mPCrLTtBdAA@S<~*8`6l#c<<A*r`kk9XO-mM6Q+VmDUqHrF%{&`xz
zn(obaP{xDQH~#-Z;WAz*6T;dshS(yGdkutGqqG@4_0Hkko3lV<&I8W(jwSXy{A&Eg
z?*;$;kws(kwb&%Zb3^xCg1^zaxNe#>I)7M&ul5YW;D2>6I<Xkq9C%J)p)3^YJHWKc
z!>}>W9Zl}cz}sCtP(Sb;yp!Be&Cn9dEwr)i6u;Mfe+Yk$Ue0MvS`B?6#Tc{90GHd@
z;B#_BquCR2TbVkB*Di$@!&)Gv<2jspaTLU_#R;5MWVyI}an8oIQo#L66fBdS$0-E9
z71(bw;EblK3bOY23k+5r7Tg}cQPANwU2tjY2y=PMV!??;rh;sdYC%WBEG|<fLEz~q
z<Vu&l67XhTZi9~=XB{_#vsq#x@c(z&)=p`k;P1#^W{>)h3&y-yE?CyyC9o^)7RY_P
zBFJ?;BKT%}L~y)Uo`d&toa+=H!9E%(cycmD@TpB)&}}zbkoY-S@Mx<d*KB@Mpjxm@
zP#`rR5WZQ$c{mjdhI@%~@3+Ya-0h}wtE;^Pk0+)J2Afs64O#aEi~UOkZ5JfD%1Sw|
zTB%JCF|*lru&7G#X+^kTH9Qw^iL>B-S0((`E`;8l+u+BYDbVct1cG*@K)YWrlx#i6
zE&iwt1+uwZj&~*3WY^C<y;)`*IqERP{T$%b`}uu!TOzFG=YZwYAAq!SBIx)Oz!Twi
zco3q6VWL^w&Yz26api3ensu!ocgw&O-Mz4J+HMf3-ooEwKZi#7MlLwb4EA0A%Q;8f
zg?bBFDAQtab8ii|w(|q`wdXSDeNP+K*Ubd^)Og7DZRbuzUWXYPT6|Al4<zl5!nnPB
zf3Lg>+)Yg2vREaY5Wa!kc2i-#whi<tjReIlqUf}CKIHCr%LTUu@LBNDU^h?!DXLkp
zU!#KOz-&h!88@6_W{u}}-oZWpt;CO8(s4yh7_`KlfoGdip^f)&&D_$!J$HO<(e?Hg
z9G$^?M)#~l(ZQ7{qhp07rBZb73Gb~xdk#`toN%<23(Ze5g7#b?c>G~#)%MQVc9<H@
z+Y<)s*S*JaW74oVzZpB{wn6yK|DbbsJPz=k$>EP4!@Gj#VDh0ICdUNBKHinEV7vmq
zpNmH3!m|!dM&ryQ^Kqis7}AYW#oNQHQ0}%p+%@O@7KOXH;@$IcV0j!)8Z`z}0;ixv
zTOry%cE|HWVz~FdEBJo{WEWn+;cr_}e)(QBvn#-G-%6ZbaSy@I2BYdkXxcRwG!;0~
zpLhSksjPCa`zMDfd9Jv7@?^Z&QEz>L-{<A<o-Wl9qtU175B~Ri5b_q);OS!txbsdu
z&kYPip``<FrYr@oCP(Oy%S2Jm*u?PpJ~RdkG*H*2ZtXg3_&o`Sx(?&g3s!h3O_$2!
z`HVAKqvcXtj9jb9^CYi<JHG=Tns12Pel}sN(K=NB;lX#7_v0FeOuXQcfVv7*81&>m
z96QO;`N@8uo5atzqBk+vo9A234n>QO=lD8m2EGpEpU1T)fs50@et8=VTWrgJ27^#n
zJrnmeJK}ww>2<5;0}Q(zjcq5aF?K-$HXYmo4P8}WcAD>vZ(I$2zS$t7;ct@|$k0zT
z8VY9b!3oZD_+23XxqRP(-%i-#wT;Vhp35lok;+G{76J#MEYA`Tg3+4>t=lZ~V8kU`
zT=TsR^m4ueZeD{^?N@-?^%^Mn5(ZV09QtRL!`oL+;Ze_gNd1ut4}bZ<C$(D08|s4B
z?|9c|<_ZY>6p6-$mvO=K1~|+!0p?5b@3J?`aP^fY81-cVe!QQI_YVAm8lL@fjK9}6
zP%goQp8t4;PX=7_P{CZDhZA#X9XiXb;Lidjkkw-ZGc@zz{QDoAj$1k?J^cb7HOHdo
z)sI~G;BdGw;s~6Q@&cV5Q{c?uM5|HGC2;T7HE!AO?Qqty2S&t;gTsUmaB9aVnEX)z
z7xmh~kk?TVd$1k6LPl{{_#97V-T}QWCBCqIlP*-&@@J`CPvBHQKR0Y%G(6cE1&_wa
z;IqMIusF2~hW&Gc_3C%I#nNv%pX0YVrxI(>sOtj<txfQhXA--IHG${U0@%&>?Q#$1
zL)5mNoD4I;pdfLuTN1$)&#r`uDevKqU^^Td+y+wae8)g-Cj9KN=PsWJhvxctfCxYE
zlbQ(AT&}{4P=5EP&O3@ibz!G`7Wgihh${vp_>S%~F5#&+C_Fd=?)`D_Pe%i`J*=@v
z;(4elFU(<UeiNUK8jfXur$f)vdr&`H21D}@(?44AzIMJ#x3?ZbJAAlb695u_c9=d>
zodgdQCqiCA9BditfZR_G&^9j_6xG^c#S0Ovt~W=gN4)=Xk1?OE5r?nR>mc@+0Vt;~
zfdVgatff;RkZ=H_#v%Ch`YSxy!1w90M&P&PT#lWaf@3`Afn{(RXMeODPXEWx=N1+4
zxNr%i?oi|z4Tqren;sXQbseVV<br!a7|eP#4DA}G;`)JuXyVHE7M6-*>^Lzxkz#^7
zdhg*6jg6qQNE|<%ErBsPFTrz3Ev!~muwqsVVg7%IV1;KFEa-ZLUA+rHcWeeeJ8FU!
zR-5sw@B;eGXh5w$nV^zT#jTz)8x>F7H{Naf5^nSNI8P;$&?0j`{>YNUvr3-4XKxxF
z92JFUE7qfLjV#Kp`T<+#-G$z2LkN;|gC6<=Vf;Leol9_+o&pZd@<X^Bi|Q}@@Z5M?
zyzUnZzn?zA-^mj=-K)vGWBmdCn#%WRtf!)3rW-o@ug8lO4!Gst9JuM}h*xIHVEplm
z@KS69o)>P$lC4KD`=t}!d?tdg-}GXifdPIG?7@(Sx$v-G1+DXVUoy{=lF0oG;Ss6U
zTy8#W?wA76Pd~xR<gd7@CLP9Y@WFdKOn4vYEaZ8&IQN<)Exj5A-4E3vy?r^_K09Mv
z`dt(Y7Ylig@*%ux;fQkQx}dLHAAf%o;Gec_c$MeSZFB2^;y+Dbk*bNKLnnYp#w_rw
zItnh1@pxY>2NUM^foib|YQ5ZpCjD+GS!07&@Ap9L$t0}XbBdd<bPhJz4q_|sSWd3r
zj9S7#{3uAq0NH66{`M&7uM^|DD13LyzZ*pM-UDIBE4-U|0AnxncL;|Z&_+#?{uFJ+
zMZqQbacVK#T-*b{_)cd+n>_CImjHPKJxjBu3YgFPrpNd!Md_p<R86tRECnq(`-W$y
zJr%*&8{sI7T}mm2{@{9P1<2f5jFTnPO@?dBVU^)g=ozL)U*jtA@b?a^myzK6=4x0k
zdIZmzJVd8spWwIX2l&qOD2CR1gW9t>aP6HA4vO%5T8VHx|K0)}TD?&^Lz`Af>f+R_
zW7u=r8v2GO<F2h%+>C?+e7EK@cFdoK@%5|mK~^-Lo)?1V0rDvFGy;B)<QWo|l=u!-
zI6f6#h7ZgJZ?sxqWB}kK%O)sHY{fAuR{Z-Q2dl?<fcKui5Zsmzf(tn?*SZ+$-;|hl
zF6x3;>oUL?|AQ4D@8ev#so*=Y0LKOMKG6<8%;%DE`tW=Vds77Fn;kf94SSsDDs6mK
zx&RtJ=73;kD8}&jS?l_m;iU=hgtnN9wF&+>m+zc?xz0bcE#E<5)D39LQG?J2E8y~6
z3GBO?i>r1|#FZZ#;O+$%G<vuN6@T))^ll~G`dkif$dzJ4^9^nZ&uJJ}coMV!g`h@`
zGR`RA@Y#j==rKVC=eVdskL*%@?=>1L?8AXa#^dxHLtJ%V4hOqe;L83)a25qz^}PjF
zHzlLv?Ht%WeLCNPegvN#uY>mnaa3+lwy_J6!8cytxwMgY!A%VCUuQBXkFv)@o+I#X
zw>@4sxE*Ak`0~E`Y4Bz(&uEjA!cyZ{6Q^VaENDCp(Ss3~q%Du~17)zhv>!@*f+0z-
z9CiI~L!L}5nA|IZC1bLo_+}&+o}U1h>@vZQ=liSe5JT^iDez#kIL4^I1KSflAd@zX
zX9CTEw<;;9elG*sI)cILge1>OvBTNdFT%?4^Kp~F9^RTX!G?HQh%bqPyUx9!^!^{r
z8!-SLK^su!-91>UG7tN<pN5Cq5Vsxg!RpuNv1CU9B$t1N4r52&`>lnSr}FIKz$`1F
zOB6p-)$j~WcNG137+cPC!3@Ry*w|N!8_M2c(#=)~u+hY`!j1SZria_l=YPIso-y7z
zek>lMA#j^K6N^r*!GZkqFtdnvwKpuq#bQU$u<Hzd5mCim#S+-<TMO5Ze1tUL9B`=>
zL-U2nc&Nn`XZ*+W*xeIRIzNs--xgt3OD4}^bOwEXo>Dn2h0ni;z~^Ce&?6xNSN@%b
zV<t%B)WexDTUm>D>$P$se`aI$z%;bHrHY&0mqBMaKeNW<;bdDI^jWWfi)BRViLoi>
z6}4bUMl4v(*TYG1M<BX67moEd!xJ?ns}1kNKp|Hd%*%%$KTU?Hy9xrdlKFXjB>zkj
zV3qtCJklsmb&|<&f15pcE_TMEN&}M#uHQlLD9=Ke;EkSP)A3)M5~_%dK!buA_<W8A
zMhhjefzPFl$S#EoK1%p?oHHCZw}#%_EZ9*Vg%wHH@MKLJl&FZI)7D({>z>GWFEvo{
zz#ou%y$t0~Pv@@jd(HPfvb4xT18129V&b92c-XuVwfD|P3{8h<{(h-`vkLY^@^|&E
zM<7ts8g0&xMOpoiu;up!z{WWk7dHSke4oQ?J)d{{84Js9j)bNGV`%&60Eq#zHXGOf
z<C*)4&_825&bgwCx%{4Lw<_<Pe$4ar&M9M7+I#Tbo{8J0_H+H)%0Pj+0R=``Uy2Wa
zqjjAi8~zuxqPw6ZlTgG_2>xFV!`jDQF!A769B7Y)uLCJ?HbQ~-g4)7%4`mqoeF)OT
zA3zE3hYIzwf(tws>@7b7KDLO3{sph#y0a?(4&pl_!~CGMb~FZAY{Bg^HK1{(kk4|b
zL&gk03=!M{yD(R{wxAp4{o4Ur0vT-0902VbI%v|H4NJ-`(0IvOIFe+Es#WvRv?K?$
zHiy88F{{Ajmn`2?<Ga;Wd<NusfmPrG3q1MO4cs~g;N#2L*ipD07AdU3zZnbgne--n
z{fmE&HWS*7eFw|a12{>C+mNg&Yv`oS^N7^5pzYdPv_0vH4IyqkA8j~}dL@a{YB5-w
zp^lDvEwFQWJMROJ0k=Ayi8$5)RDJTGq+>A_KfVu`o&u+yIpNQlyuZM~9?eChP`~9q
zH&A&91FZRMY@ZTXJ~YEEX*=<W?`ycdy&mr8T0v)WF}%E$#ho<$1I~vuaPr<>$klem
z=Ue%Fn13Gjz6`>+FRpxV@*S>i<Q*!%{=>r_Phik{Ja!r1f)!Eq@a>v1CNA!@Nx4#j
z(msQbHt-mOG*6*~%Mp|rtVgMfspw;JABXF1$7a3Zl=?6qIy`scbjiEW!1Mp_@~)dR
z9_i>1H42wr7GnOs%Q)<15uEmvMQMI7Uz3=|dnuH8&(LJ_+E)QHPe`E8?G~`F*Tkg9
zd`xY9K5DP81gYKKxbEXP5>e#yk$&57UE4G4)~&{>NgT>-xP%&gJ-Be`A}q{Wfy??d
zaM33PQnQ<mJ7!AbgvL;u)i4@s-J7xBtP+yP-9Q!bb@;T&6PuN+aMaodm?g@4oQhI#
zQa|q>>nwpgFH51++6diihq!H}KP~>-@BrQp$)Wa34?Hn;5q^7VjK6ACDaJky&+xn>
z`{_=&t<sJ>Bv(TBcSrtgI~C^%R84&xl~A4Uggt*DP8Q;M_+dj6zWw|J>_*GtA(dpz
zQ0PR3#&)ofeGXgp^+JmB68OJEcTiRdPrQxBO=ffO^Cmsq+dKoEZ;m8u^N}b#mW4iw
za{T@w77u+(<cih3P-ko$Zdjm;>$6;Oe@7~A;aMuK+a-|Q^n{{$_UJoT993*K<ErWe
z?yJpYes|o;jr=+eEI;OQE-O}nwdiQ*>fa0xDx<mSm3Cb0+9O=L%^6OctK@1`<t%e-
zySX_kq1>6mKiq=55pcRBoJ(oSfRk>cVCq{HI6vDG{(UV6gFqiH6*mf=KKaU>7@=o0
z-R1+gA#Dk#b1)pz{DL5C`W<d+Y8@B$_9ORc&=(?=b>R203!L!PDX!aYJGVD=3>SKE
zBzLgr8<&~59Xuq5Lt2s>r+vx<ju<<G$_jaSrudCJQS??2E3q4r97MR`YYuTM$IOKj
z!(4bycr9oB;~{6gKomyLt>OaPFAGY_G~uwrYp$=nfh%v%<(;tF`02(-?95+_(NWbf
zlE0Tu2#bell2I6Ncm`;yjR$|@i6CioA5>Qygq@?VSrm-i58`}oW!Thp@N@P`T=zN=
z79>r?nLK;?q4ht={_h9$s6Rv9`VnxtG>4O2CWGb&1;*N`5*Y6905+Os_$6~ZO5PC1
zyo3MX2`dL1?htxRRY4b(GT3RG1jTZPU}2gUWPW(eE&Uw^%Nl0mqtX{}@b)R_E>y+F
zmo`{?K@v%80t(jKfR0KoZr)qT&EPW$GA(0KLPH#-j=X}9?lAln)d(F?zrg8MKW9BW
z1N?cJ$oOaZko2M*`drlU`$9{M;|RG=7ohpr0W5kx0pIdj)URje!j9}h7#SJ{fB#j%
zrl$uWI7q^x;CwxlxE}(KdDp=;HUlrtjpTbFp?t=L=N6QjqQOeSIO8K2B$WZO!3Eq(
zRdJpRbk8v9P!3Ep+YP%yl5ocJNOYO^1P<i!Jk%dDc;mlyd=EJYn|=BrL+=Gt?6?RA
zuC4-QO-BeTy#@ivhj7C|EtKWCVu~-eqUn`TEVrMAc?&0?>Nz<$b?iC@9!=+b^bFy@
zh9Dd`I0w%u4MLQ~LG*O_38F9lK%BNRY&j-{d#^s{S>P9;<U<k}PyGu;m-XrWxF;yr
zS5FFmjOqBkI0~OXjJ6J>P))ah#Xg)v1uZ(n8BAugSKOe=Tq&0K=`JNq@t|W~lh~bS
za?I?099!VhPWN7KBg5MfY^^+FQL_d}E{!p*d;PSo*nstDZe(xYrm+#x4y13uGrZh)
z(DKrWlu{?g*8eV`TPu&zl*IiM{bD$q+!et-+uX)O6Sso;x5s$+*JCUi>cxZB5_H|S
z9c_gk=(lS!nXOAFe3?vM^42uDw1`a_zl_!S9-w7F>_Fxz3N+ATUtc>ioh_T#qgO>3
zXb;pg>k;b`D6^OO>iBQsM0#HR5}qp+F!6zXbbCo1%^n*@xAJ94x@U~=L2EU$DbuIk
zR|+iit^|cbJL~M(&K#os*yw=<Oc(FP#YTPf`KcvoB}&r2^&jw3P7&@iuc6Z;N71wB
zHDo33L74*q#K{jZo^HgdZkFM%_~UdicpWa<kj3^I-XhH`W9H-j7GK_4iV|lQv(=|A
zkaXNfbWtC`8$0-CwulS+ksVHj6ZxN8itL!rdg}YQhP}9F!q#n$Wl5)&uyF;NY+I-!
zTWNcgjnXp|qMRRv&&;6%5r)D~l53c*_A-K5kIC9ki@v9QX7At1uq;&xHmQG?&I8v7
zUEjl`JG93^w@N|HLT5s=?y@=3y76yxEH><Ur{jQXCgxk$(|~mwZqX=XZ!U_nEj_-p
zCGZdxy`D`!2llX?I<H8jM}qym{}`jHu46!v2K(GlL#2ByXjhjTz0zyL;%P-R$96TD
zIbI;6-2d?2{pECDRYfT8v6CtA8QPh@8tI;M3$~4Y&VHY6q}b0!tRy9koip`eO)fPo
z>FyD>{l#Op(5jEc9lgjTqnEK?i3URHyZ*w9DJyAhQ5s0<o+UM3IqJ_FO}1a%NzjO-
zf4YXw6(y5j{TI^OWlUPi!|3;rkUg0`lHK|oMvbR4NIbe9M}JXg@?W#4Yy@K?$8^!8
zMq4`YX${+T!=Bv<*I-9SYqGx!57X#r4y?1mlW7^=VjE&jNb9^m{jg9GZt7EHbt3wt
zR_0CR9a>b``j_qM`AZ+->dCAtgv`?a;*wJ@Y3_m@RJl5hHs3x$-I@tB^lvwP`S^_V
zQtjBr{rZGM)hKaqA?vqqqb}clq}km_X$AVEb#())DSkp1Lnp8mtpe0K_z6ww>{<D%
z5IQ6ugy&<<Vd2Ojc<_1@%Zb=Ybyti@sJR2AY~OLpGg9fF9q+wbs|)W=DS?EU5*NgI
zlIefyT<T~m2+2sIhzaHt5*p5O>Z}>$*V3I*HI{YWjArd!!IoWdXDu5_nC%<~-JRaf
zx*OAk`dLAKy4%leHwgZIUB_weBHfFXbM!o-+jRqm7V7Wr&_%aLRd8c-D4jYcLAej=
zah%;F^jV~f=Tj_bY2#ybx~5EG{|?|Nkw|np+(jBI#*&y_Ek^Myp=~pGM#=0Z`ZaqP
zJ&;$RkQ*h`l)sOvALKH-kjbp9Qh}X4ZpV(l+fDrB&lb*dXKef_rhFlvj7)SWC*~tv
z+E`8xmp794^EPToJVMS>Pf}f}6r1|bn_2l5VZuUNtQdWa?(TIa`4cIq`R5NVa<RwD
z)l+HiT7CLp9!%@()2SxWl%&6Ev04#Dc0t3CJ=t#0#vHgq4$u0?!ZeU&Zfs;yJd0_~
zN?n>JF^{=XIGJat(UD|T3LkSFFE|UBOF%dU%}XOQ0Y7`}-iHg<?4{!iVrlLvFS4zl
zOXJt_{P3O}`sQ(;vKQ*J;=k5ZVSJUo4}Z*-r0rq*))vur{V~jL=q-lq%w*cv_p()9
z0W3kR3nVTt1veuJHZ0VGX2~;r$!)^6Jux7&tAVCHQm3G|5+wI14nOLp364u!&_|VP
z*fMJ*EioL2vd=3Z$8sLs*j$4u6`3@3k`=w_>fqhE<Jj&6SLy0if3j<Dpn3D`$mnAq
zUCz*9G$74nqi(|Fysw<vy9s2t|0o(QHU}Y}&l3&X$me-)qJzy%(7R!a;qtT4FFY9Z
zO>Wcqz)L8cT!@Rh)$o@j&uKVON3Cyp=ApI~xi}%cIX|2>4=Az1&J=p^VKI3Z#*nMN
zHVu6$rzpuL8rCy{jq$6)rIYl?{Ki~%``aDrE7Bpc(pjXrC<_xGs<QOoe@VsSI(4??
z(e&JUk{@}C%?Yw&mbIPqY}_5va*m<7CI#$_bR?UVF@g2CCDPgTjks!78r^J=qMaA#
z(VNz2vT!XY<+dj{{@n>`ym*buZy%>!M<Xb#_ZSm1dP5avvaBUaihY!-p|Cn9mLa9d
z(wC&LW8Flq7Ag2p?KE4ZEy-T~Hlf*(k#yp*8x}a6VJ-=^^nITx`>c1CviC$%>%d4h
zMP-0;r^>UxGD7xlZWXDN-=~La>zUHU8g^#t9MqoOg%8`C*cT%sHstpR8>V>E!b&sH
zK2^{DOsJwR)qL{bKVC3f`W|N(!uylsPQepJ56(hoBK%I9DmZ?A2(}9L@yymJ?h}q7
z&4!)mNb8yND^Dh8XHR8W!<orFC0f%c&T`TmncC&a%pv##%uV6%#(XmAsbK@2E3-mb
zbx}<9<oyUE5^3n|X6%lR<~?^!RMXJ}@#T$lD&Cr2c+aEo>bLav>Lbdr&87&}ONtBD
zGyRHs?7j3H*ZjCox&~P^EXstwCAm_n<U{oRafU1xHBnzjBl)K0@tyL6ct!LudwoHI
zxme!7__#S_yYL6(@`di7ML86__aW_1P@v6LA5h)zAzPhk%)~rI$<yAGj%I1#B*SLb
zedisu?Ui6VH#M{C%VpU^vvwBpri|qj8VglxMhZnYi3|U`6v9N(y@bwY=|aQuB%H{5
zGS=BTqg${zp1n~B>HM|!fg|3Ssj7zYf!0{TvtAn9`sw@)Az|1c4bQ(!`whR7^fYl+
zG*+AmRMP0Y<P=se*u<3MC2=c%=8kZ_0}0mC@$bk+49mFzy)CO@{OWP|@_Gie7j}W~
zGd_czvY3iX{$qweZCP^jYIJfdps{}@V?by=yB7R_<|WB9JMkWz?eqzhhZR!gS6@ok
zMY{EKJ_&Z#qe<ssat{umR@wLT<D(m$)R}-5>Bne?#00t?zLXUDj?)3FG<tC*kc^WK
zkYSu6n=VpC0<%Zdbjq8(n0Jk~?6hE8KZ&um%>y*}?kUNRcVU0MW7t%cWo+BmiEM6o
zxG*$pxbRI`0ox^?%Vy6sWjkkU2|r#PA$&4@tuU-)3JbkmN;$IrLhWk`!ZCVbEW0g=
zU2>OW^X`6R)&?@d51+J!Yc*nN^oUA&GiC+575$h>-u<Q4U<G#UP%R}_j$sG?nzOpl
z0JgvB1L{us#&;6V(E>GBvgkTMcMH9!`a}<(?J*^{#0t8YFU#8ht)>^>7t`k*X2PYe
z?QFfEkZ8kr_G@DxWlz1##PUj6hlVeEpd3bLYlS#tXC&K~BE@_)hND&CZ7Q7k8_RZ!
zvOha6(3XJnG}$MC&NQsT1Ly9tu`-2h$?g!$-Wkq@eLg|Eteu&Kd^XcOEXK5ZzVJDw
zne?V8lCld&&?O09nzHQ(9cap<6Kg~1yKW{8)Lftyp_R0L)L{(#=Eru6jc07;Eo_$c
zVcD;z)3Ya6C_c@aF{=@*aghb(4h`Yz(oO8d=MgOJXE`NYcub~qH&cXJ11%6+#IjDg
zvO5wVsO-%>`et*BS*={aPKGKm7qVuB)x+7BDG^LVE}n_sILd-dHqg5VBj{NCTvk0V
znYa_T@!HdVdeOdsOxAoM2em9xiM~a@q${nGm)e<r4>Pf4NAKA_u^+Suxl?G9J(y`R
zVu^umR!Fr?YVS_lkXOC*Z{G{rrzBv$8_!e3S`}8LB4BwR7;88y$DYS}v(KK3n3KE=
zX78I1rlO+cV|NlN=X{35=@sD6EQ%2>YBU&C3q1#q!u6j)boFr(DvemntQOzrc^-8r
zIzyRFdLl)SPXPP!<{X_{s>Z%;xkp+{J87^nhQ&Jcl2mRQ%P6WL_0(#*@N5b*24nW4
zzk?-R?8L-rhv~2RZ<-RjiOkh9iRUkn`~)Y8x&Me_+nZ_0?kBWn<7dj+xri<WR<Llj
z1m+*6%`QV0Yn`gV-gag&qjN`C@X{7G#cu(-Wb>P}HB;G<cZSS#Vix;8GM16VG!}pU
z2s5(0!b*qD5(?M;M+aU!#mEPJ%;~Wy^Uw35_=&IR_~K18cx5-E)_At0--}JC3B*x5
zVzFgKIlX`Q8Yg)xl8kR18lDSBrD4gW<kXJRG43?t(jfhXB>EhEnz^4dVSaKgv?_D~
z^U_VDad(z8>wA0Ir=mg@9vwz^rubuJaVE=26k$VWg7Loq{tQ!i93z%luo363Q^J8B
z%Dg2?wR!wID03mp6iK0n7e3%2%RpL@n}KtO?vR{82U)~CrAZ$}SeUXU4fk2fGK`ei
zuh6g5y4sPMG=@+>@E&&V`&wqb=><Eo#nw1oefIdp?<K~cS3P68UGJ0WM2DZIb|0*b
zGmBj;%D0D`35GdZ<mP)*U+;7DxV@T%WNWaUqhhK3o`AhbxI|H1cI@CoCAPkD4qG$f
z6@MQTMNe&Qgu9&6+2@t*G(B^O#@4N&u@{oqSO0Vd2hT9Y9#bZEeJ1r>{mu%`#xcij
z-^sf!nZ3HuPG_!lu~pZPv6=9Vm5lyQeo@oORed(QYp%tV=FDPoL3-?i@?F~erH4|#
z`m$}?@30*m<LLIANc?;&i|jANQP5RmDv7M8%#u;$R_aT|AG4@Gv6(zxq*L%B5nA@g
zly%58kp9Rk)c?nX6*{$0_NY6wI#Qp#sS9Kt+#PIm+>Y0i{aNRW0*dl>ga-Ko7|3_A
zc~Svu_E?AKoJLa0_5j-8^&FiyE@Weejb@ILt0<vHj_p<pqw+EpCZaZtJ?WmoHmaPa
zj9%VP_+cyia94t@OWTj*4@<JS2FCPBOq8ju8lv7WPiWD+0Fpny2ydVrJNsY;6aKZN
z$!4?J7@af{jS8XupfGkb*?_g2UPUr`r)Zb=Dkh&ihCTdQMaSQ6VuHP`BpYwWs#hOm
zI_~?Ju4+7e6Ms)NyB;y`ty=8gK^J-ym`+08_qe9<0L$vNVq14<G3PFxadjIo$V7$(
z?rJBgksDCSdH}Od&cp~qTaqw}ruon0X@PhrjlKVg(%;Jo$K{`6hH}QNcuxuI863+(
zKIO7l*KTIDxs}nu8tl{CiLXWyg`EpSozXUwy1WHd?%lxKdsInc#(ne=3#V0Y3&{5b
zpuyB2w#-VDJ>05Fj*mXk6ekZ-E4ohp{NHa~CdXW_nX+Mn-$)prFSH%q$=n0qQg8BI
zTE>6x+`i}wL;a4kKio^!8R$dY+G=uf94Xv+b2%H7Jx32$1W;kP4sFRj$Z{WVVpV%b
zvgY6-T6O*zMSP8AM$SSek)q5#Q3yM^!G*QN>}6IbkFd{s!&u8Y0c$p0Oj_+Dg)>~M
zSiH;-MY)wRnMJ=T|8^cbyQ!NUoz=strt6U1*L&Fa@H_nq8cS7|)rpNTAoG7;Q7-Nx
z)jxHoHRppV7`><{I}_F&PholG8f=eJB;K0zg>KZykh|9k=6LHNwS;8Tb&t)oOx2zG
z?#c@5m*+8qXEAho=@7-u=tI$nOy;c{!HNdbna-ao`cRXOA+fiZ@_`a|I&T;a+p&W!
z{_hZNlW=8I8p~M5T{|}XuOcdVUBk^fLDZNdLSKSDV{>ae?($fSntG`;;4y|ED3Kgw
zENI2nKFZJ!U^_nDrjwpu>1o*&(hQtJd&?Er$p{@5+@i~N?cGSn!p71uwHDU<L7#P*
z&8A3W9}3h-K=tx%%;}~WyCyGS8s_6@Y~c$i_%NO=4wq#vH{Gx@L5m$b3#2{e5d|tJ
zvzVTC+7xTZHfL-nDG_&}>F-`vn-EK1B?H;(v)9Ny@D<bg(ZV)9YG-3cWKfUFVzzN`
zm~h`KA9f@_pSkzSFy*xusqk_&bBf-_-aAZVm&@-!NZS$gH`1eC^)rwbdkFt~H^6n(
zl)(e>E7-<&r4|41J)yQU7*n*ARPPJemlJmM&2S-!=Dx@1Wm#BtsGmN#?ItPkrRgiA
znbEu{Y{Ia3;qDFc!cBGIEL<a$jVrAsxtys&&%#eEFw9kGxqS>ZueyY_6OOYb+eDe<
z5)G_Vx<(6Lmf}FaGuy3DKwAnHQJ}XjZRu>o8}mh3q<cAOn5NO{hF-e)&x~T5ztTuC
zdFDK68JlJq%A!Q3v6~Ao3O(OA3-8(tu)05Y*~>(CW_oOqaPO;m!i^bOLYu4C=+oh4
zJTI)098Xtc{ellT_tawAF(;B@-{qtFqg?8UolVXM)Y#r(%kaQ>WVck}Np4mj9WAb<
zVwW*Y_l75l3!l-qY%Ml<=MWvReNTgvM1^5)vCO$}H9I`PoLNiBu-cF~Hv3K^8}xp|
za`$VpOBF}(&H72q@!A%0G%Kbh^p=iqQD?JUXVA-uYV6irJr=N%-$knU;BA|13akB&
zu0Nk*H78E@`TTH#^=aO@97)bw!pN}k3w_x5gjPA}2$z4k!rr`D!rn+HFr$P2QEfsi
zJASO0H9r#-Ze9Krr+=J))qz*Y<7N|CTH3Nvr3Xl`V<$fYexue?_2ls2DBBz|n$39g
zmUgav$@Uz2!?dIF*u;YS%;S(T^OL#8UV03%LziX?FRKTmf$C*^m)bxY>XDRT@gD0P
zjA%mgGgy;RLF&HJWDpoly94jj!f8{eE;x_f@JMBWZ}XYq>y1pR(v<Zi`m+6ka2B{w
zOSt}15lM_PAs3&;%=6W9CcjXF{aWC|R<2E?x6yh`x^^ntu63E&&Kt=j6(i}WR2fq@
z7G-S{>PWI!i6x1QWY3hPnX6G8yIdq-e>eD1scS7QyB)~lUBa06^h)-?AdyvXenPHZ
z;jBHHKmQ6A3bk^3EN_HF=t~WkGd=FL!J>7{0o}`g-dgUd&o+8{DbQ#*&NVcV{5pPD
zQ9Z$=VDeL%&8Fy$VRGYt(fj$TEaclRiVo3duKK^otUjIfL_LGy6LsjtEemGS_m1|S
zwWY!`Te>;_8!Qw!uw7J1$t%v&w9j2QPva-v>U>Q~z2fZdhUskjjyDwQ5<+20ifnOu
zBOP_T#C|VwVsl%C><qV5C=%(;+)NCahtp`*b!0C)G_siue|d{J<s4v&_y>PSrs34g
z3Ni$qTNr<tXM=X)%;)|1;iE29#V#SmZHH0xcM>VT5~Vc76Rhdhakfec=$En^GcT2)
z3EQRFovsnA^8QG+jbtcjbRE9ec3_JgLddn&A9q!2QTO~t?3olsgMkz1Vv+&Qer```
zRrS;oewt0cL(H@>mAUUwV4EM9lE?ikEPH4b(-t9N_vV+l(q;;+@}J5o5)Ej5f(RK{
zzs6x6rC4n6gHEn2r3L>Y$bY3G(`=tgVjTr+;k%!-thSlFl2sT_j-<Y0trYvXgSypC
zS#et=&#cj)XX9IFMprtWh|MEkj}XeMlO_Gv&ndv;3YC1+Wm0J=xYEQLs-K)hr+z&O
z=*XbUb|SR4%>qw&%_fJ@_wmkrefEN90IIp^lKnG&pEdt9`A5WKC-bD2Uk~A%9S><%
z;3!H;wZp7xqw&h4cblBi(K1Xu9$|Vla<rMY^^)<;4W)X^_l+@5nv`WMKb*{RTOQ*1
zjVm$OppTY>+@Z6Z4&c$6ESjpm9W}*Il7H7G8n3pKD#neX)K#nS-P1x^Y?n;`;x(9q
zVgn8Pr$<ApOX=TNH71kaz@)Bm%r>)_?j-$X5BIHOH!TM#)Haa4e{IX6d8B=)mpgOd
z?AZJ1%SmKxFJ_O5WLh~TWX|t3Vpf}xRp~2~nb}SY7Ote?E$Q^%N=<q&>m+`UGGc8p
zN6BrvF&St(QTIijU2tqEDMonH1Gx<P;MGbZeU_B$f1GKb(qM;Yd6Qd_0z1*!O6r;?
zsr;)EQw_RJw%R3V>i--S`pRj!<xZ+`9U#ZKI&|?EP_bS;1$$=G%5Uq~rRG#>xVIlC
zU3y33lym7(sS@o78ld4vPf$jvfVOUsWPWAEWW3mdd44-d%{`x3*!1=6)$v&NZ&xl$
zpR%6awm-%q3^SObgOYIj{#ZJ1djaK!Zd2^HcG6P{B<cFA)TgLJix)Q27Pm6`A)Lrw
zjNeahmYn5AtdJ+2=N2?Mbw5Vic~D=i61kr2gPpr|=<K#347g{{hR@hak^L#mdzuET
z3O~yBgnP19>tHtF?>H9rIG44RjS=!%It>2P1=qF?V!W>y^*amb&s+tXG{+iWFOVc%
z-?5Y%@r+I`Izl;8TVR{nM%o-)PN(V`=ubchE&8EH6@pFlC#Qf`Rc&OMCL?&3g(9i<
zOS7~8MN;ZmS<3T~r}eHcU{A6H+f==g(m$3_aQku6RL-X1$JervHTJCH>M-`6GiPlP
zg>+}EDXZ4^Ws2sh?7^dIvi<Osm{S4UdSe#*oqdwUe?Q2I8^<v_uM~D%ua4y@+X%xN
z57R(o60J#{#$FB!rG$B6?8*9Q>f~}M&QFB3UpdI2Ad($o{O6W%ka`tvux9>T<oPy%
zUPt_+I}c+?s(B|HG2e*=l@eRBZY70(Uys_-dTf(xI$d3=N%j+LD1OEOn#xv?N>>4z
zcAJyt@(!%ptxmlG8yJg^B-`)Lal|8QTGW3ZU+z_6JKrVIs@NEcU3Qm*qeoD}!8z=t
z@HgrH;Agt(4zj-5Ox2eanM{2kU3lcgvds>_>}S_)Bn}jEmt#2$%P#`Qt$c1ZcP^}f
z3h*0j0`-1<%#8g*JCaw^k6$G$uzf!>43K3fBG<9|q|Ao7Te7n1bmn1K%sA5|FswQM
zKla`_s;cj67pJAWySrHrXYWIINF&`yr%H(hQX--tB`Q*4w}Oe?-6#fPV`3|caQF8U
zcf9w0?)x3%_ulav??0D6&gQJW#@cJIv({X5KF?fpvf4ThvG}5RsN7@|DpdU_EAg?e
zHE)as)xqJ<+InjP)xP68b==vUIuTq=M{H#FW0!jr?~`Lxw(u|&T|Pkx9@M8Tq=M-1
zDQVQsVsEPafhs*a=OlAJXoTu;xJ;$6Td8&Le^9SZ7|}fnHT32{6H0%QqMQtb>B+U;
z^vQ`&lw+YCy*;#o+S@WrneOJJ8;&faLywA3-PagD+Lqr`rENYX<9C^Auv4L?KPOb8
z%5!SkbT+j(c9iPEByIAmmA)!p$4*UHO&d2nrLB(LqWkYku;m>D*<I2z*kTvl+3I|U
zS!-YJXYzJRQBOivvW~kOQmc~gvo2d*XI*`}h4uYd1yy%)4duW@xNcsvk2-s61^wN8
zEtNY}gf6iapl3QN(&igA>D$^h^sajg>F9M|ST7fsTU|fC*_xM$VHak5k@d?sgteK;
zOZsS{m}Pw}nDxt9gmU#Pp-%O6vvyCjr#t6^b_|$Ho6dYqojgBAVId>)lw@gXzDM+s
z7@<s-I<rpC+(9MZI7mGm8fEQz(nI+^=B08NUlgvuXsYv4CH0V-m)3jvoW<o(PIuNn
zr+%IIO-=jwkZR$4L{<D6r9Nk<GlA!4(@|;*sbQ5}6sPK5dij%X>I^+W)wst|R@2j{
ztGE4Vq4V<eymZDM`f-mE39z8|TG+E|7oDZ^0=Lr%QyOU#b(*&N{)48@Kcc_e7_dc`
zZl@LFZc<`9QrZ5&Kj{S-z4Xt)^E7`z3!Pmn#m>+YWzV~n&35?khE?*ek6PGsgBE7`
zv--_JYQsH8N+j8g68l*~k1=?$`UW*RCjTKzx916~cUX+BwvVLFF7%<o-YHPF?I&3Q
zA}c8a#W2cOY7Zs#b|!6^+(K!6@L)H66=wgaH=(~pJ)<8^gwjhjxY&tl9PG{@N%p4h
zW>)V&BP*zoi?;bTohsYqNx6j|rPRg?si09Ax_3c6^|HBxBJbnqgRdj0)a&E)udokv
z)LePG$m1Pd(^N_Kxb@O2@7<=?D2&p_b}eHF(}&cATpqps*jZ}B109-I^9WVFJe-pE
zV$++Bhtsp%YUs=S?zF?LOe)Ct34O0{27T?m2A#J*kpA}8la_b6Lib3np!FVh((Laa
zD4utERBJ*rExKt1EhlD8IlZi)^W7g)PhacNo(APKuPPs1f5e62IMYXsxQVb|KJ}uP
zJsP51)R$A|`FyD&=l%5KK_8mybSd4<96)$=!HU}Xej$zWchrhLd3qU}n~ve$NnQIq
zlOFXpr}tm%rq!PllY;rn4HOQ%Hh#H#(&(USsNs*+F0<w>5+=Eyj~KqXR&REv^r+Fw
zwy)GY*PqlYb#XSAPZ&KuJC^pC&PVf-hg9H$PWl{OLwAjzqAxiuX6;@x)p~J$7VF&l
zT9#dzIcu*zi#ir1$uga@gVk7gopmqq2<xVZ4yCfgf<=iwqQ<?KP<moDl;p$_%5850
z_0~s?PJ4BZ5*T<-JzaH;Vh`r9;;AfJv)q+BWOR_au}75hn{$XdrmjU_$jqk}-_WAD
z=oPHKPb^ApLXf`mLz0pbm84QOgs~KCH?ph*E>my1q$q{DO%#_8i@xqxPTgS1vQKf|
zr7LX9s5yI&(FYvjX$7@1+P!K&-M_?~9yC*;!h20AyCwCswT&DlzIK51_53oHw5b7A
z{aTw2XkE#~A^X9q5K^ZVLYGlx8+Xz2`-<pI>kd&S&#GwSoqY82d3E$gQbAvwy_V*R
zYG+jhr&;$mFQeAI7-4C9%wy>}H?qtwFu8X2lu<oQ9465OTgrQTIaPJ_2o-7cj6QJZ
zClz~mJ*EEsEcLo)8x_}3L0h^>)92jZQB3S~$}(yPi$BMcJ{dBFu5I9=jc&fDk{Qf@
z%Nlq3Q?MgVf;ZBGrA^fPJz12}ST-H4qCn5StVv77YtzdPby06QBIvT8dGwFeJ#@{{
zt*ja*eq|@;acZ$eEo<9(3)awu)vSz&{jAVhLal}q%T+>>73a~T{ch@AEx9K=dOd;{
zbSJ#uYfiGm4W>#E?HxH?x)N%Q`lsIB*5#<zr1pImpr%+@(UuFu>2zLkD#_p*6@SZy
zDn4+ZYS$X4=A9d$CW$;f_Vy&z-|&f6bGu3x#0Sw)e*0*dVoBO`_ij4d;2yoPPm*1>
zaWQrD^eReC{RaK+s0>}`y`H+V`V{s2Nj;?<K+!$&O7zaXk14a16_nzY<4mrLD*AHU
z0JS)YO$~2vrfQtqDPcE7I%wN<YS*4->Ql&0ioHmJ(ot=o)8kH37hktg0pnd%&WDZE
zEge~!+oP9ak6xfQNxfq6q+Mhg%KFeM^lB<>K_5#c^FGU|TbwfcevNVxGNRm`UuG@N
zKhLskv|@>lB~vnS^^}$6U5b;crnt2(uwv3HD4!!0)C{pO+Iy!km6ypuQTL<hdqYC>
ztm}nTA&b!;(<&%0YjIlIcYta=#795j&ZKTEl%bqz*U^HDIp{|^YpK>*9#r8@H%i*6
znhu)1ikkU~j~?fpLf@Y6Nl8xar@bu8XmK3@+U9f(9a&~Yn@tI$Pe(M;d{(`5_s$)Z
z_><$5YQzTmF-wb17oDVp#RF-JJW;xMS2iuD(Lx`qilDzd+)Vj7ouDGQH`6BTXVBlw
z2WXARVESG!2Q84fg<e|OLd!nzWq-cEo*LP9k~w?iPN%7G(D#n^P$kmiRF_FLmG|;G
z#j#q2Zo27C-{jDsHw?3BXL&=m{qjfjFOhZhRgaT&$J;#miV-(^>l{IL^c^iW#l%0T
z{^-g&*7cONh&soTIJAUycB=_xbt{H-z2pLGB9-B>)3~Uk@jP@_s1)^L&Kg>pN~X^-
z9ICQLJYC7lNe3`CC(n_^w4c!udRn&(%{^@g6`yv7zBK1L9dL6E%`vcsem>(o<>7Ic
zKDM!qruYf_Ot&yiSB_9m&HUM=Tnp)v)pP0EOR{wJoF&xfb3bYI@LD?kmN?t5*@Q0F
zji!hCOxX8|TWHPf4*KEx&2+;%2E%QBLqDA_z*f5_$+i_wr^fd&cG!&FblD?ey7qP<
zWyWY%K8BB}I{ifYsImxMEVO|-o087jd-N!4{mf9xGbV|8^YtsszRR4dYnEpv<t0%3
ziE_*wnN9WA3RCSrU8$H2vGknJJ=ECuSZZ`#3steLjMDD)q~BKAP^;AJsB7ufRP^&Q
z%Hek--OIh0b~-9ZZ>jL0dl#Okq;o3is-yAr@`*m${;(~r_bQZ%{qU4FD(j|s>w;*@
zBirau@!9mE!9H5?`4M`7iZFXl36n>O2>_ax{FZh45tCz>Inzvrp0dn0rLm%p4Y3?2
zH5orH5o)s(s2J0WltDuc?S1_iwOT`#eq@tJoxVPmI;)UP*PT?SRYKb7tl9=@Ff^1J
zUYbC!-0Vkx%9N!KW@yqH+SSyp1&oY16-GN8+e)VfucT~d&S&kHHl#0EMA1HBzEr1*
z6aC=8S}KJSruSu<(<({Q^m!pdDYtr40&?jz^*w@4?vtUZt-kasA#S?wN*G-{HlLP?
zY@ka#PgAqr+0sAPE@Br7w9ymB9dwX!9X0ReEb7KiEB50nnKb8iP4;!+LDm?PN4PrN
zky^8LEi012y;C!7S)0V$SfSeksrd0@tixvyQ*AG;sJazGlyPG=9bk5cI)CI7^|`#0
z6*cDv6Vud%)?DC3aU86qKN(%44tqw>?|9AFiym{btGI8{x96OrpKP_K$*T{vqK*oC
zQagd&zhXKSE1kijwy4u5!uV-U<{e|KZ&LlM-cT+1@$|f(LzKhGaQY0dEA>$36sy{K
zgzD1VLTxQO#d;}MN7a2?M9KOuq%QBPp$yc-DEEj>v<6j8Z#vt<p7thyZSKg;4wEuu
zzYMuX>+uG#H!sR$H*a0Z&JCyn<HH5{Bl+MwQila^8j;&p1Q88W$UM$O#HDVWN^}8F
zc03w0R^wr620q6*VJ(v%>sC?;e3~k7<a7j@wxna2osNDzJ8U&7MpcLiwyG_{8%bY0
z+i8O%5BqRLx&r2rv+-KV3h~!UP!;QfS+g53rYR4HkGjw|3xK-A8q`$e!^=n(k5-kS
zzcT^mb7L@mVw|iyunl6$i4fv8!0IL`>>6HxU9~iRO4mc;vI*u5Wgs(;AN%z4p%rF?
zS3a4T-R=jeK3zz2tbqE`GA!X`Vf!2rJZrH;Ykn9S#4~ZXp$PA%reOZ}e2fjY;O6y6
zY^aRDyXPy=*`JTJx)~5&A_fk_QRo_5p#RY{cm~VkT*w@}nrn|e4y#bp>V|VdDrk##
zMCZ62bk^nK@|p!`FVV%_$8vZkSAnuM709*p#}l_Q49(5Q!X{6+gwMwnjuKReOv8X&
zDfC|~L5_qEO8Cv-c_Id1K00EWy9A0UHR$g;0-H;-v0UB?eYW|?bIwPcpC?>-b)bAF
z43Cs*F-<}gvqWnVqGf=0@)?N!77VMa{<s^z3+oTB!Mz}Byf2svU5Qd8rC337(E=!Z
za7Ab7df4Yg;neJM{PvB)tjm_DnOp`tD>Vp9IN@j!KQu$QtovE+*l@J~zeQ(55qU5>
zpa$=UMd+B+fPu3UB$YLgN0y=aqX*Rat$^9uNSPju`S-mLezz9q*6N_TF9Ibk5jb%?
z6FXPNV&S?}taD6)t5PiVnVbS1o7_>La-ZbaXQS)tG@J>q!BqicO#TwEmN=x1$qgx3
ze!d;+Zl<Cy#1oo7)bUL)4yz{Q@bQih1mt5-Jf4f;WvMW;(8u;c8e>v<_;s@yKA-c!
zUF3=-*UO>#F$)U!tFe*ghgk<UqRe_8#N6|6yubq&{QTg)t`rOQy1~Rl1PeW;<C?+%
zDsM)?zgZFN*}L$=D;8fmOtCp70h`<G5z^g_@&sW#n^KKMXJfFwwG2l0jc{}Ad>GC(
zNBrV?C{5wVkM+sex^4yd>h1BVqzZA{Eio*-4Gs%UA#}F@`R)raxcdpQ{l<b~lM0M2
z{XosOLYMz2x<`WXeWn^NTv`wHb?F$yYz#~fMwD6v%syyh^CxB8f4Ll0vY8m)t%VgG
zzle(1Jg~W@A}qE6(;su<Olv%zC@;g!<rxrPnTP#PEumysj0SEc^dBohu4y*J%FmL@
zo$1(h2;dc<(7Tp}&Chq@RU1Lg{%BktW@6B|WWppU5soEF2=}Ol?lpdtl{jE}q9*R0
zjzpPWI575#L@T<Xa$62YIU3Q*DGDO!h|;LV&_102j{o=f|3={djlh4~2yk-nad7_Y
z>3@9u>mvV0UpP7cEKvXB8wbbVS8nG1zwSt=t8wuBaZjB?j-NxW<ga?X9Q=RW=i=h}
zqXGWE+T-R-JNRddrGM4@^CHRA|JUEY?)mOG63f9c`;YJc-5&|lrx#=wWF_S1&WbaS
zvtXP5)uI1bZt<U#TmC2IR{u#k`A^F6AIg)Gv+@(-{^QgC?A1TZ|LoO2%m3`vKg<8@
z)j!Ms?A1TZ|LoPDza<9;_5bmQ`saM}{G$a<o<CdU{;R#euj+q&cl_VV|MUC*)%iK1
z@>iScf4|$m9{JDt`DcIs>dyc5CD_m3m6KTmX@9kJ?)ZOv`ahd5{j2EiiGN?O^{;v(
zC;xrDoqyMp`FlkFD)`?n=l=R0F8}ZA4gXbdr{ce__v5d6$CUnkJ@LP~e@*${*Zb$Z
zlK<lgf6Fn)zn=H^^}jC1M*fmxe~7HVTKzxGliC0C-hanG{~QnfKf1yBr&#`<@?P-o
z&iysce}DhK7$3Vo_XUnWANW`M|6E6Z&-lMP@c-}ipX2er&X2#}`|s<2{r#^Q|M@2W
z%j^Fi<j8;T{P=scYj{5qm83*?`1-+kX%Ym31rgg)hMgUjI4~-Yp1}8{H$wzdZQhct
zr}{|IkThy{T3WchR6_T94$NMh1ljflSi)h2^H=P_G8V$_D~`~gYKtE?52B#&C;1>L
z0IP%Q@Hp#ivA3fdZtX6xu?fH%<wl5qs>TmHNthlH!eJG2+%hglhtvqkbymjdx=Z9?
z%VVN`hzs)-T(K};54Vn+;Q3AoEZk#<%E$#clk0>k=^teG4_yQ~sbHt$79xCfI=)`c
zK;#uYJhxHC8%qH!zZ`+7iT0QuCWnQqxbQk%1JBi?L7Eg`zA6kluf(By;0+n>>n2%K
zfg2{ZIDJA1niq5M!JJ^1QyheDm_p;68tR{wSr#OZ5QqNDBu`oy`%ajnIQu;*$tlC<
z5<~11S&xg`4iT2JIMSRIp!C`p7b4XlCvR=)yF3yvM`tl+u{SPl^}$x_cjT^?G1~Za
zp%n0eY@fVI3Z{J}j~69iLbn)$2eo0WAdkd+RZNS1OIF1iVx@HeOr&SRYA7DH(dL+<
zF9i3JN@UEmhQqKq*o#@XE$xg(e-@&LgrO6tiuMtIoXLAg_K%K}nd=Xdfm@Hr=}pE6
zVsMNTS~Tw3hhp<qEo}3AM@W|!&Rw4i{*e%TERVyv-xXMMRvqj?U+8EhVwQk~)#1)(
zB=;pZRu2MEye-(7Z;q6TPRvgS^t^V$=#UV~KIEap#2(pPt|;iWM%9*ZlgM9DILyR%
zwGik+Jx3wLyiBp0(-lKDwun)%z?5zYe0gbsH+$o8^oS$0-b5qrNhnVGxnk~}pCnK^
z04uH+qN;KhBxCxK@-7pVUt+;OzZ8jF*5EML#o=aCJUu-FixmA(_i&s<r-tCR`X1z{
z%OUHcJ7QV{5h?$SOqmyll&>sgw$#HyS{w5s1mN8Bhz#e<LzeF%<lLW$U%sAj$|-`A
zZ7$yLh=L9?4=1i(u~cJlrrV`oN&U9(L}hartS5hw*GdVfPS?V?9k=z{JA4?-Ps5f3
zdHnJ)#uR=o+&|-G^5a|;p6awfv!w}Q9L3O*l*0B#6I9+%!?(Ap_;yATIi;4kbus~3
zKg}_l!J8(BDCD10$AncfQZtL7W#9;U)CX&Xn{ZNB7qgzaFz3J1@JcrU70eot`5ujd
z#tOI{tp?4k0f!bJJYnqmgCF}z_d!LhlHo(y=}Tl|M+SDQyd^Igyi9tPFT8GNBXF}I
zJQ=L2y4?c9mg@NR_&o`JH%2yvt|ixQZX!1>ej}R_Uzj(Ut3ve1Ajx`?f@8Z1adCo$
zL;ZlRwID*)`(aC|BT#u5+s{vsqKVJsm6t4(BX}*YmL|hriiy$GVgvC*l?XakjnO4M
zDEQ5RlTVGoGqW58F3(B7tSqj`J|$!KpAjCeCnU{-0$;K$W`*iukvucjk}ilAtw1@4
zF=RA(@!^y{=1a@tOz=kXi#H0<BVoAzPy&Aa5(qK-K>X+WVXA^T{8VJHyo?_|ebk_}
zej27+<U?w8EzT2vm<24vkugPhZD_&oi3}+3wMEHMevq}Icwote=u=lntB3?F?d>dj
zdV_JpiXU_RRv}cg1|e6&F|axi3-}aJ*w%!@cl}{`<|e{FsNuD*K8BwYj6YJd5Iot8
z2)X%q>RySqj8<6Kx5Ca6IBWQe#1Bw7X}lbM^;!u3>4nK3>G-i)6G5}XVA$i1n=_=a
zvDgOTvqRxoScDn8TTv3@48>mtSTGunBqsml_4qsF%=~$Xx)YD3mI~nGmV(TiFU0S2
zD6TvOg6w?I$;1<Q-7Akx$>Gp8(m?L=xo9rZL$A?Za<)w#9$rRR8_|d%QBSP+n1}j+
zJe-`HjUO{)Q8$f1XwO_r)!upNzRm~D;ux5VwqstMKGw9kVl6Y~fv0xDYf}f=t=fqc
zBO5qyIl=}m&`nJ-S!}T$zqME6a7HhNj?Y6xH-&S;)tJNJwFzG}v82WW&l0@wRkRnI
zhO-bdeHONyDaDOvW(YAi#%*C8w2eC>n6DVGZ*y4RT1QaP9*KDQbZGje;;bx%p%04@
zxiJv!5=-E-JREuBE{Jc7huvWb{4B9U+yzlQF`Xn^1hNq<qYFRbnTU>+h0ge6vYxx0
z^yE<3^>HyW9Sy)fn}#}bz%r`<!?*OXFwzL=gDIAKYrYcUxLZWfMib4srijhHMCNEN
zLD-akt^a=54_zdB4w5+5rUbKFZaB}ZrFWVOO<g`Ep@5MmKcnN3Gc^#Fx|}$^UJs==
z9q>W>9Xb2-EXi8>mWUq9M)j&HjGj;j7oQp4?bn5dy%;J4t<cL3g?Vx{IB(@)g^Mbh
zZzy8g=6WQ}bc8*j&_?XQ86Jj<8lJe4p^RunF~q%_ioh)oNUqFpk`VukR9BCXG(K-c
zmB_)6szgth0>T~}LFF?y;`tWh*Be_Tn`a~Hz(Zp3xDZ7RspxF-fW){1q#y8ErA?_I
zI_xPpNH{^FO<|Cripv@;kQ?(xfyOS(d!U0UxzV_<CJcK<{<5PdiT%(mV+Dy$OnJE(
zt&i$3C8`F3yVxk2O(BEV4{Zlbuv1hKywT$5JtB+WGijur(8Gz#9*9aZVfMQOkp4m(
zinha-o+9LL^nurUL+F{sp?MyIzt+rPTpR|-w*_Wce19q8b>>0UZ-TVDCBZ#yEtUtZ
zC3{t*5W{{(f<B94(bQa+=NdrbX$W|{%#buTOqN+*C;Rox;9Jv*kPKc>FRCECkl_X{
znBl;0QPkY<!rk+gmcO#Kv4_4vxCWW|r_lu|5k2UCsm6y9ZZHH2HeS9!I*20#R|=zP
z$PK4!reL*ohsl(sg=l_Kj@XSAa5}<p7EJ$FzqY_RPfLc&P{J7vNoK5R^f=9dt!F8I
ziA3YZZf{r}k%JudocziYLcgjFO8hFIw{15f6;knR^Z|M0SPUF=f>&t_Y?*k2>Yw%S
zWIz=<QTiBJ5rnI+im_>dGCCbB!RvILL^V&4ZT@V0^?6K`-|0c&u^P7S_&^>Xcu6+B
z-A@)=uZM7vDl}$9V9R1@q??QpjnyXL<Ksv47Gq1V@E_zi6T5b*ULZcnTH$BwH8Rmi
z;b_7M(xp^}@ON#bYkM5-YEFTRj0N^@8zK&|Wya?VxKa8j5q*ae&??Rg-IOC_|2<`B
zS4f~tOc|v=1#l(&9(hq+j8(gR;HSfjh!_?woP0-e62Fsmks?@Opa-Gn40rIN5i{ad
zpggFC_V8Iyn5qoEi*B%nBvkgB<GiFPrZW0k-xeV6Wgz?{Rnd_nfQdX8%oDjy-tG0l
zA}v!=vZIBl-A^NyMk0jA^QqOHYnRAtzJ9X1<rryDnoGKtY$it)gUPK=gH}&NG|9fu
zPi7)-YsflLPpg)QK{7i1Iti5!Ak(%VBHems<iMhF;#hRT%IeyEa(Kv)m`QgLxwdsy
zqQ8Aj*0`jQ<M+qOOPwLIuq=ewU1XCxb#g>r#f_LQaw7_rzQkc=1IZh`M{Y3B)?XS!
z?i_F-f<gPNTrK*Efm<Qzb(SWT%{R&Ma}scRecmc@S{Au}h6{5}Z6cWuILU6g9P;(c
zMWUEiO$MEuh|<6!a#m<Pu`CQDAHKzr@*m}->Ct<u!Jd_5>AvUW(%mSG$}n;_GZb~b
zyg1pJgAIQA*k&z{%<Laz;I<(4AH72!Hy$Pxza_CxM%QAVqyjFke?uG<Be8Wu9%`%%
zu(i+)T~Ry`3bh9J6-%&h@4>lrPAu&egz|g^EaFqM&?;Yq_k<w2(iM%nYjE^-83KI;
zV5BbyE**VjJSm0bxwB+aOaku<w-f!f56HT6uZd%t4VJ$!L`0q$JY+<`r*DSgm{Ry%
zr!Z>yoIIK>4@ylMJ1sVl@$~74yphc4S8|AvR7AioW={D8qxqgStXE0Gi;o*-r(}?3
zn1F~DCA{3T1ke3MQ6j0vtf!A;)P5#7SeX#s907$U0jOF=Vc>8CGgn>lQpz4%YZR?w
zgSU{3MsBS1|4B@kJ@IWYKOVfV1m-zmTK#$S{E%nfBN{7{Ik0om85%u&NXoV~(PcMb
zS<Xsqzf;TbU5haLtv(Z9nZPQW(c9Z}ur!E?!w@k>s%{xT<)AytCRK3Z3Jbei&9R~(
z0$1**L6g@8c^9KF-#Y|5Rv92O)C;#81E6Y?fGry*$-YiTCsHp(-lm249?6N#Q$0}o
zwF4^L3rU)}A{56Tl2yNckhq-@Siac=($T&+J(I%PZE9GkC=IorfV#qUAe1n=ViTiN
zCu8?JH{?B?iN$Xm@h!p5YQwfr_%k|N#Y%?1I#h~1TR5=JcP5mTdBC-|2QMu-v7gz4
z%@wtw^Ee58WBkbOWSQ=6PQa@6tvFSm3T{3|?oHvu?ot(4+L>VYE*k{iHN%PvdbqrE
z4K{jbL2bwfvl3z<y<w7EWORw^*UZ5hO@l<%My$Nv1r>*>5Uo<jmIEu1?mZRzlyaDC
zG3mG!7LIl8)p+J>gaDCDh(@)6^Oqy$tz>MA(>}PkoCmx6W@A)I6#dLTt1O?3Y2G!E
zv{S?<msYHOABnNYmf&2c&a^9!MGFMc%B(5=KqG9wc+q0BgB@C|B`|;9a_kUofxli1
zbhpKTidIK!T`?jvV!>1N3?5%}(M0LvN@oB9%pY6q&)SA-vJ5}zJOfuEc0zD^2TF}S
zu~`$itQCpCIjf*+BM$e=?pQV`j`>56$$+H_Jg*l(LLRs)<p*L<!G6{ZXe&2iM^*v?
zb)`^u&JBY3##rulk(9lxz;w+5-2BP7{EYzltA!z5JO_u}BGC5H37pJ4pU2~a(o{zO
zzN`h7SPq_v%Hl!lRr1^X2l<f9g3Qr27@w9$>bW{(Q|VAyu7}MWX3QEQxUeF|a***2
zu;e?)#5S*htLG_1%Kj$RmoxGD#TN3RY8RTXZ70k6GqAjnv8%pK#j1{%<jj;-ldH9J
z;cVWD7dIMVtm}k(W-=gqH6eOH8*@g+Nbzw^eC~>cOI{s5NrvL??S)8bS^&Olze#kj
z2qYMtYQ<+OWGr2Q{^B<n<erMVE)0)fQ-lZGlQH^}LL6Tn3QX-$q>%)#6oTXKen`5L
ziWB;>=(aXT(pg}2?MLE}Rf*^OWsqyVgvs@#kLJ>TGUGHqBn0&l(zOizKb^5Lq7vr|
za!}M830h1X?Lp!&X*ghEjx>l1T_d^rA^6GUR1umd!f>NOxU-lC64_T_eW{*=w{3yS
z85-#V&M@2wD3r}HarxDPJvwz5-FSqtU&9c+KnGg!_E6oaidSQ7_?}^S;-i7sK4S-l
zr~05{BoPgaowB7*7Jf_2LF=2NYtR;*cXJWr_8Kt*rWn$ig`b@naA4$v-fna7Tr9xF
zLVswDrC>*Q2EIM_L}q{^X2edxOs5e1E>lHJ=x5TH5d$wb9-PzDfq0!AW-U5Qx{L=%
zanWrub6W#`ZxBV&83s4GL7{MuFci2&A-zHarV*u<7q5RLf?qC^DrpMbvIW>VD2KsI
z^O3RcB{^wV2e~h6$w+4m*a;Hww)8>FRDR@hyBHRoF~V!H8Te$Dh3}je$XEVFEI<2U
zzKz`<ww(KPUeq*yBAffm@LnSi*(?+IUx~oQ8WC*!Hb&G8)!>{jkE(@??vCA{?*}t6
z&1_LQk^up84Y*$ogu0_XR2jXJIUI+rg5ubtW(3P)G1wI?4bd`lEV(NP5pHfsi96$v
z{|L$3WDDxB4s6y5VTtfJQgG-S2{T-bjiU@^rB)2_Rhsznl@|k5PAF4S#NC<6mQQp9
z5i|V(`IwZ0)3zyCyZas~7W6~c(GgNOqa0~ppA*eFvth#_4(EP%#xA~3zHrN!a58(*
z(q*}jdDMWFY+m$zK0>xkv&GFDOpZ4h#@)U}4G}3Xh{ExDw4M#bgn%sM1WnPO$cfQ5
z5wvF*BeBsPK?C_{ms^Rq({vCpF-}Ui7a(}48PvkP5g93oU5}l>kz|hJ!EE@Q^2OBx
z#%III6z7O0Ca3yi_}vJ>=UD8Y!i|=XX-HQWfH;HEU8))*;x=*c2vdaVXat-uJ|<tI
ze6f1O5$%U5tiEc58vpN>2WJ<OSDe4dm7l!0bi)XuF;b{4tHb5Pwzwm)3a|7<5W@J;
zc=8C~*&!PYc~6prE2YL)<}+*USu^%Nu0-O*Je;%Ag+dPt`%7GL*~tof<au#bQ~(7%
zTo{s3$56HyZlyWkcDFukmKkHOSPWtYwb0iPiAZ+`+~QJ(*)Ct)57NU0NjF5lJ43W|
zlra&`_$JvU!k*_l`O4Tu!;bA3SbLuAy3K)oF_+2h8Q;nLCBYattpd&6jPJyvN{Dry
zBwxNfCTqQP(K@3Kp9^K6^|c1;<5JM&WC_Wo8n`pV9#8HxSw_B4gG$MBvio;B8k@I4
zu*4a6-J2ooEsF!j$8o`*4?jL6Lte=a2a<}hH%S?<H%Xc_b|qqB#&K9**#y5>SD4Q8
z#l788*vahSA#d1Ny_yq8&e6Euyc9MasZf`x#KH56k>Jj}uZ$Vac&lN?z7nh~UyhmH
zFR@}lCkCHRV=$C<Jkbfj<nd@!oMWR@(-w9{Z1BBN#fVNA+GN}Ctdqi)<Z?t^R>ZMs
zmT0>j4euBO*k1L7o}nZ9Ow2J_VuT~Nmg1!TEyP$bc$Zfsn)cg6CBzk}zm`LDb{v*n
z|7N)-wF^7$zaz7>_d#!eD?Enok|B2=7#cq(X9sqonqLRcvMO+EV+eBRMME?7EjbZB
z-?a5z1o%hqLNaA9#&y)8UgZlWha?VD@)$JJ#m0;f_<it(VrLyZdsFd%#No@dDy)qA
zMvCi=G015L?d&=x7UCteh8#pjVj4Oa**4O$8Y+|%o{8w<ZBZU(JSfDz;3eq2?t}#j
z0jOM84|7J}NZe_H9}IT#;D95xDlUQTQv>XEn-3*M_p*C^jdTymATiJmwR_gU<+3sI
zj?cl4JJFcX&H+aU8<%8UFjTt3(*I}&IPQKU-ujhzy?r+v=NseVq$gxto{$x%k701-
zLGmG{8v{Y^cmOBd;nqf?tdgnhy$*OWzD5S+8xWgSjCT$+PVTEk?+arze3Qe2k|LPf
zM8WT3Go0k7BbM=5E8N|V&1)UNw?+UytK~7AlYs7_#kjNeBWf2X<IJ&e?3NG06SGLj
zH?!c@unKDvy<o)bYu%T9@bejk#&bnDKdA+d3R`BsRYl)#S(H4hK(_gEvcp*i66zKh
zu;52=+&SVugVEW26fh$|0S~Tw!B35XQp-bf&%hOatL@-;C%|%^`f<Wmd`gD4yJBYa
z0(1vSBSf_o6?aF85hD*D37;lE)>oo_n;cdu20?k-3$o~5m{F`g7lTvyGFW~aS`N@?
z9sEiT4+Nv`yB<=W`aw+N3_0%ko5Ve-$3&?gtS^e;?hg-UtR(QzLmamfRj@?O3JZMP
zp_0~w8H|5gTKyO?V%E+yO>-<u)yF`d7z`);pj{)4{xl~np6>%a#usb;G<8%v*uv^E
zA7av<kO+wwCKuXI!m%+4cQt}xb0Hq5*7HJ=RSxgljGmLPfQ@rFz}3Ztlx{BEdUlx1
z2^59V)K-fu0aXZ1<$-B+5&ngb<YY2qxXA++?E<*EosBquC)_RVL*)t;@T^ip*FGK4
zbIL4^oa(?FQ&(8e%z?niHOOgL2Cqw|ICxb9zq`$0JAWYz89pO`M;YFJA4pHiHL~)Q
z2&P-QLFkh_VhpXJ2OSJEdy&=U1t>k{kNy5XNYxWfbiWpc0e3&yq7V${_EaRvC_`|r
z1fE&&-~!`Er?u4vw|wNV^(HU)LI`>$W-zkE88<vDpt^<ORRpA9ONrraatLxX)?(p2
zc_<HcLChtC*@rCgbhjgldV(;#<BFv!Z#1S*Pf6#C64?AYkH;%TA@8{WN2(7Iy`zUQ
zkaUOaWbCtNrCumEh=lT#k3@Fk4%4*gdKf3ILHzo4u;~rLiA%viMk<;=)6l%2gAgGK
z>6>!E<5~e_zbrgFwiHX%D&f~>j-{XF!F^W`ZnqhK#u*Jr_Phwiiacx$2*u!%1bjbQ
zf=Lw**zQ`ya39Wi%oPK@Uv?NbWY);H8L&QT2z@7a2;b1gt(VfM;Vs72%hEV|Wf`he
zi;$+)1Oovr25acSvM&YLOxqzs&;&lTDqe&sql4=qv3DczUPxIUxa@_>E6SMRwhCw7
zb~C(G3I+m_FngI61Q%6cOgbC&=|AvcyD<!x(zr4&5rYq%ExW&-hLu(}I#L;Y&v75>
zW41wZUlO)5a=?9C9$HUr!nCbQSTQ9G4l_ORbw3AO>TU7t=_1HKv_(pDBHFX3;+{w~
z%(~h!v2P}nOw<sj6^>KIW*A$0gJiB=hO-AspzR)ngD)v)4h!SO#&T%9NW;`c)1a=S
zi)GJJ5w(30s&(Z-hgHHyM-ew9bwM-uzBXNo&P*?~Uz>)l%_Bs!E(48MBN;o0;TeYA
zv7|uU>UdrwQLf>GpZWy3eV0k;{apfGzsr%3Y=xa&z1Z9<feSk#FqcCBg;yO=c9s+I
zoc<<b;|$h5y8~SI<uLZ1gC=QBw5u{<iIQDW%h<Z}7(E#2(zx+f8jD;#(7>Yu&vb$|
zZF7X{c;Q>oOa`L>gLS9k{iHXJ$D85D+F<bKT0!w*I5^LbkfK{=i0mlExB1E7eE5MR
zYXrbjtPx8FmXS0oA$VBdA(k``+~`=y*sUV_j}4H6!#+@bJ)am|T|jOw=Y!TaEo@=x
z)JA9kX<AsF`hW<OjF3!bN80<L)?$`ME0Mb2P8xpSCqKUGK=EELS@tpj+ZSIV4<c*O
zyuOAkTc?5iq7S6;5-0XvT1A$#J{oU-VTm*29vFQZ4{_~JM78cDIbOYo*gv~P%yMp%
zqKax_b5aFIyOhCG&S2sV>M%CkNdh(=CP&^*kmG~b2@j($+87z)jo5Tpq>JGJ*ADU}
z%o*>`%0r#LN2VM;NBZSOaY61mnbUNeJnWLe=3reE&fh===L+Ku_gXUhc{JHmpowIA
z5hg)j0OK=k3rxF1W~7}Vub>O#hGHDPrGQPCi~H~0pcG+&bt9gLE7wBn*dEJWwPMiz
zIY<s1F#wNp8cx|BCt1yl(cvTjR%j0l*Ip#Iq6lW?za@H?7+k+VlsU%OVEXdx42UOW
zqAyqjVd5@$@bd|I!YzyGf%-VT`W^|ld_eYji=wM&J}f7r@bZa1W=k>{^7pUgShfYS
z<l`AVG!%-%Rakw`4_jM+@eyGLTbO}`^{O~#$U^^oYba;CBc+v%tVDTqx;x>~^<?CP
z@WL;5f`obAAboxuNZss>xj8DZO7TVfCQ1CRx<Z!SzerSU3~+_fZ~UeB5PNVrwoMJg
zsi0}lbQgol2YWmgo^Lr)XoiWDJA@Lmf|OP>gGK3MP;muHig^&Lyb|j@){z~z4WNER
z64n9?{y&!wPc5xXOx9<jYH1!OH#0UvuM7MH1(<!$3LR@4V6{~c*{$NR306nntQzQ@
zEJkvcGlVP%>}=&Q@Zvk!bU_M+{wA=NYJ{-xdTd>0i*_XeSd?a?&%*}o4iQM07J@4=
zR*0KNVa+*X^c+;cEdJ>z+@;R&eVP~@JxL0$z9k2fT_85eV8N}^;5^q8l3!9GJjMl^
zv-2^dzyey#p1xd*A8o#S3D@quWWB<BGIQ=Yxx>BBLXlS(@o$7MMJX9vmMPfA@aHn#
z4p6inCleyxIPuL9%KLk9Z<GrsnK>GLkVzN(%-KTUFA9yn)$seb6}|?{L2_gnIx1DL
z<+~V6L^KfiDh{^S?~#BY6{PJPC->}slAk>fNZ}L~TIkorlfiXud%hEo4~F2&%*VGa
zf$(3(g%csVm>#Et(GTy)GVdT<A~E=#APLQW6}-LolB^r@L{)Yi!=H>3%}6QGm3j<E
z;ft<VYpl&EMLUDH35}M6>zgiW3Zh}2?+@!ci*dj~1|uD_QEQNaL&l8nb%-HzHX+e+
z)8YVh&K3sO8)MWOc3{shd*rItW5W_<#+SSaX}Ri1WqiCZbn~Idj~9z}KP5_utMu25
zR^Wqg9%8OCzuid}te$O(YdmHsZ#6(FXF7IRMIa2GFcC|FBVl~Y{n+4$w8zg(7K(&y
zVT%Y1+$qB$zIj->w+Xk`Mq&3T1N~oAKw=AlHp4%C=3N1{MG|gT1>-a0cP>AWjGrkT
zxVcXVJ+wS5mYpSo4$|;A>WY9y83-LdfT2ihoY<QSp#(;sYTAH_IptWosuj7RWjH2M
zi(dv6*k&7t<wt202#Q%w397}<ZwBCyTLOE>1}xp>g{C<TFcK0+M&m`Cv>qd!t5<>F
z%L#5}=9mohM3BF+i6~<$(DsX9G`t3@Z`8qA%8TJ;d_nUE!Fo^==GU^2dN&_EUY!V)
zWcI(K?#Ml1hH2_iNIwyRF#`ez>sZL`X#?N)_xKdSa11)J*e2zM3+7HJ$uK}`^Fp*%
zrsL+40{A-pYmOA-LvaH(>>Vej7c#ISYYMcqB_O+CF-(N{Agou#oOQ9moDHE!XJmb<
z@(hGoYk|k17avyLApWOjAe3({9)5|&Z^wm*ESxl_Q#4>wvk2F7g7F)nNQs+^fXE$?
zziR@+x3y?+OomDAO1Mb`qFhiH%Cr_{cBSgyvuT48yAV$|?7*qCVsL2%L9{a(Pbb_^
z_B95M*H@tas4bM%sbaQiF6PzS;m9!=SoQ#Z$7eEQ;|j5(S?GVkaAE8jxbQm`P7B$1
z#KD2X!!vO)UKDOhjd;4I0sX@Bu%qBN(QBxI?~N90xvK!*HYv<m;ezqCVp!%^1<NVJ
zM6M|sDpKxX`Ao-tKQ3^KS77js5eCv^!7<9<GpGAV=)-oR>++Ty5V%9?H&j`aWQ$@v
zaEPRA4~4cs0+gCm5Wx6xcnfjk_6~dKh`6J8|5oU9zaqEakCQh~jG++AYw=0a5=Tar
zVNs-xe!qnnT3-rxW)E7+V5vp6GT5{&6^2{~$U{R;Y!LiTT$~>gb@4$$4I1LUH3za<
z8LlwrEfIQVf>&W#=qPYvaxU`YRuf|zc8Oxu`!^(dr!P*uo({IBAg0<XBC_uuS;Fw=
zijmO>zx<Z;stMw{t2VZ(1Yw?w0zMwgh0V7Z@a0rtz*`u$r@G;g6b{y*K>Sn^fk~e{
z<{jcjZ^e6Zy@VgTKUZ7u#89~P;}_XDZ3zYhmf|Y>v5q4cK^w&JF~<{L+jHQoatB?H
zxgd8%9Z$8Ra4kyB!fH_|S_5LBz;MsK*3GzKx&e-g<|se!gG!HJgzI*|=;S?8m#fTh
z32#V=<s><B?l(E!#AdikeN37pfp*cvD^Fi6_^=S0<wG(3j3ClUH2jGo_V@fIWF!u%
z1-WS5sEP5F@>n;f36eJh&ReR{!mEKsAyKSVW@G2-QdIx)X3j`4GHEyfkDt%O*<A`y
zXK?f98+E{nYJ~}NZJu6^z#MNF9W!O}T>3&aTFs)pIt0g`(O8<i4v)TX#x!P*rJOGX
zhg%-}7`$|9<8-u@aas?Y*Fl4?1Qs}iU_(2H!J+P6<gQqXk^Qfr{cSV$$JM~`;7Vw=
zhGV#E0X*1OG0WQkn<H%)e-d*HiL)T2DFV4N7o?0Vf$NEST>Ih;WfdoEEoy}0gCtly
zt%Bq+0>uDt41GIK7T9H?tZX$BdrTqamxK;ZM!#7X55X}LI6tQGX%oSkd?y@umx9aZ
ze6Tle1(ebaV3@KJhJ1Q>^fnT?#}iQ5-VN(+DO`J5h2zFG=sv}8>H;?4QctkFR}hNm
z*Fw0%=)=Z$*27cQ4J|U8aYNJ$!Tfbl%`t~F$6>S=3t-AhRfq`<6J@CDPs)@-S+)!}
zzTQNwW(de{JFH-6BeB~S3<jBmPG($_cLYK@&H?jhvmtHbfHAG9s6AzeJMS4>+<!56
zM{00iVi7*CszL7NAk_Wv1y8jU0yO;~QmYG@!(CX%;0ASNVaT+w!92}u#Eoo(XoDQa
zOx1AP{59EBDT}3RlQ4DZGLlh~hSTgoDDb-CHRlT=OVu;>h#I2Kt-$XC!eHXE;q=p`
zuv$L{W?nQRBrGhxh4MqvH6Kms*6`^M$B-h8;Bz||eVPZaTsPx#l|6(m`=N5c2d)}?
z=u*-^=v`NX6PYV;K&B2o{sp+C8wr<@JRBGcMa>sACNDz}l!lAZ%E)+&?l>d{*y8R>
z7c9?WF#0)e5G{|uO&%fGGIEl2XeK;nr@_%V0l|kp6K}(xB-o-FI@%gYpA(7$VkxNM
znvIk985_m28RtWbaV?G$PY<x+X>0@54GAotwiIdA{-{h@f`i))!De{C&yECzA}v_9
z#~mLz6VVoxjD!k%ly9@aZ^nM6-y1@w^@%xG*>rH8{7w$nGSSl+{NM3fEY`kU2_I!A
zEOB3puW#0pM-zj1?s}7q8#DT=xi}*e{EfacehFT|wRoF*3Ntg)P{hnNn`evAtr3S$
z_p|ZvRX#E|`d~OUAIc1;%5lPoS+@yjXZWi1$`q=KY%$k=Iv&?#<EO|L<llBeEyLe(
z|8N6;pA~{S_&`j`(V)cWbXRF)nPkFl!)zo+r{ayYHIk~F!Kd+={ATRJL!6;_VP+58
zrhM$1|A_2=>JR(VP8b+r&KfFIFgBno!g5P-x78T|OrO|U-Y8;tKiMfuEF~>H5j%X5
zWa`cZlY9&1TKRBaoCWEtl6Zk0EDSzGB1`Krw3`cR$&CM*9l=R%Pg9A!`Iwns2bKJF
zun<Z{u%iiFV;%9SP7~jb3t=%M&(3ox;YnH;;$OMpeRT|z*D)LGRgJMDTmu};9+S>T
zm~(J-5d3@(B|8>@<?n%#fin0W6F|p9KFBe-AdknUqtL_=w*&n#O`Op;dkV48OBgr8
zO%c=amFWKB!UNA#ly0mcLM0a&4*mnVR{WaeikB0~%L=e7UQS96^1<FBoXB!kkT~NY
zGVW7D>b8WFBG)NqJ)3+;k;rW;4U++~isv(FDqchSnz^yyUM=b6<b}#g8Dg2Ei*FSM
zWXe!3A#7d}e(0xht=vk&zw#LI?UcZx$z;-||Bjd_<PpER3=+9_FG<~Yp4_-Uhj7a+
zBS$9v2`QdQ!gC*5#cp|Q6*#Sr+`I9b2z<#Ux`GSIjfoL*FzksHkMC^KbE}J(q`xE!
zj7&-1v^`|cR4sh<UP1y)iiu5KBe~iBg&a&dNTwT2SOxB{AQ!IXlEAYJey4YfWc&yQ
zw~sy84;jCVzAxmPbppmF^r87g5|0CfakO&>3E%UTjLJ-sm-QUjGT3ghQA-G)E15IC
zGBFrE=8l()ZDi?S0df6r#L$3^`+RJ8Yjq(hmK(w!c=1J44>y<yVcBM}Sl_4wCns$T
zea}PIlq!V2Q^%mH5U#zELx)NXR8BMgA7hNJs=k+S#E%lCn>UF_k`c_G{UV~PRT=*Q
zUL+3aKxQZfO{4C3b(jNwMmqR#T^*9$kBHbE3jT7@SYIuIYKE7(;QNU59QQ`~vry=y
zjF3;pBB<J9fCDc6$e(eLjHo5xuB$Ty7=O{oF%bkv7sB0xh3UuJkiabtF0W!nPB3$J
z4}*V*yP|Meo5j0>f_SVNi+CA#%#mdLB{(Tu>s^VkYJTjv){IF*#%IeS8LG;**l5Xt
zkwz`dQSvo7v|u@ImQ_G9xC%aJQ}J9m3E!f^u<C|7gcrF(iqSzV@*Pmw5{6^5ys&6K
z;{zop1)E75$Ygqh=aL*urBh)$k%HBE#Yj1l4V5cG7?9vW)Ymx-uPcw`9}6)jma#FW
zq$2JGA2OGfqpD{yVoTqU*UUNE@=Rm6Q=dqdM-~#x=0mib;ZhIk;vFOR9m^O!ypYLx
z6uSk(@(ZEcy&bU!Y%zRw8<V5C5ozm|qW{DO%Qa&)@SG(LeySXIzwAPbX#*<VZsKtc
zfpPdwn7&oV7ojb1iku+Zt5dLafD`;{>`eUvSHeEH8z*)x1=nacmY5d9aoZAPJ&A!?
zRT%nB60ywQ6&D|^z+)k8xJWTJTTv_IW-)$Hr<x$?VvqcRDjXW>Lq^tFtXflzdDb3y
zdvq}>-HRYIrUEI&3OFvTg-TR7mWf0_r!5kkU8_N#amQG!2j-q&xVvBp3?~)hw}cQP
ztSTWtJpsI9)tFVIfOQ|6@TfWrFPyb8IO2kdlV8b&o3F`grzv<HDu(Yrr(5zdI$P6z
zDfBHZMd)(oT(2LnE3F9iUnKC_zX;kVlF)l)5GMOY;mvU1RlW?yH}$ba%&unG7x+Ws
zQ3xidtizG@?eKkPhcm;ba6WB{=g%u}JAngnzbRyuP$>13!32@R#D_STqzPi*#t4j9
z>BCH)k=26@_#sz>4YxJWnimL}IAv(c^5SXd95~Ze@HR3)xitlkmY0P0TnaXEFNMF3
z0h~T-KxTm-vcArRQ;QqpgSi}L9X>E%u<3X^H@thw=w-Ii5DBY5(Qz~My2>HgW+`)~
z+zRaRJiLqGFt=qm&d)8Pj9=m&?8)DbSLf1k_4aD8ssj)=zXP3RpNQ-C*YIxnM1~@C
z@iRmMC1#KHey!=n>Iz1mYI%uOb0grop%cgX10lCg9}2c*c(}Qp@sD%HmzX@%?PBo2
zhsJ2Kn2M}|Q^drz2=_I;v4`>XTi95L!5`}&n8<K))#+#_q1bsl4llW;pv}7g{qp%J
z>(NL3{Yo4Qtira&5Zu^GAwG(cL#@&%nW_&1zYGX=PQ#9`&CuhRiUi}OSQV@Y^MMxJ
zJ7tRM{YznP$lzNiopCR~8s#gQv2qEAiso{&Z#)S|{ON#`p*zsHy%o<M7JzeoE6yxQ
zMr0u4Pr)-4`>($RXD;K9&GnhglaIuV$ie?X(OHIN*)366B@_e!>F#dWi;@N@>6Gq}
z4nabtL1~l_FhBvZ^8-;-?8NTE?!*@3%=zIj<q~+GXYZLc_gbSJr@IBKRwTn(^&`qu
zS3&;6Dy-j>f?~%&a5iL8EpZkByGiS5azsv#3Jm&PAm+-2+-JN{9BGG4Km(#kl5FGC
zL%vZT*01(M-j9Xob92H=xgbcqJHzG#<iWe477n**rWP28o3qJpzAz9H;z0ZlG0al4
zgRe6~jzu<}NmyeA=^Qy<rl3o}9q$E9p-!`pTlHy}AK(Ou>{Xao7!CIvQ<#ngVAE`K
zyv{5&O8jbv<`DtnZ5)yBSclQ-`51kW2g?F(IKJP2{@iZ%rmP*>mv1uhYGLdvu)*qE
z4Z3x!YjJI|6yg63BD**ooA!`CNB#4Q)oS49)WK$c3tX^Iz{SfsSVP|<Yjno@%>fvG
zu7Kb3^l-3G9C4*F_+(#<dg&*mwKag-Jpej;7sJJ57KF;D5=$0D{HPCFY7C)Rnh)KB
zb8%BH15dB>;Lvm0<u-Yk?F<n|gGvtc-cc<$RD-3){8%r!7(O@b$PW)<+M98Aj~9xo
zO0lLq2l7Vg`0JN|P7d;|OZOT{OGS~#{W=TLYsIm+EJSuJ1xHjmWRIF7Fyts=mt1DH
z%X@HR4>w}n($Hv}ge#jC>A9V(fa;sQSm}Hm-W@gI-fN8?r^4WK&<1ILjBqJB6UtZl
zuxM2|E@{N$^xR~8v0Q>O3lFe1Pb760!Rpl<T-RO!yN7S!=TnDWYy4p@u?oL6weU|`
z8A@6uC^s%cTev@piXtEp=#B%ib=ZGQo;YAD{Jo-upYAj8eLcO)HpMKda{-pUFv9LH
z8gNfO%>I^SKt;nEFGzogvezLkXFd+brs1%G7qr$(BYbg<VSW(tc@j=I)nkXjRA;2F
z=f}smOmr;#%s%f~gD0<MqwFDR8pL>f1~=(AYA9R2Q<Fci33nRn5%DMiTXu(Gsf9ny
zq#STvPy?Njx^Vp#g9G>EaNtn}F>&<$bO5PWxv|>Y9Gk@raJK3lt2Z}5_*E}l4#-3_
z{U7(fkcN{s1!Mobar&7owC%_*@tqj*l0a-r7RT$u(Fl+6#CQ=glRNF8oGOig>!RrY
zQiLxHL*eIm7`Aabus>Lfd;ve)72ODx%@wFM+J>o~{lwx{p>DA&uB;Bla(**}x-K>h
zcvX%a)T6g3l|qE?F&0|YqS2%a-AYsgNjyWC-x%}Fe*sl9^1bxY+3sM0Ei;c&l*0;Q
zUxsj9>KwGG58AImz3IkM?3*YcMu|A~58>!h-i7I_YG_Zl2JU?hLSN)OnCS?kbYBv@
zsjf1T&H~?)HKe0*o7~!-1mTHdEdEsjHC`(i@X6x2Nioj-Ovi!$Tre}N1TTMOLp8M)
z&?9fc#T<m)n}U^REb(gVO0*Fh>_q-A9lijJS+B+0ncgTdJ^&@hP53pv3jsxSNEkE4
z(cBTddX-9^9_sPSI*s_|??6V7EcjD*W7EGYaDUbZJ+8|L5b(vkk<(Dg2*x$v>j*lp
zkDY@hG>=z;?4>ulf&cAA)4v{+CTxJ+5+iK%AH?yzRPcSbLHU6?eC%k#t4qOn#^(ot
zHbeOD$U<yB^$KK?ILz8{Wq2tr1TI64VlN*16{6D06;`Jrkutj&>$j&NTG$isOroHD
zbv^DKwMEn?3ltFJy@hK9t{+N9MWi%p)({s@J%nIRDc0(k!ui~CNND*YO{*1?3M!C!
zwH9Tfj?h@y3CC}9Au((XzlNpoQjx~f^D*H2Z`fe%b2>YY0);O|Fvocme;jI&7g7R4
z(`0NW*5p(Td8$5fn@sgl1UsSzx2(m~CzWbQ#O;CGwF<0@qb!e}Mwp-3ga_&y;Fe}i
zbxjS1J|2UMog(`BJdm(a0kNvaaNBPUwp<!1)-AYDn~7R2JKSC!j*O}6u{V!$cd~Qv
z@!fnZqo22A4iCOe#z5nADP9uC?&z39Kc5@Ms6J43*1~OHQ)COuK+VjSGJ7HsCuM^i
zo=sR5Z-K+SA@J`uhIg(T-oI?eq21ol@@c?Q&ZQ8arUBPtIkbIkK)iOn(e#B@aM&=;
zbc~Cj`8f}Ro5S%m(HWZ}B(P=K8LW&v#Af(*py0kPLW$#ka=!to+{t>^E2zg7J_*nH
zuc0kpOIorpj{i}FGtDU9{HKh^<hfY1K@0I0n<3Rz4Lc!CD7kxJ4u?7XlbldV`fB-K
zQPPG}@Urh8_IYPx#cR@{Qqv%K#~yngIKZFg&LX>tvE-N@@+wL&xGx6Vo_fGjdJ3dJ
z(^=VK0tY`C@>&&u^}l3KPv*k3)(%7K7NB@57ku&;LAT2q{&Ku{s49XG`=hMx^&Zx%
zb)7Ag;6$Yzj}hl<F=Phw;oQe)Ecuv)tsUg^Fww)(+$r$cAB-Q*tr5$+9~qmbVXLMP
z)?BoL#<DU)(Hl8v5I2T)lPfZEh;eDIz&Cm?|Ipk$w^|NEZi)Ex?LPBbY=DtqV*S&m
zV}<4~#xctb#~r6)d#n{&md`-aCk<$fRbZckANo~z$rGi6x2-b~JNlNzgm^=^DFL%O
z|FDVcGPs;~pH0oOhLc_n6c!7jvOyFP*Hq!58VY}POW6Ks!iRGiaGAFp&xjkj{ow%a
z_oU-%K^2};|G)CH5>Cl&#(H{}I8=hsw8ql#`c%q|N|*`W=;KIuJ%YZ^nOHNw9nrN8
zI5zJEti^aS8Tc8Yn$uAuH3ys8$&>MGT*vbC23SYepr+|Qx*M`!)Y1<Ts+(_&Y18w+
z3@5j&rkP<h3d;*{H`oSH^}@>i3vp!pJ9FnC?TqyFKbw5uu3L=w&;dL*wa2}xG;F$&
zhZvPad^snCn+J37^TPs+%lYFNaRT-l9$2_yK2mNoaNhC**Fr%oR5Cye-R<?a1kiP+
z7R!mDB;ySf7s_D!w2kP$kq(0%O>AFgi&vP5bgtKI#{mh<Tcd<Mng@&~Xy)y+QWp1r
z)?(?jwWPr^D3NyWB_oFC8>=BWv<Oa5e_%Z^3qHR!;Ayr5oRjuOI(0pm%@c^9sY#fj
zu^qqm^yA@jAB>J#!OhJX>zCGGM>!AT=lj9?b{sa#sDW2ai`f1W<UbOp8mSPs2OROk
zJrWMSO(+&9#pq(1DQ^hD%oHuy&Je|9OeF*jE3jw6AKVplq4fSEGmc#V0mGG;ylsM6
zr8-F6kb>^UVz?T%v-`w#2UuESKYjN8O3#=hPazD<#Idub2I-;G!E0HFo|bC7u8$!d
zh9UTztRY_}`Qcm^pq|4Bkx>qq-fxJzCF{|Aatdy$u0)lR7XAv_;>k$|q;qrOO1KPO
zsK{%FH?M@-jRJ7YNu=6>=3LFO$SClIO`Z(gWf?w5l)*Se2O*&eh@d$|19>$9GK8V`
zz!IsS{E@PBIyg3Zp!{SAM&~WU-UoEY>rAqM`5)OK^<YeWCxeI&ftb7$iU9vW(wqh0
zT2+VQh7!yWn}YRWrZ70Hgdu(oD25fnI_y0QTj33Nnz>H7VT1VPH&|kS1vq?o5leOI
zpC1B9F*ic%Q+1jjzhJM|^fJeMCxc|-c`M{jFhgl~jEvdgklYn^?g!m-N5)v9LJRy3
z?q!F$m*YzRJ$6*`2wNP~%^oM~>%5-gj9vG<p=Of}@k_*GX^7#X>UBnrU)FR^9la`Y
zFkdW*Uq)J(d-XAUx9u@&lNw_J8VA@}F-at^f5OVQiV|y_gKxj$ad%>z4O=ULM?nT(
zm#N|S&%-Qii1N+^Y_V5Q8Xav{nM0W%ERI;gD0q~;{rQ%KpF78zy@y!uaq4**ePLT!
zMEPDOxFuEry*_Cq`zImpRRy+=C&B1`FwA6Z@o9jbb3W1nX*T|J)YNEmWCT9GCv9fH
z1TLg4_dYPje#y1SdrkjmM-`Svap3l73Dr*DSira}u3k9HN<M$mS>Eh{D~l7b=EPbY
zCd*RdxDg~&lW=#rGWLH7fa*>Sd?Q|MV|Om#p$Wmua+tV7{x5S&L>+6ul^j2O*uD_Q
zSFAwtxm9SI;|f<}>K#JoU~c_<3`EU<&eH`rw<a2<tAg+@l^3-82REfU@KHe$??1@n
zp78~yuRj%8E~H%udc()M33tyLAaKuOsO~nwqQo4Wy6uOdcO|$VG!OG$CeU1q^nM{<
zh%YxnexaPv%fs`KEzXIbGH!Udu^)wlF$nDHM^?Bw)^_(m`^I&aJva<;l~c@x&gGHJ
znHU}B(J+wef|*DK>b)=FOBg+O`3`U*U3=h85I$}wfsso*1k;_7IEU&5Ib(YF%<+7w
z2i*DP!0YXZ@&|@+rT52otN?Fz_n>QgC^qegf!IzP%GT4vtP@h$FuWSOL}Q6vw}E+e
zBm}6hynefqW{@W6dvAi~_s7_Ax<@yiae#B?Q)X>bjwvH*<h@GA@tYEO{nQhew^_q|
zPzqI+((sa-g{SdbSX&tv>ibE{xOvHNo*oaT{S<`RA}etJjYaP0bUd;(!%5RAsI0KU
z{sJkuEZd5Pa$!8tnohm30XELFGhC2l3!707eAZ$Ry5EZayOA`v;K%I6GVo}A!(NX0
zVuaqA^Npg&be>=m);x&Y`hjKD8-r)%6Q;P|633OM;cYl^@pcs`SnNf*xd^TvVMuQJ
z!K5`#G2T!sOgfUj^hyMldt@N3cAfpS$i)K=Te{=L(K`H-4XV$AS8q1tctjCWaGeF;
zb%f34sW4u0gALLwYlTk?x}=iPEB%bQG&_@@$q9eDx$x_?0K8>O4IVsG#(4!N1WK=k
zZd(qf&6C2+NSXt4eq>c<q+MK~j5Llid~K0K<?k`Z_h2f1zq+9}Cxf1Qs^w~)6@rn5
zbo#?uxE2;5b#)+41O{L=-33eTM5BB=)t=78&A0I2*9dXD2J)z+S;*cwQ_+#^i!W-v
z;Bg&do@RI0k$Kd+U)j#SDP-Zu&}+6PlDwepT5vq+MeO)h_HlX)*0+#fBiA1MNnhAH
zaXkpy8X!6#82Ke`<d%s->sS!3d@4ZJj(==2YbTyI#2_?yJ>1TIWv_;#@t(30XA^g2
zF0O)U9BT}`kK3WBE)d`PhM@PW6W2l(V_0?(xN<G<?DhZ@j>qD^uP+fiZ5AZ&&%$TY
z|2V%E=qDsxfTWTyzRNyEj8!;vD$b#|v<ep@qi}j%1EfBcK=B@B92zYqFTN~Z7b`*W
zg$TSa5XY>Uk6qULap`jic&C=Z;Yv9IP2`XlWr*Jv<oWxV2aa;$w4G{E`Xvra>SAz*
zG@76T8L(TF0>#Qw)R3RFo>=mu*Wyr`+K6ME(}=+nLF{ZpoI9q4GhYre^Yg**OE-oZ
zaWD#-MeweP`t3Iwh~rd1{zq{fNeMStx`Bs$TS2J3S%l=*Iq1-S#kvMvaZzcKmAq=f
ziZW$*i>`*z1{JIny2CD?RtKlo6}=GiJj}d&jZIN5#lv0k*z39mo#{)lP$M1Q#AuHC
zM!@!@DKf`N>nasR;R5>Xr*qKSXbqe!iG$3!Ip`v8E3uq-aQQ#1E7K2gg+j3SR?Rq$
zS!2JSD13kB;7+(7rirUV&3Gz~otXlorOWVOKY3d&US%;iETL8}j9`;Y_=LP>DbW=`
zsXel2PV?o49CXhF!TF3SWD-bEpO}KO^)tb5vw@u_{!#YiOuW3(X!vl+FDAO^J~N<s
zT253T{v^qe@6R1-WB=InBtN9rYGcjK^*9mznHA78JAb(%mUVF&j^~>}&C?diOGFSP
z)P!C~cjS2gViW0N@ZvkbPUPy~>#j>oS6B)f+V5ETGafv-_MV*~t~XZk9h0s!$HtS-
z*wv4IV0l&KiK8si%e*jEG{v#W8?3kBDjU9SgxK2^kayyTpN<qF2VSzv<X?X5;fO<m
z!YJ9y0p+*TQ1_1b`XFH(w5h|eSs2bM(=%~d9!0V%VeT4>bAoDky8I{GU#$YCLM1qY
z6Qg%2hjQ)~!=?e6k$okvZ+0n8JX?jc%j}UtTGja)L8PfI!pKHv^1gn@%rbr~a8Sb<
z@((%sC>YKisUh8r@<T&Sh$|d`*xSY6+(?YOwmSBl<wa%e9C-eE&p1wKAj*Ib1%~3N
zQ<-G%U7b-Pz(M(t;h47f1Jlv<L+@}S>ZV8F!JFCW-RXvc_OHyo<po>xAsxv&i*T_{
z7XvpwF#;M`cyuDP`<tN`s*4UiZkq8K;cRX+E=^@PbJq@SZuR5?nhlxr_gL}uCMbUe
zB)-SP=iyAO|E+^rKP;f;Ux9_BoA>l5>+_~dqu_@z@=8nav%C=>oAcp#TpKd2(x~0B
z1gXLP*y}E8a#of!2MY<j<ZD6OjkWrg3w9v1L>4o`JJ6ogi0;-wEE^lZE~O^y4GTc;
zvQRX(7{F~{Dfk|Qq9;KZ*=@6FL$w`vZ=|5_f-kscDnm>_9!IxX;A~$m#ss8LUblx$
zP@jEo)eF|GS&bJQE?D!QKenlw!;N<)ympsBwsk(dQzn^;yecuX%kc8-7AVDNK`H7t
z^Y-&aeduSV9`cU8^IQq%mAS|+NQ0itU3TV#FBXcCrl>24=gBH?UR7@3pr%CMuOD7T
zZbI><0@PJWLZ0f5Qz1Xu*4A=VZ;VI8{S>M%Oz_F+Fxxy|4Dnwh^e)-<;e-VFve)Ee
zxrY(nMXtr|$}$+PiN}<A#Kp%1WAWe;G~Ql|?ceNiRZ0@&xdGTMCy(4&KG5*|$$|od
zQK{jB&E#9o9Q(|?C8xsq0{N{=tI@jtIoqnY7K74SkWV#%<dcWYk&kAh#CXe=+T!w;
zTg-_xfRMM|*xa2B&H@RDS;rC!GXsUS3n18jh?z*m!kPFG&U=+G-Sdl8*%O;75{bV3
zvoJi{A0NAd3`$#tF}S4;w~u7w^lDQm4BusD$3q}VjBLZ$Arz-jK90yS4BKmB&fgC#
z{KX!o`I%d9&ez4*u<ATZQrn2Abu>?l>ck214J^>~#g4W9_?J(8%05&4kV(R}Z7<l8
zc*<R!{g-XdQ^eVwKA5(!3A$gkkhH!K+s6x_OEcb>E@{l%b&jp1IhE>LO&C3k0sqTv
zXb}_mrAHiZ$Y1>OybJXof~Y%Yg9Q&waBsB`LLAEBIA0MHK~#U-@<pWG9Mo5xX42z*
zc)iCSTxVTzwtqU@`-!WIaVOn;E)F$GU|LSMzE_+z)sj?)JUvD1Ruz74PlnfNPox`(
zpmiV-ch(c*f8_)eY9=W&<vsiSm-xDDQT-IRE_4*r*=V;KtM`P$)O;&0F53=`L!LPI
zA(`srXzZVDjD_yau*=a#0&#?y>+BFa%y3sD90Tv{@$;BFR<C=_M)pyTOV1;Ax>yWj
z`-O0zDi<G!Z+@iGis4uTs1S4Gsi%foZ>pJ>SRib9EH*s(%ch)Ag2Q@0m{rMwPhtTA
z|5?INEeT)k?65{(02|l_dM*{ws~3Y*!wxnv&lcZJ6NnS%N7x;12o8wpFMtrZ+j!t(
zG8ciR>%c7&jhhu+aNMVb19ruTI7~JDfiYYzr{43-SN1scCp&T3OOG?`HXhw|h1B*j
zylqiM?&nq5W8npk51zQ;SBe`l8*pbvI2wZ-$g3lVsE+AaXylA(q=i{o%*RnTC4@{R
z4|*&=d54uTcyt3>K^oJv!C6?86o9grkL;~%BU)m;alkSZ&(11B{#rFO|JL9~mMlz(
zE!DRD!=`-kgT}!M48^6h5Br80U)}`E^GIY;t36okDh))ME@RHl+u5&!7mW`%xUsv{
zIV{{}Idh4e$J)$P^o+E9825HB*7<pq<u^QHa>ZrrFwLuzEax!qu3Ic`K_V-Z2?ftI
zYxd~n6XVub@vOjanr_POHWn10#%!*?VP#U?OfCBboA-M=6PRPdRM%884W|R_@F`ms
zUg*NMjPbE6t6iAPqhaG>6<rqS+|53{FJvQQ8Z38bF)L|2%53_qSaVS>ooU~Vr>r{6
z^b*e*YgBAxD$g#lh|w(akyo-ZyB>B?bsH;osAnc;GL6k$Hn2zPaje^{f-SIo$6QGx
zD{obX-J2Mk*da*XYENu5bwuW0L9}~|!&6uY6I>%~Yv@#%Ka)mR-d;m>Jr0EQ2w;7c
zHtJq@VNK{?#=n?!9)oXe-%VqvmWtqY)K(l&;lLiLPwacNB1VPe3<uNa;2n8l2N$R#
z?p7lXUiZgvDF=f0%*F!e7fe*g7f))hvAh?;Xo(+ZYm?rvjn`hYx5SC~A9~A-Xns9q
z=X199S|F|-E5&tgYaBBb!S*CQJj(gO3ZCv~O>b18GrJN-cQ{c$RUCn{4zpIpXaqH@
zA@zd*oKC!9Bjz)a%((z{f&7@6OrD4u0i>qIpu6J`i*rc>M;o1g+@+MAa)Sx1aYApq
zA4VvDMeUz1Zco-5r2B~AeCrbIcvp?<mpzcQa2EE)JHxU64-0rPh*w|u5E}9y)>6L5
z<dLT=y6`;fiI>u=45&cL=Ev-mKqqvU&BKY%T{tA)ir3}wU{CB3{c{mgCJk|HXCmEs
z&)MGJu4pTrj=!?P@VH@(xHoA~7gt1y^ddZKkH^5$|MN<!@Y1}?>^IuOOG*JxNe5Xl
zGZUc(k}%pYkIB!{n3fq1g#t-z_|5R(J?Y_jqS(4W8>uuC9&w|rw+qWKIAMvhFCW>i
zE4}dko`~23!Qd&FLS7;-G<y;o@Y5Z61=hgbZiDxeu}IydgB#y#@U;2>&Uc05SIBOZ
z9B@HYQ46x^Ztn~lMzAn>abL_vYLp3971rtLMocqV`f?W5Yi@<k86Vgk>w@(66|g!{
zf`|I6;c>qSzXHgY?YSKS!eL0-Zc6%?Gv$f6Ak4WK3#KceJvI)9e5hx3KFRoHxgj=R
z683jR$;V0aS3W7Y&+0&HdNBUpFTwIuQ}7G)(Oh8wi|HBK<tsz;00Wf#EX1PK3s7#&
ziL0YM_&n){ZM`ee-r<BJwpFBmh2#AyV;oU4$I~Sm2#gZOjd)%BnQ4wllPn{_cIuN$
zRgo<efR9lP*#Ax+Wv=;{K3y8?0u!-sqa7yOuVdYJDbmzcNb^s@;<9l=<)!uL@J=UB
zK@=P%52Nh@X$<835vw!AHZD#ydKJNJ+6;XDZjXd>`WT2b182T8cJ7SAr;^z?JCKQm
z`i}U0KOf1K)H}S$!eXa6IAI$EZNon-NMQ=ZT#8U_y&8rcdRV_6l*>W>AiG-p3yMVg
z3v1GP__24w2ELtjDA(}A!?ijvyGgysU2{Bo`<s~+@4%v)LC~!5!-~q2%%NEoTkeHI
znzsnrHKIt}s;obyMFFEX4>Q5m1L&40#^1Z0sQZ5ptDuIq+D*8;KNQQVBu!Sml|a1Z
zYzz*EW6#YLy(9EHPMj}KwRIuXCMj2<tD9z>+tJw(g@ZIB*=^|uavXu{T@|kVBu|C6
zG%WipA?qRn>F{(&r&4xUlQDX=pRrYoB*8b6hT3y@k-wh<n-&xy?imNhnigUGc^jyY
z%!9^Y1O{zwaQt&3q|Wz4x_UXwrqAPFBh|CdlJU%n`tvwd#BZr0Pp&8ew*O^&elI7E
z5U9QHgI=!7%+gUF{-J^R=vjuOcLHb`d!~1Zd^t0gldt7a2`q0mB3mR2QO70mB7HXI
z{)s^X<tc9Vk~CRyN1VKtzZsjg0teIQ>QDadK<}kr?D$9{ik7ruR!B3f#do5{IUSnI
zgOE*k;nxZY+~XlG{E#amy?--@7)~I?06I0r*t$9a>;9@j>4X4GFEU8%O~ax-KHRMC
zVc+hk;d9bMHo3f(as#Qy+N6kgoZ93InT{zPISAfVh`*H;>=1b-=kAM!(2TX{qTLSn
zMZ}2Z^2MRYcCdOf1-}&6K+#zZM>a1)LfUP1T*?;wYT+0YoJ~1qs@PW4sc*JL3P0a)
zA~>%S8+tmS(w++c=w^ss(MI8n5bO_2z(<WEC|h=mHC9|^&7Z%pqbrs5BX-^Zmoj<C
z6Aq*Pt~kWR`VlXYh`Jql(7arP=lfS-wzwbq%rfAY<cRp^lZ^MGD~v>y@JBBgo`UmW
ze8wIZ9Yi2AtcK91<1BuwETaGY#|#28VDk1HD>^{lg2PT2xflph7XjQ&O2u<C;($2$
zku3F^Eu>7uk2<l~SrLm+($5=A3UF(v2@koJU`4z*mi{<}AO%~9Oq8Rbeis|kEX8k?
z5)56`L*fbYxlHrWx6X8cgN+Dglg^%W_b{$Bmr%XG3+f4TQ9pkJ4&;|Yw)Y1XypV_P
zJ83ju5rm<|485a{Z}B=j8$0_Sp@`-St0yQs>T43riO0#RT8RZehLHC@7Dt~4A<ktQ
zgomkqRhxrVGv**`OCCB$jnFq!5sEyP@PF%o{|;ScZEr%L6>3AhPz25d%VE>rPDJio
zia4)uyb<-mwur6Rq}_>`tLNgb{w#cdG!yNf2~gr~!buUzu<MzRxh8*^SWE!*T3gwb
zleV}!*8%RNH(X4<%k~b7VdR(>vKI)`%*z_jrQHp<>N)5gipB{(@(gXTf%hQg03^HO
zLOds$dN*Kk!DZGqeJ>=)lXmyrTgH~{Vz;?h>m62Jh<oFY$nVyU$9$Ccb!82T<d>mf
zI<X!q&M@|kLWQw5rW}uihvP|hfzK4;_opJKN)SI?91xwo5=DG+7^k1hhNBd7=o!CP
zA_TsdFWFa5P1F>~V<N>L?cYQ3@V6E=M9Aa8MM)@5=p$f60*wW8QADg;#&khEx=;k%
z@qpuLO9;*_g^ocg@_%we@y#=wIq!q<`9lcizRl)!yCL(o6Q&YxJlSfGS-U*-|2Z{b
zcQeD^-dn_R9EBsz;GK5VVvu7#R!1)czg0E*vc6&M-%spQs|?l*8A9flmHw7@Hz<ED
z2D;|&v6mPwp4><9kD$+MS}E>dX~Zt+6*zf}diOPJ@bL6p967}cmL7rM>OrV9Yr_Gx
z9z<QK#<es2*f$vl-#9tEQMbqFHL8<Rn&GozD&Ac`fo<QT;pmZuG+77mx0RsQDhr25
z6EG_L!E&hn7W3?caDE0JL}elWUIj9>8?j*_&0#u4spsE{bNmg&kQbq_m;<NGZSa^_
zzQqqbFxxl+Ci}MPCsQxIC6M8w;d(@+9Yb7SIs7BHBU(@ao+rCdTpA7Wb>C4bu8->B
z`Iz48jv<#e?cVNj=#0-nWxfGk-lh!9&8>L5ZYS1TdqMVI9p1P3LGm1NNp*X$;kyRJ
zug$@@nib{^yCI2wKlR25xH)2hdpq6HD8h|RBL66Z^8%~8XG>gF1^zp#fzX46@OWE<
zV_q9^Ptphie6gs`UyX(mn)m7QqU^6Bu5Zu4UZ-|^ogE8asxch83*bCqj42O4Fui{R
zI803SB<02S`0>JhpA3GVEX46!g$R5@9{sEo{Y~rmuxIBu+g85|M#q|vkVv(nq&4Zq
z#xUGN&!}iT8jQ?MBKC>H`7^`XoAt;Gt<^t#<}|K~2w>wtF8a)ggV*fE5!GJIyp)bZ
zskx}hbb`0P8tl5d;P%!G7CUudMOvI0^`joru_(DVAA3_Mv*#}-UWV90s?r1c<du_;
z;(-Fq&w7Xf-l4P%RyySGxKoC#-*fSNi8iumKGE>5k-Scina)FL7)Mk?jBP~tst^qD
z)`OF)8cqAwW8QPhvG{od+@w9{)vv-wnklaTP>6=(DbUgLM&55BB<)_Or(Y5P?gQ2c
z-(Cn2*=D?#Z$MDeUi3VR#BdJH4d*4o&`i?g(rf|D`YVo8e`WE7zV3<i9b6**`}M2u
zNTPY$Lz*2q9F2z3%qR@{chIwS8b_~__Uzz9IuR%NH6$=UED*1RX#TB3zR3itEzRUG
zrOyeR>+4WLzKYxA>EfMfg;7W9KbEUtzR@M9A727ldd_-N3c>9)Og@etw0+h<tHx7y
zNr60YWm#}q(uAifuUVsCH8?hq2eY;T-Oe(I4~WDj4>v4q7o|)RY0UUPQ*+}n%d?V(
zcd-n%4e=ZO%I5)Su66Jxv2-H~AxQd(=W}!H-^~k!>kddH?#OENBxUsoBA#a9Tjo2$
zI-=AtrZNc;oF1?~?vIJxYrvV1k1sV=aF64MHSLD6BW|yL<8`)eh9;ID=fci03E1*}
zWLFN@5zoU7safuLwMQ4iroN~NZ6uGEKP0zFVEaR3tnv89^p{^`_jiZWJ-Q4I3B+P-
z7so+j>~4)lBbJ{u3(~MxX1=AmSrt9=vT^i>3zpJ+^Hxm*(mK45y7MKo9y)|uUd4zN
z%17GwpX^Q!^#wGCN+6ATq?UBhA}#~LS{F>$yUS*YJi#Wf0i3+N5-TQ>(SJ=F{SjSo
z=S@eso0>_@<C(ZTsfGUep^!LMqNg8v2tUZLc4%5Y<ov^N_V0ddP8>n!od|q*v=URt
z!%(ed3h50ske8IE><f1Yb*5wAZW}1%6`)qu6z%-6l#@0c>4qv;y;K3pZjyNAAWO_$
z9SVJ<vFBVqdWG`fyto{z7FA-8Qz{mYMq$!?6dVp)*bxUnj^6plyIY{}n-80Q51=Y3
z42o$haABz*PWmiC&huoPFtNhmleu^?pK?@IQ9i{56Z}vOM#Z-)M#kZ4C|sn4n^!WR
zjZVsPw8yRxx^pS(p~$5eoJYNJN9G-tH>$(Qggi_yiy-T7XEe8F9n@5o(r&Cc3@YEp
zQGep!?ZUwM(i(whDbJ5D8C5&Qpd%NIm}A5*3KElfRR=n}nQ;24jDXWi;M8G-e5*2C
zHR;8-f2D{#?*;XeXvCeN9yX2-V)oUjFdD#yItS<%QBLkn5uEwhhUY^?w6BVCK;NjK
z$0eBZ*P5Zb>mRewB%b2zZ}y`m0JEZZv6uTjai8>Ob|4om5<ggxgDP$-`QXIhbc`IP
zy83Fhf#p;&hz8J^crqPADyHbQBr4zD3nz}hVQcdSpi}&bb!QAB&{Y;f>mITVvWMBx
zcs;#M=ks9q?KCr_nz3MtA>xhO5G7NGta*M^<GG@nBY<Wfl(i|Fj58@8*oB#{5a0QP
z36Dv^bC(^CE-S*tNf|U-M#H*~_(2DK@+gQPwf{K#Q>~11ZIrWvNF?tK#s_-eyB%j@
zb0a6>4D6AtrHH}b+IaU*AA7p^a9X$+_vU_KXGPWVCEf@(n=J8S>pgaAY%y_68knGr
zjwkb||EZ8i-nx%$OWr^B_4^TKvcOsYJFft^)Wj$gcr7Br!f@dc2UgO2wJiM!>-|rc
zYPG*CB5^CqJ9n|x%qOgGKFvy$RdsiW)<8*bHttH-;2O;aTGB(1mlcS(wYS++V=a8K
z<wwHz_w3P>H_W?Q3w0(_@t|%cd!BcerR&S0Q9})zs~k~Dd3()?({N?z0sCxrik0v^
zWHTu5>OZMzP_FRCEq$63uam<tg~p|wHNz)j)s&>I@JYp+>D%!VOJ|I49x7NOPaZQx
zK3v_NiLnMXC}-Vg{mYi)MJKTy@8>{Fbbwh@Q@&n~EAgH#;HM0de5WG@4|T~`y=WdJ
zb2frsbRqIzOA)7)g!}$nklq@F8>f?yo}PpK!+PlD|IQ3rxiD*wir$Ph*Ray#6O)#!
zfw-k9)|wUI{ike%=m((sMIQdrxiP?%fX2mXFeE?P$NSW8iuq&dQfXYg=?kgeDJU_F
zKq7HZ3WMWJ>DMi``jH@flV37N@>X&0mIn9HRNUNPh^j^t{GGy$=kEDfpPYp`gCYoc
zu%G=WWr!BaI}7dbz;=EUn4fyY7Mt0S&r2RtZ{A`dyH^v}<%v}^7kz(-1Esqpi4O|I
z^{+<o{H}ww`H%G9q-n!6SpoJv{cw0+i4IwN)Ra*!?<W!LYR$r%rxAGkXe&xcmlP78
zh8Okn<QG@g=N|6E+ZqF0=3NC_gLzo_dI-7}ZFu%zA&OfUAjCBl%JG@#-q?lmg(=u2
zH5-RqeUW_+5KKu!b-yCsH%8%SjS1dqJz}xOSDCdF)g+i?TtZ9X{pmaNJ-QaTB-1R*
z2!&xR&0m*hfu}qJH~q*vYcT~g6cphW8A6^tee~P?VG86!%xG~%zeoy}RZKAX)C}A+
zHKo0GX863q2qD7!XngsR87{ibvfJ*l0E=<M;M2S?bLK?HkQ*+Rdqc%o5!OvkxY)uC
z0gDLadZ{6~VLwjaJ;bV+5E9o(VDP)Wp}BnraZJ|a`L@NBbKOuY&c!k%V6D3qLMH7I
z`Y0BMGLA9BS)%wX@|u}Uxy$@+eqkorM!0cK7)nPiVXebOJh?GMUd+SeMJ^~z=f|l`
z1#A|R!NlIZOr|&$W@n<2@K2KF<r55VG*Pju9F21BxN(^Sda^U|_NWZ(tD3R)l@+9}
zwj=hVHi9E&BlEru>X)cvKz}c8jnBqOnP#voSDd*;9)^>LS$=>b)a5+%&lVJ8&ASI|
zU~4^C<Z@I|ZG7^D7Cei2aNoxj=Lf7&>z4@|YaJMgsiWDLe%^*y9iv}An9Bn>++DgF
zeI3u)EIMP-r6Lh~T8w;bs?ekPN6iY#z}&rwW>tkSA#LXIlx#Sa9AObd#42$M<Kqxz
zo!?lFX<rZG7%_^v<Tv9d<^nQH@%g+Rg2%FHz9)&FRC_*{k%5$99?Y?GK>iea@ZF_4
zVZI<P@0*H3rN7KbMjK&V74To=jtLIRPxa5j6(cujW$%M^CgotHQcjPUGj!G}qa^Af
z8;A_WV`U|S)fXF)Jo=b<HEhJx(9^JvnoSyfIsAehpinmerx<&jbM%4MDsga5Q09Gc
z2L}H(8m=(ogMmpI0!H`3Je+d2)Ln4*OC748W?=N=ENGoti=&D8P!#LH(NW5sp}B+h
zo*pEMh+y73A>0-upVp8R9cHI7qw6Z#e~}+dhZ7gylMmUp2Nu)4u!or8Pl!WffC#?p
z27pgP8m^DYYveZ{R;Ho&s%VHr^$a9%xWlMyE>7)k$7xkvoPH-q{(B#Y)z;#Y&Q`1>
zmf>(`4vKtIV0bQ!>H=kG$wgz~+I<EC&2%pnZeq_KZ6Sub9cd-;$mpcJpkV5ePc>ku
zT@4Qw_k%;~9SayT#;oZ=a2mGP+p}&SK20ai#&R9pY{DqJfWFSw4x_nd7|@EO%(N=Z
zJ>ids9+WAk9s!w<WK1~5gZuFn_BMf^>R3BS_sF7q6S0FA$4NhQAO_MJhG&}599#}p
z@8x)#mWzm$iAX>BhP|4o0RL3VY*KPTanyWFP#)+RIYab3k%I51c{nielLeT^U@?aq
zzBi`gYTyLBv~vlL98gDcG=q3L`Dvf>AZK7JJ2dYU%ULkUcHF5kY^UF?>-G0cJjod`
zbE6?UMGh~l?chzB#8JfG9kSQL=8U~K^J)((CkCr`QUss9xD0djs$pPZjOsaoP`KBI
zMAG!GY*R+PtTFh%IpgxyG~!baF+Fo$yy-r{n*UvAi3a=FmYYB{w=}jFd&9Z?HoIm+
zIk0tM5IblJu_#VB&*ntcs3bCi_puV|43sBF!JY2XGBpmYTQ{5hF(n9bvxG|TUzR;(
zI_!^0LA<5{vj%ygb*>gK<5F>Hs2<Xsa;SdSi;1pzND4E@{m1fH#4n2an-5uQ)j#&-
z5GOc7P8!-y@kdzB1S`E30WnT`e_8_Yo}M{BPgUx%f?-NN)f2)a*#Dj%BT@RenBj!K
z9g2oIuNFbIz5p@TlMr@n6_kkw(C!kUxuP?krH6r|z5zU^zp)~#Abh|1hFx?QL)M%x
ztWIk_wqNr_rPLBA(Ts-wlQ%45YEVDj4wm%p^;KFSexEY#JRE0Vsup7rWd{D&EQtwX
zzXJxiFvFR6nOslo47G>+kKZhK2@n)nO}=$8e4W|@F;zjxmF1v9B@XtH9h51z3_r8&
zA$uqnVKJ0ZDBzE5t|TmJN~c|{mPRMMtI*?nfgyeac=@)$;!r(y&@=N*MF%HZdLa??
zo(;!dMSX}2xU$LHeOn$on3VqULCWJStAp#wK6Jg0$D*%wFsrS{mVdPW)qy;K7pn0n
zKNh~NyI_041+wMMc=vNT3^%JmB0dbyOehn4b~re<Q?_5(B^b0)&Zn&x)MV=MQJ#7X
z76y5PbZ}oTL)6Kq%;}>KPTmqjrKtu6N3{^=nh2p}4bn)QVcn~R9v&~s3)+llX-=r3
z8vjR!33?jHmvDO&*K;YCe-&kT{`EsEw+1d=`OKu|*&!!zg?@}|EyjkvvW2arla$n9
zy-^@|%WZM=&Mb6$1!C?k8>oJ2#;t63xEm;dXMniIfR#EPHqV(xury@}w_*0Sf6Ugs
z3_=B&DA^{1SAU$b<x?_7K04y_lU-P5ObmaFA(AdGf<x>PrXDGQ>uEx;-tUX4#Evi8
zaR%J$rei6waue-=s5n)FQ7#`m{IwWI56p(LmlU{77h`6YBDg;?m=OnWz+r%ipX%uF
z{mPCyk*_pZ7t$X((aY_Mxmlv5J4iz1LnLS^HO&2O5XVOv$~W5e%2YA6^fg-^l#c;L
zKSRDvrubGf!j`L0onq6B7r%(hITnn<r__JkC*JmfFw`V#v0X+Bt=evg_mf7TOq-rO
zPd<3Ut8wu4D29a8vHH9T0+LkVaoG*Rr<AaLe<k#5g2{j1jb|Hk5JfENtY6{q<+{Vx
zREk1wCS`IrJK>t*38ZL_6FWW^I_DIyjWU?b>bmG|TZqH7FUB<}9-YU8a8D!yig|??
zOQK#^HiKA19|&>TVgtWDmXS|tCyxNWr41m#mFA6US+Gp1!kJdOpO@ET#iv=YNGKyd
zocy)j5jgqhJd3+#ME6CgzWV%1G<@u3H+yQ)RoH{-Y6tS>o5TH@09wVC!R<MD{sn1|
zD$Pi<oxQ=SW)G+S3|;-KZ_M>eJ~XrG`wSAp!mt#K=~Q7C`LAMAXdmpfW!OczO)I-v
zkuSCpPNX|co-c&7*Kro-sE;Rt^0>M+1iIekIKA~CMD<><$wBf8I3__{q!1%?hjA><
zrmRF~Z17XVsX4T7WyfW9B%Wpg@|yU&b`H9gKe1aqVwgtf;kmbWnKF5(Tpa07`8YdG
zb@PN;1Ok5<gX`NI++Zp=-)9W*abZ|!d|;mYrD?}Txgqy?O+24*oqcRp#`3A9m;y<d
z%~*f~&xEi~wVbj9U10po5{U{1;GlgCOUx-ln^Vn@N0s)xNJL`3R~Pl{UMM?9xt!xk
z_;>9wn-gk{<U^X^GNF2-H3m|oe{EUn4pEhINa$W-wGU^(ZuvdtHQ|NVlo7q`*bsDH
zJY#c?azJDtnzG3(V0u#r^6t9e_&W<Go9XkLw4w}R`g?gDXp<*-AYKwD|NFzvZL&v0
zh8zmlH?t=L*O@?j50egh%JlEou%lr!@L;r?>3VEo;kA-1S=5iUoYQA1>bWepvyjDg
zZ`CXI+{sK&SQuw+I>kJFiRXLW$y7%N*-y7?l)ZM0HTx^G%YJ<Lde4=0Zmwc&HNNbE
zdzr4e#tdfiY6F}0dp#3jE7(NEA-2w-oSnQO%}!;+v*wsi_JX*c1F5uYE2W7&>#k*q
zTQphc&_3gH<9pZ{>mBU9XdJuy<RIIgexF%LY%vZP^kerppRrGhr&&s7IJ2I*nrU%=
zU~?~4GR1&1%&OUqg`2HpY{?dOH8+NdHx;udYGLf*wzo|9-yfE7Z5{-kQ%<UT1a6c*
zVP>!M$VX|6Sf+(_{mNL%D+&vx7i@IT4R&eqW#+N<hhbe5KbkwH;-QWk!YNB)-4->N
z@)%=9HwWrP;xH>)3?XL@L-fUQ=DAx0UKNsvRF^m8+u8!x89<2yWe|6+gH1Ng58fFe
zCR>y8O>EHnkKQwnA?CGF62l!&nZ4Z|HuCKw3u;#<FBUH}dG(O{cAOb#7~>}S+j0gi
z5Ma%R$DHy=yeEzz&RuNeO)6x1qp<%h<%Z~dW;TJcloyqY1+T23c5XUS>u2EKF3PE}
zs>Mc69m*zeBM!j=4&;rwU8IVjJ>ghke++sB4BiTq&q;TR)GH0hgiXVj!x2a}Dlz={
z!4YLP``Ik9HXJ+JiZFiaWewe-cWWjV|Eq@AT2*M9FGGD1^%}{>cuZ%C=SYj5-eV6O
zG|qw1ml1rk(S_JA;w&O5lP$y?9NIFd-B5)zabq-WZbGtqHZl(Q!XeuQt9FdB8Q&(@
zv2@yHaZnk)hFh^V`zoHUwnA9C2zvH5!Szl9uJ4bbeIwMXk5N|4cTVupe9r8C9Q2N-
zVenQI?roThAyEbBR!KwiP67rU3`qyr0lOD|Skn=Yplzv$cwL5)>*45#@WMr6IXTkY
z;C;oI_*?^QPOV47HVMP#pcFhIZTCA1#*wfs2y*tLvw0DixG92fM8kzQ3whNWz~ARZ
zxr{Ww=heUuKUYKJNp5IHRzZ4Q6WG)ujLsOtim@KtJ)wddRI@$j>A;+zC@9`vgMi2N
zxV4#PnJ>EW?($~VA*hZ=-<`1a!5ZYM({6+0dyuqy#_anf;5cm!M&(MuTWg54ddico
z3!)uF@~9n)gi@X+8Z~W@oKk{;3#w=&b~|CF6EO#c@T2*$q;C%GZCilvj@9@bJp->+
zG*O<ID|Tmiz~ZzYE^?|MWKbOa|NUl(p3|UXQeeb!Mg<2rl;IE&g7+NDC`Z>0CfrHb
zuPje~<x;3y*rB`r0s5~@vX4i!u{$OPUz{HqW~@JiW2BGd@Z{p1<9@sqZpP%Z1mLX?
zMk-TL_ofOi$8Iofc@_NdRm035KN*&A;Ydde-Iok8#A_-26Q(^2Zj_(B6wD<9Ui%cW
zaY7l~>UuaL_JHMuw_zZf_&9${2z*nAsev50=QqLh-v9R!PzL@bNyJOr;(R0R9$2P{
zH$uC}4?M~K9Lj^kJj#@!p0>iI3d0X6i`62N^ksD{SvCh3DK{f`+z<KQNrqdNWP``W
zi#<Bqh4;Q)SV7u(ti1z#HmSm_BM$o8rs8k<R&1X~>_MOn4z&nk*VN0p(?o<|e|06k
z(mZ;3hAQb&Tk*3j8OBr-olT|PEo)oQ5TlQZ;yy?PS3~&M8obF5#h<`atcNm4qv&&+
z*qQ{rkpS#$IfM&4``P#<AJm=i#5T%eTO2Hp6*LQa7`_A@XJ=#QvJylOjj|D6@(~Is
zgKHoS7kBVOX_Fp;*QBF9oA|n$8_~K}3ML20=gZ}Sim)Bv_+ExHQuesJs|*$Ebl{`o
zPQJrH==En}o5nB0we4MKY1+bST>Fsa+=VlO%P`()j1mn?wD1pOto%GvcrygPcFGVA
zGo)IZ@@+bg>TSOyfg61duo<qz*Z3sTOd3)3n`ZOs!k8Hof^qHTl$Y%fo9=_;w{pQP
z<t`*rt_~-8PoJyjU}1k0!Yn9{@?ipE=0C!vYcgmj7DkrNsYR86xF!Uwamm5Mz$RQg
z@{?5_4x%1G4SeMNK9XllnITyaTB;4t1#TFmf2*p^MLRvb@x{;{Pn*@j0+aFFP7h_8
zMYu91jr@@;%((B2{Y!PQ;QmWiYpVdCr}_pvG$XNf<r_9MEd}zI)?)hWnaE@&$lEA^
zgLHOXDy1CmOm75@C?az(5;o41QFwW?-u=VmNBBV5mmj)dm??*ARpkg;TLP;$TG(>j
z7B3FjU`7gMb1P7uxlB3fOa92+yau+puNkMF7=+}%u}f`~yD%dkSL6@ko7gATe&82-
zRPRe13b9eSnlKr)h0|(c=buPm=VmMHmjB20oOD22q$zqNEg-s(1Aa}K7#|kJ6T9bZ
zzE=!3M>@m5^9NJQF~-N=@rarOcn`Ut|Km*D*Z0K<%Af0g!iga2n=~6{84Z4&gBeW^
zS^sl&h+k-<Yy~}J-syqVb1r;++6VnWH>@(5i-@T~coXge-u1-rESPGPyqgatACllO
zeKRI+mE)vN6Z&MbF;VoLCH$fslUw#EBhFLHGlO<rxI)x~YPwsMSYh>m8O>CM1s6X8
zlVXr!M*3;OD9s%da5_sI?L1|O9<#zml15&t(UBqSfESdbTUF<bk)={-+U<(O7qmlD
zPYxo7$y0JR0!6VNc;BLqHdXRAuTn+K2@y0Mqy3-E0<#l);r2}g4;8z?FHh(3I5#u|
zPO$!qwC8Rj-f)4V0*WH{Fk|Xb-p1C$j{H7fo`+KYJ2zzMGqtIifkhU@_&rq$A3BXF
zH^K=2X71PHedUEPyL{}U=Q^)V1jjqfQB8Nh)@j<0XGL0fA?Y^Vl$ZLn60NrauvCaL
z4EBZMr1f?7W!E?6XQKp*lMGeDos?^T8qSj%I6`OkxMC{i38vz>B(bhl*5JMG28$Rm
zth(lfmfi7G`+LCly(v0&(Oygg$^f2l#ijgc^1I37_U1myAzlDw(?VR0Y#}bf8)-(n
zkgTXhnfUd1&~665C4RU*{*qndEWo`$0e$-@%KG%@#>LScP+5Bjxkm($G**hU+{Ao(
z3`1y|5SpqNU}P5Y7(87Vl4{2flgs+0q*He)ZG`ZZ<*-}@a4S*1m3tG+N0*}1Q4fP+
z^=MUZ#-5TJq!&~pNHv-6)HPUQJCkxposgBUgFFKtM7tiwy`ERFImi#2C`aO%YbYaq
z7<QD=oVGd#I(KM4%my>0NY&!JpFC-?^XR?^z{R~;2<YH}RFoa+%YzWUDIP;DSCPk~
z2amk<xGP(Nb1mm_%U~s1Gp(RxFN=P0%1N5yg*MWm8i?Q8=XKt2=!HKvDDa^Cei^)H
zbt2ZFmh|=l^nNwLxlR!X{~)~}b}M=qKhDs6^P#mToWhP9uDYuWL-`hXABe$8$0}^!
zcZPDnn=$TGihF&|SiQ3ei*#uhqjVj(euQKCuOdu6(tzHuFHB5p4n#Mtz`gr>z{Bs4
z<F|JZLw|>LMJ3|*QtDwTuk1DHCCV%8QMY>?mXj{nvVIx3yZLeSl|Jk>Ghk|DhU>hP
z;k&^T4}Nck(SM3K)<>S?8ezPjUkXd|4gXD9kEwj?k$94FdCW4Ab;1Cal5P-4@kXyh
zB_4{V7)2qO-nFfi-PMVMX{&MArwi6MY%zNg?XtO34e99bOiXttGz#e~tu=x4Ep2St
z!l~~{S;&9Rb|S)TC9dtGp77;b3{-4_prrvE-g;rIvksoacK9c`1CvcF;OV^zZHsDg
z^{6W1ex>08=|1DtwbT!WVf;il=FQ+izyg09e3Ol0F&A`-8pCX54t#Gmpoi)PkD4M}
zjkv;g)mhQ5CvDjNUW}7#MRBB+_Tg-gfX@z2+-aWzVVW<Pgtjx4K1u8*ExVd}>|HPQ
z5pjujza)u5|A8G;m%e26JPZZrCJldD>*CDiPi$dj3@To(#2&4mEYhF_CN|^DKmHJ+
zuKs3C-0JxLK?_q-U7(qBmkI11GyHn&JsTmeeER(Vadg&ES*BeVmy!@9lrAL%>9{tH
zbP6IJ(y1URD4=vBk`fAnAO>JzcVc&7Vq%MkiVBYLo%dVw$E-DLWOSbUxv%S-z4vb)
z!`IE!4P_vT;@<_h<13H)XX>zft%9iZWZa7=z_;(#_*b8X=zD9hx$rZKsg}T**9Pdk
zp@EU1T1dAgz=*!rr{7X1oYHdQ?h^|$(H}_zybwI*hgHq02so^d-V6l{zW2lLHAdL6
zjLrl#E<CzP{Vt)w;Qvb<CJSt_rPUiV|BJ<~wNoe;z8vCDfZ=<ZFi&(svd}2|aB?Pw
zD#*tx%z+4QbAy@~F(g0b$006HOvW#Q^Z8krcRw6G#0gy*A4dCARs5p&z=6e&*v_j`
z`1Mqux|@ph51WwwQDTj)NuKn1ZKP)?7gE&!GySd!YPhH?Q*#-nv>#<Y50xoX{Evx=
zj<D{+>BIpdjw8KOHhi+gr;pQ->!gYX18WqS)B9tAAjZ4p5VDRu$&c=_!2jals1b>o
zhg6`P%YnQy>Q}DJB(F|5R3_+sAt{2*SJcs4REw1-w6Ie21Y#RyV8>Gj(|~Lgww6QV
zU>yz-hlxYg8_Q~EK;dW<K4ncuyyhyjAM@0&rB0LtmcwLc5y!ZOJp9|5@i8a?PPf#-
zqY#dd>o~Doa1&}?siQ)2ISvsYty11bKk~Q<4D}CS73GWfMma#Grvp`$t6}ItytG6k
zOjX{F?+b#VaH<RIpB;ri-wv#JnFYg-*ICldR1|%1LS<<lBAWAYH0&S-N`JF&K_NKO
zz7Zq$R^XPnJT_=}!1Zb+t}n8{aq{O?TfbrVLTu4%VF|fUX*e-W2>#SdFutN0_jF`n
zMLdq=?UW_2sDnLSptx7o!)e41g{NYXZ<mT|OQ;u9aSr@e65H~_bO=|RFo?0YLGOei
z(%cv0=hk}ko^V3y+2!O*nS)I=)O%64kXXGVSg*hdxBK?k_8<j9qqYXB8}Gr%J{7JK
z+1PRN8onB?!|?-!INlPE+ojnsD{n&8;CuFSIm5#n9=P4liyflV;kGju>beV2N<Ou*
zcS=~O9)+#nN@-VG2=94{fGmC1PmHid_5*XBy&e)1h42Vmga~1Mr0P+xPFxp4DUY3^
zP5<5odE7rwOpG5}@ZlnH@D5WhQrjG1KS?XBR)q13P?)6jLv)D--p|?yt;a!__fDU3
ztk2ldv>4b6CF`$x%upG#hcfOhm_Aa2@VPojf8$79H^izcD@5JzSy<y-PK-Qa4*f7g
zy__;~I`ehbC&uB~g>)FC9mHs+9{$woQJ1AM_%55`X%4X}ewCuB&;|33SK?!%KkX`g
z>G}1?$yb+{fAl}5dd&gK^9<nfZwI<s&%opnak*+~mY+$Qi`W`mPe`Tvi3?`ZpFMf$
zANH9q0dJ!W@kMGOwlDF*X<u#3CJi_E-CQ)C4aFnwz3i$bv14UvhqHel+g&1qZb1Xo
zB_~5<_arm>X^P+3msuPAthb8cY~@!|gnX>lE9*^x@hVT2e5V#4PDGJ6{~nvsuZt;O
z!k9tlSBF_Yn+P_>-`5Rn+qtO_Kc;|x4TbuO90M$v{`_`PV=UMHB2!lR&4NyI;^VAO
ztmV`wb6A@R4`~ThY}Lcd-np1=ql7B*lx@*>V=;Lm7!Oy%g!lxD6W)%JHEUsgyq?9q
ze??jIGV)`XVV$ZlK7W18el;c_+x9fOqGXJ>$(z{jH3FC@7REmDkId%5JGSW6D4SBP
z1e4E%8UE1()j|!(c<N)is}4>zlCO`0W_j{yKhj=+_F7G>wUr=0zW|<SMx)gtUpGw3
z1YRSb+01E+vC6Xv0}HM3C{rK0OQqq{We3A3(v$fru)s|RsRgrPGff_irjB}owy)Xw
zKl30qP(*(8f9&vE@_BS7VzHYNF6$HT>1`Nz=zVCeMY?KlHa0rD(cInu&f+rW?(mJh
zrSIE?Y9Fk(sKkA_jZn9}&Mq2rz)q=v?jcEtDU`w1m(-sTX$7arDNsE{o)$}bcYn~v
z0m|3PS_$LfB_+(t;l+H~S<8v4!l%6x=bB~Ek>!uYqD%0QcKv*P4S2Uw3>$NrP*F|&
z@8m^JN;tuiSE)nebg1s@4S6_w`!EyRQ%VfpjSz1lPtHn)Qxa2g_Gui>TF=IfZKT00
z)WD<1_AvI*fkj-R)~~>iZ1X(_djFT<%TZ3mC6*v|OFDMaKJ`_GHBSE~?&>7*7XRA<
z!JJJv_a+SQKCHo%mqV=dh%PP{i9+j!H|(SGV8L$VSpsRoX}Y*RN?wMRY@`O7qtSxC
zf6?TPZqvhFJAb^D`O55m=%Yo^4&&_$$PdDgh>5pscl}(v47|mZu6km3rXey-7|e#g
zGlx|U;Or;XoBT}3lUCl?dX9bV62$ohFWJXB8Dc?p>-%h##XZNr?5ms=OdL~*<1h{9
zCH-+Wli0E^y^-vwiz=-g)X{TxSmHe!Pc%Rw@&DVUR-?p9igZC@B3-INsC+oOjyb`6
znhkbG$)GF65&Il|v*$0!$3^<Msofx}Yt_XyT`T;vc+T>4c(AZo0)`Fq@O#n=TVB(Q
zHZc=+A+p#*J|CTrU)i=M^0XAW;?;H~IKLTWw&MIqF)7A)s{~}L=$;-;&zaBy=x<qu
z-+7*J)sM$@@-vT%I^uS_FZwB4p<a<ieIv!-S95{d+j8{!I^*xc*?7~PhwC<*^^1iK
zajJ5N{TMn9se{xxIjseY9#98xzY5+AQt#Y6J1o;X4tbSf_UF%Hx}$rdCwO?SR7g1n
z$m1r|M>>SR1JtKcM_#%Qs*+_P=SR%4=pH!mh+x-F@*{<dB2h#afqkp7LgG60%Fe_i
zm00+XBt!5>3ixUoaat?~CcD(|xVHq-OU!VXJ`)M<a*TeDgRJEz))DH9%(76-;k3Z5
z8A+sPa6qi}JDYb>6m#n9u*uUEruTAi_oOS<f7pWCmqMr?y%BSa+YsQrA0N33V7x36
zuC$Mt-sXyk`7|R~s~Q}?Sb|L1C#<#S2vURkko{p3c>kJ0q&gPKv2>SzBLG3OAGj#0
zN3%2es*UI4z{T&{p{vXBUg11qw^!k)3vriR8?nT=fjEjbn4wq;wUHyZkYI-sjtNkb
zUIl}{`IvaT5#c)AIPK>TF0qZ!n;(n7i8jc09>+vhCZ0=MWB1-V*fx}6{vF~om{p>w
zq91c8Ke!;&8v43)7ql?M<#*)}%JQII&FN_UBu)C-I=m#d-CVjCRV_3{fq)xzZ;+>i
zHK28{18qI)iS-zbLpjl~EGb3IU3m<UCu+3BR9{V;dL%Q%p`PE5%BDlu^t2phNhKKb
zOv8^^<ooDwz|ChvxcZ+Eq%Ra;LADEO4nS=*X&Zi0Pi36v2Hd__h}lAk5Sv>F=cAR>
z(d-PJ=v%1DCLhGpNE8wmaqyNe-U-o+Ir*ENFm=Ov;aco8wWmIX`H23z9=Ct4ApV~c
zy7ekCYehP`d~C3fX7aee&DeI87Y)9q822*5;$?|AX6A`C#6Zq2l|kXgdW@viA$P|h
zYjh<onO_$oxx{zh@|`WbZUu45tv#bmbGgVQJ6Uy%b<g~dJ?bQ%^<Q56Iu)XCtR#ix
zvu_zkx;oU{sbjK60OiVF=*uL3%gB7hq?+PHYc8@+yk@5BZ?c93vXCVHf6o0SkT}DO
z?HoWg%}Eb(0^!m!9hS5L9ekw-J#}TM+P`K0=I~<Kr(et>Ydb58{6<`40~nP*Wx4x)
zvb?>2+1iKtP?3nkL#_FkX8(gJ9~DJ(03R}+6L<8OJABh<Zn;i<cA?{}#+SH1H`8$W
zKM@3vzF=0IR=9uJ0{hB5QLvB){G0p`ewgOv;&d$5=ZB##WqLRhanpZ3c1TSF=M*V$
zNY23Q#bYcWha2-;8ufQ}Xh1+-61S>ca6YCMv&efedTA9dJ5aaQ@G3ZU2f*>y2@Iz5
zqfhcH+fFg1u^>hLyLG$Z*W!&(S|o{aY=Gdu)eySig@-2Ln2_>=UxyLaexp5zjwY;T
za6><I3JlAEUDEb2;in#B4o@_=sNhrzu{=IiVKZ+s3g+;kR@VUQ%+;~8`!~}bCpPAj
zmDt5k`=c|9pe|&DCg=aL>B2D5Pb_{1e?(mOz|3E1Q2e_Z0-u*-WI+hxOUe<IJqK8O
z3QPWKVQ8owb@be8@D;*EJ`Fq<rQo074hvx!1Ih0K|IhfkqF4#LW0eTY@`VJy4?2E3
z;iq{iyp1cdp-aYS&qo>TdPun`sbZLZTQKL%kyDt{LU-BPJj5=K$F%3|<i8@G{ggIL
z5DWhCtxE9J@!@M0Ct7{gaF*^q7pK~ywO$^!k_LFTryCpSy4$|n0`u1;An;fo1hW+J
z{agul>lon)_W=93p$N))+aMWDO#3t)#5AtNi`B&lzDk`c6LJ_HRfNnD>imtWM^dmq
zvffknqk|8B%>&_Oy%5f!tFew|+J90t#GQ}8B5Cr;j+kNf82L$aQn6oTi~h~^rif|z
zL}&Rq@?BG2Y|$1vN7QM5ppFDVOE~QfhRCW*h{)%_G3R2KxrAc<+(YV0+q&^)Y7#PY
zGT=5p2|~VJXbg2jQzmKKk3;Zb_ZCPl=ElYgR@5^#6}3l=Q7~B#>(--8Z<4Z&9MrAg
zmkO2iY%Kq`0WIN6v9eT`dZ!w2hxjlT{^P_?rz*6Gr(uTwYnK1N&)Pc=>+Ah+R3{aR
zKEyJcLE7{YHPYW2aiK5>V{0;S??Vu-FNwgJGxVKUQ-fvy?I#{qIduL}?~Rl?Vm59@
z{zgmO%2|fSkB<7btJ4vhGs=9~0Ctx4L3&CdPQGq{*&-Xbm(`%f{5%tl>4ICcAaOj3
zQSgFv<d3=<0~Jl+JXVFIKQx~`rr9@ZDVo|g;XlhP+97#^zhwvq={cSw5sQaz{;){R
z!WpL{m@f8!X-h1@0;MwQxix@fdmF^Ww!l$vDZ*FlL4}xoS3`)S)0>Px+P1j3t{GKM
zGI+W{53{DL!mG~&kJ6VA3(o|ai}Z1ozZ74|bJl%tF;af4fRvaK*bmA;jCta&!Z8FM
zB2Pcfgl3n#aUrxBN#<$@rX9cuiz?JE;4&Ehp#`5`r<tQs3-<gigZs}kSgYE@n|k;}
zp7TSvCkm?Jf8qU26K6@^@uwU{@!g|yMeju8VnQ2=dgAcSJ`8+Ob=cM%hq}QTv{wp)
zV`wMdICA02Uw%YMkSAiN3qstIamZ8*@#d~@7CKE{v_>%6Yi+$xOtx(*&<<UMccEVN
zJvM;M_#wuzZzKFa5W4}okep?O599~z45DY-wgTszWHD0xkkx-(hzfP`grA^pU8Qx{
z<;08KV;OYr2Vl^op6*)#h;LUwotho>JzJrg*jZl`3=r_o0}@&H^#vX*KwQEwb5o{%
zaIPjS{85E#{)+I<mPP*gc>KAs0BS-P;50D<O<Q%ac0d>J6DoCT!`vZ~R}8*+l#|(B
zi1Ti%v0xQ3&Zj+KQv+6D^7|T?_6XvMV?I8T9$_16igQ+SII~a_?_XO&`*0ol1nnS`
zLOnSiyAb_33Sp|c_@mScHB&9PJeR|+a6imj7l49r9$b;|#fkOAM`;nHJfS4s4lAI0
z-7^+{W*%;@r(NPtTc+@1oE;4!kM0*Pd_8}Z_4ZKzczZt^9_B!%iY}`w?PSaS)Y+vi
z4s26#CR4KN*Eu0n&n}B`vyhu7*ze2JF-@$AoqqC$`M>I5ZU1#M&o%ehw|aAA#woIW
ztMi%hGEcTUg+n`6xtBfYIKnPJKFG8W_OiCQPg%G{J}bQ)$bx2`WIjB5*!yN{mZO@@
zmK^bBK}&3y?-@_(C5vI1%G+7RuGj4F%?P%PJaWMWYM8fwC7aJv#!jW(X5XT(G1Z6>
z!=5EW?3;l$sxGZ#JI-!m>UKOxn&3xf$3Zr2-E5Znqn&-b9>f$2zq2U1!x<{Llg463
zofC7gBlahgZJGz|Mk|cnmqhVbI{&vEW=9>TLhQ^Z<{vCd-P3FIhZcw<gr5Trc2<~e
z8H!VWJlNaoiR#m%tfXi@?qz9%Z#)`*C7-Y}m+vuJ5#Sy1|GhHGQTbki`iQh(zpn^3
zPl@H^<w6WUD@0m}BR|6(Ru4wl_DU`&+@A_v{_|`!P6iW`)Z6~#9$Q)@f*+&AB|Bn?
z=sY{hNz6mo89tn@7e&&>DbNr3#FlfK;&8e*MBdIq(!KjkzHO8_MP)(wn;h=gh*92C
z8F%X_>rcMD(>!+6;~WR4<A(T}6N}~LuGrm2-kKTfQ8-bKqLih$ok4nWQ8%<+n&Qt_
z>Vk6Gpg;SeKdQ^#GLN0dut;z-&3vV(;A((mE#-H!3Q>OX15^9H6(&0;827V6%7ZJT
zkZ+krzGn;WwHM;IUm<uyGx34;6!WJvgJ(tvPVciL7TOs&dC5ZJJF)Pe_~Di)by$w?
zqK=`j%rDjxwToBbU%DsuYBdsXrxV78#JasAgMdXPxJ%mR_{w0YZ3xA$D-8(kn1(fP
zjj%gS7-92m5n>Vm+fi|>Z<I#KiY3HQAwD1dy26>|bmq;Xy=Nty<|UHvYCkdWc3|1A
zg}A{rACC?4AlpTsm!clsuS!s=ze+#RA{rvYv+(`PFq-|ku;?D`bNrm(`IE8&hdg1h
zwT5~Yhw#B}78(r`aD@0O=TtIuR=85vPh|yG{!vFnbS?f|-wNqF0eJme29;l0@pN!2
zJnqS&?8;_DP9@*qUKjkGy8;(~DdT>I8?0v@$3tEpER1Tw^}$2fm6A*BIP$XJ+lD3Y
zd~x-#Goo`k!R-|b{SJ3x2&Tik*$Cm;v@_Tiht0Q(aJWhw4m*iGnKy*V;UOk@Egz;~
zQN+*<Ln-m<f;mZtCCy3YGVQNBRpI&JJL_nj1*;V5_U6`sM2e4r^Li`zoskBIjx}xv
z*5TWtnRqc2i;$`ruu+PE?q2GHQfb2qd19C>nTne;yl|BG|5Y2?@Zg&<hW0JOLx*h$
zpc(Go>Xn!!7lAE-^C11e4_?bfDVJ!BzCvEySbvG_F(3wT`x4a6=78^*9H#IYV$&(w
z%Z^rJ&Xg6H?M}M(b<&s{6v&@49YW;I9DcVH4ccyyE1Cs~`AUdvsep*BA=WGDQl}_&
zM_pKfMIFT7?JUQ&!czQcD#UL48YEnCgTy4=TVH2je`q0i?h?-?a}}CM`);a`LUBP9
zHriO}@9^QrYu=wseRUJ=sMq7@#w2LG$Uxk6bqEhQ<KXO0)aOh$YPF|*dshLfmXyJI
zPNSC1t$OIjq{Hz0Dl8XYPCuiaI7ROGMDHMeQGd)dX{0XXaaQ~QNW7+i;Q<@!nRLRX
z%e?6FTmrSUUD)y13SWIC5cjYO%>!IGa&kGGWdiW<q7`;N-p!uOtwZU}{qWyJp8eSt
zkla>+-mGfUx|%TewiLLd1u$e=hzsj_@Nahm4#qFR@9})Bp?A}@Kx<6s-hs3_^?B^=
zMUQkQQduJ2q%Xy#?<%+)Ws86YYkgIBZv3Kd_oesSU^rBbX%6I>(q4jf%I4q@E5pTu
z>oIm&&}j3dBAD(HWQbKE{>FVxJ=$r%>CVSr-g+4JMuIu*!h<ni7~6N_4l#{_(hJd5
zHo;yADI@K55V$*RkWc$6zo}AibT@{^f17AWPu*A?Itbbtk0Vn<;ZA#-^D6mxc4{63
z#oO44%rzMF*n=iB6HsUpVRvh=yP^hz(NTEsMEl=M42x#fqDtoop8TWt$HsK<zvDpT
z(|mNAkyfv}2A;i(AdpI4!TJh3xDbzB_6Ddqs*E|+%OSRTwn1?xb#S%cV5)Q4&?&kW
z!zYXJEkGO1!<rCx_dwZu6}l(iB%g^CLd$?EVI%k)4cBQ;*T;l^E0#VsMDRE2Z}l%h
z<UlZZeolc_MGg)nHsI1)%0a$0!{_<hn3SPTIaLcpFPVeUcItgCK8fR`<E6=LMg7GN
zblj|ff`>g6Xyy?7tp@RlYfM2d5qbw!qD@a5XG}d1bk!bTnrRoS;*Z&;df;?E&FWrB
zg5z5bu2<P${ehz>FVcZudKGT%iolv}Jy2Aw$Ho-mSW@rCUOj)5|8j&udLT5XSD`g#
zzJYjEDmJcv#mq$daA@aN@a$>?4^zkDZwhc2E5aPE6wJ|nh|5BA@%@ewaRg0pMrE%~
zwr?b^@-*Vxop9U;sKe#3ZUl?i!P4&y`)*T2`-%pn<jo{M{03y2EyjVC5c)Zq7`|;v
zys0Qm1gwGnb0_S$O?#8NLF$@{!Z%{juIFom*%BwTU$=w2Qw$PXR$%{?zs%Am6&LtL
zap{~Oq#mo{X^kCJ50d6~Bo^H=#GYDViCQ6d1jU-cNZcQF6{G{tFU8fcYTO+2!MEk!
zctL08`*&-Rk*tWLf2b4Kw@82G0qTF&9c0d=58N)Tfmy?HwDB*+PjwBPPgns|o?s)S
zUEbUOg)O9={dvj<+Pn+U;!Iuxi{MObqKy3P`F?02KY7Fp>S4b^z2t4~c!_QdH;O{1
z#Ta`>H1YR0v74RAyY%8UOKNn-l9zVG5miO+P&ppSb|R|G7D_oXSav@Ub0%nKW^4t|
z5p9%;<X~#70Nxx^rk*Z&<gbv&EnnKNz0*dUDK8?6tWZ%Lh|=V8e5-9mCH=oE3^@(Q
zWjXl0<17*^tDvQ{2{(P{tg1Q;3(B3F?DfUIw7tlFS8EU_To0Yx`|P*KK`h-tojp~%
zkz`9f3v?a{SlZ%~gC@=h@)@0+<_z7dq4?2Rh~BTk+VV8_|6cwH%N41Qvn(4Cdg~!w
zUq!4lSG=%oM9aa0v=1|bQZ)5!NKxO~l;vn#wgNTZ%;1rp3BEyYBfE<I_<eL6-FJ3V
zR#+8WJC}pgx|Mh>E1}|dl1;mE5yn${@xIvwq9rS6?@2x5ud`77pc}mO{j-yofJnY2
zibS^}*meQ@_MArU)wS4~vj^YTgc7ss2(rUQ5PHrS`JhaUBjxB0nZi6b2pj45oTXBw
zyDQ!vywo@G!(uN!s5XNCN;y_=2EuiRJ_hDl;Lnz3%pahRmuuoUaHJNq%dCj$wNHn;
zn0AVk?K$<p74tfpQPF<}4>~*$%PRwpDMe`ByauNgC1Jb!Gy;#i;pQU;+_>rmaeWmu
zQ(oojw|peUWuq(8lJ@0i(Q!cs%l2(X+T8-!*DgRSJr6vJtr&{VL1)8kL?#ttJ3U*C
zDXTHM>L3&;Uy^YrlyYkEFne_fQaZGUFRwszLJ|g3o6%NkfWVm3DEl6S%K^!FED%qu
zj+HcT6`*mu5Ht&%@#?UKf#toKXjmeI=k#5<_oWuL2IQggD?r|a1_~QOF!o;qgx-i4
zRc@jDUTFz7WHzHFXHxt4?fc;Wu?mwnqbX-nj9cbgQR10|ecOp4N7=70V=M7eo)|2-
z)VG{W9avl@$jKtzo;;4*<f5=E_8@VhoH3KMIib%5)am1mUnk74&ol<^|BO(Rdzw`&
zC_!^~3j#c;SLYPvF(MN2SD9wNhz1;<stK<jq_zK7f#c_Uk=vyJrKxXF7GaCo3mP%^
zZ4{O**Z>vJVieC!LMNSNqxa45$T=JZ!}$nlEJM3tiouz_3RGV^%#Ms#U<ZF2{EHef
z_DBH9lylg_Q;&gb{5Z0?3-baTp{D4M6RYXoEO=0-yE+KtLno<s<skN_F2#8LMs$4B
zA=dslORp`($*ZYwC>O-f@7>rkhj_aD5oq4OkbagJuAj+<SU~|g>7MuU^d6kk8HB#5
zFXoKo!Lq9ruUr!GeTxPD(jJ(XyAi3B#oV0|2RSW8Ofwh7vPf<G_d*Xp_RAo4zYkt0
zQGZt2Agfxn9J_4koPFelr(gN7NPi)kFD=5PEphdqk$+9;CEF4#2LGtbtoMu<E*a?<
zd|IfC#k31OMm_;S<Hf||pMpl}p#0s*ffLfSLuk|l$9O4vQ-yKk*<WUnWDOJI|F4KD
zfqwivoR}Yo#<gqUD4Pc*AL3h2F$RCNDz;oOhc@qb7Wh$z=Jca%)3JMO)K3}Sn;a1N
zdz{(Dh{LFPI^<{D;i`2wo>Y_8`GUFuKhwD`$&W7TKMj*~ft>3iWamypaP1%VXEt@c
zoL`A+=XG((WIArD%Oc|`@olOcVSOkOrw*3FQm7u?QEL%%k9gPH?qc$MIhI7VLgTVE
z-mTdVv8}#vDN#puOF23ht<m3GXpM^8m#i(Kk9ztF;N?dQ+kcJZ&v3xqA!95$(}9DI
zvPL|~#t?g4feQY1JbkIA^YP3E*z*%}%s3o;nYpOz=)>iF(ir~vLgSe|ilwXZbT<zI
zzIfosh&uwNQg4%R7(O~GqJ3U7`ES}WHc}6tN^KY{tbxvSK3o*{!fNtB_H}vTNAd-B
zqPiPt`u$L++`gQmHO2+j!Z5RvGPCXEPdC7Dv?fxvm%w>&0A-%9*gNuEYwr%G=ZWsA
z&tzb7IRJc}X|#VbhSv*IXzvv!53DITA8?}cxixiEZZkOcmh^uWZ6sFMkv`i3tyUSR
z*(^r`n@RI)65?Ef5&B~nHX1v^szm~S9!FyGm#x9}l3qj#&cpqskuV)Ti}NBIh_P3O
z?b~zF^~4upI^NjRMy$h$h3MKRhV&s0T*`CAP2W`*9^|5(3~+V54Vp)NAndXhkw+@v
zuuBsU1Arj%Z63K!-rgBaXp|#O&L{{?Uo7EcMy%K8jpXsM$DjMgxN$y+?)_CLx!!;S
zs*Z3>^1@0(Biw}>WiLz-99W4*@4ArxhCDT##D0sFg&=(&4ZBQ{yTK1(T#EV|#hvlw
z>|bWI^8k`wbwFSu22oP25YVE0?)5Yj+PtF9icZ=AiQ@H@c;t}hSn6xM=EpO&h<urX
zkY{C>77~jq4>K_2)rL8f%Mo$jff(y|aL`a5i7XZwzkKoHLm;+f?Sy^%D|VM705aA-
zI8-?ks(yLcx26+m6H758R27@O;*tL^4!9YBez}F{P-q~ZBrh>7l#q5#7RC)~cuL;c
zREs$n`z4D>)eQ3AQD>QuCZa;;VJkOvmRr`~$5TDXT&qXlbvLk9Q(PGP#x@Tc;lC*A
z`y(&E-!CoP*4(D|mi&r!sfldce7Y07%fVjiQ_!8Kfrb027j89a5g&iD;TQGz&dCj<
z$JG7#j~nd49IY`0>Ye(v7W~sq@Z_~5eybP2jkJsmZGK4a)P}EA3a0UK;Lsa+NQdwu
z%3T<DOSJH%{R*o+N3;8vQjC0{{HmTbBy`h|w&oC<{^K)yM0}Ba)wxix-p3SkOW=8>
z1qbpc+0<uFm`>TE(8FpNPA)*<uK~7wH#Z)fQ$jd-=*7Gj!E8<zo$HdYaADXVN4-`&
zq&&UeLA+vr1bQ3c^6e$~^q&+WDATkmG8msVTlI!tIb-7JSr-243VuBf$CZRN<Xx7)
z)TzYfRCPh~1}CgtR)Zw=mGPeOgGY!9bkpx>1qlX1&vywPSZX6?0r3mJt%72S1Lj{7
z!&*LikD?pyYo(y$mxjdA+1NK*i&)9=P^+8*G9RFB{xa;LeAh^S2Jy7Ff}gxKwMX5s
zWy@-)N}3^Nog6+=_vh{mFF12j7v8N!FzLv}Ls<oc@p{82)&)QJiNZfd4WGs~;AuoH
z+^bh$N0vIu1X3`I_9<5kdtlsA0HvV-gltN|e%Tt>e33)bK4HY_)<9@3kHM8|2H4+z
zimhzfhyKp>__>(Q_>g&&9jAG3OoyJ!WN>nRhRY@L9@1U=%il1F4p(c~mSo_GX&vU%
zPI{fZ4@O_DMoRc{9DY0#U%iMC{iF{m_S}%ylqD923LeRu(Ec_Wp{+b{Jzxem)g36`
zv=*B8*OH&39?9oJ;d{*=ocD6cd#VmYVv!2uZNw=$CtDwykT;9GR4?jaJv$N{F2q84
zNIS8hYwVDN75=uY!@B=Q80Y;w%!x3<zpDk{+{=r*)gicXK@B(ji1n_|1-BqgbheJM
z%EGrS{}%OQTMp<i|2G?7uKi`Mo(o}KPTZq<4GfRd9sZFZjuZQ!gIf}h8Yy4DN)#66
z-<j{$sZd^PuWx;)m@){&Z}=98D-%gj9}R<%zc92jB(Y)oY+`uE;(GE6R<nx_w-$e9
z182UmKs7l$`0Yx4Yn1afc7ptBSqxotqB*1t|7>+|-%uJy3k_iQRUQVh#Dhz4#7kEn
zEdRoTUV5Lotlq``hy|gpOBto+ya?}-#$(zesy!wK+B-wEM0{Y?k2Dcx`<_Lc&%j~X
za_sn1itqN32v{A(tnTr{Rm=;S2{UmzjtkPFE3~@Gr(>Is0K!fs<5OiEs*l;A>nF`r
z>T}U`IshltBXK8Y8EMZP5TPA=W^6qSPD*JHP1z3HxY-D=bb)+-0p2eyMc{Mlcj~Bz
z|BYFcwdsPC(M<SUh=6igI(6EJWBT>2xZ^L2>&kQCQmYJsN_*@u|HXbpMdMtN4_u^G
zFy<}_=Mf9IZNJ7EELNjzvoE&asX$w#3!QE5a6jaRjdwKBD?Q38z6;?*bUXRois5yH
z?sN8OC?Y*!%Pe(lUnqgeyJs=|$r_v;YohKaPK0(7dwzuaKE`c`xulD~4jMXTAIL9K
znu#)<LvZNpMp;oB_T|)JZUc2LFR#OujCGJw`wne;>f<@R0Acn8<n5Z!+7WXE3gl6>
zJX-~B((FpTHp2UT7P3FL<GrvM%H`<p`e_al*Ve<x(;h*@g08jMf=VB6^m8-fu-75}
z4edtxcrYWLzOOcon7WtzGA&Lp`s;(Mf`YJ<d4-Y8M$%%cF-aM*{roX#CjHY$y%_Jz
z1nG>|z|8}+XSv#sW25vw@aDk!p}Clm_kx9cPlqI5HMVHALXP}QVYXLT)FneWQJzR>
z3Grl~()(PgOGl^Q903IeXb=v;WK9*Z0eo;nybc3f=Rhp26*gD$@gc(udvBX#pAh9X
z?>pjP{*d<KHyt=rHx;hs-pFt0Ay0ZH#(aG6dKPuCQ-1g+?T6KV7(<XW6)xh#u8HGC
ziB<;;I;|l%k%sBSbn+NX#Hs-W94R55k8(V+;yJ<nlM^qV=0eH%C3_v(g=gfgK0eWc
zjmZoNH-9pXig<kZ*o<Od;`VB3A=#u24=G#eX*tO3)@LDqkY<^*GGc-8!t1CRq{3#S
zm^?Rcl)tk-lo3ySdz!T=^WavYIK~4j^p{)9V8xVsjPoVHDdd6+JEmb9d2yvIco4#8
zPrei>I7!x_K#4lixnD6S@+pTM;?eI+48$}o>KUpgF5w)S*W}Ge&z)p1Z%xH(Pca;i
zafNO0eRju~4?bnTn8%GV7QW>HTRNB6-nRT`yQ_ff>>0cF&<m}U*SAfwMVp}@j&RJQ
ze%oo#@)>5^1B~!Jlf2+xMUYvokHgoFviHO`x|A}Pm=%v%?t2cbCXY={aV+eJp~D;B
zi>)7sAN#HkX}mKLaLpV0C9QF^(FObTW@FhUS)BVf73M?#*v+=Ttae$KzOtwqehpIZ
z$Sh}Kes`mqyvDZ{&c|Q!FMKr#A?A@4-0}vnjj{+)9o&d?RU(Z}QD5;5c}+Llfa`1r
z`d{rOT_Fp-Ro-Z@(1nhjF<KFXzSkVcFw#V{|7~`>h#N24ZnA(d;v(FZLvX(ytd3Gv
z>3le94ZHDk7M=Acbzn()bOe_qB623!xr@v2@k1nK=PfWuS-{zi_gG6x8jeqkfORMF
z?P!J=x+RQClU2kv(ZZdAY$%^pz)}SZ_!S95?(td_e<?)ajd>X9ea(E+hnaxlLM$Rr
z1IMQ6$j<c9uI|-^_LRAhX%8gUWe<Y>Q7*Zw0Z;1Yk<X<Z4+qOoV!IuWD03NL@R3Cx
zZ-n~gL)s_xwjf~aA-j=Li*&I8B+*?Z<%Ba*zAvUOW@CKqT!Cqhen_NlqB>a_WZwGA
z+|rGpL9?}RwKjMbpJRihJIwy7hlBLpe%45yb1g}D**7!8I8DracbAonkiMQ)h->_t
zU?4LS!jrLx_`MpwUQtkaI?OUQ8^XM*8$#ziaBwEEwU&;v%|jY^V==;_jpss#{Pu2t
zsT1~h3TDm^XTco*(=<XL^FbNHiQ@QV*Q^B(F6=NIWm~_L;KP>{aCzkbHd=%kD>QKU
zTmi0mrQx}!7vk@U!R@vu23xz)_qascQ+6x<eKAH>NdUBbt1)z9Epo0>hfZca%|Wwp
zE^;fbyi|s*&V2AZUJZ}SbFj@~3rb1nZFpk_Gkt>PgeKv9(n}^;nu>FMcGNpWK4+(?
z*nZst{@0JQp0Y|f5@V$9TN6^rOWRuEga2}J5uu@mgdZG`bdv*<--FBzwC`1+toS(P
zToo%Y7$^hxRBq_HP&UVW8}@S(EAx{8Zi_F&_CXV<ZWF`Z2~q4@+^j3$7L7MMZBg2^
zmcF-(Nz+<}ktwmrdvA>3>x*&6N(1H5fw-D(f~VA(Y253AZ2SE>F#}cDzQ&b06s$<M
zPC@RcjWE0wiQBqONc`juyTfg`t4#US{Bt;FNBMCsb=+>;ic7Dppmm4#zqD(-U)l(9
z4h39G@rAw<KV`=)5fBZ?C@0`Wmk@Gu_M>#976UO=q(d#hp%Z-Av@Z-(h4vs_SPbWu
zd%)3mDPGlgQ^u6M`p=2unG*!Q3=!}fOohOv8a%p{fZMm+Ai`75^i$=rtU43x+chyb
zR~)MwYt&B{$l+iYWn^iGd?B|3mg3~mxlj8a0dahP<O4Z@bjoj@z~YOO>`W7R4E-xH
zbGe+xTK7^+c`bx(`^YOls}nERwL)f_Fa7$}80xk`YD5k8`l!OKZ!PBbyFt%e2orXp
zw6me!HA#CM=?=lIL8|n4qk*d~vCx>dAFsL<uv>AA?egV=J68caMsr6P?TVs8GGHI?
zfq^O`9IuK37iGQ{YEV{s#WZ{>T?BLL;rr7^oZ#0cXf5)B*hz-XZp6m=ubmi91&Cdn
zg!CGIe5M@1u{~>1!#e}}>cnv)sZwL!Ar08d%3(!rCN`&aVCO<tFrhp&ipgUq<niqq
z?KfiHVwuQGR+FzyzI1<_TdJrQRnd&fvwGl(F2si96eNA^2X_ML$C@5!StW+w85>Er
zvVgg%1`eE5M<2}`%P-g>qiHrS-B!m2gXK`4(u^sAW_Wiu9~vvx!azzBewupV|0D?g
z8=-8fStEA!rNeV!Ag)^w8*9G<hL<Fwa4-SUTZPf?ahz?Es6?`2A?**Vna}ePHeR%e
zJ=%JS>4c;+kwQtV-*|;x+xwg88oV~VIZ()6XPL33Cra7plXF?_w<lV6IZ~K|k1m__
z>ICbP{l<FkZf1WI`WcVWL*^@6&wk31XI7H@v#CYwS;<T$_b8XmlMvC4dRN0fuIyw_
zE$0xA`81m;`;-0RsAPf<N|^516Rbz`A=?${%xY8Y*fU!Vwyb#`Gwso21D9(V@2*0+
ziv}<~y%KhL%?36xG6g1q2N}Oe1xs8P%w`&0XJdt(h6YQBnVf%(DW8vHzfYZIa{_Bv
zhR7EdD6@gp_*5I7dw-ivGi+x2{W_V4)@P<kJ?s;YY;kjX8r)|7W;)lLkwIF#x|}vX
zllD0vpoIU%Ua)GRA1vuNFNF7O*1x$`5_QKp;Lh!c{VL=cUo1s^R1CM=_%PY&3hzlF
z>UXX}f%soGH2jR6YkA6!8!G8LPRYgD)&S)G_Qs#yg%FMQ0rwPX9JCREq$JH)^iCH3
z?>_UZ=D_$S4qRFNj+uFrziqxfWW~l<!4+*3cS*t7a2`Y!<imEV5{?|<g+#U<#x}}O
zPV^>ocy5cU74spZ$4hK3GxCcbVsQdKxM->ZjZd8TyNwIZaROLRy>7##{U-^{K!i*@
zT8gNb%bAn(_BOm2r`=Z_?d4wZA&|$9c7C>aJI;+fMFC9qtkGSy*cHv{#E1G-0>P7{
zmzdM+wmyOSei`yR7Nhg9Bh3aGc=lQir*=_C;vFXpB$w#)oo>YrA$o<Ami<V#1Rg`{
zka#l&&kgEvB9eL+_R_t8GEiQ%-7uxUhCfR}!L%3F1C$TrcE*+NKn!go*6amo_;nJa
zo~c1XOazxQ$pe$M0_I0~@r0PFTkbbvAZsNO92}uX%!`gE)EOg6-^{;)wDVC#cy1x~
zX|}-&3n>p8ig`N8aC>ftf>IA0UfKx%HPo+{odGB5S4{0Nv85FQkt0H$=#x@->G@7g
z;)gSC+)$?szy<V)bYkL0A~Ed}u&0>#ijmIbV|2&3^Gm2jbE9Wd7(V;dgT<WEy703K
z&MFqz8PJ4-3TqMOat2K{UHD9XL5Ia2Fy%S|wVl+Rq)+ePx5QMtu87oo%aFIx4%fEp
zU{)h}Oxa#^$9dq__O-}dR)GD9{#Z~WgAc^ScD}Wf<^DQ@nHSSBcdP|{7hEuz;D8-x
zbCK^F4X>Ln*mait;y>CcGunfX<D9tASBLuTmbmP(3AM*(!P+MqjiR)}?Qw-)hB|JJ
zxZrpb4;D=F;ee4DRHb7Ly!Yzk=pseDa9fUyl?AlB)I---U()Cm@q|1TY)BuMXx1w%
zBG&Yu>3B|`?X&C``lFdU(QrE#>x@>DkGvYZ<a_%$s0BT7Tk0Y(L(+vr-0`A&?<{S^
z+4Dm_ekL9?86j@vGIX6#g49SnR{9xZk9;Ef7H!7g#q{@HX*j>6PATEpcst4sJI+;z
zu}nbxCSCOBE~WkQBx`$<2fL&8ko!&V!^2|4$e~?$e=+`AS>c%05<362vH9tIcwN!J
z?O8j(Z`Fo`H@e79Kf<mU$m3AB6yg_$ApL|2sAXRBbetDn*^=LT?rL~nXho#I0dz<!
zne|NzH5c=VX<kS^Ug|hsGaJ&2pR&f?ML7DYYwnxZO*mZ4OFar}pnByd^(!1k@JuTl
zaa#;817lQ-hQK%58i5u`P@~zeK!6JZe?ri7WhIt9F+f#^Bh2kB=sx3t#_MJH)wKaJ
zZuZDsx|Q9Mr0mP0RA!jG0h??V;PhP5MwO`_;bIKNjwd1G(n`2Sio<`#A~>zFMORfD
zM5}c$`ych7zNf4WG|;_w8ZO$mLRT*tcOQl0{`ei%5pju)EOo$_KPwRTnR3lL{It7L
zt<bKihQr^Zv6rg{<Bz0q{ChDtd39lwy$ROsd6=Z<^irb*QiJcXSF_sC_?ScI^MX$7
zt9-;F@3zCJ>?l%%h;#cY89ai{`1!>FhjzPSM3?$+d)<&cFcaUspR?<(<k{Pi4bgG(
z-@JLnY69hOie|(l2XnM_x1vK%4)*=IOplB7-4!R;od?uktm_T=PkDG+O+9Zb7U0K?
z98?AP;<rE#6X7J*`gUR~b@@Whh;&oxiGI4DI3Du9sH$29$41s8P2C?)r4}Lj_7&D=
zc!TYp>_M#PG>CZ-Yb^Dv=3NzY)X7oLbayG<FKMKnMJFuL3BuGQN%)?z#$KCP*nEG9
zEeD>nkwfz#X;_9xr(K%v<$bhM62X3r1blKTq4{Jpb}q5UIAw=>IJEF-UKbL_h-<x*
zyiP$bFd>eV`=B<q+iKvBwG>)+(SPGU&CZ@bn9pKAJRM&KQ7&z0^@%`}Jbsl@Y3#%G
z0*C|_A>lzdE{7;$-tJ;Ni_bveN9whrp7^*g57?vQ8}Z?>4<?0takexV5mo6JB{r?{
zEnie7?!@&2t8p-)9p?M(@Ju=idwg18r4<0pt5(=;C#18d#|Aw7q@DfRh;IK2DBGWc
zvV;4ea$1{m&tA|!O$?A$4x_2dxriyZ5d5cu;BalFmJQb~XseO$F>4Q;3}PTx@&*<E
z>aZat7O8DIXuaMKMHgF`4Lf4skQk0+GtA$Ug05*M<dN`z#+j{XJ=cNs&`>-y=)sha
zyP;z<AN{G+PxV?JbLTE&r~JvgtJ{iVCF*_OZ-iU4qiXwHhOOjLD}1RBDeBY9qO9DI
zZU-9e0ua1J4|j8;@TgQ323o|1qFJfOrUCe(hJTlZabl4jxFo25V~CiuiJb6s>d}24
z?*y;6`gj;u4aNKj%s)w9=C48cwU%KqpEnM~%R|bl7Pr)A;OGS-^y=y0iPCnR)34WH
z$CwAygK0P7><j<1t0})10$ZMXlr-t%Oz1LLlNUR=jm|tjLtH8q!?lm3E!(SLQa~6}
zc2b||ChCjc!-<si1#k`FhxV8*b?VUj@|+pWL;qus9hwn1o(1(G>J}b01@A5D_1xwN
zf$DV#>flGPjynERcE-rMHgs6#!`U|jvkY1=?k|c3G~X>hb{>yE6yUJZX5zrqu!K=g
ztRrr<i;+HIC&O?h_?Y^rnKcghwPEjtO~`K^hM_<vZh9Bv>^Uc7wxnTFxfgA<Bd}~0
zz!{++>LRIz-fPvl&s)x+XT~&yZ)rkAVh=_nwv#SaiUjdp=oHMuz@`njPWRni4+=3X
zSBRoY%CmBY!%N*A2D!eZdDlT)!4tZQ%6PnY87!s@VBerMR??2<##49j^`^6j>$XFv
zXg%7`6`_f^fW7<bQMa-Qt4IsCct;(U_f_%r^;+=B7vPtY0#2Ujg>Y~zPCHZnR~Ya~
zUW<Ug`yr_<fl=ZkwQKsK=q+^)C6%G*w;s%Y>1w~3SqQ~~L?l@rM?q@|-0zT<o0g9p
z(tpG*Xh1_I9YsrTpq#vHMdE%?mvX?iJPyr-#wIA8oq?+tbBIqogjIjmVc=5>Zf^F1
zQh6bswQk0MlQS-lxg&3eI{BA?>7oY^NE+jc9OA?^(;ew)Jwy#@cC|Q0UBblQR;b6j
zFWiXZ5yPXgO18T1I8MHx-`hJsXdj59{v;I)lb%$5EetP*vx%874+UR}p=NRe8RMGx
z)6jrQy;<Z3rSI@Mbr^~EA!bJd)^gY&sEGErCsn{JriK=dXc%3Uf#&f?T61Pn$HPAA
z2G7f;`FJyyn$E_>+Z{OSY=Zum1xPtwj=7GH$a~~~Bp2%B8Lfe6Q>NC5zuQP7A7)Qv
z+wr3C20RCQ!R;4=$>TxT+fSZknP5EciorF3)%c)okK~7(IAW2HI=W+ido%|L_B_N%
z(#4St9vE7dgaaP!c;^N30ClpcRg_czeTr>c+z+Y4!AKWr$EKsi;-sw4y1z-_Q_Mn^
zjWl+<ktcd@CS<Kk5R(^zQp!(Xv@S(QP%m0H(LFck9Ky4<V9DWboNqA2Tlp}U-pqpj
zTM2}2D#pX&W*wm?vT#2@o^FA9#4g>5W5c;93_OcJuW0YAT!N<ZO~jy5F!I0hnK=&4
zC*5>8_4o?wl&2kr-QO}8emjNK27A1}eH!8iQgNr&8sB+BAfH@@^#8n&eAor1l<PQc
zPAtZxIZ&*N$Nz#b#$1=Mp_RHSCW$F`cr)C3mSK0QCA>zdQ}%%&QtkVhK7D>3#qC(L
z(HDHfVbDzK!awgV7<;=KnL!gQyNweuuL@EBU^i}ya-c3Z2ck~KxX)XR+nEBGGK+c=
z<ba+)9qOnT!l`y`?4&)YSnUA&uv>!Iw!8*?jbdmhqxYdn3`)i0&~nZYMqCz{Jy#S)
zqmhu_sDb&i>v6<h2ye9n$eXT%<)4c5)8|l5?s+0O9w*@L*J6b2S&IH&qLAcLM52`e
zZvS(|W8!{xeHKMd@OH*AgZgBZRB%z&5eH&;aQ$p3?vws;#?TvGR;7sA4Ok0J!<F6S
z?Tnv+qUkT#wiquwUJ{OzfjsETA`k58m+b0-K!_7>J@_OKYSQ@eJV^+GQ<G8GO3Vbh
zn=NRbj|WR#aO$NBycc$3-^YVEuxbu^K0ji4T879Oa>c&B7@XuHe#*H>4c0ve{_i4S
zFk>z0{ktGc^Z)EsWw0!qhj~Xc5f)mF+TyQJA>ZQe&$IA&b14)%Vl+5o+QIQp6Q=d$
zc=_io(p;|L)gCvz3Mt1T2N&=~XJSi|IpP-;Vn)LvY`ZLh6NgK&dus_Qj~JqyG;PCe
z#K*a64=I6m#Igghq<_vYd5GCYOhZdS6El|Bi{!V9F@JU{zA3H5)qD9kq7sbhFUlck
zr;U*xw#ZC0g!b}2tgGZiUin7EkpEqvaX-RNQfKOdT$J)G!p$H*=m#^j4#&VcNDGAl
zvIu(X3E5wl4PGuYL;6i!@;GP0g8tkcl)Ehoi$wQAMd)Z3Ln(?;w%`onTTF4cgP25?
zzTo)J)*vC9`jT5}aEWINnu7bOvpA3Zx&8=kbj3{CgO;imLd%>F>vSD)|06L|WoJWl
zia9>-F2u{@TGWM`g=>kF^X#BJ;-?;bAa4<$jRtNlSc1E+b%;Yf9pkUpLH2MizDCYN
z;^7QPKbv40jTN|dBLpqYGFYxez0=PvVD_dQ9+6?>@19Hk>{N(t<VQ#>@p9dp!6n*&
z-5#2#7UqJX4f!xg3vvF=k6!NS;J%x#J4w92efbVh-C2T=g<(*Cumqb!g0Sa+4%U5K
zgf>}qyrOKlKpt`Q+l(Nzf%;4O59)mFs78&IF|m2Qp|~akH~*}`^KXIRJC+ai6kGf!
zQv<d@6r*PjQm-I+iMI=4#)5VDbKD%q3yCRyCk|gvkzeGN43?4xFc2aQ{jOQW8r4Iv
zRwUkyjI*c9dZ4i?3(|eX=-EJCy7T|oOf^rmKkC5g6U3~UtxfyFcr^7_<KavRB>B6M
z&qo)=mX}!c4qg~jPPV_+1@V1)l!H%Wc^aaaHL{CMX`Ko#4Na*3%+Q`2ww=keQ!a%o
z0uSDo;Y6wfl<FDo&>q>UjkEyEXq<J~0%`lBY?Z)kCVfp12CYHb5{DLJ*`6D0`5a&L
zk|%ygC-t(J2oXC$5qlndVUcv?#a!IQ%;wL+y_YXoQuP<w-N@lxKOda;UtyYW8SJ@)
zFqCzcU3roRLzyt@ochO#Lq=KGUDD@!tl5+PGGgC(Q_j@`#p!(Ldnbm6JAIKc5QZ;#
z`<ct3DHu`~!PB3Xh@Dt~yh%MwjSqmpFEI>0R>o_C6?jR{+lt6yc)Nx&UspZSH`P$?
z9Dpqef7rJNoLWjET6p9-9dqy1VpJj%kIws`frEOR(&X`(e0ydkQPkVn19!?MR4Wk&
zOeCL}UoW+SEWGe9#stFFR<IHyk5b86+#z3Q_HYWZ%V(qD)e$skNTErL*d~+ia3cSv
zoOA&qFUmkjmAV~9{m?}@EtQYN#0yHn$#t@*mG#2+og7&F%#A!)FW6e^I?Q^UfoYz_
zSm0!Vh?Ry2ShWJ{*NW3Uhd2h)X5z=yCj9ZNB4$h!dOB3FYnlfxFhztep>tfintT{V
z5a#j4+@(?Ma;G?)1QU_1V2yqeLG(=#o!j?`e37)1$a-Eve4;vBJ+lzEB*Jm5QveG^
zlTpc^3f$R(;zz$(;m0h*7p}uSk9aLEg)aQCQ-s2JDo))Z7Un=7_OGLEJd--$oDKYv
zH{sefT})ivhydFpdIl7b;~bAXM^l8R=wg+OCyZ8_;(-Ho>R88Pbyg9Q_s+qpAR*-O
zXv5`06)RTUiq)KnD9<g%qdlH@uq77Wv<tra+8Uyr_u1mh;yCZv3eO|a*ze7aHrK^?
zuxk!>^)E$49S@ENMB>Xl6Wo{5K(+r2v^>$F=j;M2EIh{aDVJ#!&Zqy+To^JpDWAG4
zllX65bY9NF84zD`h5*!$Q6HI{0r=~Wz%S<qTSt2g#oKyND=XFYA#O{e4Fi|rd^mPz
zLX&*(!wrha@21&hKn;dB*5L7rF}5OI9uFkOm~Z$?wm^;tPkz%Jl>djR-OxqnZZRBQ
zXa>{mH8@qe5DLLRnAKHPn$>=>MJuM@lXD#2PW8r1JtZjL<V56u;uth^L}$JSPMtBp
zQj;IdPFV`!Lk957QpLg*?QmaBc~_+*?B8jPJ*5p$m~VpAc2B&vllec6&N{BjtZT!d
zNQiW!($aMf`=(R6kuGTv1XLOcrMm@1Kt-?{2MfEq6&oA73&r@>`~5e+8D|E;^E`X6
zb>G(o&!CU&rDQ0Y>)dh2QW=|c-Aq=$RE5Eb1C0N_`z)?)83bygV3n7NU$K^Om371L
z(eEtQ;{p=K#@VWA)QQ|Kg0_A!?ykL#*u19}r=lKW*MfYkkRqOx`XX#)+nLmF4fL;1
zg0Qq4I+w=aKg!!53#z0!7WHg~WbvtU0gR4#<3vahO6lHxZS(*VZ~tWVnx3$=jsu^L
zEo^r3;i613-2?LB)ux7odGqnOM3(wVa+vUh2Yg$|A$@o~`>5-M9IFcGEHI{B+GJCg
zT6ugeqP@CKEe^a`0GYGIGuKr@N(<m>;!mt#30!$a+<uMq_^S1s+jZ0lo@aNnqItTs
z<G)B8&KjswzQiuU9L68!Bd*dFF|AL~)Zt3|y+Y723js#ExjX;JV~;w0zY536Ex!V%
z4s1laO$GE-bzoyL1@1p<VQvO2JXnv-%ggYkrwKDQY2b7}eccx`5LG@C+4cXM&C#5|
zn$L9Mh$8$h#G^iP9`TTjaXoZ0F)irp^>0Lh9_3SFHbZ$1b@25~@$r&5^<=eCN8BpW
zn=!Cn(S_1BE8^^(f!<*);=FXjqQM*Ua&}>|sxFjPrQuk|1Ps2Cgy0u@%nAvEfDCm?
z@2Q(eELn(hy?tzOm~u%p|2lbwJU%0-)akLolHLGRd0E4i=Q=KV%0qsLSh4$zF)Ol+
z`z(@<v2-u%`@04w+Vk-6D0v2)5~1|!5%a0?!t?rebZ!E56p0~ZU5)x^;=1bk5XYS|
ze#Gzj#5~cXYy-Jp%TfI4JwEyhz#xHm617!G;myXJk1{x+TMN6m67W&aF7jp_Qi_S|
zvGyP97WKr3yIPRkO$-v2g6W#{XS|;nH<f<igxKNjv^4xDHpUK8R>mdT1$W<(XM5#D
z{HRqxTk>&sHgg9{A-`nd4}Q+>f0MBB)LYiuAB%}L4#@qi2}gJ!{Kh0G|D288lxL0J
zG=QVt$JmM~-<Z=wX{gT|FkGFMkI{Kb$oDWnvqCOT))u1v(R6TjD&ofyM_9hk0&Q;D
zT-qUd&mLjzn=Z1=#1D|BU4(z~Cl>2uM!gRK%oR|>fI$&72HfDy^PUtPQ*m5Q0CERk
zu};%y6n2F|<hL|>Ecx)(MFMF<QRv_2fu3*5I4Hu0-)<tb)6_!Mz!WU3jluNLFa)s-
zoL@xqE0H|ZEz87!H+B0JWWg<Q#G3XW?1bYr#-G3o*}X;_A)lF;qt1^K_grkwn2jly
zU2%750+v0dd<3Tg=L%h*QGE`_zl^hRabj!=*<#!N7LMiojnFxziO_ZG2vuu=b6Pc~
z^~WHPpM$d3<Y3*LfTr?cmN791xqe~@etMS`1@U8zZ8W<7d}1&z#Qt_&Sh&;d>wOh2
zg~#HxwKz^nc;TqO2Cj1j@JOx#w#ADPp*NMd9AX$Xr9E1A8MLP~LFJ$^Os0s^F2Mvp
zo`qm2RR+`Qs<4q}Ipqu6p%~?Y%Az&6sAPuh>`FX2q7Cz4G3f43!|pDB7-VS?W9$)E
zZ(=)!4+s<6(FmDCCGcwrfMFHwLq=!8$#5Rbg;ikr;XRy*FTZr+RAkzxQvXYY+j>3(
zg<Iw#lQ<`@KW&C6PYY~LH{$o1A@=T;JJzn4OI&_c^oy@S&Fxf({R^W$WH`3X3&4xY
zdUBTaQHR+G#-;6Wd$<%MV<F@xaDX(uyPN}EFd{q)vli47>#`YEhGT4dh6B`kIOO_s
zg{G}HrW}fba3ApBnKC?%wa4c`J91@JqI1+4-OCzqg8E+%1=mCKk{f;&r(-R@EVP=w
zvfk@CXp$!uhcYpyKiZo-<EPz><sD}HnB4AZUC22V2Fu2B$kuv6!zv7S!oRVS;qzF#
zQVQ4k4dI+*Lf#8L?iJn?>bbTf=-+FoN@Zc+eDWAb=i+<Tawc;{6Ny*py&a+i$$iOa
z{XyItV)6cT{a+7S4OTOXaZ@oIJEn%=lll_8SKouNxBu7*Lt^@97m`cO7v2}evHH(E
zh;iznt4F-|n{zOCsSF-2RYaSt5NwZmqiN<9RwytB_vyZyon(!c;P=q}WDl>;ji@W6
zJ&o%@JWV5hb|-bfwMMA_>kr|B_6S`|9-DJU@GsXkIq#o}NT*wDb?^+F)*gc3adKwV
zb>i-1>T4E8U=RI_-6x*H@|i~Hl`DZ~IpqSnws7AF2x53v6LwtPil6;O5DGYq#dm9=
zeOiL{Np3jHSqJ4KA;|GuicOO?;mH1_unzEm@F5dOQeKe5rDv9*BZ@Y3AxKBalz;0Z
zmU7q=XFd{3H)9caZwq63<6QK;AkToC0DccQL*sxIroNLvKd%dphbrUAkOsz2*dWU`
z0EzCZs9sVI+egZHIFyZxtCi7MLwwF44zBfELe<^~Vqvn7(XzzAvKVv~=)f|kl^c54
z30|x3u~S~Or|z#usT=W)D9d$X8=a}^-5`GFHXF)&f<$31GJn&rd2EO#qd&$mPSMyl
zVHqyki<zFi+zh{YOQ^#@?%WxC_(bRYdGh|~nxcb@+-j&RJEAT&1NZ3t-MzpGjo0Tv
zS-k;wdwej}v;?QJ$Z7ap5jER<Veb%xi4#IGZ~Ir48&-{dTPhHnFG75@aC~x}3aa|z
z6^{Uf=q@|v{*fK{S4lpkN=SU>rLJ;0%*MpQYbJ;5|6a4K>%{hIR>SY}0??+ORL$F4
zEU%mk1xxa*7I{Ky=T&aedL!(1zQ7)dXkqr1rLc$;hk<M)ytBf|shADFk?SnRGZveU
z)4b{$vE+s9F<;{`M~QZEPBI0!KdGEp{Mpd;4nsepa7=2HO_?T%{v>}W6sjO%M>;-C
zH^wcm9Gu^;f-A9i8SlbkY^m|a>q6pU+qfe%F#);<reXR*F_iEsVCh3*Upq<S*oMit
zKEDvVsGk*bF9d<3yolEkh4g|uOon$lnx5Wb@mGRzu-6Y86dRcQjTja*jX3?!8(B#3
z9QNwP9rnAemYJGAWU(JYnOR*tGmo`q+uO`oOR)`mek;g0Q>vEjIJC}W`Mwq=)_H;5
z`rXFHU!G%kR9CPXtv*)hA;Sz;zF=1}g_v#x7`yDs<cGD5uRo7tV%K_^@!FNlRbn~2
zHB`e6-VA0n#qUjmJO7xh^bBTaau%}8zgt-D6kB#_j~CkzaLpuqu_1e6c8IA+oMGLQ
zELf)B4|eb*Ke6K{uuydqmcQaCJ6hSvj-PO3FYmRn_h0s~(alE8%r1+KG&M7umj{@9
zR~Z|gp~Nn{v|{%QD~S_%jQz^{%Y2+tVD(NLSNU==X%`>uJd+V8Wr?u`YPjku25EQV
zrTjU`=GpFJPj2ynuSkJo)GUs813|p|=7&M*XG-ZC!r*})9214HJldPi&?a~xx*dfJ
z9<ozmg4ji$k0&MvjNb;NqH@p_w(+hA6U@Xv;vQucsUXl*61CqMd_K40vBz5$oU06%
z3B$y>qci{NaW>d&j94}SNu~OjO8Gq@XWEV@RDmUVg1hxOJ4alXqhg=f_N_nJt5;dn
z1r5gi1=EOSLJXt~5e#u`;Pl7=hT?|M{q>HWm`=>h0u?k5+CV|=HqN-4V6|xlZV#11
zv40R>o;yLS)eRn&x0n;L?hLAJU^P=4J!hst(ZS0^a?WfRvlDD|kXYg}+n|D##MP;R
z@Ea5A)_7vUxd=EeKMXd5ylAV_pdYJ=yz+D0jF5@wX|BN3&;96Rx#&7XyF%wIsMrXi
z&vzzPom+~61Ln9WnTwtF{V*_~=eUv!L~_V)#-9Ywue#`pnh6AV;P%Q1rtgX#v)HGe
zuvwLbP@ZhsH49^O2Ql=%X5vcwXI7P3haO_P9cz%r(pxi;YAOh+ZXR@VoS{W?Lfw@f
z2)ogWsEzs<I+6mrJGOW}WjQuehT3o=F$8m>;kxw+i=I{rC6(#$+!ckvgf^3f6O-Vk
zIfecn`C|TUN8487Fi^f!wXY7<DqZM3tAm7T8_}}q2WzXdrTkkd43)aMmv#lB{P{Nc
z=r6^J<K4)c<P7QdA((%m9(TSQ27;oAaTkFuV)1sT&d0;E{jj2$r?a*TK4f*^oOT(^
z2ZD(gT#qAbGZDDP17EAmX?K$b2QkWk|CC0@j~4P6bU>J#YN1<ovFNoe=DqepkAXA{
zAN%5A#T3lcqxZjWJzy)3$lC?bm=;d#G~)OeieZ!9B4|3t5u4Z)kKejM*1?7xtUsAt
z=XJLHt{le7dN|raT(qQ-hasUA?fF?4A9I9{Y9Zw5xw-LXDQ-&!Q?}?n9NI*&0_wOb
zABY<bTE>Ukb`oRD9Inmr_#CnnfrZO)X+;val9n*^4#t`l>!`!>hxnfk2=G>b-yZ=S
z-z|s4-%+@7QwSQSp}4F&6D5azU`!d6Z9N4rxh8{i$wmkXm&4I-;t-=dqul9ST!^*9
z^>Q%?I2+;T(JVAj2H;UeG@i~PH%f&SviACdXFJWRWLoe&Odq3-v`_!7hdBKnsFwX@
zHT%-=c)uP_{~-sk1<f4D?JLr)fFJha-01&`iAj2%EvF7yfk7M+nskZdN&dlS9x%3x
z!HzN><YbOQ<d7jO1Z0u@)E>QlBHZ@{b0P2C1dpN<*nguN@h^)oUm+W_ZRgO8PMtal
zA(%8%25v6-!~jZ1fK?`OzNg~U7IIy$3qk6e<(QQ>#txU1LtslS<V7YTyUhqwo6?Zn
zmI9t|S>pER!+EG5e*&H|`<bdp_-%<YIS)kTPDVM+`8@Bc;`jZTP+FglWvxaKjG{RL
zeNXo%Y(tfa6Q1Ae!`8oA<Ymjpf72|n<ex3}2`#|3uW4A6ZG<GT3!G%djhK=-!Y1^1
zK(ERjpv+^%;|TmSi-OymNIae@gu8nm<M>|<lvrwG&1+w5b(Q0UzMYGrAmV?xZH3i|
zm9USmBd%{fT2q#=p5rC(xD^SWYz182a}=^l^Puy`26@xw!iLTTF&A@ily)ASPZ@G)
zXDAikihILa(0lKPKeg%jelH%6)(23wu8p$%OYph>3p*kbjUUGVPa7wQ*hb)x745`m
zzy9SzC>-?z$<0gi(^<W^6`=!_j6kIH)BTqE*>M~l6nBb{JK7I_DPP;Toqmt6e6V$t
zX6chUxHq=y;P;w-_HMo?WV^|K5@dmn!^ybuia3pJnb=u-hLvaUfTb9{Pm=9mJV_m=
zSI8Sry%CPLl;K}H{~;n{mZ4xh&BZv2k;gj$suSpEH<|#aOHx?2p4cQtS_m;tfQpL>
zB5kFh7+Xs74{~{Hq~dK^3?x&l@ifr@1E-uQgKv$RND(}A<^^wiB*LW^VYu}*D?Yps
z!HbA_HKYpZzkk?S0S_#>cboYYMdOxnJY<@FGrspVc>Z3Po?BCB2QCCN@*O-<^+Mz|
zS-5{u2iNc;I~YM-brn^J{fI^1rYGD}KJ?krdB@UZT<A`@8*fLX(dFNOS<BL}y0Hrl
zdVkm?#RL>82+%Xh9Qtu-)Z2T>ssHGVeSccO51N-!_9LG!5(jo=k`GfDKWr4}T^5Ev
zv{(E}2e#rER|uCb#Ii~QEDRWDUkr%xJ}(Kq5r&BGkA`$oEV>ry;r3(di0#ruZ21@V
zj{3g;#Dt+lOp;>9$84}A8BMz61^3aT)Xo?arwr#l^P6l@Y(AohZLo-bwhCsa$ZxKT
zpPHHUc`U&mrv`G0TVr6IGK!RMGA~I7OevLtrr~t(A5q6FT?vz()mFq-xx&;AD<jEv
zHC$UOA;3*TWPl3%9y{U}&BNEcT#L0yl#{ngMDa{z=v#MkW&GZ<4d>><pXM_onUT1-
zVik0xtC6W81n)j|T+V2~Zbd`9nI45Tuh!s#Z!Q*g5SK{Yh|cGxv`<$j7dIEy|BCVP
z+jErKj4}@|+Jz_3d%P+XQLa32u5iH`clvz~-(UwPq{8?Hb^ou@tn#)R?4O7sB9aFZ
zgX%E!orV7SPN>?pAMuN*4}7NzW8L=Xc3KCm31QghEeAbIa^I9BV3rh}zvEX?c8?t8
zc9PsJNjXsM9b(@?J*ek8fZ3<=@!m2Y<HY{?+8<6Hh>xsd(qs7f2jK6wSoAC;=h?40
zobg2|XmQzvff|_VTwaBVn@>VvDV+oUn}jkBLuNrSibvca^m-+p$?9W6`AP_N+2GA}
zVnlFOLvv*_ytIl?SlfXm2T$O?J;r#dKzjiFbYe{hqODMf=6=*&ZEeNbpTtu<+K)(%
zKBgb=$12+Ue|<*m?8a&Mb-e>)Pd6g;B^S$rO2{!`kG-V}aDmSn=>~lW3p61{Q3)dc
zxe+t_8~fJm52Fd>lG*Qo4flwK;2Mr@eey9{#iHrwUhLPKgkrx2^d6>+0c$})s})Ap
z48W&$Dw=36?SG;UQ#5yT*E|Wrw_O8hTj~s1?GilR<_)vhMkM(iU|ZVkU_y7Y|7d=r
zdWMVrYs#UumG%o;=b^sN9FC8R;CN~a=B+ozwuz}2l$nKL8(SPKrB0WB9de0-aV?lk
zWG82%NVX1FE=pm3$^_ijtH$+g@~n8<V##VDbZ2rgFh>L5^t<rjtQ79<rp}V96{L<+
z#@WgaX?`0}>Y|Clw<VDGGlycm4Q8C31FL~Vd_HZCwBwh#!L6NWIV*>3Vl#+%reLxd
z2YL&<z_ZH-B@@yRT_#37z%l%xyJu$gG_;?bgA$o^ZaIH4K8qJ3MsYiGL=R(%Q8jLi
zG~xEsVHUif;m6y2%<7}(l}|h6WlAu3DG`1*V!*d^F2)bU;lCT_(N6p;%kesLX4m6s
zEjg=;tuadH>H)Vfl+!$uS(G8uVkP)i-e5t$<Z*ts8Gbf}<KJo@ytrkG1QW`9`{$ug
zhB6zYeAv)ej@Kc)Xr>vRafl%X@&UVZ2`I}GqOAXWCU$fR9?H4m<#kmYNTi&e{btVH
zZX;+O-Om(P<-)IdJs$B%;`-$hs8N@Ag=-tqH@#=Z9T9lCiMT|{<Q<-uiMe5^#&48I
znZi+G(|@nToGfCAZ;!!axIlBaB+Rx8V&CNiT(S4Xnvq?^8KX}50?MEsHbSEd5BA77
zW3i<*PS9U-$Mg`$+YK9S;tnfLhpD0p&JD{EYuXBXMJJ;9Z6QW2pR&hcd5HNcjB6sY
zDCp+HgiZzQ4&1`Z&XnN&AQvKk#@YVCc~CfKig1f~q_|B6|Jrz1^SWb#sWLjgNZ_{w
zF{Pq5vz(rzY)gtf$_}e>ROsB_>^d2z-KwD2?23jmDP$zm&-O4c^~QYQ^uYjoIs0*m
z@^V1~qR=lQ$BE!8<JjBH<PkQ5$29uh^e;lE8ui|`8e(m^GHgnv@a%2}uB`vWnwTt>
z8BBp$G(Xb5NnsCl+4+?xU~RD#^~PpEcAG6?F3=8VDzP(Sg#Le~I2bL2x;r14q>DGo
z{>9_UeGRPn{*8Tz6#-ANCl2L=V96~@sC0f{V;zc667)qO{dstuRELlghWIe48OM6`
zpf0!#zduT1WM4JD+4y4S{16OJ48?K35;!c@puJ%NSLAdJGMCFDAU+2zi|dfOUJ<G*
z$oI85j@;vvDsB~nz5Z($y$9s96d`{&7?#nt+&G>(DDkXDPt*<kF(Y@bKr7b0ti|Sr
z>#T;JQ@@DCR7KhT&&@TMaJL$3PnY2P6x!n$rsC(xMG&5I2s0C?2fw@?T&L|A5w}C@
zfIG&&B_iTs8I<_M@%dl@v6I%JH;>qMQOan68~%9);2UKL?B?6zG@XA(&ZnZ8p2-OZ
zG$5(62pzU_u_d()T@9j`e44UG<coBqGvnCOAXpCuP$p3r_f?*<7=G#zn?B?i4sg+P
z$Ap|5-T2f|4{u_axc@D~20e59R&Pe4WGqBN-@}dkVo#syQ`RRJY0i4a@k%FgcDe-|
zGtyw@zYZa~YcSWW965Tf*gGi!=BwABHBt~OU)W;pNkcqL62x<wmB-Oe#=Tz*xn`mG
zsYH1>B|p?uuK)iYeM97QY)W*1`}G;nzA28^eKja14vkk>0ve5Eu({2J_Lnr{ec6cN
z-<i;(&r9`vUzBjk^VtAse|ZSg0YhTERiHyI2P-o+V@?%y@lV*p^uP<&L%S2+`7=<e
zqz7Z#>o0Y;Gr4sw2nWdrte-20&eLm&Mb?Fp`#G5V#~j}m`eNgmPza0dg1V17d_CqP
zeN+}TsRP_SW_*aAR1L4k>kuJIU9aQ)*k42Zg?l16F&)_3*a2B{E2NOGH+lUs*jQCV
zbCEqtk67W^vS7**n?NDn5_JM~Xcgo&{oZ_!>CZGn8ik<Zjwa%a_(b^KOvYNulfH16
zfUOxV<o?sZpEm;7^xYA+sZZaeBZ7u#Gd$Wm6K`+wqm5>1*@NU5Z*hUa$|*S0K*O?`
zSJ|;ZG1}WIKy-)~djHO`-+L9%^o@G_0Tvwh%lg=PHkqAXG|K*5N=3|+=@_}-0*@Dp
zaD68N6X^#mPPi6(F5P1m%RaK}Vaf<PdY=<`R2XXN!Q>9=AiuB?KFE6zCtMV6gZ0d+
z>J+oTHWdd;##yYF16KD^{<Fv)Zj0};IVNuyPlGk8^JbuR?iDudmIE=ZIs^nav2AB(
z;QJ~|<l9Wce~S;YS#b&&$nnSVhMjDZsur}a_OpXkzu2R;iO^3RXO(eh*n)U|a8LR`
z_O3pn;^T2mnDQFEv!O!17yk`w;1kFoY@Y<zc{(`scZAJ)H3#->a`-91LBMwlleHGc
zc-3*AnKpi7qAz#i4rLxjj2f|wGBE!hL}DHvd1{xhL!i|ScGK4YDHk0PXJ};1R~!zN
z>UNCJT?JnMYAhJ>fgrsvr%D}ULxP&{`|3>h7zf;aKp77wAMCCtKGOmNM7jx)pRp8O
zfx(#4YXM2E9$b3Xj=xD$plAn3{g*^NOJc0v`OCIT)}ni238oW|W{ROIc-Bdyyj=vM
zy2QQTs04|^U5xj9IB|FCQMOqh8F7uMvL_cnU?uUh)bKHLHwIRjLE}OSLUL!oyZHxO
z`_K>1HRw72eJVC;9OCYzxp{!&K6Y?a0o}ybtK1p{<JNMVobHKfVQ#Qhy3JIs-NuTE
z)6h#Sr*?YAzZILnk-t3;a%VPz<Hc{98?qb+qU%w3uLf^lonwjl3ivWR1;eAnRdTDx
z?CCm`m8ilurRli7itevA#C&a{ybpO+W%`?NH+L^g>}Wo4+Y^O!rv94fhz&0U=q}QV
zQM%J^(Nv|*Af4;Bs$w9_6nFNB!a2Q=J{$MgSMn`oap%K=Tq72}Iq+>%ARd7$+`iK1
z$ISx!_5IOOC4n2uzcbE&CUzA|!tymgJ{EmoZwm)Fwf~6GaGkQ9*R%1tJc0b|3`?ui
z$*cX5-R^UOl{WRZw+}$-y*$#=`7nM@0*cv|oU>DkVW>}>VV6KUpU%V8!S#4rBZuS?
zKKL8cUEP^{h;GlBa`p@uetgOJDD&ZRlGu}LrO`=@{PA<2+1}w7Y>B)DczRb5d)E<<
z2W7}JYKZi4At2%vd!LbjhlYvR8vTrYiWI|<K;ph$bi<QMZ@iJ7j0-b)DTA$ndy`5~
zQaS@u*U%aJiZ{-Lm6J=%8bv32@G+ksD~`;^LjNput|azVi4yz`cwql18#5#txhtE<
zMWpbB$-ULbo`t(%LVrGT^PFMTZ-NaTGzaQSfM?_-a;lE8-Kyd^NLjzPzs5KgBE86>
zeCP#-HHhnIfb=(S{E}IMclYISo$_qc<_BP%ks4(Y9moX~h*$wf^2~AZ^<FaSU5OK|
zpMtSdzT~x|Jz>^b%+#{LK$a-Zc+4T^06Cf4N7%SN`NJlqlap-@c||f|UTFx^hs5=(
z;NXzp7;F2dfDy||D9O8kH^3NtYTNMdW(Fea4uXfgfR;9wabFA2JeiA`t2nTrIZV2j
z3zokhVHGV5O6PuZ8pt!2eE$|3-|Ipio1-w1NC7|fv2R|8g2Oro%*>8~y}h)lNT?k|
zZ|30u=-+$YZ+vai5;)MzOmW*5a!qbV(jMvqZ*G9xQyE;{vk0jTt8xFiJd~#SQMV`n
zzb8bZ{yYca^nDnk^J>P*^)wd^2P+MPUfyMd3kSkxN*R_vPNw{ZE(Ra+Vrk<#M3)d(
zW3LC2J~zO#EEyk;^rFJL2p$#Y$hsH-hmuD4oG*h(rZL{w9l#&y#pG99hpXRhu>1TT
zT-ra2<_y%KwfDs9=jFH%Vhru2nmDqMT-PBL#zW%LSoM`U=dtstKeLBAt(n+FIi6z<
zI(VI5Mqapuu+Mu2gUaJfNoxjHd?#<};S~mfQ=3uncP{d-?SX&88st@P2A_5_YMki%
z9NUWEe>M0tOxc*uZtyi)V*HmWIOmjcKf@fIqBXD&nT^0y4xQ&BaQWK_oGC2Dc-9Q8
zs;$GwxD#duoMPSHt1yyZjfuSr5c#1F_Qa)VBDZ?7gB2D&eZ*SHEAuzj9g4K$*Lm@V
zVVKx`e0tbh&4J&*d$wPYp0~EH7`7E7Kkj{YY{z7T-9E&wJh;ya9Url87Udl0pVZg8
z_=#<pQ3M`y7wV3aQ|GfE9+doG?pLYbA4SglZNztbB#pD{|FZMx{HS?3k>mMwF?REr
zVn5BJf<kREC|8BizDZa|@674W64W^=#dh6WOznp}9C$}r-#bzAwoJySmkPLICyGha
zgdwB*i3L2>LQX&n_KVt}vOx&vMs!g{zt-u@D|Vv50xMr9pf>O;JNRr8@%F_rZ&x@X
zho<A3>{k}+OnEs`ITUMnVk7nci#9dWyTKcB3Uq#?GuHFnv3M052y>c&7_SyZL@y8Q
zl2lQ2<0I=8RKVxUtsI{mCCZV1X9whJ@lI+ECZ-x={dDRn1Wv=ohw;$wC3o(VO9;?Y
zLOgX)Z;Z<luUL}Pl2i$7Gr?GM5>n_syIZmlpW<k?f8URMH?okjT8uZBf3hE~$`Cwa
zh6%M}tSFvXHDckEACt$#NmkSyQG@DP;=0nF<4Si3j32Au#eRBEixB%-;wO8{Lua~x
z8oZn^m9mKj=&qcODWlb>n@#?+9V)o6=qFP-<A<%k!_XBi4{dG@I-cf3>J)YUmQdIJ
zVjcA|jnLligKe6=@b6lR`ZxZV6C?uueZ(Kmt2dsu&=?ut!eOLUh2&XVut<?+ngtbD
zU}Q--OPZ|<)kC`MIb@7(vCJk-n51=MqHBPDEN3qiE_p%BGy$6L%JELWfN~36_<1fD
z6AOsR>JSYiXXDPqm536j`>dKdcxIEMq^AW-e-m?ldm=FsiH|YC2^nvrkzJLGzYCR6
z@vsnE)GTpm)peHmeG%e#deKRHfM4GWh-n}VCCb0@J~M|AM;bD%YM3BwL>W9s96qK2
zrS`Q*uqwgVr7g(3>`t!hK61;9Gu3x__|r-J`Bn>f@1t`B?Y=|rtwhhO25yU)64Hey
zqp8#ZIkWa6wTw70Tvu#=K+ZhJX6*8*#hU}ekbXM>r`At_DfQIcQ_gY1d8prS-;PbC
zeYg<WjEN6Cq2#q3pLxhtyKM!YP4lAshXF?0e6jKoaie#H<IplX{~{kQ_E{K{O2@B<
z<lsD-iCO<`09SbyVs?o^W?>~n?gf#<_8JpRXheK)0eqC{>{Q%{(F`N}dQbn1S>w}@
zVP-93hTzvVSo@z3HXWnc;=)1PR$2r%`!zTu?FqNeX0)V-qiK2}CLbkkv*r?{d`v^t
zi2#fppM#KgBjfK%<RWe(4n<xx<koD#`<4u(pDM#dU)uAI*<gwWy)Whona(&g867+G
zuzDyGGgO%2CG!j%|ImfQe2-x~aUXHFuS1^Bfzo!P)O#j=cJo@~RLrDjOAGM|MUc;k
z(LL3Hy8E8E+0u?R>q;PEJPV3i5eVYHjljz(*g#p$QTGh!+4;~MyPf&pyNEqBN4Vvs
zgIZRLWRnKmv?oX0mvC|!i6U};3e6&laDY>em*2b)lhFt+PY`~dX~+IU?vVep7yo|!
zWUJ?pZ}`z-1Sra4Yh5Ba3%{{7ln;0`&6{&|zyU@{6L7A{1Ux!J;16&n?icxrTb+re
zSpwtsLI|CkU^<XO{IGc%Fz%+a+ha@P_mtU7$Tr347=PS9ORQ7z+1Qs%J*22A*u71_
zk_0X`*V^OG4Nu}V1%ov^f@h98qz;w9M1Y=`3B5SG+k^U#o|yNy3KJs(5b1k^J({15
zx%pO@koAyVywHys;?*!%9|X0fMwpW7jU^!+c+BUHp><lwm-I&S+<BDIbHd}h#P_zG
zi(Hz8XxyP)<Blnauj#-W#rJII5Y1vvX+SuhgTK7N5G0P`)QC952H)noTrGv>;z~v<
zN@Ny>VoOXS0%Qd!%aDMMuK}oU(?jxxbx8crh8P&4u=X@Y`5{m4<$UsB5TD~`)eOYa
zyrol}I!z;*XvPJ`S5<}uGwiXUellg>b73fFjVm%%5I-A-ym|xTq(q=yem0&O>q1t%
z2s<<AUQG9}!FQU_%ScE6_h5`OJ}573K%!+578Rtz@(^Y8XBy%cWs5$pr(gHk2)35q
z$aSzl;GB50XqL0-iURmJ`v7yIF8-aT$*f@M57yCH!L0t>V1GFBEaFu))21DKfMPn^
zEf&wJ*S$09npVv|E3GrxS<=9CEg!LaD(jfD{sETl)5nf`HLzC~-?7VSbms1fXTJVE
zO#N*llT!GtKfAYs2|Jx+vr8J;?G-(&EGd&s9?xb0w@O*o_5-ZQt%%JQNMk+)ebnc%
zWLX+MY%orRiObY8d#w{JN8<qN5SL`f?JL;YB|F$}nPAra#FDv9+Q+&TcQL;^g(eFu
z`q-)ga`z~&VU_1zvN6Hataq;xl!u#GOX*Z*|6wgVNV$WL4{x!qRUcW6VFC`65ZiaX
z6ZmU>u~KJkghtImV38ok?|x@$OKC?`^NyYM;KyQr%9oTa=a|_^z^_XJ7N2v`vMK}t
zTtm2cxL|F-3l_~ozO)DvY!O{c_aIpuJ}ij49C?~w%X3ceY``zyFl-YHhVrIB9ACbQ
zKHIV|m^J~)w7<RQ)PhAxBg~(6K3Zolu};c@pQM@p95H@)2g{>X<2zG0_>mp8Q-kk^
z<p>qEhefvp8X|NtrC9_!VsEfWr`fppGy+EC3v1LC$GXpQ2yJr0`|UGvelri&?cztp
zs3?YXX}4(3P(HpBsRD7RmspLzcO3Dcza0uc{Gj1L*?dh$sOeMYE{I&gN>h>CyAXT6
zsB@}&wUI~Xk;^sF5FcL$-xsOalH7nnt{(Zcy`hsIf|#Chh-6K`o|tIl%}Rvo6)VHZ
zYcr5c&tzfotB@_<3_HgmSjEwqPwNf4XjF^qLd%dIZG}J68u6q|65qumAT6x}$6v09
zYOF*tWsHP6Dd#&Y4QbcTAiN?N>QjlQGIcIYt2_~GxSee@-3Z0;3={`&DDz&1qWXn+
zbSxM~%fhkc^<+#g^g~o;K6NZp5pW=%+_lxHawooP@>*1>8(_-170A8qium^3cwF3t
zEqX54vGgEz{&2?6fnMZ#g_->Ru^j(OHZWE(hxX<}*k%?7u7n*n(d<l!pSqB5^zbR+
zBvRGsZYueM{mpKJV(V+}LC<cuoLxn|lDV{NYsR0Z5WE)1r(QoXUn+KB=f_w)n;409
zdbd^GE5lsLcr2k^R(Pr}idvQ+-~!#5zk1*$IeuOT)nih20X9%hML(z*Nz+Qu#{JGt
z3ol1XQ4&OC`^g0mhFOxc;Qh-68SBlUH>`?8>Q2qhB^IQ-H|lo(W||_jxBKggTbu$M
zQIo|=IojC-FUFA#T6lg!7d^`@@M$ZsIza*D2Zdqn8ppjCZ-H0t<elkRise7b;Xdwz
z=WW!pRQt``G-A+J5dmZVi|E~Hic(_@a*L49_18nrX187V`;vS^;q*oitA*djZIGhm
z?DRHcq^#G*w{N|uT0F)UHksqCu`ymt&4iz~8xrX(m}yR#iZ9Ag*sp=(5#G=(9>fJ%
za^l2j;p;2f-F{ZXLw*75ru(?4b_wnU3B#p`SZm^H#DFM)bZsW&FX|$*Z8A>vx<c=I
zGx~m7;c8JP4$G%QyN*1b>#QL6ZY{!T=I}AE3Vd`2^Jr7W)u9;t-aHN2{WDOQzsI<L
zEwQevh*Ky<+!oi%xHA%gykj-cd>xI){EP76W<B|3c}#nF#u)F|RA{}c!|o@7Mjvyx
zApAdV%9+x6;^t<QtxCjl+6BHGBHqkbU)&ORfbSD8IIXFmd7T!yN39|KCJReNa$)&5
z4jUe{KzOkhxo3jWu_gw2l-bBX!w2LgA>pPa1Z<0#DCHOex3}U*Rw_hh8o+Y)EF|zP
z!=C9zNV!S#{cA=r`V$6eaci8ODTakZWjOS_1u4IqP;k%<_ir@7BghQb_>0kQ>5jJF
z#7<jc18zRe8Pvn!YF=lwOJ5W23*(6&zYt6IZ^cfDIe0wOh}FbZ49UubTX+YmG<Z$J
z>>e?f^D6lAu?Cm@s`dC{_T%CY4e%eV#^{Sm9B8F`fCzDHlgn_%s*?JK{_s6I4`*Df
zky54wgFAZQ`y55?z*-pmN+3VwA}BvG!OIWM_+_1iFLdWP^hFe}_<g}WXGQOuR#uQ&
zisVg$*rpMJJy|7S4IC6tT#9Y(#N6cP#mXuT?4-_1&_!SP(eO-~J~zV!#P}HM!yY?p
z)ElkEHM4(=_cl2&7L&WW-W+>hFUC>3=gj?m1gs60ai7|R5nt&p>lOCL5k>M&&WT07
zv@Y~F1rY;<@-mwokQI6z8Jmq!IbD@Hq0#VLP|IDC(}<#X$ynYc168$h4E2(CS)3fA
z31&EB-HfgIlsTU$gNuO{D5{Nw^jF}Amm9gpow1<H15ZEGXXmdi&3YH%BV_=NP^O!|
zMF1ks3vkuZ8&aLLE1~cG)y~CmEg;8IJZ0tgnowr392IA|sJLPbshbXzCo)5|cMe7`
zQTJ{_1^&D<hfq>G8h(%?Ql%4_S0<t6O)B`}obg4-1Dlc>p!vZXm&C~N%LGi0uUL)l
z(ne-<))D?<1&}dpMjmBDcWrJ&Z+#}5;~6rXsh?ry5B)NAm}Ldv?JYg7v|S0DKeWS<
zJ~!E$GjX|ZDJmq$&HeEXv*yx$<z*ROCQm`5|5k|5y<@&GWiE6xuyA=IZu~1n@UBKw
zswU(8nrcLaQWjFd7&GZ^cEGg-gKpXQ8&7k(xK8|~o$j_SIxEw2t;ISWrC|$U;6D?e
z1+DNoy&U*VXQ2J%s6Ql0d#^6?wAkX;;TkN@F~QgN5=<ceLX9Frb2+(yT$7O?6@{Y<
zrb3?HBl%N!IhOkka72_3I=v2fOka2BX$R=N@rCQaR6KH;fon8#RGa?`(!v4=wa!8C
zNdpYt?l9ct?g@@PeYT(PL~YnM$ngyz!a9S_c-PoUsdx-+Yr~5S37BZjg%okHrw%3)
zyV4K>?~Sm+at;p9rukA7<pei6!8LCue)%}#<i${^JNl7-N(O&dcChXH`*7OU4G~*J
zpkp6}f39(OYT^u|5P#I{7Q$#9ATzZDM>C3`)>#UPt38-Vb4R^j!?0YK22<6maPn8h
z)~US^8<>xqgV7kITwA=j05)fvK&*2UXEY=o7YBHtL_KR^k=wXwx(w$Od$1-f8nOIy
zaeH?SdcI4Vw#;J)$R~%TYzef2wK#N}B))Mp6dxqP(sK`P_$<RxlWurTT!Irk<d9sJ
zh-P=<pqS3V^3~NSOC@IC8UrLn6R(RtD=w=0uzFDv{QD!&AW!|V`{A@B^uhFB%kU^U
zA88A95m;~#Gfu9jp9%G4>uJ|KYc+N7PE$v^9H!Fc;Q!Z*O-e<mxxbXMP;OAuSPTh~
z5Ip#=61UcA;K5&-hc1r6rE@e>;_jp#v;r1gK1n;qIB2+(5TBaYB>Gnqd@T4-HYXC3
zBd<a8xC_kp6l3efX5=sIz}`H4jGR3L-;fCORhU3GyphfsT<%wuCWupyrMg%j7Be^D
zfuI*G)EY3LQx1>cEAeklJ;d))ckAyEZb_2Ik63v;eM?XhV2?J3G8AwY;EahpWIyI$
zHFqlI)Jrktm@1UJXs7m;dKh*u+0{{c=l4aUAw7>=6HZv=Fb@|Gm(V?03^PuXTRXso
zxD)YcTJDFAL(*W2i*WF8Dt7x+;L<1ZDDJ6+Yk)T1?n*$;+Bo9%M`CXoxnln+<70_0
zW(jl{Cp;rB?@<H1sc1xV{0&UqlmYFpomhM`7MsOZV8`uNJktMywuz%`%*Y-Kf@*O!
zp-5kJfShPrT<B46JniQ)4DVWi4?Qd4kXws_5&C-?5eWR~2ZaY~p_LwhtINDGHdsZT
z(spo&XLIgA1h{Gb=oojvO;<bkQr6Ebi5CL7eh7VFi-D>^_Ahb~4z%|`IK2Xse4XI%
z$`%jiFTo~%y89ec$Fc=_$Vi_Lo>lIsGqc4|;s)sSIiU6Ua*SM_fs!f2dvB%pj#M1w
zUMz8;F9xSpgkn91)R4ngxO}*RJJisM_43D=QN1&Ai2X9g--#fv7}#0O#s^IUe0R6S
z8;w7>%woX#=tv9@>R(iC<utjL;wQHp62?tPsqBEvxju}zxIshx4f|me1^GexaO$3A
zUWTpsoa_VJ()rL2aYxg%Dq;wPL5XGr{**c5-XT|kA-U+cSmW81P`m>@%j%Qy*INS5
zjG7^Nz8l}q8l&o5I%KM6!%(sj+V^7d?vyK@WzWVkF@N;mUxDXmp0MA?i(vO>267{_
z;o>U_DJNf~%TllKs1S^Y<zZE1g#JIokU0OIEvkIY&NTCJ|FmesSxE(E8FBcPGan~D
znPb}SAmki*$!b>nq3b!waefO~F49O>AP0`dKZf>F&XdS8M4gU7=$AQ^o32J;`Zm0;
zQo<@b1!B$f;^xD82##N29ifI04wJy%r)qS*@PH`!uNGXQIpGIUJpO)*-D>uO=G_(0
zHXzpdSK<d;q#fHz0rV_;!4^!;!8g6Rkcqj&HgBQ%>#d)x?yWOgZ$#sLg$$yde=w^p
zT<XY^Fa4Ywu9wwf-}S{9^K3`IpBt*5Y{vy{F~kkj!<1$>i!Id9qu7O9ff>-9=Zok^
znVczR3*jN60#lxO<av66pWP+I0c?kEbphDqdRV<_gr2mJ=}+pOOq%IS%&b0S)+up@
zZeGBS^jNHwqTI*FqZmml#oEt@vF%9*W^;1THOUpL?j^!bu^K^A9@sn<hG!y;2$<V|
z1@vqk?plQ$>KOGspe{zl9P-XKAjMe|0n|ea?e@izxZO<oc@dshE<@S7MtB6!y_fok
zcU_3lI?Dme^R;n*Bp%|LwW#pV$Dpntd~%zxw2$U2XG(Bm^;BG(n}AjP6%d<Y4(kgX
za98-?FZHip`dEXu&&Yo<#GRaP3E4t&6j`-W{<Hz=r_zX1PTkcOAw29NCVfHzZW!D}
z)D~X^Wtbo=+5jqRt-0g&L)dh(9$iLFSpH-g_(~3;Pk`Rf7tC=}P79q&HY4H`Kaw}P
z;Lri`TvYobYjOf{k%EwIL2O1>ZN!Z@KyE<*)<o^b)t`Cz@0Kq9{))pEf0}F3y>@wN
zC34r-!{9glS<W-W!4q`eecwWPj9g4jq#2-}7(_qLLBYCqockt&KlOchKNO8Vx8-o8
zy>new9nFh~J@Pdix#wL`_p2Qzh-qY<W{HK8iEzAYZ9J?g3+K-1XfX@Jd(RyZ%6CTZ
z-&hpcDdW4o1s?6P0S~@lVJk20T}#5yIafSc>tSdVmr6U)Qnb3CrX2k)To~E~oiNIE
z@?U4UAIqWfY9;OMjBqNy0+}BKAmJZ{aq@!{-84aoNd-*KWr07}9S`4mB5U4NMC?u=
zzvL_&yA=hKS%#=MxRky0+6RBdIVf~9M)u7ToY+`Nov2WZiFjZ`oe=7OyTD;$29$i#
zVHtLky}A&HAnJ0fEeOVvZIp2f%)^bv)NN=t!#WvFd`}Z3mWC+$)jqJ!N9)*Kzh2{W
zQ%^BZ8Db+`5XIoc3K(8BLfSWa=IvC5^{^UtJ<vh>{2M5<En#U<GAQW#$<oqFjGrkl
z!e9<V<!CxW3o`LzKkZNFNkL`kK2uoZ27U)F@K1yscvEP9|CsgpN}#f9Crh9V`K}d8
zc=);*t;WyTm;yiQ1M9I>QXY+G7%?oAkW9M{lWZF{6vGfQi9SpJePV{|d~vFhGWUYS
zsQt_E{rm}*{#K5>tkV!^VU7=5I7ofbfmiibc%od5`!96RrnDCR?!0(ymy30$D)3mG
z_~QThLPu2{V?rfp*WAmMJvxWnFe}&xAq(Vkn&ImhjN8Y3VHlx@Z@;|oU<L>G0uDmb
zgm}4bm)M8fEqJ}$k*na*i@iT9k$Scbu92nq-9?Pq&yg7Yevd7s_s+A!b|@Vr-`RK!
zWXkLzc{>myXI<!PnMK{aXpEi-g33!^E1y618Fk~ixh@XtOvc4E@dyiZ$Ds{J*cUpZ
zv`>x4YQ<Ez6no>@FJ<gn&qZv9JxX@HW*eey@F_b7as%WGc<hAKeI2l)Guh>cez;~u
zf@{4Kc_UNMcP0*%G_P9u$q^v|#H1OV2=Nbz*gS5){pDsvdv-xE%KP#9_L9ej=J5ag
zaFjAbI>EW{x*Cst3cRK&XWz5Y1Cn^NzaO_Ie&A?LJ%sf&rLfzagw)K9*xT+0cfXa$
zq3np3NG<&TGsHVdV5gA-K9A&*N5~U=m&|bJY5`*6B5~Jt89p7DMfsHitQ%@UhC&po
z-0rdz*)pu{2?C4#%gT23;p|n)N6n!QnRpZi!hu}v0*nqZa8#$`cM>tA=a*wK<$Dz0
zzhj&*>WExqlrLX^)08258(oKYv~T^VBag&yzt~E;hpyTogna=InXcA*#(j8_BTU`d
z*nhMW(V_g?ofw+uX`z>Te{1dDu#<llkR#j(K7wl@_U#b+Hy{la2`N-Ro5@+^<AWn~
zJ}|$S2E%}KJlfepT{(5EZdJvE>uPZ1tw-ee3D&Sg8<WnGOIzU`OX`+_j;sy}rt#v;
zK351nRDoz=63nD)VI)hry@#?;eNAlOeSCQL_8WWUp8$dAaD1SwK!>|58m8T2)$1dn
zHp2-*rF4hS`_00-zq7g9D~Y}FlVy0j;^PBd^1USCYM~TvPm9By?m`^%@<wWp93<Lx
zk$7n;6o-v4Y4#5`e6qn{WU(ql<(zPv%Z1Na16n0)ac+M&4xjwXTtAWX`L#9%?a1dh
zbA$=^_cHV9Fsyj{OtbvI7Dx=yT(Wg8@)xhh8W-ZHtXd4at9nQ*h@(tIE%Z+%WB!^H
zh$~OS#|9BZ4XEO_uNUNoebMoj=1+%>A(Kq3nbs{RzTtzfZ)V`5)n2w(zyd}u)-&NZ
zx=^@c0gbb&I9*I0b~zt#jEH^y+zr#W>}2ZE*V*AA8_1-4psxN0<2kSrF5T4kGVg}q
z11`?rT?x;ka=4Ang@MuxsBI+{-6=b4r2nqgWCK{V3>)6;k;c<j4xaOrfyd?=)D7%V
zxN9-I;$*O*D;AdI-`j{M$h%FS&5gvs{<|8RR4cT!Jo<5PSPa|JR-miu9_FPqqHP=H
zu1l+MHM<P)#q01|dmf5XdLgc^imt|k%==;p=BH9u;6Nmv9}9pQ?e70%&PDj4jd(@x
z(fc#yu)py$I~^(kH=c6#^JEjghc_T<eml;D#^8&c3sSOcvHPz(<|rvbF^D`_8sxhC
zvlQ7IC*sWoVljCsp_lUTYc(7&V-Z8(%q8%7IR}>tD3{tMgws01EX8vUvh#K^)jD&-
zOqzqN7}G&j1ntI_RAZTd8Fm~m#?^Du@J<s3=ba)}>U3hd{av>Fnk0OzsK<c=GpzdN
zLxl5@t!K2izqg<I>c^ouI}lbecBo9Q#%1?2zyb^6wHCl_gDH+0i{S5hE?la#F*nH;
z90*hAlX^mui|M_&3TkQb<ULD7cHCRGmmIBi)|Xk@oNT;w)uax#9@h0c;v{ubgo4R0
zTWp7(j$dq2x(fUUOR&^v5I;jcGIQ|-@Utc+2kjmu|4f3;(OT-RSVLp84$`u2u@vf7
zCaaCI@n7fI*wr`ez|C6D>z&$QU-+=-cnW?f`{KzOEnN4YPQ;S$?2bO=wBP9CM@tJ1
z+FoW4hK2E4@)}c#n#4Jq0GNLz#@II%Y~e)F?4umPjT138Ndhn1_z_RN)$R}LSo}9d
za{XOq8jrrRDpg)w-$o3c6}O3jY=ItuVaD@16}-nPp?}Z-rblEjlgEl&1;W@k^&Pvh
zBMM2C0VtmImQA0ij(4w5vU8u~@zB-;*X(Kj=lPE<-13zrkbh$SqzM>RY`{?&UqodT
z;}LNZoI>;9a$*76&$;0Hq;ZxwPY>x2RNy+9dLZ>Ou)4I0GvlixzIw}|q9Y4#6U(uq
z+zJy1!Vs}s4%0m;Yfk<7xcY8LU)I3C+fyLgA%vD_WzP4y8oZ*pyN7~0IcUju_HZfU
zWzz5|kGP?xns5neB-i={7Pf(0Cc)oW6#o_GU84#gnmwienuH9>!Y^4p!dwr>K!Tos
z6a2iPIYSB4V`-K>WPyeY|JbM3i?FIE5+TusP;;Rf^{Y4R>tGU2?FfL0Br$Y&D7&;`
zIy!<EVeyXpER(B_IAZPZNy@@T+7CRZ{86*QI(SOWgSX3FRv0xIV~b*7Qe{S6z-b5;
zR50Q$@xT|4G1mRk9{K8RbjPMFyl57DznDT^a{+RWt5N3G0*wv&=(M@V`YA^zlEu}r
zz1s`nRGJkn(T77$CmwC3toolqtZTKynHLc__hBWjya<HXmqa98u>r4+C0d>tKr_e^
z_f==3Ur-ToOD3UpryFu4nsI0L9Gs<Hz}u6**!z+^+<N<lS*CwxJlj05N{;^DyG&p&
zBZn)JH2X2kz*xY2wwYHBDgTvX74d%_2J&Id-i6NY_Ov_6!ZvFKTzn8tUFK@&x@KVf
zsW<|}OfX@LIBp8=aA=gkFU2qVXPk8reBB8?S-|V+rMO58|KU378v9O%%4b=e7AEf3
z-U@i0ddfWZb}_%LNf0!7thP9F75>~2MDq3pcsaiZJq63~`g}GLmRaJ#n+#m>X~W)T
z$|Bz+clL67G+b1~<9(7ideIg+n<G%%A&bAn;z}5d#H_S^l*e|#b)#7{f4<2c8w6nJ
z@j>S1K`sVKcli2BVREts`B6eJ@rMpVB7CUV*vazVoM%Fo7P$VG_zLZ!==I%(RBI3F
z>b7CBYy>oS6kx%z64W<2V%lLd__mS5L6E!<)98#b>lpQ!CmHRPamRt+nfPekfK1BE
zejoC|B)cX^6lr2cGr5Cag`)n!2vmxwAFE2<>68Rq)0NV>dm^8hp5)bQdV-PJr{R%y
z9&N78Xijv-;}`i@b>sn^y{+N0s1&zyoUtpO&QH&rAoVB&Mi)IXV{rn_CfX4Cs~P^c
zhtNtnk~R9XU@?{0v|KUV)?C9JOg2Gj*c~&5l8ATOh+@5&u=<@1txy{{TPx#ux+(e+
zE66Lh7w3;p#u{dW)Pyj);}IwJ&=2O3umF!M=E9*h0&~kJqi?4;&U6zqf=>Vm%3hFv
zzu8clSOR;(=}bVgixpeDP~7~G**vAb$Q@a1w~0Z4=PdZ{=)ov;+INgpv4E;s$cq`D
zvEQs8dp)P({OL?^tq#IzqdM_BR^q;%D<o!z;C_BO%2&_B(%!|GQLYQ8pchO))f8S+
zUGd4B7$dU$2pu-X+7s3&5iW*yTR6rkyE*H4AB#l{7LT4_Ug!TXfy!Wfn^}dK=~8f?
zHxo$;<fouH)Xnuz*#A{@o`GDxZ5Yl>A!TpbTgH7pqLe7fOvo&ICacguNHRl|WMnj?
zC~0fb(oPymY5bd%XqW1}-p_qdzx<x(zOU;%k7GuI7R)zU;;xYkCf!lS^;>4>qrFYH
z%nIZ#l7!&x20XrFh0b8g$qjI*tD8yv+~x4Rr3ME+W2D$PnM~bFot}OvoTdAb$bl-z
zmHuUi{zgK|f*2EC9^^Nm%-xE^kd=PO+?Udv^maZP4qnpvOP%n&vIcm&vx2_oi?CH#
z8hnlUu%Yvt&iE*tSu9OwFn^q*Gnv2}2mC$okL|n}0`b${h?r%JtHfPM=ru!>3-x!N
zYy*$Q3N#-zz@H*Pv@e?l#mNmUX}uT*p9R4ErZce-ol%*qhKvJ?Ay#9G(g72E+cU%t
z?sG+KhY04?`?8q>SD4PmeN66n7UR_kXF~kHnMx&{qrA^B_XHl6GBle#4U1rVT`ZYK
z*fjQf?j*xEf796~0SPv^v53vTD?t3-MQncgYxdJ(3wtNl&dgl<ScH-Q#($c~dW+l4
zigRt*HqqY(SKef@&g_{i(qcQ)XNTCkvOK0-<jvmA3Ss%u=h^R?D{M;cELIoz)y(yB
z6s!C3(rjGuZ?oM4E7%{4-E5_IF5BxjgB_ip%~p<(565{u+iHK5jfjkxT{a=Mm%1ra
z3i4+5H;xe(qmt?KCbP<d-R#20n=C)Ji2eN5X12<89gF7kW`RmuS!2O#mbs8Pu{qPw
zan~Q)n)tE(b1D|c*yEg^BF*97vT>`la7I@U!nOC<HafeCnl+n5+bBUMNfM{_WdHwO
z2W9HjoRA`S;p3O=re^@=^&3z|sUG8bZ?iYTlTf^!`V$5!CZ@JDyQECIonjnxOGDw{
zQ~<{VYVcW1+;vMSSU%hW$(N^@|63*WO%eic%P8|9&dmF0Wz4AI#fE*Rs68<m2dNKI
zQJ#ZondElvl1H=nbZn~r%_=Rwu_;Y{kiPE??Vp3J*^Ic*P8Zp{o#cl+W{qn4KHDyM
z%XTIIWuMoR6IF@_YyI*t^uqyR5zBC@Z$3_GFGK9LOk6a!#(!^3aKl)YJe>kipj{D9
zL_2f4`ot*X<a{(`+ahf1HdH+>fYI7nNa!H$;~zPiLruVrJ=D<_y$7kJr_8s(6#|v+
zm~-x(PKiV&UOIkduPcdda{m-|b(}%0U?6;^86n0y76Zkdxav#3zPdD=+pU0#y?<Cl
zr!%&nBma)rENqT<!H=38nBUFCr>AF-ayA50^xY8PD*=^BqHqr1&1zAJ|0vcezi}Zx
zQ7%f%)CHIIl5l2`A>O5nW1gf5*4-dho#+8rDbGdW1$*R`EyazeWq9;J6Q8-w#4)!g
zW>PuLqzuSIB!#3VV)R@fPe)e*#@%Z&+1u{|$(zJ^q+BK6t_u86)<B$n7GgFlQqDO9
z*J*FIq2wICwEbf<*<=_$*n!3yV>&{I?_h1B9CpPwB4N``6nlo?@0olopxyR*%I)5y
zx#qTha)k+mljEK;Jr6A*;t~M9?DZ(Q>V`=JTBr?jMBpADj5(f1m)1t?q+ONCa>{tp
zj@8$^hh@B&2DeAl`3_FN9_28s`L`U`sJHNULm+YFDgPJ#k_{y+1=mX1<vLOFA8yCs
zIeXaf<l)~lar{?W0l}mdc*SRh=i8}kM?DdX|K?z~i4bmPO~R^_2veRp)^xvjBi~dF
ztWRx#|K6Dhw93IF>fh8+H}4V6!%po#g@KW;Ed8(nmJI3Pq~mjw_9q*$dR!tJ--knW
zP6?c*?t*BlEmkV~BQMqtff-wHiSG$JmOTTF2ec^DA%j?Tkl)e~UcZH~Brz3H--(NF
zMLy%UN?4!E#cK^ccvt%2K>TEQcJZU7AsdGJdE`V<!LbvL$ekd9AN$u~->N{oa-9wz
zLviqU>%o4>4mgNN<4L_e3dhm8@Ctc5+n=$FVwxw-plnD)JaR9Kp>F*pc42NVvaMAy
zpzDPPCyI=NXFKAx(@%DRGButdg)p1Oi-xWFkPr5S@n&KY{I<j-zSS6`-><J^McwL7
zS(aV0>Uo)4@W5d@?nZjyg-{#r?~}vHBgruBvc#f_EQm&|!}5vonAi}4@9O;cHJb++
z7URIHXO2jYIK{dX;J)Jjdmj#WT4QN`Mfu}7mbh^HDhrxQGegsU<~?$cF>i9t1uVhF
zKH_eLi_?8>0(jlMpcu8E`L7_CZ`?e*iE}4s`Y1CQA!o&GDU`j8L_^$Pc3fExsht%#
z91@ItbhG#Q#4j745Bp~tw11icjl;)`s&0_GG4Lnz*l34DE*B@w#US8G{#OfUI`<N1
zp+p^nqQ)?Zq5X0AMdo`^1t~ut>aWXLhhqA90(q7&_*D(g!V7&zR-iY+1)<K-IGa*R
zj!i#^x9B6yRUR)abl|3@j0tA?5KBqJ?rLRXe~P2{H94Oh@?jyF0?pak@H+dL?KI1v
z9^wb~``QTW&{%}b2vsE7&BH^t5!P<5PR=#j;|4dgISIO$|A}@j$U;GoG!!Lt@SgL-
zrmJgc7pIEpMKze6Z;Ru1oS?9o_^9;UY^CShOH%<1Thlv#v8Zte{}2mnG$c2Q8eY<O
zP+|55R++pMNqKy@&N~mzv{PKHRgE_?AK1E*Tg<aL2_CHnbhPrSa5`F%_^=zP%TWjs
zLv!>Q?nC>(>EIU$!*3yH43JNCP%s1T70U3>=YjR_nRqlQjaaS3P%4@Ldv8PZPqBmT
zEb^|XrQq62QDlVNV!sC#;8|D(<8ze75(_`byUoIDT?5ox8e#(G<E*PSIXTB+{5?6u
zO|wI}p)6_z7of6)W_6`8P<~c}5HU44eK~?vaf?tkk_8LrQ1b64;kjN0VlFUZM>=Bb
zwmg$ZuRNhTNNoG`SnRjI2`f1*>iQPK^%gPg$5Ef@S2lLEe#YQ<9>~^+qHA9ZrukRs
z)Tr%*fIL0JZ|{SU2)VTzC2(e#^0tmk5RjgW$h%YUWRfpl{I<tmj~pD36UVAi;v}6W
z&dp#D)*VVhZ?`=HC(WYF{6Pds*FcD72O0%3cy2NSBB3Xk;-Cdm1PdX3eH{jV7vl=$
zN!Ok($LcTSFh1@9pLHU{)y=>J-r1<5_dNoti4mrW$&<42!JLD`uLKBa`eC-ZHUcQ;
zea+nz8y#d}V=)std+#voB&BHuYm{N7p%1%;XzVx|2lGlpbgg&7gA56*yfPh9`{%-a
z`b#*`-fP<-Z+tAKef9Zmx^L+HAt3pNt=PI3du%Hy7rP7JWOH!&$!y%(;EnF#{aCtO
z9a8dX&~%!L6+3US$Y^7P^O8Sh2knfX_)zyD0$GkLp!2Q*%bpUOBV7^kpLsE=c88r&
z%3=WtTW~qS9em={i64$cPJ;x*?*w3pq8@QUm5@11^Z0p`mt9Mq54zW_J>v#H`)F*q
z+kmB-9ByrIK@s&Qz71t!aDyN=)Dhd7I5o9=pIB9&2R>bCHvBI=7!HN*h~--Wr>X}q
zK7F6@M3<6ZhB|EVD^N3Bgp~Iu$d@9FvmKim_j?NtrH#`$dwB=G$QhyhdOdz0y8-`{
zS=dkfg_ZL3|7t@WA(?Et2W&y$+d^V|%*Q&fS4=$I4dEp@xLdadDyOy4a>fN|$L3?s
z)E&rks>QAV>c?0%GqazoF{l3;Go<HvTJ}cT+2=#^)@<D0x)@FWrK04qAFLApu%@<^
zSar%5ua#x+bWadu#)wHwyVv0jX~>9IMWs4r>_t~Vf%+&LHn>q%T?kfz1$f#p7fnVb
z*laOuVzV_4p_YGHOXhMc7;C}%U=`$gmLR6k7@kK;FkMv=dU1PUN15Sw!h_7EeHWB|
z<m>KMJqm+q?wA?21A|?;s2K1-d{H`D_b6dX`%SzYS%?_g<=?q97c$A7c=E#;KaCgT
z&+RyTPOyX6=~OKIOOBa0b~qkfg#g1eeB_TtWV<dzCzT?1iY&TRbiv<03!Qq4F;QXx
z6zF%$X(=&OcT;D`l^=KF1z}leg}oKQ5V-M)#WYwzZM6<%GBe>F{g;XAGq@e4d}9<j
zK{6H47(5PJS~lTRqaN}{7C}k3%GetL*nW=}`_$}-Cy<3Bz7wI5P>lqKdFZ~Hi3MMY
z58303io`iEDeGpF-zcNI{eX_mzAoxq`=egh8a889xD(}!4{!6)LA}R2K4Ex#lz3P#
zLJ?P2h<o=q7);f~@5^fFaF~yq7E5tz`b6@58^Vz0yC-!E(EBqD+k4}2QkHTy0Rd1p
zpufk1r|b`Pw&&BkrLlJoEH->$t(2b@5ZZ*u*nZY-Doq{UIB19k!ogV*Z{F7+qAw9L
zT?a7kg(03Nox!)M`FMR`6C(Ul(eQRTl#A>!{@6GOIXc71QP^0Ee>M(D@#DRH8v2I@
z(Va9Eyz<@TL*ig$5(B>f&k*lwaLyKDs4pW&XJ$1dedTpK#~ne_frVI|-Aw29DqOLn
z^GN#+$YBG5_bfqAvISOKS;EgC7Rlf8;j5&E6D7niJ~bD6zs`r{mHjA8^Ms*2&E17t
z5Z+XRcl0}AYokryLGrZ)G_jN7#EUH72mYvhV(V^3;L$)#YpcPx3C_?__lM6!Wz^p*
z$N44p<PrSB>IX`Q>o*Jj^EP1B;6&_;O@n=uHRf%R$Iw0@=szXj!ft8AI}9*izj3r%
z7cwnBYK*xjh-q>o6Ej~XLvg}XbaW;|?Akaqs|4WFQ62E9U%+Xr6HJRo0X$}EsLRbV
z5zP#OVEJt9rd&>H8_hmbH^H0V5?^915H)N>`3&+K`t&esV_hr@9FNY#QTpykW9rK3
zC?smklk7lD-KT^fv*`S*K)vZ2+LLumgnJ6{m4CfsmoNOs1`mhe%gH3lO^ZM>SqiM1
z2SRt2Ao`9Ee5}-98Yx5!y~)(kqYkmMHk#@4CGr*Zw24I_@}31h3&wr3HP8~>hK-b|
zl(u`u?5~z0<)#(1o8u6Bw!wJ8lTh&9&;zq~MW#m^G7r)-Vo5O)pVB;dAOaVrucUc;
z9cJmfLZPREMH$3Hv_McR{|&LfuKMGB2>p5ADO7svz?`!FI=bY*U}fl?7>&LM8L(cT
z3jrPnhz82SuUQt$Rp(-X=W_IX5JtG93oMt<BwtZ70;!LbPjks<iLcnJqeYn8`JE}B
z=7)N85H@FRf_WJEFXxMpe?bv3-SL#Ys$}JEny7xU7U3Sja1NHl-k81Q0`bJq-%=br
zs*Dv;hw<Bl{Nsj;abvR%7Sy^U`I8%Z{3Y;rp(-W{Tr<78(v|Wp%OOS??*7+hsC(>=
z_hY#@zEc+C^K0Nb7=WWb$MC#G5KWh6q5qaSCK3OiuV^z|t`jHgS|qAYZ-<+1D;CN4
z<0DTn&ff9F!`yc4;Qf!47`s6BiYWxYs=`Cw4r;+c7_1}qsLW=}N;QXFZy8qcR$<%6
zT%2A!4cE0I@u*!9UlvcmwcDjQ^P>o#`izivn>zlZ!bo|R1D^K@;McOlxsA#wr%r@n
zMLmkI2@(ry3od>FHv4Abn-V>LN8>SmAPo_Eb~xOo4VRl*C>s95oI~SKe*O}ZG5KN?
zscVHC1p_ozY$5(bIxhEFq98eg?!YRDca=fLI&<j69z{#FC@Q3UanHpQv^CZba$1S4
z{a=}-TN_dZ&!Yt$kZVeU{UJ(LY>R-Y=|wCsW~l2~LwPw9*knFq;)jXV^?3oxi|lZ{
z)g2>+nXsC(24OSzVD(|@p#9Rv)<1k$n*NV%*J@+-lnqk)W(+Nx05}#C@8;qRVz;k=
zcEdDWd_o=Tm(%cQl=8JU$Kj>h&01FbVuAQKc6h=PtUC6B)%4oK^|C4Y*UrHA$N!iH
z^(kgK2|$!j7zvXlFkzqYv?rp%2#cmUf`T_5PfSGAfzQnLq7UrHh+}j{57U~+57piZ
z{jnRY)ySCfo>~CAiAvg>;v$UMTxWXkBXN0r6}C$2z_nEcZ)heRG1U@>RxN?GfG`?l
z6%if(mK9p;W8P_XY_$Qoh_&r8<B$aMZa-yFr{!^1$Pq$Al>3Pk#)Y0NwoOR}cAmNH
zb@4=)UN?sBq9FKH6Z^9N71L>PKm*OY@+Jf@SyfG9I_u-6#x&rF7@Qx>#mpQ#B&U^P
z{V6>dEzZZ>+a~Z%h@qc18IO)kz;|gq6yKZ;2W4Z#c6Ay(EjNYE)F8NcTH$=aPH5Vj
zQywK4Vfe)+7IGLOCZzepa~KJ`&q^Afvn~V57-wqg$WZ2E?u-XaTqO?zw4;-(r%v0I
zWQ;}pf5);B`nM=+H=Uln^o;1)Z;EA<Q?PRv!+W=dctLENKfm=*HG}rYX&$(7w+%v)
z#1iJWfyTgJcD-;dYOm~Ki$%yGnPUJ`Epxn`NqJMX5S;&LhUf3xp?c>iTV+fP>lSrP
zlAey;<b&;hs*m$I)Ze51uY<K1GCR}Aaj_P67NlS~JvWZ8C!c8>Wu`AqfuzY~yoeVx
zT0LltrEe{uwAdW&yv10MEsk^933&2S0uQp)U@k~`p@%szo+FC<oi!}vY!pO9Z)nAP
zmBBYp6i*N2VfgD+a%a#zHKrC7{xiY6LNH-%5`uSUp^>t@s#12y?V|2X0C43m@q7B*
z!DB0e>F2F!P8*78XLl2`Zwc(BwV>d-pYi)IgHT!->-jax4${2*$V@+YQHJ8Otp{9Q
zQiowb^}W}>W6x+77u{=vTKf<r1$w~j*bjD|<|%*a^RBF(fe$^Dg*#*kJ-f*mU%n2@
z7SvH{l{|h@gDhrdH&P#2Amb}Bs||E;qD2MAtGno2v<&+BKfw2V4*F#KnN9u!tmX5=
z+n>RBy*Ct}C4(T)P!E2SVz?dK2J@NZ@T=)(3;9}M$1EVGOD@L7C6KZ6$N9=Eg!yg7
z?z+1;5&N5c+_aN*<tw1p^EtCzuZpJCx~N<6mMyRxW^yx3V7_%a4hvDnFu9$j|9OC*
zKI(dXu*8yk8^|F>ou;#;82@D@Y#ZrJ&rQHYPnx?XWN_S-)j0R}0MpOVLiyMj+x2%k
z$4Bo3hoDp}R}4g_0I_tOvN^f#edxWbj=S%Oi~WPR-b>6lO|Aps2fpAQaf>RQ#Gnw&
z%MIq55W8+RoClY|>>1^UYiiICyaX4!lkjg4__p)_yD>A5bE7@1Y-uYydn*91JRdSm
z@g7W=NqM%kBRFzf9^uD_*_!XV-02j1oF8<A_Ec3Qhmkk;ygHZ2TY)$0cVVN2CuEOF
zAw=~wc6TV?-m+x0EziX2;l<?WNQH8H79Q{IfeNP%$x?HSJ@(_~y{F%|v(pe7*oH59
zzVw_?=JGC|N25j~Dq7=J?-`q^Rh?5-6ZO?ma}JU+isSEAt9kWOHU6=((Q&6Ms_Qse
z-IHDOC@1!VdB5T3f`T*Azn`)m1})?kp{&}+emuTajT2KNp_=H306M=U7=A~&Zz#Tm
z+Cls;d4<f~ASt*V<BrUOUr-9nRQWKn=LB1{GmOip_ix_jcJ}wBH#%s}@XJDsOVcHf
zN5&?s_^riF-$u;h)Tx}&SO&Uys&V<s7`!*UgiXm^SV@U+<D*r%wZyaez08=EUCE*M
z&0RL-8SyG#O+}8!Jj(U@qEf~V+v`_TeoO%qMRu}FBQo5HhHbdM`wKfqxv$SUekiLf
z#B0qM6rZ?`;A4@{+evv;b{vJF;ZRsXNh~ElyiRw5&Ci8sl}UoYrNg+mnfwK5#Fv`*
z2QmMD)=+j-t#AhB>KP%vj*ol)U<1Y-w8ZyOM@;`Kh0*fkXnrIE!}H`O%}j-}17#jA
zszGpIDbgq8BEFO|C98&5Zx28BY_S_QH|-*)*;+XFDdSuQFW0=kg5HH{+<zTH$Z|f*
z&gP47RawG#K|27O!pV64y_<#aZbn&%7vhN(^zw5jOW{V${F1A1`4$gslJA-|^cgdS
z;Sn>HldBLkjgPJGvu2KhR@k2;Mcq+;ZVGXjis_y*z*h*p236#siX56%h;(kki!n2`
z3~3Ry;oZ6#Uo#ZdUU|i7+Wxwrnj3AW#v3ZFzTu&@n%)9;jdezsS#Qc6W)t}cijD>3
zS24jVW$J&aQWr104m&<2f}fp7g9hDM%1$z$?X5UoaF-R_lE5pUx9qy50p3_|ghjhL
zxMTx(O~@e+iWybJr8%Q%zL*lQ8RJZ=A$3O&`y0i$U%&gX>DC*_2GKi-?)z%BSFmc+
z77V=(!qu*AaET{Q#)e!NpW1<cFD}6P<P?M|DKm>@oiMU-z}U-o?41%2bAEvBSx^Pb
z(mAM_<%M9o8_-?Xh^)=#oP^aluJVg2m;O|O`zk(}TO=pSg<JD*n|PYISIek>YWJPx
z-526)vWYbk=!Q({GBjyef#08pn@)F<)^t~Vb*8>$`(xH?a1HX(#4ZV2g3v~DY>~Rb
zMzVTQw_p>zuJ&U=E{D>rpRDk*A-Df!93HMNz?P^obll^i?)Mp78)(Iq&0CPsb%Skh
zjbv)BCR}!GEGBt9W*s}OvS&|^vroMvNc^aUgOu?*G-)IAj;l5s6{9>%b_U{>cd+8d
zHEgln8fO0`7A@Mu1>&_w{@8rv6_MX#`DsWz<{`&LE-se2qf~;J+;@(m<n|sIgl<Gl
z><?D<Sd+;qZpPP!b~fc*5({|M$`VRWGJ_vp#ANGX6A$qtDyEu6dyJXciycSZsZMs`
z#4~oct(3*c`7^ty5{xL+G7nW9w1ldmHcW(iY6EC0m&e}@HH>>lUA$0DoDW}(uAb?z
z5nh5b`qQYVr32|cG4A_zCm2{QKq7r-<~T3K+LzaHqUSOSuib!)mLiG+{<4Z=Pf?`D
zhql`)*mYeJZdb-*vT-@SEIo)NzX;#j>xLrof^%Fp3bu}es=XTeHQW#;8j6RK3vt;o
z2S%^r5w`(wkX8rJDkUy+(L4YVnB%e=Whv3f`EwYWqZ!2i-wUS{E6UULu$7!Wcip!D
zTF(5K=WB^K(r*}dYcCX!1Yz0TC$v9Wh@W4~2+(>I9X;9@wjw6w_(s%OJK(|hWhgkZ
z9*vp}<mcJUWDex89KA^-)6$~f%NtC{^cO2#J(>Bwt--oj@(hd^B3^2;*_Qn$%#6%`
zvma9RENp0>nZfHN>=mz~nblWb>J#2J3+It%Y8uiw;$zLC9#7<^E+Ma5kw1BPZJ{Ug
zob7h2hQRw;JUuvo?UR~Vc>OIFI#h<*FRxfj>Hs@?_9t6+yN1=5HX~viarOT;Gw=I0
z7}&j&ow~LMmitA)6=fi_t^^<YQt2~~fogaqCQaqz%s2_$Y<kEP&aT6RdoP*!g?R|m
z)<MHr5iHylg9DxmA)d!!aF-(7i7gerd?q(*zB&H8{*7%pGXwq6-&x#sLC)Ke9IC%+
zakX9t24{+y$Tb&ksX_vTB>3?0H9t9QPO*!=SMabX2xY^Ehz*{LiN2I`DR_Yfvn)*0
z{fiH2S0Fm@7&i(#5c}v0@fU14Gg;ytJD+2hH+*EXFCJh4$>~hzsw!S|h~s|$D0BFa
z7knDJxUhoUXZ}~1QE@c(99P1bXC7Fl>x$7g<OBO?N}20SWE>_A?m`)sneoA_R)3gz
zQ@50}J-{kDbJ#Y?>1?cKjLoQWVS(Ml%tTiSZw~Bc=d4$9Jk{w?=I*k6vwh(c|B3b9
z7v_w<Z-H2J1^JmLV~WCcHj(;aL;vxim2!864yhPSq`Zhr7EY^^yJ$l-LVm|XPHY1k
z@B0baAFc3us0bxx2^c)N5fiVrBRh37q>IJ4PpJ}EdQ%HhO8vN{J{f`a1~@f-8RhIb
zEGhKHck?71yc9-V%M8eET7p5xcJANB)Aae#|E~mjCZ!C~p7IOFp8tW!Aq~!Ge;|29
z_2_wQ$N9IF;wxpZPxsU!R&oX$UkPxG@-BAE`jFff1f3uHxY8=ar4Eq~vZo3$GH0;Z
z&K;fyPNU^Bd2a1~LoP@NAy1yLlSx}KYQzUu+Fc|vav!EmhQlcF@FeCTrEM9WrBA^#
zHF^9wE6+`unS?;E1$g90x%!>skSKJLxC|S>zmOr$i&#?son%`KK4GCcIorH!SQp))
z6>DxX-$(l(Z`%NY)`j3l2-@pTF!N1(Tx;<yRGGhL#Z8xRY5F*%9(sXu8ZWUys1`1Y
z6H$>QPt0-Z(tf?lp2+H=Ye^*e-8UdS+L_!#3*i4Q53}Afbm<*nZHg~Z;kOi$+Uwa|
zwbl4L!i#!if66iVz=J-k`|(P6)L;(&s}s2p+QI1<tV6`pjrh}(373zZXt=r$vh^aI
zfQk_!x+nu;D#wklSqb+-SIpj$kI9@r)H^r9Ds?UHdS;_73ADenh0j+V&f|$2?k4i#
z!o+fzU#IhC_c0Vd%|ftQ5d;isjd{&y>hmfLn>JncGArPQjfyl2O^wf28@Y@Qn#R1_
zZrU?zs#&sT1l=oFA}iaKGwX4}J);Q3rf0#4o^ean^RV>Y6Y8xUz{C7ucDcHoNziWe
z--jK{_kk#WFWAMlo;t^-D)~TuY8(5gbcl7ok-)REBdmD-W$cfYLBPOzW@c!IRYzNx
zR$VH*%I4ACGZ*K*D)3z)02-cCxzw-Z5R<Dw=QdZk$a%r?)FV7muE(=`^SSQIKg|Dw
zB3d`L<GtS`sLvx0lfEsExhTWr{(AU`2B2}2xL$2Bc(rCG&Iw6yhI$n!dK`&Pnk}a2
zSi@xGG~y~mxSCCLe|4Xafo=8>&>%+kM=_X3q(WhP0p2PVVqtD9+yiUy?BxxtmhwPO
z)GwyuJOaD#MvyxwiK`>T)S{e96LH>4*0iGDd<_bP6|v&!H74-u7WT*p!~TpI9?*{4
zc0>|Q)S13L#TgBmOHupc95Gl{!zn?U3;jtxh5&MFe%KDHnDy{;66V6fn$e>y$+-@A
zLiF-KcFUcQ%e;|*9hN7UMO+FlY@UpQwa4((b_E7~_u`<o6>foH&%=qFg^?k#yPfHL
zMSa;~X^0ZH_v27DT+J$RCAJ6$3XCv8RglZ+Am96-9WI~G#n)GMcq5vD61_tZaFph*
zh??q5mUPzZxhJT1ck)5~i7KP|#m2w%@0)4pn1<RK$rWW8NPe7cv@p~aGj3#{|Dqmu
zHhvX+cs#J&ydGcosUlqbESkU4vti~rq^lcXce(`XBNaJ$$|2~htRiOWK1>^>xzuJM
zF21P(iOX){h~^;-Sj~s~^9(LAWe=9`^~N{;Ul^j@iGuzV?orhhM9wwgVpnzHQ<Vjz
z_{MW{*MBF6U@hjCci>4_5k^;4Lp$m{1WqV$zj}R9Ebx}i<*mky$;%+0I3A}rkn3QV
zF}f`S$cg3$9)I%dtgptT!)<8!8p>&`e1_}9_KkB@=fX}+;qsr4<9tQ=xf68>TxaVL
zQx-^P9+o|LSv?m*`_kDl;!R1`pJMO4dT?^yc-U)eV*UckkDd|2u>yYX^${QR2b1Hb
zwHf`IX4q|;kJ;Y};5xYq9fpSZxvYR4T``XHueAfO?It$=UjaIn4zuYm!!h%oFS0`N
zan@@iE=lrYkBAI+yZtz-M=49Tt_N2Gav)Xx7VlUGG<pR&JEa`xRv95mun%H`M!2)p
z0@*1oxKI>@7cZ_N1I38jyPrJsw$vjsLKqX{+LN52XeS3D#g&MhI39-%iE~z^wFrD#
ziG%vD*iO+&_|Se2?>=}_j@})sjys_1ts>&8f+0_5?XPw-kWSfz>k1}lIV8wEs<461
z6Bl^R&4#%Dbo9j0+?KMeWxKqvaabNgZb~RGJV(9r9%e+d&N2xp@*v7%AVnI9@22DA
zg*CAINWF$pIb6?pMZI=nh>JTRddCp%zxP3+`+107x`5ji!dxWJ1Qhw`qOVzzn-*t?
zyUCQ{6{P*k)lY1E)@j^MEd~Kf(C<wykY}dYsUpwGiyx-vQz~{oNJDfGLq_fpBF9x?
za&;h@yCV^HmfYbV!#ULn`NYjyj=W#zafP=9KDnJR@arJ<;W#dikNR%WPB8X~<z7qg
z!1(hHxE0ilgY?~AnYk4kR-S_LT|SQ2-W_s_eBolO&Xt)ihTn1<9Ftv&;&tAr|9uG-
z^ggeOO2uw1d5n`{tm*6%oO8EDvcO)pu-yRCjoX<nb(F<&J#pJl82>h?!i0}z<|&EX
zk86b}kf3+E&1(3%eqmyPw1YO@2T}1%1i2FHw(|!wz4{p|o3ik`Qwmo1&tumHIr4yx
z;fTpOD6O%_QtM2%ZO0X+`Li4oG+Wt?EpkwBI?gge4zqdwF?blP2w}eYa4QXf!K+31
zY@@|#Kgoh;;8uJ*orEWK#*jTl8J%O)bDqBq?oY@mG-WcR7mee*1F73i9p0<Op_rgM
z#<EQ)&)(;Tm0dIw{2K*3`CUv*_!z3VS-3szE!$$6L3?$|V!0F}zas;JgL$Z@UB~1$
zHCVP+a;72t9KSZhzP9Zsi_(Fk<ps3#RpZ(Pac(`&7#ljG1qpj4PC$^@nnTMeXJm<M
zzlgupJxKGoTD+Ju2aBqk+4Qz?=zE@vDc!{^G7XTQ@4)_OKVWauZE*DFHzxT;5!=3$
zvg<2&aZTbd?a|2tqQDFLNrQ}U;&Zm@a1m~83C4%(Dp-A74c(U<$+N+6C5v*Qk~JHb
z7E$-cN(7f4eM4W{etHM*goI-^tLds|$?k?+>+0FC_I72nOjbgA(suS(rVsnRkpupt
zBsL38rE~fy`<l~<P5*u~#Z7AX8|;A#lsk`nT7W50?s)R45$8W=U~R@eh`o>C45kTk
zdUqb-@9qOQw<Cmj+;chm)?TPxo5l4C*x+=)2lh6il6dyxab`gkackXi+Krql_oq>3
zGy_*TJ?t`?i8CXQ*rn-jkQxSTXFm8nNUo4BA7m|A0`W`_6znZW+yX<a+i!)XGQ8ZH
zKkMPGx(15|s25P{g5v?V5tK@M`#U9Al%I`Ua}5m7d<Xya%g`wpf<44KJ(bjqX{lM*
z+g61?;hQmFJi_(~(hlx(Hm+sfWAZBhv0WYpP?Hjau($xOy)wo_|5+#!R74SF;H-6J
zxD=;oIGyk#_OUD0%%FMN{e0NQq+&yK22MQbW83fTV4AUO5h@&xcAf|rthPbukOBgP
zz2R@+P2TF0m~7?)e!o!s^0(tM{SH7ouofTAJ-~G5Dkx}Q#enl8I4_^d{k839dsM%%
zp~Q<c52YQQ?;ke(p9&t1rZd~XER1j0#Mm1Rbk<IV{O~Zln>LO+{4o<@Gj`(5!3;zX
zw@~lB5H|Z)!t~z_Ksg64nRCe7BFCAocnyJ+CfM_T08ev1?XFuOmwF$iId@>K=!3;;
z&9SVt8+y_6F?v@TV~<wC=0zADUfPZuLKS#i6-awLQ#f~eL*@Jk+T3;`AT<w)4v!%7
zhj>VZ?c}nk$JJ{R+^x0ur**wf)hPZctp8$8w9(G<0czJ<?oF#YxI_Ej;S}xPFI}}3
zKm4kfq#Xs*6UsR9PmPPK%7y7b7%pkofzo6s`n4Xi@oUkv{|p?f@>#FmG^~@7<pS0$
zM{PFo%MF}yHTVo0+cSyV^eP$qZLHvx`-H{RjIayGBN4DF6~}(rV~$r6zB(G9<C+2X
z%j)3X_DxuPs}X^obgn&E#`T@3#M?84_@-TgSL^|GI!m~ykDoBRPK2`x=fE|NM_X?-
z-p$&_YLd&C;!X*?7863z7GpTYgrU#)BI|5eh$!D`cKQ2r?5}x+4%)3t6cMkQhnx!^
zx1!1Q9Q1|4@#Ua2_KzN6CfkZ|@}wXd8r#{q&y#W1LK`znvuXaTi>$01=FdM7{nVFH
zFO%RFtuw?m9#?!1^FoN8AoOq3*^#=DvkE&QH>`|my6?yS72-q{-my0y1R--u6Q2Lc
z!%MlD_U{Yv(L#^Tmq!rRt&Ggig52tJ#Mca=pS3m*t?t{A+VT{d*@bWt6Xs^nU1sC&
z@9cJREBTnT;peS{TMC9y(bR_4;-#4DG#w?;aky4?nyqP)V()JCv%{aH;qciI0rSV<
z+WZG>x&-xv-U;Ag=w93znhlHTU)j@-k1)`vfl*5l1ZmEqym}~N5*vYKb8t;T1lw<E
z>8VJk>V8vE*0PzHtzVEZ#o)_nFTEQlv(?Mi$mv*W)aqP0VrCHAvk<~XN0{%#_wasS
zih?#X6uh8avZ*l^eI23q?lCl8%*VpjcUbeXW0X-2!l_q3*$di{&)DyVU#2`*b6pkZ
zICC_F)R6yiH<VfyLTbJ&SHNeD)gpO#mh&9Nk>yZ1^dA%=I_UYa2h%<fv*01QFn-=c
z=a>sNhAHDmUI;2eZD^K5yNR3b#372sDFt(Ulzhd)?fJOM8YkQ`|HC}Z*TV3*E?!N^
zhuOarjOkS4dQLC+vk#)iDv2BST!S;!J%sef+MJ%79H;fuj59xJ%CVh79PXWCy6FZ8
zcX@-g_0-oialu<xe_W9b!TnG_JXTnQeRaEu>sN$^6GBj1@(Fp?Hi)J@Rr<P(FkX>~
z_JcWSs@zI_?o{GgCPC5H2$KT7(H<`W?qSo=p1Tu0iMudqRWf>aZKL~L3*IKJ$MLe8
z?6=)LnChk?^sEt*W*tM8#8SAf{e;^RUho#ZPL2;7@VpRX32PjY6HRW=srT87`k7ex
zekwLU+Resg&Bgs61ML5M>H~CM8~gkfhlLGsWKAx{-g}^fc2i!-F*s?E4h;uNcFMkH
zLoscvfpSD84^OeWQb`;M)+2wzXBO~48GOCMIJzXCcxB?m|CDF1lj&VCZz}$sr<ohS
z6rE>Pkw(luCp|i+i6`TC<6c(gN*V1oKJJ35Dx$v5#WVOKJpK^Vm~{yab@NbkE)p*m
zCqXvQ3k~HW+%Nxg_^pxx-lO$cBu6=;v?2K2Y{Cxv1Gu96kLjG#g^PYCMihl`n4a~=
zqP>u}d_EG@Vqiin%7QN9#iZ&XeCr$}%xHp<qYC)$EW_?31JqV)!}n?uB6yC#mCHhc
z&MZ6-2FCHu;Ua2k>7JVjsksfXh%!c4&?U_N`xqI-af>R{gY8x;mUf^3*T)!Mw0&kb
z50ew*_ym-$&V(HIm<`+~){#1O-*glqx=es8mnHUEgBkg=({Wzb11}=ZQ|^GA;3+}a
zD{6$mI2Sf#7KQh3sE>}5Z2uo=h`mvPL$CpoqPyAM13D=G?!mq)Z8xoRm1Dnr@3W3W
z@htcAdgd0jkvShKV#nUqv%+z=*ubF~P!D|1awX-tVV|XV^d$^Kx7T4V?VRdg?}q%9
zSS-9#4UO7NCgM8<Y9D97hu*!_W3uR!o`A81E7%E2Ra!f=GF=sG%zUnfL@D5UohYZX
zMjif!QFy#<F6`%;;q;?=-0#^&oXa{qk*B_$v<$>Oy2-^Z0AWrQe>TiTXC?KL<>%qk
zc_&DIUk9Q8ijXNH0}<{HBxyIO|2>}W1^X$tOc{gTgNQ08c6f>qxAJE*6M_OWFxZ0T
zP;v_ICr-xG`z&=WM?Yf~R;;?jt_?=OA#Mu<BKE_{R*(C&k9u8o7Z908?1=PdsAy5(
zUc|k`W5WuZRkg?Q6%(+XKLtniKe1p9S@=>mA?ds{Uh9m9;^s(P{T_(M(~6Kjsfd;n
zuTYpkJJmi-*eA}%OAS-(5Anm~r};P>v;ik)zGKJB1kL8$B-Uc|akllsNw!Jw2+O{F
zg1s!+!W7<(u!E_@pyQtmW$H>kEA2+pwpo<@@Izl~IGoaneX?aOmX54|_{WoQF`NbM
z*+1A9g#z+vn7~6^9fh_lA$Xr0%F9e~Ie9UZY1b5RJDmIhUJy>0#yz^-jMH@Iede5j
z+j51-FC2yl-JK=WhA|<V&h~<IKUyHdg}JKIj3W*?^e$KuF9L6wJ^1*126Z{s<Exk<
zuCMaK2f--r_Gl$acV<FVe-*gq2=Xkyp_%tfbpN@D_(3m7++>*0J(n99tiloNBrKJu
zeGy+ACZ*B&GjJzd9S<Y8Q63g;ly6x#hm-H!jFmkH;ib<5OUmO;J#hy+^&{~0#!(DN
z(DPJ@7iTQ@VYBrp<6cjJ$M1=--ZK%E!)ACo`jfp0R>S8L?r13xAU^(IxNe${=$kfJ
z9lH#*&4$>xsun?~@?m#=6HM-%Vtcnlv(g{bhd6tg?FfC#9#&JYLU$7Egn)zq4rMNe
zSSY>=B3E~yy*7fgyLkrn%QRs+VHEej(mv8}3*=sPp=8_$Qk`wkGp`Zao_t)!gOw1s
zZ^BfXmtZaBLdt8gz_}c^d+*`G+^xX8KBhERjXT`Q!BEBxWw{%1mbVlQwq<CNt3<_@
zw;1Co#(hl}94s;9{`**kC13QBIC=?9BOY)Lxr4JhHz29949W7USP`U(c@NFFgPx0^
zEKZ$^-;3zoK%c90H_}y|k#r~y=ib_&wJQRxA+FrR?iu(SdIKAFR@41+4{{vooK|xQ
zCT>Ao!%1ei(!NwzG5)<l^7eoF_9Bb*q{BB&D-M}#xOC`@-qM^6(<D}$)i*ToL03s7
ztfGuLIkBxc?Lb+h#s-*FY{JNvZ!oiXjE)Bb5VE+;avvRICPL#e$76&IPbpx1DrUqW
z?Pc$@_@F-eie>l=GSMAh*>^Qh*7jx|vc!dvb!Lc}f6{{J-N|74-I4mm0-AAd=+38%
z|BJ^=zgCqCr%br}u2u9-wnC^!53b+%iRQ6R-1w@*l{Z{v6Vu2yQ{IP*+5PO$4oR5b
ze$PA?kAsI(5JFDNLgb<YE_u<}j@~m}5keeq&IKfs&-u#nPFPgZoS45CF|7t%@a$z+
zHbV^o4V3?|65!02zhuh`dsxI<K2&%-XT9>TF+@!8?It|PDziqKI<dIBw73&ObFrK_
zjIFkbxUf_iGrtpGcu_h8f0x76LLY+*8B3g6idDJ&tmN1wHfBA{y6sh9@0knr#1Xdi
z5wX-aS752K4UWjfa_f$yVf^7aIO?_lX`=P;+91f)C05`=#|z3)Sdi;wkV*Exg%stb
z9WF0|9p=H*Ssu|9Md;NG!Fu8g?|ndh&~zWj7G1;E1LjyDI3H>YHbedUB80!p#$w|N
zSQ<6q!LoU{InRd$c;7=AWulxU>zR(iGdA^x2wqRQhUIsNmz`h91~#tO5SVvM?W4eV
zt%l)ltrm$Swfo<_bo0-zSO0ZvqgKrLGM(j@dbR3gSHpAGB<LR(;p~49^YW!Rj8~>Y
zAXX2uLM6o8+m0RkiJiY#ABE4S<H>z3PW)3g=5HdF$njQ~WlhC3fg;4)6(Y&H1{T}b
zqjVMz1nXkCAH?cv(P4ONnF*CMop^imDzT)RDdV#bLnTshDIZ}KDT-X?0@}&#SpfC>
zImBs-A}7r)@~;-ak9L;TH)j#+TN$qd1i6P({18;52*c8RbkcLJVID81cW?_httxmq
z(mC_oA7<{pko&8(6N%ea!7w$6`a?C?Y_G^AuRH=DxBIkPo=fbAR@Qu(veP<z#4Sl9
zj-(MT51nJT?UrEAtA)6qaRSX-_2J`3nZ|cUT!?fEf}FKsHR^}KfMSe1u0T-vB8(So
zL(hLU_}bgc?q@o3i<Xc(@PHwBB{;avAy3WsLpZYC6ASrjaL1+{tv$r9JFu6V5`Px4
zVQzT4wV(F-J8*LCRZRbO60d`9!AQjv;?eW5WTPSX%bi&6)d?^S%)`XEPy`fwqYg9q
z=mbun|GOjP1gB$tnHYD<G9DYY9>JD~I$ZAmKO<m0Lg%Mp-UTgApkzL>C<C?qnKAe4
zU;xaHXP`=TH-r<t$yK`qW=|+1a_bg?=TAj=E_Hs!ejvBq3euDx3{Nb?jd{-Gh1rR_
zDU=6OD#1>%Ppt8nEIBiaaAB<=FmnPfIC>z!S{2S))v-=X3-5_dd!rx@H-)IruCC5~
znN9Dtr-tNmIf}PAF>n$;fo;Vfkk{6ShG<pr>>p3=@YA?7UITSO<S;rDhmFcZEOt>I
zF0Xe-CG9qS$h|hNECW5CJUQ#@CsFbE5UjK_@o2FE0zEF_RBj+zT$H#U^VVa+$5ynC
zZ{yBC--n4VSMcw|DdH>cKo*|>r`IdQO)dF`7!?)la2CStPdeP%(O6vb`^kQOA|5yS
zFeKNEBJL{v`yxG%DIkxrpdn_PwVyi8#HIU5XV^#`Xo?WWf$tc^A`;NEH46McD_DY&
zC)?b!9((t^Wk;);Xs0qBy?$5NsG|klksq*}?Srf(nIl$>C^<|gbN6Mpz(d;!&QYtV
zli-AQsa`bOMxgKGF68wkAf4{6`(7;KQZmBf?Z1NDQf+Y9K^~bG<<!R_uEkU#Zi{st
z+xg@rYglfJ3Zr7y5r353UHy~wpSr-BXa@c9vK}(G%FtPa{AD^8m^)30>kf0qa-Nm=
zT<U-VM`@(J+l|sk<am7elo)i<c%Z>Y=cMz<TDll&b9B(vMO=>oQEa6C+oPY>2tJYk
zYsv>cESUuJwMUVbvIsBaZ1DF`4i>&%49%`moL#yJQ$6a@6HUB|B`4UUnWJc?-re_l
zXDHGAt^S`rGHg9*wwezfol{s(v;7}`R5AH>0T*^F3(N94XwPAbJ(PDJ@O_7UqgjyO
zEybDkeq;`}F0lpXA$Ys#H|zN<gTvwcm|`J|a|`4Uw&OcX_aPq|Wo$zHJ6TuM1Wt4~
z17bS<)VF)f9%%8BjA#QKzX@Wg-4}e2QNVjsXY7bl;L;89AYN3A74LJP7BwG=FOI^;
z_bP;q_n^FFlnLuBVYaU-;FPI>@Qsl)C!UG9Rl<~=b%CZu5;-|5QGHs7o_B*xc+C!k
zLmy91jYq(Y7zod{#X_q{;&m(I*p6Wq{9rkK?+>CQ&4b(b?L5@-=zS4*4|}LrqPx|G
N3rP5ms*k+f{{Sw<Zu9^E

literal 0
HcmV?d00001

diff --git a/examples/nntool/mnist/model/mnist.tflite b/examples/nntool/mnist/model/mnist.tflite
new file mode 100644
index 0000000000000000000000000000000000000000..2aa0a14bc7028c3bea002a9249c6dd2c793ab28f
GIT binary patch
literal 87456
zcmZ^~c{rC(^gnDTYnvrY+4p3L@SbxkZ9<WDl~6<!rA?ciD6-2|k|h!nh4-8rrIZ#$
zp^`R*7NU|i{obGF_x(QC^Uw3g>pJ($J#%Kx-1l{6<~3)O`S|!&FL5;E<D1H-%qPSr
z#wW=)nQuBTSAmzq$0x{x;TnEk9v|;L@0kZl9{73q_CJ#Hqzn(MofbN&E)3YU-)qla
zuWd&EPhKJ~Kaz)oJOuLK!-G2yt9fwbVLlIYdC=uSl?MeL{%cE!2kA=_|NblYux#Sr
zV;;JBQ0L|K@EX_W$<rcye5O3vt<BH(jrWe>J^MTHUh<?64`MvH@X+VX&*#dMx-R^D
z$~-B|(`jO4Ze+}pnwNRy{%ebeX*}%o-L+-UzFm8LcY1B%*%9O$u#0E!^#6Bc{<B?`
zhv_{0SC5aUlh-1j01yAk|8z_7;KS?3e>Q*O$($AZd;`4axjd=N>q{Q5P#!PszLKA>
zTZ^ABlvn0Id)e}dfB)J3U;Y2a`oD4cFaLk_|JTNR9^`r0>2YvNU_gMs@2>5p+qRg_
zS?+PrnV01I!?RDM;{WRTudn~<`OnV()$^bH5A%7L!h^@wy}tWB_VUc+DRJ@g-}m1;
zUO(*rM~4J2{hzIxJp8YX;=JeozV|k-T|r)3Oy=17dIT-lwvF!~uU`27)cdc@|Nbxk
z+xCC|(tl9p;lKJ@dA|y;^Colry!Pz!^5?7N)eq$r{yZLo&XYGXl@UeYI#q&c;u^DF
zCU@wRq<(A_6Jy$j<QNd%!A|yyWBP?maGB#jJQ<U~R9wks49cEzN4kC4#Mx`v?_SFp
z=khg7<EF*Tj-*)Z9M@+*?g?XGCKWKvGq1t16-Dgu^hIoPg(OqrWXUcK-^QeDp3R&+
z@B#Kj%wk^JEo6E;GobTwB=F~4$A!nDNy)T$CT4y%lM|!HIJ@q}Pt`qe^Gz42zO|CM
zIvT;IJ)XgKq~u`cOcB<=K8w+hosD;^(-^M$R;KOP306spVM~Whk#8?Q!{)`Z7C{L_
zZ<`Bqe{lmoNg}L$_-e-C>}l{d9-@m2oS82rM;X%KO<uj|!(PuF%)qD<>()}i#I9Mw
z*eP7aBL;1lw`ew#pWwqh&b`O}jg0`Um%|{amc<mCt;J97(QIT<8MCh`jnNWKW8*yJ
z7^U_p?5)0+_?zl83)Ju6mXlm&Q|uZ>bVDi2<;0U|*>dcrb~VNUmNWhM4X+RBVOlvq
zV#j&*<dITP&iT&ief|oj7`ihbY!sQmUlCU0ix+aAY}v!GFNU!sEdvie-;7(oS}|ev
zXBd<E2>9NX4oxV|*fS^CnZ3nKnXd-h(0Cr9Jr`>axk78E6%!D5i7`lT!PhCT@TJfR
zMnKMonZgEvzsY^<iBn}y=~&?W(jq3jBn+>nu48NlxhV6X5|dqLuxiXE9Nw^xIWR32
zLrTNRtYs}YP3$IAwr*rAJ3i7S4^}d71b=WdHc2v8ADXZjucF|WD5mD4DC_?_4$n&L
zBy)o@8DsuH=48|?R&DljCZFsE?@!^(`x9xjR<nt0QcPz|cP?R6cMBnL9*5KC64@R#
zeN=S1flsO)!OBVBarlxHo4j6u;ZzwiT7P!2Pmc+*<8=aTp++bc)n;Q7-M~1i?P6QS
z71;u@Elfm*0^2d#1Gnz|h9_%N882yu*|4-7mragg8{$g9Z%-0C+>%c3j?HD&|D9k@
z6rW<RDW$Uw_Z*qAt-(yIFBhX<u;~2pDm%Dg2ICi-M&s28<5`!Bo~0WY+rrDtQlBGi
zT6+|e&lO>crb)9Y+_R83=`HnH<;940n6S&egV`<jzCq;UdF<#THAYvonq0CMgTGC{
zUbt??ZdrC3^EwxkU;cf>>GDHNpS+cwX`;nsj-6sE_90e2I!-rt%dz1_sf^nee%7-u
z5N363K_zmQxi9>U{QI<wO?{Hf*trxk)~=z<Tq_Byf$NHFMy3w)Q>Fr#gmCu$Y$>)U
zaTlG<>M-+~N^qvu24-e>3#)8uidr=r=<`uaM$ILgS-r4<NsyV%`m93mT3i5flXRE|
zD<{xl<9T%2Il}C2rI_n#&m<`OG2awdgOn*hV}I0-&H9qg`o7-JBz%Zsj&!=Pd|SLR
zJKGX(HtVqGF8Z>*fqJa{g_VqCdJwau`v3aRNjx9*|Mg+>dFlTjA7=W$KJ3VqiGO^m
z{Cpbfb+{_)B*s2h#>fBGLel3J^15a^N^5+FC*Jv_@=XF-C>r3#KXy2$cr!<N(`GEI
z8^H82A9Oxsf&1SmkTER-*tFsd_lFb<0{JTB2z!gZH^{?8lM~!hoj~Fgn+!Al@}nvL
zTG(Z4jNAC%Q~N$Etb1R|%^NsQf8V!2t#g3Q>u2EJzLP+{AErS{F|@6|hwK)p!)Gnk
zbjne{;plW&eCZnLZ@+;XOvmZZ4G)N-kOzvTo~N%!J;YB{!inEWMCf!Ohz}P+*URfL
zQz-%xd>pCXx)X57#t21Zx8kOFL0l8K0-h~agXZV;sHWS=4cN4a(6CH$UGF3`&b<Kh
zl^@VqviC{Fjy;$rtwAfT4e37vaeA~i4%D3x<wuu;jBzA1B=x~0zhOu{Rzij+y@4M!
z)1lF^6k7c^p+ScLOwKna!F$!XvpQ19)nXMm5vNSP?Xg7-C375O;$d=1BMMY%z^%oX
zF@BJb7T#0j_R&MI`sodL*l9tm`IEWZWx}9X@fX!@w}jW?vN-eD7QC!*8jJ!0L5r^v
z&RI6VPa+BX9(^I9*WK~{)GRnFRL0pNdI@g2N218)_mmbbhxxu!;H`EUDzx-dk<JTr
z)V72q?L3La3NhTD`+LZqm(?hD*_o@N<AFvk7dWo-royPYGQK_A1tNdCNS4C}&S>N_
zyngpL_sPsgv=cUiF~$y})n_obH?$BjYnJYw(?uJ)#-K#i14AT!!0wTJ@Ltf!rHzT?
zS^f^J<)6%I#frl~@lu?u;z}}XPZH<f=J32Y4P~!Oa9Q05e0lN(ovV@tN8@jx_F7^3
z@8CC-n(6~zY$M^cU=Zfd4}$pO^Hek166NoB<Kx9e;C-D-#(W0}v*lgAf`=XPJFJUG
zY!&I|8OiYcQx&y1x|d_)kU*P%_Hb97`pW4q6=DZ&UdEz;2HbdlJv?5X1^3gxaB6)w
zl0zZu!MAt_=ByD%zeRei(6edG+yl07>8%aeshmKI*vV+H^$A_|V;IlA3#GZI`(b62
zJm`tnL()(-H{DH(k@<QJ?NE^!y1x*5Q>sunYX|*XEr>zG?O5$~5Fp?@ZcKOz>RV2s
zTEJA|`7VcEeY=b|{)U{~N)?n-Z-jEkWgypIO%2aGfRxEqc(!3KoEf~2Esq6pi+w3M
zS}$2&r@xU5EJ`6i^aJRdi~LMXo-6kKkpsm}A8dS{21YlAA^D>>8tyrXDPkEMee-hc
zPEJM6o^F(?E`-acq+#Ko_Z*uP57fT7lA6!C0&;2Qpb_vKZte8Lq9wVwc({xD{*$Ek
zzl%A0=VgGz#d=)!#t{PIwa}^|8I(mHz}pWBL?t@|{9hDNAJb>#*Wptz>x~<1@)x5E
ziVlLjMi!oUcmSW&N@HZ)BkZ<1jdesHJY*d~QUOqWC<?xgb4gs93{4ylr4N2xCiXM<
zAnw(Ee9?Le_XqSrzV}0zos)v?+N*K=LL@j&-Hmb@mx#@NF~)4uB6zatHF&HHgIpmw
z{IggB)8o6q`^t6<4k{$^@vp$k_XvdUc0|sg7An8@g!IrEP-ESS+5VcK@G1w*PaH+V
zq9{-(PlMaz0W?>9AAB<xWYbUQ;eOZWkTkCkgpYV&(fSQ|e(G$Ht#PHx-h~sRvwT#4
z>;v&=ttGYgEjV&05*$uFBP;rIVY?ZH_L}pEWFsE7kU-5_z4&D&L)IEZqsh;W+?f>y
zppFjsF#I0Z_*xxaQm-UarZcpCq!K?Fn6vi;tXR=}Z9F1rjhUPp=-e(&2fxPPoa5u@
zDb-{ho3s<%3$n4mTOT#IC*rl4(rorpNw($abHr6u<oRGS7@GCa@IO<KKU5Rh-xH{t
zlZ2VOrmzafig5gKJ<d3=lcdX!!p87VWPwlzHg^nK*Q*LJ?V||Et42t0#2zBGyr1g0
zXW>uI7I<557(y%`g7al(SbJ22__Th2Yqt+WujYI({TDz+Y8TTvfmO(_{|NjvGw8e7
zVF0{!<deIe@Nird82fVSeC)E7Z<sOJYR=+0!+20kP9ddvJBem!EZI}1gH6X@Lc}Rs
z_$8(cLidMY!Z?mtyj}r8k^N|~`ZV2c^nv^tNW-FK7wD49L!h_oCCIJHh6mX*;lzRx
zXsw=(bsAjQ{9rCvj~QTo&U7NWU^-hk{+8I~PvhQ|;)C^3)iC&bF+9()#^sGMcxR}b
zdi|P-{;E!>q^Lv>PJMwvdWC57F%y^H8zl1`8O%!-#E*CTu`Y;(+a6_*JtqZIb5clA
zfe*4R{9xlaO85Lofv#=hu-^pHjT->o4(`}`Hi)Qro+CPnTL^Quhf~=q3w{=zc-nL`
z3U0T;MJK0W_=GRHY@CI~4{NwuHbVHyPZSz4p?-Pe5~y8Vj4kpkKFQk$4-~3EtXmI5
zp6BD8p4&uI?-o_RrwQ{N^dPr4oIaNTT0Vm0&+asI_7p}Y{siU+>p@=dF?iLOO&kwO
z!e{+D?)B9dP%1SE!$$>}&62}}KPDTFh5&jjlj6LM6=uS(i!(jjE$C9!RAMoD2Rs7;
zaNau`2#X}J>zpWaz_1eQ<y|4})O;fKS(C0SkK`o$nhy3yli^8a2VF2z5Svt&LG71#
z42^w9bQ0!b#4i(QE!j%b?kPac@jpbw+6pi1C<0@@Q!tiM2QMC<;9lzvhsfU%V6$^E
zie3@`kAw~g5-5e3N*hwO%8qsiegnmRA9((DfFyLDhwVr2z>Pg2<a>YwBRhM7u9C7Q
zvQpnbJ24IxXUu^kt7S0l(Po%(=n}mgU&Q$^bOKhq8HCLDtMTs!V<P&(7_S|e1~Eb1
zWb{KJ`p6--Xu(`43N6Q!9s#D-tOn-46@~nF(eTMz00J!&$wA9_cxqOH9zULd%UV+y
zipj+GD=EbAZ9haRU4Usm*)$84p@KaIr8Q4Edz+HsS(*wtKF17}33!3iTjb2Ub(QK?
zB;n5N9Juw>6b`Gbg>65!lTY6$4ol3VS912j483Ns-LD7P(>G$6WdQu`dBzo*w2$o7
z&L*{svY`3VNm`WDz-6TkA<gtP{deRPy!ZJ>6sO8V?5G<@U4}!2{G9P{<!msF_J)w#
z<vhQ9p8HoK3W6`aAereG>3eDiv-}(IoNfYKorohCV2HQ71mKlsI&=$P#odat@b)wz
zX646PFbgTe1s$8w;^ZVSQ5mI6(!!uB;4N{Ne+YM;13k!_zs?E=<G+LoDD++li)@4-
zGCz-eGc19PVz03$?;KZkwIT$cEd=ZEf821BEl}$dPvcD6$nC3*^}f1J=+o{FXH<@m
zGy5Xw`=zRk*5W%*rE(Mlha#X<x`P`w@{tsYzQ?x<3ox~|o!i;B44R^oKxuU`S<-FB
z6eO8}gw<43tSq5Xo+^;IK^wi*5kR1iZkVse)TM6XMpv5QNw-Fn<}bv<qmt}=oi&`Y
zW?dAy5r{goddY0>7LXAUC*Mx)MroBLIM|>E;&zW=#`pq!<ZOWh-c5M>VGH-c?N9J>
zV>#@!VKKCB46m2xK*o3)n0JK1`r0lCox30QPIAUCZ+ZT8)=aE7azdH+rckI;kCG+L
zcz4=&JQi&W3)9t@k%_HXYH$;~Kh3pVt8kNy%jrYzvMY3HSvZJP#X*C@IZkKj3(S$N
zqG|I!L0aWLdO4(y>a2VKrGHx>=fY<Yz1RaWDYDFuLJv|gsS=_>#)y)Q4A|vqGl>Jq
zn5HpKR%Xm#a;7Q3^QF3Ue3=ZeoIrxPHjq?$hMG+{!`=r!xOdAmaeSIEe0?=QHecaV
zuFNBAO>YCv)e#eLQy0Xau>z3(sRkcqPsYqw#<<tFi~1Y(a@%TGz{Ca*IIOe+`hz85
zy}vz7F0sawN0yUMf;Q-&;e#$EJK%?DE?nB<38n_Ucy3_;Z+-fRbGrW&#w}QdZQs+e
zTg?D`7x`gjQZx6og9F6Y?1WyE6!<$tiO<*)OyUl6q;2?6`06Csy`E>c!9Ef_DH;dL
zZJ~imGUKJS^>cg_NoDSR7+t0WHx!+%Uo<_%D_9J!pYOsE_dXIn;|@UPCQwOfBiSFl
ziDK3#az4)!3ww@Z%pN&BG%E(mmBdN7;X*WQD~1ZS+0aCtQPVdTa#a#x$Tb?1MQ&ij
z;wDbg_$IWQyaG2A|0MeIZDch)Nre5+aP5Tn;73m)S|8-%4=|z2r`?D1;%DH2&Ny9j
zF%Q4+?;*!GTTq40wfJ535b6!I(Iv7EsLUM?Vt(Ed3+(QolMO%X<@b`79y7&n2DMyr
z@)&ti_?^6)?Mm@Q1u@_crBip_z_=+CJ))Ll$oqTb;^-M{wJD`xw^f0w9106QhZ7fN
zZM0ZdPDf8@lcZ(tWNp@8s>_{(mosK#vUw4ZZAVeWXC35i$|HKta*Xw2LUwBz<AKSS
zNK^S)a6JBszAF|Z8vM<;DykWFtu`Ug7aavx9xu{2Z4Tr_^7y6g)7b{~vz!lAhLCwZ
znP_y`LdwUzFvF7paefc(Yu{5i&pjRuHs440yetyG=_HiuWn)lD0)1=QjcY$g0Csi|
zow-t226pJJx|)3Um4w*yf@s`mj5mssu=c}g%(Yd=%;}!MT(^J<#VouwzljvTn1u;L
z9$*u<jXdg$#c-nm?iiiIJRg^aMx#tiW=Ra5Td^8+JKdqI){H&a)5RGQ55TP#mq5nQ
zceFR3igGR5P;*HIY^Pj;Q<FqdT&t6cQ9UG6>haRyD7vyt2I_vDz&(nE_**0v{{^|y
zY3{zT(Ec*kbQa>vu?yV6yiCq?r6=4%yh2aLFr5D6>v(#_Hr%fuN%!{t#&q+&oD#Qw
z<R;d^R!_v8noGFdW*2G7BMIz2e2lX)FPOHZ{{gXCD?mu&D6Y^+gUX5m7&STviBne4
zFPc{L%#aM3bFT|wR}=&>tsp5N#Bg3~GslW$AZ6T|u{<;hTfB3rs7otcH{xe^iFkmZ
z<1)JQi$0weYmMXoIB;{v2<@&(gplHToU^;0=#JdRt3Q2l)~-;JVrb4u$UlOze-z-C
z?i~D_(2V`32f^-lE?WEV#kU#pD3P@YN7@;f`sp~1^SN@2g{<IFiv@S__f||x{(%?Y
zWZ?MX4^Th%ALZ*-<ZgX-06QO@!Nv!9oJ|%=cw^sH)b8F+x+G4(FQreM`X_NPM_337
z9=c$I=T}a(wj<=k#^a+kS@5n`6924jz(r3iAz-T;I)r>BkG&0{{IUeD?Rg63`7_{z
zv^6|?G|HJhq(MbfW#|gqAR>J4G{g-*$D#f$v@v1_m02HO|6pV<F8V1B4z_&IlvPY?
zE?WWDy8<d&f541ChakG*3>~^N2(~)=Ve|MIco&(4rN0(3?ZM{=SV+MS_22ZE!ds}Z
zD?&q`m)KW5i6}R8aw}9>m}k2YB<AH{-{y3x5?)05WmREAxCZ2e?!eTw(}<ij!rb^F
zYJ2!7jLg^yYrkC~{=SBs#IzUme48oS+bo2X0dtJ!tq=3h)mZC0uB1tWk!1bY3vTn!
zPH3Ng0XbJ%ID7MSneJnjxVJir8rKN&$fPw?dW$_6g_RKLgWcSv2am&HYf0vA%qM#H
z{Zcqvd={3arJ<_tLwGzT53~>JF?wtn9Z5$N-mHLpuBvDt6@~%tesEo;Wz(L<FzYgp
zEY6<^Ewm6@2=O-x&|tuV@Lvu>u|8?`-Tjrg!#V}3uWiOjiMNPZZY_>obgJ(cKSkPP
zGw9Q*JKXwyE8H;X4fm~mu<nhZH8<9TTd4bpGa%wZb(1sbj3@6ntvkH&!uSkO-;s*F
zwtunpeLUFcA1B8f!=O_~5F&nuk~&3gbdnCm3^7qE{fyx4mrgvcL4hvHUXLEbqntfm
zsVEpLfw3=7;&9M6Y8{~pfj_O_&A!91QqK-peHE&!bO@Ob$!M~F8M(R6A9Srmp{%)@
zqrTw)gs63K4jjs-);n!Lu}v1|^`-%z=Na&dm<{<qUeXyY8^C7G9yoMT2$dfBLz=~I
zV)o?*?Wk_&h}un~`=9#53Y}<fflM*3UlIsWSLblfcp9VWITOgpaE2?>4|A!vAGD}X
zCmKNr;Uxv&kW~b84R%l^J>DF;(-1{u7V~&&72>vPY28(>HLR(hgEbmPV6o8$EmeDH
z%&pbP<@v_ujMKz0br)U;JOfRxl2E9u2oCAjK=QmeELomGucS$0#OESl&2H7Jcez0o
zZw@=abq0l&SKJR_^<=VaCq?0pL`)_eHVb^C?|)5$ql1-HxBC-k>eO<$r~e33i(~QG
zl2&WS0$EP#KMxvjV*tl@O<2k2)x*=rrFbFOjhGql1dEI$T&EZT*X`cG=MN?{K-H8?
z@%MtpACwBmm1D)Se9-(?2M%3*==?7qrd1mtZ9fM}XT!koTsM`C35WiHe`IFwb<AIF
zM%``X=#38+X!1e>9v`?t%YSr`{Qi85&v=IMo-@FxMHy<d10cEdAmk06<A(Vyg4+;F
z4sYLyK88kMStP*Su-k$3E!KmXPS@~-?Nz)d_Y`DIUBN%<5-G}$fmL@mV}$X1I`prD
z9QP1nSA1~5=4A$G)%25Wm~j}lJu=0hxy~eJ(^}|A2>|!`u^?4bjxM#8^xd2yG{`**
zBd&#DZ&wVn6Q)4odJZ_=t3-{WSTK28$1#=9qZwmym>#qb15%?%+4@UR`96m}=kcql
znW1>RTNFKH7>In=L8I*iaS;uwcbt9@-IH^<cIXA}4Ru(ycozzP4F@HiP0%MUTDO*U
zh7A=i^vvQNIPE|weZ4gb5{yHk=&>?)o6-erUseXbZLy#j*ko<snt~x~EvQlZZn}D|
z40V1v3HDcRge77=@bl4qyfiF_68Cs~%IkmB@Z@<a*kOuh+J0oH!JXJ{p8?GmQ?ZFz
z4<dZ&=&H8_mBmgGdEX_RST7|==HEyZcFRFdXE2<Y8H268si+?jga-yyaghHlI(RLC
z?%-{3IxGtkWE{zYJ!>(+GaL$E`J?NRC-C@GGVI?y9eO?t!v4YptP@`ey8APbw*{do
z{>9|!vs=*CV9Sv&1r$;*gP~1vu-U+i2zOj33hkZfx=Mtc+m#J#byLBq`5%$7iN-p4
zP292T4w?8HN)vx6qi_3LDtA(hy<umFg<4+7^E9OPU^5EHZX?HjXF{)tA(ay2`E|`a
zGI+d+^MZ30#>_)Vpqw`I^$5!qc~gjXC+A||<li*5?IpO`X)&JD_`v=0ToAa%<8Dm?
zz!H_11m6BN_gyCbrPE-z_!M?RFO6@xO&({8GEIC%V5QXrF-#EFo~=R4Ya`sqyE*m#
zW6SVvi6rB{s=4man$z|AiDEF`_>O+jP-4;yvcWDt+<KCC9qvqjf}T;fDEZ(e;dj0d
zf3%E1^XzrvHHU$h3puFGS-|Lrh!Z)*R8)Dzhqh`rvBzKsWH?8mvf5`b&F6!V!z}Pz
zC+7T8qqR$-$t=-dMDRcv&5q$PW0gAidW#s7@pK9kb6_*>=8MK7RW(#0t`ds%biwp!
zBb^s}4;N=}V1T;;vd`_u@H>L6^cEi?b)*=6-o6Lc3E5=MUs?KLq=7D6K7hwO`PuR<
zSMbS=*>Jv7l=T`(gxdEVR6=_U-@l0iH-WD>uqh1MTo`icObL|>nZyyZeTTF4yXpO+
z>s0Xk8*Hw8Kox)aU~aS@MvF|wwva?Pa50n0e$~R`0td<V;9K;J%VapMQc9OCd;r%|
zfeH!gL$hER)yKd1S8o+Qxw#(7yq8lnZiVh4E!cNt82K9I;E#PSNS<*6qooWD)^(?i
zJfg#Ve?Lb|b%dN)mIViEuS4j@GsJI?CZ==s&^tQ?N`*q<-@7~Xk_A|A|L}t<H|fF9
zbqx%<uLe4K6WsMey!Byw7nENALu;O@5hI60co&mPZdK?p%b$rr^8FsNeda0dt#krX
zr+<QFUMHTve-1ypd6V1961er_8rX4F0u0w)hcCrOAe~hOM$0of`=31E`Yb#Gb*j%{
ziO4m$|73(}t*t^Sn^G{DZ;4&o%Ye?*1OJdUAX1<Xl5snrfBsC4uul>vf#XOvc0Iv)
zF>{&9bzXQvH6EiiqNoqwEvnsh01eC@fLu%%3TFs1hL`e4t}ln4wRI&b?+0O!eFj$x
z-_nqEQuI(+4X0vfGI_5pMb`ORgYtkLOo`J)BjX{g`dP`{qHh9;@8hUZ<|9y1c}89g
z%z&%m$Fb?%I%stI2#sC^mP3ncNJDiw3J=6lbEPsE2WOf!C`F^gW4R~TRWOk+&FHTV
zK$AE(a&BZgRJ@Evk>5@D<?m+lvi~xwrq$4(_VdW?xCo(X6?K+niQqNYmPUM!BXX$?
zXxD57FRIt$NT&y?^Y&yO_Hj_}`3#1Gzj4NIKElfy_9)!B9H!Oy;qYX0JS<;}qaL9E
zZ-hDOug}tQ%P_8wvK$O{9e~Hh8Q8Wn64m9aXsD7ay2{3q;Bi;XcomJN6B68$s%>=J
zR$1g6I*(hQUqn0KrO@GMiNTXLLS1Sbls{7AjJjx`dn!NLcuz)QrT}+;o)71W9^u&E
zE+SZD1GNP%SSepdZ9AIrZBagaefpI!6M2~0U0%DV`92;fIEkx|HIuh5jqt!VbqKhw
zNj3KNBW#_6|F)fn4TGC-+5M|1`S}VRzA3=y?~Oy1Hc|A|3a8D++8Ef{1u7R`qfQ0`
zVyRytWa&vdS0DloWL3hlUpeG2o`&NMPH2<xnvOW-bJXu=!ohuMaQ5F*d}_T0H@fiA
z{ZIgJaTkO%9wo@zpZ@xlh7R2s)KlXL@jRS`XWFf>eQg~!Wv>C3g$^)Y@`oHu_rQI*
z8R*jxMQ4YLvAYU^CBwFGMnnla)Pit+f;qO&HzFJM=u=64DXhQaOm6-Rgcar)9JhJf
zky+G0<HU;So!>k0OYC9t>Ka2iLJJ|<ViK4x@4{1}mjTH^@^)nu-eTRr@XKQ|pgRvs
z1U`}UNJrWdA4eZV9|S$eLAp-J9D>$5!Dz!{+_397l+JyLd!Jar9V;c6JZCNX>Lw9g
z$4?|$Xd4957?=~V9edwT1F4K8pvJB+H6aKu+}%Y(XgY1VtH?Z>w~`t8AOPz=Wr9w#
z7~NbegI|^;!KAXEAe~07-wVmr8+QldTg@eC_r{Jy*$Oa05`nb5yC3A2RiZ_7C*I$?
zgVVk75-m?u#Nqj+u<0E_uYD+#=~=_34Gd1Ne+|zKIPmk#1+Y+cq}pqoQTs$VReL%g
z5~3(5PqwFlec71VQVvrz+)xmAGne=!p!V`3e7Y}*yxlYxeYSR?^3e~}H)01<b+{b9
zoy!5?ZEoO{Urt{)=TWEI55P~W2c26bnEf^47-g41Hg1!Jobed=cIi7U4Vy>yd@8{i
zO-G^6WiRPnu8D4gqxF$i1H_rToQlrRBi-CkoHcj?UeDS<7S20_O<p-5@Vo|(|1-wk
zaZPj_mBT!KalEa)1b%*zWS2E+<GP9zP!d+d)$e1m_*)^F%bx~@_aEWa9apHe&I)|`
z>K`X6=mE-y<>9@tQPi?L2eV3M!rJyf)K*oTHNQC(?zK#Tu&L)U?P&vy?lZ%iVVbz$
z;x~-#mnAFgP7<|iD)?_enoXM`#lBZHq?{$?RJSe_><%6PuU178V15NQ@AyKhCg*|6
zw?nwgzK}WxH=+OcBJ58+g3~7TqTHlu_+(U{EaC0Lp1$1!e9i)J)3T1Ma;h6Q)Q@rt
zd2U0#pASSF6KHyrGgqen49+z1pvI2(tz~DWL+k!NqSzKnXT&AL*=}tp_&%M?$Hx$K
z_#r*`#+5^E%k%iG335+xGq!hF;p2kK*y^H#^Hdt~ro$2V1<BB(V}*J8mpKR4EdYz!
zcSP@{5edC`g|^8h(Rl)HSl-Y_OZ``K7aNL!Pw`${{_-jD|9gZpWs4;&I`oljcHz<u
zyHCO&hbg#YQ<Zh#q)t+~jiFDrhk>nA1*8%cJlFSu<MC%2eoXA;4vB@p?+tHg_*V+<
zN3CG_rj=wc<s5mowH3WDuL1A%X&`B;#Ps}oO*@@llWM+mK=WfcD_Z0kTl;*7P02tt
zektggbO%1Yi03-}3Wv^vGnq?w)lqEOHHeQ{0^E^7a{ojkJ-u}jbM^0Qaz^qlh@P1O
zheT4z^===^aScNLHB%YYwl?tlc^d*}o1w7!5Y{IAA_XF9FjxNtr_kjFi24!E%f5xM
zd~OsyrbU>LHC^yGvleensKMAFIgIzZ2yrhWAz34z8qO8REWTQB*W-<~rU<wC-xCzn
zIR%xq?@?^O4nx$UNK4FY#!R-8)Q`!)#slZcir`#K<ehmN6o=FEE=O=YC!W3?j-!ia
ztiqcb26VQ{Vu&}}0JjG?w0%MdZU1~Hvsd`T!@ek@w?%>5Td#%|%Z`D%TLEMoyN1;(
z{(#B(N(@PAM!8XAFnqceKe~m%hlhVCpY3UyXQ<4*;GjbKR&SzF8fE0_=pZrP&;nj5
zPT0-k?kAbYVUREv|1OqcMm@{OG2S_TzQ8c4QOSquPwwzwycB1N<r03c$z0zXuTZcf
zoBmuFhCv?&iK_Zx9GRC*j@(itUp<Pjq^c2wdQ{-iRu^8J#zQE2wHmrLO5o}@KK9K?
zW4fv#9mnT?C%r9GA>3v%9uwY8brpZo3X>taM%srltxL8ha>A_qm;ta}Tkyom<;)ZL
z33^zYQp1%&pj3W>`*r0IUJ2G<Cxsd?kq5*vBf%X89^Zu)Ggtb!zMW{-%RxhJ1tyBk
zU=~OSG22C-V2Y?b^6}=n;%YnkbG!mG>?SjY^U~<+WOw?^)1TAbDFabQ{=ky@N$j%Q
zbyQ^4UYKoglL)+bqn@uR5e*MP>4&+rud0@8t8M1miuU8wQW5;R+Y&F#t%U@y0z98F
zfbP<7Is3ACoYa&pxc<st0*e;l45<syFaMeJm8O!fH+*o~woLj&;v5kOe@B)KohNzu
zGIUW{4(F`s2+VS+qQ;$B9P78m5c26Sv5y@BhchP7c{GvkaeY89Xm?=J^=#@Bd4XzI
zDS<@4GuQ}4a%@~O(d6A6ZrjOj60{~8tnHLgBhds*rjC=KOTr8}D-Xs|=@7d&0FLR#
z!99fnd>_zlUHN_!83^*lLVlJkWaH_~DKm+K^itfa$b}@0g_uxw8{YiX!qMsaoJ)FV
zvAd&~{1}eG7rFZM?}a9K@H7H@cK5>Mkw`M5<s@D&m<!9(OKFz>+4}Lb!z9+Zk1U$0
zM$Hdq;ucmDg7>JR`E{18vO12sS0~|yldnkrra7?2&mWJ?p2C*4v(^@Y^T1MWCK11W
zjqH6hPM@{q!1lTmVCj5=8&fR?ITOPmws8@s_P#WbWzA6UlaFs~pMb)YB^(-m41A8Q
zBVV{NIN6jB&&!&^(|b<f)}zJLeJh3Hlq1|lLh~U@bAqavX2PAdm!PX67CttACS_(#
zm@PC$$|mG+o@NphG{(|{&BKJ<w+sfmo8Sdg!(HS52m~EYaCEgJ;c#~@+*z)}T+b}S
z!16CJwsbm3p5wzQC(1yk@Df~z;v*3u_88DwfYSxz>A!p@64GD<Q`Fyb`YfG5CAbL|
zEIY<|*xP|0uH7SXe>;iDmowlO`3tjOcakQvBD&YQp+0*57L3?r2^O==aFId_HJCLA
zyV`6q{@P@WyvI9hj_^d!={wN5?4D(?@oA#_s~GtfHj>dr`e5>c4};g0qOQg{s0cIz
z0dH5@_vR+Nk|}`VDbvxO?*}b6x<I!ZE`);mb!1+<BP_q{$=%-IihmEd@_heBc(P7_
zb!?7;*_r~pb%Qr#+&cm}2^Vm8U<cSsU4@{jy=a=JgDt$Xpryt0VeMcVk!n4Pv-ezs
zpN(1=D=5e&i^ZZ*MGauT0Xm*KjuL{4@Sxs1I#6^5wEI_MR)Ys_tvz37pnM9?7re(u
zdopn9&R|e!%>jSIRy-c50K-Rn@ZVukG$;~gN6tM!Pv_UfMdLkj-kgl<rz^19vi@M;
zT}901sPcHVH}GO|EHo{Afe}6(n7hh|fY=?lHY&`n|2~MdB}Mqw`2?6+=D<hKW$a2j
zJ+`;Wl=HUY0!H6_jh~*s!laTi&g8r#><YPud0PC;&{&1_{52KmH~kzg+F^`*7i+Le
zx|GIRNV8r`OxPfq2)yn4626xTvTdp#VAVTW%;GAt)$ZEtlB9TiJ~9W@t?pQ>_T-W<
zivenqJQpm&N<nk?3NX0#08Q>%qR`PZ+yRwzknHFuhR7u**}8P0#CN*s_AMCSu^HWe
zWT2n<4eBj{aOk@p-h;^~9u-FAgPq}<;X3&GUV<ZMpM*ow(J<eA8=99;<anIIXc-A`
zn01TX^$ErktGiI}bQQUHMG|X2{f2pWgh`;16K}nhij(tha(D2{VtcL`8h@`M>(U#@
z;RmyDon9a4tSYBm{e4*YZwIbhG7l>!E@8=b4}3SJ30yO)>+in!N(V>V>MA<AAfurO
zgjz>X@K_U`_$ou{pC$u2y#wai?Z=j!KzOpSf_vVjk6vFI4LhXoVYjP0tW5nw9|<pn
zu}Eb&n|Ft^R!tNqf|TIL^7Bw>lmzZ;V=?#&9}a)B06q67WL8)>2>^A7Uh^G7S~XZh
zhZ!hizK48Wdk3@Eijp9uy<k_d3+j8v>ehIr;LhZH*jHzQ?OxHeP3IwfR#*%-*Mx#5
z=cu*zL_EgCUWD(KiIjVFAzpn`L6pCTfY_${AUZRFjQAQ+=ca75d3_smJ`Z71V;&w(
z6{j+);^<W$1!KHDWcA(C+@`2v&K=JQDtB%XS}i^eS%YVxHYE%nALyr1eJ%L?`v(pi
z_>(JTB1Ywfzv0ZG1Uj`yAB(pfCvP`TfHmulZdC<%n!QJlghiw8y*k(=TLu^3H>2?_
z1kvjp*k~X?1jY2=clt+A_L8@@8kJ&3U?+AT_(+w0Y{T2-me3pWoc8!mWi$#nn86&N
zSFYcq_bVi@N=2SJZJUL*EfZuYsSfXM7sjgL8DQ!63_xp~ZUI{u=q#Zx2hYRr!!u#q
zk$i}d?gp>tGwGgk6*9uaK-;7bL_X&sEIkaw=CubMwf_Z6gqOhQYeUr4D+|>*lW<vZ
z8xi9DBi?>jIms7_$?V}ZFfwLH9(zXON;`QlG?@VuKXWoj3fULn2(Ra6(CSeYxOcIK
zx>^3M596;z{<jzE1yXOoy!%2RaKjNRr+UDY+D#~sV+{$1UO>pC4E*(42PA9?py>N3
z$(*_r_pKkrRk3?9^4T_g@jVwhuXjML8K73BHnBc3MAuKZh6qnd61`{`Y~=RhXs8J5
zm$?Y9-dqA9-_;q%Ct;}cxRbn?hFC3B1^%9|Adtkv*cLu+l<pD8HTz7>KAMB=D;`hq
zcn_R9B}dL=PLL16)4|DoF7`b*g)ZWaVEz0quIalAADP=6+x&KT-?b8?c<~rX`hQ{j
z$s|yY;Dgtj@8LAw`QF-=c97H_fe8m~#@$T-j%wb3-aIK9o)wD%*aP`5%s3G#T2Lug
z3XWYeOx8Y8D*w`rByxH{?_wJ4brMIx)pDRZo5vsX&Mnh5dg$v}dG&QOwleEJ2r)5r
z;*41PG~gxRoWwU8bux#0e4_z$Ue(9D-NERjG=R4k%YfK6L9CFMX64R~kVnU#kZlKz
zxy6prAR0s<tw0o=iiD}gz;jw)zmrbm69)J7CLl19hkJvK(SH^{{Z1dEW^Fxulh9-N
zjyOOE?gw*$!)WhP0RGn%ASlR_j!t@vuP($uONuZ^FFFM4-U!hK<?|TSJI0-|#-0;B
zRe*f!+Qa=^laDEeR=9JOHSXt^!_JsfFe-QzH$y76OWeVSO-J$2&HWHsDTlImi{N0h
z8_tOH!|M75_~2*DyGtO0Yx^z(U-(aQE-4;*Qsi09>ZznrP?s&uozC`cNT5Qo=iq4Z
zU6{8p9h~c3sOg1%B5S`2``bUEjFmCne|ZiVWqb4X@m=^yuDHJ4X$(sb#*pq9Q!GB4
zNp16%0lCGn8M|+g$$Jv;@yC3;{rx8Ro%)E!`)x4s(G|LKpbb+8wAmFAhHP+_JzA-T
z(Z`)iIBAy^?;J`R7WvEp!=>lwTm7k+!>@%`V-)dC>q^=;ZxyUsH5Z<}5n$oUeKZQp
zf?vFO%%rD^{@&n-wmdFgwl$X?Df@w*NeVFTB8Ae#3MDU0C#98tNy*09c!E@-ib@0;
zUP#4*eWldx@*omF2k`i#NA(Z4!J;?2&}h*qG}TvU?%AkQDc;=QFec7;^WqP_wVxtY
zv1aH#TmvUg>N2}-@5L_{8CtwkfC<nlg(-4zV6@B$)&+}$mC90>cKjkd4!jLRg<DBo
zRX#)}pCuA;HZU$Ek7aAbnO_GRK_})6=_ZRISz->vY`sV>)rZii<+b>F?nX4~`%M;1
zbO669gI)_4kyWdz>ksD4<nXBrGUd|8fU{2%>MxmNFQ=GpE8_?KL>5k^v_MF6F}?Jq
zmAC(kppDglD+dP1HsK*sGn0eY4OhaH7Gp|M7C`Oihjd&s65pgb5TQ5sahvT{<j$YY
zy{a2b<F_W!hl}SUdC*H__TR#V>=KT-?W+1(pI=t@_kKdRPi7E*&<A69>%8*ZB65aN
z<D9!)Kz%Aotq;wQAlGiyLv(R0?c3=`==K!yglWRyS><r}eHex&$-||d9QeZ?$Aohf
zL;?hHJG`RuO~TCL&~fnDlgYgt8V6*hJZ+bZfv&eH_~bzuHk-U4Cb?X=^j8X=@#02P
z%ob6#VlGNoS)jg!I{VqK1r<IQaQ`+tu#Rr0am+j!Umg5OroEU?>b~f(>AZN%%6U_m
zamBCHuxB#0u;TLO?PmDQi-no7L6c_b^}?>SaN4)P8P~L}2UC+c^izFIT?BZ1^y*LO
zI;zIKeCsg{Z{7~dexmGP<Xt*3_Xd^Tp$ne_)UfqL9Db{t3R~Yl;LP+E;@ncOM>#76
zs61B<i|y<=pTqj;ZJ|G8<VX%Dm`|K5^}`MwE~w$CV=%|9_B6!oj0e}}ZkWEfihNu*
z1n+hFVUJ5WI`-(J+kyxJ1II9F*almLPC&iCCX+W~GFBBvz>rxJXU6Yzh`joMll&?X
zzmC@u0qalTE#L?bg5x;9x7^2c;aj9^gD@VKya3zRDUrih_d~{!`?OVRj8ivLpVV>(
z!S7=tW*dcIT$N@0?21!(xqLD{aG*q7BZX`T6T%xpO3;<jg~^NNqMD2}Gh6o~&i*UL
zxYzK*vZM1bY^a{@7}y9Aym*P$k1t{P)+7d_8u7Ao7#T{w4waJ=@pJ1bxGX8eq<D9d
zNVf%8^w|im*$T7$S(#+QN``$VU&E1qvj^;iUFhx<9rnnG7uLTogI6PyQShiV!};<J
zlT|-(RxDLy%gV#y@5P<e`>ZbdxN^|pzAF}%UZmA?WEtPVGT7@f75JTw!;VFF!Qf&E
z<l0|@53_<WCasM;{40aitIc7Zo+zYD^mBjd)FLX}0GBzE5ZB*<3oqHycPqC+#-lj;
z*8ezNqJ`Y1Hw{G7cQZMktU(>6HQ~XmDfq+l1$HXGr*+1r=&mIS_X>89#Q0Q{6s`gn
zlXo0*4Q*IE5{d9H7W*!xa~ejU!r!b{^x9WZW^PCXY;=`_^9>59^f?ms`R7Bs1TS80
z!~-9vITB+pE6)Ade#AI@9No?sLINiaC(dM%r?MyM;RaJG`|UJ7Yg9wGY37i2aUm*8
zE`aH|foNsCjTRX#1jD$M*dn!#Mx`OAR91=&^m{?h&M+rcfz{-6uqUjpbRxqU*`#dO
zFXFJj3_FKD(5=ZQ>BH!Sc<VzXl+}m9?i(klqn;ne-)$vH*RIiNnWw1UunN1gYYt3_
zAL8PQw`9!78^rUQXsTleDCw=n3Dwo`PdASj2iD0=ka`6cI`eV2v_9#6{F0c4_n_*w
z5OVBO7+Br60SLFn$gljI;K$Wi<?)`=aXJ%5ZVXs!h7MBpR}7YSwBVK&J9M*1;OLaF
z(8c4TC+gG4`uG)S)c=IUP2`h(m!@O%DNA&Ea0iR^<M3F`V{F<Y4^M(Ssesv8IwoC?
zbM{estob65iH#wuil3>0eh13w4x(NGlD?P-SgQ7#NaaW2l?$gxWcg|Gc0MnD<3l<c
zgg(SQ4X+^j$3CuvYBKD;bQkrm*3h(t_7JkC5!E=iz`AT4B1T@)wCyfv^W6ugRH`y1
z`h}RqyU*sS+C}WIP;Ql;D$^NYk7qB<hKR!xFoG4NKkW)^{ZfcJg-hW~OFF3DRL6M|
z#po7OMzlrJ>Tfq(hqdR@xPo3+@zC&cc+kv`?*gMhC`1G{hDp+qrPc7!zZ>_(?uOsd
zb6`C70&I3<aGpjXr=(L4JHHK6KCT*bJV^>dvkA)Yh=7*RFxVDwn?5u!0>hpO+*i}f
zb!$I?MlNZDTjvBDFX!T&GxFqky)LMdyQFiIC3<e?q2Fc{b3et_^6vlKK)bY=IA&RZ
zKAsmyarI)XU0wlxsqU1Lr!*q%6Rm#52L}Qdq3jA}@c&)`eRZ}F6xss!o=(S=e^+vT
zUk)U}YJ6-{@d)|Mi>;GV;Agn3K8RHck-o>D$(tFX?4Mf%_%D73>836+*kz8zw+xsX
z<>T;a)@`m~mk=f_^9RM{s!&=W1X+%gQLosI3W-+1YmYoQRbW64d(Eerb@w4*vlAGk
zb)ubMJSJ~`g731!iRsU?WRZCy<d;nW-@AuEn{y3ZLj<sLrZ%|VNkf6KM6~}YMB3wG
z;L@=$;-%{X^G35_##;;MbF86xY09M9DihpJ?n5)#eCQ1rg0`mb=p$r`lg#{RnY1F6
z8Cl4jk{4zYHz8SS-d%sjeJ%6{8bRvIH`MLYGbnNV4O=tk(TX+;$W9sK%09Qje+R8#
z|6?mU!sAfxCGw%x)%BR+TY+af*O7+#ZM5~E3(j{~&AE&Yz~Egj|Jpj3+wVYGo#}Yu
z?f{RIxJ-Sj&)_ZZSZLMO!<i{7VJQDRi1L^4#_AzxX`cn-v3mSEO%~^x%5y#`KZ3cY
zYv}97bsP(WWHgIS2YKt;aKt<b97Kee3sVE=EY;I!X!)2se?t=K(-I=Z&J28c`PEwW
zQwm+-pGLCx6cWuzl1z1i5_2l77uH6VaDK0PMAGsP;wQ6X5EHKfe(F8MKYAZ+w`_yY
zCF=Ovl@B)mS`F(KRFnN_A8XfODs1)6<ek4IklovL(W&)59FM#T6Ipvf@ZAgyt4M>#
zx=FBi-7YLhILce2Skh?8G;lH73`dhKz+lrFI4=4CJ|0zOK8@Z(m*Y{^5nC>i)Cvt0
zNOz$1ebZ>s&q!|luoZOP(8j*@mDELIoKrFjIfjNouzGP6u4rBeiQcbix^fim4A}=B
zCD+hCyabOb8{!S6znoVxj|pA$f)``89ZrjwL&}g0WETw+LHP!HYELmrF~0PuKn7O%
z$3uU(5V^t8#Y4UE<cf|ix#AZ_rNa|R&F^dQcTX$$1g{|9Hm<^4l{t89SwFdVZYND{
z-U#8jE5WKSgxt<OK%QR^U`65!;oGDVXxH|qOLZRN+IP!w=sG_W^-`Ppw@nI+|GuIz
zHr1%8l>prL&9u|Q5w#%%Ze2Qy6L;ibg=Q+1a8|^&e0TVLbTMu^o<lTFaG1|)Rztd#
zG&yrGmBd|n2ky6bfd#S<%Zo{po``_G2g0e)Ejv=hixWQ~tHwN)5Js&{K^V5W9k&#n
zgVnnQm^K-HmO0V~Z+Eq#bx$Upsr`xDn{pG=%RYhZp=%i3lz^+>?V(pvi*WN-FZdE~
zidn^7uv$Hes9awTA%7_}IB0?Qy-3*g>o!(T@aCF7>oL2>0GOkHph!W1jXkf(wwD%B
z8UKxVr7;9+bGAb9Ti$)Cbbt%Jd+}&}2h5JVfPb=eSnZ=#sQ2_eDSgR8dn}8-cDh{K
zyrX!Ucdx+c_hkrURADXC3>gw(yx5zoWdCL#m~_$+2Ya_sueoI?Ae4dc)A(7LauE=9
zw*{x+{q#U@2}%k|vp05#@#4-s@MpRuNbYonBWdG!+I=$f!eST>e4c`Z+3HC2w&KyI
za@5)}ot@|Y0e9G_GSNTQz@(nf7`V?HZoGL;mMn?qI9Y_#6{(N#!G&HpzrO<KiP&Mi
zb{0<i9feZ^A0jz&jh;Te5;fr~PA{!T#Z-BA)-)~r8#jq=t5Tyb;o<a#j3ygBnh$$F
zIm6BIT)1^}3huKI!3E?P?cc4+9zRryvj4slh0{0b8Y3-y<Kv0@Dqd5Ez*kgqo+&FY
zF33Jr{SN$37?k!}LCzkU1K|^{oDJ`Nux7z_vOe4yE?S>P<sWs{iEJb3pB~A1bX^rh
zvm?m3;z{K0%%UIWeE2^corgcw-yg>#BP&~0S|XxQS@*nel%$Bpw`4X|8ni@G$=<R`
zMMjY=oBKKMn}m=gq9LUym8hh>exJwhU%2C(_xtsFJzs~cyA_9LW;Jn^oclt*UVg&N
zmh&O$S%g_~c@1M*8wWr8@<_mp?_{cE7+6PKfv<x@yp}(@SXFVEjzA^3cl<1kI&z9G
z^<EDWpIWGT<5rsDYyd8~`%y)G7kmn>rf}My82*<8r(T4^)|n#sspB8@3N?frTQStz
zE`^G^DonRRDswv45N78Fo7WX=pwkW}Vz-MC=op^GlPj0-p7aMZ;@xv`WsN@399cpZ
zM{c1Gt77r@@wd#sTMaaS<z>PPA0cO^_(DX3CDx2g!I@gCAj)hXG)?7jO6CNEPsIW_
z@%#p<E~v&`k(qeGS_uBG6M-dP_u(|n1e{dfMq>jn;02>FEJ^hSR|8ohP@~V-`>rJG
zLesE9{X0qaItov}C1OXFDE!yaLDuc|#dsYJ=uHpD-KQ>N&Cqq+f9bvXXOCQzXJ&%P
z?r^Xf*^Ig5JQljMISAqHsFHq@e0Oue>-q-NtoH<pO$1}^&o*){Fcdi%5u}u7icb`~
zsJ2!lMjrBk_K3@%`#6LCGMI<QzeH2l-s5yc>l3AyElE$wK~(!*!daE!ipH$YS&*9v
zE8Sz!TkQZ=zg~xii4REd8!1q1^`K#lEMn*-=10_GY&&hjs1!`)5Ea&o@;i^Jnnlb$
z`&jyE?Q$ZK5KATR61eYlmkMo7qFZ;@m>Q0~BfdpJ_`}>17q%$D`LHm^v5JE=pDvJB
zZ0;ei=OQk$`A5wLO;9_m2rG<&V8~=1{7{L+2Cq)qdd>kd&NWf1u5zN`HwTVvm!gN*
z9iBU@lUVNw21`*JeCwoSw&-gP8W#@JHHxL2z(6b5sTxNO90oWACTqy^t*N+|r-$#=
z5;?+W{!tG$Gp2mA0B0XaBlG{8j0LVM;d|zJy2#E9)t{R1dhdxrvtK9}eKaRJnNv{W
z7Q5$8=^(pi@X3o!^I=i`PEa))CzW%~($lP_>i*mg3JWEfoWd{|OY_Fqja>2})f;EM
zeaU*=qL_2n1RgcdCvOkjqxX5fBqY=h<Zgz+i0~A$PT?dm*j<O4PNd@x4*{a5tO$lv
ze8@9t55oBIsm;GK_AHQrZ2hP7(XS%fS-BRk7h8Z%mk}aX6Tf$dIp^=FW2nSAP%8+A
zoSslr7IeWpyQ!GBGYe<FR)ltbK1%6K$5D1xR#`b6bh*y(>S-jph|dM}&srd8tcYqe
z+#vDKBzRow0*q(~Mkd^(6J^4%-qsO|bB@&oAHK-x&)&mwSx?Cu_HMZTd=LKaTM8a-
zr|@Wv4lNF_#osfxV$xkr@Ho!;3>AvF(zTg+pcjGON2U``sZkO&H<K7W3W3f~VbtPm
z5UyDg4|4Mg@sm~sn(2>Xl3x-GZmb}povl#uEr}MhyK9xJ6gaE8!kQKd7<oLEh&u?Q
z<^dUewd)w@2G7F{o$hc)ax-dt3c#CLU(ixw8A^vmlT{l_X>;CbG>KQo>2>LJ^&3+t
z8J6as*{4c(2Jw0QO5s2Q-ZGV?4OsLclODWWhZ8}9sA}3ng_0$>U9)4*X=6T{=dmX9
zxpidZ)+M;=7i|9h+c;X}wvr3_Hz8sEFHnd*4t2bjoR%>QGnWZRbb`}F{iGyZxUa;0
z+x7&=Nk8bbyaB>zHxR2kUomT{IbGhGioH!YphZvyUp$Lrb<l-e>3nI7+Qa6G-QID|
z!W1%=u?%iLEClhIk8mf;(R|$NEm^B>1%<IfBuJ``*fmy>xpzXzF@GzNh`0n6d>8y{
zKL!g-3*p&=Yt%Y54*o`H!x^P=I2Ig16t<<CpPBjrBx}b(?R*d&h!?@F)&umdPc8&&
z-iN-iPDZ9<ClM`GL>+!U{7$yVa=A=^Zz-UBJQNN$9)nw+qs-g1Q`oiHmj<!-m;0?(
z<n@9EP<Ac{ixpDlrLG5vnWi*1!u2iPu`M4Q-0H}?nHH>GrVRT>SJJKPx@sS-+ehhi
zIW${v7Yd83VNXdG>2a9EJs@}!{%(t)|6Y8g6H6xX8)mp*vDsZ9r&TF$Qx@*-n}XA%
zLpgEveYCzh8Z+fD!`01e>6`>T*k70oo7_xc`a=n>ec?Wqv8-V|m^hSQ%+7}ig=Cg1
z!5QVOUoS3B?0i@+_H{G)btaG__tp>27gXZ2<2)>Jzlr|;b~1x@zs!dd%=xPwO7QBv
z*^r|30w>S<jCnb=G^1@DST-k+x1B<KQ`i4M@Nfk_Z~95U6}92UZ$^9}pL~-2-HeDl
zsh~HuPvLV4c(ngw1jIiJ#o=*fSl0TUP7f2}r*=$Wk^chRFzJ^0#HHhS@JS>Lu3|I$
z*4e1GXAO)Qexxd~g78?O6d#`RqbIArz&B$FNGLpu({v=!E#edoMU{cd!&WLV+Yp`^
zw^FxX2OuWpAo-#@3udU^M1^D*80biZMF&NhEi%FI_+1<Q*5pOSrrW{7&z+3>kJrSe
z#ubJIit*^<B8;)vhTEM(;M)6#@T@tIQ=fOGM$Gg+W-Ej-yJSbnC;xQpdA*$6Ve=L7
z*}}vtYzo9ZJ_6!Po^eKdmC>kD7E(8x^T!&4QP*)3rcD%~2%F(cZCgV<gp<kR)BO;?
z<Q)nXT|qM)X;ge|3_^c<NV$a(<llQkGh-~7F3l$RP%Q-}o04hJwmD!B8wT5K3h4gj
zCoy(mEJn_mNuEkMQx{t``u<f1j3o#`zQhmOR<Q$ABNviT>+Pr@Z~=8r2yqM5RnTXS
zJl<B!g0T`gSk(Oz?jG3%;g@b;pnDA6IH(Ep+g&l`XBga?Z4C~XjI9oralpe5AEe2l
zph6|5S0@2SR4n1J(l2t{JduHg7tnj|F62M>0)G}B#}_>_@#O0sydBELSpgZuL2;bg
z3mgERXBA%E$ofVHr*I!!PlB?c7SiSzf>mG&TKCuEEvq1)4@1GL`65`vmD4vJMbNU#
z3xd7optn#wXdFqR?~e(?KZ$e@5t)zoZWrV4CRfgawR^y*-I!^(S4H=*dETO2dC)KI
zhp>s$$o=4hFD_5wdiq+R^R`tWom@y}OiZGG#VeqJ<)+r-cIYac3F|7AV3WZMvRNqw
z27AoF`LGQ{n?3>KX^-HI(QUAr76G<OW2EzI9ITJJ3gP#oaR2S2xMJTz)O;<@@pB#m
zsjx-xIw%e7p8rSY^SW`~#|BI&tVG9UH$b_VWpp~qup;sb`g-mphq^Ri|Aj7kQ=%Wb
z{!Qb4Qs|=V=9Hr2nHOx9LIvJj*ozseUofAYpDznKgZSnoT+aHhhZd~?<NN>2AKxp(
z^{>Css#c_GEm@467GmZmCkmghf$G%H=&m(^?}S%_-yDB*d|ZsLXFoyPbJZwtqXuU#
z{6Rd^MoDzvX|iT9yAx`>AdgsW{?UCNS-4~q$@Et=<(8!4^k5lG9Y4TxNvtON(et5y
z)>_!+#p-xXFR90aE2z8ZGlutWfjL1oP=4wb+HFas60h6fp>G6LPN<~6UqunQ&lQ-Q
zvlI`P*CLUh4ii3M=y0V3^TlsLCVvm7Vu1p_n&6VJpZ%D${R60agRSzC{0U~lau^|Z
zmYfW7#k}4Hc;ts16gjw)k~178{6uM8w4^S+nLdmaC2{b0;~SFxJ`;Vy_3)m`Y4Z1q
z0pzdVLB1?wP}iX!MP$Y>WXE>0D0eqmIPEFe)-2`=YoEo5)FSw{qndVF04@pCqi(AE
z@$uCn{PB4qtXOoLJbj#om5UG3z{i5v_RAhRUE}c->#1C69zx1`=iiq!(gveYP|=IT
zI-BX3y(AdVZit77>hs`3Pmy$X*ZOOFmsUBxpl2`aW!Z>5U>X^L@q#tXXInX3ny?To
zm!89a6{;94rVZN@<FM*`45>US&+Max`0lj?$TaKW#h~-xrMQMZS2&3tNAqyc&IohM
zXMvE^q)WZc525>}VcJow&d%!-=q2exjNOizD;``2cE(=#Np+0)Vm%#sQ3>U@cjMIs
zu^<(@091v}kly2WAX7F042+|R(}rgD_rDjn?O|svS`9mF4uH8-BkUGTgI?KWM%M8<
zLm$pW8{|___HKUjTNTzFilBuvR6qhmiR!P}Fwg!Nul7I&{CyJ(KRmo}$7T!qd37u9
z{4WKz<PFma-FY;`BMhWe^08@m9?|~SMazp0fO?ZH90=M1d2%mFkbWVWxH>V}!#B~9
zJBG=JTyW7=9uzV9km#uoYYNR^nRNr|<jjWOi8W-(=zTmP!|r+6g8coN`DV|H7L&tY
zQ+Zyi^Pu<XM>3djo9BGm8&x`<(N_-wIYuXwV8O&VofU9_6lWQMY$}3HdJH;m&*5!7
zn+!Kh6X?&M+9=X2&E_Z05PMD*uHRO|M1Bwh_ho0O#;jZT)2s@eO%kZqt7<&r{fq8(
zb~KNkG>boSZ5w7Ct_S^lA9<<cK~QGWNq)Abf%R9`hdu9uTjx1J<@r9c@x%)nIlL6w
zgRMAYwfCWB<q!tXUW%J6^En$&UBcX;$s7T@TX@@t)p@OBF=hBV$=d!N9Om;lDO-*3
zO07G!KP(KxqJv}-$C^24n#xprOY%2wN&_!LcBhDBIfKUOxN%Mm{d32ixwx_)bEB@J
zs@+U(%cU>y%;qV+ytNj#d|JrWR7rvF-E7~L|05E$TNj?V$-)c6&7@Fu2h6Asg0`kU
zP<eC|@3pJpXx1FO0V3SpxEk))mV#fN7XGY0O3Om7V_Q`wbu`yu&S<BxJf8$6>2?$P
zxfEOj*ld;K7cfhk4~yqIqhK=2)#R`|SY#LOozS9tzda)HkKaR8K&M$NtL3gPETsiv
zb78FIFw}*ehbdl)+)K&wu+VBA$d^6Ar$wh=k&!Yt%P1Qatl!c7QCCUEQ$C2yGv<nf
zOM|D@e;~`AjW2FEk(blcaNOFN%_KI#)rd-z8#jfK%t_{&uTnASsyLO8H^9#DK5|+~
zkUKh00PU~bhSE<{u>86Z{0Yp5jZ78z>6^m73mK%h!5_49pJ1!+RZ#fo%T?@D$HX^B
zFsR#+&iCNcCEXjidx~C>^$Q!wgBWp$-dKS_<UG-z--CI(Be<4(G%-&w0#n|W5!d={
zB;m*vC^NLdBRwsgkU6us8{}8R-V+-jcKiSiX7y1A$HOd_u8A!N#QEi`v*<Ea8L}f)
zg5Uf|1}6W_!Bn=BZ+53Op0<ic=0P1jt658pmd5fFH>jcFFCFxWV0juTGxSP`V@{_!
zfvog02>ovrofhAQ<uOJ0)GL6fjeFtsh3c&KP)JMi^EvAIt>*Si6Nuc;e`KY1Ebf^n
z%g?D9V@6c(z~yQCq02Q3#Vj_0w}=aNANQmxx?DK^>NH$xbs{a3KVrckn`fQ3h(;~h
ziCbB%ZFqMr&f2ySzs5T<GioI8g+>TSJ(^5pcby=cS!Cl3p6t)jXyMqvASGtKH;
z0mswb(dYR$vhAP?-uiU}XWPG{|50CD^?Vur?q7;l{69qBwHxp2=TZG;Ei%}ajQgVE
zh=2M=w9k!!)!7G#u~aNfHNDPUb(Ew5qj%}H8<w;`=sNYtHYAQKby$v-<*%}CqmN?{
zY@Vw|B!hVPc8MJStkX)&KPL=1c5RGM>NPO=_XVAkAJUsz1nWm+ss8Oc82q#tjrXs^
z9<lEvbek;hcu~(OF<@Y`{y|)z83u;y<jJ4h6&&57REV4Mi?g^`9{$9b)6S(`xNF@I
z`QR~3ZnHY<Q&$(9{@W0o1&xWS;8d!X^A0ueI4z1u!#f%3AezO;9W&E7v)CMa^=~E0
zd3_dkm^h)k=wVd2t&V#S`;*35rg$p*JDFVn!aOXp7YjwYP{MJDo_wf;^|1{2+pPg!
zr2=f5myQdLZG?MCEYlvEfc3}ah>O4wXGQ!ayvWf<i}D7Xcppwn17`D!W_i;WLq+Ua
z^MVfFAH>a#k(`0a6l#z411IV$1kahk=MDP&cjpW+R(%yUVg1?Elo~p^b^`{ee8u}c
z!XT;>3#F|0x+NzTCM~aIJaiWDZ;LBZyAlpO4K?BJ%Y4q<X}ActvSwjI-(uKdEW}r~
z6XDl?T~2R&UWB!0a;W<AT<HCL8T`y@sk^2ZDf(##=3(`4M`;DVdpw1oCY%lfv!6lz
zPBuSYF&7@)`GWHXb`$f}QRwfi3-4FmBX7P1g8YeA5?36`af^*4uD%C37W+Ek%&c56
zoM8+K=T1T1yEGDJcL28}hTtxN9h`~B3fyxS&V!`l5W4nX!1xqv_%$2?4?UNm@9Q9F
z)NMs;TuANPgK@{y<Jh)i4lZ*04=zaAqhi%Pyz=N3$(fmr{%#@Aa({pn?lU0;X?lFC
z?}<d7WlpDW3Wn&rHDq_jL$cs?Bd(2@45G9jw=GuYtJNf;{K`s<?N%TSQ&k}=Z9Vt!
zjVg=^{E7B^6R4L+8#r04rsX~p%!Lh0xdQJSV4q|LP3gU2ZvEd*%wJ)GdZByqnyfar
zeTyV_X-*qdGzh@96=jUYia>7kQDGWB^8oiy`(+~3`2d%`pT*sHDj#14UPH$}Y+px1
zJZE5mC^v9P0?jeV1|z149zLLt1&eEOi(($?&JbmF;Bz!vdlq@2VTDg>b<H2<UBj>w
z@9CaDVjwK}A1Jq(U>MH=w{5Dy_lv8^uIOQS*IkCDW%JN?t18SfmZNug+i6o#Fn+Pk
zq968^;OR$isQ5?^li^nYmMx}mlkMI5d*}gq)v*ZI&Ur*mu9bpg0_iaS%yAGD_M(gP
zj&h<jU&5~xdvKX#12#)$!JiioXlAz_fPgc&czy!AbNbwh+0QvbQxBk6xB|bvY&skd
zHN(EoRbasCwIzQviAHohY}%dy-C1Q!y`vheoqq;Lg$F@rFbuuUJtfz#d%@^yXDo7w
zBU{4GVgGGA=$^e7=5OtzdpE>@pOz|Dzws+0k@g#H-G#BtK!Mv?$-{u^#YFy#HREvo
zA*_-$=U%aL$L|7N5EHNid%bjE<wy+d9gf6T{7_8X?SNf!Td?Z)E`0w$o-42Q9n>Oh
zaM1<_%nLT<sM#)q(L45Z#kxXrO0AaOeD)T-Hm_xSlg!~~=u>=~bPCi&cH*kS_4Jgt
zJb&5WeZ-RGZolkrpdRdenU?elFAw*VFv&LXnh@cS+?+x78ed}0teFFSFLH67wl&VU
ztBv3JL7>!*SRbc~5}RGIc}*A&bU(nw%Hh;?-Y(QQF%#1AJ#l@iFs|9@N+&EPqrjXY
zyf#x8zI3hy;Yt-W3z>mtng7UnD>1k?bc7?iDV`&J`UZa6c!bvdy+y27@lY$BLvOo1
z#_ExiD6ypypLQg3B3{0s?>|>_o^z_ux>|@ks#=7_i_K9lYLmIuG%GfH7mgkIvSehX
z6$Y_+IbC+I>dLc#J=f2|mKoacmEpkRY88HffGN6(&4+E*9pSo1Cq6l)fmYUPxW8Q-
zXLwvdmOz8^H8o^FsvOLX{{tD8_kXg#j<eRc95Y)ucqJkdSAI$-KYE1mm*_jXGOd&n
z;nP^YB!rx{T+G?s%rc%rW;jt3Ngjxe(9TWM;5D-n1ip8Y^z(&y{>WJ@tcznfHfMQ;
z_u?5HIvE~l@~IFQL*i9o?6QidrxfqQ!kRVk@Yp5Lxv(87C97ycqB2@_+M%Y~6f~am
zowlrsB#~mh@NZ#06z;o&R<#niwRC`d5@B<Eao0%e_FAmp`~xNy?;&l+)}TV0FK)Qz
zM-1)lLGN=mO8Nr?YJ7+FUeesB%TB_BfLVC_nG!cKRu6oCb-)2fS-`fnR8wXrDDxVy
z-(CY_I}M3;^)pV!Q<meN+)oF+cc8+nb~<g#WeU4oX}>}TwjVHp1F1pa^4<|b@3la2
zYblt2_Qch!W;n~DkV4iPw9~$TBA>-5EeHqymOG60@-8q}3WS+7f}FpXiL0Hip{u_E
z)z#~y%A=`NbmnZ>wL}IAJxbAz-L0SNM1dkdj}$gr(u?!8VR^;~weYzHp-!^6%~y>&
zo&88Wt0ZAizMjKLkHaKyeQW}4STo;*oRChWbJkyk;^aA4!)BOBMjCypFT{6~%|L<W
z-k7v^2MPpFq22GoFwQ5Ae#KQd))oc#`J&kH-)R&t6Xq-Xh2k>N9dwOK2P~c>%x&I2
zjof$=N!FG-pq*m`w3i5i?!XN4%j^eec*t?J-(ExR(nu6Nk_YqkV#(8A>G1m*%l<4F
zCyV)-+~qf7plVnbG5<SE#Baddd8<)+^b{y}2V;^;J|0rgfZMBP@GM*XIeHG1)6+8*
zX0>*~WHyKABlim@8O&$OH2dICC87g2pSrzyg!;z<@z=!yJU=19Z;Q6YxE+nKcjZ0C
zx?whd&CYz7c&5bf87V@WXk&iop;lZQCeOKUcpWR+Lz&8#@95^N?Yx=AB}6FR9IqR=
z69Z>K$P$=^iJW9?njMKvzpJRji)i>y)s2iiFu>ETjySlwp1xh6g4>PRb3q~j2H8y1
zxbIoibB!grJ6vH_*IC-ZW{#%2@1}Q+eek<^4VgAKog|*T!V@xm#<4e?jP6Ypyn@EL
zF#F^(`e%|9UXs7f$n2R4;@ye(_hleDo|VPrDG9j7_9M;bkAo=ZE$_2S2q-Q4NG6pl
z;h`#T5?}2C%FmX9@X;ACH{lO$kW~Y-%JaM{Ul~~CFb2$;V^A9x4eJZPk&XZ2;pAW(
z=Xie;&q~`DGu*8}OD+hSmnT80+8tg8{{ctj&J{BE=Q4PA^*Sv4$AyBy1u!Q%5xSH=
zlbl16IP)5ZHgY#%-9>5i)SC}m`oy?zmdz(}S;`Q*>KaWEc#G%UOz>BGDzocj8A;*g
z;p4P8-Zy48xof4*Y2BiO52V>Sz9Jou8NY?X>@H-Il4)xm2fiH*z$<$!;r-VHqPXNc
zy;;w8*<{+X$!bC9i5W$YBe$@nET1EGBp#Z4V#s4*dH(3ZCm4Rao;C-RV4r?5IVw1v
z^GS~7fwbeWb?5|nGn~oH{54EkKJ{ZN=LU9W#^cRdLg1aQ$MO<d+)-a?er?1X98Fq7
z%$F|$?f85;HM)XR`|dUlPB{bJSCwd5XbX%6oAN!Uit_CfPs7frF*<LZImy%@==|A`
z-@|-?@EgalbDtpp_;oA1BF}b;m2YFd_r_u0L;~=hNbx^UdxOZ);!jhX%3o)ziTj$J
z`H81v$YI;(blZU{JeD29u^AV~Fxv)jzcLC>)evK(#lbT@9VKsh!{?<c9O;rwJQC-C
z>X%|kXiOt{s8xvDOhRy{_Ytu2-N&A;UU*>M8`>j3pS=7=F!=9%9JAR3OF<U4uigae
zwLh?9?g3_W%PJbZsTgA#7J|J<6(&uK#X{w1P?X$F&POTWA2w5X^MoEV98`yQ1ryP0
zX&LeFpTwQFR+6h-aScX)<YMY`eYz*(JNbE;fs)@p!FHB7RE;M<^g;v5tRLev-Id}h
zt#5~V(~mScLKyN&V{qt|G_;Hfb3=+w!%R07qVi=9x3DgaE^FTpSEd!B+J8daV{Dg*
zSFjrQ#B*b8yT6?~WF84Z4$07&JdeBXxdqo$QXGFeO{Z<nXYo+mbWGZ+2Zsl*K>y<k
z*z_ii?pkh-=XtAe<s1rkGnKh|(k?*W_k#Cgdz>*V6x7m`P)FPn1`ak5wX<xmcK22Y
zQ9cJh{w{(KC9>Qk^KwS3;5Bi7I{<$~%%T3n3MlVW!>c!w;lTH)+*vjk!F+ihrqu-F
zb@5Z^=$}XvfBG=Hc3*(ltPPlA8w8h<U8s)uRIY><Lrr9yQTmVw`X4)pB9kkLVz?g2
z7|XJ{0^9kN+{siwbwCZd9?q3*eCSnoA{p~`!S%^Iz~IF_#;NQe2yfEB0PA70R^S${
zP#fkLTZ!S4JIN?Ek5cv60UWY-#1OYFW<MOCql&Q-r!hSci0>}5qQcquFlz!Q5AG%x
zUiaeKv^#W11)olz;4>vRx8U=k^Yp*^Yqag_J=A#glf<TdWQ?=E(X-^KIkRvxDsrcx
z*-tgB>m5efY;`JdR14!Lg(F#$fm-(qsk`)LwlnSmN{Y(x6{$XO-aN%=_uH6p<MYto
z90vA<%~beZ2?k#HRCjGOi*utqlh<wY9?!R>Vq>{5O+R!Jc{74AfZbKH3I+Jn-z<gJ
z4;);!E}TU9vpR1f>%A5xVO>`}mdX^d-8QSx{h$Q1J@G2(nCy<X#tvbHc^6f)o(WGM
zS7WDj5z_M}G{{sE6n7SK7HF99#oGj-_n;IyO&6hZf?`m);0sygxdhH6J;5gH6uMu2
z2)`XCnCKpgL$e&<&qrDQO||ndwP*@o%t(^oG5(IaF4Dsz>`W=wB8f>=7ub&3DQpfk
zn=b9V4f!$2aL7x9AE*$I*+xN_=of{JFMHs%lri{gufP>!FYyb8fjqR*!ACB*;uWi#
zhA$uiVOLSV{{%49jb^<V1(V1DI>`3AxX-bLp*KJ1!K1?b)__Kw$Wp~X!xU8DoPz-F
zTAVqWM+M(*!KTY$7#ST4YacqW%-ek;=yHzUH+&4?o8ur)^&G69eHL%9{&l0Y1V^US
zns+F=7jzTVK`GW2dYOAfU9E|h;S3Oy>jklXSCCpWi~h06hZ2QK;3)q`_J3JQ!ulW7
zb-N8<iBuIlA7aQG2_cT35<^YbPor?y1(t?7<K?68A;L%t`<R*7KI+C9Xt%D5@d|`y
z<7RR-SO+~*k<2~%m%dzYf(CUDAp3qYn>SvDNx9*;IqC+T?0g2)SZ{bX+o{#~NS|&$
z;mfRE+(sTpDS~x?C3x4Z1f}u?_`0kNy)rXkC@mYZuO{KC_1%Pg7$a-Ldck08CpbIp
zfLhz{VCLBXf0WI!V}StP(<x(us}fk=yNqaDdJkjl{<eRT5_eNm7Od&G02@A=a_7n)
z##lD|ZeAEoKhI9Ylf3{6eF50^uoxz`CBgGuTu$j1VXn&%pMH`r1~va&5Z>niLQPk3
zd5<5Bs{MrDM+wJqvIQLW)**)u)WYp4&eZ?p9C$A44^!_uaugq5Cmu^~K(7X3mZd89
zh@v5UQS`;<2MfR{G#%4K9-*pg2Rzwd1Vw93;qRA+@$yRx+%F)8Z*-T??V~r~;M)x-
zv|tWA-Kvkbjz0j6=aHDRd>QSDehH}pnv{v$$a0Rtcw+G+XuI2jQ>-;u-A@2b4)Ea8
zy{&XbFbDd(uCd)yHk_Q5_rYw22~@m{MJLyGR!@y5i<;REp9lro=Ntygqi;#k{SfH3
zuz+sE02q`zLHESJCC;lvvC1kNo^Nghu6+&(jWYw63<YjS+a0iHK9XC`kKy5QmhrGb
za^#5ynb-M{vq|G9`i=#{Xu2Tm{UFRe{%#5Dt*oS#4{Wg2O$)3Yl5v+$0sG%7H*eLo
zg2sw;==th}`LbHL+rW^HZ<eHjo73sdlVR}Idlq*ABg0GN6+!<NOPb^#i%BCbjNBek
z?&!w~uw1v5e%SjO$afw)ryj;!=WdW6+RAO*z7}@$B*DNnEnL2v2R?%9xJ6$*U@_ZU
zk~vk3+vK8%U>ZVxM=FE5K?4TZtHRCq2BbK83dRm<bDe8lX|=2-#Jn$pvo%&IZFG^2
z#IoJPL!x-=?paK38Gu@m8?fNO1GclQmS_w5lJkL;oWkpG;Qb0^xV2#y%bA?UUF{}#
zWn~C^w|$0RE_|GQbw6HPr^@C2lO;OJI>-X^bih@gK7PT)p_aX{=h0fT%!4JcrPq=6
zH=RTi@{%;HjYp4r(Ns@<1<wC+6Q?Wq<8QTW==94bfBG#j*F%^oan7Z?cAvrHAt#Vw
zXYdaVJZf1MhR?(wP@^#?P){s|=gp@$ZTDwDnC)+*D<|=D{?@=0s~q^WFb-9N2uzxK
zf&8uu#3F|vc$sTUdQIoUspD6vPiZS|_Ns+%tY%RDR3C=3&(K3|k}!Kc%LiuKQ^5np
z%&vS1BBZdQE<9w27>VmaR1=>zWK8BivSPJ|w-ldBW#Cv&DLmRfnLk@z5I;Pe#GkoC
zmstMuKwS+D{+3A@jMRT@uGi~1-JWrSG1}XQU$)nC{+rJBRS39){&)y+Nclk?DBOY6
zi(~My;4P&eWw}c2QaCRwm~*<U5N{3(Lyxfx_u{e-xK?2vp8IA53*Fztls9JBS@Rl=
z#jX%@?ki^XvO<oC`wh^aF$wiYuEM(!8AubHh4W9<@wP;jqK)!)*j`x9D;o-<sad<J
zpXoVlZaho{HUb*7H_}(ambmGkJ_KGqj8P|}NVF24?eZvOrl`(Ej{+{w;ywd~7dL^(
zlH;7u6T4xBR}HyzZZ${^DDscJG@u7HoNHVB9bn;KNx0n~Kws%!#tuhyh-2>ushaor
z&L@XTp6e%#GQX+)umeWk6-K>4KHiDd;hcOS2wN4CNcVUwt!KP(rPUIgR(2J~)#X?g
zB^-=><cME7%Lw-M(PbC+fF0Km)3OvXFijilCtt#1*I1ZtaT42hZGs(RT^w)2a8xk3
zO_s;Kp;5hkXdwKRc(>hVGvBH7ru96m9>2uXxRyma;3{3JREFm|Ea{r~>yRd~1gp&1
zGkMN@?xAxVI6FC!$lQ~rLKg3_C~Ph@77NFnl0BR?KSa67?<Ke`moH=gcni(aHRW3V
z7Uypkmn910K&zL{0XtVUuJ!R+dd^`F%hgL@%IY^*^|=US)*r)eiS>}gk0dhZHiF3-
z9=z2Qz?BD<u*oJ}s7m<^9Uav;0&B3Vd?tABp5Ud6G=p1cBQoz};82(<hQ{rJfxNcb
z%lR(2k!d9B%HD7cEIjb_(|EGx$X`+`?1{&wn!raL39L+_aCvw=XOiv#x@P<=x;919
z)xmD&=`L9;leB}BUN}Z~$mC%9NDBV2Ek^_WgCw<mDQYdghck0WNwth92{SwmGL7YU
zdrJoVjC6$a-goIeemMTr?IWVm3!vroJ@WGGJ#&s!0+WBJ3U}D$6Wb|<m~-kc;TJd1
zowB#kJ5h%I7A`^2Eq<6|QV0r9kaz{Nd)?M%{I=yN+&nH1HxB(Hy<a*|Rgvw&-rYx%
z#{6iXV=8%R7lh9Lh2!+tV$PPqM>N>$Fg$p)kQV$h<9!pbL$?<aU_W~h@96zD&)b@f
zz4}|Bp^fd1NZ{e$6Mjt0Us3+Tla0*2R%vd0_bzA@55k8xAK~A4TcXw-0=uq#;Pp?Q
z!=HLg8$|c7#jfn#@W`zTKN|c;oyPJZscbdfE3zFgcLyQ&iwgemE5c@Xa~i+d59a!(
zppbks8PRfposJ!JpFZoY>qMZ-I$KEGtcO<7sd&-jD^c8&O7~Rs(|;o0iR$CYWUcrQ
zoN4fa#yy(`7Xmf#$eSFdZOc}sVaj_f&eXy1?$0>v|C$r>Hxb?nET!+v#yE~&MB($6
z{dCd5N}P5Ucz3&^IrCrWq5WJRny{83;XP-G&3A7!xU~m930csvC3k>Xx(<yuKSVLg
z@-zbhRKsaICC3UG|J+RIR`A5?oC4z1dWK}&`b4{o9`e4fXk;^|N|0k|fL$x~m?wtm
zyr0G@^xY_hl?4Z3v)wLmbv^<vZp|=ocrSVB>Wcbv*U=+K%E8B_nn>r=;6QIF^^m*=
z{Tl0_Xs;Ni`<UW6d_kn=*MiGtMNIsz07KVI;NQSLaH`(PZ19bQzak;{H7f$27TST)
zkRm*r!=S9D2lZcih1`ub1UjjUDr^xW(FwIUvq=rVon3+ZyP9x^EZgrMF^#MnRb}5w
zP$7?pkCQ>wC2Yr^Dsfu41j?(m!1hE9%AE+t>|`W42Cs>(P8Y2IHw`<h*`AupZ-o1A
z2UshMa`VKpp#MfORbMX+nRncvRJ)yNeR7TM-BiMOBOX3~H<bi7z61?BF{)Yn6Y5Rk
zn1bKqoT@kK+}9?bNQlWK?)bDtu<`vQTzAcad9D;etc(~^x~q%^$DKg!H%(yg5(tLh
z!m+{j6`a|y1TV=ta~eJOV^!Bb+-9nVp=;7{>lqu;rWXs_i-RF-SP~QWZ-UcFcW|Gj
zH(CoGf#OY>czxmlDX~<h(vH_4FMb`lVJ^hKYc2y97j?i{n*%8Nw-TpKc%s7$3sf}N
zgomR{q3mxWlV+SqhGtsetvU0VI!yw}gDmfx4CLOYV8mHtv}9%ird3?U46%*a_U|I=
z>mEUAO&J_N-UAz5Bp}A$8%I8WBv~pV(9BJNt^T6?fVmtJNtVE^-jkTXt3ZJdlQ|0-
z?qd0CEBs!0i7wVI#(V7CIyWE??Uc8og1-P>iA%<2i6-oB$%Pu;FdUn{0s4Z)(4_JV
z@>#BHSDzh`d8q`7H!fhFL^7S~wjcjKlZHd<r=zBa4U<v*iTpb^35<Si!OP)>_;+Im
zsOY+YYHbH&Fu9B7>$AOLOf7UsT%fy`<RE_ehL$BWffSZOYxfX(?A-((my3bZ-Z>al
zWlSIG<ly@&Ui5v)Q#2V<Cla=4DCL}lYhw$^(TpE7qv|-?8|@;}DJ^6?vz2lG{g<<D
z###1_trOroXB`xGmk`mCcIwx)4JYmdQHjHgun41JTAD4|9l3y$R@8FVx~g)%w9DZS
z7hhOrAB*2T+aP2`5;{Lh$JdV%A$GbZ=$XDWSM%c0kWnYl&shqtt0d{J5A6Kn{D#py
z=m}Apw>WVbvT*T<37llR$1a_?g3${yneBDw*w2CG7Nu*TJi!_M30~oRk#-~+?5^u;
z_kdVJA5kjlA&Z|4P~(9fSme_{ovQRPQhqJWXvw6{&a^=8Tq&Y)_ZHRuSISXZCC2rv
z{6QmE9U+yxNVEvxa5LsN(oz3CXd<OT)U_nJU#0#70fDJ}n$5NmwN2uB=VsE&ol%6(
zt-*#1TXBl&Ho84(IcEP(Bv)8%WpL+hczGb2W6BT0d0)Oz^|Tzk5WWPPq;?Sds>QhN
z^m%-ITAHSIr4fEl3Cy9N=!~>#PW~kkj2)W*C;8Lx*Z3nbI(?C6F<wjuuod<xxPy$2
z7uKJ$tFw~(NB3$Q;iXqxm~mMc+}@SqmmGgonm9^_J+nyk>s}h>uoQQmYXntLfbF}A
z!9JxLe>J4w&U#UNQSyx8FWraxo~7W#=_eq$`41@(WN5g_RIHPp0;6YrFobHNTKaCL
zP<9GhH3-qi3PG^u!5;c??iMt))CO;VV@TRsPkpu)u>9_2=I7&9GGbT-BKw56HdoYW
zvSA3}iqw#(i&{)nq9QC=6$|dVZRk0m%f2U}L$2$HamB{9vBqj29RK(azvY=@?ZPN1
z%I_dsQlufS!+|IK^(@MEuxDmiCgerGgKf`iiM(kaPP9(pfB$p_-8D++rj`S^*D#%K
zEZYmwdrx2kjR)!OO5l$bg5%XR;PYExB144RpmT)Sv24?W-Z2FBzp}Gw3Rm9Sjn(J?
zV+vx?M@0_SgtWj3P(s6Oceqhz3ElHQapF|pGv&_R9IcH*V0v*bm<LcAa_uk8Vtp2m
z&llk5k_@(+#sn`8O@Pk}HfMAQFjl;q7~M^wcHBS++0jETYxjVP<_zfWREC3tr6@aB
znJc6Gn29~!gdM#v;qkqAc);Gt`THNxY@Q)^>2@0;ZOi((xduc)v6e*sozAtekAuRh
z5cd234TZ-J;XQ-7=<DN4JT@!?+l4D|+nf7vM}8$I-AkM+HtFL3JN|B742GgfH>k?S
zOYqeul5W>nNblS=hV+{au(YRu<$;!hn$tY^wbY3IY&u9ord7f2ql(--OZF`e%~YHx
zc%SV6uEfJVPpDqs2IgbmPy7-$mmb{UiM4er$Q}P1^eUS*EV_TxY^41mJ>+`|LhsIo
z69WWajV7U^cN41*X+Q$|&O*Sz3aY4n4#(4;LqNm_()xNHSw7Z|_fmgDNZ*k8K+See
zTUH$8{>z3a>vfnC$37>tgo_&mIcV*Z3}$b;P$Rh>>v#D>{BS6-U!w=xUK-&eM<7Cc
zHmkhc2IVqWf#}syo>H48$S+~}Alr7H_Ym7#+U$vD*NxzXpdNVjw9{(VUx;hernP&P
zQ|*jI<khdjH1F$Veb7;Q#mNUlWqcsu@l2RKr;8-Hxua+76KW#h4=?K2{D{_avMG8t
zJig(FSH=uL!R0(Sj5N@zJW&$2sR&Z;?1a;q>v3*S0#;mSEB8C5!_>+GxN~9+xt<Y)
z^l~IF689sEg1e~7)^%_~youH^l|<d1Wso)t;1jt^oK0eC<k_}xT0PFet@EQ$YVB$W
zSmn<45@yhEu?}$Qj22eVEO2VC#5Dnzpx8DA|KxrnoeB{&gLcvvn_c1M$z0ko{{!@W
z4MF)rQE>Y7lCw;a&Gp;Af}*Yc5Lt7Qe3M*mZV^*en>R<7@Y%cC&o3L+1fOEx0ep%J
z_xvJx6N|{lN$hOBafm75{vx7MiKwxD3(yCbIb9c2=t{*|xW8;6rZ~1T$+Nc6U;7#$
zV(1A>lG{f%cPNto{<-7NWDSzoUj^3;Js|aj4BokGMu)ZLgX3~Zl!{^5FsV8C>3A{7
zsT#xnOH%k&R+O)pb_^t^$iQ9JOG(^v3B21^l9+<2aAJ=T4SBPSqx(&ob`|pIv8da;
zJA)A*y-ovi3+G_t&G&Tnx)*rMOCEM-s=?Uy<+PKxiR$q*@$TgkT&9$YH-$eC;dP-n
z=Eg9Q9>Mf;p#%sle?&Z6`{}9BbvXF$75f|Ah%b*eG9A+<IHCau;ZS@GJ}f<h%C95o
zk#m!9&^`#9KPJJ~9#491XbQ3rH<>cE83)eR0KeCr)pz<a{_iflmva!lPBOy7mFqD4
z^nHv7xIy1ut|BAf{*aD^xAD!IZ6rqM2y^Mtd0d+bxcl98Ol^7%6}=D1pt=XJ;t<&%
zZo<ryXaRwkSmu}=Fss7@F{{~#;G%t~J8voONV-Bsq(^b-r_CVTxfqfPHZY7r01Rkw
zsL`IM5LoSiQ4b2?gJd%<;GMyf^+M3fZH9=8@h}`gIW6|#Fl{6mml)-v-FH7ypdL=z
zd=|j_hZ1OP?gpMGc0yKAF|1yn3i;6ofph-|{PEBy1q$CuK+z&t;TcZ%maK=AigIFa
z?+4=#pOeSapF^&FF<s?%9hQ_166-YsFxAr$4j*<T-y>#Ytnv`ZI9`OVHEKj`UObc>
zRH1*}!WiScb4-MAC3w1rfFAP{QY;E!hMNadf6IYrvwTuy=y^yjQpRm})k%ZlRrpr&
zmnnTOf}4!XnNhbl?96k9Ik{F5hMzqF^Vgoh@ixYJ%TJjr-_)j4w9Du=>lnNflm~mo
z_L6bmBvK!(1W&7F@YvvTvi*|-+RRM^FZp^Zdn1r@DS(n+R=FJ7_L@GjzliOJgMn-|
zN0~Vswnwc3e{dA=llWzNB1nkdGfsl8Z$dD0ZZ){6uLs>HVd!156)i?~!T|eu-OQ5V
z{>=6UxpY}nV&@K{cR$F7qW_>>)*Y(H4}hIeVeLc&1-n&pTo1oJ<{xg~p!2)*am%&^
zF!V_jR()t9M=WhYqkkI>vL^URUy)8>JC;uDGzYVR5_(E6o$x-);C3b4ft{}7a97@w
z+~)o?e_j_1>m@!goHN7Vml}(7G@TQ-Qjxw?&IZ%@7ddXW<HXcIlJ=J75}&#G?0@tO
zl)kN^4RKCv9^4w62Yu;yM;rT)#tzDp$^@tgp-~@%cwS5MvGDyk%^Q+p+&;Eq!oy2c
zsi+^K=tc6dXanzEW(9Ai?+7C@TL_x(Xn_xNjr>iS3tuh6i0_R<IGUmf(dxF~{NO&W
z85zQP*VE_=Gg;`-Ng(}J?UZxTg#5n6`pRc^;?OZm^u4G<cdc3l3Tiqi9IU|iecDSs
zYlHD`k0O9{J+b8n(?2V2px`}u*mra%-l`44%$QxU&FLRDr`#t+`u9m!s1{BC;7-cq
z<Ds`w6~YIFFjmwCeuW#LlD`Z)_w9$1#;@3Y#fnkTdqx!w1i_Qo-S9<B4<CL!hF1$G
zgO~@a;U3*Y<m#fJNq;#CeHDSX;uGelU&nFkLniaRcGl7aw=d*E=OO5qWVx0*H?g^V
zoZ0KwPd5)ep!HTs)Y)<!nlJrBpD$o_BUwRkZM==f{Ys?%65F9$+KJ?WINzst5?Rl9
zk&g<37<?!QB)zYp>Z`rjA2}P}pH$%oU;RU4Znkq$*o@nis~7QR*jBPzR)c!>9l~!@
zYH{$M2+WMTii>$Jc*u_3N$PV^%Ksb)s4OBEUU4W^-8cXK?=!xaRN=cO#4~n%TD<iB
zR6PAB0y}TpphnON)QgXx_ZkwgaB?Qwah`<JIl_FMg$cOjy&=D~HV`H%R^zY9%V4JL
zZ%kgwC68pX(dL&D|Mx9j{#a~0c1$Ap=CV4p_p%z)5luKayPorEnk(*S-&R{M^qoYX
z)52MK2Qd5UFr&Wz6y7cF06&W>oYf&^c-(F(^enT*^nIyl@_7=!Nu&?013K{37JFt!
zV;BsEykgHjCG`0n2R@yucszA2s%z9>MIy@rZPvgKX1nq7A=XS>_#3}252Z(ji^<`m
zJUZ9n3RZts<2z;L(?|cY6=0(Uc--w7$Imhl2mUp~%pI4=iMACeDboT53gsm4uK@p5
zu04w0WBW!$?O`+Pfp~~(gGJs&+<Z8U>~@wSu<tYOd1}eNFZmpwJjuXco*7s<J{i*2
z8^OQl=dkG72nzOpAn#|XK)1Xn_NW%pxV$rX!lRka$Vo!q!ETJ6e2pBHy+pr<vc8td
zYqW9CAi8(t@Ud7Ip4usk&V>CP--yA)mr;yKOE_Z_Ak3#`Jy^Hr4XkLshT|7cLr+v1
zb{-DJ6dfm=b7>Rj(Z(v+rpvPBWlp%mvypw5aVlQh@D}b^6yesBM{(1ii}a)6J1YK1
z2)?>VayHnp-s^^+xcl1zxMX~h(==8Oe=N^YC9z|uCqA9o?9_@~_a5Q>5GQbm{Y0Oq
zvKc?igLHwW2D#L74W2(0;6IU%V+6I`;7hJDct(~Jfviy`^5sUH%<lWL|1Ogrk7F=o
z@SZbi)?TV#kc2Co?dh!)c0RV~fJsGlY;VRTY)D%~r2m!@anMDD{6d=l?X9`=m$PgZ
z#R0pIbaIaN{e-V?7o(i)H@sJ}8o!^H=Eg{$Cqe%<kymx+nJTsiRV8-{#5~^(#HbuJ
zue6W_EZeoygQ0^p>q*~{SorT~6g24f!>ryAkck(<DDh!>wDlXQ+BX&M9(08l`;S17
zbuM#Lo8?s4{l+M6C-xjxBR>r~Y2PV9?(n%hP<}CrNApgClFKK~kDIGu3fl$pV(||c
zW9O?jvmDqg`4o!}x5L%d#bA0GICtH9uzpmGJT3oBTT_*|w`cG`-)0m2(!LX>7f7I)
zPd4>3-2(~9A7SAF2D8;o@j)sfQ<l|&;>H#@9-TnXew@y|8J&%?ZfkM#12b5B0g!KN
zgg5>EQNP}JusS>h3R`8d^5|6Vo`C?os<o7SSRag@<Pob4856}*KS;1rGVCeq10Op(
zNPiOr&ci)0_tI+EA!)<D+c*U1oDS<A*3k;rGqgSK6pFo$BMO6esll#O#Kol&9lX!e
zq<9Z#>f42H1$|(X$u%sENhhKsLflW&eNgyN4}@nOg4gv?)WC8+6uxT3(~Z+0aJ32O
zeENyU(&pmjSrv@WGWOnQJA-cQS%gk2Y%#cL5k9l_h9;>bSiHWl?y8atIj$;1Ql=eY
zwPR_VtYJ(_eN}M%uNc}@bO{&NAH-X;Y-nZl5spN9Hw~df%*Av2sd@f6;FTPL%i)pi
z6Y&NdtFsH}gYoCowXA?#Kd6K@XV+u#uMN;HLU4{sKK)^|7xxO?CEJE~^OpS4;Q8N-
zfF)-*aLsiF=e7S%=n=BT&A-Cvbp;uGS|iT(0PI3%)iAV5qqOeYcV=X^BgE#^avEo!
zhS}{iU}|X|aoZ7se66c^*!cj=tuzE)w-9QMpU14-^~6wVDS9leKxgfIoECNnJ5L2s
z8JT)&^duPN4j(|RU|%{pD;-OQ<}$D9tvOS!=%MD)XzH!|hZIC^C!%K($R&0+e<`B_
z*YsVnbe<0$?AnE!UoK{IT_;%0u%Ar#DJGuv1sG&{k8@^J7S?|pA@gVH!L*wBSjw!1
zN&ntat+5NRTQ3<e8m`3IN{ey&#|6+>x|lOLet-sQS<`31*=UiZ1(UrLFsDZv4wm{t
zy=NxKs->ZW{Y5goWd>*L@)WF9)ud+nJPz+b3YHtQ-K4n-nVltzpz6m5=969?HqRU8
z32IEx4KKq%rSCtqofUzL+KXt0!ah{L5sK@c#1Q+7$C(BGLa=V(TXJUs`-a-cUvluR
zFwW~%MPcEk5b-7n6C}K$z&#fWh8N*mt2wZ<?L3$U=+Y&-=Yum9AWtt4*cfaNUo>2C
z^-vi4)Ltcd1Frb&VGLFJ>5XUQUsGe5T1+uD!@{I&Qm=7^obyzn$L5Md&*~JgN;rxo
zei|?-G=!!Zt5MCkLe6!qe7e0(00w*taj*6a#KW2x8?%yJ+nSFHt51XAyF{|=#B6w?
zvKThD<<lsGL$D|G6BS(Ojt)KdI96ZY(a^#yG@q$Pcp*jTl{W=n_pF22^(VpeUy6D5
z<rQ@4Sp$Y&=m;u&4vo~AAWat%n6lVz;$E%^fg%6V>!F@la6AM?Zkp53xOuoe^FD1K
zeMBd{mZ7x&ACYaoh&B^PAi_AAJr9IQyK<))lT$$Lw9ClOze137t(o`?{Uc5vM6u1*
zfpf9;KM=LgV>T>z$45^d6I)ATx>(hhY>i+$1RqDRxeVvJ*~^Nse6cZIKjuZYY)ZiB
zu6la*<}Fe+y@1@&a>c;I@tg-oQ|S3K8aOpW6@EDUkD@bitMTi?aHC2}gAzrQNR&{i
z-n|Y&h6br53ZZ07NGhbcG-{Ft4Ju7EEA{Sml**7qgp?sFiIAVD4Ef&g4{*7hqut(X
zJ<ok}UCK2)>Uw7?tP!%r18?q9FM<8o-+2|oIFH&NA+DdZ{s%L~S^`fVEFupI_2KTC
zV0auQ109o!YHS9t;DmlT>U(gM^_i~^HpkY$WSdirPeKy1m8$euOdwen<c;BN59v$U
z7Djq70ZWeh!+6mGIKABz&K%36v!s`i-pnFes&T(|){huWb&|wz*9kCbA?GVAPh=)0
zbul$=iQHV^4DL8-h{@4G*nfBz+>kUNuYzxrMumN_S+JF~Gn{v2S~wP+3dKK{R1mp;
z_o0{GSh#!<9uEwnK{>A2mKTe2pKJp5a4@qXJCJlfafF`o!^qdLA{#RH;r@f?X|RMc
z)@N@f0<MJi%2=V<6*mYf%Ew0Gi}+bg4G$`}uuj8gz~j~?a1l(yb7tYNF3O-ba%3O)
z8kf_1wVABPx+|#vQW4kmT!iJ#=BP4MN}kj%hmY6!c*jwce?78^Jek_XXxeGqFl_OM
z;Wvlyz4aB4NzNyR75?PHF=P*I_l2pKdq7fRDGH~{)9bBoar2bhu*lt+JhhGov!jZb
zOk&a4Dv%Lvy~O@FaT=-`GRUjz@hDU;h^0ZhVDnxLSahQrwAN@*kL~hsWMLM*DxL%u
z!g(MQx();79I&k?wRYW=EwujO7?^Zyf;;7+<ZQ!!n3{W$d}s<}&Xm3&#*XC}kuyxB
z<JH((SFGWwZye};S^(yt1mX8Qh)W#6R&hgC>a8gAMJyK89`kFRSDXYtzcY9()gJy>
zD?!nWW@4f{4M!sz$hcn~)9T+%T1>Bz86WRJhtC`k5TsO(C}8>TIv9%MX2tXTP<xFG
zzDbS8cN>&o!jD{BB|d|SH%P#Q9z~;#uEPA*-F~Q%UkL)OiF8V$H|f7tOl9A7<Bji@
z%$9@Fc<8<$RCH-z;WA@{&r5l3&#N$M<P)|UM!@=9bvmee31oNOf$?TZ7+skRk?)_9
zYb#RVsPiwJGmhAQS{*V1#GzL>7fo888?85LLd}2oL4S8P-oCe<bbqmf?250DI=KL9
z<L1D{ejmdAtYv$iKVUu?DPu90IhpXr9Frz2;oo`p9lB%F@x+At*tThu2Hzf`+6zyB
z|DqA9vpN}XIgSyNrX<{=GD;0n+L$s8O>DaGn%2$9r8E3I$eb2O+<bC3c6Mt*yy!3V
zb04I>T8mMox1N4mWe9%NDtxO_0+Aaw(I^l>?c7(mCMXEaKU89}`V2Orp$UJt&gED4
z%R!h=G<-?-rt??lLsZU8s`xn_C&tM0CqJvDyH4LDW}0D01L|umJPpv-Xe$Km+Dx_A
z4a2EFD{wGm8!Va93d<4$&|0Mck_?9F1sz2)#<BFOJr{t&wOIJ?cnKL!w&i*yarkz3
zF}MjykmuXeNbR&2FnUal9@tTf?%LA4<pb?B?8zzkZ~8m1I(ySdP$UDIyk_Cw+mFaM
zVHP%X`;yz|a!HY-IsW-Q!rttA4A%|?gD^MiSQ@d9(J~Z*ZEd^gC#UQ1u6ZX!$%#Vj
zz<H8++ztM<?t-`W-)W=6YFym;8zjDI^SX9jfKT?zQPuhm{(N#Bn$mlTZfiQoU%djS
zcTD1?a-U1+Ung94!j5M7977kJMPEqr;AE{Tc$rk=H?`Fe@a_Sz-FSjoeWnZ6_J+aE
zYF+f48jhP%3%L1Q8k8TJ!c;7X!525>LHS!O>~8&llk1A{pl&0P98l$lybxhk>h!Sh
zjRCv3&j3nwr(o<lW8C!15>h3j$mP!&bWgVgli0tHv{|_0_lLHyfB$Bj9`OmX0|%IG
z8z%71zduT4<jSya(*?L6m;xe74KzAkmzo=Hg~HwipuKb=tzT5k=-yUB{-^*iVdZni
z)VYXe9UOw&wWjdxavN#*mPXPw0%6Qw5oD%{!$jc<Sg+gw+Z}@Gf&1^^o`@UT`>*6J
z5A(pYmA}yB=|?a=Xu->U5diMdl<ew~;+58K1B1+5x<lXq99!<r^BtB#GZ7_ZMi0QV
zYo6rV?A1KGof}agDH-FF<#{i+Q@pF01_sw=B7gok&3*V9PxX8xLzZ>$`pzbvpUxGK
zSo(+#@690|*Sm1x)h?8Kri3?7<Usd|WH>F>#XdY$k1iq|?1;7q$+54YH{LBFr7niG
zRz^{{ksr#+rd%M>ZG0mujiuDbaW2f=KLgKz3O{=&1pfp*#7==6E{hoe3q#YeVM-|O
zJ6F!KA7UUS?FPoB{Wi|f(1P@WA}oL1%FH>EPgl6@$2HtNrc|LH&76nmkHE|1y0r#g
z@p7Y|q)cIt3)ju`UkI{U->BWqYk1~6py1IMBI7ZNmV5HC+MZ7@#mIroLN2p9^o2NC
zG;>V#IGl2r+c})gp`Gi4xWA7uDdH0RMN<`U{rV(g6BGq$k@djQfQi;4B^o}wl_=cW
zN~AsS(rtc8Y>C5j`e-Z+MQa_Q(R&S)&M5@{v_i(?sX4wqPz?RIS3rf*O-#yP$fWEq
zrZZ>7LgbztrZOxNCUIv()AuMGaB7FJ{lfIowufYQW)b+eM8NpG`NU?<QaG|I5<YRf
z=sDyt3=Voh&1El$dt3vS$0Vt1@l<S`Y>(olO0a7CcG!A16zvK%K<c&<eb9CaU49qS
zoBA?5Qni8B{>OdS+kP_RP7yG{aJBK0<}l{8$USiX>Vp9ZTR5(#DVNPlpoTR;#w9~e
zpv2R_!~Ztnhu2bIxqJ>?zkE4<)B8ie9DGmeZ{9~&%U`vw-L824%0V#c{0gUD`hieE
z0&#q>o9l2lGl$!5pcVHn+Bwoz^EP!J#>t<i4j#V9FP=ze@~;z%UsKpA^KVdB=TxRB
za0j`*DU}Xt#^B`36pBARr?<~)V(r*(cI)Kn?9*~x&Sx5gw_~TGkE<pa**oFUb)wuH
zwt_a_djcnH1mINr1YWGbMQT~#LtJml@)uDt$Wc8@1?P`(JtRLy>bn`SR67HBNrAWZ
z?>^j{Q38i%1;DZvOGug`!~0MyN|fu|z~c)aZgcmwhx5j1#KT5X(=mp39JqOCe+b&|
zO~gXy^H8Uk2KI(==p(ZhzjrM{FYQ4i+k#T4x^o59ujb=~WxD(suY8cd-2n#XPl9KR
zI6OUn3i}`I#N#Pd?DIZV{-2Wr!2hYui)>cFzJ3?{x$qQDZSH4F=4e6nnpym1n$<X=
z(GD$U{YM&%0Ng9RN!z9Akoou@bGA*5>oW>rb*2tCZ;VAxbwMa^-c7#irs4QXYs~W5
z29lJAap?=;@Rw5D;D3)Aed))sk~AV|kc+93uTgtX5UsE(;ASZ2s0(ePn&0=3o+b&X
z8hyr;a;|~-%Wl?&>s-T=D^KEM8IJk3<sue*j3>j_`{}!e)gY2-fPrrqd~<Idriz~;
zdp6IkO;cTj5>bf%-W%ioubxn~tO|E19Ki0JA7tOhC-A!QHQqE^jlQ=ZW9!xR)UQ<>
zmS)W(5&bvFX>*{546k9te$L4)Q9^B$_F!VzH@YQcl*m;HLHKApJsX`vL&pY5lEyMR
z)VG+*?R3Bc?=}#LieA>qcNYj{odW7GlX`1C!}RYVC~Bq#zR_D?ZM_&4tZgKwGN~ln
zv<<dTO~4(lLu}!NO|Z961Eaocf#A)##J+PBSNxKt^Au;JbnQpHcUlM}YFofy|0yWk
zUIcpPI+*aC<2IgtfYBLW=*+|qWWwWnkewdEIYYv*Az>HT8owsZca(V6xddw_De$zF
zB3Lhnn`pl>*LZ0EYC89oECyo@AxEw<mn?o`_L^Acf`}^5Ut<?o{Rkvh1&c9pJeQOj
zr!YaclYn2p0zET|(X(SF$8Sm`Ezzl<d*&KS{&r%%#N9`OUhZe>2si6FnnaZo&Vf_w
zdgwCfAp=WU#?W^k1VwYqm*u)JE3b==1W!kyl@<8f<s0mry_?&C#IfF=F4sP3E&}hl
zt&lCem$sCRQD*uG6t6OcZHXhysHy`|>z+z{hF+t9@grEc(h64%O7VLRjIz6*E~Sd9
z%dxNSB<nB`i%E|CRMRXNg*SOZWug&m9G0Yd$0Ybkv-}yGPy5g@>IgoWA;+JUJ)8GP
zAr*6`P2d|8O3`&geA;4E4~;gN>|(AbXBgvY{77k_Cg7PAnY6gaxJ>^imCsrQi!1EN
zp|q3Sj<y^(rki6z=^1j+x{2;NU<zdd?O3W4gpSV)p}OoL{@VPP9<8<kpS3}l9^FfK
zJXJvHVO<)y)Cx|Yoy32frbv=uKUm!@fiI`F;R{&@+Vw>i(ohkmWm%)Y&M#^?zKpEA
zGK2T{bPvqq@)xs(vv9|=&G@`(1-uk4BcfgJq4I<x{QZy&LBT;}!HXtZ^i+elBJ31d
z$WJ001Wu4*WmS&5Kat&2_JBF;+(EQEQgMarbdG^Jj@`+Ycsae9UVFeNd(KWk*@x@F
z*1Uy{S|-H%)s+aMd#@7tcO2tt&1`U12VV30>&&;H7IZe7jm+|VsJUgrQ;I#p^6piF
zzw#=2%e@}rHnqU`GYg)FqaE%2Y6wlPTgc*wY-sq6u<)-jujHcu{_3iS$djTNs=63{
zp0CDv20O6o=3gpV>cGo8z&Sz(jCl+50zs%^Iut0Z2Jx3m*rz)hiE=|8UXv}w_rIfX
zSBpLdPX7d&+PBe5*@dgVB)}5Uy+mR}1Pi_fkw)#)aLnf|yT~sHNW>uC*BU21E)#hs
zePKA!#R#XA%*OEouDAIy8hODXtS57c{PJ7|LG+8U(&$?<*qcetnQ6hRu|O2O9SimG
zJ#^R1aA=Nj!h3?g&=FRQLTfT$wPrgeZ^|Ic6C#Mbvk1gw>QFtob!c&04!SET$)7LF
zosaQU^zAcDSv3ZKqX^voU=P_lx4~}izQ(u=kjGN4xOZ)5?YOfBI*M1*JthKZ_n!xM
z-VHEgVg)Ev{v79L`{A`Gx7fbf+o`(`11la3;-J6;XvkQHb(1+a;_F>B_V{PE_?s05
zFCM}3N;%X^?=i6%)`OaUu1~bi0oQqNqcf();Nj<??EARgkhk*!`i?!LmCc8V<H|V3
z(=(FxdY-P;ixuWiX?%}yWrx5=t%|hoC?h%nx2RlaFVh%aN(cRY(d0dsU;gotyj`~h
zj-^QB?j;W>zu64zv}$T)yz31+q83rpZ{x7W;v(Ld&AsC*?qZ_iZ5sMggUg3_l2==P
z!UUBp+~1c1yk&iyGc^XUjtb$=CJU6Gr3%(%iMa5*GzeSFgUPcwzwXbws5RdX&YQTi
zUYVP5+4dLIVWSw?%DL@}8q%<BQ6$){=e#k|LExp|L5!wn5#wFM#C)|0jE-!_SK%=@
zYwL6(=KdE{Qncuw9fh!?&5E6-eTyuMy9%BKf?V#Ig3M}R*tszWv$(T$!-Xy~%ea(W
zDBD5T9*-n7KikL;FLjdOHwdrfR$=dxALQK`TS&cm99#mVz+v8d>i3c3V!PPllcSeW
zD7~CrDBB1lGM}i{ky843odw9c<PqNiUFc1Yh85jkv3ipi^;vlqK03>@hxaKGWuZVY
z%5}n_*MZ<)e1mm7zZclIe4_BW7LTgAaQn!6__uf)_HO(`bjHM>*lz~Z9-qYP;5adZ
zzOQi5lA=$u8gKROX6}5WAil4P_#Tnr<qI!{JH(x1<_qxbb^b61J=_eR>W{!Y_Y{uf
z_zL0=Sfk!#E10FS7JT1*WZwPrCz3~WP|4*8Hm5W|{^wD4`E+MIDt4a!x+_EI>sEH=
z7bFXRd?jMacGPfk09j-fh6hh4F;Tk+>`-~l@$BQk?}rS?$=Hxv_6&{qa*iYke1J~N
zkBsVkK3KV1fkho3V-HN@ZIN|AL#Z+py)_56EqPD!iXy<Eafp8N>La2%g?LtrJkfmW
z9%8XM3ZO5R^arhnt>!*tYoq|IDwqpiI(Z=WJ*!si!AEw}=~O%x9g80uIo__XF__G$
zFm6WfU2=fJNQpSlsP8YHALi!zf2Kjgxy5knlqm06g*Lso(2a;K{tdpO1vG+wg}^=M
zU}@MMH2a&0nXEC6o!JhDtZvcow#x8c_zuoF)K9CErASGqFo`|692Xo)<T|kt^x^8K
z*m5g?Ts0VD-W}_sjMPQ8JK-Nrm0W_`!?|3cgFeGD&UmsY5T0fqLxC0R$**IgxH+ke
zT(Qr9%=9Kw@s*HGyC-7!oea(~8iE`2*CNwA3*PSK_(LylQjNr1414|q3Ia^X<r92l
zKY4@q<3_qZXBM8ec7j}!D7y0o*Iq~nBaiEPSYhcxwnybEIPcWK;OE<6OYd=fdn5-}
z>c?|;MoYH*qY!KJbrodxry4C-uoosRnn<2l<%4qM5ZOg?$^PM7{CR5{T-Lupy$^=q
zmOV4k$v2a2uew1$-C7Lx2TDOaYd)e>2vt4gh;=dF=<ui!wcJ(;kr@_P6Ez*SB}|3j
zg01j5Ly-4o!A;oGECp4ww!j$^t~=rr2I+a%=*x4VP`<$ip6ySgYptU3fcs@?6!Di_
zVlwbw_fiN*j;CtsVeoXR8F61~kJZtM;O?1C^WxvJD*I<reKBRoeAI^OG5*+f=^&|J
za+!)x<2o-TPoU*c1?8o;LwuGyg6Uas`8do@Y*B(-egVz-9e^g2qsVXk!0fizhIdst
zeq!%@Mj`tQL?_8W&B<Y7eg9-!Au>b{PEn^j^ewPhWQd%vi~+{p7Sn{x;k#!&cIwEX
z+!_(w_)s7J;SzAXd>nJF6!2y4Qji(Qfu%hKaBt=pO44g!!gQ`88Tf~pzUCJEEU(2`
zoQoqrEe0-}aN|BRf8Yh~1lxTJP<CqvoVk66x;&W<XF?eay)X-B*(k$h-EmTITnXMP
zTqGfaTR0B$J?50@M*QHh94E_uLdkz=%!=eYwB)N0@40I-lpJ&ijj=mavLltId?}!*
zg%(hva|i?by2#}hT9_Jr2Wo}mXiL&Jvf|$yn)^7L&8y&(r5VQ|$A;_o$sR%Z#(XC5
zju@=2zr=_{{DA2rzBqCIOvuu4rEhJ8u&wno)Nss-11s(D-s<<Hq`jZrMH-CviY+En
zZQjDMv=Ab>un7;!_h6pkMP{Ya63~yzq06`o^{dC>a9K|s`{mAp`LZMEnKT!cOyrz4
zI;AjiZyHQ!$-^7XpK1ALQNHH>hg7C~3|a-x(HV(-xcmGpjJmX+{F?F<wg+S|9Y1B@
ziONCjeeZxSCP8>sR)9Y{u97=bg6Znxa^NMq1qBroh|+q_0d@BliT=(xb!=aNYxE$A
zzikIn?*B1It#*<*<{8LwrHK9daQJe+ms#5#0zbz)k*PQfyLEfn*)y~7WA+=os@Ovh
z#(t#UMYWK1I1-l*YU9=km(kgLFXu#kL$quP8Q(B3qKz~0W``eL6*YoM;a*Uxm`NDX
zQ_K-=H?<_Bn<*_VLkERh^w78?`_e5OsPkOXaXlNPe_LSC6D_)NYaE<)T*x=?(Z=b2
z=dro>uHnYcBs_a}Ev~G3PE&F_i0a5j_z*6JSM;S}`PB-vT$+P2<B@P?FUR3>m;`L|
zS^VkskiH(CjD4U;{B^naf%hfSe19s=;NDv2t9GFMaWVXzZG_?SU+K{F4kVe<G-Z_I
zpY*;ZX<LHu<aiw_T2zve9%tCMRhci_v6%$=7J`oNdt?&y>Cntqv`bnFe*cQ2au?pC
zOS%Go>-9b?GxIVgtGV8r6N9$DGI6%31;&ZJfN`f|Fqi89r#=tCuk3&LMPw})?Gc6L
zj!N)q_!5+_Rzb0+2_&B=p~b#&;<o55-Tk2z_JoGfS>;L?EhdL5*OIYwb1It=tc$JX
zJZMz90vj%=0MFwm`DpinD!r+t7q?tza^q6K(s}`W96CxWX5M7?M5^=Do>sAL(akX2
z69os}szUkQBN!<|QRDDV{5-D_`IRPcx-<y_I%1I5eUp}cm<BD^+US_zVYtNQF@vKU
ziO$JM&^0Ovnk!vV=IaSebf1i`_sCP%d`}dNxkhS|OVL}~0d5qV)3e)mumh>d)cd{}
zJgzUmUlKW3DRvDNWwKBxwSkBx#gWW0A)}PxCnWBDJEQi&iQa8D#HaHIsjHV8nsaZm
zo2RF<6*ju4-kAr-hwhS5`B3cny%8rA1X8JA!KgjRxtn?tVZXTnIv3ps6Wtupdl<ra
zd4^E+u17?M)({uZX|y=*6UQH&OBcG&1y(!-mMI0(4o3s*{bULoX2gT-?I-NDWp*fF
zvmM+{WMG!qRWxl_K<w5=fqF;<zPug)Kdg7KZ|96M@u7V1zqlF9JF8*ZzUhp2&TKHB
zsfZ=bny{*qdrJtsqcL`A^py(dp1zpDv6BVx$kMgwB@>Rqx~;G?@Hp9c{Wu&lJcQC;
zK9J=<gP`wgE_yx}0GObIm%LV?pd*r@JbNgWPsg>3zJQamB-z^8K>UI&$g?d4_$+@i
z=Y`)%yPCM!aNAEZhs}Y*9v;wQF@zeIHekZWozT*i2c32k_`TZaFe!97Em2Fr1Am6`
zir@`2T^s^O$N#`ArQfwm1HB|rlLdWgeHd`_#;fA~r0u^`SotpjKKvYpNtezuJyXs>
z-@hnu7z>1Ler2>*R+~5Gf18YQUE4=x8&G81Gg^J;794G#jB(1N#Cekq1o<C>jP|Eg
z$H)$Le^`NEF3n<nUm%ycyFlu*7Vv&9yFotCXxu6k1L+q;V19KjJ#+IS(K@q?NqV&t
zZpb}`!vY@c^*43!pC2a`f4dJe9+%Obm9vOdtSIk8s~zxFwlMAIZGl<JFip!^x%WMC
zoH19bB2ov{$xdL`Cj$iz7VM(miLm4)B?0qSlY`BlNGQh$Qm^6qh6XRlx*I!T)!riT
zvF2D&*8arL!k$_Odf>(jebBaF6%*N&WSf5qV}i>-NR80W={(}dOQWS+jzyefg8UsA
zrg6PSuu{l^<4XiVePS~tzWdHzj<APGSF?#z<|D4tmQGWi@M(0`U7&|w(JQX$Fp?&Y
z`DOw5V$%!e#e+=rHF$;rD{fIgMJK!;{F=;ve}cVH<$+w77JAE1!nQ|tWQ9}?y(QF1
z-)t)<x^t|^Zt-e#Pc_5>uMqGynE}zP5m6oWhl3#pId^lW@nvN>EG;U81)<YOOH_BQ
z{f`22i`W_Wx(egHra^Z1dQ+4ycL5)XPP+0K#Vz}bpzBdB-88kDzC4@(Crwjn`obAt
z%k_L0Hd;Vzjs@yI5aj=qNG5rwx8vaBi>TUrgwFT0#L-`$*}NrE{G6fd`0`dJO1(Ub
zQraJ>)~yu!XW%+%IunUsD*vIbs}_09@4<m0WwPqA9<4l;0g~hPIIH^(i1=&*A?M3D
zp|_1#cIkj{+AO@-DFYT02>1&a7>oU`fWRv@;5@E?vl=JDt%>u{*>VO>q*1h~bqkFs
z^M!GV4<uXN0>V`s&?bE;Ro>+Zu^Q&YW1=YNCrM&x)+VF%Z*4h0vog}P5@`No0u)#6
zg9k}dd49+4l9e(#5D;fYJUC9&8NG=-_Ru=4R-Hs&xXI%2$_ub{xhd~{X##2+hJuHz
zC+f@dX-LEe^7f4pN``9kghV*Lq-GEd&QpY1uRrkVXEj_L+6Dr8fz;--EN{b-Nw8Qs
z5)N7CLui*Mf49&LU{w!enEX-5W2Q0UKP-vEv$uq8G=XnJM&ze&H~5EhQ~j*{uv9;Y
z(Rk#AI${I#{Kgwpb?<LhZNLwrOC)()^bUZ-TX$S}cL|P62_d^C`@zw+o3uyyFw7tQ
zLh7qCsbr!uX6slW{!PQ59FNC(_yJs6l269R9y6k<CG3MB7r5}!pH(@vj(`5odmN4k
zL1y?RPPdZae=gqu#u75HLtmJ^UKEBO)E1M?j}-YQPb=|f+eTCEAT9oC<`_EOv!QuA
zThM&jV!rlA&SA#oYNp7|<?G+{Aa&i7(Ry+#UQ|}(zy7j-KRU?@t_VHBsr$7^|M)yq
z!RG|dB$K!+N1^0I4K51v!@Boh>5S<r{LRxFXw~eyz`D;x-wobqr~Q=MqZ|O8c3&*A
z8RarhcKpMq1<~UEEa+bT1k2}1!y_dr{@)LeNxnrgZaW_X3Cjie!%vJc-)$yez26<%
z7mN|xLWA0?J_h81&<*xQQzzxIwd~I^&R?k<1lxt?aen1YsMq2{RozeKM(sYbctHWJ
z-FKblDi-0L)Nt}Qe;RDx;R}a%9zerQm*9~avcs|*uX{)jnl$y;>yP5t)7f@lzw{a|
zhzo(FDj$^LW;iV_(xlF08)<o<3nil}kbW}+BC1p|-c=Y@NvmW1wRAkFcN@yqX_8M%
zHetV00_K{<!SqlYdh)U@J?ej#dC__j0&ODD^=1)Ws>Y|up2cMHAvb7AErjjT5x8*2
z0+>I|pMKv~fI&8=U?j5x6vp+~FokC0t6z84EFF8wmMETvaaw`AiEc36zyOAXK9UU+
zJ*nuj3&sP-#$ox-X~;iy4?oXMrWx{&;n&6tsy3oUoGTC>9qnNces7|swjD$|I0MCM
zAA;oFEL8aM3i1QI4G*gfqtB0J^hozsd^aYDUoUz?$%|5WQnZ%ZpS^>Z2Qu;O#UhSl
ztcGz%%?KTgBo7}?#IH;YzJJt7Oy{;z<!cLJ{^_LJt;N=u9+i$dbJa;8$9y*}73PQ4
zh0?Iy)kNx-Ip(adB%WL@o|)H0Eb7wX#3WPfQD2XWTo+Z9Cx`K^kMQ!dvv8~s36Fc9
z^+pzw5`#75m%tzqO`nekZS7%;=RFjBd7rWRQv=&|6fsEQ2*(>4h2HQ;_$jRoU2Pj^
z=z@Qwvo8ia3+~~ER&Q2h`4me3wv%b`!uZAY2>qcmmFF?hAI!LYP=D?YI=<KuoQVw2
zHLwo5;*C+Zu#Y|{ctX={%|Om-EpEOqOm-c+2)ai;(_Hmwu-D4oXqQet*<<Jdlhw4~
zhVNcD)7S{BPTqr-Tj6-7ca+VwbjOZ%b2>e23HqmG!A`J)9fe)c@lO(`aV|YZ^F1g_
z4KusVmhd9B%%yLaQ~3PN1&u!(#irz5C_n56A11}Zf}VQXcP1CBARcQQ{{spCsbKx|
z2XPG859v!EksW<vw5p{5?b%Co#z-2+ywAcz$~W0WS$|yc=`-CJ{*d%0MB>1UgB+jJ
z5_Y|IV2Znq@QYhCocdXX7j!jAbLT~N_l|?uU6{xms+a>x`x~I??;FC~BF1+x_J;rL
zxu5Bn6SU8E6XcI&(8*H-@MLQvu2udA>wj{4oiYz<6R;T9@^bOjpY<5}v5{0nY{Ow|
z4HEj2bIZ<l#S{oeqjiqt@espun{?747lmJ|29QmE#aNubKt*12_w)Kh40)x8PU&`F
zFc1J<3!jn#qj1c)-wOR^Gx5@5L0+EWA2LHchi1u`1NV*aUfaci)7fWORY|Gh?j@KQ
zrNX?`Ne7vka=f<YaO!;0x%Nkd7K|}*P^o?i)?`ScdVC|E@(G6?pHyRaVNrgHb}NbV
zP~-coSdK+1o9X?*Nhn#sIbiRp(PJr(sF8IzT(pygyK@Eb*6<iTB%O-9bxYA&x}LsH
z*Ti4vwxVa@MtbjiBAm}%O0-kg!^wTJyeSJG6WJGDXs&0)3`lc(9qBIEj+IP;lo@7t
zB*Q7y6y}E4K3JgViXHl|V6+68`K}El%0LXB?l9ze^Q*|QUum!)yAxv;J-`#M7NDRu
zcPDPEhLEo_`JYM*u%XWgbkiF!@{=UCwm)JP+;@TUwDY7WWh;L75(Q_!M0CIGP53|a
zk?je>ywU4ua<-iF8SO+8H6Ncojl<PZ{~5`RY{7rm9+OZjO%xWsP95B2VRKO~UG%j9
z1H1rIOHIfG%LbfXYl(M~PC}%}eIt{$8ajvEN0HHe&^jB?<IWY(n36%mR$a%Gh#0(H
zYfU8Pd%)En9#C+ez{@>_SbEh8Z7-e0q@82rP|+(=8aa-21#_wG8?F!X#h6ssPsUjX
zCn6QIA~DAwlc|{#LF6d6@3Pwn(y2?}rDk63QTRhkwHCtjbz)TVTM%Zhk>Q=$Q&scn
zzw@ZCbO7qaqw(>cXo!4r9EvoRNxNqqyjAlAejJz2s~%vcm@c4^wk7Z(>>cc@<Em8e
zzfp|<Vcz;zCyiCa<zQoX791knOyqDkSlAR{fsqQXdmd0DwXBPhm<rtYM+7%`i<9pg
z2We!{1hjnlz!;bNL0`lu5!+r!8&9dw-}lpLq?rgvulNUXXVhT5Vlb)adQVXmhrnO&
z0R0dbNLK^|WBl!Xa9=_aUdFy81KW^>48$25WL3k7;KfX(N<D3(cZrwtWN7I71k!Gm
z;OqX57K};owKfu1YR-oOr4*3nvaYkFkh(|K;#liuDgiekS6Pauv#kPOmBzsR^Q)oL
zSrMKsZf89f*+Q+&AUol-2CRCJNHWi>5{Cr>=y3Z4nwf-P_!(F5bzDt(QgXc4?!hpu
z+lH4)`$2AP0Caqx15HQ87{@9L6fFotxgF)?zw~(eH^~d!%o&CjyeD<-S4adefH>7k
z@HYLtNtENZfb9t(oECS2c5vs4y-zLqaN+~|w8al@x_u%v))8w$&XfKZk<@+vV|qN@
z8^&8WPEK<ooX+c^swe=x5A9Gnx0ovSSJ2~ICPNCx#<7xY!~FtBY0>>S2s1xUtG6aV
zOclpSvpkHC_?KZp*bO+cNf{sBdX5=}w&<>+#7tG<vat#dq-w=ZoOx*!AH}qxrP=`W
zN9~5+CugFznk70}++tSP97a?PqrEnM;CtVeo_!XDBHisZSDJt=eNq7%j+U@D@0`O=
z9H-;IOB%$ePnN%@>ov7_rbM<{EdlFk8ld!5gl>BG9M*>1z>T9dsI%Y(+Hy>d^ZWBb
zs^t{E-8>zX)u!@o<hb|a-41w=r^mloCkAsq$)M6e1seZKKpP7YKC`2rI*aM@Y~&)r
zA@na~efNM_G8yd3L*b0I&NWC27UgOBN20ep0~)+5%<s4j&|vk4W9fe;2EK7jnN1)G
zJep1KZ977D7(Ap^y+vg2>Z6$a?hwaoD5AHe4q$~M$1IFe<FAzCQ{euu(FOmg`te^N
zCUP7?g|hL=e=)@N;YxThd<XgObs%N0BXfP|9Q|kffDn;y(C_cV{w$n^Z7VCF?XW!7
zJ=TXolNLH2EQs0{ep9QEbfErm%s&5H<jp(I4gTvTXf*Dn9&9JM&V46^g?ad7r4&z=
z>+u~QFQX)F4lm}*WBP5Rj62W5nKkZfU`St@*CPK1I)2@w`7`5jlf^@N=3zNhY8&xx
z;cNEL^cjqX*9$1W_#cTlyoy(9)<Aym2}8e%YzT4P1&ZC$C_Ci{oqK2luWS4wtgn6y
z3JX`^rtt%i{w*9G`Z^$CLpi>la|*JmCh#O52hrM@i(oVNyHn5B611FzA<b|)e7L^|
z7f<qn;^Pcd{oc+dygf)Z7oI_*e}Whs;RKSe5}3@IVE9;+1<R|Q88u01s6T!Rt=$S)
z)d>o4qSpEU?qj^ZP#XpAa%ZiJ8LU4q&wNvIrAy1a(Bg>$je19^Ww$8ovX~0Sg9P_y
zU86e<_dq0<wN`B3NUlAtN1bF@ygIB-8t+b}#aEYMoMat@YgDn_npg2fsu~Of3qnuM
zGdW9KpyH`9q_sVV<GG%YRmrD2Z?zMpRY{OB$sc1@vD9txEix;3EnQb@K&Zxha^{c)
zc`n-pXNB(&RtS-28-xzAVTAm?%<a~TS^a@Pc=a%!$;+3+n#>58e|9nc)7Pg<_gRzE
zXVQq<JSm(Z?*RwB$CxtnRGike53)*6qo3?V_6v`5hY!vK`5I#yjv?s$yNMJ=e<RkB
z^Pt#E0VcTz(bGd*H*yZ=Xv?{ea%TeAqLE_UGG{kT`0{|Pa1zDn%yDx4u@y8v4X1w}
z6@k9Q7MkqNaj!$u3?IHq!qf8u=*h2DlzFRPdpUxe7pU&R_0Lin@i|uk4y}ZP7v8WU
z$0guHFpsg$Qo;w9xP4aQ0Lk9Uc?OP*F{kc5pbi6OknMoj+wTdh0usrk_(G!d`5rt;
z<9ve?e$a+w9-J@!1}fR-iO%T+baOd{V!c8j`1%k5xkgZ*mO?i4E3nm-0kk608?%qE
zW8>CWq4&=guuY=)u>UyBlb(omC#~_ES`139e^2%{aL#r9I%=O62d0JD@T~PLEH)`(
zk3R_q-%VUL?y(9!z8b?Go|cSe+nTUe=s4Q=y0VdN+)jUiFw~Z=L-V-P==D{MlzRW6
zrtybCPumnk*Lu>=D^Flm441vw%emc;ekVQs@5%A=6Y%yHKRP{hK4!=MW8J<8p}6}t
zoa1c;vRflz@{(6Lv7g&<x7ork|9m_u^@ilBoy7|d<D~ZF8F>Er0W<iRaPIg>STkDz
z|0|sYqly>sY<(Q}XOwX*>%!DDUxtsTy_vdQD{<MORD9OnK*yEC@YdEc$S4wrds-VY
zI5rGc21;|T;pv$5MHCyhTqIKq-Ke3w0Lsbf;+uXmn7nKO|IIWZ+Hu1gteP_L(FT90
z9J3`?1h^hpd_1uz`po&<cHvWjPI~dwZ4{K5$qVXE#aR9S*oYNAq;}Cc2zCDnX4wJQ
z&7BQ!!kgM14u_9d(?}(|5v@I1=&KuZ;iASMO8?`yuZM?7Fqb`gJxL0umAcZ+E3YtF
zOX2|U>f@2v*--iBH<L9ij*ncVaI38)#`BL6bC-1Z-7Sueof&8pk_w(`+elrc4qPZd
z!hATXh<fsyYqjMsq2mJujQGI4J8XB89d~1xi2iN3`eY_d*Xv-6{}NDnw*Z&1iy*|)
z4>i3NP_1AFt{lH^JRZLq_pEGZhy1;fe?%6iT{c2EkxjPeO@<HBk-!tNr14q-WdCnJ
zD2@?C#TCauyS9YUkJn}$=6b;MCoS~7=oH@JssPZs^&U*k^|2vG8|H*q;k_5(u+N0s
z(I+K?(!1M0GT*@ZEfcZf`5Qd_Mg}%z^)mshqe#2v^%}i$K0bMn1W!e0^UBr2Ij{LR
z+|hJ{kr$#QyQCMJ6zj;<<I{NmEmYt?6_SA<BS((&tpp+lJ+ROt4F$Oyir35as8Z)a
z-@WA14Ra;<Ul~CxQrp0P9@0!kV`Wj*)d;5esPl~Ebd0m@XW*iZA*6VU9sHW#1dlu}
z)2Su5aPsp@kV)tAcuQ_l^#xNQF<6%W>h>F=m`RCLnJY|HsDmS&KbT3|=5sR~E?e22
zMfb*z!CW%|{^<q--W_`#{<T^6@xGHGDoyx>ghYV;rWL%m@gmSGB@T%`(P;VUCQZ1>
z1IhgsAm^?CRn9kH^7L}F-=I%=csHnKUpM@+&%|ZnNjQP?T*Sr~LPWO**p**K$(x4g
zDdEi?s{BI-?C0}q-^lZCs;%Sgd-nf*b2}yVN_?Md)9|^GK5q6iM86U-I9nsgQ+Qay
z);(GRSxgiAzFmzuEkk&BpNqr08Z#(4X~5_>@^NP0UozSC2yd>SB=o<W4O72=gnhd=
zz-!YDVE8E#rYt`Rrmv4OB}EG8?KT}{T}Eh=Y6g+o=f?=i?l&&9HGy|={*YGU0w**S
z`DF2YloT35i=>^@`^Y97R0@XXnLl8L>In1Tj0jIa-;vJk_yrF;lbOIIO*9QbT=+Nu
zG#==q?EUGmR?H3-&r`xqF6Zt{B=E%1dr<rQ3T%8Rf}QsRDU{Sgh0PbZD8sQQ?{W<H
zgUx`wVHo~6p!QSR1xzjNr48#N;P7fcI{TkGT0iIb8}(~p%eWR^;qs|Ve!HPe!F(KW
zy+Dh_J+b=iME)DANa!2;!D=s?PIb-nFnMhlJ}jMykwdYZH^2!4l7+x4D4XM_+7bb;
zM2_9Za?YP1-1W4N^FBQU*ZOfhV)ztSua2qRzptFyMi}D{9>+Oq{7me8oak820qUKx
ziKhL{g)Ln7wJ=K^j;@_gwnZA_<(W&3b6pRErp_`ve!PycS#z43q0NFFQ&LG;?M+-N
z=nriPhiP~GJo4FDiubnmJ*mvl<arpiqRYv5uqh)9oac_ip?CRk!!?~L+hc+TS&HbE
z@R7?IiKCN`9oHqg47wL)@Xfh>gZ|I=O#gy%+W&L}nb=(XxM3l0Eyn?U-R_LA<_8(o
zZ-&1MFOse}1?*j{M)pkWCqbQocq>nuch{hT+5YzdsA`;tq?twdvQw0o^jL$4yqU}k
zP8@(oB?A0_`|rv2+##Ia9)yamH_3%wUAQ>=9IV^@osD&ULx25?hkt80r`5Onr10$l
zDBH<pqbmcMmJtbb<}wZMHcbI_tu0Vje;o?)Lg^i|eDZ-ihn|!x^3<k1hgz*;IBfq3
z{!{|YnH&N+iw&T;dObXvdK-lNgcz@5DR3mk9p^~LqUN!eP+{ndTSE5}<#t!9c{Uba
zE4;_TV*<PvdIs2b#sstDr-D0o|9#c>mi*Frg=Hg6@G2q{-PV307yc8$Gq#=ZJtYAv
zj)WpE5Civune>-XDBRhtM<zN8@g<^*Y5$!0{N@EFtWN4e$ZL}18<!kqqO+3W&C^&?
zFkPG%CE~@z%!tR~3?-iTP$m6j#_e!gyNOA70To^)&2zN(=1tR0BU!(d;N`8IP#7AD
zO`|7pg?~19_ihCBJFhWw&qTbsN*dnjX@k?CFGx$gAj`NH>{s2-I5wsRna*X<oh-uF
zeJ;%(@|=JNmll(i0Sjn<PajOUx($lX8R5!DWpwl199A1Ha+&X^7#NVi#&y?|+q^JF
zt-%ZZ9HwwNksRXa+RoykDw@)E8TTzH!P=81MyD@4pj~;JxZQ+07`jh|Thx|~oIR6y
zQg;sZ2RA}_y*^sUs<Wpa_%Zp9IJT_id6*Sk#YT-8;ezF7@SnjHu#$d`dn>r^ThkWg
zo=sp~7*5A5Pv9+aihC83>5aW-SvKMj75M3nj=xhO>g^S5bt=OnbAORV#y@e=niTv`
zLY{w}>o9xmD8wUVEBbXU!I`a6w5QbyDt#lt^uT2PZE*>zaL541#@o^8Z6Tgd;Bs$U
zN<r{Y47kBvwo|bKB)_=8s5Hk%m(b-+-(-SS3n{+mx+noP59!aN(MUT4a7zT|tkX5Y
z=%2ArRrG+huFZsd$8JOFK(4W=ZUa_?lw)Pt9ZV2RA$CJ*@IclCcfC0Zk1e%uVX+UM
zU%d_-e}~{bGk5qAahG|mB}h$n8$epu2uQKZapYk*o*xwCKQ2umsuCK!^h!6ht$axx
zTrZPPR|nWub6dtTWiu^U6a|O5J^Ds>7o6Z1i`QS*f{sxD6zyC|c10`l^6w<0v(_7?
zcwixJUH6<`5SfEZGzEDtK%Tcb1z^xE4YO7xGtSR5LH@*N$gr&hvG`TEJ#-QF*A+qb
z6C*Hm=pt{61G(;pC(2C_qqm|wp<sOvdGX2wHmtuwLw9`wc|C6KSbmO{jh0gxE{o=@
z*1|L!m*L`fdF;x&iBSL86ig<af;l%gz-rHG5Zhe_$EG=Q_knXT_ofN%+%b>H{g;HD
zOT1y>kPcdYJ%A=j{UjytJbYR`K>po+&)9nxKwaVx`{J88bXz&0(}`*H>@HL4<Y-RK
zIiAzrYg2K)-cA(C+=0%I=3!8(9&|)<u4mnE+`4zru>H0&I$yPiVY9<<uR0%3c-lik
z!gFJngPJ%d7Y2gr{!lh%2HMXK;)jw|I3ra7cFW1~>`$+Rku?p(;GQWQ*&K(x(uX1M
zOFdi3F-^nnrjWa$;pkVHOCx#{;D=46@vM1^asJ#;cDLIWjHrvi*|*|h|7Bg2NgBmm
zy+G*W`foicO1R!M8wP$phXQR0u&(5suZJ(<zEkR~!@(fhpgsY*gXHnX=n5Qqn+ILH
zFJt<772LHok-j#OgO@6OOy~;kjU`e{Vv~-c(u+X&c;GZf!vMOJuf}h3*KpZW8L+Ah
zggw)5Bkw^rbS_FK>7A*ti|Z`i40%Q0tJ|Qf@LD+TK0pPGyfOaHM)Y5mOy}-+Nv3*d
zvVYb+f_tB~!-cbfkWkk^r(EHfXCFVaQH%3YLO=-e?e)-ktum?e6(QBv6!6saK{DZ}
zCRrYyM;^G1K*Ah#I$~K5Qg3YFlzb);6uknL8)iX?K{&Z7s))8Vz2w@}LYOk@g3nHD
zr7=4mk_(ps)yXqbaI6wKzVO&qZ(XdJV-IIGyrf&@OPM{9IjkyskTgAbN|#vYqjuGH
zytFnJ-NVm=%KK{e+o}NCwmBBsbvLmMBPXzYcs^czA;D9fp9Kn|6N&f@K8-w<1{<A&
zVZG-&yeqmEv+kc^wq^QK8U23a+h_I27n`3%q9uYPOnOhvb`;Q{pIqOlL>TNocF|cq
zMeMPxK=cjVM7jk!pt`^V<4<MP-Y=zew*cXM#%myTX9SG&oFsB9QpnYBH>gP>OFh<=
z;|!l}NaJ!J?#I5dq3P=|)TDyjnJPe@Sus<yXE{tilMMPwdsxeRD$F19hPgc|%-@qA
zj%M2Cv~?^89VOSI#3~hNT)~jAAExxX%MC34n{6yuHU&494ddKhSIC%+CQjZr4HU}u
zq5waKXpV~T+sjwsOPL+8gl~#%9osl3TeWfQ$<5fa@Eq|w`J3)Dxs0LZTz)Gm7rD&?
z<hQ7RrqdEMHO!@j?>^CAt^V|helu?S^%RfCaGCA>)zqRY6)rUOBO6(1+;#REoz%Y>
zi#C17qS8_vDN3h5wcb&?@8Zlw`z;`)*MJ_^!{CgeBf73g!nkCLcGXvE`$|J0W6mHt
z1%5zz<y7c_D|E(w1I{g2h@ocV7@y$Ju><Qt^JO}bQ&~<lkCxMsuP%5^Ap{*8jzO2&
z9cX&!PV;;!pzMAXY*WjG1C3@lY278VC#erMihm<pndeYtSWg$WUn5ON-orGpe>kTq
zhW_L3v#Bx%s2}^2M);1>x;5MJgqj}dI%keX|0UCbg%y}y!DW)${Xpx?3uqtoAP?Cf
z&{y36ODjsqi|;$3H%tq~a+BC_I-e$3w&PO63oww`PbMu_=V_nj!&Ro2Y!|+dUe}_b
zU^J6sFsQ-QyG3;H-!xt<HiKf^R@AAk290fQurEabgliKh!U1UYzrp#G3PJveER8JV
z(|^1iOn<N*${PA`$-%=+tZO?Myv)MJ1^&#FhAf!VzZc6DPQbM<%i-M4e6mee7-x-H
z;<C+vVJjbyhUcXyOFyx{5&&}NpP`X=S1>b@T)}<U1+<@Mj`uEUfOv5L8Bk7y5$-NU
zpDD4@IY@2f)xhn#056E$N%}_vNl0e~e3o~>V{H>?ok9%wFu|llkjsb7vSF(&chN8D
zvgrHt9ND9!L62Rl!m_+txO&<W9KR+pIvw%E+9wh#*OilN8N$37@_ul3-Bh0KUrChB
zdkkY+O5jBIW|(bP0oNr8iD$<>ykPbj2cI_96im$m=Y8++bL3ul`zeQ74n@;htC#Td
z&yD~)=`G#gbcX(zwgIiFEcRJ(thDVzB=pfebaGzId%$I;4NhiYVl1B&xt#<zi)AQP
zEY7nSY=GeP*`N_wfcF9oY3Z&IDj7Z*9wo-o9-q04+lw`zm$H?FoJhsF`ZM6c$9PKq
zsdD^^be!W`Vw^5f1RXMS`5qUg;ds9a9`%t1xwCHg5dASjArGts8%g8ei}>R1TT&jD
z$aHMD0^cIf<D~9-X64Kr*mNQUC*P3A=IkbvsqCem<qObLa~%FVrb;S*-Np-6vb5jX
z4(cv7fY#h(CitQr+}~OUoizz`A1??p<I-qq;##V5<%p5`W^ag-(TDIQK{Q}a0<Z&5
zLF{8M1YOz#Lq|FPk7)`h#oB_W>uBxJY+;nuZ2^L&jDhM#xcDlcn!b^Q#`z~{RgWls
z963u0-fEFU<@1==(FtJNkcz24CW4aj1$-~L98#A~$N%<U$K}~mi04UDm~7QdrH|Ue
zwRh^UzHbiP793?${t}XG=>+DLAK6_VkucmZO^g=m<E_{zc$1)keOzyJQ>Q#mzxst9
z%U8fm>n~L6cNSW_R_8Bhs>1nxb;K!kD`ric%(LzMf(<@G{3Fp{u;-Wu>L%X15nB@h
zjii}+Mor@X_PPYh-}AwEsVvX7JPfPm$>8@J!}vFHF22c&;P$y)Wb}FqzShYjuR^%b
zd?O1Q2kX#bdl_!Y66FtX+r{JsE8%sel_31D4EBYG;hL}@Fv{2nU+*ix`gdy};1L7K
zQSabV!w~rX^8)pjcf?QkB@LXTh00?mi1(fS*ziOhAJiM-9gQZ4@E)OuIJdX^1Rgh^
z;TSUJH#i=650SjHkKB6Vg>p@PAe{aP<Tq&2(<(z$)jfe-s=#q+pUp<Sa|_5${n?~N
zH<;?pO~o=M6u+pZKyA_-*eqm@S50SO{+$@8+n7i$?w$lZdp@}Nr~)kmOy6CJM5dJP
zJmo+f=w&>srG`#b<!JTl8hQAiCrM+&*l58D_)zed{nU4zG_PEQ+wVu=ebZWamym*a
z_mTQYpTq_ijanCuZ)<uV(M`IMv}k+-wa^g~5i|q0yDtGnN3P4Te;5+l%CTF;m^5*n
zx{NSEOxyE|E}U@=r!<bi>mS;%^q4GKSWd^UUvo+B99b}2_X=ZeoQdmQtJ*1ITTxt8
z0k&_*B9c3$K`7je41_KulT`AEj&TmW{xlK&Ormk;#Pb*-5r_k77g3zcDwj)1f%!a+
zYx}vB;|xEc2OPM4!^j6*E_@s9Yu4h9{3%dAk2RhU8HdAt0k|osjC!q%LM3KC-T3<x
z1|QCbH&*eq!zqGx{Ck6?QiqUer9yv=G{}b!;U4-Lw=Y>vUq@HK9eM6;Atui6-Y-ZR
zw6rnaubsAi%Lm$J&mPvwLDOn0e9Fzt|8Dt6dvnC7(9&*{lPtzSmkrpkTL9|VYjnxw
z-2YK@9{yCmZyc9R$QDvbp@bB|xvvu?nbA%=(JmUavuD{tR`v*4DV+N{*@-ezN=ceZ
z3gsIL{hr@{a9*!-p6A^6b$veXH;R6eWZ~_@aHjVsQT#UzlNJ|f8_t2g4L49k{x~Gc
zS%Guj7$;^yDcoCph#IK}Q6WB2^7MK)Cwk>x%Kf8=!{>d$RzL~ohDb1dhcq(gQ%IV6
z<KgI*VCZ}+OBJO~;n9ao_DMq)ujqXs8{c1tsOfZ~EtL!QLNmColQl5^bpahpZ6{5y
z4r7m{J^eVx5w2F8$CI|Mc<Inlj8E<*?(ze~B;N)C0&GFOJQ%i$TN9PHv*Ai{5NFov
zIk;3(3;Z6|(c7+T@JoplcX&r0UAicTlhg8<dT%sEOOHnU^DY(6^EQ(ey^ZkMPm2Be
zn<f?c*aP=<McJ+^o55w}c?g)4h7s|dC=;NJDf@MeL9LyZ-)1r}7sv41BW7+Z&w-Qc
z7GSN81KId#1(VSW0;Nb(d=w>s9V3fSPv{_O-HN6j%DSvO+!%Ol!#v{)C82Jl4f&W1
za>UCfc=kz_et7+aC>~x0E&(?5>8H6wUnU*0XB@-(vI)pPSV4<@4alB!Z8)443jb{g
zAXh(|!cQi*Smf~lX5?AnvWEL;-+6~7Ro9bWQEF6qb0jHa+=em=>ge|~j7B<rC9jWn
zp#e7w*Y%u2orGf6=gSAcrFRug{`Ca+j=G@k@m##)kPk;@wv$zN8e!uTJ7QPj2z@=#
z*c;9v0g>4(@wb}r72JTwARRNV?8GTIraS5IiPgBl9Wb&FMOUUmWV9k2x#~@-7RKZF
z#91U641@gracDTnI99%elX!1SJmNk?b)?(K!=H2U@NysQ$*@2%gBE&)6-BP3eWOv)
zZ&_9~#YAqY01RzO#jxJlIO!UX>T!xNOREq%ii6<lA0@~oLLl%@pmJRF6`U!OfT5cP
z`0*|WzHC@ZkG|glZ(JWT|1+|XS7?g%pDw^_Elr{~T?wnmEm9eh!?`H94*G^OvBu4V
zl!eOUvnwL>M_CZwk9dt`RXH#xp9S6jEx?jzCXh8zLN#vqf>MwNDx7@7@@W;oeP5bs
z*vjWHJ+}!g8Gg!1ZGOu0w*-E+=Fz{_H?gkl4H)=*gl){Z`A7UqqHLE4BcZ>6x4#>H
z@k)b~zdD+JS27tsED4r(VxV)g56Uer$KUyxRB84sjCXwi>+>pLpI$H>vp1yTdaYoq
zx({<J#H++ZGpLk#EVXoRgO%wFx4AtY7wiflUinRs#N<;~$i-08S4DJ}(o-^dxSQ;@
zy2Baw|4CMUCveYdB@xV8&FPAZX1pc&II)0*bBxTY9#rfmH+XAt+~X>?IGx9w<YKhF
za0pd<3gF@aB*7bc(IPCG<|b5u)hSy%eQAQj&I|y$c{Vxl_5@AQk;9h@cVhYOlhAGp
zsMmXe+A1-eSsun+@b&^emiWf`@Y@{^y;umV_x_+qc6FjDPbXS2xgA^Or@(IW<;<>9
z;PNUEFzBtN1z&ve43k&N7LCF;0r$voV>MKy`Q!fgifjXOE+}u(hoDm-bd9+zyI@ro
z9P~+Hp6gJsGSbI^3kh&^Yae*N<icp-b&mTJe{9Lz1hJO#@bUh2aHTdVnRONQruU*}
z;Wm8EdO{B?TOfbkVr)Cvh!>6nimA$Cyo)Ucmghj7NiP0U^CHggts!~EFnQS%fjsj=
zKy$MX#BUIwXPviFQ`7CR{O|&7mHh|@V!|=(p$n^Rrac6wi^H^73djA0FX+ZCg(ceo
zbP{ht^&10|d3T?inC4Vb0d6=>U(F+HXJo-5wQRb-E}f{#O+j;IKWFUvY4i!6O}A)>
zVy628s&cgsMqSvrqM9;}#bH*tT@>2#g;q_}*`P&-11{T|&*B99rZ>-Ila0&Wq01uz
zJ1z!+etraX-*pjB*5<=J-6&X-V~R*s*bPm$$h_2tti@5sF}O$oc{Z@{-<vvEtZa&+
z0x#+OXQ2?cClJ4{@}=`mq{8!UO5pNmB_3SfNd62(!r>Mjx}m)s_QZ^{hW*ab(pw8q
zqgn)o`kum0iR%peGMQ$Zy@r(<?Zn|oFcgPnaw=-p8P}5%*2Q1CXe}wi&i6sk2%Z6Z
z4urvo+iaX^7!K#I&Bwg$+v(QH5=^-Hh1&cnM2p8YWa~emmsQ26S{LJ{i%3M>b-Liv
z--<8F#bLSbYOEzG#5gP$+f^qB-{}$ZMDYUde(FiHO7n@utJTCXFC6Ds%*KP2Z|Tgo
zwe)0>1zgFT%~jXlMV`GcB^!$5U{9qjYtl3etyATpaU=lS=Q5dK&6glCpJAvU<&Y1@
zjll1#0jvMVPMGvOO`^RW@t;c`c|@~7CM*O_4tvw=&fPFDkO-EgpD^)mFX0iiB)7||
zY3&0ZHm~w|s>JV4z2EAvud5+=ELw*#k_DKemjpi6Kk>3h7+vn8z%VSXGc(j0sED|S
zy9KU6NA(mvA6Z2M8JFT^!717y)kMh-XJ$rZg)8fV5ghBlWv3!|doO@3--c+!$u!t{
zLjqiNPte|iPE7paM&8Zjg5wWS?u45=@%}ajJ7=Y!#DdSHQ`Hq#eZEe1l-gj@M^Ua^
z<x{4oTSz~=Vq9{GUtr>xFka1$hT5%<V8-((=Db;qy=$J4)ZTP*>e)D)-t`Dy1V_=`
z#mn$=wi56;d<Rv32Ry&k4#fNG=zH!7R>5YQs-{E!nD8_WI{apFOSf+3MtyUqtu?x+
zCc1-OF|wpbdHgw=O&6f<<X<}4{sGrncT?eO1@uR~5PS2!To^n27Cg!fF#l6B-eNLo
zD<)D&>}wnLfBK7IPh>v5Ts#kUMBansZguuOU&cv2s*WoZEFh>mjm)qYfVO?oT&r99
z?3w$Qz&@PE%~NkDvEObHo#%@1R5S$rG*;th;dyM`KXQ2cYbA%1X-QmU7#`-cRcvX^
zy*TT4A5AhT=A2_3)is@Bz`gc}IfJyLNNh2j)4u~b{srhcxe#T9?ZN865;l*`1m!rL
z#seqU;6FcJcI5YXDACQN?eFhHW~U9S%X$%6<Nlj&KPAky9<0FLEpoUuViUBa1fY>e
zIm7eUVV5pVXHA>w<2hz;x_N^)ZnPAF4~qn0<BdT4EG^7Ex#k6q@3~3)RR&FdEI9+h
z(9ZIYn#8i0C=||6!qt);Fe-Hu@BC0esk!gbyz3F(w3|!YMAD(Z@IE;G9>Av&BIMgw
zW8&(v3}tOaxtqRmaXdl+Tw@tVRe2Fs9Mk|S=QOaWc}MPjSEIet+sUbq_rdhF7RH@o
zItf|I>|c>LP^#F9eDn<=_j{9Zclv#lJh1|;MNQbtA}V2p!Xapwl;LLDTHq8sCA*p5
zQCZ9)_NjIoRJd^s3tbJ^SFFyG{ZIB#kuoLJYrcWoJ{VBd`9X+E7s<C>BJ9}HlU2KF
zzvF@9?x=d^F!0yE#^kzJxaU$jE9JynFuKZxU&lnrlbR<~W|tFwmo295PCk(AFbG*~
z&tM>`o`@_zj&DN^*y}&8;)>cdLuMsmYYz<)!)gg?!7t5S>Q;<H|M^0p?M!Z8%@h^<
zK1wtX1;L8+Li)ST1bMvk!R6Us%Gx1~dnfL&M7IAV-Y)Av_G>0yJUB+q=XQc^t1VqW
zz8Et3pVHPT6@2t58a5WNSbLe-rnl}TxS((cibt+feY-`Fqq+pS%}yvf983cKq`}#0
zPnZ-BBwO`#X?9o!?A_)~TEhIne`YQ5TsRGfzPg}%>;x9hS<X(E6l6P?U1xl^mvB{^
z2A)oJrz)X3pe@VGwsF2j_Um8A?Qg?CaIsjGSm;7l*3Cwik{S<j-<m|K#2#?MW;Vf(
z2R3MD_6R?BX+nyj2?tZ$Kz?u@O*B)6jZGoM=b;7)nwO9{)}LV(Uj}h&nuW5uxu|rq
zf>j-23Udnnp@oGQ`$8}?xA^G<&wE&yFfW#_VKS?i4b7NtnK5~O?=M{A{)NNsLhMAZ
z22}Z{29++exLQW<fXIYEZjw5lX&a}uK1b=f96qk?iC~h_{eWa1lVOL5`%~qPKHSXn
zk;AquBa{1+z~$v;P?vu~%_b$WJ*^9}pX}s3a9lwzUtCYEc`b44?>(H~XWwAFb~#9-
z8?ufxy&&6yTk*f-3S1Kr0m}rlSj=NamM~o68NcG8et$U;Y)&E$48L>u#%k#P&IgBI
z_@PP98*2A-3W-Q9Mh0lm6Vg9XQdAzjcm4tg0TXul>vK5pXA%$o+z0h5*HIs_0@yfT
z4c|B=;)5C)Oc*>!CMM+B1ri@X4@Jr49#6FOxQ9xY>tIb?8GT-o46;`XpsMgO`JD3x
zDx`$rQ#GRO<u9D!N+!_HyBamGsdA?SBSA254Lq#%qx}m;u;gMaP06UHiUXFo%VQ3<
zXJ>*6TOaN#AA;X?H*hmEyD*GgM^;Bj!?hjj@$9=%`nzA1?R?Q2no`GURl5v3K4u!<
zsv6<)=bvHT&~=hb;z=&6oyi<k<GfW0MB;8SOF-cmyonp+7(oP0dHsR9sc=~<k1fKu
z>k07C(u`#MX2x-5*0}soEGQbLLTki+IIJ^^J6W27zsG8DyT2{k`-qUX_3D`3D1ag_
zywF>?fjIV05gEM+@+PJmBozLdtbEDOy)Ebg)x{d*tUxFU3FOl83k77Kegzp~_L5gj
z0?B{tZjrunZxSpvm;2&k2UQVBV`bm<fel9Im>Ih!NWbhMCW|(aHz|X(wetcsk<7>C
zDLS+}*_qC_p2N1bdI_OBRAD;Wo_w${VL$rr%ssBcBHQkMhD3YDVIL}hU(Q!x@{-qh
z<99y3G3i3O{}X9alg6)#jr3-71uOQ|UXm(v95xT-;`|#G*q0(q6&LhyB-U=lK+PYZ
zSYitAO$u1&m>lW+Q|fRsaU%*A`=X`iT+EDNzN?*YNn)fR!Y@Hs;&>EmZF#uszg!2*
z+KK8GD%_!=6x>jrOKlhI#H(w@Sz|{t@Tu))^i44*|DNjMr$2|Gkhy!_Vn3rZc}qD1
z-6O_pa~)uJ`a`O7i~}?FF+2pJg&@{bOgaLj*hTqnxc=v2*le%J_G^3sgVDz9trsI;
zusa%(TZPzu>2p|iMa<mz#bLBz_)r}W!bwY)QdR0hJ|Lg_!09h9+ji$YI1s?FZso1n
z0#*j3R<n&2X3Xq8ZpC7?<5mpWqd=BvRgtHg>xfcB82<fW3#meWbVa~=U<rGJK{hWa
zn7xF?9qoXPMX-KCf<0ha2^Wr(pf^t!v?<gQ@n4nD{Ld7G%$N*u?mf_55<|Cd3c)^|
zWWdCAu(IVnJ`?B1f6sg{&n=IPzlwt>1unAq=WrF46+^~Re{gC^#srlEDA;`+4mR-N
z;95R3sxT&7nS0OZo&?Z%U_ozn-=Non$LO5x=ZKdo8+AMK(9S21RJ7)R@Oph1S?mX!
zo0{nD$AU1|G6aQoY(dH8g)mH_IQcJ(pk28Fa#!R)#VRI;=3&P=`!gJNu9xThoLfZC
z8oj1+r^8V3@(I|ezlfuCiiaz<DwWl2kU;I{?S^CDRhhoQH!?oc6m<Pdf$u>w%Ez4`
zC-P^qABKy<p~(qM?C}G*!Us{iwV?TW1Cztj2Z#0$@GaSeCgayp<Zfow)aC`C!5d9x
zJ@LTWtxKWDiQ#0Vt8g0`#O5XA`DAU;8*p9CPX&6qanJ8u@b@c5$C5dye}0n57A#>p
zBA4(-2*G6^d{Oq=Dz1KwI(F2wQ(A4uolgBu7Ci|^wGRedsjbJ5Uqghu{`_k=<~@(Q
zC#@DcLOk*O4>xf7`2;3EbWq-`_sBoS!eaYu{O{Wq1POo<&7aifT^RbRc#<|&91Q3#
z#V5O;(7K!&6lf9SUg|%Or32dB$l`b$6OaYfz)yJAe;%&)=wO+@xB*|Xb-CI5rMber
zWjN)08$HK7Fs0U?EG|ofXPa+hw3IQp?bHKN$0k<0pa`b4+#pV0JE7m_B~(R-qQBN7
z5R|+CnNw@YE^{GVB@CFv^h<63TTM!q^+2y8MLFly<XVXrR2a=-iB>jJv+YUbn~*QA
z|9cC(V25#stu)N8{6{^+SST;pLP{Mrk{9a(ur&QK5$cwO?zlxTxb6x`UA~XBtShA&
zckf_J{1(*k272Fw7vj#(hH`ca=g#CSC<rm+tV}M0>a#oG{=@x{BKV#*-RR=DJZS+*
zhSz>f#RY4Y8$wU@MQ~UrNULr=rV8^2+!0G8j&au1@g&nV>i7f4$D&#88XZ8-ejwKu
z#zJt3CF^dMKeQLrLjT?_5<1<>={zM12?E7r!NIF0ilJI~dTI+v@>)w4Gjqq|390Z}
zI}sk6dz<u1UxyI!FGM_382;~sl6Na*Z7eAQb%$`MnRAa==N22E)*Ph@>#stXR4!I&
zmok0cFpk2D7sOJ3D~hb%jxQDK$+$l+*Q==*i{9F^9P+w|H`A3jmvkn_%+$E)*1;f}
z-%aDHg^^V<5A1d>XIc7$aa=tQpy;e#6CL<Ko0{Z7_1;eW#2X5RnKS6D;u+9(_9g3*
zwJ6;c8;t|^xL8F(Ag0X_Upel_g!U=CKT8l|2KGU4iUe3Xs&Gbz%F+4jS1SL@)1)A6
zAwCcIL;^@Zrl~L>@jVHcsW$^JoIMWpJWKJN_Yc~@<XF4+YfwR}OsIIV1`FKx;X`{1
zh+Ghim#Gh2=6W$MJsI?umWR%7O>})-2n;6N#W1Gx_4AMb_ss1unEPxAZ2Bq4eZ)6`
zX`W*!%+bQLJDX4vn(_UR02n=ajSu?9@DbM>8~*6BQo_pd<?}uw%QK4#uX)HZe>{ec
zt8b%3S{R-Qk;Xsc7lEVDi^~Vju<re3<9R-3yi#9>_j^}!duNv;>s|p^H8EKvOH-VP
z{ED+yOp}_@`7nRT4IlP0y~@EiaD(9=C6x1_M?xox+XR8gMpszpd;tv<bWtw-4)YnO
z=$4(~AevJHyJ9O~#;!>6+|Zv|uE;0lvJH&Ou?e<lgksw6ukhBq2@+(Uz-Y@NmdTc5
zSY%uY1Lk9N*3U$8Wr~YxLA!Cn`yFAMtOV^7DV&rQr%>_6HX<~^_*pZZ$!eZtD2ib^
z_NSWht}?@L?*2qKI=&+xv=2k($YYkV_$(yz#MxJk8)!tfKQ2)Srk2<MMXUR$(S^5Q
z?lJ{;_msf03(Oqx_hw9&XeLW_pJRa2DR8j%V=}a{H0l@|Dz#pak~=}**gZm4&OHwb
z;mWMHtr^r%Oqa|(A<DLr`%L<ahH2W-?<BHlE6Bf1r|zz^VO`)1?g{4<7)?rMa@{d#
zt<{h3JubtZ<U(rq{RX+{beZ$_!FxEPdL459YakLI!a)600JTjRr9=I^xG~-iZZdyo
zYsbDow%rF1%8Mub3jT02(+yN^oI*W=6xMCCW3bj>CjQ!{hDrSln?=5YwaVZnd{7xA
z);jSll{Q)S@-sTvcngVP@Cp32{yF_L;|<9U9Do6bTToH_9JU|MhC|CWAa&^O{Y6G*
zATcn?Wb>!1%HEn)c_geQ>Oo5Q%lsU896SrFj;he|_sKN!dkBsw$g&Ih4X}EPE)4BG
zjZfPb)2RLj)PrFq+02cDE0v7rTU!B*a)cOu+FRNnx)t79G7PljYvib_CYV;HzzL0S
zupu*qwy@H0-g7=uEXuINt40_XH&BKAVdCl#fd3@<K<`66te3tB{$2ObXxRn)VxbIb
zbHv!mm$y>Gu7`M#zn{3*gisR^?Wz!d9<EKSD0|AAz(!X`xS;EY7p=0;{-X}OTJeg>
z<nDven|kcQj}*SP#L~FB9Vq>30e*9p0@aHqAZPK0ejj*GOX*?ef4&{WO>;R)oH#iB
z;WIq5@iZy?kVK8npMkqK1<3Qol~C;{Ss@Z-K$2Rg=v_xHedewSLnA{_dFBbxJ(&zj
z%<p-JaU7BWK8{fS6Ve@#O9F$!>Gx$(z_VjJ`EhOoNBW8*N{x7cNozAJ-t!;nj!K8P
z<Q%+zyN<SH)zW+QV?_I(KAQMSa&CKR;^@yfuyBnaV;-JFS1S<CEV4wcMcaY@q&I7N
z=~8%=9t$51){;F-Phix>o9KGN9VX&kPz5?EdoUYDub-r%AKR-`%k?4b3d8bXSHU#_
zKJIN#e%!jigO<ezK)V^2@>>+py<QsJ+Zm>q(YJtWevyZMw`G$EBF}mv=Sx1{p2D7o
zJ7N5*0#{nJ9j`h*XIR&X$W1{!R`eBXD&@Jm{>bC?Odl|P_KU6+Gvj_1zsGd+?~%Ja
zckx=D88(h?!szYNcz5wI=Y5_B7I9N?Qu8+4NzcIFB1+t*P{xsd(VFfOOu*+1ljHo9
zBK*7G3|seFLTlkp^l!`pFREj5<5(igPpurq10~SGHI}Y)>^5n!tww*9PV`DDM*9H?
z@TQ6Q>01Y!<DU)vNiED-B@9(~%whLQZwNY8#p!3}AKo(gXuUd+$yAKfWt!JeY*+~Y
zo5-aSqp{#8JO`q;<br8UB1p}$g~!I`P-_(dnvEftTRk7k{=C30`iac?d5zPX5scq&
z&BHKBA5M~KBANVC46#3+(;kteD!cDBq*gy2o!;L^3EMfuQZ^Lc7~F$TjEBX*O%2b9
zYO@T2=cDvLW6=2<MdqI^!^x4AkQ6^e4h6~JWY0E|^~#b}8kP@R9tA?uI!B1JmqPpU
zy-b~^o^#rj$AmqZMJ&!$fo*jn9MpSBTz~V>>z8eySwtOj=Ury~8t1Uiu5_U@<EF>~
z@54v~OHrvKk4g+6{vIErsyWO(>sTf#$2>v<2_>+;bOdJ?j-mp?+<Y6_M`sN1U`EX&
zWcTYrS%nVVBN6B@IgJR+e6Fv#Qas}s(V%r?wxKWNYSrN5SuB#8>PFp<w!pbZ_2k^k
zCKA(Hf!wqTbZiR1emfo1+dj$Zvz*JZ2|a+V@8!sGscoQ{5eN5}XV!HSpj@seZXa5O
zU1rfl(A)>2(k*d;bR+rquM%dSy9cq}&Ja7-7ddQsbQ{|R$#05j%(nuT;eUzvcZVd6
zIqnPVc}iix*c<JI{W-0VncUg5Fsa-?ap&WAaQ^X|ijU`&anFK7kn*n!yT<%rmT>`y
zIaAy>c?MhfB-l>c_4L)p2*MQ&gHfjInw8**e;K}(v5Y9BSv@5;73<-0o*?&MY9w^4
zgh7h=RTA791P8uZ;-*E-WXTR^WI5#G4+%{eaJvu7rMJSm3{z-n`)m>;SBqdij3)om
zaQ5lP9Q}uN$QL|7ET8`&Cx`Wc{_;V=fOy>es+_#36@=?LiXgNp0|#mmAG!;3Wkp($
z_x%L%xHgLlTxML=ibha6_>QF4PU7>1U@{?-igSv5@hOMlTK`MLy7P`EYYXz=?9XrX
zOtK%IFB+n~W~2CAEuC_km_7TAEY$ve3XO&$3Et(xvMPY+{%`cHmk?-K>B8c;c=~mJ
zFG*D{!!yH%bcD$tz3jWeDoyF6r``GS({E{z`*eha^f%#z4CC(V6Tz4E;mCcsh1FN#
zjSa;<Xz`98N3GT1>D5pS)mH=_%WHIgs23`Se<o?#mr!+43T>$DgJmzhP*$!2UEhRa
z;sbYBed|3LIUC2kukzqYMk*cgS;`G;Z^YpV1^S|Xh{n&z#E>KFAZ<jIJ0t91m6g!~
zD6zYRk`)eg*jEA4>i<&xZLc_&^3_qjwFkxYW60j?o1k<k1}r%5P;vYXS`5kJlUtE=
zASju}pW&y2d<>8GQ*+hMni%}}uM4^~kHXv*cMN`<N{3=&LAxLnf<OMHMNJ1y_)S=_
zf*ioRF@8`~ID&kCmZC222(j$ohm^K8xOizVr+t_?=Y=X`(sDjl-^S-)C@KzXr>|28
zcuQ(m-9QKTIHpVa2Nuo!P5k2%VMBQtC@h&G(%n~)hvAFqrE9Yjn9mu}@Bj{)0Dk+C
z3o*lLa9pdB8uEsa^tm$Z>1AESFs+mZH90VO{9|}NSQhW8)zan_o}AJ3>g)|0YskTH
z0<nj@pzc=$9JCMwm0%V|9rAz;s~%wUKpxC%|Bo0wc|`dAwNTIUCRx_|g52(}fWj<e
z_Ndrvy5_`uh+Z0kiAl$>XUi%O%?cvA+!$JO*@7*%G#2t-+t90{`Bf7>eT?s|htN;Q
z;o!wuu=g@#3%J`;b3Hd$e0~q?(-$T+wclWdbR98{nE~np?)Z0wA-XN>A(3mPxE{`a
zc*kHiwT$b8vA+SNOr#0J!(*8L_=Vif(FZW~_y`fG{)cx8B_VRvTkOr0$KGAHQDK7y
zG`xx+eRmgfD-+E?>cvBNA`uD7eChCZ^dA0t^_4VaOwg&bhd|@MH4q=^P22M4QEq}X
zcZU33R-9xe9ADT(la4IoUVWa7w3CnR#LSAf3rKTImW(p|05z_XVG3S+Cdhr=xq|Dn
zM49d5E5+US^#a4#ipATHjWNrqie>QbCtkXF96Z0wV?Xc^Bx^TDK+mjde6+BUCUw7H
zJfvc@H)<E`;+<#GZ5l&*8yL6pN^8<Le?A;svI2)>wb9C%AIsK+a|*1_fJM6(S*n%;
zQ45)UAj2n04C+8FX@0I_SSegeO$F;%UfB6^KMF)Lyr~r_MB_e_Ic6Pzn>s@5H_@+1
zuSo?gwiw|^n)AT6^bauoL5S@*U<cCzD{%MpIn25B7_Ad-f$}5|`}T@9Ix>+?lUo+R
z-FF4FYy3TEZJP~;reg5X%0G~Bic8LyhG0`}7|VuQLss(%*es+C{5SSsnZhT0ybS1c
zi3r>JHM1A0Q)Np&NQJSlGuZ~6yfChCjTIlg8Ui-@lBW8{WLl~W@AAJOqS_jmo<4{D
zYMBVW;ZdXof3jeG;9XYWiqrJuVlN0%ngY>y74mq3ji&gWDqix&67F6&=XZce)a&7x
zhA?~HUJgF|VMuwT4}fb?04D8bJaCc$AX(f2ZAVrzJFszr62BRq+(UdfUWie@@344$
zoG`?u921%M<o=k|v}m-JvedPS`K?pb+@K!idFP?yRYk5@?Pef)EmiB()ev3dFsH#2
zdRjAZ_w5T<Z#o~>)lcBssMjdEWs-(J3&NrDa!kvM#(9&<cy{Ftdg>(~Dl_+@zCc3|
zd(c33j_d`&t7FVNfEP~RohI+){ZYV?nM1qjvn#uENUt6bcf#)`r(?!l*6y#1+24ON
zyC~^}OwQ^J@wZjM_UgCj&3g<-_NlYijHjEtHp_<&js4(gUB&r&CyGwRPJ!?<G2CY^
z!ETFs$m#X<CAxE2@X5XdozHl{oO%VKdUTMix~qywL2ab9JA)L4_K~iI-Ylv8D<LTR
zK2cP<K|SYWq0GgnU{S$z@vM#$578nxxB4bko)E^{F*OjK(oN3)<71Cb<kPs*0VtJg
zjS2F}<k7h`kehyqy8kXB_r>zT>)c9GvZxPEtUHc;H_zkDD?Hpe4{p-`B=_S#Pak}A
z_&%;X&BHa@Bg(CNZ-7V3+Tb_y{AOO?3_U49bkOD^=WFRbvS@WDO|o9V{hSxd5|iIa
z)-3j>j!`kBXv;Q?F-XHTUZNy@cOLn?=?2<gO2+*{%WzP%mBcHD(Fbc^(f0dmN#T)Q
z(DNsN_FhW_>C|<Y^Xn2#4q1l*8{X5~YWqPllTH1YGfutEN;usXfC>zgn(xX@hFx}>
zC>*`c`dNP+PdA#Ox~D5^z$qQLmwMpt6(5q>)e6U%dtAJ}Ew)^ofKn3;yx2O%@=xJm
zuhvO{$)BkZA8U)|m22>-vNx!kDFU35WO`+G5H6dH{as8yk<0M)Ui>2tdRZhw$RCOx
zE8_3368PO&f{g7@gXrbgQGIkLShmX%*L~ZtuGbr8&R@&glvjZIF=e>4kcZgLbVluC
z^+c+e2X0==VLH{?(07R+{!3<Dh1>W*pn{*QR7fUvFMp7Z-ud|8Q5D|39EE8CtBLTo
z7kD2yB*Cc@3oi(ew)$prH9sBWY8J!epH1YQ?Id9nKJNERYa!#&0*GO9-y?NpXz$pF
z`rCG(gKaK~eO9JU**EAHr3cih>oE@95#c5@MnR=RKB+EwhlPIvVcxnZ(kY(<TUIK-
zln5Ko6<xsi>Uvt7S`W|cE||RBtPRWgPBNXJhxp4!6k4;jA*V$E#&xWznDkyqTPKRr
zqC)8H96)?lL=pe3qF{f#g0>&sj_TU)X}o?m94TSCJ>!p<A(|Da8NLFkg-Ikf<qEE9
z5rNkU??Lob25IWZW)<|5pplOqC+XKHk(w#S-n6a+ry7>AVoqj~qFu6hLXiz(2FJl+
z?SGtuCD*9!iPbc;{RZ|AsKCa_nef!Ah$9_i48ecQA%*QmOBCgCRl5neZ;nKlwC^xp
z`2gw`q(O+~RVFL&9)orz6XP$!>>C#@((=d0seo4&&Dv*U9Q?TfHvO2-9{Az_R(mR7
z+g~Z7Zu1q@i)OKByQ{DlE-68^-~sqAF%0j1k^>o+r=Y|x0drAL{C<Bocu1<!lgj;g
z{vI>Kl{!sCSf#k|u^@YPd;&QoZo>YeyaDg7IK{y_Q&c#y0L0b)5cwa1RHG=B9`j<s
zxXU}%bLVL$mnQ^##17;>=E8~eXx5Z(C&(YY1#bUzar3Wm2zaNDrsfXlZIeeFH=YIC
z1>Zq)nFXes8Nrc?2JoxRqejqAwzvtw5ls)se6^HF?vSQu8=lZ+E9QIeeMgIug&?KS
z3H5!dF>kI82;E!=cfEsAYTtbL6B!8-)h*a*w*@@2Yl-#hMmT5VgHHSnRkOsEKuhQb
znHo!G>5f>#(`5;Ck<vprvMU+lnH}=OpdC2Zb|GBQQ-ia@b=V;G4Q5&z!|^A{lqb6r
zA8Guc`|pNA#JewW;mkbpY_bP8aSLc?_#p)4CK%(ZgtH@u@lUJ{G$)l1i(YqTrjr1>
z&y~ZGWBHh7$OoH6f-$JCl~@lPN5`%JXf5@nv)Iy5VH-na-Bx1suV`9U@DMyr{m|bx
z51#Gzf(82<S!ZTnpgOvQ-uRvZ+J)J8Y%SwR-p$;ngcWgJ=_BBqISg;7N6DDR2<JqQ
zA0{*06>TMFSbuMj#%!>oio@rz`bRXfQ=-9$y^}?lUF%;`3Z*t`+^d(@<D1Sn<n{Hz
z`;}_&YIKBkBVafB&JctnMHQ@c-pj0xQ=72<>k}$DJs%>z2I8u1XW+z@an2l@-+1kv
zIt<011n8cR7t$-~o%^pj#f#UWfB!brwrvK1mc^u~)S3qC#pCb;SD5b@0JYW%Fzeb5
z7;tex^+_MJJ1Yu)Hgfnm{VcA0rV4*7OL5Mg7fiM$3ebKgo3A4Q4|o}~zFwDuVZ|o$
zYw$13<UfW<wQq5cu@V>JqDe)PE_=7ZZLB!$igsFz&+E}Oe37<{lNRI%psR`7<g%!B
z<vebuT>;IRHbaxkgYb4yGX8741ugf-vF@rB{>*(%zh3@K_9V^0*+&Clv2``Luw&uV
z!L5)c?gfuBa!}?{H-3S8^ls`3Ov+jf4~JJnl)o@6?PjBqlL=kEi0PN_m&AL%j8oRH
ziYRW%L?^vxB&CpHxg3Z?CG+jfMUsNm`mOla@(vgq3y_F}mnMM@g;4u?H@UP(lFm##
zLtpJ#jE{80xoc1P;e6{c>gAFKqH($SC}S?(-;6|VRF+ojuBFl4PIzs;6gPf$8~MJt
zh^~;iiSfQnKZS3AHNP(m3w1WbnIk5o%~ukZ-jBmNpGZz)Q8f6d&4vD%X$+5kA&iSN
zdD*pL^stZ@6uZ_loWy$8kNq`xqUr~(mC}aC<Tjn{9L{Pt@FjZ8J4q>E6UX3sGF+Hy
zr+$;y;Cx>wF8y{32L5vdrBpo_c1d7GG>+0(zSCsxoMMg#PbI{7dXu#m%Lu>PdE<Bk
zAvim92NbVV(!jS-VB6dZf6Bv9?c6lETQUJ920w{Kqz1S$zHH-$7${^o*_R3f85Xu3
zvXhgkrH~Co=m|sIHVaa{pb*n$F}z8|Q*a^gBK1hJp_;Z)7`Nss97>VJ7SXpLgH|Z?
zawhe;SwW9i$AgM~GZ85{L^DY~y*j8*XQ?emGmA~2^NMj+ShO>lUss&*v<T|Y&V^>*
zLXvbQ6V5Jfg3q^jS;D`s;h>-Zm=*t|H|1rCL%0F{D%k`js@dTGP?YPGGml7L0GxR{
z94v?SbEdX9Vsqnry4(5#p7fC7{`dJ2z0z!eE$*X?OJ^R+Z*ioeXI5Zm`wCQu%!8N2
z344rq*xMc+qLV8#Fy-8GR>HNbD15dC7Cb%9;uSW8g?hZ05Pc0Q<j#<{Jx1I`OP=7j
z?GD7%E)jco4AGgN?eWLIJm~+F0dvDYqT`7zaA&?GcieOeGs6bZM86cjt@{OEti&Pw
zk}y|uz>+KeB#vy9cmU>?MYykP4uH}A<20^AfXSV8(#G?4_$(lRnTsTY;O?*VpJ65Z
zN<TquzDLrJHIn#oNfPNQeM$Qwqo`50Fr1mSmv$unCC0O^!k|C1C;a1xCDAu%PBSyB
z*&7bU-fiF(a-DWc+(+SXWr%q`pVcOD3VX<E+*7Pfb!8>UJcD$2yk#4G*3k_6k^|`=
zGwbJSxI)k#39i;n0q*naX?o8zn5DJuHVU7L!G&)ZQsL-*#Hx7{2(~7ZuBR+eFPzE!
z&Pz#a9OF4J&p_{M;U+7R0$_Bf5vNF-;C$f|xa>qI*;n9?W53w&{)Yv01YE*s(+V(s
zaTDbt3y6wn2pJa*g#Fx3y2pDBc4IX5HQ%9n<r?^3{Rtx4Drd4Krmsr>=}l~PWuez7
zz}1o*kd7+=r>Gw|aQYUqdBP#rDjtvSiok>VHn{AdGx4=6K?x%-befDJF_mlSg~&)$
zN-kneoZ1d96-H#yW@)aHf*u}nJdRt~fYE_T^vi>nxUu~t{@rs60~UQ{@#tAIyX@tV
zdQ9W~V0AlgZVx7FRp#Q(oY}bX;20AgZpQOpwqV~e3nEnHif<ddL18=NirUo<ihQ%U
z($AW!iqd}(LBj)_;|JRaJ{U96_cEjY1!-_6FQLkEnCS-m`om<j{PCN_eheu5Ow&#7
z(eRzO&{D)2*VNqs{<0|gCcvGQd)9zE<Mul$=UEBE-x5v4u6hxEmkW4vSs>l`sE)}F
z&VnVSbI7tSPhsTVRnp*cjq*I6!Ty`D9ozOXJHX}Fr~#Xod%Msa#k{=n-F;0wlcom>
z{-$_l27-LLDo!}Jf@OIl4KZ+s1JduwqWlPm&!0&eI|5MHn@fhzJ%Dfa?X)>JhyI;R
zr@M&{u9WbFs;+oCe(4-bUGH1fWQYvr4X;H%y=br&VLW9|{=)WW8KB|FaPYK4t5y_T
z10D}Oc>DV?=iK8HCP&l*n4P#SJlpny9x94qc$i{z+&CK4Le=nMSu`Bgc?r*_x4=PW
zE;qI97b&~nNbH*h=sqVskV>s4r}>1zmp&nZU*_YdL;UQl1>ex{s21#AoQr&#8MyBI
zLke4i!6wq4UX0oaMK4a0+VHpV+Fb>1)F{EL#P3wHy@q4zJ&kpSawt$DgOw{!qQi+S
zVp`1jZkU~1e6Og<c(Eea`A$46b&r4zt7G7O)<S&dXodni7m@5e3%L%?4?sOy1`K2*
z*tfDX02y}ea>nhJep?OsjU`Ql8mA!NoGG*&4kiY|lH9D3Nc>`^g<TtGfcV@XFrPn*
zIxv~8F3xobZwy8W)dV!Z9|(7PDNg&^Gkf<J9Q~$9`nlmM8Rj1#LB)%q!OIR_ewj-h
zd<ThXZ3!ojWa1!y9z<tfrKd?SG1<BVc2v#byzJy>yQ{WC9tnfl$}-Twbf5m6Z-)2K
zM)r!mMxMP4E1H+##Kvu-m0J0zJD~~s?l<U!s1`bv7K8J}J!Cd>XV_Sqh*xw(xM9t^
z@#A1H-FoOe`IKFU4@#@xzc3TDidX~*g2^}|M21_{@C)@#_v3~BD2&w*#4ltDC69Mj
zwbU<z*z1aTsfdM)jst7w%W};NO!0BOJpHIK4icqJAZ>A*=8UXBWs6+Yn$yS<;k^b&
z1-F<Oel@062drR=LJivfNg`hjU*pw#CRIC(eekrB0ch|YgF9pzdJ=iq?OooqV@izu
zIz@@w({&IWH_EfGh(t3CeNQAC3-J9Z9WqmGoOQ%So><(MU{C*J{5FGwXfrp3EP9oV
zS<l|X&2z0pZrf^ZPwOyhYP=y4JBJwWV;TzY&t|g5uQ*cso|D!0BGIsMP1U5433nYl
z!uAW<oFJv2__W%HDBE*zkMl`1L;>!+(E^}md~D%!Qrym?mLL)v1PakLsO+dfkLvWH
zORFwi9tee9|F(i|x*V12O2=KEt@LfV7uhcF39gIVL7_qjziz(_Z#}0;z+#3KM=GG9
zFauJwY~h@0GRjF`C#(Ofq;0dLQS*TsWF3gd`j9=)?BtFOdlKnLGe1!uSb`pAPB1zz
z2`m^M+?gNhaO!jfURGheltaFt9u|mEpAGT-+9jC#A&2tZd}b7I=Myu_;*g|%VUP}z
zfxnN>L$*sDUan=+PsTIht!y^tTD8Gy|2SeXGaYLGb%UHO4{N^PVKn8P1^sq+LE&7s
zNj)><bbG0b+l1^$z~Nmu|KMWq>5*m6mG(gyFNQI4(3zHvNQ23do6v6Zg)H05kArul
zNm+v_UK3pj63ltsd}9J|+U~JVPOc`WtbFlk$3ZyrxD+QJxZ;Zmb=rPa1)^LPkTRLS
zjL!YweME$$6lvgiPBysNT!t7aA&ixEuB!i`g;BMGARQbDQtvwHkLkU{yyiG@%l%C3
z>f>PK)l#H8Lh+|JhvnM74R7@e<4v<$*bs6RZ+p#$xp7RlEq@iho|5IRPsvA<lIg0x
zfD8EBBNtn_6oXSVK&H5nK6Bv1M6+l(QMU_zUQWQ-o3~PJS7ETa^9^pTS_$W4{h6KG
zB3695A2{7jf_3s2;ehXc+V!#khc0QL#%eS8wyqBz?P~%h`C*n(DF+934-ohvk103r
zz~)QCsOXl2e+Pv@u2UC}i8qp4qR&v>$eJXa&ID^sd!oL40|=M+5dK%1aF2Tt(#yIz
z%}qIs_u~mzB%Xo@Fyy#A=jHCK-b|b9T2RBa2rBLg<3*V#*ihIB4fC9!>)0(Cc0ClU
zwc6<%mt?Fj=qD<#v*2mhJNP14Ny~T*sd>XeY&jbN&eg-D;aNQnl-z{PRc(~(EP}%k
zSK;udI~YAX5at?<(!h*WI4F4zE}mh|*_(6dOhaKf`NS9<a=+4bCu88_&ZBh2CuzLD
zGla<|@5A=d*`yhNVQWPhoQ;)3wT=E@{Vf$amLc$KARKMIZsHo=V7$BXAgYFolJCbf
zaIfD9bZ~q~^;D#3S=KY!6tjx9%8jues$Rrpr?XfGQ&Op&%xyT8ahS=(DMRF4TU@m@
z8T>tJVR@Dnk=W`EJ8aj2X!v1p>g*xQw;5CUIn{LfXB*VdpNn5}?$ge9zVu#^Hsi1r
z$5WYp(005LM_tB<|FT4Ac5nnuja<&V4=(^%o><K6wU2)ZgdUa=3|#eu-mY7Wd!(D5
z5s`y7T_%gV${UvSL{Yu4G>kp<619?o@n4_?+`BA;23`g9#jW+=8D+;(=sW<6Ry2}Y
zw+VV}PCQAdZAAH>Y4H4_9OS+VXZ&9Qpc|h7$6tzq-C#eG2a#y?z6MsUR|DB7Sy*Bh
zL4J0Bs#>eXu<12*kS}uyD)Bo~gS;#V512uWXJ*3#!8lZ5I5k-sZ*Y%69bpi%bmZ7A
zoR(D~8XoTOclte1G%tZK^K_x%FEjI9c?|b{9mM{&V!Fw1J8aSvVt43nfJPyPVHX@k
z`q<5=Jtr5O6J$YnT|AwAY8Z}8EulY`ttCfx4YOu7?7$xN88}BIpG<wIfZ*(ln4xh9
zSBlEvk04<jH+P3{k9TB;PB!u-tRzZ-8)(b@Eu6;*4Ul+xgqBC>VF1%3<x7dfGl7as
zZtNOy9N&er&$NPkUMtL1bi#3t7~S_V5+*YIm}GhvXq~?eC!SS<^NmK((ow`!Cl7%3
z+0ZJ(k26qJbODZtv$1aK0p1WLIBLPi{!jEc*>OM^8l|++{)s9_AYB?31>J>Yjce$b
zuf(_yZlLJ`CU@dxfgZMxh|!Wfvhdg}wz8=m#OGz;V7)z@NUa2)bv!USyohlei?b(>
zFC~FzRms!It<WS}h1n&+sJg5W7p&Zbedm}y<Ie&#AG<<h#Mk0leLoz@`asM7ID`Fz
zM6zsg6mb^h0l!n%ku4HWmT$gpGPWy?bKqw%m1BGYPA@N$$V;st?Z1cNVr)Z|<sVq5
zj_k*=U^iC8FdLrRh{I>0Ku9c8gzqAncz=mFO1?UU(eIbh6)~ZBW$!K2JANAz6bd-e
zFJ;)A^dQdL4MHRlrwE2B!ob&fj)qS&DJ?JpTb`fPM|BqN)6PP*K1Gnt9)`0SHTXb#
zHkzR$y;LUv_mVB({EZ-7>BWI$|2D{;z5`(kv+zMsG@ewJr32ANK{wVO>{lDIcZ~>v
zQHwuz>Bqv*fIS3SU4=DA!->r*cjOIm$GcZ~tG2TKLa<vT=nT8DhC<q@_M$T4<{82H
z$9RE7mMw;x68RYNeS{?KeuM2=iA;BFjM(rL;SbwB(jR5PJ|q1So;k>}b7%UI@mz0C
zZk8qydvTOXFF8RL9t?!u%$sOFLzNgrDnWs`AH?~8B2Eikpzqu()_>iHA(WS&bxKwY
z-1&tVK4KQ?_ZMOVpFI4L2q#4&{&bea2i$j63;x9U;oA-i5MHVdw|32h)Me6e@;_%7
z9`S-P(-$Doy9fmbW@3E!L8{`pgv(Pr6K{uXg(7u(47{8IQl*igV0#Bi<u2Ut`7w0(
zpTS-7D`Cj&KT;*VnC*7u1xZhShPv<bsP5f!@MZEc7@XaQM#(d{8xt(q*#{l4_lz&=
z$Zbh%^$o;7+!G-3^d{Ze9tEVzkUeVGM6GTdgV*0AIUi>^V?y{C-QQ6Ox;;-xj&chI
z>%8HZO-6$J{t&EOAjI{OGoU6G6`=aU86Gz>e!>wUbowy|tw#Gf`@9P=J$D&6-;#$>
z<b$VY|3SBu9WAXC;wlS%;p~fSAnS*9aE;__tX$<sPOhlN1LOYG(4`3dn;w$CdwG%f
z&rG^?(*=xv8O<#HIp~ru3LZ1+kZ!MIX?B#;NR1gFd})$a?e-vx`S{soniP|6uVea1
z{wOu<5AsjSK=`XTdik1RcTO32E~=qsBG1SQJ!zc1XOj9!1`<c*BlPZ`We{pD18dpA
zcw)XM>OB<US{zBj<?-Iw@jwNCu3}@#_z)i36@_>9vvFh1X>3z(U`a{d01Yue@JbWs
zN>#MLA@yx|v~`4|A^)5Dg&xI95fOIYlNsb>Y72RHa|@iG;X%YbLh<&(8KB@AO<jx%
z$PUd3?6h4^_lSnk31b=jxLOO$|4!p?V#j@CU&k3{++NBb)WP>@F$#ZeM$5~>R3&yP
zKGtj}2_4-Sr+fh_Bm}sV6EfTv17cV>^9wo;sNg;69$KfwM{Rh!F-Pk@F3CFx=iI)a
z;-*+Ud!vD5{hq>karLZBm2Y(NxCB>zmpBUdn_`#x75v;;L+gkB!fdUXaOmcYs$m_K
z%HWs|P-IvHd))m&NFf#UwrUe{aV0)?&OqZ=sbH{bHMT5TP9oxcaa^?@eqYHX-}egQ
z=xb$m`|J=ncKsCyHO|8K-=j=a<63c}%m56!Yr{6{2{?P*j|#09NAnX6@blshkXZf$
zy4?PQZ7=Jg^-(E`NcW*)!xl)<RcBvVug^9K`9ka-_<~(*7;Ey0By0>YWm|LRv9&{g
z;VmZXyicc@tb3}Dyu)*0V6Cpn#{POLb~6Z6wT6jT#eCGMNJVYde)8zq46d1*8;l1C
z!_Zqbc8rG@ku3MY*SmSx>np5KC2lk1I+<g^LNV@gCSS*M!i3$s`xd#Za}eB~N>&#A
zy8)lwUGa9@XBgbH0yMg}(b46C@NqB(S4n?^hi_NIg~BS_eOjM%PgQ~CR3tsNw~v^a
zH((N<Jq`+-WhLmGp}8yWaJc`>*jexVVa41vuzrCK?o(oR7gcT?xz^Xjw{tZrjrBtJ
z-^F0`ZlGdp`6na^LF8zd0o2<lfX7x2nZ5lw3a#YgvPM_(kPMNQV>LKWPlD@|E`Uwi
z>Ll#oJnG+~%9&FrM}O~H0fNerG)CGAPo9^8QQl8gllQ`5=3X!S@wXBG<CbIfkuDQS
zEh#LzybfM!?kA3KLh1Oc6l`CY2c2hpA!pne#2v3NW~g8)F&xind76ggttk{b`~tqC
zr4VtJ&AK?q__)Li$nV?QaN%1p`s{i|GJXlLhkXqpWt9j!E}Ze)2HOz3t_VoV_=T>%
zS-8lJmz6!Q9)k`lqS$Xgj8-Tox@98dm&jVS)+rn4vJ)Z)Yy)A7S2SvIS>&Fl44OPn
zBFz^MGVEs``jgpv{nroywO9O!hm!|oMKkYKpHt-ffDl)sw*|^~%z)lsqOfKyKmE){
zVE=|}DpGC(^HS}wwW%D_54&*wCYhtEz6+gk_$4{_d^Vo3xd2Z2FIcIsny889DRlF?
zjQ5#)$`Sq>D5uP@l0EHE!{8=8S|$Jv2lA_WMSa2E+6d2S>*3JuE%;^b9jqVDfV<~>
z@cDmHz&SjJ)Oi+@YZyQ;uD*`FcfL|H{~VOxWC`<pw?YOx8@lV~pqK!2hlyB-4&}S6
z#4i;>oN*kyZX3a>jq}0f{02zN`poJHR)q!qZD_fRm+O4Soe0R<gLS|VBxRRyM$ZM1
z9M#VlmT;b7TgsBBJI`WK_$sWOcxv+g<18ZA*^0Na`^mu(UfeQSMt{f)qs*h-3>#M$
zvaQ6~Z>sFbd+p<>_TUkD^Hhahqv}V^yIWBfzk$>LC_3+WtiLymBP%1DWL7fDC>nUq
zeT<Ygp-GA;4cdEALZp(BXo-@PHu0SMBqNceP}H|wk_u@^8Nbi(kI&0Lym+3+Ip;q2
zeO=dE`6?Mw_^n92S{jX(hM}%rx>$C@B#8ScNsE^rB>ho0$aoKP>XG0L`)2N=&MW|R
zmb`%~wJcaEvlkQY-GhcZMOZ%i1>Qei48D2Opl9x3n00><bekMUg=dZMIz0=e?#W_<
zz`FQUZNv{scB0z#3MSv*j2Sf&e02X(oHkz$4R@X-d~Y1i`t_?QVw(<xN~hv%q2Ktt
zFB$j64Wh+g0MuXjk=(L7nC3ANCfL7*Z_xwz!N54^tB+ubcQl}7%WEQQSRw4+GQ9NC
z4bq!bCNk^+a#(dYu7T~ad!rA1)>@3;d;ECMu}qjT^^^FgaSk}o`iukP26LNH_BbOr
zTilUvO26OQLQ5Yf!$tQO*y<x>g8lQLw?mVV$PA&oZY6-m=}9=gVJux(_8#Ni^!Zx}
zS7<EI<E97I=mTqCG`Qc*Z0{P<CFPpDUh@O)Kd}b>%oN!2;)~2b^9b_yr`X_&mq0eZ
z5Bj;Ffxoj0GUpv)`Rge3*F_U-9sn1e%VCfCGq}A?4`0lkN^MuU@tD7rVk_q$YMoL?
zhUlDv6N>~7#0O2${E%O;z*8(*e8LNk4c5T3#R6ksc?5>qbMy;51@G35KqddtnD=9+
z*lWr>R+%#%0|s2hfbu4!_ji#ADk|KoMvqs92-neH<1rs%nBm^=q9;QIjv^ky^Ish?
zCQ<_p*NwmyCr5Nox<qDO(t?p=|A?{_Qp78KBU$420o<>CtKfxOFaE4iEiMqW2^WM3
z&}7#mShOMq6W9rOra6$_@{C~5LeGKz(2t<%>WQ`0r6lt1N$lAyNoyx{vGIyCv47tJ
zx;xR4ZaaIA)XU1T;HxD<R-Y%gU!YATCrHzMn#b_Vi4)ixIi4*rsAPAZUx86qRnT%+
zBs8=rill@*^D&QaVYrt%^>~wnG6p-@&2568tB=yo{nyw#ag)Frc?FS~Ghp+Hy|CZl
zuefuTI$frx3O=_kqJ_{0wDvwpP8k(~x`d=CZht)%wd>RGo=GBesc>95X)snd6p>Hz
zKB71GmWlP>bii|1MPu@hkuie*yR~I2Ias|K(xQd^@FgcOCk?l69z^&fU9ft{aA?|B
zc#~rW7BcH`WcoI8yHOVWrBYC_aT0v*(Iy7nDNI?=^S^m}l>CO<OjcK$J}9&T7<!Hz
zD(wdU@4>J!-4mT)BY2I-6v-yo!p~3{{N8t**}PwgXH)i}Y}Xa+j=l@qD=(4)(_QdE
z?-(RJFvh39r1;Us)#Sj#0P*3`NAO4ILEJU7gJf6h;HzH|Y;21N2EG%+keh2T*sFmV
zHa3X;*>7yi6Y`0KyVj?-*4T0LtK%HMI;NIzgxs994_g+svEA~?Si9^Xs>dG0Dxs#7
zjipd$IUk{35>GzL!z0BKbm;3)xN4(@$E&&>Iyz)&>wi&Vr?tOv>h_gnQ$q<vBzod(
zvO(ZMyW#5D17Mti0=2uEgtqn*;NNl~m&iRC=Fe;eMWgkQ?mijASByk2shdJxiXSSq
z&k$v>RH*t;L-t4R2i2%u;_r**WAx`r;t6kv?~7uR9WPD3$+?0-kTaI5+rq^$m$83Q
z5&1Uh0J_asMKtJ1eC28mm(<<ynn@JI3VUI{_EGp=w2C+>7vnzv7nt}w1d`s`vV@2{
z{O@5l{MT-dZs*?<r<6E2sT0Rck{Xyn-zye&xDO%erYLmnDEK$&8o7UHDv&p>aAW6J
zw0%`Xj6G+<-D`1Zdh`JL39oxo)O8F<7=rNurI0T>mb^TfhD|cPBxv%A!c?0*c;(4O
zGWBRZSzZ1bbp}S_d+RuGF24j0(}&>qNE>+k?kt(I>l7RkJRC^}_mLps|8(El3+&Gx
z5pgu#jYp4tW?L-P;kU(A%<USDTi%4j&nx%PeVo9POtWDD1>0HS?Bx(XR|&U-q!N?)
zGU6xsRj^`~7?<r%B6f-Cc)cUlQNgkvK1@<^OmPWAOSyEko>fHn$3px*G9FI99R#n(
z>}O$#1Wsh1WlSo8JoR=4tp`>>YvPz|xDh+`&Xx7W$DqB_1@xM;6W8AH1y`{z9-cCl
zO|Oq3r9$SX{UA-a<WwShRy9S)=+PGSh?nB$nSUA8Jc@6}c|&oAIT#F>43?jh$v>+S
z)U}YoKZ)^B#auwqeF0OoG=S_iwa{a@5#5K{Lyph`7+_Zo=k|8sG~vFkHXxcA2y^t4
zZ<E9sdOPrA{7CFkU60lG;$XRg3`<#hn_PH50CMsdf!^z@cw(y<u0~m6<j^@qTD#=&
zn(uX{TX_UpCR~Q!X_?rvdkm{OI}+bFW-*0_%b`yH4O_c$e9`@&uS}wF4D`lMW=n%k
zko^5)F>AJxpbyW+uelj0+y03i7@h!M_9ft)UIji&Ymnfd>_Gbq)wo}&g5_kmLg{LO
z3F%W$HaM8_Pj_4KuA~wv+3L?G&K3NaqBy}DBt>GkufS*8LvhD~1;pmO8XL0ZfjD8E
z96ar$(6KTS2H$#9G#NfKqg`hBdwK^39GVZB!zMHTs%2=><Bq0UmaJCD7h85J8mN(w
z$82H(LSIR|KV6P`DF)-e!N-`{qgc@g8(pNE*TLC2@hE<w1<T?RLBF&^JY%GA@A#Dm
zBQ=WQm(Mnsyw4NslEd+U$y)Rr>y4P%$DIE(7roH@gv>#j+upcJ?kBv)(>}jQt<HJo
zyLC0bV569vunzVvF2Jw1EpWqJ9bE7rA2oKLz=f|I@IRFyf>$Gt>>KqG`~C`hrSE3)
zvwVs;P5!2M#+*_No^=w9a+BGj2|v)&^E;@PMTygY+(CB*V@&gsVh5Qdm3&!1^0LhF
z;?paTbX<z&*&Qa5i(cTe*_C)!X&=ct{t-`m&lWXC%Tluo3RFAGf;vty61{fc4=O+1
z*&{d%gP1OTbyWq{uN?x7-HUL8UkTpvYr_X#ugH)axzICR77s40fTX}Kc=7cVPJXu?
z^hZ0AA|Z<;Y1lhakyMDt^h}GWc;Rf+y4EE2G0cGutpb=OQ%B@?MnQ6C57BSz!jw(6
zs3jyV-Uyb1mDln?a>wVQ{QKtYY~VsDx$&3OpE!cq^@->+d4+@5*BqQ}kO2EnUdHT;
zuZiNsNKu2+KKQ&)0lqGchO7GV@Hfnm`V?EjFhg0?`Q0uupQgpNN9@LiiT#fA)#t<V
zamH9&xSLFv`x%zHmx8lY1=~{I$J)PF;PAhXSnvp;{>!kYUw@Y~uP5(`Z}Az374rT)
zuD!#GoXNO)?+>xG(owc;nFSK5DDlW(OFFsqFutB2ig8{x@FL+UZcLj9d+!zD$Y^<*
zEz<#K&z!`fMI8=*gnYIoBY&|4fqU?}aklt_xdM||5eZfKA~NN54+P}&f~zdzxl2p&
z^-V|GQ1_9nKCg_{O<m{}ZUmtXQ{l=)Tg>0Fjx2n(9o}YkW8Cv&`0~HM=vNyGy|0e2
zie1TggJ^OU%hgP&^cXUWCnW58GM-6FK^a?3{$6_y=6GBoS7mgerguNSQs`#W?mfZ+
ztwSVJ_BdNE4usy|Z6NEDgM3Xki09oRdWpU4PIM=3l<&nwlP-((wxz<tsf_p<3c2oD
z<#4Mw57qC9&@F2<N$CAY_T`L)_eKdKgV=d+{&o>zmKTWp%5zvJ^!{Hxa=_wkmRO#1
zlh~e8gS@ZbV90-ap>Nqx(mCe_Y<FFR1))al_hUf^njcL*6zjA32Ud}_&L{EqTWhFp
zpTp+-rw<>3>zU@x6u4Bwie}s|hA+F%;{>$~%)(?WyzK+Fi*(3aV|BJATue5Lh1aqq
z5_}H?!}OCvu1qmNl5HU=&7F*=_Fuu$$#S5q62?j^=Adrge`1s0*68u?EO8DDgzk%9
z@Wi)W@TR*QzK-314>L9B;)HCb_uUk&dK9T*=LFdDWiK%_8wHt;K`6}>LFfEoII<xc
zligoJv6cpGz>~0Q<aC@rV<9Rvego52*Rf8~jeT-2fPY7_VT*DKh)W}I8oUuXyl5gK
zzdlm)LJ2qI)!?!*`4Fz;N8Stln^RMcz>(uK=|6`wnELoV3mUT&dso;HyO{Y{)fR~_
zXO6%-_o|t~k5lj?IbN8x21CU_De;-B;SjWTFx%mh#Z0}N*zaTtL#ji_F8>Bxrd9zL
zI_@*;1=;Mpu?q}6Xn-m0`M4w92H#}fCCPyjxWZr1y?@vbvEjB@V~(IBQw84Ahv0U9
z8~&I$9p8rECy&iNP^!iOI?r2ikIlW}GPyHkVEiIhwEZf&7Wrdnw>ua=ea~hd(#H+T
zxiIAJCBf%#7oC@zh;NNM!2%R0Xj}W?;(#SWi|;3{6&ImzTPAGUGP|hdKondKy@7|m
z-a@%s-?7xs+d+QSC*~vc3Kdu7v&HQI!Bb{~OL{R*8r??J);@q2&5J?%jvl)cq784;
z6=D37+1U0A=$e}CkSLmqOBdV}<+V=5Q8tFC{<07!^+bRHIZQ@->~Q${*dJoePO*jU
z*62UP8A3fHad({^-COGb*qR41wNkX)O<;|*e}}bl3ZQsrG2Rb+E84t%0*?Qcf;JnK
z=-?Pnygu?Y?zm=1T^3))<@zV!O`WdL^Dv;tEB4`?i&1!ObPvlf-UT&}I0OstxrW;S
z`0+N5r0v;(6T@mnx7+h@NR$n64~rvq<DW3;Y&&*k%my%DUj@yT*CCzgV`E_f3Y{hl
zN|S^WM{`)-eLWn|e-Z1r6<c(97;mb*fq@}WSiWj6M%pyuAk!}*`(KB_WJ???00UgC
z`ifLoIO3Yg``ISr!MtS6D`pZR%Ws8LVx-P^REisfOP>MLY;DH}Ut)xeY;D;2*_fQ!
zw-;VE1Yz%!AQ*0$M*2dIlbDiqkdi0(5?<^A^QXo*Zj~13y<dUKLT1(+r%Ey_sEho_
zd`WWRDT;n+FnQUxa9esLA-@rwTXNt~(?GO+76G$<Y=8$*?n16)3Kq0Jg|eB4#RI1-
zfl$To<Wp7}=Bfw4V!6d4l~zHXka!s+o7CBEXEACtogllP2D7Xid7yOf0)8FUKoT;e
zA>{66c(}Zm-0+VC{d1S#qM+-H7S6sAUjCr*hlAbW>!eJ1EUHE-)Ar9bII8^w`!J{n
zrjiNxBWDDAx8N(Ad#?`P9oYrm$1XVj4XlA<&oyEBwJ7nU<PdaIIxP4A^59ErA@Mov
z!^-wX;j^i7-09^D+;AovhE5!huN-59-&K$0TQb=C_XN#Z2L3w#i)GK#z_3@b<m#E<
z*pOO^W~&oKheC$4m_4URrF0ma)P2ERL<wT~tw}gPFh<Z==!s76XvX%bifmfTF!Yj0
zX1R72_+n%tD8^>8Pq&c0SwD^SkA1;5t}SA%J1?*)%g&4KXRbp>1#|M`so*WR?hXB0
zvS3|C4$J~u96oU~T$tjG&0{%K4gH8|GzhrpG^AN7k^M`z0!|LZ?c?HDjgL0WRNaS*
z%#f7}daLRBQo@~n1O%%#vIQb37~fqAwt{{*x5^Yxju<5JE}H<G%7l7)l@mtnIFH2b
zExX_oFP;|djvBsMQ0ptgGc1k0V>aTk<8rWb%@Ofi#RSGbP9>S<mtfWE5>_!w5B?0@
zg=MNgurQ@ltWeyImy!z5N^gg_env6dCOr>shkhxPzB|wH@a;DC?yv?VEK$at(r59H
zmW}x1nDr<(bs1BAG8N4Z+e4B36-V$1!&<X+DEh0%HWoFo4?J9Su5>OL-J}7V#@~eL
zrIWGM%M`{KW{O7BUo2{NAa>4LhK3a>pgKEObmf`AF!gbVW`eLQ{vP>w?-#jRxfVc1
z9v9GQxW<>m;7d-Tt0u8HI9dr8eoSFqUm93XehzuOSOT;kEWn)6>C9s3Z8&r7Iw&mu
z2)O~TLF=gucbw2duGBlj2h`>jXZIo1X~Mzx&*J>civ%9!bs&+w@MY3e=zTm0Zg?rs
zDT1G`DNz+hhHu7uayj^@bOO8`)B>`rYoPJb8Q2o+51X?$fre1$xBu0o>yGxrDV=lJ
zAu|tEywBjdr-Sgs-$=2Z?j-=bAc5bcO{Ko|uvJVF$EIbmpM&~I4v2BT%n0gyw^!sh
zTaFGL`vg?BzY<BNP6Z<^6?*C7J&>!7!+Ntj;-(>A@Js0|_PgaX%nxh?Gd(FXWQuUd
zcpC~E3N7g{`83h+P8%4!`5xGOzl`Q{<BL8Y1QPyKgYKC(0%ktc22rfA{^@f(qOVY7
zG3FTT3EfSieQfBoMT+#%8zuVOsRR;N--LVH&9F^fhJTs<ktGJyk}siAuzP_Le;#=V
z(^5W)KZ(;ZFsu-1<ylckZ#i6e7LWVe!$H+X$dq1@f&JT*a9ffNXQ={<?^OcP+?I*w
z+?~n7cw14MojxxXpCs3V-r&-Omr2NK1%4=Z9dp^j*u1xAaH_gAc<euiLro>&R?JU!
zUuu!4p=vn%cf=Sz4OHP-6OX{IeWOrEaSduu$|I{jZ4k{>^v67ny%@XQ6mOT-K-;4|
z;_(mepmy;<y!=q`ehztn63@OvYlZ~0xy9iIqXgJ|A(9jeb7*znkK(pH8Q47H4ZiRH
zN%j>c6PL0)oO$&a%9vh4<Jd!jw>22_YPP`n@!_bQwhiCasN&%^8U8)~IeQ<u2zpEc
zFx4B`$3vll?lS|L8a-j_aVb18#Y~hma09D%T!rgaRI|~g_XJjv3odu+B_E$#kiL}w
z&TTW`o1o|K`LI*`RLHV@EPDoL*Y02|<Wo`h`*U{6{U$r?RYFD=9%j>DN-{_&!IDO4
zRQc`#p_4C)4JKV?3Tu^#TUa2jTIq`=Yb>Be(HAo|%!EG{HEh?o3#{HR7Luop!`g8Q
zLN1vyybV=FD;0N?uHO&M(-=`b*}!Ct9^ugU?rd^yEFR9igopH^h@MIoj<-m{I>R?G
z<?S;d8IjoAWXd(xdc)Pc8)9+M0{AZWfQ)*59({EyzP1qKJDoDfdzcQY%Ld{vtHU^f
zL^12S7<_tmA8Y*;FZ!$*izUrsrvEHNEcQQv^Gsjkn0p)X@6J?WPL4wT{$%E}E=oKo
zE)$0AIe^(VNRIZ&;@M|4ctSuWj;yXHwE81B8s)><H#=aaT^d+w?8m%<r7&FUHmXzz
zwe4RckhBTH+{k+*Cghp;`DSUf-7d^+Yn5ogylJTByZ|o$rw1BK?I3;I=OVQ=e@WHS
zG?-F%g=x;JK=qZraPe}k=xyO-9MyUPOXPCVO3>!7HgLgfV{ITkPLXJs#Ddn@Hgd~O
z9ye{-Co(I!Ad1qS2xCpN@LlXxyy>b$e~w-c`V-{Q<@a?V!@~#JWK%ruvmU3Mc#gJu
z_4p(2Jeyq+&XyN0!u?g5tbAz+yMM2boWGR@Q8y=Idx9*jDD@URBuykD=7(d9$}#Z_
z!*TRgw<JE@GY@##E~cbm0b9al={WxtaL4K;+nvVQ-$4`D!)9OH;1!Q@WFrKve8Mgs
zZe$LXr}67yCAPHw8oU0eopcPzf(h<|#-jTM<QnHgZS@d*6ze5u;!c6g{dCqZFp@4V
z$Yg)&Z;DK33wQQgmN5RYGn~2-4!;LRVB5kpvdDWGY}V?5_tt)}ROq87WaZ%IoHlZS
z?ZD+x5#)y36;@t)21i(r!S9~?*zoOtLA5d;o*0co<)c9`?3@89c$Q6)F3p87*Q4af
zo_Nuq@!8-z)fh|e+Jf%=V-R`n8j1ZJ59_8^fRR@cB(A>>Pq!z-`qgIG*HVdB9rln-
zo|EW!t*toW;Q{u|AqC6_3Jh3#ZID*uc!)+~vX{U#>b)Z9q1O~$>ivXXFC~Pm+C)5Y
zIRVcWT|~1ULz-q52qC|>f%!3KxOmzNMG+0+RnvbF{cAg*@%4PNA#oV$Z@Yx)Gz$L6
zPlH(P6%hAsj;K54KTP$JrY)iZQ21C0PHQ&flGS72_UB}n>@3Oejncutljc*WZ`NqI
zL=H6i(jnSmB#KN|!(_{^#CM(-NX_qu)k~t;MkB%B_U{n7l|;k$j<@)v`Y1O1NM+|V
zt*|k1JI=8dvcVHBLhhhN7#KPUEhQwe^S3XY*d7j94c|n~f(}JW-~j#%x-FV3xfe!1
zh{L-RBOzjfE_1)>jiKu^$k@G!DA$w%dYuVaJYk>cP*|xbv7exReIzOS&mOAUgW-zP
zIP%}oAp%dQM11|^Drl~^hqK<HQ1v?nG9NvM+mW{+DcuPzWva;>m9^ppMTf~tZ3AX0
z9Sp-Z31{xK6QbN<H$Zzv7CAlE8<xe4rL*-p^y|-r;#ERVzhnS?<vj-fOqox{3N_Qu
zu`<vb^$BhSKOjzLx8NH|ZBp>foE(o!73EvR;KymP@K;%tZW~=q7L6Lf$7wwj9SHIS
z>-V|1JnR=MnJ|p(z3V4v!0jM*@&rh{FClQg8o<)e6dKwpFhAiOaTHAjKIRECQqzMc
zD{RrYPgkrG0!-F60&I*2(oMLLZT%Vzr3Zu9z;A=e>AqDEs~-mo4yVAtmfu9>OCnQJ
z+r{QhyMW(bRf=2>JYheD97D-&H8OB`3`%wy;l!$&XgxXu-!0SyqtsDQxMmmIzCagj
z7m5qFRt4ZZ;Z9PbxIko?c>oi}>_J_}E@tz3BCgz2gjOF8u+V%5H1AFoGKZ?+;PrS2
zcy|l-JbukS3=lM%!!NKGUqc~j_d|R$^8!8`p@U<-2^!x<8S3|8DmvSF;JblNICD{)
zNdM3<c;HjZ=EsgA6$>?SiERf--H<JkIX#q|=)43$4j1s;iWPXu_9l4T`wNO+H8Jqw
z6;iEr2w(J%0nN*H@L|b6h}?c3A8fcw8fW;>8iy=seRq{ve6L`|&r`uSq#9nl(Lqu-
z3+6js0{1fm1kLbE*uHQuP54j><{y*6;J?TCP(vM_?pR93t~vsqX6<lsy#cKJ)dadi
zCgdS%ijLc3NSaF(tTcCrC!;373;Gz}YPG^F#X$TTodIs1_Ml_Goa8T%=L3u$;(?#T
z(A8A%OsjOk^bj?Oe%#Bdh9Oqb(fIPK0t;1K3wQVah5LsF5t|vKF)J(u_MPq$EsZHA
z&TCYtlheB**PJnMdfRMRG;WjF(Kv{-)_CFM%u+V=ts<Ke>LL2zYK5oQ?S;pk*I2**
z2+^-8Ts&V%f?kQ43iDOez&}+>WM_8(H>thD#nuk6;C?sUA3hQ_0u(^*iWExvWx(lc
z1M#ftGcxi^7HPRPh?W^?!O5;_k#cT3yY%}P+iIT2wuSq$5}h_^cr8z#tVjZvgxADw
za0YpP^c#@E$#A*pHlCld6ff+lL5*qAtg|$WeMpV~1>xsseotbaZ`E<hl2le2a*lO1
zDUiw6Ioo6XTy!PA2>Mk1h;u%?gZlqo!_5JfqH@DQFn9i5l995FG+MugYSmXbtt<^f
z8|z8vo(w2dU@%@i4lnF9<Q3uOFejoP^+K{R=+_n;*CzbUTI$5~=?=K5Zj7U59m4Ty
zNAS(N9q{mYjF7uF(V=>12RSz?iamX~14D#b@cQ`dB47UuSQ2-L?UP?gt|`@FxlIOZ
zU)Rf)$E9JZ({^ZGI#;|l(-aTyal^LVA2GJRzh6~CLPB16G=*oh@JI=dg78R4N=OVA
zz61q_Z3tdG#%5LU`mo^DHXGLmgl$;6W<&7*zoo3MzhA;!LPA@m6+Z7?#Pfvw;nrIw
z+<iX<``i|olo*cd8p3(7P~R==yawAh$%-<)e=)Zw!tBcED9pA~L)Y+Y7<@_!^X}e(
zMMFnYEi6KbW<?0At`(nKWlmju58&4GQy?=W9QT-L)2#}cwDRyzW_so_w9Xa7=npFd
z+-fC$O6??xhUY}}9#2_Qx*wl#TY;ZDEATHqY4VMYztCJhACoGhShxQ%yj*t}JO;bd
zV@oOoO_vt6iba7rX37gH1Rd2%1d~&q6at!sT(Ed>DC;Ik?}UQWLLFIWCmH4t&9>^w
z!jAmYICh%~?aDof!-v0ypf-KlcRT~!KX1U~{2UC>u;B6M&Z5oR;XE(FgG<hdpvvNZ
z#HjzNNOMgkR+mPCk?IR56xMJ#*X0{L*Atz%e$me9JHR)?fp+h+pda@a;H;_Ybn^sr
zdO=&2@Af>6M^7tIlQHG&qV^ro3v^?{RxC#Gr)11gGN+6AEILNW<MEmya2eC>c(&mY
zTqCuJUQFl^Vc0v&=_>=XjoQ><awaStaSigmuM@Z<H;JF}Uhx(A9fUYL^9^l|e8c0D
zY|`yPJRxKRT`b!sD$VkvYXbH7@GnQ<u^;eLYb1H+`i&51D&ko~YB5)4Cv}fZqVmh<
zK>3^XG+<O4X<w(y&HUE!=ruZA<Q@p^Im3C{`%vg}oku+tEzx1k3+!;2E@+KcaN{&@
zzTx&l2pwI9!)DoYS)F)1_k1M}*?$kaDpN>PO`7;nwhKfYk>#ITuHZtyfkbCgJ~lMC
z(Mp{OeC5GDl+Tr>Q`%k;&+T`_c^3je$GsIsTNJ>N39Vo<a3p^l{+D=9G2?qL3-wBZ
zHJ5EXiRV23!}!3z<cJ#O8*doW=DlGMGwe0$Hy<JsBL5NHR6(PA&V_fG>2Uub4l+%5
z5H61s8`LhP_W$&_%Je`8%iTz?2p*HG2|j$&a6P)HY%H(alE?Opi7U!-JBRBvrD?m;
zR#>LigUfGi#%u2*N#S@GTA*Hw;j8V?Y0)R~YUvT&*j1aZe6kkRN<Hb85NVooW)wZW
zhT!(Y;lRJ8;BDiBFsfuI{r30)%oAoMUh@t@-s_>nF?29p^+g}1pI7B}Ho>S_If&mh
zI8X9#8gqZ^o0uu5%liUSKyK#-vff+Jem4hDt%3#!UoZfq%VS`$s=c_|Wd_M?zCk*V
zkK#9TVsXNqc4%It%l~CNLh~;d{^Qg?teNnNuz$%o=zx&xGIBD1f6$y?nOBHyt9Qc|
zg8}^X277+NZ6WcDzD>T|pT=hmc~O*LPzASknZpcK9h%%`M-Mz)16vDCcv{vnHt^9h
zTwB&AY8oL))iDhoZg!$$MdNwo8dH4UdIyx6G-&dbKLS(yDb&1IpsI$g<XMd=5ulWq
zXgH9DuCGH0(E~ESU+|=5bi?+f3V8l%IP{->%*uv$g5NqrP~9rc-wAxQ6vZOu==oUO
z9;8p>ydDCXHIQC?HVev@snK@DDcDKWsE(yAw_aR?X<;H(7bEzZFP}!w&+(|JyBsr$
z!iBNePdt*VNALb^VJB~R!oGjf-0|~foU30CM#D!?^@af;tGtd&8yyFu&v9T{C`;s3
z=Him6yZDge18{xVVqTrp4n@8<;b@LN?{PE3Lmfk@@t`J{nw3IEtUX3o#08VV$Jg__
z1^?K!&SW@Jas(cnSD<sh{KD82Sw7x66})0pspT>+oPSD={TLh%bn-v8(lr9r_gnMI
zKqaDl*#q2Deq%uG4?OA<M9ma+Y3VK#c-mWyN+SwLS^6Tr&+!53S~X&ce-T{ITFjSg
z-$%7fKmKsjL%dUG#hcf~!`QR3cyX96AN8jW{RFPz7CCLYCAS6?XFY`(M@^}oeGI#C
z@&dG8AHwC`!`X=wR_K4AgiUMzg};XkhUk<^xcf;1Ca$&P-tQ^Z6moJ7-3sP1*7qQA
z=RByZeuuKNM$oeXdtmh67kJst9k*@zK?ZZdyFcR@csGp0^F2ae29mKnViG-l_!&9g
zAA_g-yJ2kn0IJ|ogclw}!HduNtf2M?{5jo#rMhR}y|W=VnHL3lcmpO}6WC07Zan&L
zJd6^n@tkf&YEBqD)KTKo*9!Bo^F}cLaUseckfW1Fn(>Kl<59s`@Cq+-p;C4S;li8$
zP`T0;{;TA;^zRoirRsF-t}{Zmp(4?ax95ldQ{z9+cY)UZDCli#ATQL`av!?|^rxc{
zENhy`r!}kwTcdD3+jtQ)8QI|CN*7)+sT~#&b=)Ozo{y&L(~wOPq<d)%gbk2|pfC*<
zJ9-fB?#P1%rF1ZxX~V}v-vc__o8wsv)b9=izxgtJ=+Ry*l|RQ`%rqi)8DdD&Q6R7U
z>}jxJ5bmbA`1!sA?b+nWYji|(x7HZA+vm%t^b|nqDdFBy5lp^Zq$nQx0&c36Lx*J<
zMqU-PI-?X&Y$@Wi7wqOOSEfRVH=$EM$#9)NFNnA*fY%@DgBfbOv4Wm};vbUaiN`Wt
zotXq}8?5+}H3y)0MVILNQ46lI-G+BhnIf{07yQ1*2H*|%e)u`;BV75ljAlkYgnt(K
zX!#jvXz(pe6MV1<vaN8~TNZ7ydQhpg8pLIk>RAbO#GGe11wP^5O}8=Nw-Qy{_!e@i
z#_#|sO**O3p62#x(@eiG(dEf^i`Fn{8oYqP&NtPp=(h_Wr|k*n43+tYhf=(>fx<KK
z1RANS!Vj)E1!l*UY2i}>lUp2k)4T%6iJm~0ZoP?T3<l7ucLQj4?FcT_-G+;|j^{I`
z`~j_Adl<id6rK1(nYVUC;XAd@qGvG%{J~R!Bh&pF&Xn2nx25y2^}IZ-s*8dkxk+MG
zc!K&9zcBTW-t5!tVWO_J;~=B01G6e5akKX;yzljdMf7wtj|OwzY9z~-D_nr{F4;Kx
zfF*mSATTQX^!V%OQ<#l$m?&^Y)kDl#%^!K{sgncUgGPv6?cNNZXQV;=F$cb@tq}KY
zJB!bQ2B5~om&|s~Bc{DT4J$Xl6#X0&kH>f4Ag6<5iQ8sb`1I&KjwuVKbq8ipxvr})
zM|macIv<8hQ|Cc<m7+MnNP@n%+KRq+w~$L7<rr^3@Ywra(xx|xRvetmBa)}nGOLy1
z8_v@~OG8G;DB43JvYx`bS^LrHKtHZuFQV_$bea7B8R$d%U}|b0{1uy#5$<wO{@^Sz
z?99gGb;Id@gVnf6f(|#lk%v=<e}R#~51C4SG3bB41(9P4@R+3nt(_T*%GT@P(pzPk
zKpSB9X9=KBBI(rFCty);#p8<pG3lxza{0wf8gnC%F7DH$ANthz>3~d}nAi^StG<gu
zJ=#$%BO3ea4S2wmCO8vS1fsp`c*vcFd`tREHoI;R52}+x*S1USpO!59dm^~Vlxxv5
zGf(4ecN4lrqYDeRJY=3%7r-Am6>5A(lS_2^KvT8`&ll_P!2Y2;vLFgZ%q6foP!?9D
zWq_+kCX~}j;?#@~E?$rVp_4vidHw)CcaSAbU!IBUcc+Oi-StJOZRgQH{DY8_qRUry
zy@t{LMj$)rwZLVNqGRR8(m85&{Pxdmh!ZWRD`NytspUwt7x#ksiPdn{XCYoo>cvaJ
zkLl$ucRK#~HSpBm0BhsV0~ruZrx=Z*maGH=E{wyyRTiR`&r)$?)Nx#>;LUpU7W13u
zY`BrUkb!FdtjMlKL_6Xq@aWG|=%9O-Fjw@G746pNm0gis_m~csy^0_?V=1)E3d4G#
z_Btu(Ff{_Y@Rz6u`$`Li9!Dki-5LXryC0y}x94y)crs5o_zJC@M$nZt-ZbE{JdJH`
zbhOLY<pcC2cxjqFFL~YxO{25Ga``xFer`5B{!Eol{jncS_Q~@-J-(n(`Vtra=y$xA
z|A<A+eUB~qjx=(I4Bj3Vh10d<p!(1cd~`#|dEb%;Z<5ErV8z2A_gH`_aUowU>NLiz
ze#<6?Y4CfWEV&ON+z`&_UAu1L*wG5qLoFKD*9&*}T3O6JUyXNV7f^Mh={%(FulV2e
zc>JeiNUJ~1gaLi3_~)@Mtx&8KuPj?nEe*_g*x*B~r#~MhLq0IqR43|F^prfEd5mQD
zC1Sg~6^)%cj;0!4X4`yoapgoa+PQEJyzx_|;$x#6hwX5N75hGr>`jgWpJX*&?mYxc
z>;3tPALF?C#$lql3Kv0r={1B$7VPr{5ANf=n0wsW&-PAyBbJ{T&F<a5hK>Hde9!cc
zMcYO;L(DRJ`u^uZu#^r%IWHlH@t+Pq&UOg(&vw#su>;dS{uL{AGF(MZ<L2b?^lxw^
z%oEn-;)V@;_ZLqrsY;`r?(#fFD}anYv=<Nk^&+bk#!%IHTWCt!c>Xm&9jWal_*!=v
zu1&fQa!1^#$JHzNMDVQ-vWZ}Eb}#W&r4Aez6iB=0hT`?#j@;*<Gdq(%ox9fQkotjx
z=+^epd~bp-k)~!)q+J1njXr_b_;8p$PlxV4VgOF9W8rG|Ig<X#807kN$b)nX-m0>l
z-kfd5t;8z)uc0mXAF~7{F6r~{o>kaw(gkyj)#<cQYw#~s<Md4eWPKXUJ&#M{rBp*o
zh8uJDZyE6C@C>$Rodzk9k)e)ff`!P+0lcS<a$_^$j93>zmKgv%Id9EP_oT3^6}8xX
zHBMY^ZvwjF>oDQbS+GoRhZ;RK9;TBIQ<K-zE~3S6k5A!J5xV?#hy(x6s08<{JAu!o
z6zERtr+Bi+g?}_E$65KOV9}+mI8AE^9zNF%MTc^j@e*D7;kPeV?$m*rjYHu_`T!ml
z5rawl95H(RM1En*TWnGv#h311&Hrs4jN#1%ko#~GDw&;vinD`gwz?B)?LUae&m2IB
zoyt`C$tj$Z;7z`K5i!>{3$ZWzC`?fg0lYMluC_BH4<tLlR@)u-y%+}{guZs}rr|Jh
z?QN0jKnwbU-GEgqp0g<?uGBL5E}q`0&rOV<W55?<*x{E1#))r8isV3^?{$$i{T1=_
zE)RIN{RK|lnvITU62$4TvRwa&D(ti!N=c$N9VvMbd{&o%`Xp^SRcZiD|1QJJJ)W@A
z_yTs*RbU1`lma+w$W6y|Vcm;STq5`>o~jF^>p!NVtLs#<+_es8+*~Da<d*WCD+<|q
zhcBWBC6;_%?_e6M{}>lr?!cYZsn}@WOX?KP3JmW1pu40IPFhz$<v@E;la(vVSS`UQ
zgRg~iJT9{V86V*2hj6^QeI9@KO@dY)RiL7sy8McEDN#GGM}uk)<KH?1#Fy`I<*)%f
za-oIemFXLq%g6}wcV{GSzVt_6r+D&BzuQo^Rf|s}O`@i$db~wHg6IBz%4{#z!PZF~
zF#Y8+$h^9P2PWKO(o?rn3F!b3pDPe6-ycrnYkNRz>KZUzv<Hu#wBs{JrgMAUByqZz
z1n(4l;=Q+&#XoD@d5upWbR|bZ?a2#l*j6SoIvzm-P0L_-lpMJrZ9x~@DaMXbjkt5j
zBvHaj7kt+o$v4<1;HHb`ad@jW@2FMg6XT5e;oqfTxpx2^^4SAEN1hQlW51bV>0CZH
z#FjsCG2#=2-dK60&<6+#;2k<{wEge{$ME59e8`w07(IL{Hhmev7q*q7#^Y-|eL^@t
zE|rBXNow54WIP={ri&%tjpa2G8T^agZ0e@qLA?%NgoOP)c;HDECJ0%JMRH2C<!Ki-
zX0D(Ox_7Z*!En6n(;~`N)8<`{E9hW1Ln^WRjWDmQhOGi?Dk8retS+k3*y**z<aa(q
z-W?A;gFirj=xp9Ip&ItYm9W&vBOv{82+bb*85(N~3MzvI|B;M3-Jo>}rzM)8nayzU
zkm?01bp@X6r^`cTOYty)b!1j>oy5<sU^R0RA$waGIp(R$ANr@mkNC4_9eEsfHud4w
zUva3r;Q=^lo6v5vU2N6uHuz*}#K*4x106=`_&(d0=fFss7&(YO=@7%;we>`%H;&F3
zaTAuz(52H}J;N0jyP){^2T+<{z&0Lg!_X=Bpx6B~lL=}hIhw2SQns2{V_qd0w@i^T
zWhue$BF7UCMd9PM-e|m`30c<#s2-Y)Fa1^M3nz76xqk#*7NkQ9b{#^W0COIsY0qO6
zALC_Nc}P2N0akRfphFpqZ7c2*FZJD+x-uEWZO!;v-jrIoq+!+NRrqX=J0IV+1Qu3Y
z!&`H*G4<0SHv953IJnA<F5G#BjQgTOH<>B(uRCS<)dduPtr2`x+k?PskvX;8EBN<v
zTJX<<z4+>x0zH$2XxKjzrJXY&{iZUPlrf`jQ^jOgoEaS#x0_l;db6vP(mnp#e5OVk
zyd9vyli5vpx#S7v4%~+F(<0#3wB<NI$$}5CGQdK=1c5s`kS}c6#!jjJL(_R%VNFpi
z#J3yrnw`VA@(3ONJ^vb1OVzL_J9U1}N(#lA_wc`DH!yWy1)ruQ;c1B-Y@@^vrsbN(
z{BO(i%iCVykGOeo`c5~74AF$5HPKi$=>;12D}i)^kbTKcf=p;RdACTL*0cz$?0J{*
z%o8IVyrd2r|41_1u6T0n+d!_n+5oqQT?1p4;Z%EzDVojGqQgdZV|K$_`ZBE$?#E2x
zcR!uO$^A!Q?1Ko=9m7f}_K(Fa1&G@M&*HDnMBt;;d5p_3zWDS$T&>{DmC1e_^6d!o
zX<ZBI6CCL>d;wj*BB@}b!pG$fY?amoT75v1))sz*QU1AbR5**>3<H^5)g>5aD@j>l
zHhLMfv)q4m@Sx=#c{uwB?0wJzHg5fpIdUgEu~N{yOqs;}2c$#JCkq}MPy*AM^=M5h
zN3)d{ET&@t)eKq4ex2P#i@r+G&Wl1uaNQZ0^h8F;RhFhdvX1k#Z85yzE>PDV3&^XC
zf{kIPKz9CR{Jz+V=4#BLCpC)D&qR#}STCXM(M8PL<HUCeUb~A+!@&96MVw@iLe+NK
zQd_?nJf^q<&o6(9n@)w0l{#5qtK0zVmW-qKqt=k*rXe(H=QmjI(JmS_yB;2OpMtR_
zqiORP1Bf}K$nTdOAV*%UWc9NqL5H#{|GLcw@Rl6yzUP45YlVKJ;A6U1;0|@u+DWV7
zM;IAl2q_yKsYaY0Uod7kHTG%4!b4hcExU!uRD1FDpIg!4zzeaj)Nb^A+As1ysK?Eu
z2GaYsd&t2QBX0HYD|x$e2+Uqnh|ilMaACcRXxk)9G!Gs|!8sexzB>R>N<%O$>AJYs
zBZS>G8IB)|M#Gnhp}bu=4tl>|BpMriq2-AwbzioS`aPkryF-i1ZHtGO_JxAyD}&7a
z-cNEzm||K76MQQV@l3}f+*LB2pSe{BtrO(%$D<!OGcX0Mc248}F==S`8P4`b8zWt!
z%X{bSqzZm<WKh}<_;p(c-u_n$+R4e{=w4ZRHnS4{Z7Rj^{E@U`Qy$oLbu$Z(`_Qu0
zo<G<-2R*D$!?_fJ*%cbY?R@M>$|OfTHq4n1+9_rqg0xur!#XHZi(w1=FM~t#fAD^H
z5Rt0XM(wf6w4zm!zg|3$ElgPhO&N-mw@u=40io>1lT?Tp`<PriGK*iDV=Q*Lr_WE%
z8byt~Dlqu_Al^IkB#0tR(QjoQ7%%$=!wszHqihH2HA|B3%^1O#&+_7tF8?qhct20P
zZw_)5yK#u@8Pe7zN2h)pO26N{!wkGAe;ngSUyXc?8*PfkUKvbmRCXEmXPsnwguKUj
zl7BI`Re}ChmF3<qZ^3y-6aJ{vfXd4L$Ih1zMZ*Sja7t@}@P$v%WSb>_ZR5b-b_k3P
zxr1bhvIz$HeL?leIOu8hX2U&_aM?6J^3qI|D(VfTfg!uNM4&P^9BIcTua`sN%O~uq
z;7OHp=>*vk2gvzdd-<Zr^8DG{IbdWIPnP|#p}HO?*gUfk44n7~jkak)t49_Qj#{>J
zVVtP1rV|z&Ig9HmjQR4L&5--m6fd|mP@g9{yiw1JdK%k6VpSwHb%=nL>Ij-CF&Mnd
z^r>yt5VVyRxLiGXFjUHz{VYGi9GpksS2Il>d`p+R4?QdBSqJkKPBT%ys2R>3xQj2_
zn}LvULN+Xd10F!zeUtEYiwW;p6^%O`Gl0E$fcIC&@z>t6blPKkxbx;I919k54DK0m
zDVGb_d-EWD=A_I&#YK^2*R-&sQ;*BdJ%Zv_HKbQff~SvLiYa$&&_pYo*S-6M5&H$d
ztFJY7x#!@@<9|rD`acYw?!%SyENI!@ZS?a-OE|FcI+@`iL5d9|A=%xYpEVVXZT${>
zjnGRI{C0fi=mlhj?i>6y<RZK9*^Z|O{%4hi9(;0Y1T7C}gqPtrxvR81d+V>v=N-9#
z+5x8Gsz;BY`GbgGw0QtuLpQLAW^cqU!umhB;FM_cwa4f?>>8VK`X8QokqP~QR;W4A
zh_3xP5et?t1FbRxDv7)Cs(KP`NxhH7Lf@%KOCN^q%mbJDIPiM^9ain^B^~nwet5qG
zEzXFBHE(iJ+CYi^-JnT#{73?aho-2XvyuMFFrn2>O0aeWha!(=IN1D3U`3P=smG_m
zTje#JuhJ&th7KU1TKNKtHy)gl1$MKt5B)In5I<jah#v0HAxF*#%#Ws_Fj?g%bjLNL
zNkuEJdF+ikzN^7q>p7-0xQf>}4xw9Y6!?nf^_V<XpFWz+&~>~n-{yY=3^!`fh`?%G
z-_(!g-=1N4yB)RE?1JbWKOk^UExNRNQw7;(wx(w(ZI*3@e>KuVK6@T<{!f8O4gMgG
zP<jXNYAOD~@%%?@0)KmJINdu?jEjv%(v`EX;J*z@wENv>)S7BX@&>(RzAXykC20!u
zSnXLJbo~VM2|U#>KOyh?(<yAM>jKvWD{$O<Z8~D193Bnhs8S})%}-9`%Wppi?SJEF
zQJEOsHznW%EpvK1?;u_0mjz>7<sfm_bzF7sJl>YdNA0$`^tYrF-*R*+&5j*MRTGmz
zCuIzsR%wA5RqC{<dInxG$%oFXEv)C&Jydwm#O@AH0m;){WS_nqPp&(J^(Fb>?Ii(=
ze!oJ;gomhVa9lL=nlD)*Ylp9f9Thi!RG`K77I-c?Lo{>OG&bv73tp3X%zoB4vWTEz
zd~cx(l{jxL;=4z2kLD=wS{(^Du#WY*96(~9Kt(?{@a^l%QSwSIZht9FZ>ue(>P{7+
z6c25xF*6=6WZz?v7fb+!{kd$9z4%|?Ao|ByiFQOp@gl4e&5%^)Q@RxJjPXABVEKT2
zm24-PkCph;Vi8~VD4hhxE(G-fePsR&XDYsM8}?oGfD3&d^!2oLShDIH?7r8<Oqa~3
ztJ~!GuHsse^%paKz$T2|KDiN-+^?`$3t76hDiMBs$-*u?i?s`G;>dMQ{QB+5H1&xs
zuXVnJ^V@XAR|G%jvF|JBjPoy0MqpW<`Ubc$!x>6bT<C`d3=c25iLGI;Fn5eHuL<}?
zZjH~y&e~kINxc`!$4T=4f<!R$%Vp*ik`3i8>ikskQSi2053Mkbk8QKUT5HNJS_&|9
z`%7rx(U84K$R+bHXCEAfkS;$1j_Jz0N6?zJuUDmBdzwMb%9+~j%!Ti_HnZQ)Z=mBd
zVNVeJdD-v3;Rl6SNSkzk%L|%*^W7Rke{D0UIUXhnBWGgA79C>b7tSq&-k07`KfyEU
z#x-9WQCrPX{J!ND;(FPD*UlQ}fYtsYU%$W5u09>aGc0Mj@L9<S`lONF^$_hcfqJ(@
z@B!BeO>7<m=WT}Y$u7ZsT)}eKp{GV$KXb4>pu+<qJcxXn@cunZWOl9NF>%gqD3H|U
zTQ(d+$JF6G-7}5p&vD@0w!N^-U?Cn}T#Yw$73lPZGIW61QM9pGM)S|=<5H&%bam6g
zjv8SG+Z+!CLiUe3n}<}|gl-UKZCT?ZA;<X!f3E!;j*~7p_GAmy?eWHMGcs|+<Wcl7
z1d#cgGO<JTC3Hkq;1N+OZq`-7I2U6cq80!xpYEYy;AJqZn2Fn`+(KfmQM9=JF8Y;S
zf;aDH3bms!-!N07J}qS;?an}&cv6CFT&u@-N%Y{CF{^N`r7td!G^1&EIs1A3Efl$&
z!96}_u*!QZznp7J%Not-k2w=*be}Z8WpBjYlay)diH$IDODC4CI!Nq}R^Zrf8+b6~
z2$aA2EzD^ikj=0cFN*ZIoBcWbmsWz7&iin9c>xZTmf`PZC-4?IL6`JL$WhXM!;Cx2
zLA=n8FB>UO!E+QZ_`MZ>4tb7Asc)gmZ9MeVDv8|E+(bitYtih+KKyumIjGK;<wK=3
z`8T6U^wH;j=68JsebS~xKMm8NuU`szGqJ14@=LKOIdc&>A1H&(0ZzE<tvXkT@#9jz
z6?xC{5rrCU?QrMJLYQ(-SNtW!+0ps>Tt4LfUv$lDBKe*cbgIuUrZ`vdJZR0saT2k3
zrqvo<jYp$rRyRmf2TWgY!wXN1!vi{V=%Mg7Jh@f4Z=Mp-JZEdJIA{j-@xLR2=Q>nn
zhaPpSnFH-Rta-?YFtBb==DI^eVe^|mc;LT2w$4JC&%NXijqEL!yl98}k*Cr8#SC(H
z;6pSys)IE&mz?~t1ZuR-KuO?GI=Xx{yf#*$je<@*A+!YZzPF*h!C4H`I)JOIrqMCq
zquAIjX^>QAP3O#RBdeA!=VSh8vDC(YSSNS@@4cG98|GEP%~{nr@5)C<@B0~;YIPCJ
z4VJUlgA2$2r!JNg`yFD)V^}w+3U`);ladBK-h6yG_x8Jh4K0&M;&fx$d#4h@BpxvR
zSBCWWoGau^=x?|aW6D>!kHd{$9LRt*>*3aIb8+CoDSU;b2W{1y3FhiCaL*|bA2ptU
zabNcG>o<jUxkUwktj@;Ai9%g7ObxSE3*PWg1G(!8OBy1ZfTT9Vv1-9}aJ}oskJ2aL
zFl!0yZ0N;vkK09=Ryttd&oE?h0*$e<<1-A8u<{*)@#jQ=^OEryCVC4zxZHu{MD%lL
ztU5`ic}IcvDi=7{P=WsT<)X*K!+6ZfF8CPlL2V@5_?MKixOmS%I{J<U`Lb#u+*}wy
zKPOA$uVEAEBbgE0^X6`x6FY*hlHX3gMos|i-;bu%w%la=MWKfAU>E1#z~PUdu<Y_p
zY-6(<bgASLg{?}|_KOZRP<w@s4OF;i>s5%KYXPI~7|>~@ZoIoElC#d4cw^{RzQ5`l
zDya<OJJ#-kD;*_}a6cUUXa9$m>QeleeIMDGAw%r_ci`>n*rKcxNJezuLB9)5{I%0Z
zJSy~_va7Y&yxl?6B>N9bwBE!utA4?e!cI_E6z0d~LrLf&bNpXhR~{C{k;MlAX9yx!
z1iTOg!2<!2AWU}^mm<NSs|aXNIRq3BMqoe<`IHqA6U0P8anWEj9wbHwBCCe3DlbMw
z*eGbC@gRw31cj^w)*$G<nqhX`d|Q0K?^V~-`@L7Ms{0T6Raes&!|?K<YTE2Ej3)VP
zp*N>gkV@~>=-dcrl3`g%J2gr?Gx$R7)2dRGImVWq%Sd1=ZRRt}Ip@%=*+DD@_VXJr
zI*tzQn2db1$!KcLb~-YDsn9#938}vt$+~LyqF(C>NH)4cIqTyC^s8`+qPG{KuD#P(
z+37Uew|fVgQ)Z6aV&wEr)^MErYCElJD4``kYSE0K7TVKchYLE&Ns7Zx)F~7RQ^ri7
z+j3wJQneK;EVN_atTkqbhd866opv;N#!qN6y-M;Yo*{~iLex2H7wLHDhT5L_v(}CE
zsJK3l?u#|W3ALAr+j2Md^@vS$s^wT5hR0xS(R1{jm@kyAw_<;EOX%=p8Gf+nsp$2r
ziR9XtVKK6lvg^a~-`|DvG~<zY^2%oP>xN7s>vTcqH`}saRW-eSzgz4a>WLd%Cos*x
z<tS_LRdjqoFRk-_NsaF=WTRbQl3U$jw4=EJt^MpJWrvNh+SGzZz1Gsi)D|?mCy9BE
zw`E}tu*bQ}9Q#&CXw~sbx^=FMX;1trep=c_sx!l}y8AOKB{rc~569sHMH2dX>Sa1F
zRgSY~t)szD=1J=>)T8^`nyI6o9Wwo40y>Za=Nx+aqO1>EXvkm-{IzElo%hlK_at3H
z)n|)Yswxy6eJ~Pjxl%xnJW9sF+Ve>BbOwDtqLJ40df~ua6DqYXLix;|EpW7C)zPu+
zlfDKNvkcB87}rWoG9B?Q^>ETNtejT-D}cE`KBaO{yP&OWMyn#y@bspQbm(ad^uY8a
zab9>A(R(2*M3IdPWbnSC{w(b-4PblQEa}b89M+PO!~Xfgon#(e%1YExI8~D%W;Bn-
zxnu8$L##4TNp1#vepf=<Xat?~<!dx^pBpKKcd_|(Zp^M#L4$(#h!NIZ)Fiu?jEw80
zbC<(+y!KgPVOBMY%eBLkFD?@6vTW!>|E*MrzCbS*9i{<^t7-es;q0KZo2VR8qI^8@
zBf4J!XXx4=L7S7$l2P+L;GIV?dhe|mA@p7xsrS=RKjjRRal{*!xJ_i&_D7-UL)~KG
z+7jC51bf53NFWim3jF&u1^WD$J=?Rw@7werr{VesuTe~m$T~b@(8&Ym;9Fp4q$A5M
zaO@ck4e7W_W8|5%Bf=cN3UgrA4+hYp_5e1w?<Vr|k6~&>J-zhA2ETi0DII($lYW~1
z3vFDyfVR9)G0h}LQuh8WrAgim@%dyp(_6SsxBBPP_Vb%j<&z>-8drcfMGrw&7ut#n
z*D%4ic_vlni0Jacy{J9^yx8ipi`ATRqJGn7Gdued_&;nCYD|k{E*ZyB*{QoILq4DV
zve;4lPIVhCVe#}g*>tSwE+(NKw@@9uL6^Gjqs_hgJVH6-1dags0!#pqLa4juZM;4h
zuvnFz<C7deDLyTIRkoVv9u9)O3SAB&&qXxo$z<z8xehNreR}?ZQ0ILh<xt1x1d``1
z8aTZ|Ir-H1q_o5=XqF{|UwI(6yPMEkZ@J>X*{0ytAzRTIm))cpzM~IcP(&xx<)}k*
zU7WVM89j{aLJ`?6WL;D_Iq&X{?|tNr4?e3FPJF)>xyEcp-$VY0UxOnig(`I9uOFj>
z)~Cgtc}95u{b5qo&JLozSb)X_-WHnXP~?6p5N&vQ2c`a_4L$Go-xPe|vEX@@hH+Xz
zox=%W4M<$9PRmJDr>W8*>2glWifm}}0DZq#`WSG%KgXEIg~JJ84_KMFCVrJlwIVHj
z2@kbbWa65?z@<zLJnQ;-jG-Tood<yDeDYZHyieZth7XgyqExABAcSUF4d}CeeXjH7
zTm-@O8*}0F=ehU|bh(imW1W>zful)daR%|WTu;VE-IX@Uwvfh@cIia5J!u@(B#!>0
zP@)$8WQE%j5>r+#I;=A#?MLm9eU^!+5tb<r6<iY()}KhxDczEMTAbJu`laxwp+tCL
zGh1RI6NvMGf#jR9Sh##mMpPG1*4pn8$*{*MLV36`$&C#pcLK%)WM6qC?EbcbxMqD=
zd(2}Qaa*%da;%LNjs<O#KA1O?l&`H7!!BK|4OwkQBOd$L{(h-d44z&@>O%a)p~dsa
zjkcA<NV}i(m>(41>naeZe4Y*Gm--6t+}=Qvgz;ia;UICPW2Df!P$rF^)E3ZMw?m8^
zKAP~m;BDRP^ObL<yC--YdHlI_?XUB>umu?MZzB`ck=ZNsOB)XUd(H2G@)U)5?D1AH
zVT(W6UFk&Ji|nNq+a#&|onqyZoR#8F+E<doY?P9(jVdq@1b7PdEr4(UUrQgte1b6J
zb#9-}A@_kx?vtWl^7+=6fzW26TW>O1ULeuyD-7#_uTAb7mwb&40`Rez0StUl1qS{n
zllAKLO?h8~eXeV;&viIB4=;0I>>!M|y*Kf;E?b$$RIcOU44eas5$ENc-u;r>G6(SI
z6_1U<22^!(!biw?^frx*48K?EZU2w29-w3JmFx4qoLgT8gI97Ln-%op&p#;t$M+Ha
zedPT<I~aT)!1)aR`$F9iSN<&F@#ACReg0ec`qGcU3T*3b8vVzn6LjRd-0vU&_nqf?
ibFLrs;~Uzdmu8Rj(z=IB<AK0xs-Jgj&M(*3LG|D5tqIcr

literal 0
HcmV?d00001

diff --git a/examples/nntool/mnist/model/nntool_script b/examples/nntool/mnist/model/nntool_script
new file mode 100644
index 000000000..61330e449
--- /dev/null
+++ b/examples/nntool/mnist/model/nntool_script
@@ -0,0 +1,10 @@
+adjust
+fusions --scale8
+set input_norm_func "x: x/128-1"
+aquant images/* -s SQ8
+imageformat input_1 bw8 offset_int8
+set graph_reorder_constant_in true
+set graph_produce_node_names true
+set graph_produce_operinfos true
+set graph_monitor_cycles true
+save_state
diff --git a/examples/nntool/mnist/model/nntool_script16 b/examples/nntool/mnist/model/nntool_script16
index b54eb457b..d41daf684 100644
--- a/examples/nntool/mnist/model/nntool_script16
+++ b/examples/nntool/mnist/model/nntool_script16
@@ -1,5 +1,9 @@
 adjust
-fusions
-set dump_tensors 0
-aquant -f 16 images/* -D 255 -O 0
+fusions --pow2
+aquant images/* -s POW2 -f 16
+imageformat input_1 bw16 out_int16
+set graph_reorder_constant_in true
+set graph_produce_node_names true
+set graph_produce_operinfos true
+set graph_monitor_cycles true
 save_state
diff --git a/examples/nntool/mnist/model/nntool_script_emul b/examples/nntool/mnist/model/nntool_script_emul
new file mode 100644
index 000000000..af4be16e8
--- /dev/null
+++ b/examples/nntool/mnist/model/nntool_script_emul
@@ -0,0 +1,11 @@
+adjust
+fusions --scale8
+set input_norm_func "x: x/128-1"
+aquant images/* -s SQ8
+imageformat input_1 bw8 offset_int8
+set graph_dump_tensor 7
+set graph_reorder_constant_in true
+set graph_produce_node_names true
+set graph_produce_operinfos true
+set graph_monitor_cycles true
+save_state
diff --git a/examples/nntool/mnist/model/nntool_script_emul16 b/examples/nntool/mnist/model/nntool_script_emul16
index acdd3ea47..964e75d63 100644
--- a/examples/nntool/mnist/model/nntool_script_emul16
+++ b/examples/nntool/mnist/model/nntool_script_emul16
@@ -1,4 +1,10 @@
 adjust
-aquant -f 16 images/* -D 255 -O 0
-set dump_tensors 1
+fusions --pow2
+aquant images/* -s POW2 -f 16
+imageformat input_1 bw16 out_int16
+set graph_dump_tensor 7
+set graph_reorder_constant_in true
+set graph_produce_node_names true
+set graph_produce_operinfos true
+set graph_monitor_cycles true
 save_state
diff --git a/examples/nntool/mnist/model/train.py b/examples/nntool/mnist/model/train.py
index 0c59040e4..bd52052d0 100755
--- a/examples/nntool/mnist/model/train.py
+++ b/examples/nntool/mnist/model/train.py
@@ -29,7 +29,7 @@ def create_parser():
     parser = argparse.ArgumentParser(prog='train')
 
     parser.add_argument('h5_file',
-                        default="output.h5",
+                        default="model/output.h5",
                         nargs=argparse.OPTIONAL,
                         help='Output - Trained model in h5 format')
     parser.add_argument('-b', '--batch_size',
@@ -38,11 +38,8 @@ def create_parser():
                         help='training batch size')
     parser.add_argument('-e', '--epochs',
                         type=int,
-                        default=5,
+                        default=3,
                         help='training epochs')
-    parser.add_argument('-c', '--clip',
-                        action='store_true',
-                        help='clip input to 7 bits')
     parser.add_argument('-B', '--batch_norm',
                         action='store_true',
                         help='carry out batch normalization')
@@ -68,19 +65,12 @@ def train(args):
         x_test = x_test.reshape(x_test.shape[0], img_rows, img_cols, 1)
         input_shape = (img_rows, img_cols, 1)
 
-    if args.clip:
-        x_train >>= 1
-        x_test >>= 1
-
     x_train = x_train.astype('float32')
     x_test = x_test.astype('float32')
 
-    if args.clip:
-        x_train /= 127
-        x_test /= 127
-    else:
-        x_train /= 255
-        x_test /= 255
+    x_train = (x_train / 128) - 1
+    x_test = (x_test / 128) - 1
+
     print('x_train shape:', x_train.shape)
     print(x_train.shape[0], 'train samples')
     print(x_test.shape[0], 'test samples')
@@ -90,16 +80,15 @@ def train(args):
     y_test = keras.utils.to_categorical(y_test, num_classes)
 
     model = Sequential()
-    model.add(Conv2D(32, kernel_size=(5, 5), input_shape=input_shape))
+    model.add(Conv2D(32, kernel_size=(3, 3), strides=(2, 2), input_shape=input_shape))
     model.add(Activation('relu'))
     model.add(MaxPooling2D(pool_size=(2, 2)))
-    model.add(Conv2D(64, (5, 5)))
+    model.add(Conv2D(64, (3, 3), strides=(1, 1)))
     if args.batch_norm:
         model.add(BatchNormalization())
     model.add(Activation('relu'))
     model.add(MaxPooling2D(pool_size=(2, 2)))
     model.add(Flatten())
-    #model.add(Flatten(data_format='channels_first'))
     model.add(Dense(num_classes))
     if args.batch_norm:
         model.add(BatchNormalization())
diff --git a/examples/nntool/mnist/train_model.mk b/examples/nntool/mnist/train_model.mk
new file mode 100644
index 000000000..c17bb7710
--- /dev/null
+++ b/examples/nntool/mnist/train_model.mk
@@ -0,0 +1,21 @@
+# Copyright (C) 2020 GreenWaves Technologies
+# All rights reserved.
+
+# This software may be modified and distributed under the terms
+# of the BSD license.  See the LICENSE file for details.
+
+MODEL_TRAIN = model/train.py
+MODEL_CONVERT = model/h5_to_tflite.py
+MODEL_H5 = model/$(MODEL_PREFIX).h5
+# Increase this to improve accuracy
+TRAINING_EPOCHS?=1
+
+$(IMAGES):
+	echo "GENERATING INPUT IMAGES"
+	(mkdir -p $(IMAGES); $(MODEL_PYTHON) model/save_samples.py -d $@ -n 5)
+
+$(MODEL_H5): 
+	$(MODEL_PYTHON) $(MODEL_TRAIN) $@ -e $(TRAINING_EPOCHS)
+
+$(TRAINED_TFLITE_MODEL): $(MODEL_H5) | $(IMAGES)
+	$(MODEL_PYTHON) $(MODEL_CONVERT) $< $@
diff --git a/examples/nntool/visual_wake/Makefile b/examples/nntool/visual_wake/Makefile
index cde741ccc..80b51b7a3 100644
--- a/examples/nntool/visual_wake/Makefile
+++ b/examples/nntool/visual_wake/Makefile
@@ -7,7 +7,7 @@
 ifndef GAP_SDK_HOME
   $(error Source sourceme in gap_sdk first)
 endif
-
+MODEL_PREFIX = vww
 include common.mk
 
 IMAGE=$(CURDIR)/images/COCO_val2014_000000174838_1.ppm
@@ -16,23 +16,27 @@ io=host
 
 QUANT_BITS=8
 BUILD_DIR=BUILD
+MODEL_SQ8=1
 
 $(info Building GAP8 mode with $(QUANT_BITS) bit quantization)
 
 NNTOOL_SCRIPT=model/nntool_script
-MODEL_SUFFIX = _8BIT
-TRAINED_TFLITE_MODEL=model/visual_wake.tflite
+MODEL_SUFFIX = _SQ8BIT
+
+#LOAD A TFLITE QUANTIZED GRAPH
+NNTOOL_EXTRA_FLAGS= -q
 
 include ../common/model_decl.mk
+TRAINED_TFLITE_MODEL=model/visual_wake_quant.tflite
 
 # Here we set the memory allocation for the generated kernels
 # REMEMBER THAT THE L1 MEMORY ALLOCATION MUST INCLUDE SPACE
 # FOR ALLOCATED STACKS!
-CLUSTER_STACK_SIZE=2048
+CLUSTER_STACK_SIZE=4028
 CLUSTER_SLAVE_STACK_SIZE=1024
 TOTAL_STACK_SIZE=$(shell expr $(CLUSTER_STACK_SIZE) \+ $(CLUSTER_SLAVE_STACK_SIZE) \* 7)
 MODEL_L1_MEMORY=$(shell expr 60000 \- $(TOTAL_STACK_SIZE))
-MODEL_L2_MEMORY=370000
+MODEL_L2_MEMORY=200000
 MODEL_L3_MEMORY=8388608
 # hram - HyperBus RAM
 # qspiram - Quad SPI RAM
@@ -42,14 +46,14 @@ MODEL_L3_EXEC=hram
 MODEL_L3_CONST=hflash
 
 pulpChip = GAP
-PULP_APP = vww 
+PULP_APP = vww
 USE_PMSIS_BSP=1
 
 APP = vww
-APP_SRCS += $(MODEL_PREFIX).c $(MODEL_COMMON_SRCS) $(MODEL_SRCS)
+APP_SRCS += vww.c $(MODEL_GEN_C) $(MODEL_COMMON_SRCS) $(CNN_LIB)
 
-APP_CFLAGS += -O3 -s -mno-memcpy -fno-tree-loop-distribute-patterns 
-APP_CFLAGS += -I. -I$(MODEL_COMMON_INC) -I$(TILER_EMU_INC) -I$(TILER_INC) -I$(TILER_CNN_KERNEL_PATH) -I$(MODEL_BUILD)
+APP_CFLAGS += -g -O3 -mno-memcpy -fno-tree-loop-distribute-patterns 
+APP_CFLAGS += -I. -I$(MODEL_COMMON_INC) -I$(TILER_EMU_INC) -I$(TILER_INC) $(CNN_LIB_INCLUDE) -I$(realpath $(MODEL_BUILD))
 APP_CFLAGS += -DPERF -DAT_MODEL_PREFIX=$(MODEL_PREFIX) $(MODEL_SIZE_CFLAGS)
 APP_CFLAGS += -DSTACK_SIZE=$(CLUSTER_STACK_SIZE) -DSLAVE_STACK_SIZE=$(CLUSTER_SLAVE_STACK_SIZE)
 APP_CFLAGS += -DAT_IMAGE=$(IMAGE)
@@ -63,5 +67,7 @@ all:: model
 clean:: clean_model
 
 include ../common/model_rules.mk
+$(info APP_SRCS... $(APP_SRCS))
+$(info APP_CFLAGS... $(APP_CFLAGS))
 include $(RULES_DIR)/pmsis_rules.mk
 
diff --git a/examples/nntool/visual_wake/README.md b/examples/nntool/visual_wake/README.md
index aaac44909..f1a5aef36 100644
--- a/examples/nntool/visual_wake/README.md
+++ b/examples/nntool/visual_wake/README.md
@@ -2,9 +2,9 @@
 
 This is an implementation of the visual wakewords challenge winner at https://github.com/mit-han-lab/VWW.
 
-The tflite file is a converted version of the trained float model and quantization is carried out in 8 bit activations and weights using sample data from the visual wake words dataset converted to ppm format.
+The tflite file is a converted version of the optimized uint8 model released by the MIT group.
 
-There aretwo different builds. The first builds in emulation mode where the AutoTiler generated model is compiled using the host gcc and can be run on the host with sample input. In this mode the calls to the gap SDK are aliased onto the linux API (or ignored). The model runs in a single thread so the cluster cores are not modeled. This mode is interesting for validating that the model is generating correct results and evaluating the real quantization error using the AutoTiler CNN kernels. You can launch this build using the command:
+There are two different builds. The first builds in emulation mode where the AutoTiler generated model is compiled using the host gcc and can be run on the host with sample input. In this mode the calls to the gap SDK are aliased onto the linux API (or ignored). The model runs in a single thread so the cluster cores are not modeled. This mode is interesting for validating that the model is generating correct results and evaluating the real quantization error using the AutoTiler CNN kernels. You can launch this build using the command:
 
 ```
 make -f emul.mk clean all
@@ -16,7 +16,7 @@ This produces a executaple file "vww\_emul" which accepts one argument, the imag
 ./vww_emul images/COCO_val2014_000000174838_1.ppm 
 ```
 
-The images have been tagged with the expected output. The \_1 at the end of a filename indicates that there is a person in the image and a \_0 indicates no person. The emul binary also dumps the tensors produced at every layer and the actual weights and biases. The AutoTiler may have changed the order of these tensors to reduce the use of 2D DMA transactions from external memory.
+The images have been tagged with the expected output. The \_1 at the end of a filename indicates that there is a person in the image and a \_0 indicates no person. The emul binary also print out the tensors produced at every layer and the actual weights and biases. The AutoTiler may have changed the order of these tensors to reduce the use of 2D DMA transactions from external memory. To disable the print of the tensors you need to set graph_dump_tensor to 0 in the nntool_script_emul.
 
 The second build command builds for GAP but the output can be run on a real GAP development board such as GAPUINO or on the platform simulator GVSOC. Running on GVSOC allows the generation of execution traces. In this mode performance data is generated with the number of cycles used by each layer and the overall graph and the number of MACs executed per cycle.
 
diff --git a/examples/nntool/visual_wake/common.mk b/examples/nntool/visual_wake/common.mk
index 12603ee79..f3cfd41c2 100644
--- a/examples/nntool/visual_wake/common.mk
+++ b/examples/nntool/visual_wake/common.mk
@@ -4,7 +4,6 @@
 # This software may be modified and distributed under the terms
 # of the BSD license.  See the LICENSE file for details.
 
-MODEL_PREFIX=vww
 AT_INPUT_WIDTH=238
 AT_INPUT_HEIGHT=208
 AT_INPUT_COLORS=3
diff --git a/examples/nntool/visual_wake/emul.mk b/examples/nntool/visual_wake/emul.mk
index 758df0205..bfa0a7d9f 100644
--- a/examples/nntool/visual_wake/emul.mk
+++ b/examples/nntool/visual_wake/emul.mk
@@ -5,9 +5,11 @@
 # of the BSD license.  See the LICENSE file for details.
 
 include common.mk
-
+MODEL_PREFIX = vww
+EMUL_MAIN=vww_emul
 QUANT_BITS = 8
-MODEL_SUFFIX=_$(QUANT_BITS)BIT_EMUL
+MODEL_SQ8 = 1
+MODEL_SUFFIX=_SQ8BIT_EMUL
 
 $(info Building emulation mode with 8 bit quantization)
 
@@ -15,30 +17,35 @@ $(info Building emulation mode with 8 bit quantization)
 # the quantization. This is because in 8 bit mode we used signed
 # 8 bit so the input to the model needs to be shifted 1 bit
 
-NNTOOL_SCRIPT=model/nntool_script_emul8
-TRAINED_TFLITE_MODEL=model/visual_wake.tflite
+NNTOOL_SCRIPT=model/nntool_script_emul
 
 include ../common/model_decl.mk
+TRAINED_TFLITE_MODEL=model/visual_wake_quant.tflite
 
 MODEL_GEN_EXTRA_FLAGS= -f $(MODEL_BUILD)
+NNTOOL_EXTRA_FLAGS= -q
+
 CC = gcc
-CFLAGS += -g -O0 -D__EMUL__ -DAT_MODEL_PREFIX=$(MODEL_PREFIX) $(MODEL_SIZE_CFLAGS) -DPERF
-INCLUDES = -I. -I$(TILER_EMU_INC) -I$(TILER_INC) -I$(TILER_CNN_GENERATOR_PATH) -I$(TILER_CNN_KERNEL_PATH) -I$(MODEL_BUILD) -I$(MODEL_COMMON_INC)
+CFLAGS += -g -m32 -O1 -D__EMUL__ -DAT_MODEL_PREFIX=$(MODEL_PREFIX) $(MODEL_SIZE_CFLAGS) -DPERF
+INCLUDES = -I. -I$(TILER_EMU_INC) -I$(TILER_INC) $(CNN_LIB_INCLUDE) -I$(MODEL_BUILD) -I$(MODEL_COMMON_INC)
 LFLAGS =
 LIBS =
-SRCS = $(MODEL_PREFIX).c $(MODEL_COMMON_SRCS) $(MODEL_SRCS)
-
+SRCS = $(EMUL_MAIN).c $(MODEL_GEN_C) $(MODEL_COMMON_SRCS) $(CNN_LIB)
+$(info CNN_LIB++ $(CNN_LIB))
+$(info SRCS++ $(SRCS))
 BUILD_DIR = BUILD_EMUL
 
 OBJS = $(patsubst %.c, $(BUILD_DIR)/%.o, $(SRCS))
 
 MAIN = $(MODEL_PREFIX)_emul
-
 # Here we set the memory allocation for the generated kernels
 # REMEMBER THAT THE L1 MEMORY ALLOCATION MUST INCLUDE SPACE
 # FOR ALLOCATED STACKS!
-MODEL_L1_MEMORY=52000
-MODEL_L2_MEMORY=307200
+CLUSTER_STACK_SIZE=2048
+CLUSTER_SLAVE_STACK_SIZE=1024
+TOTAL_STACK_SIZE=$(shell expr $(CLUSTER_STACK_SIZE) \+ $(CLUSTER_SLAVE_STACK_SIZE) \* 7)
+MODEL_L1_MEMORY=$(shell expr 60000 \- $(TOTAL_STACK_SIZE))
+MODEL_L2_MEMORY=370000
 MODEL_L3_MEMORY=8388608
 # hram - HyperBus RAM
 # qspiram - Quad SPI RAM
@@ -47,7 +54,7 @@ MODEL_L3_EXEC=hram
 # qpsiflash - Quad SPI Flash
 MODEL_L3_CONST=hflash
 
-all: model $(MAIN)
+all: model $(EMUL_MAIN)
 
 $(OBJS) : $(BUILD_DIR)/%.o : %.c
 	@mkdir -p $(dir $@)
diff --git a/examples/nntool/visual_wake/model/nntool_script b/examples/nntool/visual_wake/model/nntool_script
index 70d0c70d0..48ede4bb5 100644
--- a/examples/nntool/visual_wake/model/nntool_script
+++ b/examples/nntool/visual_wake/model/nntool_script
@@ -1,19 +1,15 @@
-set debug on
-weight_equalization 0.001
+set debug true
 adjust
-fusions
-set input_norm_func "x: (x>>1)/128"
-set input_divisor 1
-set input_offset 0
-set l2_ram_ext_managed 0
-# set dump_tensors 1
-aquant -f 8 images/*.ppm -T
-qtune 65 out 6 10 
-nodeoption * ENABLEIM2COL 1
-nodeoption 0 ALLOCATE 1
-set graph_reorder_constant_in 1
-set graph_produce_node_names 1
-set graph_produce_operinfos 1
-set graph_monitor_cycles 1
-set graph_const_exec_from_flash 1
+fusions --scale8
+set input_norm_func "x: x/128-1"
+imageformat input_1 rgb888 offset_int8
+set l2_ram_ext_managed false
+set graph_reorder_constant_in true
+set graph_produce_node_names true
+set graph_produce_operinfos true
+set graph_monitor_cycles true
+set graph_const_exec_from_flash true
+#set graph_dump_tensor 7
+set graph_trace_exec true
 save_state
+
diff --git a/examples/nntool/visual_wake/model/nntool_script_emul b/examples/nntool/visual_wake/model/nntool_script_emul
new file mode 100644
index 000000000..ea2d4f9b3
--- /dev/null
+++ b/examples/nntool/visual_wake/model/nntool_script_emul
@@ -0,0 +1,15 @@
+set debug true
+adjust
+fusions --scale8
+set input_norm_func "x: x/128-1"
+imageformat input_1 rgb888 offset_int8
+set l2_ram_ext_managed false
+set graph_reorder_constant_in true
+set graph_produce_node_names true
+set graph_produce_operinfos true
+set graph_monitor_cycles true
+set graph_const_exec_from_flash true
+set graph_dump_tensor 7
+set graph_trace_exec true
+save_state
+
diff --git a/examples/nntool/visual_wake/model/visual_wake_quant.tflite b/examples/nntool/visual_wake/model/visual_wake_quant.tflite
new file mode 100644
index 0000000000000000000000000000000000000000..8d33e4f36cfb83209d69eff2e1815d31ed61b076
GIT binary patch
literal 309136
zcmaglcd#VaeJJJuiF%eTmZc|A65k^wkrYLOBuFAGfDPDu_vV}?=Nx)E=Qz{TJvrxl
z@7$c@=77Zl3t$mQ03;*^u_RieRn)U&vuxLUPgSZC{ph2TT;(eN;i>wnyH9tY?mpAu
z^f|x&g27;z?H_#+48ZSyG<?qRwBa`lpE3Nl;j>`MVE8n!d+TYCVgP9d!xw?4fZPA@
zX~S=U;q1iKi7#G-<CGsG{Jw7+{t(P;fO!HC`^BdXw!i$eVf26fl;QQi|CHhI<Wq)M
zk3MCXUH+8e7mJ@V{K)euL!bLohEu=)DZ|sh3+DgwDX`vChF`w(l;I12@YYj?-Fr_N
ze&g;_hSM8Q8A9t%8BCR@3?G!hPy<8tDZ@V{L3#oVX)vTfy6-8&VE<Ew`&Yqwr=Bt}
z&x7>Of$2YZ%J9r@K4tjne-D;@3giop;&cDiU<myegW;$D$zaI*oxyPW7vNa`!eIEP
zpMdo584REME=YUJVEFqt4F=OKFz+Tv+cp?J*aY*NV7vjwi(ni$odbDf4Tg$lF#J4a
zFet!e0<0&3^#p@~VZrji-;)LdLKqB>af87He1aGZmw?}nfOWzK!*jsT10W6frO#j(
z1%Bl=7!CoO3yeF#{@D$N4)FIjgW*0f2>b?6u!7}*pIN~2z^}{(!+!;S3H$;$1w0FU
z1^5E+S>Q9k)4;DxU|Haoz%PKG0Y3sh0-gY`1Gj-gKmbO8F94qfJ_9@r{K^RO0DcMl
z0{9v5Bj6+83Gg~_8#n|ufh8aY_<&Quv%s(BK_0*ppaB#B8}Kaft2vMt@B}zD1GWkL
zXd0vePk;vC15N=?13#Jq+W`om4|o;$4Dho_un)i{KmdKftH5V~pG|=EfK7k^`u=4&
z4)zmx75EJBH1MM_una%|eZXgd&j3Fg1@nMSfB^b{&klikz|+952Ep+GzXW~(+y)MT
zO@ILUfLDRf06!Z5c>$Y!psaufPykYZ01!Y7cop~z@HFtNs~~^im%!`5ZQu~t1eSmX
zPykYZ01!Y7@BubJI0w=I-`Bx3Fbj+VeZZ^0Dd1V)E5H|k&jL^X0oc#q2g9eqwx0sq
z27Uqj4EPc75%2_f9k>k~0-L}R&;SZR3J?GShylKTnFjY4aH$w#fDZttxM3CmMQQ+t
z3hq$gxB;+P!{3kn^RIsid;|XHU;oSW7lHr3-xtRJ`PW|rz5+Z0JPSMroC2_a%jc&c
zlNPI`AnkCWG5#ua?HQy{tYc<&`kPQ)&a<qhwzGVcYuzpG{7omBlCq83;RhXoU_>FK
zO8ImypUo62-Qv>SwwBD)+qK2b`rg@(@BQwd@Ba1=7Qb-#lP~_=`lmORpMSXad*9vr
z){|;e=TjOLXOo;5h*5(Rfo8fGu*gHt_`N^$`F=d@|Gs_fherSZWtsY9-0^+C?dKEW
zpGNjHbOZHnXk>$Oyj$_F`rSR1d&rL5O9h)M+2x>H6}gz8mN!c~>#ONpcy%jv>tyo_
z6X5uPuK>>g&jQZ@r-0MItH33o4;TbSfk|K%Fab8e1uP@~TIPmN{mZ@37Gs+tYRh>;
za;={o{u<GonsDd=rMCVzO?Ne&-WIkO)QKD8;<v^NS@F?Ibs~daxEfCU%<|EFVFoMN
zzL7Pn3($@76Imh!JNLY}wEo``nUi0C^%(X4;~3+pzWw4f{Nu{%cay${?19`EWooW=
zjlP&&TJ8MLFF+GdA*jjYc{;TsI<l4OLl;SFkAr*GX|a~6zB>5UBZu!9_u5Ku13f&r
zQt>@rG|yUk(HlC4UC&`=|H@ZVClkRRG34Z#+m(~l&1~tqxSF}M+-1~)?(xtWv7Fgv
zP`5~>(|k)RCTnw-9E;<ZKA6JOS0gRD8qa2^5vrm3R@hWNTHcxH>z}CZ^=<8cFHpz?
zDOF9R^L#MKCZ!}_<V-mC$JV>%#kZ=vV`sVE7?;933Oy3ZGeRL2lYF|WmGa@w;JMD%
zUndKtuP4_(f27|1`lUZFEWJ&zmP0{AOvxs@$a~YR#Y+w+7UrEeT31rObeq*<c#clM
z5;z;Ba*}D!VFZ)*J)&&0?nr$1<!e_w?stCc>_nOK)q24$<Z037ijeiwwfrI?2geJU
z+NRaI<KBkJ;lD6L{cE{7SgK#~4%GgSGapa9oH)*0|AJH>RHT9!TO-%<s_eh9kNxYp
z@c4HO2KUwMAjhZT;YuI`TQc*Z>?wy8O65b=!$I$&9WyiGLF*_#GCewzLPtGFay((O
zX{_&BxKHsX;<J+A_VTI06t*x!pPwq`mu7-j6kVBeevNeyt(Xsvd7V^eyO|cQH82Y;
zM(a7x%2j{T8t`TNQqhbs6dRtQ_?l4m6_A+ss%@5!T#h&URsR^hye!&mHZtON<g;QU
zI#Y!m>r5#^K&Hf;XBaAk^8)FO6ZPGWWg%3ll6V`9&K=CS28~1WbM3RUyv;fHCliMb
zA2J&nFM3@4w4Zn;l6ATY&$!(ed-d9lHPS_=y?sF!)D|uH_O&Tn+52jK_PN^FDM>Y_
zkd%LXF3>SyGw>w)!l=o`!ET98M<dh2iC2&dDYQQ=H~$o$6#{Ms%@l{Cp+x>tdTvs`
z+_||hKn!cFu_6;zrwcR9XFGVXeLkV?)Aln-f7TPGN7!4hh9T8U`Wu0A;3yXRQ(FF5
z3az8g86gvJp0Y6Ekl>X0E|e7#kcYqqLm@;IqJ)PE%okIViGyIT+b1o}g<P`4<Dys&
z4@{C449^^#!Gw}}KDmg8r);AL9dSpUT9_-q5Z69W#`5C?WeHBB*OG`M9LmNhXN;uu
zxIduE9<>!N#_VK)s)d~~mMXFe$_Z|D5phEP{kG<b!z4?=Fd<@ugyu~4&KXq;h>}n@
zuhMKyWzeFYh$gmTN%(A^yjoKAcoP58-sk2we`^HKz^7b8&GX$lvSmd0RDFq5U)>z@
z-wY=&#J+qqJ+b`IG{sL}{zD`uPS`HdG3CtGfbueZ>Z`43y&ZaG5E~ty`1;(l(upT}
zrBAkWM&|1MS5b`~L7by2tfp{6@VYr&B>N?ohdlFq!4Z}6NYZqGLeBP!F{aq<n@!C1
zAyE1R+QG)=g&)oh7AHSJnJ<P1`|B2q%|C_TG7+VCrh4D&-*D+t3&}1PuZ1tXHro=;
zwPtA4<*ubYedc+DAURLeGg5jqc<G#1th2FU)pgQx@_DBfYFlG(x&D3j!Pcc(i00%N
z^6ac<Qp(Pt10|)*PLR{+Rxup1Vh7T0<6wf6XEZi^jSftY?kx{p<1`CGWbaZYDbk~2
z;|b>#a{}MOa#I^gQkKtxKP(X}akJVbo4=sXnnxx>R{OHzG{LJOW8n%iFUF^XzS#D1
zptllULNRB0>Y^}^{z}jpXJ_jx(ZFm1jYTU#L0Xl)l^WwMV09-O#Qh5af51QUybxSH
zUl~np-3<*VMzV>z)2T0d5LeLarO1U{vngH~3=!cP?!UQ#Ow8!wFgN>hZWPKmL|1W~
zqGzDa3PKj-B+1P)9%*iJ!8K*|J4TFbA_YZ8^H;IRRg(=5TpEp1{){pON19MWjazU^
zx1B};1rw<|TiUp5sZs8-qefcxUI~kt0^`cEL$gq}SfTHa!`<w(U$ep<)dw|LE1YS2
zb45xtKQqht@dAeTYfX7}-z|yz!TH?4+D*%zIWm}JXJIIFmGeD+k;|CzFlJ>*5tYmy
z+*I@7v*_Z09<^U(RomcKVO(?WlJOh#Qa&))_CZ6n%x|@qva86q<4n-GWKx~+3(eHU
zRUb5<2hx8y5PU(9Uq*`MffO3N^i66Vg~Le628Y6lZ>m>WUs6Y|jWg9Xsx_}Mp>H<t
z&=>yW(D{kG#N(fgKP4;=?+sVNsl@oyUvn|nhDNntj=0W+zTu~jiy`D}>~-mDw~!YL
zt=~VqO-g4hw~h}MtT&r|=fbCEa_F37I&La+)mC(HtqQl@)P`9(=ZciRCQOwsJ5kX;
ziQ#!uc$_|CM=jA}!hZ?Vr3_>WqG67(XC*6Ej0;A^<{~C3G=NV<C1@U1NFm;jvoS)D
zLlz3s%XJHj<|N#NFm9`pjc4$TBziR$Q;$WgImn-8FTNx)8E5Frcs#T`da1~2FHX_M
z1+TGHjOS3*;flf8HCHg3aP8p>n)&k7Nc=Pc&(Hn4+iVm$-K);{;%=>GkGtMl8}pOy
zqWneAOvZ?m(fsikln#WWi&iu3Onb?&W6$d6r$#2AWzro(!D$ZX%h5$6mPhrVITVCS
zK@uaKoAbqmI?@gB&}?ubl}$P*HsR#^PdTYktRb$BK(1kyJY)B#vrU*V1>$62vP7$p
zW?=>*XiY6;RF>2d6glB3Ee9nH4Tp(wA{Q4Efo&gQLfq?qt(5AEx1exHnaV`1oEML{
zy_1tItCB{}XIz-g12ar~j5LXiJr)Z|;naM{5^%Yb=L+pxQQAj~!?uBh9#^MB)#0iB
zKm-yS9!u30v$-4Li!-XHGVPo(jvqTV21cmu7?UWG6Z8Ae;2kb#>|h-#-WS9%BsLkI
zuSsQZDKXSW^!;z3Uamy>sHi1i&%*v!!!b<s`(}xvd+wqj=PmA3fYQK|fNl89@ZQKM
zsE*h%?%n6DN%d<P%!CP2EP{)eACARYacVAzVU#Jz2+>5;SyeD(elo2!seU*!)u(%3
zjn3G<v&zTE6R)aM^Rs5BHXLGNlcRMT$_26qMyHpzxSQpvn0;zqUdv5#iNRd)hDSG<
zW(VU?zMtP-3HV!?zQIt6m^t0M63?RE17sP|z~6Zc*_rdQG6){#OQiBb)ap$H*kC%2
zOZAcXpX%8O*HjUv%WF&#s*Hihs7zZY=GN!TOOU62F&slh8ypZiF@*8NUG0iK!?N=u
z<BlG03deO)Nb7P@@J*4OVASUyE=MUdwHHo@Baz9;(nLB;4?BX<fXR!Ysu(>*F8gv`
zub5;OQ_oQSRm|&U;sdnTNX`)h{&?X#-sptO;`z1`+6b0B^O4f|qa<o~c<g~(C1@EK
zv3rI|d%;r&C#riWz(!IX&ZWBN$6!z}DcWag;gHY1Nh3Lj-)}1Vvw2Q((G_K;sMKYI
zoOAOcL=ET7lx={l>_jDHUQPxe%TyOR$`#stEo}8F<(DibOH6DBO$GaKSy<@jBn{z2
zkJwj(FfWI|G*ZciY!Eit$~p2lw}H+nHPjKJTu_XGk|hYUdL0Drqh!W2_^gMnGWCLu
z3t<Z(Bp7s?JTAc=C8QKzi4VXbiwTAJNL-y$!9{pBFex}iAG|q(UcsYr0TV&JJmU(P
z71R$~a~{%G3h`<r>xY7R3~{HDG8%&6bHlE2mJh=Ofk<$OG?%F$7YC)vxoIUmx3Ci{
z=e~hF<2FzKw!eM3i@7u5p?U8xIdy)7yLzAY91X?ykpnL?AO5VahLBNliVIco5SEtb
z<0QhvL?MlB!720Qaw{!)GJ`Q#?;oM`nqI%(9munKnCiFNg1*V9-xP3{OLn+oRhFp`
zM33PirEpPg!hZK?>e5wLAnp&!X(Pj0M5o&ymJ*(b2rXG&mTk!(l1RIaj`@Jc92sK$
z1vPQ4Uzi^`@AI99RVr=^5M|0+iFz-@ktCULaVe^`;aRFF6uw>Z4IyzByiV9+q17H7
zsPcVbmMA2G<!AuTj;l&9A8Npoj0IP?Q6eJ5uk3J2)~XWm34u<=m$acG)*r3J0-+M-
zjZgR<l!B3D`_v{WVpsH7gv&**!w-ohHrp>zad#*QZ+fiwaMHh757}j7<edM4CI)M;
zGR$1qxidssp~O(4Z+HgL8Z4>~+FoT3`P672jb0kkD3o>f=u}+18rLZ~0%bw%QKhgF
za~y!Kp^B}p&!2K7JY<<jj?vj@(}NkOta{37X*<1+shBNd9G4wAUz7+~FftFt?W;a(
zmPz5cc#!4nvTafu7jaTkks0lBxwJM_K40k{GIJ6C#KwHPgj~|K6*{Sn*pO_%g_M2K
zq#6lPP3ze0X-XqWaO#covMWN=uy^7%_E3V^A~ezTMnH|sdy!(qeTIuCho7JG<cGN{
z-U5{H_+f|a!n}gVX-7&<q&StaB-j8oO))~o4#galtkc#ouR-OcpAIlo5Ef|<PAg)>
z*&GbTbb+|+;bF)b@q~$(AKcX;G@dXfr(Jx^6!dd+*yVtwFrUc!(>{kgqSrlWL?qP0
zL78`lnb15MLROYXc~J=Ma+&I-D9gs|1E;NF$D~z>O2V8sv}NJ1mJxTvW^;CYx^gyy
zI?9OdOXpu88kVSEc1Kjwyl%~}cJykHYxycn4GskeM=XGjqZm@K6H((e?S@EusW@zl
zT_tjAb~;v^%o1>L!sD%%e26s^<E2srQS_Ji3@dU`&F=_1M1nzC%<px$69F<NTdN^e
zZo)3YooGl+c2t+TevjDVUKXux!H?Eb&CKp_e!<*~`S7qhSD(jylVi$`#`VDC9GinO
zlGm9HUKwvg-TL%wcx_Y`gD)`!+;298&C`yo?odt8Oq<>|f0pz^A@tIpOOSEn=K}%D
z#kX4HVWXw|U)pIjHdA~ne9<-ClrP*Vdl=%uUKGtsz1Tia?wvioG~-_Pu@n5M!bhs@
zcluwpMI*t3E&RlyBzyh!KZ--E1I~?F!epNHvv_7Kb+)BCGlU5hW0+$;%now1jyZqP
zAL6UBPQ=$q^Tqjf-lt5@%{bDSW>UE+t_+d<w;$9H&I7B-4HOz+t4xlvHBw}0W2BrY
zTsAk7j3p?;lnO`81PNV~Vc$6Kjr-;rg`i)Enez#H4#s`S>U1zA(;81=P;hcStkD^W
zv>@Jm5WLAML|j4%0*dEbQ=Z_MCt+tJi6mX-vbc@s0|}2k5sl1+ys7-z`H>0#KG$-X
zyi1W8vWR;e$yxs#$??rl!Gc=m=Y3`+mlH2}!@(dE#dEfZ5SV2$kcAwaJztWmxpa*S
zmb|4H><sfu^Wj}Fk5Vf-x1!0}X1H?2`FWpN`Zf>M`<j(e<7st1s?EAOihmlJ)~}8b
z9^nO8`1RoL5~9u1Z<(}AcH>ttV~H7om)h10LYB@4yptSuJe|2ob`Y9=>-^c!+yKrE
z7Dk<nE7Hg(^J&x9@;N+lQdsNXo4&B1WD$I1z%}t)ij7>YY*mOw&Z@5_%17y9b|Sgr
z>o_m?n;7dJZ#aW8YJ=HfhZw&7#)4yEbN)Djuge$0P$QN~AsOo<DwpWY!wr9U8`79E
zUYKaj<|8q<uT00~2vPCQU5xuwXPscnW^@F#JLd&k09%z~#a0bLg&hnp?wE1K#P<~)
z@)e#HVBKF!Li|xqSql5-ta(R-sa3!&pW=`h6g*l@kmS`NWnrSmxq`OQnB9zZ0!Fj4
z1S_V&Y?Gmb39Ri&m6<wUo>MQ?uUQr+i?d$)s5l#)amK<5dQDkQ(hQdicgNTzTM%hU
z1%-c}HO}oXHvSMB^1xW!F^`mI!Yb(*7ufntBv?o1;RP1bAkiLTg08i*(HE+-J{uGZ
zq1pJQnfNQScnm599Au^&9V$p}))go9cm$?WLk!)Bt`JkF_}UOF3Ftsb(#d(T)+mg+
z$#B8#MEvQ+l<TtB7cJSPNS4m<BRoG-KaWc|<gjwFj&3z+xZ;8fXoS_H-Zhvow*AG*
zv?|dy%Gj9c<QxtmN~w5a7Tm&R%<J&kFNZG0vKDO`o+`B;3^M*xmD{IGO$_?_=aGE>
zZu8O$YTx<UZ#<fL#y`;JHeGQwe0C}7d}pUTJ2cLC|HH0%y^82qEX4U+Y%=cq@b~NG
zsEHcuE1z*XY8PA~k11k7DDD5-mi%eZ9{m6I|Fki$|J$+#(C$_5F0|+{qFK@@A>l2@
zHnY(<Xr#MbZ)C^_k*`x?s4O5<orX2|HatXo&fK^e0`CGUZ!UDwcnXzd@j&Q?)JVHv
zTaRybD|(lBSgGe1C7QJ1c>WJYePy8-Y)B?h*=t>w64kY(kFNfWS92~Zk{`(-tC{1I
zjri^K_cUEC)p3~;Z}!T_wLRw@Z+a>D_;GUi(F#*uEWydpyNOU}*rWO1<#VgTT{*qc
zZ2O6Zo{i*~q8-byM+sq<1g~YA+*}S?ILFswP`0^?W-+*oJL-4$C@OLP^&jszEP;m~
z9=oi0qwj)92x0F*rqP(|SHlRK%`I(qIj`~y@FYZ~np=Afp8aq?cz6HvYB_qTy>mY|
zyM;Dt?7ki4;+xBLCJMJfl_axfYNXzu>ZvLl=%cpwZ%_!)EFZ?06usKxGUeFe0=ySg
z1NF5ey^~(pEvAd=dNdFVrR4+$?QfiH$W^L(qr#kgPZ!cTbezyLdlfx(eLcc7Rv>mU
zpa(sTSa$>3&dFkzy|=Ie>B*dH^T<||HsLJmkKv;0aM4=G;!MYPYqP5Fb_6f!u0zqF
z&XMVmbsLge)^3sVH8}Xu61xx|3v<=#GD0rtDW!y#wmbxtb8LF9-z^kWKHLf~C2Nk?
z-c2171mDEPL<cWKl(lX~r71#97g#~irC2Ka5Zl~i_-?&)bMf?aqICPcHeVn&^IzwS
zjQ8Uk!E01=5yEZ0Z>(c0q`ot2JoO&omLpg_7aqqRyi(tgRE)b@)w4O$uEm!5hEk5E
zu}EXPkI(}S+h5&#s$nVpC2^csUYa|+yItmBBy25goUX*`=T0h~+;O_wUD(B;ndDS)
zEfd`zZDW_@eAxYs7WT=R5-n)iB79Vdv^Zgpc&8KI>W%BtcM&RCp&yOCxIFva;E$xS
zgRcFIMmLf{%9azace~|u$EOLw-I<9P72LTxZwo;Tl@2?J7Uho+Q?O5D9i7BQt7E(L
zz!Vz7-osR8LsO52JwxjmUCvKT(kIQbVj-ClQWdXnRDZ0p7SpQkljqit)C8k8*Kgb7
z;WZ*CS|g#?M2GYT=M&($_&i$-y~)&Y!lzb>K?bQUW|1BwB(lYDg~;wX{P{zciMJZn
z<3`Tj@boe*cH;&eO4QT_x4%R33XHZR-TRN$8waHN&|ZZleOpPVdxiO}sytKmF0#dn
zE>*P-mO~^YA$J1heAEUN4mwDqys+{(xLxN_w7<bybMoS1HX;a4O1;Ap%BnY!kLS0-
z>Rv5Pw@Zhf;5h+7L{EDsw#ck7&ggEKi#u49IS6Z+0^hJPrJJ>ei>9}dG%O>LDCaIn
zmqRkD_>x;;AKt4M?iTeEH@Sj{clXvYayf#a^meuyC}W;Tk~<y?nq8d}Ifcf(F(!=!
zD`B?BU{*9O$Dt&u&!3dEYo6mS+txUi&c1)0R8pxT0+F7)O&O416HuWZi}seJynv+d
z+p3Ph>EQRux%M~qqt%rs@=LkE-Kkp{^i2*es=3uv*Cqrs&!dw<wifVYYO%~MKGl3d
zDV+#&6(*a>;hTJ7%f1nvRIvK-jm4g{(!cqa(LiIPJ#p|lZ<$P=%+M|FXz<RPuSH(R
zR&U!5kw42;4sL(f{RJYK%#yb^Rv7ixetl;wwj#fItQ_2_+!avMPhs)Vy|{`*BgojI
zkF@vNho&FEzIug-zzbY_)V0yQ@E4UQt+!3ms<wSy?zY5k1#jl%r0RpC#q1`PS9eVj
zKU_xt#?lkT<+!`BO0tr+CK>I=kMKqRlCia+ITpn_HZCF2a@v+&X2WHvD0o$HQR-5$
zw~))drN)a*yjA9jV6jG3TxzG+)K=JVgUCKQCVI(EBinV?>H3Nir=E2E)Zs)8mE2^p
zfrN_b#%aEl*NlZsS$O2OHF~gmtKuSzRhYTna_>x$b!0W}*uNiHAgo+R(!3kasg7|;
zS-ar~UhnqWkseyS(S5kNv($TgtwC1;2e^=j0^{3BEPFH%6@R+6cv2&FOE)9e^Ic9%
z*e%7{g15u;n_L+dda|&2+|}#MR;r$Uy@&lv|7IR;e77mAn{(#c{AQy>EU!~{gMNxB
z@RZ|QkvGyxcJ-Hw%wjRkG~S@Jx+nKgQnb2~&9@V`^BZ+0WYf`&ioKGB=Bg{H?E2kW
zWGTpeP@0cW-ujM9NW#qs?X%auIkfb~QCIvNnR8?U$eM4j+;~NM*XPdJ=09Ban=q5I
zEWA#v^SDE++8cl6-k?0y;?+p0n*Nr@b#()CrOpYj{N7);e^`%HdMmtrng706#HY0t
zil%BE+k;<B3k6>~l}fXo^xXFC@)b>d$kq!;rMsr>S$S#5vd9m7zZ6>WYYS?;6s5sK
zYqfS4{G}T)|MJg$0@jthKg$R?!9{7!x5)Hu&*Neza+}g)4bzAHo_F%d!kM)y9lrGO
zLXN%p2I~3SkF%|ceM4_jfzGe8;`pzOl;Z<?+?&;p3$YXXY89DW|Msnv@6Ku-bJdJT
zccMRdzrRwtvY8|KY9ledlBSOq3w)H)l~{b@ya`nrEyM;dlPD{+GrF@zigec&Xl7dZ
zH6+nX2i7-ER`W;>ylNI|JS{*(A(!m2BF=Vbq*>VSWnlM`R>m6CpC9cH<Nm*TmP_~d
zXZNnx&KByuxAqol`SpcPyg!rxO{VMj*V6w$UopyKdB@MGLhw!QmbMzWClyW}W24%+
zd}i3ZTHV_A4%d=QvNC?b{hms2+E0Gq&pwpfYuwGHp0ZQBUogtVOn3^@vZo#nN7l-m
z6wNVHcS^V&sjX&~_FWr7NAh20I>k**4R6G(s}Ggc+t_Ld*YvslbSBqjyvBHlPf(4h
z6c6QZwChU}9a(+A53AyWed-0Wmw@<XyhZ=j@=N*Ro(-$H)n$8g;bsbr2Hr+)es6#J
zzj5u}dh-8#<8Jzgp4_r6p98nM?=Q@byk{-c#|d7tZsoe<W^Rz4rLQN^Tc(J5{m2h_
zvd&^Be%}8`CT>RjcQ^iaAiZANzQ%oo%uyT8<48izr}@q4rs-f(uCBT~PqfZ{{_H#S
z^)0?q*)ftww7hYv--$fbOIRHZ&m7_FZSM^<jATNm_m3>;PRu`AKYybEMVO74xbog#
zzY^3QEn~L5_7)Ud70NfOTFJFs_opANO1lr%vUu|G6uTbyvJZW2suupK<vW{=z_ji9
zz42u>!5_v-y>%{EPB>jQRBxXC#FL1IZoL&|NOt}hUA`;duM@XczB}KF-s(o_R(sJi
zd&>JNzPf2|v_psfrH13pm%F<c+{BZK*ttX|9_yrzz5Z=2FkC0b7Cmj_4sXtg<d=l>
z%H!+@>H~4D)6yfx2jQKuLfQDOnsc)7N%M_yJdh-F8paH;-d^2P;*Oj$VoMEvKk)40
z;uJOZ9rxoy?}FG_%=BjKh5Zo4Y}{-1eKh^{g~H)lC9N&3s!fX(T0A>j%y#RnK9>y;
z@#%)JV(zUFl`TQ@MA2M9ydxSri0bv%QC_d?SE6txSk*S24eB=RB<0u`9ePw=)6%)q
zF)xcgDfwl-)iejFcotUsG7M^DpOCDj`X;h-?5`r-*V7AA-b<xQ{%ct!<J`M<=Q_2u
zC#RFw_i8I+1@};qdGk$a_3^goxfP7X>nR;Rv&LrL@Q|x7Q`)yy@3`+7e^V)Jq=Vem
z)|tYr|IW?Z7qHr_o8&(6<|tu*Xbn#>H}5wh&X6Ujt=(;R8#zYb*5Qq_0mv_wZ+XhC
zBe{C`&6CHg&DD1XOa%ft;{}Z{9aoYa*W(9+*x7obFpXVaj)&V*OK};&t@sf`F!?7B
zckK5&ok-}>+~&{kGOroo6#ZK9B~v%x48JBE6y98{%9V>D4b%-jETL`Cy7WR@g7}7z
zDAa!JUz6!fcM0WK`H>_Sj;J>}w7y6{>0`LLn9|^M?kEUvsW;-Y#)VQd#7ylUo(~&4
z`}JCu^V+#yHq~7&{jLk&b>ObFj%DMb*h`dV7Hb<~?JwOQSp5p2ty5vRUMSZ}d+=V<
zyS|ZY-*(%;dt@%Z?u=h2xgY55<2P#iKY9FK<OjBDph#V1x0+v*tygJdqV@S<*b0?H
z<ZgZ(esy7ZG~>~7y9;vC|MK{a?(PpagB{B81I47;-}u4EV%aFE7kh)oaXcG-1&tuB
z;M!|%<aZQFSV=KlEzBH*)(+>K%Dql$nJ7(`^iZW;IZRa)zT2kC-Hh+fRJOZOYACUm
z6e0HD8$nIS1tChpv6Trlw|_Tm78|40RXy$3wts&Q+6?^pN`>(^WnXaTiH6*~>pQoD
z$B7@?+FR{D&qVTmlA=fVKf299?YHTpcV|y>mO*CKeUkk7!*`4a`Gx&cnR-|HiJL6^
zD24NzNq)osSX?+KKC+)y^7H9@Z%rcvw#eR4cD<n`Rh7!&@@lzuP)khIE4xAzW3?#k
zPch~9S4nhjDRF~c%Muys`dEij!|Hy9a2OXnW*WQsu6vVggu-y9uHJeJ7FWCBJgu$x
zgo&ki-V|I+>6zkQv6hb1#28amcR~LERbgmUO{kT%=}s=uj_^fo>1K<<YP*XI`C8C-
zd%HQm*iHt#D&C{<8bsApu`K9es0Jc!AR*VN;@VM~K0!NG?(D3yJ!>1|ST_2rtw$$|
z_mj*U`|Axaba?cd*!aj@?Bhq;9jd|Zm$oi0uG|P`Gp6=M$=8Z4U&ft33?_r%P49&l
z+D#}IXz+9XuV$4O4~O?pyO~{>d1W!}?rF8}&CC~yk*}?LzMr(;ouKup<>wyi4ifpi
z-P$2cZ`mf(jOSf@)|+0@zuRPvz7u%W4PprDn{0a=hSRG}9M>^9U1CO$!xwUqYNcfj
zO_jsO+k4I4|Gpq4%G~A<Bk*;+u)L<8ETpwVy4B_B&4c2BnyEIZg(ro@^6Un`A|uvL
zPiA_?5<d6Ff<ksuoG-DNC_k|m5$77+u2uAZs7P8#Y$6g-EJnP-M8%J6ERol%o4O-h
zWt`bo5cW;$T9^>;J!r8G8ShnZ>-U^no!WIzKjG5j#j=`Xtj((X!9qvB+|F;WlzBg~
zN!rWSNimryt+gC&G(p!^4u|V4?8kJaQj6`(c;ngbM5J2xY%CzRKgdSv)!S-H5R~hX
z*vqzHN{^=T>325AoA%d)zrae}at~Blk97Q;e6N%q@N(A9hbw_V_P#)_@Z`sG{%r4l
z$=Y?ye!t7gE^RTjQK_mJDkmD&pG3LE$)rnJBGJKggHchUeG^)$^ZUU$_X$*4EjJbv
z`eJ8)bAu!c!<iMwnF(^Mw?=(1eY3yZEZ;>}3j=&gF(oRUMV+m@48`>Lp1Y*&zBcpZ
zIAyxBCtSpL`04-n4mRGCJ`Uf;ag^;i_@$+}gk?Xrd;UAj-uwMGH}0+%67BQmdLXfU
z*(SDP)4h&*u7YiMGstbPw)!8AO9x5GoO6iP7JB)%_V&`g?ajqNV0nyN>a!8z$is)z
z&jj7`my@wre*vE15B{-hiNuh?7eB1ORnv9`g3XpUcQAZ;X`TAuROkn#=}dJXyq#P3
z_Ey@Pg(-si=U+2`04P8T$N&YP0yKaQ@RRnx#m#{>qbcu7fC)|Qt$M9iPeb&F(i2L~
zrh~er;#HU8?(%|1+jWqhP#N(-p&32quMeBl&NvgX=+_(P>OmzqTlO_GGr5)A`lX<R
zI6Pfq2JT*gGEVGX$DiqBpx~_3&W7nC(Js;~ao1au7xGdhQCS;fr;Ai3Z4Pr4(Ym{s
zKP{r!YT{Mrh3q$>Om{sHssyH+K6ScwK5~P)<ziCP$w6;pxlrymd63aY+le=6uSHmP
zI<_!R))PY-&LSzQ>F(>_j-~<-vYVIC$$GQ1oKGr#5r?LFI@gb0Blj1Nw6LC>@DI*j
zFm-|-wX?&w%=y^{!tE5xA?qNtAmn6g-o|s4=;Iz}5P2ikJeD^D@6w9*cNXR@vAMUd
z6kH$u;H96g75T(pFMR;lLPPw4^~m_2t3|Xh&K0*rM$8w55)@}%;tIi9rCcCOWzq?{
zu~WM>r!63mE~<I5*-erqXZb82Fd_#wJz!NY#Bx!^RtdOjS`RdLi1cM|v@W@z=y$W>
zz}Mrg)O`6`((Sq>CGok$jU!hd5x!fso@k-sI1Uwa8smRXk~}BsXb)>GCFkXC*FQxq
zs`2RCDYZ!A)9#iMPn2);jKMek<m{DBz7AU5yjK5E4ZLwxVO&XFlC50(OB=gI2+d5(
z*^@%XdtSZgUC5~!M2Eyf`!v_*-%<_=*JhR4+G0H{!ZX{R?=6`==~(qQAn1&BW1jBL
z`vpA>JJoN-4<_bOFJ4c)8&|(9V~(1fk8hrQQ43TT-NS#P{pUm9vsmtHAKY+e@Q0oS
z`p<5+5A)xDC3b8t2&_Nxn-ossn{l+*gk=XRvZ2&`ez8^1zZy+jNbMHrf0!zgQGwS`
zm)#`O-h4L+O}kWcwQzUia3a*3pB38Cb7IDrXB48Govx2qI2J#N=A&2hY{Xef8O>pl
zzfgNN9Y3=2FR!4k3`Ii&5*0Rg@mjK??zL9ux}H>L`8W`oVyOdVPY7m_;S{<a5*?|~
z#Qm6fxoCv&z=5_tcxN+b=B*8=5^?rsd-}CG#4TGlrL^wYOgc}OPZjzI{&_C%P<Ffl
zydyYSEx^X$6qQuGNMg)LjyF+lVhQzLaeejhcRxlW)@)eO3g0U}^C<PcKODXu_^u<h
zbIv{4)HwSOw3%qg!ot;&;%r5uU_!|z%_aDT6w!kePVhva+DoavskGcqd)ep;3)!(9
zNXTv@jrudo#0qAorOez4_GFnUnAP2pyl`3Q$8wX2V&E0mMo8@@2v4e48@(A?voDl{
zJ6Q+mrTm@Yk@)O+ZdiUbn+Ut^<w#fI&LXVD5!}o!X0+T_Mw5EqKo+6VxkL#4uo%~N
za#!Bi44o|0yyw;e6LX<Q1+^WSL?gl~j;1%=-^-0hoyfvyOIdVe<n4O@5YwFD@8H>G
z#C<ngKJV_j^f@Z*#^2XAWcrgAy_0!g%s(C2g0ZM&0FlL7!A1l<S$EwgCZZ+LnZ*JE
zAI|SmX@~4igs|!0m$R7C88MC_=Y2I>iS+Wi9xbl==L9(A$9EJXsJL1=={aAe6=aeM
z)&0`570)Pdee)jZ75&^P5XWOO^5X=mT>&9{+IcFvUA51gAi>5SxacfMFl*nKL%u3d
zRD=wWLU1!T%q@bzw?x`>FG-E%Kyx+L3aLxnO0A1|(Jfn2O4!LtsCXm3DBq0uWbtkL
zn51<<AP2-bsAgpz;yoKs>we-Ey&C&uGgqFJ6*X+r=DM!9GnwKei}lNC<*1~B?)uqL
zSSD7{0V%@KF>gg#J_&gEd{Z&*N*g|J)K;4lFOf=?+c_slDjw9g?U`5!O|7)T=Yx*P
zbDV!Z@GXl|iy$}Pw^y0Ux@rxldiz7Z+|=V3>9TiJ?t(v>)~Z{G7h74YL6-}i<PCC<
z*!3@u{4e{TPiDLX{=QQ5UrkxpO;>JYg3kG6L9J=ypeMzj{lL_5G|bM_Qnh&h{O(W)
z1Wof9nJp*j<FwZv+6oE*p}y%Rp`k*p^48?6E?TNRu}X>Lh<}-4U1o`2)Ca4sxiidp
zp;!o6bxx?ITTzQioMb&yan<Z6DX1vM0t`Lqqqq`Ey^NJ-AWB|pwbFR*AU2*!ISH9d
zRBq<#`a<Z|JB;-x>S#vmra3v2E2=ZH<vX$HVAzQ@Q}F0J_6<|vz!-^&@A4f8qv4nM
zXh0OaZ`VHiafWnHP@V(Zclwb+$+j?3&GW_2)!vDO$7qREcja8#^X>{~%yr#T?;XND
z`Cd=3*~(o%=_PLu{|II%a~j<@+Ja8lEmZt;5!%mLF0MN1=JQ11N@cZhMG(W71BvNn
z%C{vIv9zZZ{CMug0VwCCJtit2cp*A#M1l_w`K9OjJ(#P@A8ij=b|%gxaP|^9F?zhe
zFuf&t^<j)tZrmSZf>(R3Y4d%0=921Bgq5E*|A_*((944bDw*sKw)UCp@BP~TqxILG
zu@0<sUToF=_K8oZqoo$TQ!SsXuYP6GG5w$-e5q_&k*0Bl-qF`Lj1Mdm^=6%<#l(eL
zHYR|_YilqS-FAaek8d`2^HpA&-hK^iU#F>9e49q(SBmLeGos_`PCPEZDS6PW!~DeB
zOlHxm4Rmg~)|z~4iZ7*EZ}zTexpbEGU1B9hzMc!t(VICI#_jK`{ex9lPQo}`76~#{
zPLfiypnl^};bMNlJ|tdmU*z$QDZQ;k7QG()#$oNIkdKUPp0XtePaT&!$wo5~-7+r+
z$KnM`&$S-^04E?a^G-}L=EBqUr7bG1$hAv~+IDv608EraWA^!C%vfG8E9UBzcM3bX
z5UOVLmSCJb0a5OkUL&2*L}7ISUf+z!H|p`MrL$FPZa2T^b%-GJh9F|WxU%96!6kar
zrKQ)Olz2(iz7(b&NY7ajt+&Nh^3w>n{3olJ&w=luaH$2|yBSwaL27XJ&Tp3nT!|?Q
z)(P)%!34Vy<SR}5hW|k>MHyRuD(BkKh^31#Jsu`Oi-)qUDaPe(Au_4FHu;f<M>^wg
zoDXyF!?Dba5Bk{WlRoU+zru>;suuC~$L6VY4wf3I!%d#P)4T`&S=d6Kl~D)sM-}76
z*K!Br-XlbL?%e7@_O;<@?BCt1MwkN+x?X#J{>At9QdbwVmTfNaGCXr`4D>qpZ?1SZ
zrXz2zW>cBhX7{><hb3%cC9%XL=gT4XtOB}g;11-arLm0P6@jMCSe(tsvFe4?Jy%5I
zbD0p7PA<n=D2C4t=+mXETjSLr_yz?gXH1yfCQOAR3lYSESEqd?pB;u~J+Na~4=KvC
zBg#lc#S*Y^%t--fMRAVJwQ-qExnRCzkJv~yF*TQqLr3w|@)nKyFP9y&XyStH;Vryc
zafIltZDTI_eB-=-zZ;6xS1V!Y_plPx2=hta&0)I?CnAA1e{C3l3mvTx+$+-NZrkQT
zC5t|va<dC`En>=_VHG%&EU89cb2sq{Xj)uA?<V(bT9=ZqQnvq10o_y+y<yL?Kk-tq
z;e0ql#Qnv4FRvaq|EDvSbi(waXjFLNwqy1k*_j+^SBP8UpdB?wA1@{GI^KG)7jKpN
zW}zsr5S~))E{AWMUDdtvD#gSP9$PsGX9)r?N9f|*+K!mk%T^uDi?bszoA-K;7WQ76
zvW||gp(i)4xL0TYhqRP(sACfaz4_G&7C~I7${c<0yvZ|AdwtHj6J&;LH;b9QrHRBD
z+wuZkKj4B=5jrlXBhW^ePAJ_5myNvgdOQ2t+&R8Ot>u<_xx@3<Lb<iddGSq0Zp4Qr
z_~+f@MgC}g$!DUAYx$uS=PeOBYP7QzytBN%uy|qK8;v!n>HS6y1YUJLk&L{5(xUC+
zcWQ8Su3%lt4k6k?88>fhuQoBgHZ>r|vJBqzA-D)Z-2#yr3|$<U4!m-lrx_QTgZt8<
zLNp35YjiA}Q&;N@Gphtq)}k3(RGBri%%)=Xg>?Z+h!RiA=EftxPmGi4l;+*S-*bZx
zJG?|_);+Z=N7J4}xKr79<?cp2QQKdEV8LHxl*Q}InKTh@pqhRyY!~=3*Zbu83+MHG
z*mvn#Y6@Bt(h2s)twCK1BGdCO_nwyHVh&GH`Ql8%!M=r(4}*`xlf-^PFi&vtCF6r4
zd49e(UPn7+M^S4lKU}m&L~lJQFDCP1>12BBPH54nEvyLX`fAckVxzg0xshPRSKcmN
z*p1+>_2JoJ&T=I-NUUhHhvvIWJh|O`q~C_3_GPtcln<@*P7ib4Jh>1@kK*}hF5=9v
zCN$LPNxG=Z<o>ozcT2D4&CFz}Gj94Iv1^HCzbr0Tg}L7S>T6WK!lkBsQQC4jm2Fp3
z(1I_#d&$4$NO@q+lA&yttUrXStj{Us{X&ltQb>qX_;54fJxkwZgel<|5s#>nyfR8j
z&OUMaClFpALCMlGdbzlF&aVtriZemXvJ;E@(vEsC_eq4@RJ?JKc9pl5D&26TG81bv
zOS!x%_NXH5lp{G(^s)Y~V{a?tTeKjla$vBtEob53v$tjV9O_#`B5-><6O&`r<WTyp
z+=Ga%5n$?DTxw`I^QR#{4Z;=sVWY022r16bG~x^E)rIDn<ld@_-k`JWD<6@uRLlug
z3Pv3SO4gw8e!tCQ>?iW;Xc<12EZwOiv(e$^!laI&-6K7gw}&Dh4n42m42_6rWN!Iz
zBdF!pJBge#MQgdRaPQ5$(0Q)VUV<CeD~_>$iSK_C?qAP+^U1`__b5m0B!<@^^SzYw
z=>0X~?HJC4E)*6vk$df%6N?9%($Vo}HSX^cjCS$eC2wp-)i#-EwA?R}R4@kDzf!Fd
zNZTdl9{8N^FZaAz3N!%*)0f{Ii#coGDx0D`WxMza6wG5DEwLLOogw4+Y&XqT)DBv|
zY6|AN!;NY)%A^8mr&F1HUE+&{^g?Z=IyPgSYPs5K>sCXpD${Nq)-8EG9>3{KMbZR;
z`G;N_D@!j1of+iC^`9)vypGc4@C#5c^pD^A`XAggo^287)UoflO+EF>hka$=fEMy&
zel&lOj*g!?#EDvbB6M+zf$>9S#zkD%?L*K36hftBN%*7bLv*TVszn{H&p&`}@sjrr
zRg8U04SW-I9TL6$RL2&=-I|+2ikfST(M8cav<1~mxjlt%&#Q|`dp?=PI~hTf;ZZ1-
z1)ZHboFvsC<HU;OmK2!8>40b(Vi#TV*UXPk#JLoXRfo@xlA(<~(;pJ;I`Z#VedNID
zKi<P;)`jChcQ=CFvmUibUw1WABKInbOmlu6A}Bvnko>D-jYC(MCO6Y?#?dh%fw-~G
zfZ&R9deO%&2im?P&xyMlinoT2ag@`dufO~T8gneA>PoN_$~_{Jo5Y?nf@~eSqRE>f
zJ~z8oRRwfG9V6%_C$1U61(5Z#X>3)jBzdx3T-ZD;_op|rY#>0sXDqH_uE6-C)t6s!
zPFf<4bN~;|bBxyB@15iJ<8Q+y4f9m>rR*kJD$}ehtqPUm3wGN6qS@xBQ=Z3JtEJ`?
zj)zWm=aWC=nR@6&lYk_Ql1A@l{`uGcY42a#gFgB13<i-GQHqEswI$GfM=+^iO7Oq}
zOY;Jcim1#dS%xK&9x=}7q#Tz!jAIcKXc-5wz>rAO5=|#0OaOg{tXPzi93}8VNr>Q#
zT7hYvVrYRBVu?6Q2{b23jKU}aN5eQp(~M4`T!Q2xX;I`8pi<2V0x1h3B~T<s(_Dd(
z*d!w|JRecI5niv#90mK5q|Dkw4iQ%!d{T!&ZZa>(oRc6!&4^XVtDI{)78la8#=;Qp
zBNfg=lQ19WFfD;5R2E?sMgzgMoLT`pM}jZFI5sR`0?FZ=kYK^~8G%d4aR#Fmj-q8$
zf-)3Gh%7Hs42vc>o&>RHJPOK(<+wB_3KWPz=MgHgz)%8C<)RtFgC;pl6eWVgSRo0L
z6;KEynI}M$#Xj%t;WEzSvOpm;ODPPQl*0^)&{85RDGDdkf`TU~Nh+{3fny1pW?_{T
zc#b0}1(dp?D72aiF*23olC((4M3M%37EuVE(m-(uj6{P>QI23V4*ZWQ3L?U7crXKt
z93?_3Bd7#si%}ptm1T(xD(Z2vT!TTRL{Xv<&8|jcR31^oI?PHmg=N6*6D&+pOfsP*
zlQ04bLVzDYQss}U62{u=VrGdCkCej4a~moL)%a2+BE7+--YUjw$Uto0&xLIm>E4Y8
zWXV?z`c%l1p+gQ=FqO%-(+S#7Whk*6L=zcEWHAQH&~g%|Jh8Y2V}ck<NvTXkDN#^T
zr3)-asPiNorgA6;<#mqZX(~yPq|6`)MN$bpAtne~B=w4x)TJ6j(*z}>jD$)w56&)<
zl0iU@C<;l8h!7H!VP%?ANFqtngajp%9L<R$D^YAR$#4kI(JHIRWYu1(#aUZIT4V__
zLS;}8MeYdeaS@}41giv9@ExhBp(6MMfJ#B^a?8T_<2;;_%}A7_6Pk!99$bv0NGhuF
zlAEcUJ4N3Nyq`JUN`wUoODH8WB5CmyZ<eOxX>U&QdaZYHeJ$pR^G(sRoC}iU-T>%f
zpt&M<E9;T+Hrnrp=$tXHsdh?Y`CsdQiRGmFqrK~GPNcWquS$>Kv$W~^OY}pS-u)EH
z*%ChFjk>7Y?#SbG)3QO;pqu|UW$ytUNp&R*5BOW#>$Sa3YlaChfDPCLlLv-jm>e~d
zMjB<c)ZOZwt3!2FS9MqC?yBmXb8h84l17trAY(AbHU=Avaaz1yZ~UC}-(HyC-+}Qt
zOCMdmbl-jXzWZLici;V3E%~ZJe4hlLF-ec|h>Ncq7H3|<$9ZLrH3$cQty@DjsmX}h
z+%$$DHZ^0C+gkMgsMj_aV!Cl#ST0kMev6=&6reANt7&x#$HU|yT4oN#^h1Mk!rkU&
z*bF9)!?^*gLT#&1TB8^XDD3b(w;yT>)9M(lBSL%3K~!y^U{MbTBuyobz$6TrVQ)UI
z8N!S*4{5NaQL`LDtV-OBhjB`0alqI!YP@>Pq_f&ci&5bwFw$<(lZ4KJnPJ3G6k_6;
zRG3~tIDlcmxf&SedYnKlHnY<L-P%H82Gj(HQc#^sWA;*gXk08an{;Lm<tCvI8Hpf#
z5P&1J9zAZ685D#XmBVI_fyDR@#E43bDv?V|m?=+*)wygcvjMsjX*T<Cph}V<Vph-L
zZcbUHM1~~XehbE?k8G)A3|`Df`dERvRj(8Y6dH0r)xot`bq2#wGX~j0JY^=Ji1|zg
zPB&_b`NGbiWys*sTI5|Qt`-m`9p<8(HU={&uz=jt;0azkZkIch3N4~Cs*D(l_ag{q
zbYf<a%Wg57onp7fWARWrt;2-kI88Y9s1u_huW+JVhvFKmg|HHs2geD@ikeLtyUpS;
zT4`W+d_s=Fc%ifk7(IklOFE#EEeeapMtO}SPBdIl0~iTE6Q;t{KARRdP!<t}s5F>~
zG@A7)9HC5hmk~uxJcAmMKs^~32?3>1p(xzV)haDkl7byLN@LVuGLmw+%_Oia_)yF<
zS>+BCSfZICjTnNlZkNtsGEiEN(Lg(laO{(WonWoSVn9iu0jF>TPVGV?z+j*(m`(@m
z*XW`wX1mEk5V)SKs+DppVIXv|DB^WU`3ao0#;qzR!Waz<K`KZIuGex@7$r2490!71
zRAx7((P;y?L+`{0xQw6&8OGv-sS7t7;a(gL->(gr)oQlEOb2c5aw9gI!HTj3YA0bz
zRpKU{T0>z5wNYlopu3?qm?>SPg#@k&%m}7CC*ic%%~sq*m{6@&t;s<1BDhs%*6I{G
zlNB=?5JF`&J8U{qtCt#Oh*n`XS{6`&U5&$Z!kV-i=re@QZla*=F}ay?x!^OjHw52*
z073vUfD}Lupaf6@7zLOFm<3n>`2F0+&mLbpYy463UBLe(z&`{04&eUzkH-ad8vmoW
z=bCwqM(=fS|KIb?4g0lUQyBC=02~JB2IvRi0tf&q*XTfmk+JgVL^@d=o~l){V}tW_
z?MRpxo+l&D<?)~;DyoiMHl$ppRBrB^Yjg$~PM3$R#v|28G^F-KUdUA4w%X-VG;=DR
zFZhn>W)l5@<EDi3_)LY04pvS-FF$6d##NcDD{p;1$JheN;sO#k`;Xxh$#gkhOimVR
zA=B_kp3WpEX4qn3xUv+hy)(<4b|gmW{KWV~>Zm1Yi#jT2hEvXTWjI{3S9BczgxgJz
z`?40snoM7&W^rapX3<Z{O(t2yzC3%DSqY`%xqK>Z&W;relb35uH9cO<IM0}qle3fI
zVFr%d`f?E$J5sM&mtxai;RKowt0sKmQ^Wq5!a^-JQclYQ_QgOj8p2Pe5{3Ev(g<?w
z=#iQ4hCFm<;<;z4vGT0`x!9thGsrGJKje6jbqB6w+scc1bn5IZC#kB_SUIJwhE+cq
zK9ed>Ja5OQT{9MMx?1(1(~Gg{XuRM|Ty|WF&RhxR!h`nlswo;O&O~RYv5{!B@J!ua
z^v0IyRHVlA3d6$gqkX<5c|~3;!?Dw`v$34hI$LtrbK|f3ZzvFBetWs_%dyf_DH}}q
zZIN)s=c|-Q+0)q>YpJqCO-4G?-dLh?Y0NSuk(BeXXNRwz(<?RS(m#6F7IF3)JuzQm
zHWJE*vgLGQA{WcWEAxw~S}IdXr?TaGEF21F(}heX&2TmsqQ8D`EE}p{&1SJp?C{%1
z1;?k(&-fFT5?#$-L6+V0;@tBsFV5+6%>1->G>kl(3I_dX;`9LOcQU1=5xX`p5lQnc
zZd-B6>8K7{&syyncASbAUD+|ucrj?t=S$;>;8Zdf8Leicd2c;5nRTYK#W))X2Ck$`
z{wW{J#;5A8@v);*d5^aenqZ~%>1-}UPQ7qE8%rNJdG4j||ESh~`Kux=R-n(*jQLo2
zk~B`l5&H>Pl#@uw;jG3d?3J)3?{HD>5x5dcvze%OipegdGcmSEr>F8$GqKnoS6*5C
z_!zx5&OU1X<vO^aYNerW<^P9kaefE1?_c^j?f)0IVZZk4y$<fRu#cKeaTxyqf$PM%
z##gSH*Wy|M-wEIa@BxGXVgRpPqXGP)Kbv}P_W<`t%ikr=9iI$aYKaZD%l?`!6f_@x
zgqIr>beb&1gYP<6-)q%Vx*$4h7PARGF%g*327Ym5@RZg#9KEL=m`GswUi^olv&}Ka
zM$y5;E<!eNBrcmApUU5P{$!tOYSwxlKb|2hv!~)?vHFh-HCv^l*;s$_R1Z;2|0H3T
zICeD4bDC|lp3DKq^W%0}8Bsb>Hc`)N(h-Gh7zsKxc1JYIoASg1W0nX_j4+9MPLe)h
z!wHw?h{a)S-yPHLrc-V!5oMhB%@wVs?+sqj)-_o*XAzg_-f^C2?pL_V-eY?-^7<L$
zv!U7OTX!$L{BNC_6U56?Q5QaHIHPfr^bgFoQzwl#B4oVhbM(mF!#UZ~OEW&jmAuP6
zX3iHo;o5v({gfl(%-itePNDx~lfQ~hh6*14aW*d0Ax-&%7m^cmZ~U~tpO|??nNF^3
zntr<3ddJb`<t!r=zj4q$I<l2|+TH43X1vFDJ72W!_w0_v^yBRJ%dJ=S(b<=I7kb<0
zlyQye1S02;>=^SO4KC_!m(Y`!(yx-L^AF@sr&0!8<lTVQ=#=gx;i$~u+hc00lV?&|
znSBYq^i|7%DHgUEIa9wK7QT5g`Uf)RlOFPqKP)J^UO7?NN69K(ir6_T!(%QaJx1OM
zwD6jCGV0e)c+x@2jn?ZiiDcGgm`aT@<O8yH_1Wl9Y5%yNry7U_YB3)bMUb{2rq@n}
z!Xbs&nCgoV<^^{uX-sI`elJxeSfZ8~jb|!8F&+pbr0p~vd_*DDgz?mO($ig8<70~F
zI+PNF*=MtGF>yI%IsLpZT};~_=TAp7dJpX240|)xDel}ciW)N33lg_2j{3Tjtj=Pm
zbmOksd2`w1?aMj6axNM%8dO0qO%8iTd7jzaF$)_JIfH%d@FP}D=4DdbHPbE%OchSL
zUkES5GP<WP8GrPcJoDoImS4kO$$0Q^=WOjY{grtyqB3DIK6OaO8=DxvXSAR5mt+6?
z@%-)MAIH5m7C&lsUI+JY@rk|ZKd!j1ga1*Q*W4K3FMR_1cRm5`7f<}}%ed(i;EJw;
z`?u<&JM+ht#C7nmmH(sW`Rm~RE!qn}`}ZH>p9Mk!K>Xf&D=T04^~%au{}J@7eF^r5
z-d|a{=Ra0f)c?7%ausy1z5A~#D^}PydhXM!R;kvmTJ?K4Q>0m0S(*L^&@uQ=t5yjC
zx91z6HxS~6{&{6(`<<Yx?X#;^{p!C~R=&Am)vEh|-amo81JZaK++|RrX8OXaRZso>
zs#QU-H*~E{LmJZ%=YGgT78I|oK)O#t-VXlv%F3I7^Jhq7(;rt>w1E3t!2KH7vwv7w
zIeqfu?e(|H{_E@D0=et{zJBWCbgzpDo}bPAab@=>z}J2PTmjIod;<IzKLPGpp#7Im
zfdB2&|NA=W`~<jr^DzFegMV$lzh+*m|M~0SUJLuE`PL`E{oI+4m+x=&rN^#=`_Z(o
zx%t<@{abVc*TKC;=cDHF>)>9it83=9IFkif{{j5=I&rSyeAHZX_T%;OQJib;-5=sw
zp<uA>Kf322>l@apw(U7|N)c<`reV4#7SfwtS`-g!>9$jv5s|<$lo+h+$?%w+{ZB|P
zq~o5f=c=}tTW$?9!-2#LhY-EM{%Gs7JLWnImHm@Gyjp+2aX=P)sJ(NZ9n-MA#|{Z3
zdR&2)Z9{=4<1-es1bgXZeygh2qP?v**F+|1Mj7ti@`Q5_mEJ=T6U_sPgMP!Iwtb?e
zGyTKok&%NQ*B5(Cj)O&GPRJd7dao?S6`p#?09uL8w#&E=vKi@aPV#Y8p__8u9)G{S
z-`%AklCHyDQ9keWoaG0yeG3l;(oSO;+n!Nukh6xPIrgE<V8k>(cKGQhnuITU;=_^y
znvG|Ug611!{%pAYSpjk1)@>Gc&BCian|423qUwX&9_e_o+S_mO(JbDC^3$n;fD@Qk
zi+d(c|IBV2PmgD$tgCf%FxG0@#C5uh4&lxNb5m(!tmEL+sB+7<d-*I&)Cq6v!EKi!
zwl03lzR;*FJTcVg?=8O*dEB@jo0@DnCK++s^AC=ZE7I?_Z9XIOQySDaww)?&=L|XB
z*&`jEK#68*EnbIu_KU7D#}Avzanv+@vy|*hd|F>cVxM7K(&?j3S|QqY$Ybwso%}r}
zN~j}GuDUm!>pk2T=HA<moT}P%4!QZtdbY`~pA5uPG4urn3)meyRpBqbAh0UBS~CW0
zc$;}R82pw_qpWrfAM72e`5gmB%^s(h?%j6f$xs3|bRXQ8GN9Q53uDUqqx%M5aara_
z$I~ABrhjNM-z>9@KFB{<LnQmLChTXjlTWEy#iN$;6Ovc6;_jik!ZgT-8ysag|9bv^
z-*<1k@NwL~H9qgZ4(_!v@KLk(I=Fv}Zd2utE6jE9KT7kOd+8J4jsorXJ^}s@0RQV3
zKVB!-(*CIV*(%I`p8)@Hz~2n86<{a8UVtWmR)E6*-2nXnTmS)p1V90x0nh`?e}c5$
z`UJS2yY%rg|E>M1KS4fL)c_yhvjCq5_!7X^09FI61K0rY4S>4=?ge-N;1Phw0X74e
zK1{C!6$+xzs$YOi1tQd{KY`i!JqUIXxBh1x{&`^NAbzdVf`6kA-4E_Y-gW@|U+{Yi
z;LiYQaDzy;>MvmbB>;$HE9b!R?_fH?{|zvI5AYP&{Qw&Q8gao`^&UVYJrLJc<^f6o
zAZD#J^yL0C<o9;~{|@lb<qztq1pa)G3%dbl3uJmX*nb7~{UFDE4#H-@eisnv1N&z|
zhWiub15_TbBEYW+3IU?W3J)^#1Hf~Dn+2R@DAe}=Z{y#sTJ<KB5rr@=*c;`#1I)dE
z#|OL&xJv*NK;tGT_-cTEh4i&x-VGJC18^4r_pJ}}x&d(2rj?a-kbxg2Ku7kPRja=6
z$jZtMnpLZo*j1~fft8idUHPC~T)_SLmsgbgO@Sga*xluJOuL-KloN5f{dzB9SG|lo
zO))FcjJk3WjmQ>vnvEGyTIC4caFw#!DH|i9vdTew!ba)cPP>f~{7c4WVQ4>z1zaxQ
zSyitph<=#X1CZ8HsJjy6yHVe}z<e0;-37Aszd>gZL0P^EvN8&?IH=`b^*oeu{=>Kp
z-Nmz0GqX!mGqsty+3Bg_`Qfu;qi;=&Pc6)jOje#7t<&S9!$%j!kB-mIjQgf0#^-Cx
zSC3R)TX<`Ber9s<czC(|>f(RRE>4XvOf1wEXGZ@rH9oyqJ9YVFF>&gKvrFUk#k0Xn
z#pJoy&YqkseEaGL_0!1nVaQ`AnEwabYZsWKkoR|?y&Pb#Li+{4d=%UuzOS4E9MOky
zx#0g`|06qWwxRy}Ji2=gXiBPIktxC^4gU_)H*0DgZe9eXSXYs4F_KiOcA9i;5ss&G
zsL4dWVo*JZXb@DTaBp<qpb`;5Tq$VV(mGi;GM)0X8N(roZl4L+^U8;5ZGf~U)<d6$
z_03nIKimoV(8HSHCaBZ<U_dlOKl;muxFx`CL8sx26jqRV85wKwC<cRrT03FRS<E)l
zabucP(_VxjoD!qLo`%of2j`gl++T>#pLEZ_i3)=d6&v|w7pPViKLRHvO;HN8GX~oQ
z!N9j>Zs-mf&F`&OCglC4yYQdJc&-b=rGU&~7Den~!9IN3l_*AbBOxpQlvF5wg!#s6
zdA+MwJLw~>6e-Pm%^_p=bL{vtAJl&<<kb%4X@x-+2F9@feL@QT1&20y8OGi}f&Ccx
zk3o5t0q@HI(B)VCGlc&gg#QHm{|tRD34U)t-?BpZr=R_R_P;}$NhDIKL@tv^#0rU2
zE)^?f5&>T=mdX@LnN*^dN@W5G_z499kyI!FY|)TJBpDnM$;D#1SS8j78UzF~iAXF$
zWD=DIa3pfEL<Vt1BB@9$l_<m_xlAMlQjI^EL<TX1gKD{SP^OlsMQVu(kqg91F`ona
z8@ojauUCYLw2G&D(IHO1RG=Di$b=H5uuCQrDy1B`SRt26fGiM`XruxW<VGUnK}up!
z6eW{O_;N8%DjSr_l!HB7(Ut{`9F#CBR63PXA{4egboNaB#z&aDE}eMoNixT~GReEA
z#lSt>yE4R=DtRqpS)W`bhYKtUo=Bt_;>)DMAt{e91gcW4QY3?Ffij4prlcYX{1Z1y
zr<F<-Vp)e&CDnkkD6v+>A82dmN(E~EokG=6{&o%jIiYk&CNs;$GO<J|RzO|IMPf~(
zJ_flmD2^O_WioI>X+dS9SRj!>T0*fH3JT=~FGvr9H4+}ww@@Y*iFhK3NXVCppcV#)
zltY6O2`KzhNFkC0s$2>UDpWS&iJ_{7#Ek})h@g&mkk?N?|JS}X0R3YU`pP!|wu8O#
z?m{yFJZ-S56Z#gg&Q%702EQ@`&Q7q80{9_Z4CV%acfkK?7+*I-eEx^Dw?cR>VB$S#
zk!<^ZusJZuArsMkE2skR&fQAormpM{F{b%-Xe73ppSaT7w19qFnSWf^X8iPE<U9Pw
z{O0uo!wV7f{QFbpup*#KIc~o}Yh<KvIF<Cqm&@sXS17JPoC}Hk3tfMw9CiLyaZVLi
zoy)TR#~$IkqW3+vR`|x`2}X6c&|ag&`2IH!9s6$0>Tpbtb&YPB7{t$<X!1;69r^t0
z(jfKCfm^rDw@*3d<@+wT!EHv#@`LW;oZjfA82k!PT_qR)Vc9<&xlGA+-@6Tq`D}b_
zs(3Vab)lvIJFgZa+eDkQc{eZl^drd9Ok$fV^hEP^XO4A<PbZaZUUCVcFsFfd|Etkq
zHyinSY=2sAent34_-g;BjwS1qV=pmeHr>56_oKY@gy1E@S^)jEvwQoei%-R-U-+P%
zwn82M9QH&SbM-f2zvNHgUIqIi$6#F7VNP5CVPY5Xg<ApVAj~P1e}TCd>fZ=BV;~d|
z!2kYmjTW>Onup8p^;F87j1(P#$%t8oM1^E>U+I`ZwUA#-s7Z|O4*Cw)%A~4VI2kj}
zj0Kf?+CLl2dFPgOjNp5xmQ?{d$D(MoN|Y|yT2d!0M#}4$iF(*dbSY8xk%jz(r&z=D
zrf4PfeWN#yju3T+)Z(6XR*!~vEuo3Uyo#LG)(E28;3%rt*@8oNBD1&{cey5Bp`G$6
zivmklGlIO&X|p?h276H(a`sl}f+^v*&z$kZ;bv*h9%sf%SRoSdGm%_@jmP2QZ8GmX
z{R*aXIgk6Thpa~ztpRy4!1%*1@9Cl5x#vK`eaIVR>5xaq#&d>~ks9l^<|27dJrcCU
z!%2p&#l|KBgH_*T)Ec#nlzhyn84rd3yN}H-amS}pmLCk&EIAsVu9=;obSUW6WGkt7
zHSbTv*>o`MEzn`5YnJgTi`jWI8=D&E#Up8SG_KB}E~;enE8LXbO?!L+Z`e*2V-Y_a
z7+toh>xEOcgxFjU*rO8HXodIWN@-~Sc?sG*dV`OwAEnK5h5=Pb<oviM<fi7#aepv|
z`b>0yfrW2284LTP?j&u8Z)Lv7rLZOz2>E;lH)bB_8?H<tPV2nI;~4Wg(F}vQgO)TM
z&(0=nOpM5c>707FTp~*48XNIeovu<bL}yv5ILyLlC&K5_g-`6~FvI>yv>J8MmQYHt
z`{fV%WeB?A9E|x5jky)f6VSI#f+>PN_#n(P(+wFA`YZ*e1?J%u@N0)~A<Ro(1Kf?!
zM?V98`=C$%J%l&rIxo=5L0|q9n0G?>ixA!cxPK2cy1{P{;>TgW<AC2h*#89ae1P+N
zfY$;4oe%T26YSY^DPIca>N#sEUo4dJ<D*mg@v&lhB9JRZ=t9n4PiEuARHQho9gokR
zN~IU7)vQ07(77{#@UpL3J)OF8B1MPCGUZ|=eP$#PtY#|ZY%x+TWY0_%{k1}=Jf6)J
zQ}u*5SSn`nBQwJVTOwSYyAV2^y_hNGoQppShZF9JO2O=%&*LvzW5npOqsbrR?-jq2
zJ0E`v@n62-XMYw>P@0t!XNd2<b9wm%->K2U6j>-1QZ?s%H1CW}#~gVyRGPCzd<Sb`
zzj`rHEaY?LLMWULmuIqcHZfeQ6_e#^d^(-4Wrvexe<7PqsgutYCg)>Gv^0477lo-x
zEEb>01-#Kz;!5@aJ+hdKjntR(rE;Md&W0<wN-&j8m&>JWWwcbP)`pXBWooHXBKOcM
ze{JhWp?zShcGYQs_W@*3$G~z{ZUOUtaQA`v3b@^1hvr$e0&WT{w}E*I{5OE#tI+oU
z2KI)Gk_XcXZQbyH5bToxjriXOH$2I*>NvEyu+g``ukq%`E#UVh02#Q?fcfHwdD{wU
zj0Et<|LX;YWe>VWTW;lz5AUX!@CDkN?)8nS)zZ<0;~ZZB>stBhTSvct$UbZnx1kB=
zoTgV(kovIA=H}dEZ_>UHyI?0&;d>0!xZ<X~2lOaX`gkF4n{lA-n8C2OG`d-B*4T-G
zF$>!Cu+igFxtF5H%Fd&CLF(TH$<e61O+JFB$K*+cC){^u5-+&b^l4M(3w+xX1&&O1
zRH<`(V^`Gta`Lej*LWeFmI=ZHXm=c|M4Nt!?`(ZnlkRfHCQ!|#MY~>c&qld9iReM2
zS<;~(IRj+opj$tbFwKjHIlN$>_z+@{!{w;~b6==u%H{OAcB(&h8ZNyZ((LZE=9iI_
zSk?dN;M0#>;r7Uw-Fb08p-V8H#KRS*Z4}eqK4FMkT|6{Bq-sy@klA~1i@fmjD$$y4
zI+-<innPO_%+f^#c6Rvg-}nvsBX^<7DCm#La}k4~9TDN$tm)eoUyoEE%!Ivmy;32(
zymjjo9BK(L9!+>s$#P}m8pQ1vZ$7kjbRS{yBAuAPCfd=2k9By6p?X$HKHjlfZPkn{
zrkwU|6sSKx()oinUR_j`MCTOppV|Hqx#2`7h4XB(!1AZ?j3z7;6tQo=d!yuHBy`G+
zo#ZA~`vw*tbEt<=?;&MV;=nz}O1jG1qmmzR`vhF?r)KYM@*Y0c^m-AMnLP>z9?^Lm
zz2nHPv1BU6;;JE|sV?ut5;zsr*vxBQ`|DgQ1OD{`m|Jgze&&F08UF@-Z4LCX0(8XZ
zz}{HD8zJmn=$nnc-xw3Ez>9PMI{-)YAuVeI7v%PnK<kSTHUxd01M~H2u%CsnhhQu`
z4s>n=Qx0kB0DcHG-vQ_We%4qU{tR#jAkOXJeh9+bA?)`6>mckr#KXP{GC$B&03U=;
z9xFQ=@d58Ekmg3n=<h$w%LWMdvwpkZ1(ToKM>DWQbq75m7sL8}5w9l_gh`UlFcI48
zV?(Sv2y<$Z1PvRk&lmKvECjQRC%_V{+s6a~2@gvL!*-el)6Mu8nx?%Fkns6vx69-7
zdYvAc4uxE95AF8&7#~ggyiOm(hC*(i+mjCX-EMEt6sF-4vfJZ#((aJQ>j_2Ufv}4O
zja4BVWH20b1X#0&b}^84!sB6mEaMM)z~%Kbeju84djl~4K>@(w_qc)%xC6*SxqP(O
z!@602l<}A#hky(3=lCE9f>}tw9|8*#_5{LyKNF&ZL7$rn`CUGDh_QNEFYWW&-HgYd
z4u@Hv2MU(-1(|@43A;i*mo-5+1GK~JvPU91w{O-;xiOz7X!1M!VLHl0oJlJcciL<Y
zIM!+pGYfW`8>L-P4bDi2rkRk3VY~sx2E~dvBB3y3)@={dblBM_2jg@3yp6<cfgtO1
zv!0Lz>Xu2feuooE4XXG;jE4>QVF%e~55^pRPYCK3JRM=04YM8}8>HPdWW+_&R$nC)
z^Myc3nmftZDJH<$a;z8hX?erJ5Hz9RRWvw~S~d{zSc0)^GHAm}aOW~&4wUVcS}Zzg
z?R}av(Gv*gy}hw{d?aPn`E0Vqs3icSteOf>Sh@YZ$=*n~>gk9~?k>e)$AorHLp?<>
zw&M5uZLX*{WMTtRHyMgEF+Uv$(J|;eKA#tqVKD^jXR<8xESDR;!B^nAGxRx6#2NN5
zLE7hHT+x8X>mK&d(C|<vZaNZYLE(%g;c|t%R=Woa<jhIOI7NE#kjL%ycoT+cg+1dV
zlQ}jOO9Zl5+g4MJ_62i<EFOENkajd(>K(W;KDe~heD1m96F(E*aMM@M-8(+HxUhEO
zrKL+}xXp82{V$Dk=g;i8_}a<&x4F#5FCP2!)YO^tw@tsa;mXNASmqn%BDzQsD~u=8
zVdNsHI^jg3MXxH6Ka@%v15lWx*XMT9PM3qx`vb0$-Rp6A^)atCLD|FpfZxk{!d{vI
z!{_q5m^clW$!Q<-{UGZNq*%9`r4nvO*hazWLE7!eTirIRmxww&c9$<iWK`rymQJJ{
zv1rsEHt`3^#Ed@>q3~$(R4HLU2wH!BS|6M{(SH2GshRVl<URM!u8dAk%{7f4`R6m2
zhxVLoX<MG?m^#1z<b_km&I^8f=iSRcotRi&J~%SzUOLld%;?mygwbEnCxeNcA6@LA
zlJL+}-eHR+h9XIGCg6si&pMqxkIhDtFluWa(&KUAVYk~&Q9<aKtj7x-EZ}Bom`y`|
zzuO6H!5?59e(;5H7jo0kL0}MjVROvy3_)Fh74-g6eyi6C<*!0CAH~8Thhuaw^b&r*
z&k<lk7!z<Q@`!#C4*n(0v1C3Pb&qH@iQ}PI#A6G3;XIa!sH!xPfHRaa#)Ii(fLiL*
z#+PEzgv;xPi-9?#HNiL>;YK6CNv$9Q`XGUSgkj7Fd;vF|hI8c}a0M9`j8~7#?L)&+
zp9AzVx_zt*isTH#8(eOW3)n~$hH``r0XIo{Szvx_APyZq9P|cgKQJmcR0P9>NUuLg
zvkZ)5n)XLQ>i7BrH0!6mPSy!3$pUs@Q64|z1eM4>8?dYZjAgIa=YrG$fsF-=A-B!z
za=?RAZrbK%;IfRL@-U!^)oXS+oiUFM_yyx~5MkOIhJ3IAV9-8b6HYel0<J*XL!qD_
z+RNi*9Syb^fJA%_hIR)0P~=b;_-Qg6Z~=Rd*nL6zmLGpG2R7y{`<FqE2lLl3pIn4_
z=7(T!$b1)J9(n@i9(ew6)hi&kCt?1Arx90u0pKYB7vQJ?AGVrSg#mXIa2oSxLw1V-
z@BxPhW*z(&AdR1ZTLS=5R^1F{7R(4l9>10sNXzHPdpM5CuX$z0LppSRMqu4SsHERK
zHnwd}X4r$I{8iMHupn?ny3QJf;kX7Tiw<>sdGJ2T)$Z_QdN7f-1Rs9PYtpA|#-znf
zm2ge}$#GPm$T!P(nEn0qCf<mCy!ST;H-}ZXA8ck1BO0ABM#P9}hihzqE#S7?$B`J8
zqjIILxARC7!h0a($!6~db>6!JAyrJcT^uJ(ei7$+zVUGh!5?@%vwLqFWkklZ&cpmS
zEbgY%p?;3cd!pSW&{&rGy9)4Rl@EVqXy?XmOu4DOseiX1`gP>)_Q9sax^$5sclOJA
zlb&9Mt7npXw$qApOfD~}FK!7OOfkm=2b}w}d)t(*r2MY@M$@RyQN2sH=^(0Xy2lgG
zMAPRus=&6VCIYRhgY*Cj$Hu+;2RcXEnlFihg5!NIrdK}Tsiv|eb9sC0;y})<h#Vwk
zyu!r7UqCOa<3ctQNyvM+gNl3GZZKx8T05HSKXj}cH;FdOs(R+gw#b65bN8d7{$f?<
z-mt5;(^eZZ4v`}R2TWrDS*);5>zL4DI@z1wQmXo1)(A_<j>FcDz2*vR0?J*o9QvFJ
zakfW^Ez8Q@o;pwISM53wa2Xt^zT2)n86-RO>x5kIsJiD)?$FRT2t22W9Z&iBxtMye
zuglEr8fkG+0<BikeenJ!!nwmZB)-4x0hc!spf(#eJLs{rcA1dopHz7X?D!~(Z;F3A
z(|@wxs8HDU>}=V3&-@tQz%N-RMOB?x#%q7buunD{QV!9B%)Y0B;(qB|<k42UHK=tN
zi@e*!HK$9dq#ygq2jil#K8?bj@~>fErEwl*0%W}>K-P+ZjMjLA&<u-{#@<XP^lcgz
zM*j#4oo0~#R)Y+A1K{2V{rw97A^3>11@_i%hp@<pv`Y|gC-nOt1H26J2S9fF9+)o!
zp5=?M{{!}ocfnpRn2oj2PVg^)eGi0rA<k8B_d+^9f_Oe~-w5vi1o}@yx=#XaJq)nM
z8JlNdyy6h{8te(({X5tz2mD6?g5dWVpfv^NdH^HPcoN2b7}7ccaV>CgXUk7Ns0Ru7
ztzElj-MaPb*RNT>ZuR;#>(;M>-!1FbtzEnB*4uAc-*B&A+d#N^-TGSqZe6=!-P)UP
zzIpxHo7dh9n76K7xBiK{*Q~vL?M-*weCyiPH?M`r>(;GV2lQ@T3%?Is>%nLBKY$&4
zZ&}+&<d&OPufJv8?Q7RUB5T&KxfSTGz7^6~v-WEbf@9t7>()TV)&h;&Z(e)b&FgMk
zcl&Msc=I>c-L>}SHIRpI-Ffp}D>vSB`|5RH`1+a+cdTB$dIOMLd-E-8A>p-aZialU
zg*@MK>zcLeZ@6vU>UB4*S+imN`gOOhhw`pp+xWk31LPIFAW;Cw@r__#3ngq67t&vU
z%Z3J>)lmN1ZiebudmH2$@^{m^+n`+QSFhW!X5AfY02LC1B-gIH3F577xPdlg{?^Yx
zG1o!~z-RsX`L{o)^9|6)QcNZ>X4Mo{unX4yY{<bQ&#DQIx5btojs-II6A`BqsU{5$
zvjDx5!&fO-&xtD~YFgdxKE~|LKVv>{6KD8pm5j6<4wirTqLN1pCkg8%+wc;JEoAC<
z<So%R2aZg%+j5|Sb*lYJAbtjRe|&Ab1_GG1JvE~j<YwMj+)+v{m#CE8TZxYkhjmQW
zIqXGD^(|*o_h?)JgWOGt%KLHxfgxsoSuoQ#OjJcPr%fnZajI(h9=jpD=a;g|dB4hJ
zQ`5Z*+ILaW^f9wfJsrn>JIXWW6m-zM_!F(<L}*~d>x4UfMZbq|o2XN4#A#%8tS#z3
z0(%@dk@uV7kbE4o)w4QU>vf0S{)_WRyyX!t=AZMA$;s|SA?L|?f}np?dn9EK)*@}^
zYpH>bm-d#z)<A7=a$?7^V*OISP}q%-^=e?LFK_EvHv6R&xMkjfDdP@r$(>xZE;#98
zwqzw2E)J{Vfu-5jh`Nx=mDK6(ndjy*r(^Ns=wi*PzET)36vkgzDjv&5=FZ~ztI;34
z;TfMCf8qE=yVu`OFi|Q|ABj#QhIqgmio28J*}}9@7Ch?7cy0b=yhvMJuZ$kI5oap@
zRA3B&nC{H*gs?n$Z@L6xLE?y;%D-98<+AzgDaS}P=c<M&W15PbV6-*5Zlen#!!eIF
zpmry#?kHu=!*0&-giIexDJ3<+vcpOoLkKI2kclofoC^DxbpOavm;Y$Ym2-qm#!w)c
zv3QPS33JpnZmIiv?N~IM4pGVARc|<*W2YJX2FG+c6x!oUxZ)vL%qb{cigAkdfiaWG
zTB9VxOO<@3ga;I5CT-l<Uf~_-C3%Sv>SY~%V3L^6?K?64!t{F<mo=!*^~}an6EQ7Q
zaSNNK%bLs<e%0OL)44r;&Tht2k-6+sCgOOSb);0nXs)a^GXamKDPq6m=GddWJV<C9
zWoWtVhBNs}YKX}vNd2g1z&G*MyMN`=W#D;V20r!}$RJ+^KK3c#(^=qKJAnV40-o5|
zXIg-;U%~$Pufe?ocyePu{Q``$GT=7$y6Rw-VQn1-zPah=e;tQ5E+5wnc$`ul!grZ5
zOJ}-SX!wWi(c}$Iwy=A45Kb@AT%NJwV*>}{M0W5|m0uz2_aqX#YD_4-Xxwv<dFY95
zH_G8qe)OxeYz{qS!7HkOqkXmVfOX@eo&EY*TUU^)9_Y{FMvx?zT1$s?MWiC^qPtnH
zl)?nKN(wrg2`SvAaMMU@()KvrX-OR3!jt)>tp$?^4<S^}V-c7GsFsz%BN{DD{QZ%3
zZ-<HFIL|REyY|YqG?k^QE=j6=QJ=7Qllc8_Zsk@@89C8am&HOU9YK(79*wFS-bo^~
z@?-PU$wa9|iAl~Q@h-wt5Ze>`1ILhu-Kza&tlRfULCy~<`S(f1zEjVaxCi~4=Y_J+
zk^Kh@-Jt>+f3f5ioval7k$SduA_-61Ato^>Xu!)lva=#LGP1?+L|Yh*+;Y?Q45xRa
zsl+_|-BdG;nQ0Dazs9G}_U>;XhQIQF@l~VGZwmIs?6RPw!w~C>;fDj=PCxGewU0M<
z*x0k*(Cs&i#pPm4S?b4HlG?J<5l-AYvB@%~CHVv;Mihf&n~SgMxC>Y3)Df}Q)M3C3
z-F8-A5_6=aiI6_!7bf(Kkmq%T;5Kk<XSv;&GKmazjau>)Pmc}}r%XQ8o&Inwt{EjO
z*g$(qU8oRzm)DrGSfvWXevfHq;c`)6*Y|5R6=~Vk8h*3Yy+a=s=pO3wQUa{~u*mB=
zdf;H3FFdCV*+HM&w9UXX4eYQ~dyG4}qoK#2>OH@DCELtvdA_B<->(Th7*H#?JNx2<
z#V&ff6J4|A9NlTyA8DK3<EWXxfuEmz6y*wsf??ps_umnd4?eiLts9?55sGeVBK20I
z*ckD+E%Fw53?9T=%oJ0$u0xL2=;QyVC-OY&I^>EB1ki{8m$q=CgZp#pkU_uC#_8+H
z7TEo+0|LT<j^+9dPVQjVF6&k89x^1dx^#fgV<p+UB5!Y(?+z{P$9mRd69F#v==LL`
zUw$xFN-&209?lO_FsA+kWRp+9{?sJMB=3Tpl!CLrpMi0A7GxL{WU0#_gEYQn_rpHb
z9f0#T$R9$$7l0XuvAMe8hBzBwze@z>uRxAE3UNOT{%Zg(gY2>a#&dH64`^+Iw7&!4
zkAT_u4vqnBErj0yVFJk0BH)$4{gq#Rkk?;A9;G^)7Sk#;Cb42j3ReLQIt_xUF~orC
zK?i^cQORWnIYJt6BT4GD2Ds6sRH*ej)S%VF-9Cd9E-52wqd=vTLj)bBBD4ZrA=eu5
zmLWZSLYHHx8g8Mgl#C8Rgk-l&iT0{3LX<}!m=3Q0p_oE$G-wQ3ivb9Mx_=ziXtXE~
zMf7rmO>a`G)o_DeqefIbnL&f8tQrkmqQ-GGj(`#*LV*|%g$^FYGN`p0Qln59m0WlR
z6JEPeDRgQSK}ZTkalM(Vk!hru3f{=T&8f0l%)?xJv^Iqo-djXuDsLZ-1>jXxv4l?v
zkxgo+RMW?jVZE-;t?bw)PkRP6Y}g795~8ZsC4NiqBRrkg*4xoLk8M}*@YX|!%q#A1
zQQ7$nyfg+nU104-c!hk0T)>m6j3Zjm<lBYnjF?J^+6+C25nc%-l^8tLs?l4_s1`>I
zVzmQqyXp|LT5G@wL@W+j4+?$#qy$mu4e}v{0!8%(twt*_C>1i5MPfkOoKg7D{bXXC
zP)`a+bhZelQ+8}8YKT;<vvBkg8*LJd8@aO0+M4ds5#3Xcv3GQ@-Y}i|^LLj{uG9Lz
z%snDB535g3{xrBU9Ln#Q;X3M?zM-Y`0};s~eo4pDxK`CVgB3VZ17hb`_Bp5_!5*wn
zC^zWLYQD`U*(H<l?FtQ|#-&0%d?8TiwXpb6YII6%zZmD^TD75ZWXLInropu+M#znr
zMoDP2h!Hm^Wd;?j6`?}8<Rjf4Wj|(Bs|c9`v1*kPjg2pH3I?5Ug_Tbt&ZHVt3HQh7
zj9@_^){O?``w1?>I#vB*i>ht^K2DWqm)ddt98bhI?&gqWHD?#WMR`)zi%{wT1m$UL
zfg$sNz@sqnd;7KcVSSg3Jgf#y1-JsYXhlZ7oX{Cma=Bg)*WvXTJXMLo^H&Ip4e4;5
zLaRnGkp?3)B0WNCOmYM|Hwus1!8sj-02g#bl@?Vt6iyf<dZiW~sMP6DOs`R?^@v)d
z(-?IMJ%s7t?yVM8<9Zx5aCAb76bcbUq5~z#kUXa5$w{qFC6p;i19%$;K{bPsP-+#F
z!)O9(ghHhTjR0!BR0HD-DiI^J22x8HRC*I?kYS)%L}50-g>Ws3z~D2eby|ZFA(e>Q
zg#6DlVxNBhuXDK+KVazbo198PK@scC%XFF@FLR_#O-lJ;ncCS6?@_jE3@wI7*=<j`
z_@@0@UOUpw0cAKxmJb;EpLp!yPHBhEm>{LjZrwe-fpPJ{-j?YK1xh1Hfye+onFy$1
zChD}dq-9$zf`Hz7yU_gD9wg7bs(ELhTEX-jlw^9jTQ@p_Dx#p!`P$V(Uw^8f-yTK_
zKHq?CU&b`FT9oX6>hJ-lsBm0t2;5;I4h*ypuC{NW9`>44iS7s66&)kYVS&4Q^B#wB
zpk1p^^9JKdjjrI+r>hS=xyQSCuqWA*+J2t&Uuv7EG&S`f?y~j!6^Q+Aci*GWTPbtf
z4o&}d<hDbdiruU<Bu46X>Zp<K^qX2`+XS%;jgLJhIv^iMn^7##;hQ>Y^-I)oe`oTL
zBE%Iq1l#2nlUk{A1htu`gyMGNw<>a~UC=tY4c?x&%S;2lZVLxB*^gs^@6b<c%kZqm
zfOhjnjp$7GW33}P($?eNCByt7gV!Vw*_A`BJlirgEz-me?s|%lxels2k3Q7x+?YL}
ze{2i(T3FFF`7Pno_#vJ)0ym>&wHejnIn{2bGj5Jb;PGodxr5kl;tlu3o^(DbxDS7<
z4$nl*6J#GclaPtglaK6NudEA_avR+Z-#x;cEk<!jrQ*pCYCBs)R;)v*mU4!^b6}^p
zRlnEKBX^SK-n4G7PT{2m4)y*J)urfif3uI|h;ANK52)aw#O={g%Qu@;%#g!XuRogh
z>2@gw1-Qx8x1Wypwkrqb538C{`rx?de&w!x(t$qQ$|=}In{OG?@9}VVNX14$$99#}
zyQ@#!e?g<)*ROXC>buE~wP<_qK|UGL!J|3PAKHEzJNI}O{-uW=Y2gdkHuY;pz9aB;
z-C(_uG~)R^`-S(|Tir(lp8T#oZj<!Uti-I@Fn&kBLj9W0yiaNpB?C{JH@WulHs9NS
zVs}jJbl)Fl?(3Gu#HaCAg#nwLY90#;<9p2EsqU9H@7?jxieX0?y+_z`_{u}S`(Ugz
z_C7X%d|U!q`paM{V1EOH`SpF6*QGFzreKcl0{QwPoL&4L$jprct9+1~X8~Ud?pFcl
zUN8@U`vAoMF`xuKq+J60mjQPU=Jgw4?r+HEZ@}FD1jq#<h_?ae>Nb!WZh|@d^Duu;
z!hD{Aw0;lr`3#tPn9r;55w4N!aftUlz&iwVE<*T|t6?t#=o&%RcnI?QeE>g%{}kki
z<KX{Ii2En-`x@BC!EBtx{0kg<;y@bxK;v1EN6tdnrhomboM5yPW&>!1Aax4dfT?XJ
z+ydGtD0rUM3daX&lS$>W+7Z&JB^WY5p(dpk)V?@D>x+rfV_Fkor6^EqA*OJgbb{h*
zhtVD&5_k+D)Fyc0Lqrp#$*aaqW|iEbkty94y-F(&NNvqQlMpvMR0iB>gI76p@LHcq
zPr$TJnn4M-+-otJ7{nEGI^2#<tAQnOqfKE|5mK{}q$rfIn5~%8>?EBg&`e{ej2629
zwX%LIyg&ikbc{FxnjTP#$?DOYOm?$f5+iUF*gt88ca0;)qDN&I(v{?5ve&9LV|K&_
zhXviBXfI&Wc#u6OSh>q4?ft$SQO$8X_V^zcmxZ%j!${p?J!DoKnst54mFC)ZE8Iu+
zryj8@ta!>QLk1@vmh&)yOOM)UR4>g4ogq9lFr%<4rZ&d?u2{s)35FaRo7U_xD=`I0
zfF=eVC|J`IHr(uK==iWIC=Q{=Y^r>UlInzhL@Boq5TG|0*YO=XP@bbv2Bb!WQtGUj
zEyS@7#JW=4p-yxN-Z6o*jfixcX}D>xrgXT6c=3QxI6|oH537AmJJ~1in6D$M$6tHy
z74J`OJo?|q6_-whv8k<33?Je=@!0GSR?N=)?fZD@%lY0yKcatSLab$sDmA6uPgnOJ
zk*3->S>%+IKc$Zw7FB7rBa_PDVuROUm37(<L$eJTGy;cJV?i}al)x1vhUko*V90H9
z(V*bM1ubUMDKHDcql{*|o^a?<xDX23T6{W_6Ixl_jmLdbV^+y0U|Ke*ExSNLlTxUG
zrt^~{Mkh71S!%;V`krk<m3LV<$8ELSNBv_$!-0y_xmTs{3DQqI{w;;IpRn{__3Rol
zMvNhg#00w1Epkc&(%3;ze<M#woJM2FY17#)JCBIBSp6c<Ocb%22?s`*M5GG3DUULd
zv|Uf(dY2RdX$aGRsu57M1ez+WP7@6`fZz!wx527}$=;^N>^j2kP$`T!ln66BC=@5*
z*fgj<GNN({-uFcXASYRDYJwv5dKWzS>C+n!)~y7sI0-hWc9JL}3GitH+5!7V@Y1Qq
zjtdlAsZK2hHILRoC1@}4T5*iBQDz-xavN|BY61OK2D`~*bTWDrl%!}3Ea>kr!>J1!
z=)NJ%5|xh9QyMd3a#L#1bY-$LVm)Y>0kv58{r~a7m~Zf>F9F{=0nh~eB@evh62J=Z
zynhG3JAqfE!1*FT6vE$Y@H*gUjqmldU@n6Bb-?)?m}dazOTe?f0{pQKeDFS4w+w+_
z9pan<vlqf%0v^;@r!>CtH_q;sA?^gE^JxfILz>5cXZ-?bEd%a7kdM7U>qj5vwXsh)
z5<J2IWpiE8z;O#bzZiKg=kmH{js$Av)LE5mSYeK;C)$RV1p_}aCLaWy&7R%F1!2TL
z8h%^A!=|3#&ptw!dyS4aW>olOI~!^9U3LBDtld$5wUqlsg}U1q9-XWZMvm&tOVgk>
zDp0;!-2ZE%s(6``9O9%VzZn1SFhxX;J9fGwdoMT+_2>m5FI%q&HG0YAKWl&Dd-lqJ
zSnFg?r?w1pn6r2Kv<vMlVGp$7i)gF$lx6xt^EUpsH)#A!;EW;1(-$M=@}4#!PV8*f
z9I#!rU9HS6DxIZ>>?(1v$G}r<oidM6){)sV2e<h%p&S`bze!8&&jtxrY4k3Tw2xKB
z_q*d}UAJJ+Sfs3hsAxc-CwIS=IiMMRKIZehj+P?J6J5vsg?dNwnHf)eQdEz}0!F5K
zw=+eC+EiWojr^w*%U1WML!<BQ@p~UQCA6G*LNO50=|rLq!HKd&e4-Aws+wY_cFu|{
za@(W@V}z9H)#O5XH1om|_Fb8pB`(X0rxmqc;U#)5&tZc%ToEfQ-^kUf3oj)mwc{mK
z0^Z|cJhq8^(j+Ms<-;RK67`bD+=peW5iy(6BDJ6$G|tAtjJUj9nn*7Mj!3gXhL}%1
zrNo%@y|3slsekePQPJ2%eco_>JXICDXp*&5#uNrVUmp?*{Judxq6|601y$DUQ>nw+
zNJ}6^^c9(`*_d_2DbeJR?ug%C%Mb}QgSGhRDMBkt9rYz~O^k}A6A|O$OU#8uuQT$>
z&oZNC^w_-c>=@IpNM`L;6W#8PIpt<<9#7jMMN`p{bsOmVKoh%ooV6r&kn4TgQ>L}k
z0a{iZiHuMq$*J-~`wqp9pIxrp!}sMYs-kMGHCb30TVs2gni5pM<NsQO{;Jk{_{mcX
zVgBfecB@E#i5$HkJh=Dl`V$7kQLlx!`wPvl>YI9ZT@h{GIMp+%LE&<rL0atF`r7W_
zj>?y6<TNjxyXwexo=F!~<!X9I6XW!M`v3k_rui56Mk9wY^gFmf;|AH~ei&PuV9vh<
z#v=>k?`@DfehXu*17v~5`NBEC|25d(g7Mf4WAndZynO|}jXVc94EXauq`ehroVG<S
z^X3Wx0ngmxPVI}(=L-4f2ks|Y>by-=SI-ZPf)iH?`t~%xYu;QOtnte-{9m4?(nH;<
zjt*a}Z)3t8am_T_)cI3ZcYldbAB>#Qm}qLm+&<VHPJB<HuqdWa&E~hF=(8s;j#|AF
zPkR)gTP0Du&?~ZP@{7W3vz&_+M!5f#)hx{>Z)kt%CrI{U1^=F|{eXH&7JN2=#j7X&
z#k@<~p*nxAG`3l@PveX^?YPES>&Qei4qvPc{lkm1!57sL<LTEYRi$E8ZNw)Zj&igy
z(j=?kNrPTJgK<vO8GN_cKck)6>)1zn%+|^uya&3EExcw7pYl(e-DCdg+79=$V^CwY
zWm7gohq|76p9u-t2M(&wj2&*b^5Ye`;3_Si?3>Vb`8S1%)yx~%D@pfWJA+&lWXbJ$
zf3YCR9Zf~HI0EMk7Eh;nSG}}5B06pA{?*c@Bl$$rNMPb*z!uB#If25tuC$xBOe9PW
zX>(t_>v#65U3lK+^G{L%&-mOJR`%x!mm}X9>BY%oo)^WoyP9a3VZ6IerP_`h?M-R1
z2=iQUoS87abl<DZrq`xte~x%t6wjvT_tgxc$@q*=A5U8)v1!_2(j3>HowiOpjhF5Z
zkBwUX%iu^czd&N-cJ9i6IhL3W<A!m%a4Je%L}yZ?emh%R8#p-@E8wHS-Jx0YX0N3%
zlCsGYnB5^R&9{skDoy&21>2jy=LhldLOJ>BbJV#sC&JC29$Csbw(3cTo0~WACwiPQ
zX4DwhISU5&p%*+{Q&VZETJp88JqN-kS{l#pzO^F2jx>9Mb&D4tl-bTtMk?aInmHEj
za89JGDH5}pM>XME36yZ<wD6v6)Rv1f<%D@ei#_U@?mFEWnsGdbe!jV&lgS_JE^%D?
z$A)Y2qYKZ3f`;nzFUvL}T87j%zpuOMk2Ob!YfH%Fk+XtJl9KOLO(uQnhl~9Sk<orz
zW^U(9DGi#xBD%aP>uKR6-)mbKIItAR%}fP4b8Jt7K5k{rAvf0`yP#~1F_#hn<I&up
zDvu<JKC*K3g=(;Q;F;0BTrL^6EKY;GWEu#ixNjJWw#?x`t*TPYQ@Ncnd;QtT-5%?Z
zKV!`9v}he+VP*dL0ai#od{p}SOTEcZyyThUMMn=g|5I-@C+3~^4+PFvL(y}kWT*Fd
zX>V8;6<g+-7MYi7t{JNS^TV&F)seOlHCfs`JUL)GF-6B+)0K%@i!K^&J-yRoQRgj6
z%E7yG2YocN@16RzS@_tD*u=WtE5?t#=obHYN?t@tix-t+I5$|s&X<y*$h*%U4P6#I
zJ|IyM+5Cy|*p-nc_UcHX+kGiMwF$n;yijag9>3S=oeXCuww+W2Umj%q(PFn*X{(D5
zrxD3T(Xg@`Qx%Js>~j_70ySP*SgO(F!nfLgGVjh?Mo0W<{a8v^$@+p#nqnP9d10;9
z9VRqcWo+8SCVDyC;w9(8i!mc6oVlPG4dP=QPp#nUnp7P}PFfWG2^M)p%DA@&^%*!1
zIE=WfX87(WB8K`8W+?>GKVuiWpH)mHh8)L^TMUJKH6BW$n&MS4*{<X?&oT-BjOvB*
ziMUKsSC0mUb40(rU~nbh?yHo)Gycr`?cPHvjXZi+p=`qE5Ok3!rdd%r$l4t3Ls{uy
z?%4-kqdUUt3qRCUTS^Aa)*W4y0bOsxj`m%F4rE>&sx0qQ%Uu#(t#3j%Zwy|1(UlSL
ze}v`vew}S9HQmoqGoE}Z#Z~RVQAt!>NNo*-`v!VvO1y19-J~i^c3Z~lv&qa+RCdIp
zP8CkRso`EhRZcp~b=8`OlVV#jW|NS4cS)DZ5KsSp6LSXTkwtY*^i=gI>&i%bG=|@#
zhtED2PUe&nm)|iV=!&~ydb7puPK;*`sQ2lQy%ivfK5bP<a!(%6JGR+<<<SD!v^lEQ
zY&)>iFqYDVXKhFO3v5(LMY>&<qvtiP@)rNk`j6=@U6oxBev5vqIcBoJd2YCo3DeA~
ztuXJbg}DYk*{{3?^UYhZ_7=jNWq>*AD!Bh1km3;jTUaN59oDt~1~O;{*5!5xdjw?1
zGrwP1>4f>I@m*^I==}j?$Yzi+e*^Bu8SciJ`US9KK(nz|-dG>M3V34hhon~i3Ffkw
zf&T9R_cO4_{xRS#f_*R0eFFSTVE;St+YE931Ln-{!bLy~*6v?`_|JpiXCa>ryx#z=
zZvfs7D2Nr@OOTH(K+gsFe-qLU0G+cC?_VMQ`+#>6@Edmo%n-gF@HYc|9`N=+84ow^
zNP_(|r19SnhXS}0=r#5jypX1#K@0K%S9e$V;Qj;Lv~AR7E3D;(0v<ZZ6%7fv5+Pr}
z<MRiFgRo=T$^l2Oa8M`}b9kb5?x27-I3VS>4-H5-ef)kNf8bCb+_f4M4GeGva_)dg
zFvJ@i>f;Y_c|5U*E8@f5tgbErpUamIbn*Bco>(dr4v7YN;sLl##_Qs8M1!0me!GCz
z_$TKKh!1y5IYJ({e~>>k#OL%0xjgRR;NXBz!0mtwUA#e_pufGFGc+LOLS}?qu5hpy
z?xFEHd(}LCCwHjl|0C)>pe#GiGcj^)@7i9A%aufN4=GXtK#&LoFqnV|Jsn>6%bojm
zcsb|TFZ9bf=bUqn{W|9~J$Wz~BqEU@D2Nh8$)ZfHEUk{bwim8m`W*E+x9@%TR@JRr
z_19njSM>)LlT2sOs2m1yp24Cp@H~YA&!o{PY$AiaMCP&=IUEubM<bF!I7d2xh6Qz}
z5Qr2us4-;`n9VVmL?%N_WzBFgpkk~A7J)~kGdN@>5g}v~sd%D<GzV70BxDkOfkIUA
zXpBV?gUG;8sN+mJjZ6>{78f|g1sape17AzwQdu-HL%<{~N)|zj(FqjhGL^>VQrU!2
zp@767OfR!>JThaMN+QqF$s#(HIZvSw1r!FALZ{G~bPkO=Bc_vBY$}DvVshy$I)TNM
zFj!bInF!htFJ@3UR3?K(BH`$uUIZ2mY}s*X;F?Lm(^+gLYnjF*Ggx#Qj|uvN&LQCm
z3<fBR$`nyS8*)L9vx#&Hj|)DRM`rS9WF|#OCsWu9EH;hGA}z2<OgtNO2m|yBD2EC9
zg-F7&=r{(2PUC<Sbl{woL8jxFTs(nI<I<UY9)(C{(wQnDjU;3dX`q{!WbkqdlSyLI
zxokja^DG*R!6IYvMEWe9O{Ooh=qw`8Zenp+B$|@NX5*=g6cL3%X9F5ykSXB1nKZ#7
zn=7RAB$Rp3ybLZAd?#a(DB@B9RW8!$To#$kW{{;!7KTn^Gp6Z8CZI(!VS0s0WRu8b
zG963cF*plE9FsP;AYuUmqO+M4KrwtkMhpqa&!8+Y0mX4BL=K0!$Y4+f6uO+uB5}wx
z5(d9S#V>;9!!U4*pgbyPiHW5W*>i*i26btiMOZ=*m=r8f$s$uI90L9=?gD`_2g5Dm
znJhe8MkP;^2_n#|5*9E}z>}$19Qek0B89p%iziVicorVVoTpPc3#3IBYkG-1j~kn3
zP^nlvhK#4O=J7+zI3i_^K$;_h@)$x2eu_-wi-=6nRWm|5i-jRGI7Awb&YUOHiC_rO
z*vut1o6Vxo>7Zd~OMvEZfXF!%28{>4k-5ZSP}vkYmO&+J$utg=JjW%1W?;$4T(XSB
zq)7-25=lU#k^#Yxxl}ry%_Gt2d<Gd<z0x_r0+h;NQ)vn+9t?6C81pg)ATI`%DPn-u
zq*1`Q;t{D_CdEo)k#Jx*1C{_70h0o@+PGXi{o;>A15`($v%y^^=wT9%Ny4*)G&-P1
zHW<yI>Qoq31PY~7C^SH1bODh-6;m&)PgzthodMp*Wl)wp93}xU1__Ny<umwHI+e|&
z3cx2WvH%wX%}Qs140sZg0lx1Vi3j?UbU}awDh0<P11h6aDT{1@Qm_QbVQzX@;iPMj
zlL9Q*^IIeW8d$oBJm9wo1abmFynsUsIOD`6I#-J)@@T?0X4EpuG#3w8AyUhm#c&8Z
z5p#NRTC@zpSkFq9Z$fT5$wKD{LUz+B9lwo~ki<~L&@B5{CKLKb=Tyks5Q74W8E4DZ
zM{la9HKUi~`l(SNdQ^hGsb78#rogPpacJn2K#~&AF7m|J#;;qDeAfU{4j&MsuA?O+
z$>hxFoap|bOqRGkuZP2im5S>a7+V@bjmYQJi62K~m>J2;m<W1XFMV}fI@en!%#0Cu
zJP~J+%;R7QbCNlR6uuywx-BMxMk8<mIg_c`VIEUDN#W0sraA0+>>`cDBTWP5(p)rf
zNh%KDP4iHmaAKB0_j2hdDxFEapgIbJ%wWz<QrSczl}IMh2wVmo@NU47Ib=W{7#@Sk
zCX)b91T4tF!GU?hN}?0V3MPvTxFX;%Oe)m?_@9^wMk@tO4nz^3xZqmCl4(K)jQ}Pl
z3X#DfaamM33#gA$z<k4)2js~DOnU-LB(lg0)afNUiLydo;A1EhE|@up3@(@zsH90U
zfk&W=39yMWcAku7VN5er?DEnyWs#%eE%MomBnpX2ooCLEvk7z@344`}Au{k+v0w^f
z;4i2JP9qEPY%+($p2ST_#YXMif_P;fb=jX32d~1F!`tHNVU%=OHwvG^NP#nag==C?
z1wjmG<fx@tzQ#XsOT4K3`pa3x6htvKDw(+oI_eF@j9rWwMt$4v_$oOv5NQ3Ux1QS-
z7M{KIdgA#+_N`a{G=9DL#&h4g(mGBQGrxR!VD-`ue$b745Akv^`&X}AjSiOI`rnTG
zul>jD3oit&U+=lU^+N4-H!wW%(u-ExKct{TzRGhqzH|0k`p$D#6R*5bxc;N>#jf@)
zz3}@3m3LmvCVzW#X!XaJe%SYYZ~RSH>MwqHEihUPd}FhH^^YRY{~&pDAnW=4=WDl%
zkwN71(-MJEG6QykaG2K&uL`Z#QR?wOP%KU^F5l3MVP@yJ={F?u4rEaXnT5z?sKq6|
zEIoBauqfTU<y6m-MDsKJnHPkLX^048mo1Jg@#s_nVNpOJ%2}kj>$v%OGHVfqrO{+m
zJYkWg;xBPY3xuUvI$=V9!*E1^Eb(y0!V&`?06jxqCV(MJn*@RhjzR%b!7P|*X?!Y~
zL!ffF0-T7l2*eZ)g~9?isZ@r9#lSIeL@J5IA`{ryIWmUIq7yNcB`Sl61hYSlM&nYb
zj3p9<07MfWTR2N+QOHE<A|KET9f@f#(aAXK5|2p1NeN2?Ja?IlBghCe&J2AHEn5J!
zWb$yN0n!|WO1O>zv?C%41vnA{%K(xE6AYC}Dq1G8$ma+GHEQOTJ1UG_LMjpImFa<b
z@lEyU#O%E4M<ubyJv1kshL5P0r{>`+I{yTci&_5eb0Gs}L5e{Lk;BTBn^$G%1@YXQ
zlmE$S`%P;2R$}#!2cE0*(+__9X7W;~e)H8A64%SGJbww&|3)Mg`NiNs>E)Myu;zOS
z^+GlG-!4HyW2skvZ@qfu_3RrjB!{7S&maAuJOJ~*dHv<zbJ{)$LvDuJ&t3oC;ZXAY
zh1YV=57lnH{8IRh^6M|YI#m7U>(S7cH;0Q?U;E*n?~hQg)hoY!b;yUPmA+A_-TKqm
z4}X}3jHG?vdZm5~>3i$-mylwfQ9MZyDX@qu{^y0R>nP2{<>k5C1kp|9=*;Zw@{eAY
z2vgJZBFOl4tsJ(n08rW37=KZ*_l8_QkK$lZBFrVFYIImUMHbIro)yq2STdeVq$}{V
zx33cy!Pq7caCD4}ys$u~F&WrtJ`oQ(Z)uLRxJ1G*fh>n2OfhIg%@UJLV__*&5@QMr
zL{BUoOJz>sIY3sUfQb}1aljI!L;;CTSp-rJm;i7rDp(7p&;>v+0tCe1Gr%-Pr_e|g
zGGK93ECx?z(djfSodKi{Akq@>7g7xnW@m|@9vn7(Ql_T}i7W;QM<%dXbRf2J7(h_s
z(?~QRKodaC=v*ogv<Y+?g-Rcv;}O{$s)$V|Feo$zk4v5bjFXCIbHsurEKh==E=fEb
z^*l)|6!I44$lOWB(kyR@12J+b#Az%QJ3l30;)qK^&in$7N8wzb0yCb9OPB$H^Em7&
z+A;yb#?CI>1Zpg*i7A2l%G5PIR;Gf^txQT4lW>$2BSegF=0wjMgsjjAW_jrHlvZ>L
z2h*uslOys4CFw1p7DE+H4ojwQnxqh@dj2&za%ASFSY#8U7Q~ui%$rgWmI*eYL*Z4^
zOY@3ZHWJQU;D3K)nQoby=R<EGR>Tn8gietKoMB0=n^sEZ7x+^H;<>lf;!%iU@kffW
z$tfb2ZsyHW+2ZNx2@#T`n+Fp(R<yXt;!JS}i$K!4HOi)2sCfST)EtkqL?laD^m#O&
z#0rdwX#^S_GsmP1Q`r+35f;wEV-`gW8jS!%3O)l*<RWNNAf^%oGy;pvCIA6fK&Q`f
z$v{#h5pe<%pFw8;G{7b;(m~5FT@VX_2Sf|NGWY~885Bezu~=*so5TUWHJCIEaLcg>
zsDKFsY6hSn5`aU%Jq74K78ysPE{a$S3^tn~#uI2X`UHu#h-U!tlmg%YjXJ-`BvEL%
zB|43+XHl4JAe)nbBM$-_2>3)Ao&b7~%)<k?qG1s)YEJ@!I|bkr2AF!W95RK>$FK-M
z`kkW#PR63o0eKg2FCZ=f5r;<LfLW8fKxKjXo6eztQ2-DEnLxzxXw(%Yfy4o@Ziy-6
z0I`QaXHPHUfV|6D;*dyOFq&vUj$;vVEH(+q+cW@P5JW7Kh{My-!*n7APve3)pF$Fl
ziAywwhJiKGXR*XN26=%<UZi801S)BPG|i@Rv2X@a$RcxqsJQ?TBxZ@TNT<$Id1Mlq
zL1L1zM9ShYj<`VLuw-mHi32d>0&{7ZjuT-Pu^b|UfX8DA<mroA+@fP>fC*24&l2J#
z1TuAwOk*$L*^6{0kuRiENmRO!z#)+5K?!sq?t<98SoSjbW?-^Fr^u!OW{@!$96We4
z8}vI7MqXlo8GJ%KLkHkzk<OcE(n<3i&{J$8nZ;oUL8CEQAPH-N4rCF^0+)uR3K=9a
zmpD)5E_2BY5s67<GMA_T_zKuS;bfUY1#^gO2?Y1R%mJ{-rY@2JLT1v5ON-z99k#w$
zr}#^N&CTHaD}c4X3GnxYo%UaVeRcZ<W(U7#0cQWNz)#Pc&jEV^uwH(#W<Un_9ssQW
zPvH7OpYK~>J)H}F|G!`@;x_nA1Le(uHHizoK>@(;Aluje2e3~6W02+&*eClhU=Qs&
zc*nzU1G`zU9&iHI4*o4zEBN;y-`|5{0F?iCU|rxYDEC*O4j1+nKLF*zLB9V9{EmR<
zzXz`W1Qh%P+<zaG`*ZM)ad7@ekf#9h>cDR}$Y%rTzYEIzXHd5f!M%S6ek(wo-UE3r
zd=h*J>VpP{5IidZqo)r+x(q1iqRu$*jtjddpt|@qGWeDYzg!J){AY0ELgz6J@>PLy
z#l<>>8Kf)p&_<&{Uo$7(@$Y9+_Vk_bJzdEf;k9f5GtY3xt+y)8MRhR1k(pB-^IlZF
zp<2vT-=R869?_X1sI;{Wj9;{Q`4Ce2u$_zoN9FEnF>LTh9UH|S-BI>s;l9XrD6+m6
zsfM)8VmG&&_Zijg&E;dIPv6aKxFdCg!rIG+vV6&!DK6Q2*%>kyT_{p1tCfkfyLN($
zvR?Koe{JatZOdwkab7Qy7k*o_e=dNW5@$0;Rzwv&_`202EdNFljeXA0Kc3!savyIm
zh8r;qQ|bPjNLrt+8vQlY1l2$&{yarLd{n|5y<ORCA(*{DVQ)3coI3V7-`UvvrK#lz
z&8^1kK409dVT~!G!iLqbX1e9eCU!y|x&8C(Mt3v16_Uv-`yID3(r>C##X3oK#BzMP
zEE84KX1`nU5wTFvNp#BHieUG!;<ncl@p)ZW+|h2@Xr8#er1m%yz}V1eA=fKMcKv&N
z;R<0%=PH&B-Ie>=lwNFo)$}?gkZn=4FPQcDyet?cA0{l>LaG^gL~)3X%V%Luu_^d~
z)FNRi0bOtVgRYRoHnICnn>iU3c5c|C3fYzTBF$PpS>4Ul!`s1t7HfFVHXOHex%tJ0
z%6cGE`C}H}Z??t0GR_oBB|P?3?^l$$?atC_k9bP*XiTz%2{>^PFVMmbf2X<Q$nNR#
z_&`L$t%_sYNca1|)YoOJrvr)^cwZ7C)*$}<){tJAmT?^Yg~aJ4~9sDt-S6Us8y
zXUbjnE$mp!TdUE|nIRMNoqKog)@#%UH^V}?S<|)Df&Ry07biS0D{cB5DK;z28Y~9B
zMe9JN%p9LqdT2Iz7*%qp<Tl{L+BDygxGnEF2o@quX!3|x6z(zGs$*`#nOb#dlyjT=
z?P;7)@<45qJ-37n+G3B6j1MK1zjDqT+i>b=V@0~V+_ItR>sfU$hxInuTW2o!)F*;q
z;(!pPO58EAh~id_$;-<$M!;l_#3VLfUbwSm`?4K38Jiwef}fgp$C_dbDL>VbIujZP
zyxsSv>eD7x<KtvLxomPL)2p~fJ>zs>o1~05Y;;t%`>f8HOP(vd3zCfcBf%o=aX1<l
zTW!le!Gb(@`8=AfFUkW?LfuO2FCS+#r`GB0u2f|V2FDAV1;g`nmy(p(pSFDdz!eF7
z2a_-RZ&(9c7IlQ0PR8UX^+((NCVwaA{giZvrOta+@5SQ`O2FXlM5hxmM8ezn#huL^
zbDC-r0pkJMa-cCa`Dx}uQshLBf5eNHw`ecsYj&IQ%*h;eH)^?JcDKG2<>OXL4l^XU
zZwtSBoQSZGlIF?e9B)<-i`^@4l=3-ys+QzRv|?*kl4i{stvZ~1$7;-o*Fg~M`cKXE
zkwrblu9R6Trpe5|#3WbO4XS5di9(B7by~f#tq556d(VKdgHR@=E>}I|oD5NdiG|Ny
z!gSx0b#C<|U72nxKK$0YL;aw(*`<I5ZXV$<WemnqvJxr&&~IkD&3a2Y;wdEi&WYGc
zh?m=Neo~*c+kHmGCz3Cg?*>9WeKB!YQM+$13WMeYal`q>Q=?(~0b`YwyQ7&1@ilhe
zAwKTl1j^$}RE1pk*F?iqLe<(*q>i=k=Qcv7hc;XKJhD-?S)DPpBO#bri6*%O9|DAT
zQ?BgAt)_!uXeRsT)pxcXgvDs9rRCMEF|dlG(rim^5iOFWQr!Wn&kHk_#2b5y#sps)
zZ->^qv-tG;Z)?NO$e2hF1UfCoDK-wMaR!a1Z^|R8P(5DM-stW-Xto8jPOA8?2hr$g
zUN<Wcc|=-GLmY@_>wLLOj}^Q_&1yW;i1%ftY#;`;m_AC_OwEIu_42WEJ}j0s6zdzV
zL;^<jxidCjHq>R9G+oKoj@R^sDJy%sEVpYbrb^RS&~DdCdEG8=C7K8sED>Auv==r%
zy3n*ywDJDPa<OJgYn{pBAxl>f0KH88vx-Dso=a$Xj(~LUz{Fa3wrq-OvpkAZU@f*+
z?CllPl7E@SHgjZ!sA8NQ<NOiWvB26jq2uyEG@v@xZ#8vos>2>O+8-pa#c645eN!3c
z)2sgiG?eD6ENO<(@kH(UlS2M|ooT?1Rv}|FYQs?5^&0D3|GG8mYPg%L8(U}EoQr}C
zZ|6T3x=w-51ILNp<M1aw<b5~bmHRz2kv25GR!=t-tM;Dn{z)L(cX`E2MPgtOQQGAB
zt@2h~Un<23F>iZ8Gyb-O_g>RQ8#DO*^|oh@`eDLu4<CG>&ATy;|EFh_M3Qq4>`$hI
zET#H9oiJAK=+;haK!XhEDU_@|wu)-6RIQ9e!e!mro8$ABc9|-i(AB)-h!rc$wsx^o
zEwz4LHr<=rP(CAC2u7#XV#%d6s_8AMr;w;pod@J%JiekzCF3XMmCl`LOnB%y2z72K
zS7I(@_oEeq65+7Lyql(joQITGc1ylG*h`atQ+E8@ohN<WarC&*-K`f@dzAz4Pi-d$
zF3&yAN?FP%)!8=JJ?Fmb=p-x__>5d*%;Gj~s>BL}FJsCkG*2`MIjb6^IPQa~JfL-+
zmPKJBMyxVY?n^gf=Ku4qI?XU1SehDzr0w{ZUaEC#>>i&Y;H^)rH!OecH5cl);_oO~
zVc&95Ze}^tUvj$Ik91SsQ@1|-+i9^mfvi~Cd{c5~J*C{ykC%G)1Qe)_>f>jtDoOQk
zqdRqmSErL1tmd4wwPW&G;qeSUlPnz=n`D36qM+!xLZF2mr1UWNd=kdGzm=;;-Yw~-
zZHFH)HX%*9m%JOoyYnS>wb+~e?U$wCq{2*iq~1{S(piaI7wtDmNu?=aUF~Pa8tKH$
zD-zW^S+gO`%(4p}WpJGW!lpHqLZG^0&{|8~F0-81AM8!+MIUULK%6Sbav{jeZ{%7r
zCU7MECpN8PS1RaOQ&MrYt{Qf3D+3B0&&ymd=Xt2OT3tNgekL83i0nI+xYFDlDdh3S
zva%VQC}@2lXT$ACo<)y|VuOnt(bCLncl85tUu!kn@g`&W6FbblDV6e#rI4~}ke*B;
zvb%b}-=P<E<?)&aV~>+>Mg4{ortGOly>~!S_#}x(4dhfcoKLRrb{}dLu8ovK2)-__
zd{<47$(vO^)qmrzJ=%U!KW_z2p4yC}`u%KD-idKExy*SqDui!TeHEv_8Yo{mS`7o=
z3aapiZL%@z%mtZ$5%-sic)Cl?mfEZJMnk^INvix=oI1QEPQ+WJcd1HcW<^n4$?rDO
z^$&c}Z)>XcX8Uiok&sH>_w0HkC0zU2r_!9UJkYayDOoJR+mYciz$s9FPvF(pa!hm0
z_2z+^6ViKH-1x#&<=3kX|G}r9bVKRDUi2g?Flfw&CS7?$6}7sm;dOB=aL^U_Kg=Ac
z)rtFln^Ed+rhL(&`%!wA>a(dEYq9VN#eNzcudFKqHF;O3m${jd%)Y8q<d@)iplH?i
zc>b?IDlJ(X*1Np_z%%y(sfNR;jfc*%QJ%84P_9b1@Xm2|E%SMF__M+ky%e;N(=mq*
z_nXROs~dcp5pSU|u6(q7e^;Tg$y|JQ`r4`2+edt|+yo)Te54JMl;>V})8by&_~X)?
z>2itUQS?k1m9M(In)Jx9Qf-VeEtPJ})ZcM4;o3v?eQPY>-EUh{F<WTr^9b$yqdLv5
zW_mqb(N4Fw@3N>3AckM=kbO5Wt?GI}oO2O3pRNXcktjKb-wi99mXs!KxeLPloJh!T
zgIUg-CWZgAeGB`E{z%r*Y<aoOmB|i#J}cMnA{6{6PjE_&Z4GyA%ToP8x8h_4QY@X-
zh0Axp9Ix%Nm)E#~amr#r<I}36?r7~+HXA)gH*I>GJo+%R{KL#aRB4u-?l^GvwA{iD
zmXdDZ!YahUh7+FAsz04p$|#1Fy<Q<GF>hN}h(x=OY0JL;{oi4cGQcD60q29--+uMg
zhv3}#`Bz_E_#`?7xF_^yUw!2OSS$w&CU*f=y6{s(2b;zxe*w}1EcN#Q12KQ~)mLJm
zH-)+RyS>~u{u1mdzw))Oy#)Lg@&WdG3G4?)z;hh<jR$+UPXONf6~KG{3~&|$>^(mK
z{tS!2=Kc~W_ZvU^>MIDS&)<Xh?1Quy`d8loI^LiE|8>2<O>IXoqX9bB;&@1_^QC;1
zcG)727!)zV2HtDx#ndY_RkRROSbh3~K>n_n<@GcI^^7l_59oZ-P&Zj!S=Y$SOq)*X
zV%oSMBA&zVv$>>9O+#67>#Dv)x(C#!-3Cj7qS8lnk&MBq04OM9l&{2;685H2no>G^
zw!Ge=)^Pl0QOX#1v`hhq6a?J@O5cuD$_m^Lio+te;~=K=m(0;v-MC^j0fSnX&JoKv
zBz0;d8uVLq%S_dR+_pkKT#Z}YJfqj3)|fh`zCG^OYyxSu=&=O>t~12qz#_)#u;!Cl
zw=E@<q+LKs^JdP`D~eQxu-DYiM8sXsdT}9}wUdR6bzoCU;e}(4Cvq)_mI<_7quUmj
z!LD|u17?B_dmg5F<hC_!ep$-WnpU|Tb+*HiIDrf)<!Wp(o4GQxDURi=YKyDrG6RQ6
z@svDCOBB2Ug;NuW70ju4tR%56SIV&hh!iPWYZwYaWAXv*a3lD2NA70~k3Ab`|Mbax
zP4_sY3AguO+;Yvuxj`JxNQ+qX^R`G|xqRRN(=09}EY(;e1((LQf6Kd{DCX(~zQwC_
zo1KQ1v|>{0EU9iV$*zH@w2oLS7EomrNp|>Dw!qmk1y`(5dqyShyJZ@;JfZghIU|w=
zA%VOVA9E#?5(l-OPEZyPo~iSJy1`geRx45J&Ph67n>K0*4?Sx~b)gy?*voL47D?WO
zm#ZyqOQPsYYxHZ@OjK*L_7_v@E6F-GAz-i^Pkzye$L#ciu@#K<lmQ1W&Q0@^eXHEp
z&q-9Bw!12ch+NT>PGYK9V=kGSfzJCwx&?baCQupPkv~*QSBqLX$8LF>WKF)ma@n`x
z&50)sx(q+VUCpUxaa13{<6%p;6jqDEztu2P8(EQ@<q>fuskqD~saoh;)>KH}8FlI`
zNf*v&sm8gUtlCphXk44xNYHZJ7U%eY^OROBb>SA(7Y9y2vyA1SS)~?=TDg+dpte&}
z&QM$E(kI;OWLZ|Al6%h=mAvghVNmQ%Xk|dN^|((bXHs&ftoE5n8ijb~^=J2;#gwIO
z7WzsezbjJrBsyD$M3^gN1{z(qC@$DK)-_BJOBG12B2#F;Z0xeN|KPBM|IC-Lny><z
zK+0XGYk(t?m=>dP1idzc2sk2%7z`!3Jew{!&}yUAUUTyu3b!V&zAyra#1+~(M=<Lv
zMk2<HDj_lW)h1)s=(k3i(yY<J4EjTsOjK-5Hvvrdn!PsQ`o-!5eoPewK{6pW=~M#d
zD$og)$tUqje#)ux*X$;xp{UC1mp$bgzP)19*|i5tRd-nD;<<y?t}J6^>uu2_Atp;I
z4IQJ;6iVB*@*R)eC^`)}j0(2b%9aH8dcj1_mJF}l_waM><+`^j@o5#o6HeaYY%xrA
zmA#=RyDdB6L`0g`W;I_$3-2}*X1DhXa_%te7G##ijbBz~>pF)oBiPaLBXVg)#C~`e
zxcBL3qed49T$e7OBX=L^;}ly!*>QUES*>m=+*t=&Wrk!NZcdh#o7D6ahn?jnC01!p
zEl&%IV!l9le3EKvyGe4^5%%hBO;sow$SR4Ira!0PYy`=vK0_Y0EU$1{E$eYewY4KR
zXM&ZONmBA-V@!)7=~bv=MwiEE3#>$a*1WYYvUYv`q)XKCc*GzyJ=tOP(R@I$-f8dC
z_FeY0A~ofZc@L~B3ToPakV#mD2@Pk1r3OKD1A>G_KA#Q*;PVk+X|1?!SE%lpqRxnW
z7OX*}{S5Pzy{=T4)_e|vo4pt_7&CSffly%t3k9uyf!|y-Cw+Wi-U?Uiss+1hGwTtg
zK$BS$%&^&)^jNaSWtl4~ilpm6`*4=6E%HYU0a9~g*)I}n)aK+d-*w_K%%9p_w%tj8
zT4YEB9ax<~$MtI+6`jUe*H9fR`OV&LDCke*WNKAVouRmz0iRx;Yl<`)QQ6^&JIHNS
z$riWREgeNm8OZQWIk7Zu#hI<g?o^5tH)O4Do~03!#ls$xj~v2?cKWe3Lil{sz3hs3
z8$L#|Rr6>4)?Uk|3QxuZ1!g3*?UU})6P2>xW-yrYQH>5bO_R9Ixd<=ZxT{D-K=Wo(
zR&CMhcLMi?c87d<$y;*=eIQ&maLdOGC6?{3gw>dfM%HB!JF{%hTZ%R?GAf&<c+=-M
zFr&VZ9z;yj$IND5@lvqmpqpKh)lSFTj;r0ZoFO5Tn}zOFO~=v6h6{w2-cd2zm9(Ts
zShx6CM!S@h4)Cm&t#Eit+e~%?5_@3YkxuUii;`_sRb@76y`wp`+qGJYmuF*=K$X94
zjHFD06{aZY%4<@UeA{6Mb|BSYS-^{NnQE2k;fmX0xa)UVjLGeQbRihC1eepLl+ok2
zSkze|-WAA&y~0|B`$WI$=vv}{Do-4ikUU8Dngj7Mj<Hyedo_fPEw<-yk-ThYcg<j8
zEH|vXT$N9eag!Xy1En*}JV@H)X^X_bEql{KXH;*sXF5I5vfik+<X}<uYJp71Zcq8W
z1&_O!2`VgH;LF67(<MTFpR;BKF>H0_0zqw$=_78XYbBL6@s+8#D^qf?ZMF)<RV9Tx
z#dtxMs92e9Sxv2J70t3R@Vsi=2&jtufL~BJh<OC<XxMx`q@pjVt=>{hsqiJaMZ4!S
zrOA5LtKDczZiQFUDT#*WFG}Nkd6U&MvC66IP5JnCEo-W|{muS#F`P(v7nj3?Qs1jg
zow;?q!?4HOtvmI}pr6$}l+=OG6irYN39nnsY#Z5Vwm8&+oImPMxm^i!jgo510{*UH
zMc$Pg>g9YUrU^(KVzsMN4CqtQtY#7Tdlc&V_EICaQgo*iD%UDs;h(NJBZi7JSB}-!
ziXf=-Qr>dvmW2}a5{P!Yzv|Pmi6+0;=1b^}HjA($11^qrhICmd@fd6!LLr(xZu*v0
zwL;#Qb6RX2Z%#`VSi(3BUnL0ufo;EIv`NHripdy}>s3~@H@_m3<}%!1A)Mx#{0`r;
zS-)KMaK#p_(hdS7Hdk<2noFgY>0ErjHbK&^g%#Oo!07aEy1bP_)ew(@57Wz*E%9_%
zY_z5PlAJdKqPF|I*idZV$rag?5uH3C@+ReOo-el|p-bcvr#VR3>?QK%q)Sr@Rg7^E
z2+;1Yt2PD8Ag#E+8k5A0R=o{4c?@>tmL{uiRx0&8T_mp4XKgk2O43sBr0tFsvo{?r
z2iBZ%l{=8D$4?DrcR5<4=<6T^J>95vb4+eUfT0YuM0tZ!vM1;y8;y`V6^;0nM!sV?
zqVk)Jz<p)J4;H&uEY_H}AugKfaiLb{$+uUnMXi!o@K{xzq#1m()*Pz)%OXc02K>5t
zJyy0-4t$KLJ+#nDG@h1EMiWB&17KDicKEjSQ;!nS+^(bM5(iX#8;9uzaiHB=d4gnd
zyJ&HzXN9|Q#LwFeQCnH%x7(JDwyK3=6;@<-awU&`U1QVc{O-2F7I69;f@r^;-%YH>
zfyr|#91_~~vPd!%ikXFSn`p&uu&7I7cfi`U`aC*~T3Ob+1sZEPQjpnFT8}jtw5=rF
zrr@m*zO5?z;&oLSCGV7-j*K*$;)&l%weMrHa@87$HXHOfTh^H7B%Em|C&{_C-*V>l
zZ`Fk^yKXg;_1^KR1Y(nw7^HYL(N2iasR$hjbD}Pj1yeSOD+SiC6FPNH9inrrk|@LN
zN}9%lDX@;6ZI{7PcROVb1Tz`0OBs@iEkLUvSPOa623-`e<c#wJTnOxwFpONVropM#
z%Qkbf)Nv_YR;`nz5@qjcHkT|q3pvhy^<VeH{tM8N{U@-$g9Mny0<cT~><5Lwc?RrN
z{Q}^d{~h3*2LLDi7~q({1NXgPU+6NxReuHY{4e1A-@f&=uQf09aY34o!5+~=fVKW3
zNW%hqO83Bi5*{4C0sBrSkT(L#_ypv88$7?TUtxm0TJSzHNLvG#>1!a}AA{3{9`TFd
z{vU$${|IoE8kFq^<wgN^`Z2iwZ^8K?NcS4pN4p2=eFn<@KB&tV0RR0XNcSC(#sbR!
z9K2@+oZkfX;({`+fM<4Khg%2tu7SMkpp5$<|9z0R3-;si;G6_`F4E0{Z@LCB-y7iG
zcR~8U0QoOs{aw`K*Py(gfqc&a9p9}V|E?`R0KZ=!hYyXwVX#r?$iNs12}eRl#wQTy
zLHN)WG-@0PLkvwKXD8spb8r+92^&LB3?Y9EotQ-rj*O$BsLN0k90pP$ClL_Di>MLE
z?dy}X)1xpb6bggG#wN!QXar&g2^k%ko<fen;855MbbNAR8aA>pJuxu@g^y1SPQN+`
zpMXNg;8U=Po0HRHBa<NeD12mk428Zi1S3pA1}4Tv-x?ko7+kvk777L-B5tC8jD-$O
zArRxx;oBpyNi^(@2|ONwzBxXPA0Yq1m5~YfwUJTc2>LR7^fCfDFfsKe9047GL%44a
zOe3a-pb!Xr2nHRS9)rVSpnju6Bhx4(0)ZZ##2}`pCsFVr?A+w+<QQ^%VtDfT+Y{p`
z<OF&OikN|q!^U99Q519ng@huJR|bBFLX5!2$B;wtkz1oEGztwJ9-l&^2GJwerpM8U
zaU^7V9Mo@U3W=V(3Pnz%Mo`zsU~}-np>gyWY6=S48i9g<I*cLz1PX)PgpEUQqmj^C
z&~XTI1iWz)0Yy(D!9V06Y7{a)bsaH*nj1onp<ojWpq&xZ$jK?#(gI{;8j6NZzIh#n
zoEbwQ5W`bY*bodgbbDdu%B{)4Q8Z|J1Z3{^$kaG;Zg6aJcxiTIa`^Vt+*R1(C~9_i
zl!TibCIJ#yf-bx^OqzrYp+_-L$OLs3f*M64;B%-6$n9a!+Ds1o2K4eE19k;{15O8e
zI+IhpTbF2qGWsAOgK5~yBNWmN8uBIj3jbx%6$DoPUG`Pz@Kxl%D^UK#OMloNf8mue
z<Tb2qW@&h8{4MTVle4T*Kun+w;IPr@+e0I0*!;lo)X>7rFluUMW@rF43rEfjLy4Gq
z=p5u0Y<_fMXyA=;%*gokJQOlcK@N@0B1VVMfRL`tjNQCBIzA5>M~n?aCr1#VAy8wW
zvnCKD&`HQJd}d-|7&?SN%|Kuf_}KX5ARIC_gPeF13Z0)sPfnu|Q-pyDBzkfj1|LO3
zL2sh34-6u%-MV#q1Ti#sbM!h4j-WtqA%TA0W!TUN?AnhZ)N8k)pv}f$ODGtM03Su6
zhGCbXv-5AhfxI*}ig*nQgHbLGk3pu1(~zr|VB}kuM}KtfyKfCJM{keanm|sVIFm^D
zAcBM*#!Sz>{6nVltxJpK5!@ga2OWQjh8kLg&5gpxwKsnB=F2ZaQ9pX=l_do8`y;o>
zH#C@=*PeTYc>OYTVD$S0LP+{8>wsVckQ!e*CV|?cZxzH=G%AifeqCGo!w7qsG&44S
zI<c?|yAFAgck@*k>Ln;tLmV1PAifVXf4%k<LhhVJ+_1ecGHM@q?&?kYFa&xPfkdKS
zoPfax;50ZCH@d{)vA%cx+5%-1KR8E%p?*L_56#0-us6|fT^GIanh1vcq2e_xlCHXa
zb8hMTi#JAOuQT2phf!`I2X4S_V+KcVAP}f4K%eI(Y~t$J&=877LA)^tgOA{l&><WW
zhNc6i0Uv_D1idm(h9Ibb6V1cXV@%BO*x1sQ@xiM!B=+h{2sC714DhK@2zmrMJ~aU!
zML;HzQ0VYAG;9PpH8gSqjzPeYka74p0yTn$BVd;iD8N9_V+iCd6bzh6a5*-Qo<PG!
zVYfzxhG(Xh5F<$VJOT+Bna9i^h9S2xlM}-eqvJyZh}qY#FF-L1!<g|~w+ETCBf~?O
zF#;5W9)f{tj3RHt(3m0cj$uGm!`E)ZM~A=jDiXdq1R;)9Py-{ExO7n6SFY0MQ7>`_
z=aJ($^w3q_5)3;ipndz5*ANWI*mJhm--N*4KwWtq^$P4|`?p!5H<354%}$SF29RU7
zIM;3t!-vR_VZ<l~3~I>i47eH|oJAuBk%KdH6Uf1_+Y=+Rvyesf;LsR$dKh+lespkb
z8Zmc!eERkngfNN1K#)k-z%UX4xjhFNx^fvYI&d2bI$~rD2?MMJ0!9gJ95AqvTd>JV
z)F>1>I6ZwE0lEPJzlDUNU}Nx0a5Q=viJC;gW)ah)h*`jmP=Nc7A*RvSpx;KoZedV}
znc>kJBg62C3H0bF0y>Tw7#jq3Ipc8jFnVNc0r0pbI2?Nm2`Y&~TtiOGprKF{au^Kx
zArzQyCJ@sw<oF+>5LW=hM~qFNp@3};gPsBmbrb?cPuzx#jRQ_S218HWngnwMdU^&9
zogbVW8XTK~yfF%y92-N7LttRuf=$9uqv$CZ0tLU0o*06@c>_LzgurJ9NrQtUZ_Uq-
z54|-of<<1tIdW?X1zSK4O`*pYA!BpU>o+k21jOi7?CU><z(K`fi0h!OZ%&ZlBO_yk
z*)i1cC=$XQx&j&ta9Y3-he6#?XfPc>P!mYNEx>32Q^NSIsi{fOShHiJ*vZL3=-4>)
zPXSjzkIkV#700h4rx2qs7-j-YT{qCk(cwQrpohRC^e`0AA{;%A934fDjnCeMj|`8)
zr$)zap<$re;ZQ6LKK~X1Fr5kHWh86{4ub%Sn;1hwP~$MrDswQ%_;YC3m4V>Zf0dKM
zK<VXOAeT&l_24j=>o4M;eGSM3dq5WW23Tu;0%VY{fDG~XKxQ$4`(J@H9+0F1^8Byh
z0Aatr(t-Ovkj@XvD1tKw+}j6sL5rYlHITJ_4eW|c;MxJoQGsU{woShT|G@44?!)*Q
zcy<-M>%zBd8kBt(*ic>g<39w?{~R1HaDZj)uLwYnng>GEh28KI@Xm)o*13p<cM+%}
z1<wBg)bSOd%kvamU&K`U0XWA&efprz-v-waQ1%h{ePR0q#G$WY!ST;vE&Iaf-~=e|
z!jHfrcy0&Zehg$F8>sIYc!v+1r!I7aK$;8Prx}p{*C5}UppKtk`(0aJtbd<p*P<2O
z(_;Pc`#{T~*zN1KYwb?z>7MK7z0J)}_B!QmCx6#p>eZ{xSk>p;IjU89X~$MOydL@U
z?PR}IJ_3Pq-maddTAy@-$F)xCSv2l-)$V*;$-Z07KYf(1bRFFqbHCC^e*Dw)$I+vW
z9cj(?{`v84{;?zR$xht!c5K7<xhww3c2ytEKiE3$CHx;29z4oCc&GI^m0!!Z4)&e*
zPdul^{q3DPh?jTp_<m~rF!wN&@@K<qo5#geE%mVWU^ll_->s~z_j<+JYAC$X+<HIS
zY3`pkd-;vN)KU8^6#7-uC*D5HXFh&=8>s)>E2pcq6I<tl-udp?{=Kl~d^h;y(Gz#w
zpWfebw(H5g&ES)ib#H%nv;Fq^ojaR%y8Ywc!(i=BY5%a`S%3PtQ@*qQ)mpsgIf$PG
z1EJPufB7sSsQs+;Zc6==FFHHv_Exf4_4fFi-J{Yw|Fo6)X*>S*{V!XJdOp40^?aJt
zL>ha4@69|*u09Dzz3Y)!tyB95cn3J$JdYJm)}Ow&)$aPYwjMutwDBlbZUNt#>7H#B
z#EDsbw6$}RZ9gu2*gyHGuiri|#6PN><sR>BRG${kd#0_Uz1p8;68%D<R;jLanz{Ss
z%~r48EL7Xoz0TowwN}n;Z#Nr_T4nWQy$w>;8vV*vv6Ct8R<?8Xa<vWMO0m|?yw~pJ
z!|UY=h=Wlr7dj2C{4Bk-b=3W^;SR4I_)QPY;$TYNkR-n_K3VObZdRf@+S;?v1E)!O
zwb{=EllM*ir`>v|kOZzpcOQKAAocKmq1-y(>E3O29-LOY>;28%$rJN#WV^PV=swx(
z$C^JmXl8-a{QYj%vY&i^?{33WiLaI0l}vr35Go{++0yZ9@vO7o+i=%T>dCI7p!aX5
zEB&=b<Y+gV={#z#whz0j?MgnHsyC{U4O9I|{a&k9s^2fxt9v!i>29)=iX}_UvqrF*
z+SqHIq&JUpq0NKjMyu7{uWzhw_S%I^VXL>BC`8WIgB#U+W3{;7sT^<BQoXHmceB)J
zZ*KOsdiK?mTDjPCMYE~(2Z6OamDXCQQ0Z<q51Z9SrI}rAdW(B!k9PdKjZQaxRBRmH
zedMa7YKOJnUb*Zk98mr#*I7#)X|~&+)>cp39~|5-m+!rEH_{1ME5*m&rZszfczWKh
z?sPMSY&NnM|MP6OsX8q^-TwLhdcCo^e`>Gpo@dIR?)Q(+&kt8ky~e%I8})m~?OLty
zNv6NM-`o4}pjKM_OkDWMX<_y7PRH|Eq?ZqDpQVqEk7|djr;p9G{^rifd29V%=R6$?
zwj;e<%od0~+Ua|?BH`Zd<Kmb1R?iye?<w!xud9!n3+e5L&sO)gtIZ0~ggQ?&_Rr$!
z_wWAAduze1?Lst~yQgh;J`S9|b6$)DQ;q#vw6?#zR@rFQcGCx&o#S%3&^oIpGeL8`
zx|(>9Xsx@C@|}C`Oyd4lrkUT#@0A`rt@m2_Vx_bnP4_>pHu9C-)%0N`SPEBKp7tI0
zza-wt^}=3F<t$p?mN+xn^rJhg50ve9ybe_|R?2KOV(Z~#Vy{s&2Hx#<0cozel=emi
zcr!0%OTA1tuzRrH{&0P@*G(N1B1g8?gO+lm9toZ9?6kL>pY~Ga)kw^pb;Wb-o!Aq9
zzH*eSpWh2N&X4-d#N*2OC%V=~=IPVD?OvlFPuGi)$0xB|@Axp9+&`#q1@H9k9K2Wa
znhI+zM?HDkETn;sM4_5ESlexZjxX-C+v)q+yY*5n89sOP<Bxid%vrmXDO6mwdOCX^
z$j5e4>14m&>pp87K6Z9WyKndU{=3`q2h}^PYrT;1+2ggoZ=<o9=#|YInLwrSb~BZA
zuGY^t9<0XJ|K{OAqj&#&bG=`C{C6Mw3jKBC@kZ00EPUsvtbCk(_wn82-Cs^#cdp!9
zy?p=0lP83|?WR|gm!`9|r@7X)&3Ehi`p-skC%5F!pS)lFIONS22A}-QYORlFf={!(
zax?X_lI^{ppQbkTtNZ<}TsIm$%vU#is@i5Re6m_E_4c~z7*FSU)(u28h4AV7h304L
zYo7sT6Ky72&fHyp99KKsQ}pVU-A?GSZ~v##<$T<;e^{;_r`C=<TgSDPa%b;ZD{!~G
zxzSs%g@TQJ=V?DwO}`&-Z|;`X8|{sgPVKzmX=gX?XUe_w+0**NjehuEVSVrEk^f2H
zX=tsw6WMw9e(_<|&FDPp)Iw2#J894Oc3PWfTiXipIw$kqUBC0>tPxA8!hQD#)mpXP
zcWmqk&Q4OHwf*DWJApf8Zv*gyBgY5Av)046Bl)%MYI-%6%%4>Y`dmM8l!^GC#o~p|
z_SU)Q%)YZ#YPUnp42YM|&&Te2)0Otgz1@@3;+gBi`%gZ;7moe(Ve9VQ2irRzZdLm4
zZ=UEQ+lRTc$F93~kMi3oQ=nJs^{U-kVe>4TJ}ECZH%>U+jh__OJBiQQ^>=FzHy*m2
ztsGztCr9^#>y7hDIT$_L2>)60{rv91NvqNI``*p0rTUG)<7#U&{qfP!7oGi$wWF;<
zE`L-@@3xxhC!cJ7YRo^V?rb%W?Dx}=&7E8&);l|XoGI>Ye&BM~HXMoVtz==fDS7{}
z`0%8^`O&d`^*p=VbXI@<IQ3q7t<upSoR?Cc<z2S5qr3Z7x6QR~-THWYBmZ`zy%t%|
z-`xqXy3X&N_4l{74?cWWE7)4aV&wg`cww!4_#}}9^Tg45q1HZM`=Y&(40me}i($ad
zb~n9yyN9-75iBq_1Laz*)F{^co5qc_^|0ECbz29$+P!15J-^-D&aP!@xom!KH5mGc
zFOAgK*Gi#iqZlieJNGR0!`1&<Dc#*T`0%4U@y{jQy6*VF-?fW>=IZ2|#7wQ%wI)I;
zSItWa-D$hFclO$+<!s(`w7=h8OYc1>-%BN;$#%EZ+Sy5`54`t-dy3P_X*=00wE$1|
z`ciw5c)D8O0+dnR-K{rUnRLC7>pbWtD&dVg?)qxKbuY5_el`*Oh3Wk>aJ~5~TsVK{
zi~mCq?0%Z-bUUlAyH$%=r8~@o+gwSlWc}>Dp7mp!_sjdApKm4`j<wbLm#a@3A4mUu
zr}e1P?wNC2e=pnG-K%V*Tlv(3hx;e3t%vbWeIw~8O4^4NZ(^<0*bKDFiJi4>{Iplw
z-s%QwWlbfu<=d;QukHkZSl7sB_W^|mbD4uwu6wpyZuJf<VQTZEWXJuRv(k~vW&e78
zH?kM)_S-w@>g(U={r*Qq$Aix+&+e`J@~5j&XEfG`)ju+weXs7DN}ld5AMb>Jve2*G
zkIk;vJKz3dcju_r+bX0U)sIRa-95`ajr2DPd;R0}SnE-v(Az!R-rLje6#HMqqP=^c
zyPJ;qcJA%;UgGKTVWoYX|E$xcX3E9)&bvTuAiA@@mfy7RZiayCk9&8*<@LSx$%E`q
z{g1V$;cV)Dx3IdgTJgj_y7Tr?t!=t{)++5+{^6)l-&ikhRo74Y+pF94c;av`wqHHo
z$i97CEgv0h2Rq@d4rn}}1Ah<+tS9en=Zc$M5GV4u<2pXH-{0z04sy2r)_q&0ma2C<
zX>ah|djH^Q_pH`<`k=YnFZ*)q8DqP&zxv+OYTwhzJ^JXOXFYhj-;JI%Haq95!c@lt
z=KS_XYUjP9$7=`06%geumsqbJHXAK}K6bC<dfMLKIPRq%tgmH)y}dij!jSv8l)d|C
zr(S!%n6!CzLxs#{G}_2)rT6yt5}l@dwYPCzxpV&XxbZk@xwq>)IPLk5V(E8Np=jxR
zSKqx;>sBHk?CV3Tk-XP^ceR>14Z7Yts%|~}Ou8?sSKmHL---0!e*c|JTlZ!59dmoN
z+t@6W-rd-Kc-GoHN|pZk@#D3}?>+nIqtaSuH+Q%EY`^yDhkN<fy@%~Y<Q=ece&<W;
zR%FLljGFet2b=xJyI)p|0ek&y`Q2RPIIanG>l=3-c#oTRdZiD`y>7i8Ig9w#4zeY6
z_TAIYUUL6K8whk*tX2NT^?2)kV$D^HAA#74?9tz0kutzDcL8RJ0jzRi_n`(rYZG9V
ze*@OUPr>;Hz%OBtW)d8~1UTsgU>ylq6aF7Tx(ojeHSl}_;F}A(3Kuxv25ZHWVBL5d
zl=-Is8~qC0ive7;5ArDhj{Cns849reeGy}(0<hb^0XWG40M-e>YTp6x41zkm3Et%Z
zhY2{Nm;_kw_s9MfHz_<MopE8O(01Dhf+S{D?v+o|nR7XQL~m7#1#q**C}mJrR@|KV
zz7}eVXNBuyeIa>6CO+Uu;|F8nO5LhREoQxQ<|x%>@ljcPgQ_%fWtI7wIj%inL-Z5n
zXwNI9gbS3*<32r&V~HM?Sw`U0%dz51Na0zvgpx4xf(D<PDoqo8HlB}0;Z_adrO7Ra
zO0-OMxru+Qy^OSKIqSl<h)ICkWfSm7fF~c}2OUz~ThF=Ltj%}0S&dbsHcDwOi`=a-
z8qGQ%n`Jg>g-(@*tP!h(E`v$yP>K{VmP<}?=u_}zAx!+dhlDc6uq%W0M++x=#Ng2l
zvz5F2sbg~RDz6|LCTVA8!W7xMK4l@!FlQL^B!{T~#-v=eRF~nn?CvDtRO0xmVbbH-
z;$esvVrUD!S+%XK;5sSFlXNCmTV@Q_I?o)IJPt9r{o;XV%x-|ZRJHQtp$Mm%#$-pi
z+&gCSN|^qpab?yNm?kv^@;ottm%VNom)^2sGqjv;itj{Zky^yWe%+}K|E0{pTN1m*
zRV^i5DM{ro^%BV$;VgH->P@iS&;t%rwX=MmX~v?7>xu8za5J#*_Zy^yY)T4Q#_5$X
zPSB-YUWZt~hFWY-VshFn>B&fNMQ@yAf`Cg}k7W`+8<Ue5e8UP&;ac%dPbEx#sus8t
z1mVh~x(U6BpIp4ef004f+k;Ax>492dJ$KO*+xjO}x67{Ja!j;fHe+K&%!1@({gmaK
z2wAKf6joST?`W2!u$sknY;N|6-Y+WLHdTKu4{c2Sx-2x6&lW<A3QYXhI(qvGTlCjV
zf>XP~>gjkB;dy~JIb2?OP!lWWEZeh}Nf<{GzZCMT#x*4AUUT3!yG{(s^NUf!zD={B
z2m+6KPMfzV>EkGPszKwvMGpy=6MP6sZ?Y~(lUfaTROMD`+?u#KSNPmmX#3abn7{Ib
zHJe{QwkPBTf^0){sq%m;HgsLX>9NWiMe8-AI>ZC!bB{hEy5H%qiFIBoMLBMz{YjGD
zvvCVCra{d&aM3w$K^imKr~&`J!g&`nZKXg%%Qq$2kLc{uzc(#M>8atuL?kP6S|AA%
zhC^~DU0h%s;w<TNRIqo<jVzMyCahvC!DDXN;$rU#EC9R_i0xc~anrV7Tan`w5)Y0o
zXp2_}VW*wvBJl=RoGKf?gcXHoT1vsDvjJD`E{o1MT_a8)y%uF_vroMQ)TalI_$wy+
zir|?rr@?e6_=iNd^<YRXO>`EWSa0$NS*xPM5xRwnll}~yNv`pO3{EbumwBRoV$~@h
z38x(Nb~qd1aCHnhhoFhy{12(WqT}F93g>9{-+ePS@oo0v^3WgPyenGWC2>Vt!nQ)J
z6jk8WaFn&kfG5svk^=&}QQ=k7SaYIPKZ$O&vQEl6!CXrb(g&-Z6XZPootc*l`qws$
zNarNOm(#Pg|FcdXm(I(lpi7+T8B=E6h%r~-a=1m(BRUL~kir=Lk$zG#nuQ7ub&4_#
zTPjO@3N2T!G$~0|8BVF3#&Bo`d&q&+>n$z{GfD_VWkxH$e=}>yM8h!|;0@De3{Pwj
zFJ)~(h%n7~7FiLjNlrxe?_MK#9GX$DK<6T{*K9MbD8{A4Eo2bFaf&nYFKYf1=c&;H
zi;e<iz;)F^NX@h=P_sW=K!j#_$``OdF^FFKTT3cFzdnQ1QG#o-8>$&jct^v}36lip
zV&2WP&HR5vy=R#0*m)i}vL)>!ag}zpN|a?WnIbtH4mopk?!KK<<(vzsDgXr(3ZV*>
zQ90+FySqBxzJ2fQ8|F@);gCa898(&lrD)0W+Oq6jt=IBew&j%{d-m%`KXm(^2dI;9
z02~14J?H!0_w9+&H$$<}S4MK-&KWGZdogV!c=TfW*_k6fCo6sJddR6qnai?CH*;u(
z#dss<KreAS?cuyl(4al;!dCKd+5g9H{)ghz20`5$6Z*H^qUl1jmg$bq`gf%4ADQV|
z>C57`kXxqX(Un#3o@`OPiFJG<)xD;@wd0|AwCz5NqCh(M8$4otno;H_D`zPg8;l6L
zx{%g(B<XxJ#rT0A{*?BG{iR^ys~9!ta2~gbGh{~|c#eWzlZ3$>9knelo;YGPF2Ked
z$&8|o54Gdt&`z+Bo7raa)A^-`rNN>zUllWsxa5&w{yM%n){D_MP$yQ#16Y<-ON!MJ
zvy$u(RsX%jv{15_R%Gp>SjQeD!`^&jI<-%ONjzqEUv|fws2{A4ij0~Orq7aQ%(84E
zK?^Q=G}=CtMp}f&B-AtZVhTY6@=zd@jbxJn<ZFSnUrYuw%N4%l!^Jpa2>NOJ)&{ki
zJW3U1p3CmVSLCd@Qg9ob_HBU_m$Zl6eyvh_^TE8m96;5?4;Y7#9I?Bp-`cCz0?D+v
z^7hi(=qybg=6x~$Xs;4u0_~c@PN)4D*Mi#Gc5`lI$*^-@kzGuh_K@nT*p+(%#qf!t
zrM|nnrFuzF6(0suW69{Y>4U57QtLC07_fIfaAs46;jT68b>|3uxyip9{9<aQe9@5%
zD$6XHSYu{*Tt*1^y(<b<*GksS&gIs@)h3ysoMFG=rR{hoKudJV-jeR+OeE$xy6vP_
zl~#Y{1W3&s2bN{(=|FjUYxh(9<Nrzq=7oQ1bF#aeh3@KwI`&<6?j&FNz`c<Uc|Nms
z`K4q;^&Qasb1YI$gG4?a8b@D74jd?F_&VNOoxEFgQGUadTHSw`GDt(Zk#NA2H*P%;
z%S2t(8mhjN?(=3TXhfuj*-lp1Dfp7cAmxqOe3c57u0*zUQNHBxVF7oFpn)}7mkqW;
zqi_@`FPlW%FZg0?Gv-KRK71_}1-jsFNWc<lQSL}9Ej>D2D7PB1_2<sJ4Ky>#2I^Te
zhdMQ9y@5<ws|CL<N$eAaTrg4R+JPvSbBA+kMz>Eoj5f5feR`v41p<C79VR^P`;kcU
z=u)mjoh9pr<v`}G#?PcRunebHTr%ej##L(U?5qVScCA^V^)bdsCzrKzOx=W8X_HPI
zZg|rAjWgc6c=ej1nS8t*&sjo?-F-dA-tz|U+SA(G;_n?B-Rmlc=pQl8f6REDbE-%v
zdOa&JC!9BAO$Bn%SlAe2I;lcQZVSf<OG`DA^w4F;aMKnGRrR+5_M7t=`qG1x@=wtu
zVqXo|)h6TU%yuxJO=J$@s^4TLmT&GTYW^P>$9%(M-b2Y?xYc=Eq=qj`&Z0%W_R$lm
z@D$%@{WLy7V|$#g%;>W@!tmyHu+?tfY2kU>z2uj&fl*WWP@bV^*T;7*7jnY_A-dc2
z+W~7N$#&i-<}GT?G#s}iOp|DYSD*ntH#QG*|N4gZStj%!CIv(GSAFz24So+!oh`nh
zi7s4?J3P)xEhT(E*LZH705_96$!Nni3!7o<o5rL*`@kETt0M1eUcXhzT&L=h+|EYT
z{*q+ZSKbqQMEK3)#0joO?5*0YmMzZhBQkR@`8St(n*pE!$p#+a_4=@Q5aEuufb1r%
z|JY$MMtimR#j{0Oi1D=y-rX4cA^XGIE9m!DvaP$aTg0H(M|vT-z#D2;P)AaR+>Snt
zx?huyf{*PFpW}CfJEHD-w56)Wmar{B$hfLqbrk5Tfstm-&ln?N?Hx7um2oL5rsE=O
zVdEqnggaYnd9)&so+r#A8q>qjpy|^Oef(4`tbf<=O73Cg&FilRQr+g=#U8)M*1s0#
zDnc`kU)BEF(=iQV8dZC~8y6pHq_`!rQN!TRcPFCHIJ6%3;zC6zUBZuMGM8|rRAbQV
zr9mJfp{<8XQNYGx|7<V*8E?CH?ZmaOvYu2N7oz!FG21lNxws-uz=Y?)#|0ZWc18IS
z`FVe7h^CeXX!7^&9unXlv4+IT^(LHS1zvKS;b9CNdUg7iP&X-Qp%JrYDxCAT!rQAD
z>5A;We^7dJ)Axpw%{SLPCPd~E=WMkDl|T3!;oS{Mdi}O#_n5cFXZ`1;o~@epdGaRW
zfQYs=4+xsK4{Gmn5A~MeWb5zO!#?*J@Bs(=9Rv(^egQC%3oy%b*k1(PGleyvj{*1m
zYtZleE5K3bn8*)X5p03}J>Z|u0DjVg9nH4@H~k#!Ujp27uHW|;P=^mN(f@$*VZchu
zfQ_y|+NZ(x=12b+?0mpS{~rLB`Xk7zgY-=Zr%>-tKs)|BV6k)l>VE^c>gORp4(*74
z8hqX17+;3pKLtMhYf#^xK;4O7ec^>K0EhlxLc9MI;(h|^+W|~=0=VrFtWW(CwDBK7
zz0aWDGbsB#@ZYGyaTBn859<3}So=Z%GyW8u&wG$B4edJTCDcG2e+xE9dr<EGhV#1%
z^+g~)0r>7`q1=Cm{3?hq!}0%8^7q$L26dhD3;ugJf1t_!<RP4w8qVWAI1a$TPm~b8
z3Sk@Y<OUq?oa3+v*XbG@&kFIY5cgl;SU(A67a`sa=Ljw-pZsT7CxoOI&e#6_5JCyU
z&q1C4720yXp7|mChSU1w9k>U#VEYdt?tJ}F2jRa$IUd^aHQ0|r+xFld{>*tBp?)6r
zzX$1Ggx_}|&mTaZENsu9Jr|(<Q;5$&8xJA=N01M0!wb(LyaM&V0r9(Vp8yVj@*g2C
z3fn(~vTzGt_#w1+1%6xM7`NcM2@rqI5Bcj*rwZCgL;Ppq9Dfq7!>_`<dk^yd5~N*}
z{XIrz2|kA?6fs2U<U@i@>-A`YvXH^UtYZl2F>)GYEeO06G_s?SEcqxiK`D8l?7;fL
zVt&mk8gJlBc9rvnB}9c%vTJ@npNT5P)dgq3XqVo$paG5rF%Fe$Gi>n$@5s3%PT|q2
zPi$>6gtv*?LUA)8CxAVTAmp3QWXpoCSd6&Sp-ZN?ppFelw0ez^iP@EyK@S9hVS+NN
zwUUU{I}lvJAsR8Or2*6@<Dx2J!{asprIn8KC{UEfoH0!23wZtHy6(1M(K;NKgi@(D
z(muD>q%@J<7=>l+J_V-<@)BC7LqVKDAHtoS3F93GghbI$hGSKPKctSMz~K^bu@1(G
zBDB_nVxmv(3&?Q?P>`8idjC4*jvz`@gGA#ht6S|%`nfPxRFb@1j@k&^MO;Jme8h7D
zbCByc(uFPXK}X1HEtyIJ?TXuV9>gpJ^csniLL8J9<ABb<Lx4f3U<%pLSY<<N@H%C@
z6L+nf+!k%fDilc|n+ZFunBM6K2XsX$l-KhvBorjH27wQvR=?itHklC7NdWJn1N16P
zZU<?En`H4g4U8Ex2ecICr%;D2V!?ElC}tEjD5~%v7?O2aBQBTEXm@!nYKhW=Yt0^7
zMWH03l}B7&67||yoejt~foaigaquW+CrI1@<d1|CcVcdMe>y3rhtOhfC+Yy@E!2Tq
z2oFNqfNIF)#NC7k^Pq0bNs_dkusMC0V8b{RnCxh?)3dDf3JIyrD|3Tflm+*Y3LZCe
zejX-EI5RM1s=c>ZG7>TBd2Nez6MWREQtFs3b%y<tWzD_f$P*6CTw?>bHSUm?&2QM(
zDNDeJcagXrqa%o5iD-ZbDdXULF~usyIV_fd1BtcuDCG{jF^2+%X&9c!Vj72&Q74x%
z#>%-PsEKkp)fu2{vPyhDe+Y;Z!{>yN*j=;T8#e$wo8RR}or;*nqx4B_0j&uMu%--_
zz-*=zO=7^g6k4Dt_(WiHPKzn)N7F#DxMr4PW=9qSsz$3|4LR7H4HF0>=Cg&2PT(Uo
z8Ve?7O_$KQH+Yjp&>`--!Fq<m19TW=rop&?33r^!tjleQ76_-By6f?5a5g4r4Om<*
zO)j-ey9{B(&qWMwJsEK2X|tc^EDR<|YwT{8BDK6U1Ud;67LKxn+_y4s#nyr0PGEVf
z)4mq6>D`o@HZm@keeGP=jP#jot5Ozo+Pr=jj{{{*!sxcAxj;Zhc{UA74`~2FFy<RJ
zU^qfp8}6`LSK@+TV5~A5gULt_Zi#v94kdy5oQy^uwjxBhZpAQ;wwpNMX{K#P+XArF
z(Ig$wYuSX}>I0HLBaNsuR)a2W5*==@&Tat-En2_f1FA{N6?G|0t_Ys6Mx$2#wja}>
z7SiH_N7aBCSQBOPGp}mQ6c>i;A%ucuuSBJ#)CMWdFfuCar<c8H2k=V*DXWiEX&Jo$
z?66)r0dSdgYBCI=)9P4L6)5<82GVEdtQx=Q<Shn&*~Za6mp-*-XCn&Sy@95zO9_hv
zcr)6l4>9Wq7w1`#qAoA6EJ2Gl<so{L@LFgSh={2KFCvjU83)PQX}_6v0_kSlW>#{P
zc@2oRHrH@<+`;lDy?4XOTCy72!?{tZkyoi?6h;^sTJ*4SKe1%B6WS_JhJjF>-|KL!
zp_rL<U|YlrM=uLW!Drthype)KtzevXFQMUa8*w`tXGrb3YI9zZHpiFKJeDKB=*7JT
zFEBY>zVQV-&RBX{ek-e7)etI$Ge~&o&zm%)!D8{b^_<bI@Xfi9z<kI?oklh|`J5IY
zKCY84)wOvJ$6ZDzC=VfEHfoc0=QUZU%AK$$6?UCo7BIlrf6k#>jZxkWmoJR2<Ia=@
z_mpa)nq>k~g?p_i6TKFavbk6<XTX6ui6ERg40ywQq#0%HxSz8#TM9x=D{Okq&(VHF
zqb1C^gAeHZv5*nyFnER2#Ns~SpyG{gHxf|uz;sI6H}7sZsaViPslDb3@3LV&T|m%_
ztQ}R;Nvp#sT74_<W^s5t%Oq|V43|-fM;CYC5}-}=p7&$Kz3wr4j0G|tb`V=Q2#-0j
zb(bDnWh$Ep=^GYUExP4cA85kp+Gd0%FUN7tLL4|uW<724@*Hqp*~63#57@6{(_Y%6
z5BX>Z?v7#@Ri%L8%1OE9fn}Ei^{txYo-`(CI7<Y<$><lW*f*RuAT~8=by2PP7OCb8
z#Int~2*go0Ep9EvIP_cV6zf{$(k_|biskfSM5m%QIDb?=kJ)&dG%#My?{oSnH@b$Q
zri4R_DmOz04UMb)x{zFs8GRO8((RRjLbnQNxm<GIMS==ejM~zL*Rf?v<8cFP7L-&O
z1y7jM0bMT>7Fm_a6LMf)mz}hNgu02=fm)4Jr^fB1#^Es|#+Vyp39Z{jB7)#SIiO{=
z>x>?C#ATBE=#UxJd0l$XhR*E8Se?>}x!u4a=l1BVrXU$}aDJ4*>|VQF2c&auKH`j$
zTEu7x8Yy_^7|!`!S>Q+w`%IYK;>`MdEEA&Bo5*I;7SrQaQnUb}sc)6DXlynmhGax9
ziV9A0%ZP4OEjA@9H(*Z8vI5M8q#38A9)sWN)wyCSx1KIi=ta?w%3qRhcr?ZeR!kb=
zmMCX;g$#T_#cx3m=N!^Zpl}OMY<NwoIfRG>5R7DGUhzf_Rartgn;oCjoyyEuP3U#x
z9d;}OUPjPBG{LRejM&SJ)~Yfk(k33y1FQblg2wH$OG6#t2QQ{EKImVOM<uE@?IQ^d
z8F5u~No%2S*Q|^SCJ!ierX?!g=Vl3$N2S&SDS(>B7@kd98KoQ4oV3oU&u+&FdNpIv
z*+jTt@QsdGX&wejj-b<}r_j4G_yQo|5G)xuwE-fA;y?bWe|W+4i5m6!9dRq+q<Wc-
zi@dEQNjod+`I^5G-U|LK?K1?DQoCQ?kkx-uM+tOrD=PjXx{Mp;dFrn6MZz9;S7NNu
z?fmH$?{j!Jb-?!P4N)M1*)kz6a8Q;BZboT9G(1qgxxD(D(lvJ&L4XQR4g*i`LXISO
zpm|GT=48-I_(a6xvRk&K9P4mf5p=`mBut^Cg(QP^s|S#%8itXofY&O(c*C!hxJcZ)
z>a}|~4}}7;G%(7o>2$OeXJ`vBbpkz`v4E(eFnmJv7(>TM!mbi9iy$LYl$A?LEL2c_
z2an-o-0F3r9ytNbeHxdW)?t>Agb=-kyE@|*%h~k|h9hZ@)anR>N>ac>1z-dv_(6ft
zV^P>_jCoV#bL#b`^Vg8YZZa~gQjPgp&=@tdC`S2Q!Jq@x(1aeoV-^_Bkc?L2Ora*J
zGq3@Z2Lz0eKtPEUNTBSqIy^RLh`|A5dnSyc5r-2<?9?X2Y1^Plpe(kyFd&?EDF~8A
z1(khWYSJV2WtENfSb^D>;SEdSMLA8;ibbuAl=<>J=D;&SyD#D*Wja~NfA?<8N8wt%
zG9=M$DYY7n<BC9Q%*M`^cH+SZhX$27evHYlnaF_A!1>qjxQx~e<Tcwt-!dn$a$z7a
zCJkx~_zO)QH}3#4Z<luq<z%SQ6U{IQFT6V(_@;x<+M0rLO%^fT$l>O^%d}w8uL21-
zW^yaHKvMGq)8Ao{ZNM{M1e{}n@YjHcE&^^j$2jNs<@_JO*%y8Z(%uB05<lRYUj^**
z-vHNq0BNU?_P;@z0m3F=re6eH^(MpxVf$x*^Yl>1zk|F4q@AxRehTvaD@gk{un(~D
z6COa_=K(L3q09k<Z$cabzf+Lj25k86pqw8tAZ7l0+;rNYW<8!u&iSIp66^Ri$Niwj
zMMwNp&@ni+#1yBh6&ANs`2bMAH`=b9Xo7bi*7A*Y#uMBt@hb&d6}qWalkAgk6dZmv
zpYsyic+Y;5nV9Y6P&pbA;1%ee1qA2u1cc8-OJm!0Pz?ERQ&o<jy5FskPqVZcPgSwD
zg7O7dSVgE3YJ+B^S*weS+LWWn!dR*vjD#&)i<tln2@qYqzd_A+kg~dRD;>w9g17cC
zuomCe+S4TqsLm?o2OMZ^nXcw$s_=_ldaUW+(3W%oTPgX_r6LO+V?24^UCx>wH-n3@
zG$${R_52R8jTFN%7gh;U5&H@jYWZu{T+Re~as{1;He24-u?7LQn~ZbnOFG&GR}CCs
zO?xyv@-26&;!iV{tZ>{)^0{a)rqUY(CJ_yT7H>eq;sGh1bK9(6m1M@$nJ*&s$ByFJ
z>|gr4ovJ4wR_XF$u%94m?z(!2kFkY1IDt~NYd(En#ALzvOcW#IXt{JV!0viMkN52w
zS&_IkwJhI0^W86%I#y=K*5lN)Y|K|%4(G~^2eC(Mqo>o0t^7fr^0bp7L0%*Uy5*z7
z@p8L?;0=E)lC-hzW;9y&`aF>wZufRy+a<XmSDKMbvT;xg<%8bhHpj=dsvfq78%u~~
zk7p>kl5vI%2I*!<wC~eG%c~3G>`iviRHF)R%tn}v)k*kH`b}%B+)BHd7*Zmlr)18a
zOtu&?TO-_jPXa1=e5nvebd1-SvFb%rH8I$JYrc{K345KEv?=l+lsj9=b}ptLc-ETQ
zh?9s1*Ne7+zu=_f0g<++$Q@qnq_G1-E|5b)fg|qEgMPOqSjY4$<uRz32APxL!*HKt
z2ij^ZZ*qjQfk-qE>rqy(ACvbHOSDahLcxvZ0?7s|a-%MvHHIRsx;O6`f=)5K4x8S*
zUsg{eo2DY8Uw|ROP<$xfu+)7yq%Q;%*;zV#lzfngd53|#E6{u2JS`4<4~`|@c(TCa
zstF#OmM8aKl^k%%kPTOvcdIWK!q}QODOLkxfh!pGv{3etK6T}o<^&?SZ})5s&~Pk8
zGdlXT#qateOwf|gc#|>kbIj6g8?nUJ;s{X1_{%2$r*eFzTa~oaM8=V1M%kFywwC>4
zEBP8=cVes->`ju3DBP6VFA9ti^<ZoTr$LubhNeSXD50XNS*IU#XuTpC;hey=+#st$
zfC!{OZphW9gIYf;%3C5?FZ(RhN}x5U#!BGH8l95Qj}!iVK9*;)SwBa*6G34>r1MEo
z1oZHcM8d}e>+W>5j+G-tPj%EwJ5#KXI?&itm$F?~H`!SW&I~VZra}p0K||Zv4j<n0
zJ4rTv?3y<}V@ycN^8<+xeW#Vu5A5P0Na*s50s2F$r&roY(K&OAtNI8&khg{<!LH4)
z^mJUQbuT4yLc|@dTX8=+V(X4~lT2tY8V*;E$%<_+<`&K6VLBcwn4@W5usiU9Tp_Gu
zfW~FUR|+_|6!-d$)b7bS@7>NTLu1l)#uOBvQ-AZU5I&oL!7rc1t)28YyObuZ%csl6
zlAe(deykaA`qSHD5c7T<V}q<+2<&Wm$dJXrD1(O)v#F7g*NnTtZYoj_-Y*rc*_^i5
zX;sCPt!HUhYB>^}Fh^C8aq+VE>UN)Tyy2)T)q;*QY_v<WCRZV9c(u%jz;{)aeBkm_
z7iW$Wi<0#z9_L)iM7T6-6s)<1kQh>E%9X^j;UEHTyPh4YmjcN_Djbw+=x9kII4U7B
z=HeHh$K6CF^w2TXsNyu4V5pG4QYjZty-y<d;=s@?BSuOQhyp4xahL*+SV4&J+ycwV
z^#VdF)`L5i#KaU%T(fl*f=d9N05h!e4Kl1DE@=>cFV%DlRL-0V73_&{L=_Jv;(RVw
z(gqV&;USt2hurQ`%MRj_MI5BXGiWT%N1_*O-3pqfzvOM@`w2ShStu?9vWk*@m^k1v
zwDiF9FxHLuB2IDt0(d%`@06*UFVz>?cb@QrK-C^jSpp!gX^a-vc8BKgZ0=xzNRa+M
z{|Q==S+sFFrYSs%rQI;d0ruFuc##GbxJ@?N7jQm9^XliRPNaZ%vWZ!4sw$_0Rwfz6
z?Q$?YNOXMLuDsLe7Q0kB<!#fl$bDK9ulw$WQ<&j3z1O)9LYOeIBhf0e)qs(XF{aHL
zpx0`b3B{+yqEVZ5M?-;rtrxRfk`pl|2eESy3g;6MF33_aJr}oH2&<P!=6Il!CRaqj
zDA~AjI7qRapxsQo7FJE|2W2gld$!)r30OBr@v*SjI~dwZiF7iXMRdSK;4A6t=25^~
zDi;F&g`BToua<Mc(#CQ4dcOFOj?rtPhVt3MmzV@Ts`TBxa_w_ROeJQt9xE?+vi0&(
z9V3tCC}lM2O=OXRFRe;ogh-~1w@IYQc-`?NP-PmzrB({tiR*@(H(BvSF*>EB1XN&M
zFy|Fc09`SM(4$yB1WH|1E@{k85*vP!vH00EJ_*%@WG;V{J9Dc2PeNYXcG)D-J|9{k
zs(gqORh_WTga@iRQj-Szj3q-tKs`)r<<XU$<;Aoexs%;GNL59dxX<1XMwZKY+MY}J
z)BD}$Q7*E`2D02C31ml(WR3Ho+s$~>nsFxfZKRCNSloHzq!zV1w}R1j+|=k|hLWt2
zd@foe1(=5jQz<6f&gVk<9N18_eML<4=OT`>KTX=>18x9pHN_H3yR$^xOC@n%qQsXH
znQ$SCV<QQdmpLfnkwIl|)ib%gzP_E$vuX7#S_*%+`Jj;27`dn&ixo^)Jwk_P^KWy}
z_)g0i?j~zJjanWx*dx3y&9O@Xd|=M>L*Zy*C1yhsq&w=3hB$8kNV@HGYQ^t|^>3Kn
zQ>KG4cZVaid^c)zMy*s?Ne5#z8jlJ@ZOhcMz!VC@XmxmSg!I$fWIX1x$g&-e&bS}*
zbo{pYu;F!ko3EWD(&-f4Rdv>)F^WtX_C^^`*F;@>1y4*%!(20TxMA}W{i;}*5_G4U
zzZH3MxMRr5!_0lm>7fh_dd$XT?0Xs3^)H_4tZ5=p&hf=$kgxVx?YliqD8+#$Z@7S!
zSOly*a)rmRPTUQ2s&OV-%D?N4#8E1nZzM+vAtE5B#<VA^=!d^q<b!z8p3eDAD5q2F
z+q*Vx#T3eA!QKX3E_`v%K-**d=?D-28&c^buF%sIJ!-@#-VbB(aWYj7Z5OO{WUZVI
zvC+`B5C#d>K!OgZ69>TNP<B|39rCCv`DWAJuqI;tHGRsrbD+Mz-%mOfT-KK9)^y75
zktfWHjhjo^{<D^;?&elJNQ%UVu{4>lB}p@PT;*YwPVdfzvrI9SfVD(#AUYcJf80oc
zp@(Da>x_w9zNoA`@Q~iCh>C%A|3SX7oe31NxFot^p;^Cy%!QG9K>+)RT?di^;T(jo
z*_D-}e5PfNS~X-bzXUom2}N#-#RUE`8fUj+<xpO^Mn~1CWoz9u`Ap+1x;;z{Ty0`%
z;6q5Il}lIWD(j^jDntO0h>kbHNMo3G)G7bax}9veJ!=taTjLE6bisgQtIRy~#fB3s
zkgQD^-3;d8xok&_(T+?B&9tZkF18iT@Ls--YXy6oWQig42TwRN0s)jp-T>6g3&W0>
zW!w`>TTLXFOH4d@I3T+o$TL{kMP<>|5EmhYAriDwQeX9;G{c#!ABe{6{;|lc+K_TI
zEsOb5{_x)te}_fRIl8^Dw)1nafK>&&@&RC*o3NhtDu5>fe*X~GkAi?<Zo@j;xn}lH
z0S@{v@cSJ5lwd2s`dSjO4i9)LcaDJo`&0lF{Wri(S_uCc@?(H~Vz93C*RcO7Sd*KB
zI?s8zmm&UN0(SaEIOb<zUk<pe2lYLHHvJLoFM@sNDbx{zGCvN-`UGq?4N&(Vz_ES~
z;;+K-UWT=?kD-n`u-<q9es4fsw_q*u1E|9T+jFk(ZviIzHq`$n{65zOdjeY?;%tzX
zf_iQNCLBWBej7L#Y=HHaAg>Yft->|=JgiSTAngz^90hs52JQa;;23_`e(k(oXxAe7
zch~Zqlb}2rRI7)*Zns+<Y`4a}etR%I>;X0Cs0>a`J@9nt7V70rzuj&3hW+hsf4@4}
zZnlc!N~_iBcY$(lII8z1gF&}GoB~lveYf9jZ#Vn>QMt3z8cchGR&UhrL*Z^~d(Z<9
zr*@-P>kk@@LA%)>_4<=sXS>tx^xFMa4XiA8yZuI|Q}1<m`#a<Qu-B|k+x4SHWArTC
zKW>kUz3!p!Ui)FUGAnj#!{LYZVWpJsHOHCCz2;yr8}#aXgM)mz+Aj>JmEO)6=*l{k
z-oxRf-I+{B-A=vT?~W(!UcXly%v#-XZ!qdl+tX%$Tx(Z)y$3)uQg3&A{RW(PZ#ZuD
z8kPQTw+Cm|YuDkdV87L9ce<_CU^1z}{~jE1A0pb#-cGYSh4Yxf>9+@iTodxopjf5e
zXb;+*PPgCfw_26Vbkb-Rf%UH40q=+X`e4!+76;w#ptIBH?=**#Zfo3z%hrO6*xu<i
zdy|9C_OROp&!O(H((cxpoqn%3f?EZ?IGxID)~h#$t?hcR)$2|M$u?a1$)MBjcgCG|
ztJ6Gdj9R@`3w*|UJ0l=W=^hVS_xGoxad$Wy4kw*qwFQ@d*y&8_gWc_ZVUU4?4I15M
zd)Q6yjt=U*X&c%-?lu}bwP9ntcQ~yNYvJQ}M*H6#1C!3|knZ+AIR5^}-2s0z{G;|b
zU#ld$lVqnexPQEN5N}R*4lA)*H{LxhPJd_TX(2o4?Y}X8(CdT_D^Ci|z3ynI12<{h
z?(PqEc1D9kINs5$x7!{L`u&sku-0mKJELxIzdo7mchb<i2HjS-Uv3S%ho{5sN_Wy}
z4?4T!2i?(8@31`@bfBO02kmlm(wX#o&B0`EFda2J^;YA&8w0gp2Rbfrvi1A@VY||5
z_nOUqZ(8f0-_c$P@_^r5t1}$#HanGWWjblr8r9)ww=nJ0ru}Yazu6mg`-4ipFxc)V
zyZvUNR|U_E+T(6_`?Q-m81{zc7IgR70Pevo)94JUyU+TAV50_|rQN)D)XKHnlbu%M
zBr#}4?x*gLwqF}{_j;q$w-0;Uje}CH*@WAlXdWFOJUlCu-`;80I<38(NB6g%^mcQp
z{7$pEGdYbHBQyWQ($1g1_0RgfCnt|a-}xYN<V!w&{Z{$iF?;`{{Q6*b5cwN$H%(Mi
zPvV_7{=vN;#`&k^){nmXppmKmVd<TF{r%mY?`NMq7XR5Nzw@lPoBlBIy>R<zuX?Z1
zn@*dJ{lu92-bwP_WLoYGk6OcY=%D{jbH7xBr=i~#JF|nMlSh^DyE~m)t23QGIo-}x
zjt=q#c<gt#kG}O$a`yWtZ`1}mwMnBs9uE`nau|;~>C^V0F&y@*nNo4qhgVFk1W&`T
zUU~}8<#9LD+6J<5xFMsxVIS^YrUKbpZx6c9I?d6neOL!#r*<8l)OG<L#AdtGo`7dv
zcMNZn#;7-l3_7iL9s1r79v$E|?iCNA^T5NmGikuf1$LYLVRP`P*KWW)gqpg0{ZYL;
z9CXGx;2a&bx~;=*uicuq3c~^Tm#ugD<wmR78Vx(!qv7=4AU_!Il%VTOPbU4wX?HhV
z?d&!O-NCriEOZCcT5ErI(C<9zoqkY0t_&*4>F)lY?X|13Ua)&~vJc<EL9ShD^kz@1
z1#rn692FYJ<8(9A9(?oQAjUI0v0VOOy!YDV5G*IRhYzc8Q93)F;h;6Bz^Rpw;Y>#T
z2Ixx_n#29><SM-Xn!R3YJnWuKM%(-F*6B{m!(nf7IOuol&26U9-W`m#2jlH(wKW}Y
zH?cPGkX7N@)CSPe_j|qW0DA1GGi<bH9T>~Dn@xB^2L0Avr_*VVO7O}UHv6q%uQr_2
zhdZ@af7Iwb@3gl2gTb`h2Zhv1wE-Oe@Gw;>-A-??+db&+f=6t*-y2VowQe_GZPa$R
zyVF5$IP4Y<$NhG_QJIX|<I?VMSckh-g);4CYZoYP%SBM>hQpsfr@a=uv)jYjHaw`k
z&Y;lm^oHSfuUl_aoBe6yUbnY>*shOKgY)Ng2#HY1BoA-i)(}p<-P?w@M!npH??-d5
z-hNo=Osa2`df*3g+UY@+xdB|;bZgwK)Qj*IYu3h-gY8bGz1>Lwabx4CJL%^thuK<p
zx7`9?nJT<E`ruYKhC@QHh0fDzw~nU0(PTL8jynBjdD!X?fU9c=3GMN)GwpSzJ54y(
zUcK9aFG7FZs&>YCxRUMm(?NGQns)2Ge*I|L+^s{m>$Rt?YJ1!}rzPv{k9s{|$b;`s
zv)66ZD)rrI?|3j74ZDqMWz=p1%ig57Q*U+$)z+xn7!7*uYJUWGeezlU@5f2!_ER+&
z-xOhN(1!5^0%L%4Uz7rbzlQM3FrGLc6Z~5U7>p58koP}99s#yD;Ws3I^1p-q%nxDb
z0|@8#I=>BhPay3v?AKsB5B0tPW&URv|9lzZ&gZ26B}DxW<o_6sfkE7F!dOHH;|>h+
z{Xeijf$$N;e+lwEf^uotZ@~UBj91QeVOiMk!?@;ep#1v~{!fVic^K35&dWd@7?dx-
z_NO3z0C6us+Gk<=KOpZ5u&u#n4eEIe;S}Otgkx;M{`*koeb{~(%H?6~brbgg48o5f
z1R&qnApSn=pX;K-Q0@iF_jlLwoRh$_&S5|8zZyk<HDXZW33B7Gq{4lQFKww8HmeJH
zUcXiRxf}S`zizwG{Nm4ieBmE0f10dfcP}PF>tCIdxv3TO#{Jbr-NvE|39d=7S4fwY
zpt-1JU3OdQf5~N)&ne88l?btj-)YE<xNT)wb(LM$n(C-x?V|e<h++m}n)!9pvRQVg
zWL^0h>Rq_vRL;pUHP8E%S}jRP8Nu=5)vp?VN%whLCwY0d8UwXTqtfS+UsW&iE7x@E
zmz*Q>Sz!Z#6{C&fTnw3GQcl~=^7@Ki@-wfRUcI&YCE~X-%M!$L+jA}5qfl|JV99LX
zREig}eoOh?J6Ek2$BO<hV%nf5rM-T6kb6b-Eg^9Ix-PNj-JVk@eyW&K-Mqzo;<~=>
zz1T4<|N1|HQ{9aH6UC3eL`CwexF8>jm*Vr5E0{^k*T8&A_G?=%32%;SUP|hjAIHUw
z_0OT0C(XNJ#uZE@Q3)3|%VxxEDH*L>T10AGG;Q#H^nYdUs@5)Am6ENEI8N%_tE;5_
zdT!;WNvDWyfG>l}$KwbJo;DmMHJiLa17q6?B2t;jP2Iqx8>U;gTxzhi;M`i2bATyk
z4AdYwxfhkknU}Q~XrP*d0STcaxB%#%y1&BS^eNO1y*hs5)yVR)(fT41RR=eWEUlFC
zW-rO&)&-430?TvDx55&bbJDTo{KZSik}hJyZP-d+pfZ8MlS8^@5}b)Ojo+lvH1B9O
zRW#UI=@zv5d98&dRNRJhbK{arzJhF(tUi;Q0a;P3;EVMLS9R0nCafCuRdSUB*&~^S
zkXo&j%c|8=h*P1~S*!$M2H7o8i*h22-pp>&CQifNw3_T3=vskxs|H%C(b@Dar-5`h
z2ttCWtr3H68T=F0%yz^rT~Jv6mx%rLSI#!f5!)?xo?%{cV^QLQSz%khjO$ie>oQOs
zcTF1(hhBrOBgPhg&682u{SuAZb&4&6Na7YBa#Kphn%cJp#yqQdTyaCiuWgtVw1w15
zvG59QCRv&43Im$LRAB9zU$4ZqH!L;X(z-^e+F)-uRXW_tc`a781YZ(W8XZd+j+d0i
zt5Wo`0yi<>l!Y!UoYa<DZM-5QQPZ74mAPtP11VDtck452>LpM>u5~aOV<PV8sGDws
zYJDjpEK4_~B<_@<TL_UV_&LS8iMbiJnd8#=<&Z~dx}&EqFB(loa@}y3l`Mk^&<25<
zLtB=hM^IgL8p{0F1+V?es(0PvatBOO5a3-(q5LWvi!AGY*6Gu(2ExJ5uFfHzb?N%1
z_Of!Sj4UYm!0o#>?K<Kx$}eayQ+k_kgAOUvrVCra#1%<kZeCemLam<gCEssqH%%8K
z&XUcI-3o&KmHHcqiO~43Erg56lF*l#h%joI>liGuq-D;5C=9PO4TY_nLM*v*Rpq^{
zUw5Q7l?&>n&`nW_nm0bTu1?@ejm*K!T|?XjiMKBC*sT@ZbTeXKc3)r?XoJqPlFBU^
zorRDixFuI#wz;mYe-)7iH=SQDtbRqDzx5RZ$Z#1qd0A#on{zE*Lgr&zLFP8TS!Nw@
zJgrL|GiVlNpzS3!({i1h)ViG;{w>w3wgsnEX<T9aO1A{bEvZ1AT0eg-(JKSRzBMpd
zw7Eg(cHLxlDP+tN=(1@@PVa~AzjoI|NLCGL{bhs1%d0_y%*&&U${<G^TA2}qoZX-Y
zrbHZzcQan|{N~)6*S=+O!s4=oap_%p{kk~UX8fuHnKCgKKq!<YzJ9P}%s8(pB}n|%
z-1-f@{+iyo;UZtwZ`k$e<%Y+ge9V(dyTUVPR+xh8S0yH?7Z!zaOiOOAISdlM;k)dW
z+!NkXbR9SDO7E7AMEd&H7jo52iRQY7^na1~tBoH+E$YlK&nZ&ubupH^V^Y4n#4TBD
ztp8UuEAwi@GmCFgqr86SipQW}F(3P~mrD4z){@z~e)S#K>cXlP;jbOJtzQng6k(lJ
zYI(7|TqIQ&sQrWiEGE6TK3$x5nnPc)>iQNEmag?CuO#z@4Lx`35{ci`vkIp|52k2_
zIq8x|LH&xux~ddGn9bw&@^{oAIc)oNt=zGtl#;T97Q~IM7OBK)-o$A2E4VX!*QQZy
zI21QEIx1@M@HVT_6<(2T%ID3FEjw@WDyml({GPcDVN<V6avcQvvd^&A4&B6Do9P>P
z?z%_M=cH<*o{}LdO0r2_^3*gu8#Yi2ml&G!<NkondaV{?B_xksl&caeH>``c(!%wC
z!yt9btXh*>YcMSn`09dPqxD3$97}eQTM4ly^M*y8XvsDtEmfR#szsDzZXP-Cyiz{@
z8I^CT;or1rX*(TTaxK%8O5!UjO<}%+U!A|Xp};WpEwE(>gQ0@=7g%8foBKK#zU?Z>
zHP!m9%nchCG$>S{OT1`YQ7D!Q|FL5U@Yi&>n!Wplg>hV(=6x!}<QIMdTbF8dR@J7O
zPRMW1Mz<T*I`$Vt->~t^#)4pI-uiUN<GEv9U5t8AmpQ@D>n+%_^`$x0Rh+z~#+SXX
zsMZCAUAknkIAoOj6@eh^5uNe@s#0#r`E@OLFghG61uI)Zq#%fDRy%;~EKxQE9PUNX
zv<7h(lf$RdT3?>KrE{!lWjrm9qD~j@3_4a3(DqGeFq=N94H~@I4V6{1w18}+=C5C)
zl$c&4`YZx&HLN1HWHOsUio9qR9Vn}CS+v|+s?aDR9bW`N&MV9-KN)!`u>DHdOd2*x
z-<<YJ?8RTNDnDznh`(X<UufTrT@CR1Fe!H}T3mOmL6|YWswTGr*`_YL6ha~r)inZ_
zuQ=RG+)X~X&e#oFEo#><OJcwihpd`aH$@y(eEP)|)vxE#`L#K%M>}tqt#5&}^_pXW
zp=5?IP0UkjGAzAAVq#FDWVO00r;6K(HM`~O6oK8?Sr4prqW18X9*v@Y8vXHzXZ7wk
zn8?^E;4*4?^^S2<zu+;_i+7e3Th2ATL9H`y+1R`D(+%>fA0v=#d?gpHUY9B)X4z%y
z1^VJw9Zi)~Vly(TH9LyxOxcJ&s#j^fW*HsQwbvF_9h9BkvKw3`ebVe;rM|6Y>6S;^
z@|!oa5=?5;{H9t`VXX#Z3{0<=D<Q2Voc}%C*ofb7UbsPeRUQm8h1ccMN0Q~+N&BxM
zjOL~U+w@(EtjzlbuWp!;uV0G0Kh4o@jY_c`HE&=yoEGU_Lg84trmUEQ40+M5si&<m
zm+2N~R$7dLmt3;VQzofW6S0%1Xi)T>bGU6&{f(Gcu@TmBTe??i%Y_xr;If*%{MYqg
zm|J-&E9QI>jdjH+k=#~$m2Q=Wb6IqlN#({hHpXU*%QxIwT6Aku9)m5lu}T@&RkyZY
z&a7c+BDQpQUSldF8+TonHTl|IetoN~%sJO|cN{uhS966|D8xC50bO`SxIr3U1pi=@
zY_+%PZEe*T*KS>vF7e!5gZVm5X;e!uyT6Pfi0YbMFdG6}a+zVx<$D>mlfKP4*@B7P
zzl|sY@`cY?j{{EChE8?aEtd43rzEn_#&1Qw>JT=mD<RDt%J3?!a%!ZPbywYA@LR9X
z-4-~-mw1U1-MVeo$~A7?b$lho1k}J(3gbDKRE?;%?$}BD`a<04cdo^x3N3VZiz;DV
zbz{b|PT@q?bJ9(F+Uqs3H|H&jZiJE8m0)R?#*i!1K7Q8{Z86umETeVS<`&E@k28=`
zDa?zOFC=e8e@p9<T+PJff;?uJ^MR3pM;D^YS51+wZtXgAQ7hK%YpZjvYtr99G@{Ln
z+rOk{@2q+CVGk;)QYO@IFh{R@kTn8Vm_mpiY}lRLf^9?Rn!{zz!0NgtDp|Lh)k=I`
z61RXVvC6%nb$Ad3sv!S1@po8c8*s@RFgJb9EpP>b<}bnj1u)Cc1MWJX3!j5vgYYSs
zV}1a6?*QicMZiZt24(&gY^Q()Er6}S_2!fFdE#GzIpcZQIsnJL1m*rIq%A|4NB<mn
z3t)Q$xad~^KivX9mk6Y*!7<}q2!8<kDoC$Gy?+AXe}eKq0l4WysQ&;6-vFY4(b5Yq
zJRKh#hi8+$Z`F4}rRS~tg;I?wuIZoRY=b4U=AGj=%bBKk$QB9}-z-|m`5v=7>yHOX
zT*39jsabmOw2|j~AF~)2_~xS~YpRK*GS_U{k6ybr+|J(q?qb-See%y~@!QY#Y1WpB
z))G`>yKZj(;KO)*_%Q#+?<0n1(jrNH{P=b4=-G}!l|MZo>s3tg`jZfPwr+nM5Ip^s
ztMNF4guZhm+nqi7KRlU8<2xaLwc}0oDWnpqgpq=~E%_+>`W)FA)C{keJe6!XN+LDx
zG0Zj&4t8>j?ojued0opJuYXj{eV>1uWpYL#(wdp~{f`gi#llDLkAtUJHs5X-cgfD-
zC_Axs3noF!?mgVC`D^yJNThtTK^MnMrOo2_@woN0`m7eqI}>coKS;9oO7T>`)9j$x
zRNvi+N8*`y$twz7{<vC+Q;8#Cz#H$QA8l?Vr^wcigwsa<(A9WkJ&e19Z`L#U9_BhY
z70369)V)0S?Wy+d%<qp+QtkcGe(|{EjZ#rITiSj@cXVV;!()khPwLzB(`g{)kUUMq
zs*8>Y^7vl2$|gN$)T7_7<llU&W><e}zfFxs1?;giwf&<~|B(9j8;Jkj;5agQ`M6HR
zxRk^8$=)o~@m4(yPc*8nKM(GI(UIHtT(=CK_oBlta}Wu;%Y#7i`{hHex7v7~jWws@
zGvKY)qpra;8!PVYAcbbNM%{XM3{33RS$B5e_|{<vf8+kc*5rO7E)FB=M90;ShfDE%
zM9frmT&YuSVCBQgEbJ?^zBM3c%~V(^4=T@^$@{KYrS$0jcd=aHULj~^#~?oGIm%hO
z&8}-0K1lRKS#Ja;j2<OY*n7fL(YL29<eRZ+R26MJt><?Q2|SpCS?OA{nCMP(JE@&Q
zw3)3p!lmi9JIr;(X3uxO9?aK^=}{Hv(D^_T9B$+OlDL!UiuH0OJ&U1}gHR`R_<G%N
znB6aA#(TX^Ddwx^OVMI58tHG(-bhU?{T<&p&b9-&{(JX&KDxJg#_iC?VXt(M4rZQ4
z;{i?PB-kr%hq2STy_kRaS|;4AKG`mWD(Ub$e=wLu4-ejZkc<ud!HS`ObWrHMS=-7q
zPsZ`oZmxRPC43(gEeDNUy=6GebRLu+{lF4?EmEoK&52&io3y?j9o0!8?WGFa4>#V=
z^hc%fy<MVR$v(_HpB;h?r#O7*caMiNVJFrq8xrYBf1i0+KIy8N@?qpVNtm=fnz}~f
zpL-|U?WA~2fh0G79FLyij||Utm~b^8hvk}?c%%q+#a#mRWJCMu)Nb&59(SwfZ&b^t
zHtz6SV&9wBiO;p{sF68f@Wc4*k-XlXg-SL@yZh|V``@m##(E0)=hNDdSYqS5<IufX
z`)GIPT??Pd=IKHwE;Is#+cviL$YY$wOpTEJ8Kd2+5|-fbdA-`9PM?Bl%B=cPE=&mb
zz3&u<!hZ53j25eGDj^KKg>-{)bV5GPncCT}C2HTNb8Pid>_Kmknem1D?}iNb-G5r`
z9>`Q7I@6((C+WmSHD|QnyM62@E7d38{7+?M8Z8H#y#KT@e6kyxMbp7<Gv4>*qxU<5
za`^tNQ9JH2N6kare3B?t2w(#0wsWHGv@-#zrM`Wy<+FEVv}oh^n}dT(wbghyb*88m
z?w69O<1W`X1S^>)s8IGwAZqf5{13=fv?~VRyEkI1J>a%-#Y3{4*BS%yU0ZncrYJV@
zPeWY3SR>P+!29<;d^nwQqx++FA(9Nnx5aFOJ&2WZsdULPIS9f!({?4*zUMDTO1n%Y
z6)$JpT+(ij^_~tQm0f-+TuJ47$4@k|)LAS%*q`~yw?2B~tVmZ%bm(DuTlWxzG~K!O
z-u-4Q6{&S?V3~Jhd!El8^r^}T6YiyRC$t;g%hCR*%K6;@fm8yzU^+*$-sA_&y}8h=
zxL-SL#Y>NaZ)FHETaD0X)g-r@4fx)kmC}Ky@a#4dyF2|zY-ij1TA}iIBsR`Ya+~R+
z6gDdD#To@pq;g}=@Pw`5ZwSxDJux16J9M;L{@!SNIhwSsZF8f_ZZ0u9JQZ21Evh|P
zl{Rr>bcocE-^*apU~_t}R}5r>(MmIwh*hFRLox@FJi~N4T^diT^{4T8XdDzDcmhr8
zM5SrA-eagNHm)8=r!L|LPcr$BR?xUFbsQ_l?geW*-DxP#O|RdJF#6d8<oW6Y_O$VQ
zmSOI9hOLD?oSN)ZDuwp!>G)}W|M%VQ3e3ts{HC|r&V3uth9=wIK=D1Ib-yKy^atN*
z2Kv8aC-u7rLi%-IBjXgpx$Mk~hMMiuN53%mC^;@48m)MxR;}6J6w>)!pN0Qn^r-T@
z{nnXyk8Hf3uDpsi+e9gn*^X2DZ-S=SQ4e$=jtq7CeCr!x`}O|gH;QM)XSqCI2xtHH
z-RHG&^UzxyG~>)cIrqF9dL!N0Q+U_U$hYnaC-^gL0@^K!`NV!Z6H4#=_B+KLPq8RW
zo0-Jn(+B=^t6!i_-g^+#%1<pSn@n`%li?=43Q`q2-koT%7~6q`;G`lM@4}j3bSJ)_
zDJ7eU(tvq0H4eqdVvlY&BPXHK;ILXo`^UBI=iCQ753oowAP%1%RD^Gr0w+hi$AjRz
z>0uEOXfNn>>|_V2ld`+&I}=kg_}chd<IL`HzU+ArXtEFP^N;p3r>V*eOJ}mB!4dUN
z?6|5dhKmQy9(EWF&6=%&mwl9lM>qQ*K62L&H5mfA8f{eHPM?<I@*_0YX&l9OQ-9)b
zuRPP99h}sr@e|N-Aw2Lo4FX@*8{tZ!lpdz=V7=MM*WRqQP3>ACn(kOm9g*Q)x7mv@
zd;1+-WH4Qhx8LUP$sasy`x}+8kanCQ7V4yAiNAZi=hUTaS#Ks=&z6cpy}{?uY%Jy!
z2CRr}3f*1-AEv@Pyeu%x63J=k<KyraP^Tn*WPH*}hb$W3NU`_yak*)RmG%1R`#A53
zWbS_{#NFGYkXK(zNS->xy03TSCZ8vRrH7$1-F*B=?9}#{w*t1^a0$~G=~SSMR^vGz
z9#Z$+VCh@QV;NsOQEi200($sylX~OSaw0qq2G2&IV6%z5*4@u_F8tMZ9!HL6iT|rK
z<L-U%FcXai+9A9fZcK(vv=C=Nhcx#u{JCJZ+wGm~l(M~es~&#*v{_%empZsSb?3SG
zgL{>Iz3Y~&5iPF};YxG=!}c2=hYI_nMB}J{H=GYzxr5%>TcC|GtVf=;6k_%yTF>b}
zxIg8x#mKYMvS(l1tG9?mFO;uly7|epSDyq9lAV)YHW5E4eb^ip!nvbFbDzwe{l8!s
znfq-f`MbvKG~_ug*8R5HDEENqJmz<w>@~hGnZ5Jf1dtuNa*u^cDf_$FQOw@YvbEML
zq2zQ_iDCHy!P?-fj`RyGv>{SrsT-ZAcu(tr5Q^kCOKqh>MvHt$TnmlS)##P<N>
zOXA7yNvI*dBl45U!E1+;xcz`l?&YP^_l{)7*1aYU?LOVjS1(4X+8S+83yt{wbo3z*
zTrK<Vy5HD$hC}Eyx69pLdOTXH|LJjj(1~*1gYWG=@$7r;4~`^#Vf10mKF&jTsb$~l
z?>{c@i|-$Wy{{kM+jU7hA0!TP)sGOcTOGIlLg`HtY(-hIK5CEZ-+z{m2nT^`2FnO}
zq3Em@@#APL*n663J!)%mm3ZMPS9_cc<Yyggz4LxDFe?_@;$Eo12KPS@^Lyn$AyZ)e
z1$g?(AGWJI>Fr?SG-4NHk={WTgmGSrrKZVyvv@jJHV)k(p%|n_hTwz!DHfR>l$LAb
zov`)0uQl24xK6v<;?BEu|Iu8a8XrlclTPGy6xmCLu{z@#cM7RmfhyI4OavtDD#`kX
zxkrKA=zb%eJmdeQcu;eDD)-yDNAYo}mF7E-v6FXtp`!<W#s1?`r)hnf^*jL=gmyZb
z5)$n5e|vb6Em!{N2}M3tRK0YsREZzH`Q~!?XuFe&7ERd)BQO6f?E0OZ4@2RnAFe%q
zKY&rp|4-C=2T78p_hAP~!H}p>2tknw5(FVa!U5z3a6E7JX3gyG?D(1PY2Ve|<z0I3
zGpn*pmd*0Ms>^k?x6?B{-mSUa+q>N}I2?Eg0w4)S2qZ&61{4$|{GoupMj%2RospH9
z&%f_|?|bik-|ySnKK|wdlj8JRUdbrM6ym8oi+ngr08#nP6TZ%*%Kk_Cz!A@EHEf^!
za-&^t=MU-;@b%Ya0+}}QB-bc4v4(wE>{%^+6P&HajE!<Rw<l)cR5`+fKbQ1)pr{AM
z!A5dqHn-E|NKKEgKM9>xr590rSdrS<)okuqZR{>h(x(p}dFuYen2>S7()o?*`cIK|
zMCvgSI1evaY^+(!N5Z?cs`-3cR7Y<<b)Hmaxq}A^_4y*8m_4>suy7?oQIeO^rJuD&
zi8WdO@KaGPmY(E&U6|{Zb#MVzFNe#3&RhgnYs}!@;MI>8TxX5Dm2_N6qk63nr5<i)
zbh^`u@b3AKo1gEH5&1~AciZl%g3?&fKTKpIcgH*{uJzx~6wJevURV2Nko7NCQevZ@
zew=Q0!OeO;)lrlA`^5++?nsq<(dvs~nOjPC*W1xyy}q-gn91lUFK?H-l~_@!2&#~8
zYV}&KUfwJeMwtS+mNweyQMA*)dr)ai72aR$RQ>&X5AIrLqViE#Zwv)JpVio?myDT~
zkV4%}ae4RPbm@TK)(f30DXIJ@;>`5>JK|!zBu$EDv7B&je*8y`wUgvt4NX<ET5n=A
zhuqe1zgh!z!i1b})Y*Oq-2Mb275iSvd9YUpznGx@(ugJtYw>ur!)2}3Kx%3^_oHe_
zYc4Zn`)Qn<m~#L7FTi3O|HmV{O=Jt<=H>?>Z}v*D*qRUHt2EZnL^}HqXScg)f9^om
z4zSr#yy8nYX^W_2$62rFYq&?Lyn@u5xs`<n?PSwBjD4K?tW;XwttdhPDYl&JgXfj>
zU#z(V=0$(FlPT8<>20hoC8UATh&R)>9~^WWx%ysuF`LM|Z=Xbq#iPB+s#UEW<~sCN
z{gy&V$1y5RwI1&%peMM|)?$mQhhM559ZPp7%zjbsywloSrPy|2=5dvJ)bDOQ&3(35
z>Bhu2{!=>St0U^XRS<^^U+lzoTm9&c?Nz2<Ri2(Thc{Y#mCbR>*7Z~*o_Q#nqscFy
z_pEIVbbXSOVk})c@U|7yGWJxoixeWUuoZkce3pEe%L-ohG&;TagUFv<ja8!WeAlEq
zd5stDp8OlaK790NRYzXBnw_(%-(LyF%MopzSlYhQtQh^CJQ}Se;;EhDld@Fr{&?|u
zyX5>VJ`UB=Fz8P@<A=^?$x%DCGRn;EnUf+FH?~_@b)g!KG)wG`U5EIazI$D&+?jpW
zs-?7^9XfWZscySr?rns{4O?90GsyeuP7+I6TK@x{jZ{&+7j1FnlrIn1a0jeWcI}&$
zu$A4-hwpOz=1WHTIEF;EMt0j*8O?1a`;Qk|KaT3Tj$Yf`iq*u^!nitDt=l9hZc5>7
z%_Q$(DlW>nF_DcyQ?r^wbLTzZ(pHxOcd2>vW~CAFmmh6+CMC9V0Q)QXy>0I)Ra-Yp
z$tGJJ0x0tK?zr|a{%~L=&-h3$+fHQdvmVWinhmSmA0RI#h@hvp65)p0u5HJ!_c~s%
zLns%LiFhqloS0H0h1Skh85(A&?5bw~wwTukA2bIK<5Em5)zZ19wKv%5t7>5wAu_(*
z$ejLi5UTGSUF+i8#eTaTkKq7(r#HIya*;;o&6b&8aHD({(+7QvVsa7dfNo2CH?yCt
zf4e^MwZ~60mDH1Ft~%J&8AGf5XseU?aVpj=jhs5Dr{%NOL3MkO(8`fd3TCR+y^Y!F
zJ4KBW+V_jOL+4gGmthL|+JSDk#fgH?=O2@8vR1W5>xdElwCmFwPb#DAi*Z=Yba%(2
zyA1Ep+jqe;YE7*8f23y5o+Xn)<S>>}{zC;NCy0^G<*&X>owx&q&!yW{dFAY(dr7vL
z$YI{-&Ao~$Vl`#Hu>8cOkQJ|LiAH2n(*Prxpv_LCH;JSw15K*<O9wJTmL3gL=y9zC
z%Z%|swV$f0*~wO~Vy;D_18Wj5mB};OHb>2e%BF1?g#nX3*2;y#Svh~!-X~&nA9`bq
z&wr}^a6fi!^uBZbX}kx%f5-n?J_}CN@=K5W!eZ`8%|dFUd2^!L<uf9f%GEbElj}7A
z5^E2`dwo`>A_;DN*REC5_fGOe`2kZMZsDJ$_yWyNqOe!dI!mM)&8C>hWNqH8i_L;!
zX9A^ex>!<6F(qCx6kCXfYZY`eKGONs=XAN%O4(K8hozI+vq3|y)m0@MOYvt7Q}Gry
z7gk69XfQ>Nq?)ynyj|UWFsvTaRg7JZZY4g&PNc*48}DtO{^2ll%B_wDt>x)VMx?!^
zR+L9ui^n4efRp`^q7r;KHcrBp(Vc#gPi!0*LK;x#+6~f<Omq3Zl+)7b4Q{+4vxx%8
zcEx6wY^3tBKS3(>`)y+B^g+%tvyoEr`SmTb65t{~nAiu6){UYXKBS|1@tLwI|J3dd
ze|GTwNb`|ecQx*n*k=2W1ht7Lu2~yewUin2*<^BKB2%BDo7yjJI`3hRKEc!oPl8R9
znBB&LhgE;l@YRdiRCBAA7MoAmYTuO@j#2|lqHL?%Jd9Ub>27uXaCevl4XeZIS~Atw
z?@{1d??4S#iV1TgwA0R)*@^L>Q_=i}cwfYt(ym|}9P%nY7Hh|2TOPN9xD^j(QWeA;
z<mIQ$vIS-Z+0^bcH8WaYW6S$oGP1E}_wMe+OX+-GuLLpWAbV_?ede=H_R%0X7E^1Y
z5+|=Fv&XX!Pim_rUke-`lTWW|*<3troW=@jp(SSSeaQS_n?*Rca-2htGJ{s=c=GBl
zlzdHV<fCA9S6G*tO`;OCz?8iBpyt#DC*$bm<R@0*<J0|#Z6$O8`(ba(4sLZbjW*l#
zmoO2m&L);@_RT2wd~dS6NqoW<GN6#!S92$>?N{xc^@#suJkI6s9~CRB`X{9`26Z-D
zTDF|Bn_Kzm9zQ5_u~KDGF@~cN-LtpR=zQtX#wJtR)Q7qbv#^47Z0T6v95#xBonq~7
zL65gmk$RagrhBqo$puSQHC3o~Z7Y3T?j(yj*qlkUf*aPE+Hm!=<mO5wF&Q1#l0&vH
zXOCd!x7PK~SG%^&YK^_kjR)fVLD;|xsH?E`V$jL#lHKKqFZJTcsE;yKCNw%Mi0etl
z7xtHWqx)eh-yD?38Z~hT6(&E3oTe@CGboI=`)q{Rp34c3(cSU71J#cc$Ahx6@JVKn
z7?OX+#+;eYt9KhekJ`f4_NI@1{#k3N*V{k#8I^6O6t+rwq|nK_UD-&iy&1C(3J0)N
zcksVQ5T;Y6GLI!YHQP55svXxuZO}vhmD~qhVN&-5q+X|_QnkUZb#@xl7~*4f{7g6+
zRU+Uf+_tkosJ`_mR^G4gS2}9?GyCww>g|ZlOiXXCJ{bPX$4`ji&&|y`r&PM;603n)
za9{lBmqu3~Ax*DOW-zQtij_TBXKmI7<yKs?t^BrKm5$<Pf{(PTLZP=)SH-j4)718~
zb}T97v{8#`W@(%_t<vMveQS%hKDAheI61SqPOz3Qr+uT2*iM%8BF`7e0aA;^?Od}5
z278&-iLWu)8L7g~-WhVr_g@iU(UZLwP3zH0q?_ip8aw4vEdBfa^bc5eZO(n)yeD4G
zk8+9ik9L-L?T7D0tGTB3vYL)Qv5JFqW8a8x_wGMAhm-hl?&x2Zs7HcXg8hTkcC0Kj
zb=Dw!>y<_{dfNM29Wppac^}Se&UNxG!Wqjiz%C#LzgOTar2|JLUj(~=*8wN&e}#jS
zb3Z|E!Sw|=!}${Esd?e7=1tI_`wZgz2=K^eK_BfSxPAg*>R@Z|cR@$*Ih?_W5dN!R
zbMWhs{?FlT<`JC5^x&MP4L%KT!TkWva7eiS23#@7=dVD?tqy4nA#4otejCy_hWDRB
zd;x3={sPW)4&mLug>;_6fzfM_&pwp-ixB_UAl?@t?_Y&Fjln+Q??L%5!#UCy!5-p&
zg!t#>Z$i8ngna~I{yo@i{1XUw24#dKzu*82H50x;wqM8t{@DSv!+!<gYw&Rh`ToCf
zmm&ObLVDkZa2crYxxb)4f#1*IN<;a60pG^(?t2h+53XN>_rD5lgg|;<gLa}I%x^&&
z{|xH)58>)T*e^qS{uPw(S0T)OsL#KJa{d{F`zh4B0T%=D&+X-d@C}DH|3^^Y{|m0)
z0&KT`2j^htHXYZ%)?^;S{3V>bRiUgugSL^N?uXDG{{y`L5tQ}Zx8(-Z%@6fH*Sow9
z*mu7M=|6`2S-AfiRQw`@xemX70_i*8H&o#Z7ofbq0?+4Xd*^3&Je21Y>hb{E_ZN`v
z2DICcAkKAY$4?<oFn#&LyO8Dt&hh>(l;tku|1R|RUqWBcL7a2nQs@4ieg<*g82s%S
zBJ?|{kYNUVrUOtVi4u&8;5bHeJRH@KgiFGC7JwOOk`B`(g<*_<&^Q?ucmiNcNQS|A
zp5-`(q_H5!5Ew!MxE9V3IE9lKiZZ+aKqtHrzy+437)X~O84O3<8g&~X10>H&1W!;D
zL1R4FH{vWs251uS#sr2H5J;aTFotGGjt~iq7g&-PDGH;&zK#r$1Whs?g~B<K!+DaX
zD3XMK7K3sUG=+jEd6bYyj-nKVCUBIYppZC45R}M}0>fYcnL#rg%c(RjgdlB}V{nQ_
z354WOlnR6)IjAK^kUS(!P&DP|36eq?3?N@5T4dpY(FB6w4Fbh{C=IVL4lp7xYy}Tv
z0g6BnRF&u;M=5?b3^}prVi53lIUL8CFcI(rOc;xE9)RZ{LV_1SFKEQe;31l&a6!b-
zpo2mwl4V5(V3;Tp&|X+l#G#d=SSX1v_;3_~))m|s2hy5fAQX3);P@c44dKt>f-FLB
zQOOWSvm{1wG?-69twmZupg&0lp>PBmUZ$X{DU2hbmCv6@8fD1ypHLVyj6n5p6t+>J
zT|y#B(m2BqG(iCn3Q3begr#|g(*RK`B%q8;G3Ve~G$sMG61f5e!9@z%ju2Uh!c&9~
z=z>K_5+gB%rBx^>BXa~xNjQVa1OY7sC1L=%4d{g72>!e?Ig*FA!%3XL8H&X)=n^QM
zmlsGf484jI6!gP+*Ajs2MH48{sSK&$G>Ss6P>cWw9jrznB9xUTaf;ytoWeXjIUS?}
zgh<l}hvLwYIAllwJzxO_L1+Z*tJyGx<7^m%x|1-o5F{Z0q41<co;MrKk>E9*SfO!_
z;w1#=3gu}Uh>OF|n~D3IMkm2!mxcc10PzGUA5dYSU>FC;V+>C-ka(Eocr47YdYIz~
zfr6Gt=^z=TQJz`BaE8UPkO-y1a3EM5dI(w+x{{Ef8yQg`NQvQanu3NxIEF<<LX0wU
z!pDk)8+jY21uS%jA`zN~{`CP3v#f^F3`#)z6H1T>V~mp)=nw_x-W1RH0ze8VEh16^
zvV+!wPXQo4LgrZ@3J%(qrG+rX2XQJakTWC(0A|E_WEklzG%5$Y0T+=F2Kg&sX9~2y
zQVi(D8j=*0F~Xtni5MQg=R)5DEhIctAbp{NiFzAuEDQ)?8WmL*f+3ye6~P^%umHQ(
znbi?g4r_D%0JV094H6W9vXE^bM=UcM0wH`n!;psIP(4Y8$Dm<Y2QBy&A9{vf_rq3+
zgjnV@0UQU6rVTaVhHmz*0rVneBb*un%%Aun2JOTIX^{Xnhe;8dPlaU-N2v(O$|yog
z=X6I<j30;o0z6?7C<>^N<bpJCCO5%xfI1}NB#(M18f>*;-61<k64(`x8bH(lxyc+)
z1Jo4|mq2sCAwaP?q?30TB1Dl8M+O28(=3hi6zn5H`vDWeWT0aPGJ^;N!@$@L<20wh
zFcM%`0Q~_|#6=hbz>8swfB;1Ttujmym=#Hq1O|*0%t=Wc=z@R|Miaok1z@MZG;t0%
zISOnMvH{cz2AB~?VCQ9}nR6n+2!tnSHpIZVg7*@ILq`G_+c|F~pkhF}BFWJ@@CZ_X
zi)A^~jR8;N;V%sNQ4pWNodgkQ@hnh1g7INKc+Q(hHxOe0n#RkcFsxv-go3O{F^J}4
z0Cf^*1%@K<ZVU-AG>JhILkqEs3`e<mkrfz$;8<#zNZ@W7zu_hTQ4zX>6={;>0mX?X
zB@`AtXb2PH62V9j0)^=#NWcX39;yX`gb4UbQ8O68@-%2L`ofI>Y_t=|N(2vUZWjx5
ziU-2-3JfThi}GTkKP$#@G%HHF=%<{X94a6Lt_MSF6zbss8$gc)MBt*Aq*l}?!;Hnl
z{6vzsz4DTW5EopO4`bOBlV;BO1E3|Y;Z05uFlWf6>8gWHh&1Z-psQr_!b9@IkK9YM
z>yP(-wmk{C-}oo{KVR-Se!9Chm3?^g3jU+}OB?QmI2=O$%JS?Ua&UYYxOz#SK72cI
z=_zyA%pVpn`L^d)*|(dYHZDGfGMz5GzW0Nj;7>mI*I)VI<k_2P;y)|9-0<V_<GmB>
z@m2n>@1!o@e|KefC3v>``@6q)HhFsR=EAdQw|)PheQ)0kFDy15YvEq@ljjS+egEdl
z3D0r0pc3-aY6ze|G$f3~DZ!NtVqLHIh77JdG|aEKT^y#s1EQ30ng$R%FDCi&vVr4?
z1w{}%q+|6)Sb#}e2?074?t|$!s0(hHCCPWio(4mjmVkc)_q^#wohu?S=OY2Cl#Wvo
znq@F5fa}gsT?AI{0#5}gz{~dmZ*~VTC&tQ{>BR|xS16w4Nd!kV44@PV*5oNaL!dap
zqIft&lLYBO7%m2rJ7|}~JPuSG4p6e6LKVPW1K27KgRp>Zg`$4yT$lj@g|WX#^I<1}
zz<7pX#8NIwCD$l=I!JoL81CVLy<?;R7+f$|a8V&pK<3gV0zoyL;DP}5N#QUac#xbp
zN&*O0KfuC)gb-wCnWPM;Fi1+keqjg$9wbZwAz%s^1q>J@FAB;7!vcmfMTZfB1(65F
zW*Fu%m@Y9E<~<G?5I&<YXTzwbX&A-04y>6EfS3e4L!uZ6#*hdU3`P%xq=P)e!=RT0
zm@a|uAOuBXAhaOB#z3;7Lw*nlS%PDjD26If6a;jkLkI=vr7&|7VZa>2{S+I5Bw)G$
zra`hIDA{6SilgBrivchY@SgxhM#T`#V_ue|KstaKf~HxX$5~vXkr05h0^5U`L^3Gg
zT?`pU0vPZbjz%z(f$5$TVQ?EhCP47CieTJ|dqzQIt)!uj@I|D!rUpYZpzFx7evH*!
z*8%ZK;P4eUE)XFE4?A7KAm&@!(*g2K<YFFD2K{7OLOGH}$RHEcB{zk}xFD;Ab)9l@
zARWqruE^{bNKo@3W`;#pao4IK+w3hu^n?H|l@h3sD2O~7dckNIQ37^Gyfo%vxY3M-
zQfL_J3Vlik!jy_iD9)$`f<l8);Sh-jL4E*21a^riAesgU4qBYy6%t5{<N(=@457f2
z!@!j>B#R*|=>^?s4q+H743nrD1aTYsis3=l!xRocSr@$|$Y%`5QNWx@4haGVtqc+|
zj0%nAVG`y6E;JS*!|;`d$p@n(VBCO`<N_sIZ1ud~WS|@nt)TgF@jQq^c}Nzd2?A&W
zXa<J`02E)wK{jD26aijL0<{qo(AVF{@r+1<&_;lq3=<#<GB|K=Xkh~6VL|{LHwn62
z5kPDM2?~)w9OMOxMHz%=g)qT#0!$4cQxOEhf#?=S8At^ucqEJ}ASK~+NTe`8J*MFm
z;ISfp$Qc~{Fg_AvU5o%jhTx?D$TGYFvL)#bQ=m@EP%uTKAdi4(80K`C+F%-^MG*05
z0wg(s6e&2lAVXn#5vF7iCIyE78+kX(QwSspO9@!3-~s@8Y6|dpkR)N51L8jk<DaJl
z(9DI#5znVS8pa^0z<7aS2?%yD#X}`Pa1DaI6@cLZ6$9jBiVCr^c+N+{G7S?sqvDVl
z0Rl1%F_5b@ie+gK<$xz5Fi-(e4@06nM}nOY6dV|e3^VMx@W_!=2&xQ(1`J2`qQbe{
zrSSof06^vz0buWZodS4huuPf70}zGB!vT&#fkwd82Y~HZkz5L}u&iO|Wziczp*dA9
z0FA?fOi22DFq`90Fa#DEc#uZ{s1^8$hG-1w^#o;*Y&nfQUpf)aFo>FK7zIEs93#!+
zG%LtJZ?qT3pie;NR>OoxkOV*pq=ByhwLmWb`G72sb6_S#0Re+}!$FlX0>}b5F@iFo
za|VWi*a=cf2ucBrTrdDN)Q`&`<<TJ&p+O}G)}RE)^ygryFvZh^3PLF@aWL%3AWMUQ
z25cVYVVXfeG6K;3b7}3IM{=;t^n)-99ZHI<>c(glgmH<3R;Hi<&R07u2US1ksfdY%
zLQpVhU_S_9q=FGJiv)m8vpBGOD6ku(O<;Yh;fFQ?QifT=kA$GHK`Mg`VXX>79rbD;
zQFAbUd052)s{=xVv1Cv(pi=@vAwcS5<nt8(tiAwUHH6C`oZ%sqC*>dlXv-j|!{mYe
z$D{v$-{?84-{Y`;|DRzk|0UR$ILBZw!QR6Py!$KIBS^z_2>S%T4)6aBg#EAK+cfNJ
zMBvK9UWW_zEza#YzX1CR|2^yxT!(N@c>Y&#*CFoz1L6M;To2&)??Rd(`28Wodjw%_
zz`I8f|CjJC2-mrNXbh5i25Hsc_jlmi6r^*Gtv`hK{}lEo6nL*f-2W58{{+5YgZHqV
z@i+FNhw$w;;o&;G&%^J(2lqdRZ|8eE|1G4m4!_Uw<h$@~1ke8ke*Y<y`7a^;b3BiK
ze4Z}k{T2A8!Tkb+`wx)DA3(YP7kKA{`2PpI{~n}wj)nLZgbzTxSMdED-yVne{~f&h
z0qiw-;Q7Bm_;b5d6T-ZN=kq@f!u%)LU-3hpx8Qvl(mR1WJpT26g!>-k_jlmoe}ZtI
z!SnwO`JCIno|o~<@O%y0?&t7)j^*(?kZ%*hUpkKm`BosWbN|?|Ed)y0U-*I(zLRjj
z0CyY0m7rYbnEvP3kiQM-d>7)J+qT*epMv{8fcPT3`xb<+K)$~T;r~9wn}zGVAHH+m
zmJs%Q&oBt(vmxBMPi`LG{S?wW$C_M+Z|6GQAHki3=Wjzg7W_WP=0CT!{cj-epTKh&
z@;ZjQaQAQZxqk!v2~>7tHM0~+ir{iMw!Ros3ybEDlE|QoPAYsV@`H@Qw=sVi9b3)V
zt)1dXE$bCC&C|lB+7iGGH@fLANJ%}OD(GDoUK!L*GM#`{1GI^3Lp;;-es}LK7;=i{
z2Nw;xdr*m_3;`s##A8A^&M5cTjDFea@cz5hCc8hr-_T2$=fL2z`m6C4oJPb!HT&oS
zc|bLCvN%GBVSb$N`8rwguIE9-WJheNJwAeiMr%*bq=(w9|GqB=$3@r5_1Xb9IBi;k
zwA}`<w?fmk!PGY+kv(xI(Q-a~zIY{$*+2Al24ufdON#d@?1$D)d}nQ^4Ql3YeLcJO
zpc7l)Z*1=~kMrqX{*UvCL+t+Prk+Wpdy<{>b@UZq)nzySszCCq^T&Im``s6*v{ItU
z!92De?Ueet?OFzDMV)({d^(f(D61Yn-6BpKbC2u$iF-}m=;GoLm|7V58SBkPD53g3
zkN(JmKQj(~B0mX!r#C+y=zn2c>sr}#F0&&ww2G^?DH@fPSo9~S@w_+PIQ&ySM^Ls|
zZZ&dtu860LCbq#n+S@AJtu}90bPizGu#>7qKKZ<t5~F>qWXi{D`9Mzs|Ldq`cK}1J
zvVLPamGxoZOzhWFYjQUod(n=&(n<ePaG`Gc3!i%!J~O_N5xH*VSe%MXZmS|6?Ia=-
zBbnK^^PQz{_dAdIqr`1HC!J|kKB2iYNk1Re9eTWQ<?gum`{Ors&K?A#J5@uajMz|5
z=d^PTGSuGQ=^li$r`PSHdweD0;3E&=Y?4=#k(#nKu8~#Zo@R}0X+zQ6CNXrB`*xRn
zQOs&LF|`5Su=gB?^s~YqaiLauzH#BEVD_I&pzqSYjU|s$RXWJr;ytP0*Bj~O4G)RO
z%_nkV{4`b6%3{IX8hi*)^iiaKH(FL+bqhZ>TjBlJwoePCWHi(*n>pB|N(<`4FDKXY
z?M(it5G%zVI16nebT<eP5~H#tY$)|WBDJ84WPj=Sw3bTPu@&a{uPa@&IPTtG`FXka
zg1J#kWVWK2Vs1QHG3_eW0jP&!!YEB5SxKi%?<iF*_r!7jguRuSoVty*)v+ftsf{xq
zSo2F-^xnQ_CRf)M<-ls(*ci`lwS0PhQ`42Yk=YFXl0J=y$HF=swUp!OVExtCO4&q#
z==uve?Ue*)_@Awm;)6<=!;+`ZSRQu%wks2Rdw2a03dPy`evPZ3mCVwfkq;-s`8*rC
zVPacyPKvcCq3O}9R&p;@FTPQ8`26O6pn|(jB6zpnvfN1K&*kes^%$wiB%%g`toNmn
zeXDL_<D#n+S?*T~&iTAU{ImtzpVP%dwA>yakK5U^e#|DzMr8-NmW&00AxR(RqwQF$
z#e`#%P6wruu|y%6oXR#m;#OO4ls6e(-PY~(XrXz=rm_c>^pKfwiP-q5F<5hV{A_pk
zr#o!dd8d#yTPv~l&PN=2dmGUJT(H-CA?c({Mf1hR*Dq%ilWl>mG1cu%iVo)lq}1#U
zg+jtFlaD*(8XTv^Wu)OrkMecw)n=&N2lP0pUD%$4*OMt!r8~<T8LcU=a9a!&)0Id2
z)~n5OD0WNV$jn&sb-M7H64@pSu?#lWSZ3`Auq;I)RV&!Wl>PR`a@A^Oiu&#ke|XD&
zrz?yjv3aq(<?5|;j_5dtZ{1QzZ%p<DPu<IA>Arww^{9EaF08cMLc(A}ycrJ(k-en7
zO_wTB#NEb<?J{4voh;vqbWU!|_vxi}Zk^cLK3Ir#S06{VaKjr{&IGbxTljDzS5(Rk
z@VH=eCI(n+k*x7}nCq$5^E1ay>Ct7!p&iOufcMlskYd5!9@l$j;EyKqdQi-Q&P0Z`
zLn(czD3u6JoX!ZsD}P4VRv)-loMLY$Iuxq*r_~nIr{v`2xzhzyo@4oy<*QnZL38P>
zMQsa7f1bml$NK%4@=L#0JyA|Gwfu6>a+5DIU9-QDtuTp2qd15uClkHAq|IyHjS_#7
zFYc(w%vn<}#@8dezRH&7RT_Mvyf%v6?I#1IPT#P1VmYQ5K5Y3iTSDS{g*(w)N{xmZ
z!92b@b}_`i$_;5F_Bg)W1xnv9Ot}p<8;jM-X=JdR(Q2`zAe#|2RXa?Q2jY%n^Ys>K
zZjCch-EJ_ojjiSFjrv`0e9U$>hIHh(tMEB)hOEXi$IU)}N!($<*Il#UCC3f}Z?iL8
zXee%eurYknAqRAI2AtWQg+J`4jnU$6&AuPo+X!*NW?W?>Wy))rv>KKz)J3|}jY-Ms
zbE%Na$`rT2=b_Y(#g|=`f}GyQEBzP78dz5#9Ba<|>{N$ZP28$F3rXupcW1ARGYRD0
zv|jpT64FNDDt^n1M6NM`^>*ZPYI8%5#?SIQ8mo2)ci{ef4Gtbcg@`&sMQPw`xHFMY
zH86XP59JdyOr(RYjCrqdI9JPRn_vo~rkA_95)*J|_7?0_M!3EhdG|Tzx~Xi;zfsK;
zAMx}4Vz$+RH3c?ortwTfZ^lkfi1n*h<xw#D?4(|~8BIHNrVxl%)lOU0pIxtg{(37O
z&XgAK?Y{!Um8ErkO->#Dz_Hz)+bD$TuX)=DEga!kiQ5UIxxi}wqbJIx`8)R;#ZR#I
z(c%Xm`wJ^dD}E=NZYRt70CB(8yj42|i-`~mZUlW&qzhm%sP$Z`8ZXyv@}Vo$TdD}&
z$p@FK``W*MSa$$`p&Xe_B`W6btL1idBj#?uQab%$VjoM~D!b<eB*q4jZ!7U+ULP7Q
zyYQ{gM)`)Bnh^p`d(XEWv?OFJxLVq17aQSnUrHoV-4~w9of6}nG3_Z0<K>~10bHr~
zGYjE;%WYY^V}B{oj-&F6b`l-fcJc5q-6+Qv=<N#mQB<r1qI^*d59)TRK%$AuL{Xj*
zo1=#Z<6JVj^mAYNgdiUni7`TM??i<NE-r9Ii4-hP_PuZ)XYHALirTaaRxDF=H!As$
zY$di;ji%#vVn{SDMfv^bpo~v%ZvA<XbEwgZ(^HS(6%8yMB9HV+wAo_ndbwwr{<JNj
zYMaI7m>D*+6YblbqH<Ubd8?bcgp%dQg_Q!A_>=I@i@9%{iTQ6E`S^pIHS<v2z((~z
zXez$9*RN=*Cz}`?M5_I&k)dDuDJ|GSW9E^CQQeJ18z5y{d(vE2oGfqnng{WC6JMK*
zx(lVAk~7w($#6>;s7qb9t72srd+YUV;5bC|BRT78Y50pI{Z^s#is%$d<58MVbw$H$
z7B|ebr`5^_i9(AR*VSfZsvqpBnaF|CY!AtNlJzz2GGhQu;nuSg<vr=Jp;k;G$qJjT
zQZl!5XN}H>9VfJNOYLMNbGMi8jGhh^ek+lQrI-y9T_<%-_YOOq?G|>&I1p0fbn8AZ
zI@MjE!QygRuWywmma^YlPKLxH85kJpQ$tzdnz3@Z!6tL-$Xa%-_9P!(sfJK7TX#EJ
zm^&J&X-yx)fI{A$x3;B5kGz=}uBUxUD~7x*CJ(-qnwI9?QiNCTfN;14o}0FZem=W{
zqNwfQ=lU~OJ#yZe%uKpWcy?5L+Tp8`D<6PSKF$zfZ}uRQ&s5I}RzeXXlvb9xc>RyT
zJ5jaKT~s^QdrvM0$YW;PPIQbw--nrUCK=55$2<K6)r{pWi>!z2d(}noyYf6)E|nT!
zi<DmPr`Slb7-}>X4URq&RszfUhbsHjSgLaPBDd}`mde!^)-sZ;;$7;)iXc)(tJ5I2
zj9go871*R2jV<yk>&bXzoQVs1b=}Zybm=s%pl=kv%Ld77Ll@9WW0=_03%jZ1!WMX^
zwX=AyXRbGT)|iPtmtB7FoQH2eEoRj1&U`S~kc<b+a4=#A$lRos$_@E4Msx?QH?4uv
zOI19#-*Me<^$7j*Ojx5UI~(j;w+hts<d2yNR-x7wbZnC8#}!e{n#B!##u|!c-@QUF
zwb|Q2hQr=z-H;8x+<j0?_3Np0>MgrVgW$bGk781DqVq~WmlV_WiY_!2b^ah{r&@&=
zIx5d})(z%FeIPoob<hD8v%V!?+F?E(Bq~n{`VA&WmAb7RgF*LVR)m+Ljjd9(@_ss>
zJGpJ*+k*_PuxzcgLq&H1l8mZH6IWt}0(<ZIxn(eK+Un#&9R)X5hwhm?ownx+mWFGk
z%(iuH`&e&gGv>z%#Rg(dZ8x4S=J5zKpQ70#sRR)1*@z9!h+2MT=QHMhXj1`5z%n**
zl_Z&qm73^B(IjE-!1;)@dlwCD8LjB!CLv_w*!N!;`zqTfqWzUcM>R1>ZE*uJKHU)}
z>DuL%e|al!4<t1a6)M{eyOO`MBHX?c^Cqa|MdwKw&eA8U#^eBbyi$`g`Pt%Tt@GLK
z0a~dSwm0j>)+Sol<ycp%Y!(t#Ue5~6<8ts5#yqj)t~M%e7V~?^c59T5ttkNErS822
zKwZ6f@}a%&NvQE+4rFqs(v13#BKB@FxgS#-?(Hzq&Dg1#U|~B#0<``{8C3YVnPNhN
zP5boWp#bV~Qzu=EY!{dK{7JOyWQbg6=|&}1&oQ%;aI+0({VnQgRPg%xMR_z6wYI*Q
z$y%k#+`U}A>uctdQl(b>39Z3aSufj4YNLGXC^h<-$=w?5CAsKsb!<pj{8itHD?T@)
zV-?omGEw@AdCImYow<u6Z!cF(^W|EulFtT*6SuuFk~1kYjkhXfz4MJQSw9_TvazO7
zkQ-mVCqEQkgfh~jh2s>lM^)7Hc5Be8Mx{pBaLcW{R^6)jqIzUdZ|#)OVErJye`EBI
zdVz7N(#;oA*g|ZhI&1^e*>5$%q*La$LZy6`*#*GI$i`gx)0d^BMJVQM{GjmU$2;<x
z3g$o$V68&OY~Nl5mnxHDrsODoXF`3R1^|pfYEbF+jGowZEC@UCqLxxGfO6_l>-|+V
ze|zAIZ!0S11jF4*uC<;3U!ShYr6PYf6<b(8!U7VgC@3eX-gb>*`luc)6k;u{ASRRY
z_N%_{zHJ+WOe(pVs>ea5?U*a;wB(D7jIf65=;x<5!CIL~qEBvR-O=|6SBkY+P#977
zdqwkZF`a7Dd3{73HMN4u_P7?aXe`Lin#bHR?`&&FiX`UynIB2*^?@Bw>Y<9}QPf;R
z&gmkeB3Ajh`bl<uyX|tEHk>bO+V_p+XfxsTl_nCX9c1##(PY~^EvrgidVw0jY)28v
zRR0!RsXwHqU4>$p_&J+$bVDWb=q_)klYs~Mek0qD$8*Eg^zvc#eeTI;L@hii4v$^W
zog<;<TyIJ9`x+7BhCVbGZSirwo2Of1fvM4VGU+4G%jFVmI`5Ob7t{NU&)g$}{Ufz-
zTZytKeN#5qZ#K0kIIrV2N{TG3HpnSSzbTikifFI&Q{&j6ZqS`({bj_~0ikiTsNl-`
z?+ZrIoa&It+P(T>B+5r=Gy~i5MNr3%d=yHUrE;8KN6C$DVwI~VXg9Wg+{s2?=GY6G
zgLEg3^nF3P_v2VL<tskQq4DJg<y?|AhMSGr8T~A7R<e75m^zn<$q_A)dXq&*$6)7)
zfeVcsfPvp}zd3t1Hz|jdg11%4-y2+{{A%rbBi|lXM#Yb|Q#UUjQ`$#|iJ)Vi9VNRb
zN4XNxk_4+iBOw9ng=G+_p0OX4esK&MfQ?jt$1E68m<iaAaWpppwWB4~@C^>W@~vp?
zzU1<?Vrfv^x#82ySk_LbcJ%<2G`g{@-0C=ahoRg*(zET(@{}FhXtb7l5gikqN+WVM
zUq*gu-!D4~IsZ%ZpdHO0Nm-NY@kVC7+AxqARU;Gfs=p)TOZz91Dj`X>!U4wj55OA;
z5$qwyJ*k>m&!W}EbW*ZJ&xJF(n?W`#TR6)V3qfacJw8qy<5Wew*WOAoeGHZ@LLrt#
z`Fga+8N(lcf*m8<N!Q)9dOaHW6+`&uz^Kf`@|(Wx#!i)9`b_`g6fdk}vqw8t`w)MW
zjSKbNUIN@ar&pxlBIDgq%gYOV;}0nQr%UJ~v*?_9>$B^tH(KFDWIY}zVcgQ*j8%^J
z+DfRpoK~!o5mxw>ZaWbfrM>3TTWjfL1V3^`DxtZ2Xme>fYxidx-uehPUIss?r8Vys
zm3fjG47pN&gW2AUM;j^AmCc2u#<5+ku6vE_UUVo&Bs;UFt3TH0or-#&H9k3#j<{<i
z=WDM->*-3R{7HLw*;nOKR_C3MD$SfErp$0EAEF#*`5f5o%gv*vZ*xg&q`0Hm#LK=i
z7mVDjEms{)snCBk+L?7eY&hDcWIvFTWGCaw9;7$qmWFM-s7j85t>Vb+SNqwQ%}2&W
z%6;$HNxMo1Pt`O+X0!9r)l}?sna$?8vnZx#)?KCj4S66nxV@;<?PKXX{ZwVVM!EJU
zoo3~^x)Sl22kBoQ74UblRP;!}PLWuG%jCn7+GVwSv6~tka8^osUS#^Rnn>2xEW7wr
z_MJT{$iHkBMf7=kXf7VTiUj+eSkkQ6>$&uHI!l>5P38)3%@;+3%-@yndv>HQwr2op
zM%CaSE*DGM-Ji+XLZuuxw(e+o0L}Sf-zJSoBf{=yHcZ#&n}uhU@*}^J7j(-i%l!wb
zoyO@=H5@HBB)Q92Bfhgbm^IqvbWKg~$ChG4ac=U;S^u$CCc;~VY$UXGBmVN5vXd!v
zRtCLine;U?QfVd%AvPMVCo^5&d>JhiuSf;GTIpBK#}V)E%AOCV*NtgrDxN}qCw1rE
zO7gJH(?j97bCQ~$`TfyZ^|fBww_nR&%o#3KF<yb=N9<r&FEkEDcR9w`t|qC&Xerf3
z=bb`@Bb9U-oX>#kQoFx}MD~SLEYz;1VmYfBx<84YbU_miss`t4NoUPUBsHuVscLmW
z6YNgr2}jvF@aSAN5!+!SZFebL&BIZkm?dc|SvLRl;F?`ZmJR2)EM5a=8E~S!TZ}YK
z@bnWb3Z=w9+w^PJQLU~O2*bqga1nfviR-)ij|SwSs&~}YJW;4e#j<7h*zRcTPatjk
zrK`}i3$_wgTej-etH~t5sh11XoROHR5(f*2m{1qbTA`gEq+Toe?@9Y>&DH=&G+N*3
zilm$-3MU)cJ>X=~WZucw$JyuR4mq2=Ia^p*XNq^x9xA0*g-UD7t869P#X+2Gqp$Uo
zQadB>d_P%UaMiN!t4O!RiOp1F7(QU#aXz{!i1B`8HKBU+PP82N<^X~voOU{JZ7dC!
z_Z_{xp2c6yXlZ<7)%ZM|2?~j5%7Cq{txRdXUXTnV)0D^U&HRm)kjoW{;v4<@-f+1q
z#P-s)SR3y+nBA7bi*Sz4N@cfQEP!8*{Crn;kxe4H>m@AG8o_Q*T+AZi1ht>cWk={!
z5RhsseKq#tAmuG~TB&ljg)~hgS6dU_@0(DcLUBKoQzBeyV3#sUDV$PuA(^<q#t9>L
z@5Aw|bE8SvO0afnlabh9pCfQbJ=f%n^p?^ajm^Q@l_Eg~xW+_K>IGsC(0G&N?FMh>
zlLdZjx*Y#XDuvO*t&<h;*hZ_EnL0`IEj!}8Ckr##ilxadvv)FCcE;AK5ntcA1n482
zQR13+i)uBUFJ!HHI@zYR>dqT2;{N5<D!%#v{S$tvUD9f```6NVl&t0ouxITen)1nR
z_vLzUH!Q5mpElOmt>&%qaOKX=(_QKil-CdcL~2!Q;f+O>X^IVyDpJKIO_~808O^2m
zCvP`Kk!_5{cA{n{-QDZlX@oMXFS9qxtxDuUGDD&_Shb?A>+h<WMUuW7k9X9pw(bpQ
zy6Lu_V)%SANY-*(c1<SwANaP-z?eFj|12$Q?x<`H`FwM~*FmCn!DYt6SgF2g3#^o8
zsiG;YW;%X+Tg%A1F&&6Y+6kMfwwcK#g?vko?xd3bcc%^`Y%?CRxKw04>90m?@$K&i
zdXe>5F|z5|8I=a#UO!0Lhn1=vi+i;ao2hiX`TL_zXn8aew(4X%cs(g)i*(iUmP&$3
z@2&q5lq`Mq50g=5Az6IHHv6Lu`tESQe#=x&i?GRg@;<m{+7WZE%Ezu>6s<k=vjBtE
ztsu$_OO!m`#LJd&5FLL~j+p64g|E8QUL*q3)t-S_?^c?zOq6Ie6X`&3JKC>D{6w#T
zv1yVlk8GC~Lt&qeF4VSqNQW93sO@X_vsFt&;EboKgyQjZYOh;HOJp}*A7$0?qi)WG
z6Bn|Q>urjg-Gjo6)wqQuj9Ymct=4zja%#7XgMnbNZkY``yi<^zZvcQbtOvIfqm<nA
z<tn>p0U~D26w`T}V0yIxQB1175y#Cidx-`$HdOm;wlBwxUC|!p#=Rq-cH7R2dZ{9h
zqbJ7Ayj{1_B^p0ygm&wRik_}D$_=pq))29+zG1~-bNNj#jYOXa)|&&?vaD9Clvx+F
zP6e!m)-7KtQtD(Ho`d|P(xd^fpg(M4bxufcFJzui_gqibugh9H@rNZgjt6`3gw9*}
zPN@)UAM+dZnHjIw{y?4ts%WBVgM&E2853q7CY5$$P%SBlCDQ9{d9%Dbh{Y<P*hsNc
z>2hV!y|#`PP}O8t_wP^Evx%NnFBFgEYIiruSxct~N8Y!6EYHYv>0Mvioo(NXQ43Z?
zHyT^VrTyf*XX4SBKg?!5KU%K$m^(x8&@o=Q`6{yYidgT8A|9(J12xx&d^J+Hw#E(W
z7K>Gqha{T9DoQ$4FB6PUT^Fv_%bs?Qdd5q5PBgYgS-+W5+>eJD6LxiWi=EWX`>HQl
z2g}k%zC6%y?_>!ej!N+kE>~jgU7LPXx${HwpoBJ}di|(x1f3?4W)9@ccGU}NN`va%
zuA0mA#K=axf|ur0z$2(kZ4|tEo{*$_+LzKX+vcQf$Co<`$C7jHorXh`^=!qvr3R!1
zUWzYr_lm?D-GvF;rg2Qoa$c!pA3s?cE_;PYsa$&8#v)3lCzU?pc5bDP`~z~_j+XmH
zV`Qr*8M#?}FB-i!VG&l&_aE0&Au@&}w$CJX<vF+jyUkd?ShhP?4@+CLI=8ZEVy;{?
zIDdE}<rh+qH@M9Q<W^=g4;w#VbOJ}paB%;HFKC3~T_FnpH20b_3A!8^zZ6KWd3`1S
ziZoBZ_VwzFgJ4{D!oiSmRb054pARB@*hMi{XV)UXyP)pyizGLnGNxsqZC96E!ZZ2X
z-&v+mzpApHuL4wPbeUR+F3nvRLJ@Hmbn6!urWbB6I-RRv0kEJN(^qB!$Wm=}EyP}m
z=oIJo&U_15P5bm2{}k2WB?s?y;s~l(K{kT=-gD3L9`F2n-|%RmIEr0pha<r$WcBwd
zB>KJi)$8%w7n}<#cS2Kd#9i;MCB1<Fqpr9d31sG4%noKOp1A}Lx0ld()XRrfqN}(s
zU;g^n?!1Gr%c)yx*agnH?Q1KySJ&nN(1_3hzt8@?An&Hb$?FU6gfZt0Sl{0k+3#sR
zhZ~uioszPM2lQ1IeAiRg>D5@orP5ak2hLuPTni=~)3d9%dubWa8yB3`^(9A)er*-B
zMtxKG9L%aqx7fIzTwPQyI3sGnw?sFQC7%~BM4AJi*J}{(iC5h%4p*GN7nuDDpZjL-
zPFTR*0;&ca%jV7H>m+~~E=vobkLh01-k!F7i_*>5Ekq}91R-YMTCrMQZ{m$raO2Ee
zTf$u-uV+5#z3G^CBBaylL_Kl--QT8Hu<7afNHplt9k1Q;g;Z(Ix9Iujm8s}oi)(-V
z4fMm#>(~BsxbQ0+_zAs6Z!IVBD{+HKtP<HPJM-6H_y5By-(0>q>t?D8aJmr`gvgSK
zUS9HkdC@uNSXspHXpVSAMgkr3U&NW&m02==$(r(`;2F5Oup;?=Z_u;<BKh6u8t1%t
zM+beyt{w``!~^|zxc0k9@X8uN|Axb-AYcuUn+n_tEeb;7niE-cth|?8o)W#c;(3=^
zOXJsKl0YE^3{RqxnMBu;*eo?W7iLxxMy(+(P4P=pZ`{7l`I&29PPoP5&D`a$gF|Ff
zUCTqJ!RzY|JrefK5e~;Z<)eJpZje*B;0wEFrbFTsZGa2!5~WgL^rr<f1bP*70oJ6g
zzpWC>p;`R4LYJ(N$%RSm&SEfl4MQ#kmV&ES=F_?|JA+=!T>@JTZ(s#`S2NHVu-sS+
zURMlNrO}ISQpQ8#!t^va%>-G_<93taC3@9Vz7?=SFv#L~=xWNHSp7O20bEn^i07*d
zRJ8iG=IRb%;p}TyuZXOEI1?<(=oI0dRlebdm7oytgjc@dY0oZr*KW>5FoRRfB_XpM
zrZb?wiUeinYqtLiwvM%hLFnyEr24uz<yES|EBx=)YU9`Mlg4Z09HHNod_NHb>wxln
zD~c-Z{)$)3s_$A(r%Jywi(wbfwQZ%CF&%cUd3fhS&<q;0A+L80&e5k5Z>?W&Z^!Hh
zJ|~{Na_g(tUcdZ1QDolK#4i=Z<vi{e%+_xwz%v}X#zix4ar7J`e%F6dmC`Qqa+u6H
zK*=>6U-tUEN>ERH4_z{rkfLLDA+>saE=)uT0bgdpvv<mTZ7ujN>cUoO-wb_W4Gp{&
zy-pa@(kw46eeX6wP0de*0?u&Z8wq0V%^2#7%2zR-UcP#b@UQt6R~J2?ai<8P@;ay`
zit5dXy^4w{hpvS@Sb6C-FY=(hD9-YNXJy5_ti`+w4)i)`M56Bq5x0<`mH;!E11l>J
z_%xq3gV@YlQ%f{Guf+95CaQQ6fjJk!hkOA%2?ize-Zh26t}DXrpm`Hq-fM()r*Vy*
z%KH|`*o`#e0sT2AsJ(?y%r%W;x4wciYr_SXqr>(|Y;lppa*|udT|{WX>wCi&zAa<^
zNE%cQ-QLC5l`!+Y8EI+BniCl8Vz@Sa4Go!r?=D7GrW_%`0%lHq%Yo=BzZi}!Gv5wj
z=B$6I?RA8Fix;q~RE_W}=Bg_vW|mwxScRT<tt^2*dsB4yzlTfjy(jutxr>)pFQz~*
zmypH4ydgL)dbxk@_RnS+*H@!{A^1)(duI@J8lKdG&lwMrew2J8kSPM1{i1LofCs0P
z7#=dw+ul`a8kFuF-ml4E-F{PC5Xd|u$gX(gVsvS7E<~niVriKH4qC@Z85R7uanB9r
zmP_={A%4v{1Im`vyv~&9x$Dx!o8VEDTXW9O=gcKNaBi7~eeJct9O>FftX^`-F&RK=
z9V@1y(b>0iw_o=J+29mfz3zE4>Rwdk%VpwqEOw1%Oz)a^g<{Z|Yk_6cJ@0kTxEz_~
z8&WGkqoB6!_g{C%T;SFeM`sl*X{@0u0jJ-w8d>oW8b+$}f`_xF)hQ20FOy3O*hqL*
zlz=<14El(7g0ASYN12yN-?C$EF|_8H^Ak%56Z9<xSQj<7=pfi2*9cQrd{Us6O9wB_
z`V2gHi$QLYg}|G6zaABW2FCxKxP$U@-?5UeJH#DuDscG~TcP|t`o`DTc&&fsP3j#P
zTWFGHFTjqjT=ts!sz0)V;BId~X`5czduM79G&{A`H{`Wje!pj4VQ!JcjLS2PPiYBk
zDi{jSEno>3xT%|SmY1R)<ErZlsfd1;gGL?m0q>=SEH=l^ncPy+zp$Fj(o(<|z2FX9
zHq83`N*!51YIAd|9(D=5*%8?w9+1K}ZfS2q{Tz}-eJvsv?Wrqk;oGiMNJ6;lWnBE)
z?42*=zWT<s&?LO*{|)cd+<ULNX5H+H(sNLxOJ0t=#oZ*-TT8d4TkPta22M@K<NPY<
z#-cM*LB9(q=FV4LGY*f>EnL^;{Rr)FDWGbcn%%;KZlCNzIO!TsuLc7_!B0g{{*u61
zfp@}gE>v~aS8p4F|98H0BLHgBDiufHdn>+dPa_ML!eJj69dfHP+;yLMm0WAB1}-fp
zqk&l@;NX`-Q6W61cDV~e8jlMzOwoPu=FO`!?lq??wCcQhA;e$05m=6g#c;faPVv%8
z2)PZ8*sk8#d#Cz!6Re)*zpc^2H-#j2@wF=?lP2c_H*VLi$t$u^TgZRyM(Tg-O|RT3
z{HB+T$_j(rkYEtojBn;vcrG=!^q#qJgUKKWqN1z#TMCK=MUFS$V?8${z<gJiKt<UK
z;~C$#2(==)GryI$z$THr;dDi?3vBo*Yx_g)pqGHJUPp`|3Y?1!2!c$5QQCAaKt*LI
zwurBImqIbmRTuAHp^c(z%}*0W?KW5yQ7*(sBDzB&m#>BhE&Q&}pW<zLR$x4`FuR7P
zk*jNT2=jw3dk}N3%%`0;ws0rp`TE-{i~ehYpy^rm`>rqpa6)*;>!D^=bIuzJ%gmJ9
z3l0RF!Ym>?-LiKHrd<!dxDr{lXgWt-@?Bq;c6+Z2UgolUNdx!Z3vV;nV)*7lNTt{r
zQd|Jfkx>m_n_=TlFM4a9i+aH4<{}>P^Wo*CRc{(x;ktzE@0KoHS2Ea_a&%^ey>;t7
zVwjk{@^wy2;@=v6V~(Ak_PrUrHO)HzKce0PSd#247nDNmTRoic0wjTikTfHW@9AlC
zU3u@l_f=V0m6hISWqEhYT<=ZyZQngT-QzW*(MY3_gb+L#5J>xg#l#Z8J_2~a!UB&M
zJNwsz2qNyenR(2AOlBSXf8W0Y-%!SIw$LgB)3wm03ewINsrW@rnsExDj2x&i;q7j@
zBUsqt)U~T5&>GKX41BufdLzzL0g+r%;n;#lsg*!z{qVLijbb6x9g<S9(qc8*vLB>8
zqP(st45ZI}CRcJ!tL^J{r(iKN$@1dJXdkJPWiU!m3k4b(Ze7eI4A)tzxU(n|0X|jW
zhH2EQ^(Xb_U?N)#lS!t8dPrfQ2$42rk?3L7(H?GrYO?qE6Z@^1M}N|xfF}RY?#$Dm
zxRY=^)ku@KmueEpKVBCC%taD@?{4QxXTi{IC_%E7g08#7`FU5c%4MESIC$9yMlLWq
zOFFO$^rfjrYncHk&oh%Cfw5Ma!Lkh9N(KBJeSu85kN^<?n~pgx2C#q5QA}sJPIVO(
zJDiZqmO#xsNR*3(oIi|J-BJ$i!L*pJEn+0rGv?!&e4<oh0xZ&|s^MAD#Z)%3tz;(B
zG&4%kODjes$>I4tcgaH+leSbuB^)qudX9-%!IFFYaRB4aP<6n^E~Dsmb18*~yy(V{
zy9!h0l)&N@!BBKlcdwaTSRp?%*eV{ZS9Cf0zf_7bxk6w&Z7YEJ?!BTfK4d|ol25IE
zAsvb(Mvb4jzz_0OB$($x<w(Q}xF?HbnuRPCtfkY?sjfw8t0p!RjM_Wd%BUH(mjiT4
zTr!#%d%C+$wMyE494n`sa)C!8Iham_glnI*6MI3HT$Z{u{v@0XxO(0YpjiPkO6A2e
znymS9v8pXFE(Bu2Ijqd%ttBo$u?Pi(>n2FFz!SN=KsB6&j>}KZ(xBGkuL|)bR!I(-
zvJj_}R)&hFutywBpGYE%M6^>)3r~oKEptLt7O+Snl1Az|;nKh#!iRAQ-Rq#?blg=E
zy#>*YwNf$hP@CrHm}^a#;sKSZr?YGEOi_*7o^4ohB3&$@n0lAwj9}2)=U=5lgTmup
zf<#_&fsMYr){Q^XHV#~<w^Yq*inBp6eEB1IId|T1iYK30cBHvgISS_zrBPN$i_++-
zmr=C=GVYF>MkL>@lIC=BCb&$EPe0eh@iuYsn1C4`gXff9Y#b$!P(Ejrm+--u4C9%C
zGg|gLN_Z@)P*F^Xub{OH+X^wMpn(}fwlaxe%-ECGun1L-#bV-uFWcqaFkz)wiPPuV
zMTa4l7)Yw`4qmzLiC8C_8bMb#=7z80&N0vnYQkZ*TIgZ<NK5b7z8f$Lc6)}|UoRBt
zl)K>5H|ZP?lMHS~%2dS{44&zH`8?hXQ>VS@C8@$}OX+IVwow#HQq7sEc1nquv_lD8
z308%iw~}=NN^3Peh{YQl*0RuVbi#BVxAUcr8sA87%6%b$<?8q8ZF9P9N4jdrtV(5(
zZ*XP~Q+uBUBifcGjt&>BrP(Z3OI8OWe_~4&OX;=7756iy**+{Muv$j-)`GN;O@`4}
z{*>YU7%J+S6*z;i9h}3a&HkgDTR;A6I9x9?ef-r7>-6?p9&P$ucFQ+iuYLMd)YY0L
z;>q&R*2GCy<BHX1;d<F!T%_8#MU%@vi($qx2c};F#j@2a2Z(4l4>b3yOph}S87|F%
z3dlv&TJqz0Kd-k*&Tu8s(NuC1e59xg8Nh!k!Jf|TYdFCSe9w{V7-H#kM9Ua$+r%-z
z^<r3@<?|ECH1OLq;SgG{PR6x*t%aGA5|4*7h(fswG0xHy><wFWBXG2ytvVgEGMkT3
zjWk-yVq=((5=i5@U~bz@yHTQu6w4DZ=vrX<T{&^fd1E8y4jhzgliihEVzcEfquF0b
zaL&p?Ou_2=&t-WO3Cy^-GaCW+a%4thk5X#-vy{P6%|-Mc_+SyX<cK$(DRKB9>kW`u
zF`V=wpDyt7j;|3-C!58he>${d0yav^LbDuB=dz@=9VF(4*~{)qN^R{ssgtA$nOSb0
zOTGf2{k+Qbs@&^19%4q>RM5Vc1EejtZwU<&gsqm%wTkJxDKX0?df7ap`VcbxY(@5F
zidM&PF!H0ZUZ^j{c9x5_6c(-|!32+)%#<BPn^5mIx4|@lzn$8d4C~oc5;YQQK%Oz*
z3u*y=;bq{jnDb=dz&SC;pPYyLp923e@OrEQ4&m<sQ}B84`vLfEgWsnCXYhXTI|57s
z4;X_maB6%JgzW(5##iC_DIml60&rM-0QfL|{;%JA?{nZsL-<bt=f#I0j~{}tKZUg4
zfczo5_YT1SI^Y$Kf!E_Zkl)-!*g44KNx(GpK-TX=q)&oP*dF8=1gy+^fSWi4-i+UY
zI44l9w*e3FLm=;akhTaikHCL!x9lfD?!UnGi%`E?5a(Tx{|0b?{4mIyKw1A0(x7nv
z1&BZA;^;v5pMv;#{XPT!{{Yu7L!6I7Tq~6C7KD8Y@|&0AEhyJEg#Q?TLEeS1Z-D=t
z=Vb=v(g6PC8&Jj%K-zbq4L%M2mm%%E&JIZPhfuE|l<l7&k2#OZFaGJjy^9RQ1CUjN
zWF~cq9@BM}5@ngJ0II6qBuQ=t3s#Bm5H*nznyq?+Xt&`A40sIybtV8rw5RYQ#+`3S
zbc3x>f&$zED8Q^#p{26CP^%L>%%C`q;MguNG60`sC6Es+0E(!p6fF~QOVfRd6<CnR
zstf~QKp?RIAfgN)kWLFUnH2IfGQ*JyV59+C#}8P*#IY<uUIm`U84hrUf`SnTip;aB
z#Ed%7O%_n4I~XwH8F1azo7E0UArv5w<q5IcW-t;o-ozotD%F0Epd^KTODu9dfPo5f
zpX^it3R$NbqYB`}2?lKe%9Nu3QYpYJR#Lcz44PE5P?vzy;(y`Dc$NbAG2rcZfc`Op
z!U0&1p+o>Oz(W)21SbMAV1j|PfMZk&9(kM+NR_TDKz%_=G=S5aG?3g%{GbO44`99;
zxHIY$-DGOSgcL-UmjRo`^J-lhV2vh63c$i50=)&#;ysBJQT8oWViiE$vq~4hZom;C
z$(<&|C*&5Z@+`xtEGLK}!vpk`q@jJFw1NZ$VPt}rS#}*bIvRjlQ<@~aC7|n|WuXK(
zRv<i>V-HC?yg5Lk0=gOAgIT2L20-lzMFFHK_rD;>Es;Hf_k-hgyj*981S7M|pv?kM
zu`5e7zJ{}uAk-V=s3s{ualldaIS!VmWR(G$kMjE^4!$qITPqSR0x*wkO1%k&cY&cr
zXaNYCnk31!0SzRLYuME-{FtZ!6V2+N+BwV*dvzsx556R_*UKvVOb>`DHaWUipA;*D
z%oo=wWQt;c(ux6!u2xD9hingEL^x~~K14*Yxy>tb3O;8rGd@v)$D*zPF#+8tpn1qq
z8;C!ut-457S1AFJctK@>pBYT316cs5VF9}aqqYIt%A#@jJ~5G}325VH3iwG>u`?u_
z-8o%=jIgXEbF3=!9NPgZ83y+F7*Uomz<P3ZoR?(21u)l!P~(~nMy$^%5@?CbaPUK*
z1hpoUWSEiW08o|(EM+|?z&|*mW(1jGRS_V-HBw^eZk1<SKt)j*kX%hD%N>p*ReXP{
zN)oPu-6xsplpAea?J&TzQ-(82j!<Nj8J1c&_7p2u;KxOAlET1N0M52#2`$c9BdSsg
zAc<J3&UDnF*h;ss_A1zf1KyZHN5I=TVl-3-^cxtCs_jNk9pH@y#!N(fwF7X}9v7|F
zlMS@={`LTl%mG*4lJW5|0Au^ZVUCRt<UzOtwslx#iczuN@oh!8Mc*E8B?R7+dF6&9
zeQV-MjXQhDVmT+>J==fru9>P_DUvsjk=F4aFuj)&H|cElEJFT2Z_w=YtbmucZWez1
zy-YQIcICvotDNoMRj$0A1n7E0<?Cu!>}@oO?rI4sh(c}9=c}z;ZEI5*lwZV&LZhwr
z>SMCg!>OSJ-30KT4ERJ%D)f-Tx0(aI-vln1mQZOQ5mlnUI?a>Ez=FL!EM@?@4Cvb~
z23^)jsVUt#!vHA_Yck#=_h$+qds`UbO2uxv(W})vOqGT9=X@+Jh_De=l2Lpr)uHbJ
zY7kI(Qu{(pXeb<tH35I!Qu0MXV)8620?Cgg@<Oq}0v?pEixhA!uxg9tB(6ike@4#L
zfc`?|fExvu#H7HAN(~rHa7GA|q<}Yg=sh828#HZsu?anbz^lMe1m0wtVb^#OaNHDA
zkaAq54jE;kF904Rl^-;FIE^Y|y-{zG3fOiM;jCV=QiR+tz_N+w$j8|_+k_5p!nFjI
z>p-7U@8e`ipjD)&0$T#>YZ3olSuYpsZJ=9<(dAx_7`AX?!Xt(2jollcXVAO^77o@X
zc(;M^OcSm2CS_te^<~kFh?2hrz_+V?f;m+cT;TR`a@_7?z#-JzmIk8=FH$+0oyjmD
za3ovdGBPglyqE&`FTi#i!fL$-fZVzOA9sUN>HwN$1yQ!qB-bo4^*jJ;yMoGyD#uUQ
z2Fx~FG}Lev#|I5g;hTLpZD4b(P-YlOgnl&J6a+X0kmWg-3Dat@Opk&g0J>A51oRYw
zDscj^IZ0uOW+hM|1oXNzBVa_31p!7cnj8Vu1uFu(D93Zqn6P3+@giGo1CV~IFbo2F
zGE9SL!bpINGLRigsw@C6gvd!vx?O1i8IwRGEObVK&?H$INSlaX7A44+;Chn6j|3jT
z&U_O%VIWUhZ2;X02^0?u5E(VtIc1j!6{jVDY4eH-bPF=cuhmH4HQ?&BEK2iXdQRts
zvd}kDv{VHZ3Ip`bpyUV*C-RCS<IGUxf$B%Vc~0%9G>~E8<+E(J&}cA35;U0c8LrS5
zDWW$e=|-b1u43hkC^pymF|LU7lUXz>MDVIouhrND@X5%Wgbh>->#zdZCdPC6m^Pe|
ziTNzkfmg|q5KaM6R7V2KSWpG3!6*a_%5?>YA050pifSt=(}i)4mw5OXSwhUiRTSZ+
zh%6(+2wrFBKMa|Neu`#Vut=`8pqB7a1B4$h)0F|>>xVrC_+Nl(s!pnH3V__)paUH(
zs}hU|AAN`Gp>@D(3v>mhG4K&}VYCJiIyF$Fc~1<}50Puj3eCtc)`3ni=yfYfb?{gJ
zG4DNvdDzdu{P4>#H~bjP|Eh5R&oGah&j~*Ob6o}IW}kp(A3Xn0a0QsV&21_<VJ`Q3
zFqiuSm~Z|W_<sk|e-q;8;QGJ8T(AOj<iCOW-yX!H;hBMSFG2jzLY%*Y_&4DBe}e4y
zL-^l=-<<pIGNjEx{y}i(Anqk_9{?FZ4foz#5IzC70eR2!i$MA(LGJ$nZf@w;0BK%;
z`z;7Rg)lFqc?i${3Nn8gWXy5mtKe>d`v~Osqj3EY$SXj63GOox{}i78Vt$42zlHms
z203$l_&-3L+mOdg|L*rC$m=hmY<J=L6A=IJApP7X@Lz-9H^H^QeGmM99sE8H>HZ0x
ze+J^rZCrg5{O8zh4cz}Ig#Xmv{M)<u3bef*;yea(do9HIVMy~`m>*{$?z<57FVM~*
z;LjU_yaVu?+X{XH{50^q2J`O*q<b9FzYbx)2y^%kK)F8-eoa_=7(t#NWc?P@>lV!Y
z|LE^vJp%IIg7|aUzYXh=_koNdl;;TI{W3iMKIHXhaQ~0s)}X9Iknum@dIsOik3m`*
z?q7xWS%q?N;JyU;{?WhJWxk&JAjtbyNc;bS%z4;9LRo(v%4&f!{RONCeiQ6|y&uY$
z1vwvtu>T6z*XHGiwDUET9rF1$lq(O{7vTC7@DKhj-2Wq_xd{1RhxNq|0|()^pj;n@
zJl=ve$Dcs@14w@c`Tjk`t%95(q;0@D<>$d~j=i5_-sg6mqu}=?s3QX0iFY8)9gy)o
zNdGGk{=={~`xx*5l%T9zkmk=I&pAiopTo5Q^|C?yIlg}p@?L{FeGuA{gfcz<x8UHq
z2KD<}aJL|y1KRRq5ce3?hllW99)<89f^z*1<o$X0jc7o|&qDkB0?5^Ze+laKPtX=G
zgWMHxXCV6qr1>e3@mEmBT_~Fc{AGx95$<1w^8PoF@gz7O`28j1G5;PafBPTnsq<c!
z75=P-z;jxY*<$f8IxlEKL8IGd^Si7Dr^^=5I}HYFFtTLTx^y;!)#)uby>^#<DeTs`
zjT*DgrHcgp7N6PT^hLEcgVF3=(mTzjki%iIn?9LxdmN4>gUhmFHW=-Yk<+Y+SgkIj
z%V^hnEq06D>oYFc92%QZ8?-vWcBs*1@p$bTv(p;!IBhnQXE9^37)>UP(GWA(jD{tr
z&SG^~T@H^~uYHbiy3G!^?xXhSR`knmhi}DWT1h7tQY#kg;&LEq&+1Ka^ODhKcNmrf
zI=gPg?DkpCJDfVhd0WhBHQ5c`r~MA|`4ywvY4>UEhEBwD(crggeP+Af5q~P`aoZg$
zMx$}rYB0FW^YX7m?M8>mWwaTBW`|kt@|ZO)m(ilv_|0~Q$*T8Rd@jo(6fog3In8?O
zlHcVp7|eQ$!Edx#>^i5;X13WqHkaA9taZC=UbhvpTUarftbXs3{aH;ou;Oq!{Vv<G
z&1csceI}hXq+ikMtOh8r!;y0NZFc*z+qLZTJIy+W#uD_JT~HKnWZ7!E>~yafohDPr
z=Dh5*ESo(ByIT*|9!(CLEu{6B9R`iVYqME(k$}c-b6ac%`-;)#@)~?lK%2>CaX;qr
zY1~2cg5#22XSJHWCZpZra2V}Im(64}n!J9!$)>XgqZYT#x#IVjbnp`W?q!q37+m(4
zJuZD9u1jhxddG^_Z85sdHj81wsdqkSbQnx#o7ovOg#$sG`8nHS$YRzT!%H!*(`GUy
zJj)K9Qy()!m5gqq#byq=?Dx4yX4#6kVxbkI!4k2?ykVz@@GPkd`b!s$asMMB%W`DJ
z^EsQxn|83qWixIJlBQJM@7DjE&TF%pb=rz;{qdwe=uGDq<N6f5BG0lnku+RL`*Nww
zIfu_`@S4m~__D2rkk@UtyNsTYC9!1G`*k6wO|P{&Oi+G<W5wV!=*<DMD`pJ_eKyO2
zLl?4HplRWk;I-L}KAS$Ox0-Bj_(t@0gVm+?#hez0-)M(lgU4lZm~Ae%$Ko*RECIXS
zYL15%?GE_3bZ))g<T06?2D{#Fa#`HZy5aptEgHvVOK|?d*)(2@!)4T1oet}Y&h85s
zO*V}s9JN{f_NVQh#~|k=eL%BfHJLu=(mQkuCXdl~VWFJSgraV9cEx8t_oT19k~C@b
zm$VC7P&4ux%x<mAoeVs=Xw-)+bk1(}>0It`QtMdq#(X++;F2L|u|!Q)&gfrW^yf99
zz>-d<2|e!i`F++)3ybm3ExQvdk>GQelA4gtw(Lx~f70x>Uec8HArpK9j-od15&ah*
zzpM+oMg_Mm8+K+F{3~HCSbQ{lqB_k*zdezr-+OXMSV!VBUz%i17o7WnV7(owEqr+4
zQNQ{9E9PKI6Lnl}JYEW#yzb?6*K@fv(&cVEm8tXxm%r}H)*ZI<&k5A`HWD^KsiTXN
zr)$RhyW5UT)_m^cqc%H<q1Mpyg1cZy`E`1&CYo`%yk7I=Wqs=0LLjV91}<GXuL)}H
zm)z%EzhLuNFKH|Ku+QpqIup8(mk%T91w+sygYk02Zp#?*D}fb0<~9042F*o}E0rP_
zE&iv>F8iY2uUod7eHn+|u3faat%36kNOUn2_nH<oUenXhc%NDdn^v?7nw15oH{-RK
zJX)7G>CLANMwgX}y39ed$rXueohycb&kT*O_n90Kv-N`0ykK>^bSrMV!DP3YHD-s-
zV1pl#N$>X>oi2ybX>%C0T3_6dF<7hyi^=MYMVuzH&*Zj4HYT&lZ%aV$XL33WUW?YH
zy=Z|>$fDJG+%9X(?KZfaMyFc~odf*LJ^E$nd(8%oR=Ws2h{5eOFGg%Go!jVfyPd`r
zyUpr^-?}ld?6SK}eyhW9$!N9fHAb7;=}lWqUZYz(9}Aooozdj+2VK76Qn;#3rdPrV
zGjxD4>t(Mq;(p9}`RA83%L%J5xajceW0#y-uipD1%SW{<7oh3N7h_L3po`2kBL?S^
z(ePY=T#UJrwfG|mU3@tLM(6!un@M9rqs5}b;ISE?q;|8xY;=U(OL{ld(zv33R&NQL
ztpVer!RpXJ4fGD1Y1v`3x-9mz*?Y+yaOeUqdmw0pMuUFRW%DF#HlNk0OBI{}msw}9
z2K)hYNawIYPj1w#xcxed&F#^_fMJ5((_^*-9U6zjuCp1PR=qZ$*C&lOv(93&*zFM?
zw3E^82)d!0FuUzGXn(8SW%0s@qJbucPDW?+LeJyzJZtutoB_X4<MHZE#-QD_<h^J%
z2lWxhf;|AeE(p=s^ahQ`y&SUJ7NLJOIsFdnlEb~McLaUrMeDN5^cmNpCuDUxV-}r7
zXNq`YD;AR>>h;=^=CBn$Mt96?_geKvOUPi>I!qQDM6+464s8g&5jV7*anWls<ZX71
z(d06jBSx#<YBMZ5oG!D*ruCSrz6%b$%VGC9j1FDlyeDk2x=kLRRhx1>vaE+0K}@UH
zE?ux2J$n5De2tE!75zEA)1vX@JXO2dwDc5=#-@z^iOY-6IhGwBlY2faEd-o)z13oJ
zueg(+@LC-{r!TMbUd}mvNuw`f4L+lDx`I)w-DCBHj8>-^W+5K<0XPh1n;z=oGFWs$
z7=f1cHmg?SvYT>dGkpFgqcvuN(a>pFarmMAY<ic)=6%+#bGR)*m(i+;EC<3C7zI7f
zfF|twxEY4dK+vG`IyKO_drZrLOBQp`81${UoMwyN<y_Xl>s<<27u*)hvc(J|aKvfT
z*}O|8mpd5nT9@pWk612v0tTNaWzbuVmlMw9vdv(LyM5NQ<_G`sAM2?m%*}op=3@T<
z^Ue9XAp`TapNDz!@4>u|hWR4_VfzsF6!?3=y#sMVFt4-19Iy#t^YsS?{yztEzW)=#
z4j>Io@!oeHTm=082gv^yn7jTS%q^b)za5Bw4*b6lb3YmG;}Cxv{67Tue-Hj<i2oxX
z{~p}`9=LyovRsC+b?}>WK~=#|3u*rv^7>~;YX$cc;Qt5k`~!&lqfm}7L!9r!wGMI}
z5O?n8yjAZ)y!o8|MQ{!9i^28gJZ}j5<9T{W^A8~JPe9I3z<m|`=4U8#{;!Whd=~uY
z=NgMpmpPC7ysf?k*B^na584Q*=ihr3+T{g^kAs{)g*5XvTZj8QknRl#{|#_of%|!0
z^EF@YU;pi0%=LRiu3#~k3<0rU8sCqbB(#Uiv#rd~-QNwRmY#dYk2s4<0biixG)s@t
zX}<EIE$fZ2OIz5`geceQg@wIhSPXH!o}A=vQaYx#x&Ukab;6O^VJnxyTFxOQyn#qK
zAd0Div7fI63PK=RBr~C45UK8$wQSN{8&0t}<zAd99BxAxdZStCo4XaVJ&Pw&U12?Q
z{B%FW4TrI^bBSdy#reX7t=BpTU5w8P?(Mew)0teO_T;Dv$JD|s(gJkExy0F&Ue0Ib
zz)rDR>n&jVmBr%vCC(bAc908ty!t2!teMYtv=zr<d%(2^g8YjYpU4HYH)+)v$=|sU
zPqDL&i>W{`J`4kW9okN=@R`a~J(sAdY`o%16=qdG9EIB(l($FA-3CQH(qYy<*b%2m
zGaF0gJ=yaDQbwkEDz;j23QR7h%TpK2sc|savlP;ZMb<|XPi6eBkh@3bJfUhKx^mM}
zOr(<reeoI5*6<OjMFSoqT;Z}k)!HdbTh(}H!CMWW`xTb+<tn;3TgXL~D!WM%4xpuD
zLOF7mlyrT(Vjcy_3ijAyBj_S4L5WZkiD)~BlxM8VCxw7E`LkkD$D;bI&l9cWA1@~S
z+PvG0O2KfsWJfQ0L!gdk0~NPuCa?o!&ILB-tD#9TTmnrZUQ8xBEZQj+ffm~EG+Vc`
zd_&lo7X8m@+^yj5&$K4jl+Qe+cMw?LaN`r3d?z#+#p4F;`;$zQ^V&8-i_hKW*uu5;
zyNOy-iSi66PB(@{cP9B_iA=XT^#pdSo%0Q}D}^G#Tgur^v6b~aV!D7`$%K18#8zvV
zXN`_-y`giL4n6UZDY*nHu7hc=_KYlEGt#abwNjpJU-V~#MYC?XlwZ18xsXkD;$$bD
z372JSo-eWXM5wl0k4f>2ClI3cTbhV36ppvL$)$2QCl$<-Mzt*s;aF#1sg2~$?xr`t
zSMxt(N8?*&W(b32=Lvl^kFGcS_&9G@r&lsT-K5nUa=couEs&14e=1*|s%S^ayO
z6;M^HQ0wuH%{Kc&bE%l}42;(!UZEAFT$f!b1F&g3KK(Lv=!_e6<|~hn&r02c!(T~-
zY5+{+kY?o>fZnBvM2*e-`9~wym2M>8ZY*!Ci$Qfx+?>VyTxn5TfHOeU!+H&h(^`__
zqjY&<6g+rqF~|9{mPAb4S@GZ{cRIYE%~+B=%_i;Mekz{I66IO}3pv|>iL6qIZCYvj
zv8)r*7c8~Q1+H4)lfrPPmGmk}OQm5$>j^5VMezWZ9Lm+U%aXa*A~V)JW0mCsRRemU
zOa|FNs4K;gAE{0i=kUYbcqB@3E>A=@d2oEWC?SKT{BAW}UhQOZ&lX;1DnlZV0DZ_W
zOe*eXQn|q8hjA``vcWu>5F$C`VpC|N<VHj!g2j5UWsMeHQ?EX}Q_Hy-RI5kNd-;LI
zV5eCZe#LR0`&oWgwcvavsOHI#R^z^g<S$X;VkGM+5X+ghbCe^OAC<%(r?RDnz8?)~
zX06~>zA#~$xoFX7L#i3EIBNDMj%tWZqk(+QyByUSs|9<DY%Z~F_cF5cB+&auF@H4p
z1Zj6EisPAf_SrpPdvs8_R>_~}hr>0Y&`u9>?reYILb8LE4>N5~)%vKD@RN40xD}~9
zjU*EB&d0tJXbqmRHC3G<BUy?h>4=4+ReU!|Wbs7aD{MO2CQW5XrdI7h-feGNF3fC&
zcqd#eW#hrJ4N1pKu4Ia{q3uedh9&)lTjH`5KSG8i(RW8O3gLvk>T+4~u${IY&O^7!
zZNCXE*AXt^+VJ_gik(Wp8EzF3DSw)37;_h*vjCm~$VGX>Roc0<k7ONev2&$@7JSI$
za<^3k(+*0j+s#cPM>kJUnTWt)fnxVnQ#5SbW>+z;Uv%yT1I#6UYVozfF!#m<2OgEo
zf}u+n@w%y~#Bfl9SWAD-f3$%z!Ai-`M0+_d7SM;nJKFli2AMBzXG@!o4v@x*pmAIo
zMoRoFEM(v~bGQNLfdx=%D%Bc0aTD;|MvJQ~>v5sAf`=}nytZbSBSo{~j-`SHlZ=&X
z*_CoRUPDY=$$ObdyW{ps@0b?*<xscM#H4<*l0gRcOe9xMC#~6fwla1STr?Esnzc&a
zLDbD<J&t-WdDG3JU#zCGEq69Qq9Xh)T{yiim4Zra1$A6Tdbkks7*?4~G;Q9k46(Ay
znXpEXFsb(xcCz8^WJQ*vjE{|h8gf!wRilbC*RJl84s`36SN$ga#Y)E9M9X@gGZi;d
z4bTu?fD^xPAd;%OcsBq$TFs^$?=`&cWYHD03%QBESaOZZaDv`SrCOmj)eN*P)Kcw6
zzRPvotHn;FkVrQequO=Uaxr3zUCxn+ns&=MuUOOvQiwd^s%|y&Ik6eYY;~)pCL`)&
zQMQylkL|>e+XCO7PUw0%OyP}$)68<TOcydCO_R(dcZzhiU(QTJ7R(vvqfOLP)7x`d
zY(NRcPK)jj@(7vmIqln7@m9#ye3BmKV<kj)PR_=VDQDs6bjodXg&UP-Iof1$RGgTg
z=D@S`&{ZzUb<->HZsK_6@TJJGVt(|KscGt@VI-ewD89I+<Iehhu}F1ir<CuRD2^Ox
zhQy66CU#-{3(CnkeJvGc9JXg8!E4h16<~a2ZSkh>iCT^Y?VQ@pNd7dqgo<_!FYMKc
zM#YO|`CMj!yJ94%J`q?-3gzPKM%I#v`-kB;(X^F1Xs}Sq7Sw?+PLD;7EESTp&?{$R
z@c@#Gi%igWBoXCYoG5sh`g12~w37dnl+Oo*bOBFJFW8Ea>}b6l&2s#uTE&z=#Q<op
zCx~|T@+Rh~H-&Btw9&+1pafb!R*ne;5DSm=B-)r~k_E|`%G8+BYE#Zs%SsOMxGK_C
zWw=>oOG<}MjNq^%u7pNRWHlOzI9dv;p~VuycAtofrd$(;&tBof=YiOpC_h#;l{m>A
z7<g0qEK*r6HTiOdSPggzrAoP>ptWwVXmTUt#oq{CpN4bk(yYV^d|pY0M{nggtKA1=
z-EEDfve<q)V(w>S&PqA2jXXY}7n94r;;=k|4qM0-;=?8rPZq53t4ik9CTyzekKhR(
z;sO3#%92dAd&bskptEC-whfkO`^x`b{D}Stk5|hz9q8Wiig~xX(z>XhK9bD5Ozb_C
z&-H9itDi<`jm;aEI4S+`sRirmam1G><|dzE%K^lC(V?iHr;$sEjq|O|2p`Igi-(wI
zui%7VP0hMJ7W*9OT(;%2Wi}BDmyY9A-cxoWd1ROePUpnNL=@o!%Sds>ta)u{7(}<t
zwFcYa3>~m4k;$oelf=SkwVEt%`<?ZkXm6^;E@8~NdtpP0D^mOCD~JItI%-`_$*0>W
zb9~xhjiqoSn85PkvYw4OF`GT2wu@yM2~t*nQj5*1yV;@@F_c2>*nyT#rFtH10j)0v
zpP-FQ`CcSMm%YAJv=5aY<&9^f27;#O)aMHb6GD+@un^F2U6_8%0&#Kd$sx&z&~O$3
zg_7XHVRT59>w6pJ9Xy{ckQSkC8RVlTcMz>c3Vs49)RS(Gu@$V<n%BO>Y7{^J!uWIM
z!ow0+Mvz~@s9)7yB5l!MVxI}prsZ+rSJ^DTaMg58T6uzvrP+3DL~rCj-poJSC<mWd
z>8kcpx*_+bkBgg@r93I#u~il#+IX3K7%dcYT&l{ZEte|^!C%h>eXZ3tngeY^x|k)s
ziE65pQENUY7WDy1dW0!b*^!&rDw&<xvXa2dy|r2+%|@*CxX`8I>5F4f@)?6-%vuIC
zQmJ%`-EMj#o8^{KG>>I`Gm21=@Svkfs}(vEPm)DfWI0RXnp6y50&VEFzuXqiIod$t
z)u`<(ttHxJ5-(C4HL*}k2g_z!lZ@`yx@AkC>wPkw#tiJ1+LR5c)`)i|Wh_>W`Rfse
zizL}b9dC*VSSJC@9p~-j-AX8#_KIq-93ptIP9m#8Iu!RIF|)^L#(^il%`aNR!J`IK
z^5FsJEYk6r(FE3jbrqe=uAwocou(-!g11(}>5*6f)p0Z-rmF&rr|Zr}FI81KOFYL#
z0|gRK$|&>%TtO_P^YL`b6UPEFW%8HmNhaU8m<USYRz3#D-L_1ebdX73RT^q<4K5<+
zX!Qc&NsgPTd^#ZZH=@Nb7}OEESV8aZMOk-u62R24Ul?G?cHCMJ56WQB#F_M5V#9(R
z$y|-ZW!bCH`1M%ra=LPTFNh~{v5izfA1rxU)5D7?A@GO5TvlCQTu;R;?RN4Y8h1D*
znJ8O?4a0$0U(GMXjS23_zIGOhr+tF>DY_9#@|Wr_pgZ=eH~oZcn?0>h<-O<~i>i@J
zR>Iscrrlli08Aa!EUVf@hE5WcPm@xeLHZFiB!-;<AD9cyS0Yv}DBCe>C0H!F`JhRP
zirHwsoM+mryHe}1>7@cM7WhIi=gWq$e$9t>aU!yauwOG2sx7g$T9f0TCM^asWY(0R
zolJ{x6=GyDo<<Nb1C$ZTbljWFOFay6OQCq)iB*(zh?fvClFDI)PN7GjDT%KsBv()d
zS$A}sk94D0iW2SEb7e&Dy<FDkjqU(_L6F?~0kVU}QXJNP?9zE5kr9$h7sFO}OCx9Z
z63;dxK_8kavc=d4#gh2297txW#YujlyY8=NOxN+{Dv5a}$E9LKYFp!(wEmR#%4ign
zdvaYz$`N;?F=q*A{#|V}#Kd)cGB0q1Cxa&XY}QzclRbZxZAN`!BU4%swo6%;SO!Q%
zaVGNwpOVGxNMW187QCT`Wm2hT`IG}xB7{bz9AQ&FyyyrpS<o3oy#<b23)u>6V`!8!
zUL4_q*+dXST%c#hdkCS7<T#HTYh*k{u#^+7I{bxXmP`~VVML?NSgaVSC(DEz_itKs
zBqF+2FA8QVWRsnlaW>&AHR;{~8SRII96bnC(o_o}bYxj7NZK(GDV3bXcp$1s#$5T*
z(j}~wbR1u_fKp<#IVddUx@Ej(#xhew3(Ml(sy0%LFgF=GP~ik>C5xlQ+SLlZoJk5B
zuJosjV9~?YC?rA*%*A)}VeHURAWgH}V`T@WJ~Q5QSUVDGa~1PXHNDHO6p=4@-hR4D
zRw_>(+4FjTal=@06_dluO<2DK;vsvQZ6&LD8qJAi#e<b9O#{!4RXQ1W<q9EBBQ;`V
zn#^>PsDc#3Jxw4-L~u_Gw{dus$s|;ND4Y*8thFn~U>wY^=zPA6F=r3?M-R3?j9e=I
zR@I}AC)AB>GmuMYDF*hnQ)Tzc#m2{&XW>wRO=u*#dDj?XuK0L8d`LT)luKGcXL!8p
zaK>sWU!hoyKkbfFvuvz!XtHMg6b{DhV4LfGUjcUm_K4mGdqhvd6}FMyt3befZ)zR(
zk1XKoaK8IB*rWR{>@PhI@#Z=VpM-t35?tpT^>aS;zlQVRV@LzH@0r2Pby>dz@_q@<
zh<^w6u$r)E^}DcNg+Tlx*ymb@^W8Zg`IF%0cJ}VUb$-<TG+gKYKL>*T9OQfu;(rii
zZ9|zhA$%WXeh}{GT=$QFe-ZpH|M<Vx1@^T@6(p6P9*x?!lS&Vhvo~&?3}r@Qi%sPl
zD4WG9{8(@VkWPG(^J3JMgM9ym<HQ$c!q*z&8)u!vbrlSWx$5|yLouzg8M=F_aAP#i
z^wbzOS?%4G3Ry4$w9efwsGaup(cX8QSwP$LJ=aS8lUUs*o_;lsv6EtEYcsetEUUL7
z@<ChSnQiSuvAg37mvaZ1b$#))kQ^L$@@G@DiFGFowV`eFLu>NI(s5un=1&*Xk+awr
zcWLV})jG|#ZxtgiqN{Yj;J?~;Z+=O-fo;}<wFFTQoZWb<HK~?I>dJ4P#sj%E`gi0h
ze*ao8#F>zr^(lG#=(v(?Ia|ofh2HF}5Kx9+xsn{nFY4;A+!zEesE6fTvLW?r`5iuq
zp=M#@=HY3!+7HrqpXhB$!yU22U2C_CuM+Kz<mvG}Un-Y*>M(=C(x&s-TK0)YPXXag
zJbZI=wJNAd_K){=cCZs{bGr&mwP37UEPtNwY*x%XE!-czP?8R>1oF9#_=Qu@n)JSN
z2fM}X4mBrAe<NPbg~#%$QX<=%SCjm$fzWQt)me|lCw=AS1fwdGq`OziA5+<hpS#j)
zlby>~O5yHMU8$(+N~r6<+0*x4Q}?+<b}%|uyG(EJ2tA(0dkXa_?A38%{oAeD1?;=8
zssG7+!II6<r5UC?$S$@IZft19{PDrXi9z^vLE5N)TaRPdH~Oa=$!}bH>4>0D-e~a|
z&%-OJX2<>QmDD}r`^FzruI*d|uy=zc+E@6^*<JiWa`zqoeklL;OQ#F}1%ol4KIp$R
zS%2D!Tiv%#YG-eH`uY0mPBs^=z7^S8d%jt2eZP7~9`gn1spdMeG5-9$^;?m?qHcyz
zp4}+j29t>G&90~1ZePt!9x8Wa`~Bi;wlBGKK~1^0p&Q(?Ag{Pq-zKZ=!QwA=jU8X%
z@#x;rJB=o;wr4x(5k6EuH_KM`2+0{2>-|uTPhbf0Di~L}602=i#@=W!xx1>8YP!Xj
zKUFN;_TTD0aAw|p@BqKbUVYxu>kXRQkNni9)@?s7Pso#(kBaxd|Lg=mf1~q<bPyjV
z_Fi%R&ecY>k>bBVF6LU|)+k)9_{@WtcsE<l2<uJZJ1=bEl(PQn;o6pf;=97r4CrtA
zSnk!~UNct#TTF#+!MoF7&xW4fyZrb1YQEDst&kQnc#JhGgO`!pucT3mJ#P1&-{)gg
z^3G&XtF=$GzeS=0%bO>iRG#4u)~=%R>`rexw5mp@!ery<(ZP896un*ubTDEt&Q-|$
z_`X^lwQjx5ZX?#-t#*8X+%9Fz(^h@EUD#9tFRqr^@V+(IcNc!+_O%yNyP4!i9=54Y
zEYLB2MHYg-#o8?Rtt3ahu2eUqZP?{l#;+21p%HH#AGKO{bHRs{S}&C&*EZUFn@3c;
z@pAG-<i5InrOhAH)1!CNou{{Jd3IEio1TK>m4Wy4PCU(ZWHZ^@A0Jnxd%{^$v^`&3
zzN(CIE}y+QzFL(A{MB*dKB&OQQ>UqF<D^rP_G%`k6HY0;11Y^ZiQa^Xd%v5jHD7aF
zNIDPso0ZGitL@R%cfYyRju@tu(y_a?e*PZCZ#~#)y*;s&+rPaE_J}u5vPsa0a~`$F
zu-n$kxT=%SYze<*9Bkh|xH^50Nkxlv?b^vGJ-BALm1EdQ81$se;db^Wr><Y0AaziI
zP7J_ioJ?&4(KC}DtoNdI@+)ZLO?10y!N^_u<{6FTbKhtjDfvyQEA7#xonEJXCv;ry
z922j5>c09QEx)-i^oNnXRK~LIbTq(-%JKL?)lOuxU!8Eb*x9o-Nx#;<*<O2QyIoJ*
zNS?lM9RD@)inI$Be43L+<vy5uydsFYX$km$YtixMY`UM@C(%0I>tB<6@msG*a(pj&
zrk;%Lg4%wg=F8}{*}^@E8`RPj^f31P#!Ir7#oN0Nx`UU;zt0G%+Ra|S`B>c-5yTzn
zR;H7*l-oV{J+R(s?q}4yyxw*1!I1CYYMl;RvGz4zV^ozVU#17Wa2&lr9e7Fm<8O9+
z*N>3QGnAYi<`rhIU4L+Ty(!(uA@|#@%Z;Pn$uz{ArW*|aU306<%~<g8WUEvCu<=@V
z4Qwr(A6w{5o;xkM1b<B3E>Z*Q^Y?pi3;Eb@h{INBuS#wY2KD-2*T3)6A-Av2xXvNJ
zeywv{8)9n4c`tuT-0a*yTI^c7eLdR)9y+X_;l}Lg19USRtIfcG(T(=?-FRIPKLch+
zxxz)dcjv}poz53)(?Y&Pl_Xk@Z*B&BTxZAcI-(^EsiBcq-{K4QjrQ$(Pv3lPU)(z!
zT_e}`uBGoNcPq_0(nH5&1s|QHTPb=#t)jE>)=xX1yu%>$-RJLU)E~TKktWq^ww2PA
z?eA)>=Vo7Yypi_5@m1=TVcTPVb2MI${pWsMm4<gtlCA59Q?A)OYOY@g=Jc)TNN&?$
z7NEoi*xK>9^WbV0(5RV2eRMC^-TbfQwdcd<pND}33n0TM*(+Baf;b7^=%MlI3Z0xZ
zr7OE$WO#kQ96VmPe(e|r*@q{{E$`7Cw1aPUsxNn1+og77ZEr?!C))u@$c?TaUT}Iz
z5otxf2-^GOE$r*uGEn;MQB#D$BFt&6-Cw)4zCnDkLq)CAR};+Sm^gf~+r%T~g1i@g
zfDNHDdg0Yf<EXrr(j8mr{PJ&xwx{FCxlK`VZ4J`EqP5RmzrKcFT|b;8P@#Q@v$MvG
z?dN-g1Xmu>bPr=X`%R*Q?jCG#c(Og7a-~+RiZnXWEpKYCzr=3tA8Bi6z0c;o$_v$#
z*=xAEdHuDv>j&uO<ly^wtxqE3$^pJgv#Z%eJ5KFwWbT#su<2QRuU^{N*w{G>6Q@ph
zu&O;;QKyam<XD{X$@Q(y8@d0&Yum++Uz#Pb>w7Q8za7z*9{<Mr%P-eAs_;Y4y!6W2
z4^mI>tggOwsCz#5)|a3DBDPtLdRxOwk1v%r9Gkm=t4Mr(32!lutzT0Wa`j!~VReE`
z{E>$*Cf_L)Pp3WkX0bMiJm1ai*j$#*^nS2BJDCti#QqFGcYF0e9wa7y@*e$qK%%$I
zk+VYQAT>zdpf)_k=JUfld%>4^sc>_qB-h@I76---RYkqQZVZj{8{_>u-~NSNZ{Vw)
zu<w3UZlO5RdPv<0JBHqC)G&7EYpcfn{gY;T``z{DZ*lze3l;newN|~}Uz#R)dAnSi
zo^(g&DUnzUg@wB(Jr>)l@2D~!-`jlgBEXfub=5WIUi6ET?ZXF)rJRdMVLQ=i<;od%
z`a--n{l8!z`2ExJ(HD-Bv2FQuJA?Xnzotz7GOKd78^qW5&*J?9HlXZvBK!3_6n{3_
zqFFBY=IwAkfA^}4-3{#C-#=B)T+dVLgSG8YUv0g1Wfo48_~5lYb|=OZT8BCO;H9#Q
zADlmRL~3rqGw$MN>vUKMzHnLBfqj-z^_uaGnbg{xr06!&D0{CB1}xAnCCRM^-1WFB
zm?N7nwY&9xueSwIhgBxo-@CE*Vl^<D)u|r8e|qmMM>I>LN%43y#H{!9ubS7(cZD#W
ziL^|KRqiHH-iS1de0pWJet2gGAq?j`UrklG=I>@-A2iv~;r+En=^}P;>!tY8&fx3R
z)nclfSlmBu-afm8)-(BMuj9uX5<A$n0?~GNLsZv0!>yh$sB^oa2QUdh$U~1h1EXVI
zW@qRQnL?uiOHH@gH~0?w%zg@$dV%z0Es<;pty^4`*~<F3HT5u_Oq~JBYJ#9#DvuKT
z<?&294ABoO^_D!D1k#NE4wbI^d+V7akveQ|oYfoCVkN$n>g{~)rR+&E&N)LquGKhV
z>N|aOHjQbjH?b2i{<YrVGyEFc?soRNlQpvTW`&oAoo0Jb#WrR~$Hg3aW?5A_Z~l_V
znK!}OT2WT3DpBv^o8o5j*VgwBhurJ6dsgy!tnm_<XM3Zku1S@uN!n>zHXHqnG!36k
zD$1ydz<^oys#6cMiFdD2Qvamhl^?2s;m%CD{BSb-h^&LD<bL*@JIZRPzpHqH&DBrv
zMSCRQYy(e!J{d<^{g+m&TheCaM)|&SYQQT`CNA7P^_v!UGB4i16R)nHUM&P)h`Z~S
z+n;p-Ma9j?H!Cw-xDvdwi6t@RW7Xre&FGF=d#iButA(`&A;xa{s+IarrtaX|RE|hr
ze7nPwYsp)msnw6F<Hn0Eyq$hE$@aOoUElZ;kz?$_JwK3<v_E_KM5Z5J3$><&Pj$1C
z%+W*^o0YYDy<BbjHpT2trm6a?vGV;uAxIw#g|j>BgUqh-MvMG{c>PR<oiL>xuG=ut
z)UYLn*Pr^zwat@~HSp`FuC3VK3)2JcFJ9fhvHS4NICYkKDE8N{yk=#Io**}|^;)<A
z466Q--0D1_cGl@v6K|JF_e+5nmF=DGPGZc>I+FvzRad$84m({h^*Yt*MpcdjFS^(P
zB)gjM7T}aWuXM)kRiG+tE2S^q>0Fci{RB>by^+4juAY&v&cKRf@0qO`lQ#F2)y>Hr
z-O}z@@;A_ZbZtr`J>6N1J{k1~yGPOe)jG9ra5lr;M)A6GyZc9<=PIq5W`e&^**YGd
zJ7^xZKKe!5t@QJ6emghm_I<O^`gkSVOT~X>)$vJwed^-3o}VF)B~az;gXlv-n@mlS
z-LZ(~*Ve{>o!%H6+1isGuvLe*3yN|gRJXb5+Rg!{e>J(OoTyjOo{qS>dpPNL8vMuf
zG<MXa0Q|U5-<I?Bn!6u8DBz#nW8S&8GK(#B*H6yxQNz?><?Va&O2WQDxJpXM44}E0
ze0HS*){$Pm$#!Sbezm!Ar`JCjTxR!2zrDe5wJGA5OpWE!W_fL8uZ{s~a@A17Zl#gg
zY%3oe`T@D#SFW5Or)rmcZtq^Dwmq07&###eZ(}cA@pe*=eeLkAwKj)!9{N@Ctw8zZ
zS>1EA`t90gKR-Msg{vJf(u(AQK*2(%H-t>Dwsl$%(y`O#NgT-(TNtKt!Bxp()G=$d
z?C44m&3Bx8&pQqWH3{H4>pf4Uet0@NxHq%)iH+<;d9c+KW`iX$pBRr1q)rm6ort04
zYVv$CJ>iSN{Zebx-{UcPkQi+o#9oZIxycyW+`Ijmqg7)oLEpe!hWx=`mhfx5XyG)^
zSEc;Rk?q2O>mL^Rdv63%#KyYPZvaoCP}%-mr6V_ctugLU{nLd~`(zKDY{_`$(v!kY
z2mfYq^-gG~tTg(sD;q@SHdVacWOiQ??ljjaw$*wkIulusQqE)dtvl;$q^|}CxYzF}
z@mcd)SGhZ-<S{yNaC~I9cWeV3WP%U&nzxb!uoq^x<MCdxjb!r8Q|@4kjko)_1<3vK
zzkaTpeMx$!X=IK>#&<RBzOUT8nb{o^Yvbv4K2^pGOjCKiYQidminq}qo+?!KANumM
z0(o^HyDihZ*ZLcSA=5i5U4QjX@ubbgT#@VE;47(Qm8*R@x>r5M1j_#wvKvSDh%X&~
z{Iy(@45yO#M)Sp*y-|7eTRqJ?J)!bW?XSOj=xHVSqmUv$oV@g)vOz3uFnfnvysr#H
zLuWha+mgSO2<;b?YajnSv1Y*1r{uWM?=BuHYvrcQHAZADx`u5HwW_S%Zm9WJ5Twlu
z%^s8K64uEJ!3PpIV-K-VXMJZ^2uJzXqb+yxC**2!@7j24Jm7};d}-#qvR;}^F#a8K
zI6&e%CT{%r&P_f(zH%pg_06zr>x#Gu_B4aL-Ri{00!3r@#agaS?Zz@|n{}l)QjoFc
zP1jbdlni5OWT&d7>C*K<zd1s$7yZ;QQL3$9!Ml>Y7RVlSsFT~hN$K3R)8|(YN6{UQ
zFP<I(yf3l6Ug`bF`0M!Dz5H=lE_T0c>2<(D-hcYUzwKph!2Z^+!hY6$z%hIq_Szia
zz6pC>e+B;U0Y2ov1D@imuow2B4}pC{*kk+NU%mI<uYz9)_RelXoNvM&*&_IR0Jt6j
z?1T&$_xV2B+<xN-;(P$yj{qKG4`hA>_T@eavOWUwJ_QPO--W%r!=HHH`!LuHY=WE|
zq}zo!e*=4XeRw_t|0z6Q0UXB`l&cD9e+c&UUIy71$aohv@_rol@4O)Ur$N?tp*$P#
zd=bLG0{Q+O$TmXQ&w{@O(j~zE=fKYZVFTD}oPzvc1=(+c|6c;u<S~%>FHn~`rsk)i
z3^dgBhv)49ac@95{%;5$K>SxA{(l3v1lX4@#8+XD@&AMPAD&+!oB~`)9@^ty0Tl8M
zl=*MK-v)b@bx8k15btfM=ifnjUjdBBcOiWn>cK&r9;E#$<ahm7{_Wj-9pY1TT@__s
z1Z&21Y@<!o0d$7LmU*4*@L+aTlqzKjFu#10R%oHqBb&Ie3gEoCxo2!u;VN92Rhxif
zRO7X_++o0Gu|TrQLQ`ombwNIq3w2Bs2mrxxWpFZ4-GBg5fHe``s>^k`M@YbKT@YFT
zm8{b(iD^p$t*}j*FM?rp9up)Pmjy5vt;kZ7k!3;w6e&&vEbu!rps?G3a_-0&rQ+3o
zic|Ct&?+@ZJlLuXC>3GBqN_?x8uc<6g8c$&)Do0Nm<D`tU!v-@nF7#xj3;6v<+ujc
zt>tc*uQu1D!E7Y;hCnb?8{SY3>aa5+HE!~2Wk4bVTARhEfO`ewRs*gn3Y3WAy}G0{
zQCb89XI5<WTR^7|hGn2WbRD=5*&=}W1WcAyN&$#q1K@!wFRMsLkVSxDa?GjFY{*?!
z6#F6~s2HcJGFbd85mKkR-XQ=qDN-^g1Co#j$giNFRYm~JWP?%}ut-SMS#iL32^tsh
z>QDwl)F_jKQ*^Ojs&@G%!w(3cS&$yK;C(2PIF%8Rq&QjuW*BOW*Q7e&6<Jw=(t(L-
z6#(PFfxyDThf|tOMgd!|ECKLwK;-lFEQ0}Cg38i>31+}L<{VouvdsophxM8u){o#>
z0fQ@DI0=+RQS1sh^!H2=8BwE&+Ts+Z-6e#U*kLFCKT+=iBukPW<`I%2sGtZD07VfX
z5eVQ8cRath{<(Q?T>CEH-gnQm_uhN&efM<FboZDZZ{Ixc_wBy5w|l$5;;_pz0Cb>$
zQ-A;gh%yirg#IBE!I-G%n#!!K%&g2m|IGUH|G?KmK5R3`{K2^27rO8WVDp4M)u>nR
zjrjw?crqNYhdto7AP{H-0;zP&>&x1LA$#DhKrR`8td_$*3wS%U<#=XKAQkio)<*bI
zq-@K=lA$M8aHc93aOASf8Lz>oZl^x2bHbvDt8a~Zoe6)!=Z=nZrCnPn<p+S8Hy88o
z`s0y&$X;=JlYgIZ#X`Qa|KY%$lvw?~gwvLcIJ|m&SzRnd(w?9z4V3Jtr|esX&G*^x
zk~tgpCVb$W!0Ul+t^RNo+PXjN3r3U4pxYY)!Z6fIB^b&^vK~*vo(Y-!Z+VLG2o$v%
z3YuJAUof2YMHCGiY=uq2R%#ge;l;p4f7t2^P8MK;yeSZirTk$V?A~=IJbvh_UT||{
z4ZxOYzt`(ac&z!D-xn-;!Gn(1lXaN_p2&ARX^0gJW;_5L^qU>w2~@qq1Vm*=(PoH2
z4g+ah)@R8?3Vx$2;aN__f(c*L?Q^@e8Bbp6D~F;H7nrA*q6v4*X1DYUMUOQMyRl(X
z7Ohy8J&yPwRf`zY?qb~I&VnZf4><TLe;csifIW~qf}wELo2y&xNl!nyle7m)u3ROX
zO!mOAE9~%PP2PyppGv?^X4nN@%(=?2`Fqoqjq3+-mlqa^(kXX1YL9NEN*PxoKLD54
zEtl1#-CPRAzWYe~w0rL-|6CU{7f0Urb1w6_^{Y=pdH3#?>76_G-+HhvU3xFE9Ge=&
zpPKZ~OdY=~7;a6vTYD*6$anqZfq(mjbNT(J{pY`Ae;&EJ!hZkbt%iNwInaAPP8tpF
z9AztAD>%K7EeY6$1<GJG0P7O2aY2!EM)JN$xs;9%9PR?_gif1aue?8*Nx)9<pu3#2
zRdwcoJerCd*5YnwJ{?cy-N~pU6p5q@u2j6YVRX0sR--f2^`|{ev)SZcDqHmt;BG|V
z>!#Zp3&i{;Pr_qJrNfyp?4*Y6*-2MU6)Xf|NoXuCOE?ajx?NUFq2x5hGWJL$<q4L|
zTCX#9GY9ru=}-wAKI8#88;%uy5zv|)E}I^tuNT~bMxcpB0+BFyoCqd8x<EYXiiRUG
z5UCNMR>xvta5v%%x+CCuA`VVcLYb(~4TdicPY?tRK-2vpO&|l3#2W~~M&m%h6O07i
zzFx#-in$WYfTDLt1L>r@5ex$8DG2h`AI^q@iBbfng#ZJ00n5goNVs7ic`)jU04+V}
z%a_2f32b7wg5#A?!QTa^E|G95;z*|w4tFe^0S^LUwL9{k>_*FpZ9l#okigK<2s&Jm
zU=65Nu42yJtmdP=HJ7KhZgIx#!>l7#-cCAQE}!276A5q`60&>Cj!7#Dwp~70*zAP^
z7^Bo`IPxWs>Q>7g12|W4JA%<sNDF>d46w`(zD<&5R~fP&k%qisaKfASN7F#p@#lT8
zVZ92V?NAcjA^3wakeVS+#BT*695~7Fn?NQyYtDMqZ&pS@l}=~lPH#An@qq7(x+kbA
zIbaXJ9(IO%VLXEh%z^xkxu6roy~aR1<^n02f^GB>aP<*MfFuYxgT7EK=mmGa9#1CY
zcY1w5jt{&2AWj2;;DQ%MaA-UUhbQX~Idm!LHsI70yuKKsu&QbI$6^t0GU15EBOYTo
zrL%(hM>-ibC1FQ-+Ly2-E~KzW>oxnqKTaTIaK@7<Um&B^*%CQtIs<-Y0x^9m5rY;C
zO~U9&T3vqF@9v%C{GJrJE(bNi=MTgp{&Et0iNu4!Py{>`#Gz<W7i`-H2Q=xR-4%;k
z!jS1eARLaw!_IgVv<h<w9vK51yFcrIW*1CF9dU3<6OEZN0aG+-cX|Jp-H0g#HQ+J>
zQXa&Sd(-D$jRynvbir+IWxOC`ExwA$ln7Qb>QKCqbijz}OvO8qy2<2)0p1!M2E2v5
zCk37jybfE%(MT<qB6eL8paB*qI3IAiCsDgE<prkz;DreMqFDWvC=8WOkX}KbJCY57
zy$y&~JG9s|SR6;<Rv2A_A*g~##%DKNbd*2}%u*9UP)u?jZ&(j*i0lcFqu}cX(lw-#
zu5b{X8YCS{DKOx3_@i)d9AtUS>@|mCDw{1Hg(1!Y9nF{oUl6fKAnOOGc`(|By#W~S
zHR-J1m$w<L$-F%VtK=8{aiZCzJr?(SeR_Mu?E21s)wM5lx)A7m1JEgd8NNIJ5$KWs
z8g$eq=%QxO3orQTe+I`@2>WCB-wVHCINET~Kqqcp=(wOu79s3{v(5y4^2ZQXf_q+o
zu1SY<UIAVAIq0ze8J=;mFZn{h-GO5Q_uApU7jQ0ta~s5e4tnj^Ag&6I6}VRoX<jhA
zgK+*E5buIJJ`ca&gy&H3OF?>EIGS+&9mw~EFM@v$Y3d=p6kNOTpT&p61;?Mj@fgzi
zKE%J+=l`n^??TUyg6@Bz-}m8q0*(tG246zli@o}C$WsrVC4}=g;MyB-{vSc7{~P$<
z5Am+RGmCKk4%`=j@c#+&x&+rQxalki|79qT7j)~3y5d4wx8WclZ};Grf_kB#JQq6o
zg)PDcod1vC`-gY)7Nl_x^7RE=FM}RFg!BMe{`c#UmIdZC3-CLFu%AL&7kk6M0_nd6
zc@sk(#;~9N!au@~A-&h(`b8dJh5zI5d*S!%7|wqVbAl%q<%Bf;2J-x4xGxFM`&%g6
zK3w~2NVg5o`xA)&Zy^2;;J6F#@5gZM_u%&p2xmijzXt6`4fCmAh53RAo_`0*^clnr
zLwY~{|I3p2+CTb7fzsQZlgQYXAKabUUs<&tP5M$K^Kh@U(Y94etBnUWi?>;uE0_I>
zMt;B3H>)cimo2i{QtC3+yKkq$kq48Ke*+=TkX-Sk19tAEZY5TVgupY9hSTw=S#iJJ
ze_(M-rTY3^ZunL6=i9q~<p>z|41t^c+m7DGimT({-L@}<w4`>m@X5`YZ2pgbpCun@
z53k-AtS*o5c|Lq^eIrS$x<m2FD~_x@QqD%cXn|RS=GnNtA8syfB!``7#uL?~Zu{G!
zPQ&2LXbZMjb!FvvT|XWB(_3qirO{Sx1Dt)FzqPmHqCUO<k@oi{d#C#V8WhvLmBA#v
z+;VIyAAz0Mp8VLv)@09rrhix|OuF`{=b+=Noj7t~ZF#ekP82$IOR^a*0sJ(WA)R_l
zuTZ|ZGlaEbpSRf)l?tP_bJ&zksvE1xZC7=P)2}b(6^Y+V?Y_H{c+5B$3ayd#J9ik@
zAIrR3`N?`cr^tR59`e$ce1_#!YaviAwe`BKad-Qmn+UFZKe9zyi<jsFiNE6LCi`zi
zjQzESW7AdqYFOo1UJHDXyfTu!dz@Xp9Bkd+KQ7OIlyDn0_N{BH?z4lnrxx%A23kqr
z(bM8mN>}&ft)eHoL_KmpMr8}qcsv?Pd9qb2^MDu39qI=wq|@>E_Ss9VO3-%%?hn_l
zw)c*Q<hG=@`t{M5?nk{{`mI+y)?9Q=8n1_LuNtE927fJH5>L#_!<FRoLeiz3_<Os~
zM0Tq5h1*TgCqs^df+4fH5@@e&Br{m@@M=|X(2)e<R+~K`Rbn5<Zg^ttT@$>I)J}7C
z4FTtBoF|W`dyP@dS>N>bgX^aHV#4i@F_-zBnq+{jd&<&3v?Wc;!L4zwKD*tom-Dr)
z&f;5}|K4@@<+>`p?M^<ul|DD}YOCmZPy5MIKfAFy>Src*kByPlR+Fke);(VCE>~8Y
zjo5yE&$1O&HwFisX9@eD<6OQkvex}!PocZbR44b*@<h|?<qP1NY7pHx`B1#Su^hs8
z)!uGlTQ~aA(&iJ3ZI~NHZ@TtR#Z3h-BTsy=-jSL0=Gy-MZpJ;gOPGAUphyezv9(ow
zdN<iU*jUn?hK+sSj^yk(_n>k&$4<eb{6={9?emW}vEa^e*7XdJ-z>)OJ$zTk+TXoD
z@I1EdY2N)R@FAdUsT=-|*S#Sf_Jb?$?(M-x*YL#S*!1Q*Z{z~64|=?Irjw7=eD1{K
zelmaCTU@p{^|v=+MscrODj&w`3j5AdbsQ+nR?1g8OY%$MwB<N!2Dh9=zvq}`IT5@2
z!sEo*7t^paQp&dS#jU!eluosBfpRD4spbm6u*#;3!=hbX^yODJ8->2Jp6ZPal~|?{
zUpKAYi3D1ua;=>-rDCO%VMRQs=QCgwR`eEnyLs<$&Fs=vs>$HsmMK^a6xyD?dM#K_
z9aSvNRAT1Ho_f@qm`fp<vCw-uGTaO|@|@O2CO_&e1$Ru2w^qSVPi<w*CrGc!KP-9O
zU7IS>9FEGR+j=8=)$P?K$EK0;_Fk)D$o))FsW1!n|10Pmy?T&{U{R^sPYw^>Hogcy
zUfFtn^T@k(mw)gO3q?AODR=W&H$Iry(=q>QWvw}~AAkc?M`)CC^^0qDZ~g6<V|{bn
zUo%IdRez!*Yb8S6h~ZH!<V#ztL-7wm9Xx5eAL*5)d*fcD5%@?U=_{)4#D>w?u$(qm
z9uLl^Z!?>Yu^0b*Xm+(@KY5a=+d|XKL%%+gOgUFPT`!TjrR-NXw(PCq@i09agHJ@u
z_9R)UhO6ryPuXSh<dPe5--dh8s%o?T@px2Ew?hDJjuv`tFe_P0<clJ{sjeN0HTg?5
zU-xFy93m`ap|}>&M5%DQSF~>g5~28b+6p7PqvLYtW~^R`wc~GDmU)}){<@Xd>$-Nc
z?*#X6H4*(j`bdy5rE=$~eC9F0eox8PQMm2S*}fWDb<hQdBlw<zlx|ldM>z$rcw${H
z#!SLkH+kaMtS7$~8ZIB59R~JqTkf2L+Fyv4AFh^<hQ*_>-9F}dn%=ai3cdif-n)rk
zl=gffUhOcp_r$m6yF09}8x7&J<mS0FCQhy#+}pG)?cP_f7#ff74>{&{AG8kJkF$f+
z^FckZTfh6;u;^9FmUye#pxmv>FH6-wnq<A2GJYR4&#!G4=Zi<l^t}Vkdy?{PRrAe_
zUi=79D8U0VtFs0ZwV*%uP?}@)ZKb!gsX)7}pL{=&*GA0Yhx&2wL+^TGWnW)D9=v84
z6+F6XJbvypUG6kKSk;!a63IzyxRK`WyF3ZQkg)xSi82vx8BMLoR-%*ZJNB-?aszwT
zEL0D=fgAhVxfNchG$&=8kH)QgVp#CnGnv2~Rd!#KDO7&A^i2C&eEjoF@uv0aR&Lok
zSS*en*ITb?{m1Ea`*F&wt#$Re*vD<tx0l0JthcnWkNcAmgYRwo#JX9M*}@g^o%o2Q
zOnnL4qY~D>rBvMxls6OE=dmB@?Ds4+_{6LomYpZ@Qnb&DYGH|PKAEodwg=V7iadWU
zxTQ~Z((h6?q7hB*Riq>~c|wiUbl`7>sD*^N0Y)iXy0f)nz}Yl>rdc06=)5~MJh?YI
zEyNRnVQl9xHf=kN>+WQ>`S_k&=gU+C4%1+}Ri2#f#mrF<HO6s17u%dzb4Pw+NvCXE
z^Y1h^+Wy9huejvO@26o_S@t&~xfojOM(jnyfv@FK4(y5HVBGMw?U~71?>@Bs_9!sa
z)$`f2de#|r)(RD{BWY#^kFC+ircLEd@%YwnvEO`XUGx80wxsc<K4*qH;@VM;ohVH+
z5!zY>?^X|-o2@f>b!hAPTIEzKmDwxwPb*u)(@<z>l<n+w_^WQu@|i-_3oR$McGnx4
zy-L^JPlQU7QLmXTZz-;Z4#3XHuRj-ka(g1KoR%^T0*EGu^_#b=Yd0TcAD!*RD^kOz
z{jRux_8NEJ`6RIXnP?`K^u%|4o_<puo^$rrfCRRuJluV_<!RmOImQ;;)r9^$Zxnfh
zrlkmf)ov*(wza1_m$x#hyNBBh-6v_QIzLte946i@=ZcwXE|5!wVf8JYE0^>2LdILH
z<~r$8JeF)0!^J|W+zOP+#Sq8y@X{-je&H;-AAI3Y4hIU&W;l8b+}EW{+YBF#l2K_e
z!nfVZ?1hi+-rb5N;5+MNuak>S(}%8tVz}E~F3{Y9ddSsG0pmNHVJdQjI9WkA`_Y^{
z%I(!=>bDBbj4iOFAK$i#YPmQF$Yd~8Tv^?SeXuc(2upgGFR93-4Xb_lPQ1H*a^%>~
z`VWeJXSlp=KUu#OP|^L~jONm2`Sq%_WOB*jTX({cSlJt{_$q;aXYN^K{<!~SJpa2r
zdm&WbHs>Ou&HPEL<++pGXgnC*j2*A+*xRlAgYA&>P`l-UR<Sh{<o8^rGk+h^bwkE{
z<_{-{mSC73JWKC^ms-!{o_`QO{ro5IcXQ9GvUV@{K-7>_Yk`f>iYHO1W!8eYua#BD
zxVgoC)q`1(g{(`rX0JP=r|a>pXDMA(vytU4soRx$-<QdEHj3p)Q$04Orj<y>o9XSR
zy73Jw<vFv~gFia3a?3L=pQLIinrzMwr62JhZOBVceEn`_KpEn>Ml>GCs0+6ehYhOy
zIIy+sP(7ksPuyjp?XLnYH_CFXOnvFqQu&VN5xF_ae#v`6QnF!SwMLEs;!N*9Lk-bh
zw={O8gzfB(HITj)SX-W!hevi*z(cD4$N_WROe&r9kNQvZC+D)NT`_3=V4U=-wiTRK
zITC9Xnx7l;jeytMKKHtO-I{m9p6lIr-aJT$mcCF-W6e1DzEkiRZClPHNj94&<n@B|
zE4A{@zDi;`rjFF#swR%J9~Z?$_Q|mi)}rHSu{y_!*u_&b@#*_YjpKQ(E_gdMzWmBc
zEt!_{gKOp7akc#R*4A0{53HNB+<jW~5wlgxFW1baMb)+5C;LW|@$PDWxwN|1of_Zn
zT7nzrDw8)>Zbg@lT9)_Lv;JmHx35dpQ~n>Ey4QX$`+4uyhD3jI=5cLA<EdVG?Pkn>
zaB%0raLXjps2T-9CY06h9eliM=@bIVa@{d{l>1&F_8TgjDe|<v78~Zjf0Um5!ccOQ
zQ`?qa*p=)1VuMc2&9*vFNh@9QTep+^Vkia(i~AL8^U<J{TiK4SC^MPIKa}Sf$!N6{
zcfapBFs4U$TtStc>Q7?2<n{63d|{l8M(csBYj3wKDR0GvE=jrW6RO{C9PhIIh3H#D
zQ>*b8`5#oCuF>3sHn;qV!X-@>j2T!_T?^GaLyx)FjwM?0j;kd!N#IM1y1?2CO5kIP
z#MRK5?7G3EHC{Q{tG-3`WViCG+g5kIQfizpMJD!@YHJieOov>C?OL+7774je;%-i=
zJoSAM!4LAWL~y>fL3quTIl-Da7*Fi1S@#U-&CSRIuS)38yx6raEtX@8=Ywf5R|%TZ
ztnHZi{nI;Mu_1VWRj2ZUlg)2cI-V`xgHkTuRGw$w4uCOd-s3k@x8(O-pDH^$g5o)w
z4+cFeF%u6DmCbR#OOS1i^{unWx@jqTplh1sx*wcg{!wG2Kk+H(h&$QOaAo=T3wL&M
z{=hZx`?z$)Hw3%lr6dyk(Bgbb%lyK%`0}2O_Q|?wN7R$u|MQd2)V=uYzyJBAJDxT3
z>&M2SzLvk!6ro#&IdAm^H(B;SIXsMQ9sZ*8&~dc>^VRdpdVIuzujmu6{QnMplG)~u
zl-$Fu@}@ud>Hh8>=k%bOE*MAo^sqJI*0)Y;x#MDF=HOwtS{$^eqF$CFYR#Z@rIw?e
z%6y_f+UkGcKQC(9(eP@1BkY`p4tE_kO=Vad#+ttLM*LQI_lNz^bX%{@C2~IMwr*T&
zCYp`3vC`~@OWwp?SH4;6*Q$xeTH9gi<ZAg=v{r0Y^X*c;oN@*xg}-J;R^P23{nMUM
z=?SfkfAM>(@#cY&XENFkj4#}c&%c+luGgzCX(c1Y9oPGo*0ccbLRlH3V<cEM(Naa0
zEa!jnZAK`2TVEY_LnBxm8?E)dF2lYmBb}O-pACJV*&6GbW|olLskl6wr?Gn*flouV
zwMnN?d~dBPo#Z{CJ@e|yDp-AWZzejm<7uk;?t^hNT|bKMx>Kb=-mcM_hSG4ikxVYh
zqg(r_(SeYewuWlW$Gf$3uNU(hN`+#!=^bQZ`Bv#daG3{{PM}g6gi52)BoYo9n^kM0
z=B{O>ZIN#9xY6jrx^pf2y9W3w1k}n@H?ls;yC#SGSy4Tl2NaW~wb40m9jLYpZEe?;
zukS|I{f+%{q0<1A>2|Cns-|k|&7s<uZdLue`4z9TVwgTG{=j@<?W_8`CCQn8LupMX
zm*=sAfN!->J1D=GJn-GheD;mv9a%n*G&m0)*z50?UyNYY@A;PYK$x7mbe~PvmCW3y
zkL}cZVW;=tmlBrk$bCyuY#ctX^_8Yk1f6cV9UuF)bhW(<@R#-N9{7Zw)>DP7w0t$&
zzFU`tuXa7d`1!P-ez4QENIPrkd+lsV6>m>_{pft8*+u)_mAgyfqwXDDDx*jY1M7pV
zq@I3vFV{&tbo3wI_n+zR7uTwL!|qPS%V;R4E{YSAChs;sdb<3HMPE+5{@5$saVMLx
z>J$3782v57ajBd%R@`Zo+s}$-)3#HA)#2L6Z|d(9T)jx7VGH)i_{l@<-8<qlSMS|H
zGv9F@IH$K2?U+5?`(k4DzjEj~^+pZiam{|Nh&bJiluBmsK3)yC#%W<Mk`5H@*|@`B
za_o-EQJ$+@3<poN{z6Pq42lQ42jv4tyYphBT$PvAnNebh)YkKgUNf`FvjmUhz3S8M
zroEmyv`RnNNYVYlH5rQ$Xf?9?mCfzW!=I+#PG$GAGt-p>qD)S$_~VX!A?+AAZ9Tag
z7Hq~pzVG0%qi9)uH{p1v-z%(bZo~)9<0lz?Kxy|Ty`ff$j5`LZ6XX4~ttQQz663Z0
zTjTb6CsO>Qn>SuenIix8dHYXm(-v=9+m)-+K~dN27KcW)^|ve*L(lBX&DTu#pL&*z
zn%aZ-`u@mP>zA6nutiuh(z^@Ts&?P`%xBO13^#r@HJ{aTt4sEj<@0{9I120Uv=fKf
zXsgy8td+8x34=G60nGSHygAs)gqyiSuCP_|xsrWXFuJMQ;&;{#o5}S0x{T#~sf2rq
zrigQS9FO*HH9ft7bTo`iR>sV}zDa7lhwHHH9WEH%iCnTBPK68N4Z%{m<dtmJ@A&{+
zLAlRE{c<P*Y;VnOZddf=9WjxS2BQU2>aEGfL#rD++CRU$_F_L%1Q=iEIK0{OHV$m<
zsiYxW|L%+2@sIXSM(dV+=ThfksnuB?_&sCiu}NdwER`eK9h>2YdbgGcSO>vpt(7~G
zd^Q>Q;AU<2PWFRFM(P=RmnGZF$!U|}eH`-!?;GQ;ce*uLNnal42f3ThwTfCdJgZD?
zhm!4lINVqx-pwSp+@o`ws&P`f(_UHSZ50Mi)5z>U2KYt2zq@x3crmJ4OM_w8p|hH+
zyKCRH{%xgJ-;K9y$?czp<X^9OGv3MVW0!e3_-Z1z;aiz%KmF}oIaBK4{$TNC_to^K
zq1-Cu2Ey})!&}WG_nLwp@h23?{6ad6oIPz9HvFrBSohIUmbPx)NcHuVAa;0M?LIC#
zw7y|HpF8k44p3LNl1v=N20>|VEBky^`eip!j699!Y9;bOmgsHGjWVfPb8q#nDAihX
zh8B6DXdxyQObXF6mu*@IH%_enoexUe+bcu;Lz~{Z7D>d<L+}k9u(x}`^5EZ^tI4HF
z``a(7u2j9(R5}V&+F^%1W><Ta+|He<t$tIRYt|WqL0eF0N0w7k8$(vQGBrfH`R4VC
zQJdU4tJjCH2Xi%XJ2cG&v$=A7(8)H8sbs#{Y6Rkr?R?xb+08G%|NfC1J8NXBho3jQ
zN1m^&gXHwia1Hb08wd4Q8ro6PtjzaTHBs(nzhGLPzQ0}!j5fUaTxsBG#kRIK^ZaHr
z9*g$QE6szppp#oa9TeN`l6|Y$4Bl_75AS6hhNH)|$|SP3lM6C=VcWArupM5mO0ymJ
zN#d=5+>|UubKSmU_lH$=E<f;}c+=p}Us%&F#k#ptxm<5rr<H)+MFyfiua&tP*=VIn
zB&RD>8>#$g`}AyOam$|RZ%;Q(183bS(HHXG@&55Hf9QxBZ?9-0soRrMJAcyO^9(lY
z4N*H=_ZQ|Wp&otms4x2M_|1C-&B%Gb^d(ho>OvjsB`MDlO5MsHPOa&OzHb2IZ2E(E
zH_|N7Cd(DSi>kfnd=N~;2NnDJ^P6L7qM<M6#l>9SyYu_*&34DDL}fR(jMp=+XCJ)Q
zj@{Z;`V&o8ZGY?dOx|l8){EWlcZVf~_^EtjC1JZ8S-vMN+U{n<;aEZb_EKu|GGc?}
z2TwqO+$)<SPimW~^-4%`Dx1b?JClUN);#JLH71c|&xh`%|1g|5k*^epx3$|ubN-%>
zz3vG++q|)Ia!WDYI!hdzP7CbQWV_h`{Bl|xFxc+Up500ZZz|%-9af}n-}fx}(8P8i
z@Yx;DJ+UU$xy|Yp*P|(OxfqiRLd8gDSEMuekYM&5_k$#J!&T!t#xaiGkvy7s?*)oI
zcz4p&Cr(pqD36Ew+X;*x$u3X&&CayRY`S{G^@j(}#G+!W;xM?Hj+;OAJpGK>n14x^
zxJJEGeG#ip+o_FMvp1XlUbHjDB4wweRatXaiY<F#{66<*l{?b|_0x$pxxTGG@1vK`
zJ=rU6|5xDixp(+jvY$K*@3;+<*1vn#vQ)m^Y0T%>pC4(z=)bY^-GUR)iN^=;2Nj0E
z!a6t{OD*5c|N74rwVPDwW7kCIYi$0|c>8(av~79Ezp|kvmfvW%vWd-Hqtta3RJ%rH
z%$V$tT2k*xFzeXJq&>Cq+x1%;*{&gy)Oho~L@y1d)rY}P(t33%;3@2_R;^KII(Nrb
z%H~a>L~X}fyypv>?r%(;9bG4s5_-8Kz)kswRX)tW_dSIdN2eTd{JrX0ke}UHf4pg`
zR5D>hE*!5Hd(FmXDO1QaYq0`=*CUk*0Kp5ca;jPh9ax%<Qfn`4t%q-pgwk%S(9K%L
zE1F0V3`=rLx_ZD_SdE!n;xqG|lZDj4-5EJ=>hqO&ckQH_efF2NqMkf@U1eHV_U@Ek
z^tT$#;dGpNFYgIhmu=uf?Ji$;B~p6DZJI=$=6ff~=H2+FtFsxM#8<%@WOJ{)r7<)b
z-c9X~)~$ALE&Xts4Rm$dVs%e*vv3;Ew${=I+0vg&dVylA{84h8s_Qz*w^)Gp?p-=Q
zTo1*!Tg7HC&O3W3-N>meslvltLyvn44{~`|<j7)K))&3e(x<l6mx=Wiz9j0mAKakd
z<1yBcckMN$edC-xI%XkfX@Bn#-_YBPI_myu{IIt!YqT9%es|mJ>ey~G&n&A|(W7H0
zCXZxF&rKUQRj9ox81#1>Ay+WH^E}hO`Gep_x)@aGJWmTxP2<VvZ=L6uuk-$*C+=l2
z$Jwt7^QG>7EX$ef2b6=27~wpR);>Iz|8XOG)@{@#?R(w&n%jQ3FR2{uQH^l@RJNB>
z58K+tcyH}gl`#)C5`%<Y(@||(*wIv=x%q>3UHif9ly_}++&CFFO{?C6XRE1JoHfpT
zcu4|O=hA_S=tlcN^&|bKN%zBIaYv`#IIB5NBjTp_G`o4XzAhMh{MBmH5Q=3R!g4S_
zDEY$Mi@D{~oVBnO2sZ|;P#Ly-Im+vW6j(xO3P;d#s*z+qo=liC*+ijUSqTlJ@n)p*
z{L_7XEAfenIW*k}tc`UJaf;r3VvP0gyF*3iBy67SmhB~^bm}gJn?>=+>>Uh^drwWZ
zwWCqtBk^ddaBx=a%?&hzM9}5RO`o|E&Pusj=v-}_uT1ayQ}>^D8Hsc0zVRD{r(rvI
zGPpk7k4BH10q>-czUO<Y)Sv9mSodTkr6XLs{vY=OXRG>ns@>a!_4nGA(v*}n96P~Q
z$PP9d`QYTaOKS|@D)e?<i`tzNvCZ>i2g}v${@fee^fta<U3Z@KZf?bs%93??|J&sg
zbyL<AMbiKFUY<NL?j`OelvA+yxTPHj4l2(!B37femG*Vgv2^6(V?d(Z)tinYE!ah!
zsc&a%)jMhbx!V?d(9Sx+Y1_f#`=;YlZG7qYjjse6S8T5L)4fnId-X|fa$d^}%4fCY
zP`&1x@^@pM<g~K4XAC37{%QEkqA{~qi$~OGJjuASHD`CFJ2Y<BHz&Eb#QFY8fAUE?
zRWB>Ho@JG}@SWsCR%-jS70&mPCf$1xZ_e#57V@^fb)~%XlX#HK2aewnR;N4e!&uOq
z2(D$SeS6DNwn|K1@B9a%nm@$MNshB&`A*~gJN<K-Q*m=R+E#V^kHT9GMSiy)ubkFA
zM+uJJNEQiy9WBIkyG%|hJ*lPt!Y9AU@mETg^+(O{djfYYwy`|jiEbUZ_7j-}FjfjT
z8^gim!M#K7Fn0LS&8;sE`u*|hwRi)#Oii6x%!}jg^!I#i%{aBoA0JoajrMOS9505Y
zY9wmBll3&xyS3WG=CNjU*LPa%dXY@)q-$OI+34NCSPDCa_M@Xz0_buRr6GI%_Rwye
zW{;-PwM5IVT1a~$y-MoLUaHp{<BesSWPA6gT1*js$ElCoE=L?wW9s8)$DfH5t>j@M
z88VGkx0{{4rlVsjriypF4^q9NCFp9l+`;|8Ui-FLCG3ZJsimKv*A(5bCk5nE>mG$Q
zbE%=Sm@Mh``a4_J)xIsNwmUUduSt|0wG-w)Ej`Qsq}(ZmI@KApvUHlmkM7o=He&9`
zympZD)WSK<h9jA5*~8uT!~C+Q??3sSjTElT9=x@7UUCj=ysbC;($#G${$TLIN%jwZ
zzi!uF-7P3+UmSEdbDPaiPi=zAlC`OB=MAqgl3Yh(=?B7iMCO(yqSNK!dolsOHC?^4
zvLq6@AH16@<g?jap$Kz`9Gn4pEuVo4`BW}j%;a;qT(*$S7BV>?US;!zOm>NzN*!na
z<bTMiZ*0zOue3}}o^q#atJp4^?(NG?)@-|Zb|?4iqK0~D#q3Y6>Pv%r4%n6Kg*B3-
zL$ze;_8jt9_>fm?B=7HMlTRzV>WxHzKWVRjB<$(N!=^g>vgC7ZMtdgk)s)Ll(cjA+
zZOp4D$E)RzkK9;)eJ}Bi6aTIDz9yh{SM5{7uwrX&hnH=IhBv|)+0)0dj_&A8*E@CH
z);TijrrV!TH)CUEUY>lGIex>?3QU?`8q9{lyURO4zQ~dEZ^pL*-NbELs9YgF?u>N5
z8_ZOHYWS|#DO)|Vn*60eshJp6qT^Dr>ID*Yr#j4}JRLBrPoz|*YTI6IeVj<GY$gk?
zR<&eHAFH^v)2+k)?Q}jLvdy`r9~2KmGSj``$o7~DJo{gbwaIaNXt~vZ{Xn_Ct<{Xf
zR+6T!KS+TGpGe1CbgPFM)_T)qh#Wh7irl$-t#eXWIwm38=AgZvs`=lV2t(cDQMMhO
zdF!^l88~SgR?H6huDkmFu(c0fG}G(*KaIX?JZ|s6XkR*0!-lu~Fsb*PhitY6*wM92
zgM2Th-F^X^*)}}O<wkbxZocEmO}(k3p+4!yVN?y|U0dFh3|L`Xy2+OJdd|~OS9lis
z$w9Ld`LbOYO<j)S0OUqo9QyRE=T6-Ajir85$QOUMuUs=mZfjSBEh?!QD}0mnV^Cd_
zId1T7)_*4kd(yh^NE@&1^aM3gSd#zCm?4)8cd9!o#X+rfyJgP$e{-v4=<iGuneLn8
zdRrHl9PL>f9$or*H?3XYR0gybWy@T$Z${&vS9h`_N;pyA#ni)Cb<O(wd$;Z7yrKC(
z2H$9Vt-e3nz5hk56zdi9EB6KV(L2iekl86YdJf6J(^&~kYXR!xhoS5bg%L?4!6|*_
zO{BJK4c+8sKM^(6O`Wav*x3eriaz#i<|OH&-Tlz@)6?Ff&CD<7)@SlEYyDQS5)f*d
z_gg*n7qoVYzwq^qyy0$mpO#%^PJTQ-k_?-2`F&OO>@jZKjItfrleN@7%2Ew$b)&Dy
zGcvzbDe%9gYkt@@HCusrJm@LqIx(ro;A`EKSi<RHRsl;J@g<eVJ@C2S{KPWNYGVE`
zhlb7lVy#e9tDYoR$H@;Ztwaqsla9YJ50AVlXLP^3Bhq+Yd~4Zg-|N+OOmUH~yH<~k
z-J`9#>#(UxpX@~AJx{v-{2k|TJ80P5ZT;BWiY%?z0_5drX|>`V9!--6;e(ZD+J}X2
z{fYiG@T6MQuKXOF2eD^=R^Ojn`3?R3Xrby8=r(tsccWidHS?2PtG!c;)^cfIKils5
z;457{oXKqEi-mRxT$S3(-ekctXp~~rM#Ym3du!o-J6SAvvRPZaY-=R*p4PaL@`CYV
zI@)bT^r@BAa6I1tlY&?|6`Y#x@1mdWgl-kX{>BUMS|&M7wboq&t#X(RwHk?AIVY72
zT{*g?#+KJyk<Lo`v{6evPT9)u*!t<#elWCXSsw0tb2o*&CcJ#0v=NnI*}tZL1%IOh
z>tnr*YHTZz%WZ<cq66U{j`ZnPJX-Ar!9unfTvfI<PD3A>R)(dNd+3RjMn?zHKM!VV
zBjv%)bNhk#lgMyuyw=*#`@%xU`PHq4dAf2a<CPLUAA2qF_PRaqZ`CTjYTlQrcSD0}
zcIZn+QrTp0w-;+hTGdLoTkh7X>2$Wx2v@cefbISVyRzQ~yR3f(_F<oaUDvB%B$j~l
zcfsyU0DEix5^TaWU{}`t3-Cb$dusj_a7O+&_!Yx`kiUbyCoQlG`(?2Gx()X{g?qVR
zKlV-FPa<Fw_TR&OJlK=-3hdkYXAtKa*n?dLTQUu#NkSSAA>Q9YcpdKh6|fT<LD+u>
z=@h|s>_0$UKI}cY;8Xq`{QhT%vjypW1mSA1CA$rAZh{Tmhmeo2L)<>3{|yM^Ksx^h
z(*38fhh_lR58=Kmkmvsg!d`;(FKh!N5GMrpok6-SI4*cPE-0T8!v7ND{VmweRlxqu
z3D5Wu*y<@E?FsyD!0!cj=O05F=kWgs;_~3wg7m#$#5jWZJvje0DDQo!8zwya`;do^
z;QB8^IbT57{|jN?gtGrBJnL5=t#z=KdjfGj|4ZO&!vDVs_tD@vML2#L;uj$eE?mdp
zz8E}{3H9*@5dUqs{sn}86^@S}ZVRp*LAibb_5U1f@IHfl{bP8C7vcW|p7B!%zYgc$
zhq&WEhdP1Ze+}_Jf_$7o**}6hdjs<MS8&{gI{820`aV4Gq7FFl%uP7|ChR4uL%M$h
z`M+SG{x#(F4D!Z>wEhKLe+kn68ic(G_g{hZUWNTdPI$(jLHJkUS`E^$LcIS3dCx+;
zBPjFl!1=#|yv;)x{~`>o1>l($c;*WTyWpID6~g;){UVLOgFR3|xc&;n{cqsc0mq*~
zoPP=Sj~6T?Hk4TgdHM*_`#<2lei!bO!u{WZIIlwfZbH})()o|@{4%h1*5LmC7V`K_
z2)hPtCJD!vaE%3VF4~I<!fr#|w}k)DSD0Ui_Dl(Ys=>t<7ud5veIehZi<kn6;G+bG
z!kL2K!o>m{1)#tT6Ob)9!J1=GEQ<Q2>);h016U6CYYQ9<<;hSPk4^E&MQU+|D}IR*
zKmzy;_8gDAjIl}V3Ipe(2nO^MI+r9A-xe(Ls0G1md=`6_#TD=o6w$#mn1UN@icQCe
zSpmZQ3Xj9T&S#P6JclD7Y0O0uV~}hag7HWSlYp21S)9wnS;PWB1~3jny+YwEU`AY8
zm<PTIi^adpq0=!Q2H+ef&c=i<BRGB)6O#-&OGq#=@?{1vMsVJ*a&eNxnK+l=0_=dx
z5Rzgc#zWW$;~Fj$T*jr}B-lJUeUZabZ~%kBL<tIE6I>Qhdk|dyJs}N)%$rFjO~jmM
zVN4!N2TrG7Ctkx)4wIy=^O&^n6POKQvP2k*&E|91fVM#y6qiKdxjaljaCkQ`0RBL^
zF`kaOi12VePLT*PD-v-Q1So<t`6Pl9gh;@{a3HHJE;11<D&TXaY@UEE;NiHKKq$U+
zQA!XJCMM)xm2xqH04L-!iie;AL?Bn-YQAC-V~LpLBE~baUJ@}#f=}QC2_OY2kIUz4
zDLTSY5X*2M02P3CLXa8(&f*EUB*w%s;yO@ZI26KHFfL;#N(rH1@TH`HP2(X1&PNEL
zjKT;U#ds*fLvTvWV)GFkAq0#!S@^e>m?&=+!(QdGxj3IBuQP>gwq4Af;VW)nq6KOZ
z#jsh{>>C0x3GK?l0xy~5Wtv3D5Yh-tz|`=}^IVE9Q!LxnD&z*D#1Sq@T}I^?oyoew
zP@&+G7MJk(bPk58tXhIXDb6gLD`Z_lfkeb&ns5P|OAt88G?UmjfLbBoa(t2-m*zM$
zjAD~BV!(nh85|Bl@DS#LR4Bk`3>J<o;&cHen3-cz1VZv@Z_tU?c=J3yM1Dog<g##7
z0BwlFaEiW<kgRz=ALFu79>u_~UQ+RJ8b$dyO9Y>~#F6s(GN9W~Tmx>LLrI22!qYD+
zfCKe4oQp68R}dw3{W|+9DaLT<CjtqN!QcuMdM%wo>Er?pp@=ud2m-hu51S%bsEkXn
z3^MX%E^w?+u8Vk+HIG28G0Axefm6ghLQv2knM_i|2O<UoP$mRNgo$PrIOuhXgRrj?
zS7=P;75;UEe1$E7aFQh1Tx?Ope}%*3^SBhsVE|EyDM8sn7Qq$rzIk0iP&_&f6THTQ
zhJo^U@b)PV8z?|Jfrv**Z;%+UgsuZ30)3MWFbovfBIp7W2uc_!potf`s74H|366lq
zoJTkW$42mxdFmP$r30qoDxW_02E|mN)VF!mJWBAf1sr%d3>GSZT1PQd3}}!mTn>gn
z)1@#WR6p_($pc;q=MpfzF7r4n(VJ|5p->ot^EuR_T<}}782d5@Ks?u2(0fqg%~=-3
zLWTe26$%<Ron+&00_zCjKqpslP%g<uuFNVWS5R=_Oks-)*IA^NB||TmAS4%nN;C$b
zIdH}QEQSUwWoUU!mJpaLzzbpO2tMNt@?{ohk$suGE?k)ZO`I#bj?D?6r!d6a8=NZ?
zht5Q#43xn593?POUPri0l0{s@sHKHP4xpXT1rCk9@TQnC&s$^=v&?HWJ`W>!B*KFZ
zILjpFu3|uAnup#@LUR+LJSgO=R~K*rCPKK#EEDJ-hy<m8phPlJ>W!C#<W*Gg+c+I%
zf$YI0H~^UFOoB(CIK^P#fZf6tg-mEn<TV~p#yG5tF1xsd@fQ}T*A`JWcac4dp*Oxm
z(o~#z0B~_BM2I2q8c`6!0xp38oJ+t!7%yWOgU2Q59D>KW!bgF+gtBJXZ(dsfvJcJ?
z(k=uxj14R{MWISuO6T6V%9c?g8b^Qvb_RGiJUW42S&$F}MZo(I0=oobP$Uc{7>e+z
zxp^&cpyaRN3m4cfra;LBLJxs6Ns^0l*d$IvK^_S~vRSy-Fct~~FaWj?bQM7&uVI(D
z7$sa3;UxX~JV7l}S832RAa%e|Av^*@plS&WBNrfpiUkDv>;gfj2qR~PK`sz%8A?Os
zD2HSTpf6nK1HcR?g<Qzyf{Y+A_Nx+<FB6bV9uB^WA>Skuf^HZnLc~Ey5l01?Cr}Y8
z<y?qCLgIubB~Z@csD#6t1yRer=%OGg_&9-*ASOY+AW|NJ*s(bnz9<IBG3YW5=u{ZV
z7ho(2Tg0JQP|H+WLZ1;5FqlCt@nq03*qB(z7a{mOh*|O~3kEM54rywjSx_)oP>b_S
z?i^Rbq)?Ll4i2<2kg;<zJ`BFd%Zu3TJlBSCF-$~WymSq`SrQW|LeTwYP`=O&qX<Yt
z12=Y^1MN^OlM7`qAd8?8&J&k7LKrp}bVLj?Z4sr!1Q+_099$2xIC^A`gUTtEhy|r5
zoS1;YXX`M|oRB7Z69j+^r6y9^Wt0Uygic%`6sVBP;z}?a=Q6&_P!aeIlEArakgOaj
zOUx2LBOw-OHxN21CP<vbzeUjbOoYQhL?psk#;#p}#ZbMRzy%<)0hwdPaFXK7`M@L)
zLO+o3WU~lL^8Ix044cJ-`sb*m>IK0pim_?LB{oL!_&8%;PH_dG)re_QCc#zkH4HAx
zi~|lyinEm*s7iqo=QAmm0J4fMN?#{=gdE}asmlx+8^?jCc2yw41YDF5LF45zzlF#t
zgb5v%%fV40N5oQb@da?o$G(ou&`Erj2R@pv;0po}3UJ^QM^4Nva^~jP8Xlj+5@2+`
z6c?b-+$cMtBQOyNJ`$4vf(qq{NrFYP!9A`@w<J^%(hIeUKxYw&3S9t6Eu}~?3nc&+
z$0kW33dASO&oEvz_yyJi4%O$w`4sdp3Whzlm@Z<o2#Qr8SYN-8IPm`GNhLwBn8-4)
zGf?h4PGaIWI9xFlhQr5HAUes{Pyz=~(RUa5w0U^z{MW&MKIn2FuPHv@wm3IfH!iUR
zh-ik!$9YWYWeHA!w^PX*0tm-Qs0Rr$PtZjOQwr6Jh$tzlhQ1&X0*j8nNMowym=+~j
z5*&l^17q+xD30?N1p*ASFysh>BL$Qk!spE!Z~)+;uVP%fazO~>qxq{)c;fnkghB~~
z2Z9fT70JM)7zRCJ5f^f)8H_8!0h5JdCe|XCrvROh!I9zf3OdE-;P^EV5TJ4h#9Rzi
zR7#2fyb%#1pf3TBiX|eUe}J+kxq6|lK}m2LjP)cB#3{}vC>lWtT^yXL<Pp$$nIwj@
z6pP;?DaE3g#}h&AP#7h}m;wPxa=uF}0Ah}UK?yo7XjlX}Bb>$I1=ElP7$g`Z^twd?
z;p1#VLU0Ks@Bk6eTtUX*e31MM&_tlTq<{ov57cLp6yeNS5k4mX3BkfC&<}Vt5Y!8Z
zNWfPh20l7ZM@W$PYyyO&6u@r;Q2MAvilCr504$Dop#XBY1dqofQ4zUpHxn*Q1j?-d
zbW=*eN52D_F#+NTDvT2I5D5j9#1{~B<PuLTfPM?zoChE^6a_Iw;*<slfFUY|d`Nlp
zS?IkWi%~u%g!aWn*r2te*oB1Ti@B%(XG6hx0u}?O7AOg@u5j5khD63g*>VNwGBgxt
zF35!(<}&eh1n6JDn^Z6`BTs|~1w0<XMfqF{pCrTxAH%dN9NLpaMO&VMRw@>0DUV3S
z<k1Kgi0nmFDHa;|Je5YmmVulTl2TNLs0a|AM1n&{<SL<<5};BMX~s~wh^v=iETwu$
zN^uvIl+ezXToQt)6%Zg70hh^RkPhX=D6)VpOQaOMf0Bi930wuZEDSv6tLH<EIkUp%
zB1~NEvI(;RAo42RBU-qDAYUU`*GNtrSJKo;LdT$yCM{{XD&wE50#R@gGVHWyg)F+n
zN_xJ_;erDaNPx7=@Nv%dSqJ?xQ)rjoQY$TLlDWiXs}u?*l-MYeYuNNhn42l{>P>bG
zQOMZ_4klMJ^-GdPblE5e_+<<=9Gj(=w45cGe1Rp988N1dp)M&9I-C32Vnzcf7>x$i
zV`_{Y(1|JLRm`lL_s`N|ihz#vu#8d{>0}}F8PdmJnB#K)C69jnIwwkKXxa>A;LcNS
z2dTd%wN1wecX`3hK*DAf!DcAj4ChO9j#MF)S&ae_TOeSuXj;~5Y@to^OefIDd5mQa
zI3ZUHRMJH&DqUjEeSq1RYQNEF;4@W9%!(s&Et4k~GO1;w1x06VsCr$aUDVQb67f7&
zF0)`X^P;jLXVW;G8Cqe<>{VDagb7{ZGJ;04fN_Ns$QUAwClPBz6d#f5c#A5~#E}`H
zh|3o9L9||{(d7#w8fL^PCSL&EiI4Hj3YaH~Fg_dA$#^)4h$L+2Q3zkAHZA%2KyZ5*
zzd^{@i-bl@$q0$kBtaA?S0h^zDij>4R;<Mk7h8pkHDZwf!QkM-_)j4s5zaQMl@yAy
z)TA(`QGZ*?;S)lfD-?rPAc8UqVPXj+Qk77q5?#!lF%iX4i^VYA0`a`SmT?g=Ow`yY
z%ICq12E%0VE+u?us66&H8iIphW#b%*A)^+#&?8YhQ%Dj#AqYW4fI~mTaURHA(CR6f
z-b|TD{07S6gEqkv3CNcTp;RIPrWe8Ei{wHDu)%}^K0f<j_;DarFib+yU_C(0C-^*s
z)Kh{vn6U~dY)(Yy@JTKUq%@zD5hO?|02K;B!6GqC$bgv>LIdR$G+LPBQy4&RuOWQ?
zJj|J)$8u#{NCo2q;FDx8@>qbXoI!Y(Ap5}61^lXbkzm7Yjw#`BKwgpD>pURa5kTlu
z!9N&9$kh~YMvVPB@g@OyM<xuSY#|^c`J@P=7^DVtC{!#G^9c4e=C_$JU7RIvFi~{z
z5|cnQq=;g&7bGyCg471*$0F!09E=MRdx1|Q1c2~`SqNki=9DmxUu0is;cPBxy7me#
zqGJ>c4ICIOL@XZ6Y%ZP(YXSUgJQ0Vj#b296Z(L?jvlNCSfJ#JYELdFN@wFF;!2AY~
z!8q_RNuijbf&iF@YeY6NPGixKS2zqF#bz^kASX#W0pc2@GbkZ)uAF~Sh4U~I0+m1p
z*h-3Eyau|d0_6+f9}X^{lN8W@DWUipsMrh&6lrW87vYN-=u;Gz34bs*C)j)@JQ^Co
zEFIbus*<2yHeuE{<b;hO*8oas4)}{~r(%9lg8m99#ypM!)y^p$qywSxG+NxUu$1vz
zF|LNErehAh0zsHU4NZ0l^f0B`f>+7V<pr1&bG0xc>vfu{TJAC#*}x1?i}WIyo@>ye
zW|Wbp>sdmz%%#Q=qXLM*Os9rrl<`O{PZwHXl1fBwaffE~4Be8F!O_Yi*t`okSbP@n
zf%!DOPOeeNmMI-qM`tS)QYG^Ss|c`&1>$bB(co;*0>ca^yTF?L=1j@(Ix}(On~a%-
z8N^9%b5m`+a^q#+aUQSz3+GQhowC?Lj-N4m%fHH9q($tE2w)jYaqwhuz>R-*{^rb;
z*$Ugh2*eUU&KK*=1kJ;y<%5lA-hEv(qURQ9f5JXw`J%&C0%s*0fK+}Zv$rq^+A;qq
z-JL;%tDI~jbu=GClZDbXW<Rurd~<a!G>Om7GZ?0slW6NfDpMw^Nci$>x402{mCGu`
z*qs^1Nxa+PY|*{#8aKbdzV<a*-SQ^AIREO6`5W_ikkw_TYP|l9?}w{3y!OwXPkwR0
z;)c0#I=AQQGv^nBp1IUZG&BoNB{DZzw$~RQ&Rm=8&g$u*RP^s_y=E;p>t)fB?p`(S
zoRw7=soD9Tadw!l(4ZX`(NbO-m-hYq4!sbtVZ~`|`zpe1v6Io%3fO!)ONFbfY2Xa~
z-4V?<j?B(6*{16|$-<pfxky%6-b+`yh1Kx4=Mbriv%Elr)Mg2(WhxCzz)$5cXJ-uZ
z1)2{39s1&H*Xf$eOV^b;reSe`(i?E?oJwzW;Q(-xGH3yXZl2EKt68!ubgo#gRjLvK
z+nci(;|f#7kYReGx}@VTiBt?ZgR`WxlS&nR*-War^M0CwEm@Kp6da~P$^_P>!NBs!
zh4f{aCIW<EIils7qpvU1mgO22M<+3$G~;!JPQgK#3@O7RTQ<t1Qbf%WGwBW`Lq=x-
zHJc8C?gmG~xmchC4U|R4xRTdkeg?SIH)gqWmudK$Aj8l(0iDB?aG{@zuCk;Qn*&M_
zlPl(4#R-WRu+J!+Pf}8eMXFk$UE{pY6_XgCRw*$kjC@ccV9tgq7^s4y#DxTbT;pDY
z*$FC_EwB-E<_%ch5yG^J!4@+S0S!2z7z}FU6@qaweTN0w1z28K#AgBi%%(5ElBXCU
z0mI4$)rczr>?d^v7L8!NjE&tOIQ#`lpn{nPhOqcBXz+jxeF<gFg0A#m7QNVXlF3yw
zfdUL`ZxqQ82!I<)$LAp?E{4e<2zDN5Msvh90=bO7fzdbwmjaO@m}9|;gcz3DNUjW4
z9K~|b`EeQcI$J>E^V~%k1UawbI0xowz#~QYoJ$x23sy?L7+pXBA5Fn(9|r5ma~N`=
zwc{+9cq6!k#X%4TzQE=Y3s;!bJQwu5c?K6}inu(Iq#*Y&xWS;uBB|LW#;-A;3@A+L
zc^GFNR&;@!0l;0M09JcxxDe)Q7zPW~0=|%g5-6-g!8)&;oMkOq*{=cz8Kf?UYvzj-
zB)$j>q7;E~C?O`Z0Fic4fGr{-(Bvg-1g5^P5G03-@CAUQUf|NXJP`C0N1}a&KyVJm
zgSWzl2_qoTLC(WE41+>=0LLZf5YTa9NeNa4zQ>koNZ0&g*bG2E6H{dZZHNJASzIq;
zTyrwM@&6I^Ucs_s*_BvRqtJxrLsASiK@B--8a2sovRzeIb=C9ln!I__dvB2*Y2bl`
zPo($W+|29UyU*7v@7l20&88Pc&CrN3AyFa4=!f5o(ENznZ}g!L1ds<v0GR;J*?X;x
zwe<TB_sl+5Vka86qqdzGpS7XeiF}(hn|u(_n1px+GEGlF7ldRWi$wEc4pQ7(O|Xp5
zgY7ed`PF2MNX8xntcGkjm%tEXyu9z<-_2NM8+cHpQ)UAa)_;9hheeFVXx4`NLu0-9
zfgiG~uwskr)5)yf9E$R`o!tFY0I*!61=l5`tQZX?jYV^5Yu8r<2ky6wJ>J!Qu>Dc5
zzuJAW#eCA&xAc}fZ|-Q^{jI}ycEPrI$DG+-@2Hxtv-56U?b;^)9sY0sK5j73h^V{2
zDIFPhcA2md9#KaRN~A`M`-^Ygdi>7Ub&s|vbEVb%lkRMB*|^W!cgCRb*y6W!=ilq<
z^h4;cWNxyijQSe)@N4(Kad@S_RBE2ljr8<eriXpAw8gyK6^-Jk|E}RuJ2roHxvf>@
zI}dc`!Opxg{)d*(^R&#`TetYmdF9);4Nclxx&QFfmb%zI-oihq8#;O;jPx3{^YHxL
zukP*bZy9|%#}8#`udTl`>2$6Af64v+|57v<8KkU#@Nsbsp3p+n7<KR2CX&cVn|sUe
z-h1)R?{2s5vj(-={@c;~;ADJ{gZJFn{-#^j=}+EnJv2>?kM?D9HewvQ3akJ2gWp{r
z>|QIfz41hR@eT9swpscX{>Uttq~+|E@x1)l`YXfxO0RPJzRo;;aHvlHx2mYR6|3~d
z_sWga`q%I5M|`f-{reb_PFrzH0!PeY=*@L{B%pscqyIKsj)xG-MsyHRrR};1lCY+4
zCxX?oP4DxCOyFA;w&(yqGN7(KXF3{7L^4L^&Aa8Ddv|eN*cQ)58mVY0=6>im8sm|O
zD-kt>Bz?lTqncBOSR|B4>h<B!_HXU!O9^udLG*ENj0Jo%X^Fp;lHN!fVwp5Nm64ov
zEB!DU3F*L}I;BU0;Be>;>*MC6ZU^#^$o72;cpE?5zjx0NwE+6-FahQWa3$oR7RzpE
z_cy@oTxW3tpysl}b8a*w0HSdDe|I|!**=7-Ixj?Q7I!$f{h#__hcgt4`K*>5!f<Oh
zq~FuIZMw7_o_^Dw$K(jw%^u)Y;vTTE*2gUm0o{W5dfy00{%@K9Z-;)^c0ULVlgYJX
z1Kic_dJB36z0(P}q0a6#>s}*PHjCb<bD3gJ_r4RLgMiuSvWG0Td$8WAb3V8ac&rD~
zWH%UQyKH8k#cA>y_nrEE^G?XPZ_sTSLIzXF6+pM0K<9kt?w-SG1C-EeeC;#t^_idp
z_nP<go?E(i0EV-_2{6Ik*XO1;e#_<Das~jz0PX-rLoWaUHdDZU+j-j+u<DE!n+wu>
z$lpzG+qQRfMi>_EI(PTM!Rjr?-oDuZgKWs|vTQlM+g_vI1nDdc8#{&v+h*v>^iF_e
z!SC7vn06SVR^X!GFmA}<!*;#N4#=9(<Zx}pA!;@38Z2PjZZ<pgLEs7mz@>mY+K&J}
z0BN?Vv}*-41CXg(Fj`q4vV|b{A>{k^eFFr-faHS_J4D-IlMmdsEyk?b>v97E>@wX3
zd^}(W<iG$JiPh=@T-@rnS+?%F9SMhND`9iL<&QjolpiPwv)ht!_;+kJp!7^YVwoMg
zPL~PNs1T52K9fZc=W2mJC}#2@K?h<+ZJsE2O<ApGtHJ2E=t4%TZhy;UfV{+O-8Lg$
zYdY$&CQLyl7X&m2vLOfWh&tc~Fh6jntTwOL9Zke`_N@lq?lpyNh{+jrB!V_J8rTVV
z4N-42?2ef|2@_mmK%{Lkk2@MM7(%}7J4RECFrvO7+>#!_>V{+_^4n<&1gpV9%dsDJ
zAut3QJ>YC_u-H(@S3^awFJO#;xjcaDF~s!HoP^gx_51C-FTKU=g!>^w5`5gvJHE8(
zA-VlcFmB)0>2{*qF~?TKVu<f$ZQ1*gquTdj{73~&+a0is+uaAM>UKeIOvbatDEfx<
z#={5OclE?h)l?{krwI>5r0&J7`Y4i3#Ii>H>Mm;l>My55LV;X-e=i)^f8*gUujq?e
z+?el%Ro(tWhb{gKp5Aw(rg$c^yDvu(%Pkm7^zj|N$<nfie0eDmPCfLQ3tKy>m@~8c
zePc2jO6~2i@d&z2??&1lBVx4a%zN>qc{{%Qb?g4l_f1>-A$@dzFK#v_-p<)l_YtlC
zz-$U6L#Dl<53y{U{1DerMq4fuW03Usgzs#dwjb_dyS%x8BHfICj+C~77K1;MPkOS}
zUF~+psQVpLW-sXmGp~JJ(yzPoaEHTp9r2VSHE@--Amy_s|LbV=ow&i9M|JyB60y7s
zsLCD!5t6l{3x~7CfG4Pb{X4dzPFDiV;R9~FPk$?D_J++#izjU}M2!HiJ^--r9%B32
z!`*w9*M!r)QLm2%of)|4VEdZKZ!-gkZ{Ej^5lBM;RMjCCLm&{0rX#z-9Yfw`-;dl)
zT7Yds5L+bf-w#;zuWutrkeqpA(6alM)4!i|Ia5J{0T9$(t2vl76oR3Lwyax%z$xws
z{*JG7D`br&;+}oPlLvg#7~YKlEov&50d9PaV3=P+S0)FbG_J4PLSB2)d@F2$2hamh
zfN|?J&1BaDaJY+@e%-XQ1^4^58Bq6K1iXwgfFOH)nQ*`cq$BWe#2#=gc9+iheSpAs
zo!%J4XZwKWL*N$M^6s1Mj$3|9Bp5Y@bU;np(!e8n6Lv_%_e^0E0vs)nGy#Adyl!vA
zi~td}?Q|4<y4|G3@f#8QT?nU~KCd}$0bEoED5n*O4)C$p?E?(s4}m8=obf(@E|K2`
zc*LR8Km5Mg{J^2xx4VsdfXG9-4(z6V$9ikqY`AYTnD@4UP6AFvAKG^Tmik5*cr`sl
z<F<#p2Ixn82Inqdx|Utf_jUKo4<erLKwzlfja#<t_P5R3yGE<sVzcf6G`R;Ew%)OA
z3w_sp%WE;|tQLnw509?PzW06it$mN(yakxF@vZMWcD@dD3UHBnqt~>*zXw>Y&8&y6
z5&ExvooV;3*}V%qwaH_*@7{5k-n7Q7j)?KwJ0VEf0XxWq?f_ii^*;<ap&zuwADFl9
z>-S8C`%betsRs~4_d1#Ir(P!?exQgHo!w?OS@q_(AQP}T0(ZTZ*TgiW2@c~{94ZZ5
zyO4jFZKj|Z*8ALMU=Ct1GzGqC-nID+P<F5lW7{6;wp*d-0RWvXkF#Vk-U3MESFNsH
z3-A&SH^4nfr^jq^?Ah!_r#qxK!Pp70IrPvjpqES@FOX9Kr#0Y=8~p%~M7@qo0)}Y|
z?9c^-T-vq;gN_5>9GAmnvLRMeENKFuDUfjJJT3sJTsCm?HUYZrFe5Q1Fe`3T-f!G>
znWNrV$nFeSyasnDs*A#i8S=tvpUdiYSW<2PhVR178nu`LLA?#`PnX?h$yyRYtLaw2
z88yKe;_~dI{gATw-7tCt9BIJYz4p6a0ImUs0jiUOTgv(xW_KAqa7|3MAg~ICy$~cE
zJ3#2Cybm2FfZXov`(1{>_B*?_9pGJ!dp?M2AtZ>v_-OEWqi=lM^%}-@nd3%aINc$W
z`5pW<tLKk|UH4*Mz1@7r;ISv*CWM*?2j;Wwhk#jf2EY{2W=uj-wf{B8JxDHffbJWC
zc6iI+k2;L5kY6A6><4`&Th#9TM#8%d|Dnrl0h|x&608Bs@4ki#VblPoFbxm*9Vi_z
z8Sg`hg83n!Z$X3Z9h=Q!-t{>wImezGurG(s;C1P}yT4<y-_<!FM}jS(e!>(A8=w#<
z;QQ{Ia1Vl8pdNxE=n+DW{dX7_9M2I>?%xaV=`+@QCW{#{#B95_{N_CT94`#p;JFOf
z9UgC&)%;Bu{v&Ye9)krQv)fjG0HU`53~l~BBOtH44*ypJhC9G30Q_YI>f|+D;C<Wk
zIuB2n4bB{tmYD9DtTB^82X~&~t~D681WgYh4z!sg4qMb`hG@a<-!-}1?yTGNK(}?z
z09}*8xW6B@*g_%b3jAIsd>6PaAKWA1eb;@6-ppoW5YEFD3$vd6eU~Na_4|{%QK*CQ
z8-x2{0C)XR;Q+e<7Qhj6K@9jWtS(z%-w+FK0d~0O2c9Epiv;ca`lvN&GVUat-d_s=
zzHA8_f#mbsBX*Bj59pxNZnygkFbK!sAqHLuE-^eScH392A&)Jff79o+7_1qi2X(z0
zH9NeHyIz~y9I<}mwq@__-EE!m9%RaCyDyP81IgiXlpwBvyVh#N_e~F>uwr-r+d#qr
zTMV?Fb=&Gp1Ap$l6Ep1X1#a)}IUoe~>j4CahMiWkD++Ok_p64yDQeqyc=z@JFigV}
znXsgtPSb<14YzK6H)J*clGkJ~TcW`87$fE+Q13?TJrB^ZelGxpp{&Cjg!=%JYkdMp
z{Qpb&|LZS5fqKLL3bgtD4(chBF#SiUV+%l?VF7B-{u$J<{X1BG6YBbEFmJ>3C2ap%
zH?RTQq44<^Vbb99YaPX}LjB?lYB}G5`p7ucS{9(zaUVW!!}_1Xx_<@rfGTKsH(~iR
z*ycO1k2b8o1MPna?f(<h_WdJ#hH}5Jyn=K3J=phO!~Fk-@5AYQMTT|vV7U$3{u6xX
zE-WK3Sz(<X+WsE4|5K>bd);;n)7$X*^|Ag6j`R1h9}BeoBg`Yv{u9{#ZD_YaTNbwY
z0On_~j)dQL5B3d<U->_vor8tf|HuCcZJ)rh2hQR5;WGtwf{$SOJJ{y6f1(GzzYY8R
z87%*|@Z0_owntze|0Vnne*vG*;PY$E_J0rG|8<zY4#)X7@SQE#*ELLEg>7HK`Z>&H
znEwMzXV9*L|L`|q`9Hw1{{i;#S|c$E?OvGEFuguEFRW)_e}4j>@4)m+uXPV$&cgZp
z0!%-L<vtt}WD>u!^ZNI|_8FL7ANwaT|9e>fHnjg3_VG7x{;#j;zkqZ80`_wXZ9jlN
ze*<mrz_zb7C4U{3FJU_Z<`|sQFF<=9_I(2L{~6kT2(^rV3H$rc;n=VBB>#JuTVdTl
zhy5MH_in>Be+J)s57zZye>{91!2~6e|LM3^*nS80_dmjVD@+oc%b&qM_o1y0*X&!c
z9h6D_)3;$=64t#w?=iH$2h;xpKk`F3_8-BzZ^QQg8s`56Z2QZw47cc4FgTC@25L5)
z&~^;lzy5DxaE<;A{KnVIua67m$Nyx9$pmfxviko$D_=2v<twX;d_DQT(Z}NM;)@r)
ztwHFxDyVIC^z+h`k@D)<Kt7uu*YAe3z)g}Id`~WVS#mi(vQyC?1{*<%NK>&!=Xto6
zN_AOwF`Y6<l&v0~c5DMAds|5^np91Su?tz@KDwHg`xzB&xz#cmE%o12k^H=JXH%q4
zf2<97nlJ~C(ne)W*9dsiJ)3`TMtiV<zYO~8HUE#BtiRZ*YL#}acR1y?`0P8`<9Osk
zAWGeqlXA2sWK2@XKs!-X^8Jb?rE3kWK#)}tzv(wArqlP2+hG2|6)<{QoNN<9nDb!@
zozG!~3f5hIL^rv10nc=LO|G;l=4x}PI~FTLRl^5pJJX1<{z8tN91=N8nM#G!i>O3~
z_&lv;2nNG5d_j>7@rE;F8h|Ah=&au~nd_61ha4>OXg8zHc|;s?g$&11XuU9PT`P$k
zo}HxCl!8}Md9^i;FuB8`%oGbv`-WfT)Xup~V2#v4HI}<k*|jFKZIs6ew$f2QD|w>v
zT0rJ=f^u`HHS*c3^{VjeE~GJSf^qLilG+%n4L}Gjui()L2<oTGQx^AETS&IvQkySH
zrjU7*?X%}wCl_zg)Q`r8@orNZ9ofkC7^JD0Ww*4(%AKZA9j=p)8z{w8T2il_JOEAS
z@EqsUt-DP4&{u5q5<H$Qy%qM>6~-f0YPkckK4?r`XDQV6L`xi3K%E^a5*T}ATpx$#
zyv#KoFkF7q*~@<v2gUTP(66?mM2^IR!aS6(HAv<XPb;<70uSc2Q7zpnNX4ug`Nq{H
z8FhhdVI)@?)`yoHT5Bxw=VQ?7JEB-3eWNu%saG3T#|^bcUa=&)mCi^g5yMi=@)_Qt
z+KB%ciLu3EgN1h)!uT~vgI|$chz>BhveH|rf&NDsjlGd{_Eu8VL}@{vwa?=nu2QKX
z@v0ngZ8{)Pb3kfi6&vQtX|>O+8EmT2El@ct68S#PR=P5NDp2jdiXI-$6N3(D=+or|
zy3inNQx+f^O&q3%%rdV!mB?cGI58MZaBr=Y2C*hCoo;1`3D@z?$5~nRHr5SrdMWdT
zrXUIln*z4uJwBOdnhnrWP9rjZdC(n#x_z1~qf1b2E=9!?jrJm05S%YZtA|8Anu-K^
z#d?#cs->e?p5&TgE?vx2N{duXI(Fkv*bE+eeOc#cwF5rW^;2h&eI~ZbmL4BP&EaGU
z<K$`c<lHx!fRHwI+Q=L(7NE1Bcs%_NxlT(=`~B!8(fYy=sje9GS#r<}D*o;m5s%lQ
zVWOwWm5)FatB%F_%~5NjMx+%HR<(R`X3(O^^eVk+JFWB*Wy|JjIK>j#Cx!w(jUOqK
zo*7p$8E3=g<5J!K;ib^}R+h!fh5Yl$oW?p`b|ckN$S6w@*I4OkOERnBSz>@G6{#C4
zR8XcoiZU7}Abm%xQeC>)I^U*?8>YAB6IW!0%u8*e+91%Amh%wNO6q*@#d<Q7kU3v$
zf+abq#K9Gwj!I&>=PDf2nW~VCRTngWF}?tV|A3d~?X5QFpa$w@`aWKm$fZsO#nSBs
zMXcLT(nSIvp(JaYboQ&KLZWg?(UsVs;i@}A!Jfh(XkV;1BB1A1>Ghf!ipvMZxd5+<
zN?CXhwl-N0mz`j_k2d%YN8~t=WFHPL*M5$VEqII(zu+egk(XQRY`8re=ZPh}gH@qH
z5Ic)!#ZYNj3{6#cw=DLv-V)#0T;rwYqmB(1>Wt~E4ez!ua*PnuohM5N?cgRdkTkyc
z^zmXU4w-Ia12zvuyqf``KQxnXKd&v5$dxK;k)g)$<4(Dj?b#~yg&4&*6)|5clW}st
zs5{xrI?DH=+{I~lex(Is7YCX*9=%@wQuskgaMfy$|ATt_XRGbF?&w|})m-Z3&!fjU
zSv`FG@lm>L8+ngx51Q|>(Qai<g_f(Y38Ubh51*yEu)893Jx|_`3*Y(XpW@R<TV(!V
z=z5yp{dqD|W*@zvKMgF>>rX*R<!@g)p6`x)FBySAeP@3=y80tVTwyh&_3cDs^|F+|
zy*wUZmY-+TUkgNRH_i3l`eiNj=e}q6&*I;6Zg^uUMkT-hxG;>j5`~6{+${QM@nYdD
zejxLwB$Jr-(^`iF?*qk05Q@E`aQVqeD&L<mk@OF;gEG<2W)6B{V`f0nDCjp5&*P1W
zb2*Gi3W`lqQfwm@`i<z**yMxi)4-X)1qyd&EnHEo9lBF4)I0TpH?ddEKYo{);WO%$
z3jrtA;Egstb@#b~zt$KR9v_4@&B%F)4W-!7!D&`Hkv8S_qD#fcZH7DyHQySjIoxl0
z&@wW&5AjJ&1k0aLr7qmax=yJz;Ibxn!Elk2-MLZY0BPe*c9|;AD|j=`5K8-iq1s*W
zlVP=;T~Mq^M~hTMT*anYTJBftSxX<^L}Nip=oYJ4wB7F28w+)m=NcRV{@+4mqxsu-
zwEIcaRiF~OMD@@~Qsi_J!5ht6t(K`Vnxwh7#x|OGLZQXtIM3V8m>ceCl4v76S}Nxg
z6#iU5nSPn+o@5d@*ixPMlL<l;=4-Y^%zLyqpFai}cIvQ1t>=qs?@UtLIEq0K!j+4u
zHa1N*GVLxH%LWy5Cozpkf0!C)2mM+>iYr+yNP&*mx}k>GcxNReti(X?Ept*Rmcl;=
zxDStNyRIU^J*GR7AbShl9GzQ?(ya;z-DhxOoftH=HVrShiYMI>>*2$5O;N(&vn@6Q
zjU{^Uc|q)Ej|-`)fNDdzX04n(_Efp=iq&C+#klTB1m)hztdHg@<6}`7Wb<UL)Mn)d
z=+HM;L{AJRI!S^~P8BX5tB&YJrif%@qK}>y%AInrX2bE>vd?up84f9&5@7|z_s_Q~
z7gfpIkV^K@c|#Q1(N32b9N<MRV6WE~a$S(IeyCbK%4mutiY3>eJLJHKtSyxuk(es9
zRB3?M@)$1<TUn{V_Op4fx#sYr7csS2do-MQQ)3M@63ZH1VFwyjVW!7K0w=2PouW!w
z3|#H;4hwQXSE9JAR+Eamly2;zL(N&J(J8hZ0`>e(ae<x3Nx7lsF;NO5<-v8o{V^xA
z=4P_5`2+{q^M;BO^m$EJ98TNK5++eJbwq>;QDgg)2B{6ovE9l|A;L78&uc0Q?>qML
z%W5TH&EXSVed^94lO9rck46Q$GtJOgYko<!6n#o<vfhJCQ$7~mLT4IL=z57BHpqiv
zyNeSOtxjo0D8?96ZpCurUh+gO)y}t1vpqq26h6+O-6zRPu(QwoVO^BkqsoXYYDGDN
zRm(XBr%w<2LgpwzE@^ougJ5a3Ss02<aMTD@gm}J@E%}R<%tZmp7g7mD)cmv5<4J@e
z=`kVpa-Aq!7No`DROU;OMk(R{7;i@DqrtTj9UWm^E#3lSwRx-EQaVhwPY;8n^CnN8
zdyDl9F&+zKurjDWMeE00;^2~~Lx(?LXfU;Q`^ut&#T=dEsbA^yy;)~oPdC8FIETVe
zX{wU^xQVpE$nT~ib+V1hASSU`ejN*;acz27ZdDpdInB;Qr7Vl35(Z{=+)cHr9mpB9
z9?={<RlycSGT+u_bT~=-r}dj2UEU1m9V(Is3+#GT7|+M;?%d{`)@vB}G~Jx08~sVV
z%<Ubi^|Y5D%&msNTu42RpUH?NV;^$IJ-UXEW9P5UNj_=oyye7jbi2)$O3JGIL@d=L
ziXG1;omReGAKI84++_9PtZK?9=29y)cm?K1M6lY@q(`$RSfXSlNmIh^c_vrLI+L-i
zTG%|Tm3rAlcf+6ADG*QX;r$e!pc@HA6&gFs<UlFS@O(0xqvlX9hz)ySgq7{^W69Ww
zS5@Ef^R?O>x$3h6f1hhtFG75#qt<IBc?QPEMTw%+HJtDXuPm9DRVp~GQU|C6xlAcp
zW`oRlYZKe5Mp|m6%7|9ifQ#^Av)#){h4%Q;G@1m3>(1fC&(;n;8OiUmBYK)^VL3^=
z0+)(rJb+8TDw%mSwOCY!%7Mhz_oPh7BCkGm;#cdld<Q#kXC|u;DYSc%O=wSw4qj2y
z#!2A?=Fjx}(d=T@d_<35xZWReWKu@c?-U4iB)*r#C`{L=_Fg22qhbGNZ@(;Ezl?IH
zs-!`1$k6Ju%x#n7dF5jg$Eh!dtFR#9`SYCm{@@caQ5F#tyGc)vTPZ&{;?0gV_JP_f
zB*w?aarwz%s5lF?n5w${HohF>o9*zR=fP{rBwdG^P}3}j$Rub1UVJvxLgD8ivL#Nt
z(^xOVB&tHBsi54#ot$+WQIft;M}lDD@cFy=sgwwGlSA>eSB)lwSgCMH{;(nqy`99B
z%~1Xy2tEP#UNq4r4#!MCdN6Li_jt41CQc8*7AD4Sf&}XBFa4?Z2%D(|UbV-Rakksi
zKJV1{UZ;kgFGtu>`g)W~dB^gE#8Z)72&dy8+KycG2F;hi;ik#`Rxwe08dLFulGe?W
zx6${?HBL!iQx-d(tK`N?r9dMK<%A)Rs>^!fhhqU-4<ZFDnSKD-ORmPX8)u|gnn|VO
zQ^FQ6x`Q2RtQ_8eJ=+*bhw!ZLqi2QBM*J6f`*F8%;2pIyxQ)h9)pR_kOR4^uFY@`c
zv2qGG{erp_nbBwMNjNR636Mq16)2E~FN4Zvr@8KRdaYVcBMhjRn|!a#1|aR&?a@L_
zmOd7JpG2-*Npf7Bs9vq<>W|G&5J`_6x>IUrd^t#+AoLlID&rYC!ufeN(q`1t)4(yS
z&b+>vZIgS%Rs?+LVFcUWM^{X@P7;5Z9dO|y>Y^4BH9>Jjjv&{#fGqn}zUzz-funj#
zEQQD20(DsvncBxK8JtPQR#FO@Ae(8uJq}_ABz2UX%L6&@%1SGyQ_clx5=mtl@cw47
zHZu%N#e%bYAjhhMtTG<U)WzlWh%b9Ff?5)nt?XmEJ_=>)%sGCHfqpR4rh0trinO*I
zr<oClqJ-G5lSivbs6NcI1*|0(XSIfOo~ggX<H>SgB)lY(5)WpRM;!W0s+5+c!;07>
z3-m{#F!d&!gC`9_WSLRK{cTBud~Tu;7gbah6PU~e-*(b6)ne)mFqK=STPE`4ux271
z6K<G3tWV12dAk-H%%>YV5^G3<Lij$8d?SY+&jufl7W|$~#9DBH6<;q84rr@K4&mL$
z=UcysFj=zTz{AGys(b{3=8^Kt=t-FCnl&<^t-9Pvw<amU*omJyZn4j>BU8X<ZxQ45
z_*?rgk`Eqiu0R>HQa$#7Q&8&s<oTXhLA$lzPSua=*HzuwWjEpIN*l)0$dHuZ(0(z@
zri)H*p)efa6FDkmk7oI2BH^brm43#@hVO}FGEK&nU^u|d)o#^;2WG{3JDvXVbQ3z$
z)Zt0tK{p>Qk`d=D{P249jf`K-<BL+5N>t}@oO`Q)B|K8J!csq+OZ`QP?8-?2D{PM-
zu|jgiCEht$xQ;WU{y~hjn?kvEX)+Z{pl?@ozp@sGtRT$pA1v~NYwnDlc23)1TsJ}R
zDv~~&3-#_*{b;I!Q$qb1yTN`;tt`tcEK%zhM@uG=;1>kNqor?bGTnGy%~dC74Q5ij
zS83L$!RL7`P%xZT{AJ#?VH?(PBfw1;VavxOO;)m&-DQ^XW>!Hgk7SQm=2E!lk@la;
zM7(@3ERNTP5f~<o+pTuBN+srBR?l48V4m$?v+))5wB0@={Y#ld8nn>bREQ{ZC6~E{
zM1y>vp_oBVNRsjNxy-DasHA52@|a&qxOkur7%cb((<Mcm%YxDaco4n_lv4cmu??$&
z%Thu0@Lx177K*6G(LTF`rz24jqae888J8L_Q!PQB?DJYj{q$y-I!S}E5^X}6{0W^b
zKU%)F!dA#lUlyZz3Va|NqL?m=r-SNjby&|521#NE#0X7y`8`p{9i0gEUf86eU0K2-
zd4Ibr*0EGDy1%NutdREVsJ%W*wLF`?61qC5=kwJiR;jgky1-8s_2N<;T>HW1HdA9L
za?V!{y4RPondjjjC>HR+8r;*=uFx(Cj#yuiJBwy1Sp+$ord(3Vd6Pv5F<Kjg+hc(1
zF&naEufP*2<(HoFNC|SI&G0>`l2SoEkE}4f*B_mu+0%mecs^+M*27@DF~f$P(I`F&
za)^s84$hK6B3)wyYc5e?5Zz5QlyK}C9e0BKY?vQE$Z-4cCxd<A;yM8CA+i;st~
zGBQsmG4)uDcZAa?;QSR<`&Etl^s-cnF^4iGG)f1W<KleGL^EwhXqMB_chAOyAqG}Z
z%3(#p2g6wJqjG6I$Zlm&5l=E;wb7h`1AKu8cfB#y9yIr>mafz+@$PgjaHEQP5l2e-
zULJJSS91|WHAp&vdk37g|Hg8(tj!g&?2U9=$xBpjwWG2AIK5P<)^k}HM+;hmHk*n1
zO{h+Mnadcff&|uOI5#+0tC3_m*&3!+iE5}ass}krgfer14Y#}XnOfFW>fMt=C0FV(
z_)_K-R?Q;U@djFEnq5L|r1+R6(c~pkO4hoZ(rTgvba!g00(Nq2Mx|{$(<KmW7VOpf
zDou&yVmp`4<B!O2D$WP9La5o5sam2r%-3@LG26vbRJy`GqIzX_LdZ|r;VAC+vx%+{
zL%U_X-34nd5oIHtil6F26xz=gY8xdJ!yCo=^Bz?Qpr9vzG;Wt^ZH;RMjLNPQv{op)
zlxl-UippH>*kW$3&9zt4boXJh(<Z`^!d^XmZhTTHW=blHRq{x>KRnFpd8ut>5ajbi
zeuPbeivnfI6-OKsl)JMf)$BxT*+K~`sYJRpY_?OJzetx_$yt&2uYV|v0XS9*lXm+&
za#_2qbeDr#C;c*mKC2RSB|~^~=~w|9s{?tZ28Wpzovb|;)$Ed_=Pp5gbk-}z&|F~{
zbQekNSvHpo4Eu9A&_Crby7xCj?x_@sgZ0gb7~%tIxqjM^GnoTRsYEvDXvYQCBPVvh
zOePrlob)r1Lnh1D95t{Ctzk4K=lCjv2V`=P7=`@uR70;bdc>BNJc+uy*I%lI)}^w+
z+Tzi}qQtfHhiL`9C})yGYTAm|Wp|mAMTstaGvZ|0>Bek=1wPekt=Nf2Jj{PwIFP&S
zU9R2)vE>3&8jpLU1d<!gy%_eWw>Y4?Gciy0Lj%>srm1x>f-xkCS<ukoMa7qeA@3#z
z4vj?Ss2iX!<7{)F*+FxK_7fnl62e<lWXcKhl>4kSVM*|-JV>^&VqL7{W-6s{eObq}
z3LqjRWKi&R=-7nhyplc?^39f*$Cz5of~Ie#AY!A|C{uZ;W74tatWO{2u!Vm!T#J(+
z{4nVC+9E|YRy0kv@J}`|g#k>z6cW{|RaQbCdlnQb_@8EXFY@T0jjWgX$oplCs0{Ac
zj=Ef@=B#<#<-f*OvR`wjpJ~J1*f3wxbTn1Tc6*tIWgR*GB+VVCq?F9$>s3#(N*oeo
zr?Dpsp(OPr{?@uWn(@^rGER1Keb+b3>-X?<6Kj$;lBHGcbH^=ZPixe=tJaz#e%=5H
zL=oYtOk!1<ezapt48m3apsXaG#$O!B<yS3lt9UGU3w6X-gz802Jgc`UI=Up3ai=)(
z{zy!^3G|EHkN&tOh61H(@z?&<oAsyv`{V*Ydp5=j(bdJbj{G_MS=NKE9%)Z{t<|rW
zpQxX8e#!LHM1n|kg9q_K>y`7DSB;m%nCL$4U#{zkKi^{Uw(jyT<XcX4C>?@PW;VnJ
z=JCIp#Ea?S-3fV0{wCXc@iZ>{v&`QgcOuPl$J+Sl{PXbw-DDAmJ#z2Ko`O`%`}0gA
z`7`O6SPOpnhXRwMn)v2OeLwWG4}YUE30Z#duh0J-ANgPwq&q^2-dn^=7x9yW&w2H<
z^8Q{3`2-y$^WO0T#&`4ny7Ih<ck9vqWJ1<S#xfQA(#V6{^o40K8c@RMN?=|@Sr7M2
zZhpV;tRrjHg(sXSriQH$c9KkPT7%w*U=xP#7^LW^Q=0ewz0^q$=ysw~ZRu)E;E%Em
zcE4dEuYbH!JU6G;?O{P)o;~*0wiA%ug1*-9glDP9O{Vd56-!c0>OsDkd=a1{&lbP5
zU|1PJQ*BA*8eQy1^dWZ9#X11w5p%G8oKfy%r-UAg@owpuZnE}4BehsEG)bkzRVAAv
zc6hRWs-4eSUz&nwo(*Z$l*%V=>bZ2iHjo-|)!tmE!mZ75qEST2n#4LKp+4wS-RA3?
z1z~L%_DT9WJKU(eFsX-#4EsS&YYrJPUc~DCS^jDyKHcZU%10&HnPd8cQt3{L2xrN%
z%;$@V6J~Uwc58XBmPw-p-{E?$x!W`sTYQLLHo%hJT>KOi#Xgw7Y9VNIfdw;L&(_&|
zl)o5o`NvDBR{VmPJM-KTjSeyKZ^HQGlxEMW7ah~gHVS?)yNLg)fX6pIhj{M5FNdT1
z)#F+};LOpP9QvqPz1LluXK42aIDT024?5!=B3-49tchqUx0EPv`N<%D{d_D%L~Ir*
zSQ>{c;V!0JIKO(vDef||JnFuyaGjXOV9s=-=U2#kv>r`|D$VkFQbosM(i?f_gHiqG
z>_m_i%UNB^M<<Lj$(%g-T#Qc}trf_r%8l`Ynm6!qhL_Smm0dX@9ik5gOC<5`jWS`z
z&K5D~AirYZDE~ECT;<#{NX7dzwlFhysl=!keF>Q8F`q3~#nGs(3J-|6<GnmrQ5r{e
zE{CC-L_UZf>F6Rxjo+2B^p(FD|5>@JJc?fx@nPf5k7of32cFFS><E8Po#<M<hq_*i
z$TiZ_iyzI-O<W?;b7@DtKWK+X*B+US&hv?6=>}X`iZ=3`^sR^QnC`x9d>=Ktj9Fh~
z-8j5r9u6LsugViDTFD;~!G1To;L<5DAOQ!`zL)p^v6M(DWpW*@{djadDG>!*+h20O
z;rh4g_lV&uRN*ai_yf>t6VGM77=`y@D{{;n)|{Azd(y+q)zv~J?9KKM<nD>7T>BHS
z?Bp=j|4JyoJ)N)e#hiRDe&M~&pC)OEz^>^_#&Du3TB;7-n|0a4AzY}OTg75}R8b~I
z>CUv7iX9e_wGi~?SiUrV-`MavB99`9md<O<AmuA``h^aW5$ArUu2cu>2?o3}(f!)A
zhhnu-r7g@(X73KW*2a>nR58{$4CW(?@)U1-FVLj#aVK)k9u;zNf$wMLrz2Zv@w^)?
z(ZP%3&+;*Ubxxn$TiDnETXL70D)@`)TG+`=)O6lCx^z!M!YC7A`h8V|NP}xCoyH`p
zx(obDJ@^yOEZUax+$5{)hu!Zbi(+a*bFW>km3s5f9V+j1wKT;;^fR#^%v5!>sLy7f
zX0bxJRlpbRj`pAy7M1_#y8Ve*jWc~=IG*Oz2!X8mLp=lyhRXn3a?n(;wBNE{q%*xB
zW5>t>)pov0EWE4XqikmrToNBdiRdKmoM6?18R;$uc0)<z$q7%mhWY?`tEiq8lFS?N
zMtIB|&%aFZntW@Rs^l_}i72DT<t5R2b&VyZ)HJ#X?Ik9U2AokKCnah;pe7Lkj8uj4
zZ8b5M&tiq6Ri`^T({e+$P*tN`2~1lWC*FEP?#c3xnj!D9aoCa~tGHAVv)uR*T}wZm
zSGES#IdZ@^p8{mo+b;QYxhc3)+q!}VZeuK;9;PHE-iq#vOwZY-!Z$}DmF2bM>4F=r
zRP%V^nr)IN+__pPQsvU#1m`z~OgFN`4pIq(!D=j7&8qiw6IYaB=>;3de$2l=D8A>c
z@oIOXj&whTfqiBo6N`gUTk6rfm3pHff9oT+ve*d4`paC~y=jY+!eMsyEGwKxG6CAs
zob@0*i!NrF<8~uH%#`HZ?rm*FKkj`P%bAq-lb+M%B0t*{%44<{5K}$k%SnFlc@J|B
zexxO;>8oN6ZOXYp<g)v1%}T%fiIBxU8p#LQw|!VcB&Dd?*#5LhK4GpNmxjk@gSY6@
zn!W6v*^Yx5gzFZh&dXxrC<eB{-87;|2;sx?od%gBgNNDHxmIEOmC~m9d@T3cBRif?
z_XC&sreW*U6(Zg5W=C8%FS!LVrnU!<5c;MfL*&$PQ!C|32;Qd;)F`%wDt($J$^*<%
zo1)Qt+V^U6)`@5Wp->cw<>zOE?P#NYS`sKF{Yle+(V6~Kl;(v%J1cQSbXJjvi<U_M
zrhhb;Rt70|vzr9l#bG#IQVW@KrP2+rqPaDGZi>V@L*;~uD5KJZDs<md0zu_{nYz}<
z^PcqDIPY;iElsMduv)Z2Bfjk)99Hw~oJ^S7r}nx>+7>#<v_}@Odhf-k2+3xi^9c67
zoV@_+>?bi0F9O@K?x(2aPBxrgt`-)s@KKB%*Q;nDtrJQ}{ZSheX-R!L*Jj~*K{NpR
zAgCDStkc66!D6#kIHIXF{-;kb(Q*tu{`ggPT4a-#-ZFYM@8|f;nu$`Ad?zRbzFS-g
z)q4A&^u0v%0}AP`(;G|bl0(Mh;n|RwdK5YiDy{bsdGaJYmivtcwV`{U_}ELe@lY$t
zMDtU$L*7!0;}|;?M0d@2{wkU|jLdRkGd7adR+kLoQW%s|1DFG?1h~HGGXVr=v-L*H
z3nXpvV3v9J@%&+{{FCwX=j}A-(ECnedqr+mPKZ;qx4>jTGH+Ma9|p?lRTiB#Vueh%
zbSUzR#|Isz(45IZ>SkE{a^f7&iF_oxKP6*XXAVb>vnPHpfgl83eHK`pge`#yc3w4d
zAMUBM_BPx6GGo-1<C4D{@Z%nJaTZ(q!nq41+}<wd$%gDqnb~$NJXf>%`W_C_s8zmZ
z?ppV>>{3DIIqm+gs$}Ygfwuaa28v6^aT4lC{BGQzPj4t{|FBw?=9}%n?~|u}{9XOv
zB!27wCs8qw%U4svsy&gF*nN4Fml>Ttn`oZJMx}BucNM@3#hQcXzlJ&GkIsKDIc>Jv
zsyAL73;QP(BIZFV;2}<yU*W9|awVEyW(K@P>q5rB3!BvY3K<fx1xkb~jl!Ja^WZOy
zPPvARF4(U<PHXu}PMc>eLMbZsT8LK9q=F}Q#iD4*av6Pi)1?onVzrbLs8QBm%XLca
zRe5ms_)#K1SV(B`vMYQ)1*S=Dg&UVXNVl~{^Ti{F;nNSQg1{w+WvkYkFr^I>>YlQ>
ze%qVq<Pt?AWpClqq;Pav@$^-RsuracDId}PP*aW9?M;?yGB-Xp*2tE5&XOiif=WQ1
z&QeMIFyNnuHC~MSnb>imSzWL5NF+q}7tJwVNcK}tB%CCIOgSH%MpB`&_nhKyL~<o3
zwP3sDfJy=k$v&5=l_bG0aXI7F9&U0u#57H|+ofgav|`IoTWq@7cpiT_iKbi$2p5&Z
zad|W`wl`A@h{J9-lIhlJ$$h1iNT9J5TVr}vdCHd$=TkOazQg1xI^8|wTIF_bloQJ>
zLPXX*zmL>1Vxx+kM#)&8Cn|PCT#AtnjS+=zp--O6IRr1R<$96mrmDyf(rgXKSf&J?
z=_ofX$hFdWU0FP{UIJvyHZZ)u)P9Ik9knd7FRLLXi1tGSjTtR{y59}-@(?xF=@|Q^
zA&cH>6M(g><ji5eB9^kX5`i;fza=4+c)Ns`TB%fnB7EZ}h2j;ljY^R|TXf!VS&kNk
z0<l!c1;XLnG!`4qAnLA$yY*O?RJC+8)a{E0-3ZPl2S`j9D}+2FI3}v_!A4FTrT0ap
zkCt(NlP(KQF~?C+GS_W3&iEOnE&_7(GI|hF>L){RqgVMk@Dg~7Pmyx6bU0rpyA+-W
z!niB3Op1_LPC=xu<QSt;vly>ZA%+W~C6OPuqtlkxK49VIACCcOC7NYk8Z;}hzKly{
zZ7>m{1aqi0sWm4I=;o}G^F!}b?<t+ar0~8pC4q+{kVJ=%hZ5fYfX`3pj#%oHiBbs5
z#hH2Tx-%szkqJ+X^*Kz2$_6fwu8_b<5_G{@IZ%9^rTT<#RA??@XfA4z975C-pMOl{
zo;9nQ8dOV4PHN-_<A-?pf=zc+dZ_e{X_TmHiKGIy#0SNE63cUr_ZT%Y;^NYZO@+{A
z%Qv_zlTLDujoAu!I>4H8x-56#uD7DdB%o_ngJq3&^AmhfDQDYCV1^L+Sx>!G;`wBZ
zuMOUZ|6A46ocF3wX+>{F&a1oGhogR<jz8pAeMrV)wPEV?X?9AUQp{RQ7dg$hNt4<m
zCX!{5;jWNTOOG-UWSCTjo3@5K`FMwqu>D1#nayi!>(ThY%XI^hRJ2ye9LzoAuMPC~
zCY`@lPMo1Pf@@K(YN<4qTomQ^oGaR!iTLmKv4@j9AUBmrZQGf&et7&iySR9BUKW(X
z{RXDII_!5}p61@mJ&_KnKiE7~kTQAEOaID(@fQEH`;C|K*^ioXB1J}y^3`Nk+5APR
z%0=@YK$mUGHoq!JKSZDX;CzToy{(y&b%lPVyLr<3BXcy@jzIMd<J$dQ<bzi$U-zTW
zkiZX|4V1tByJxua>NkdW|F~qmcwMu^e53v7MKzho<8l?hs8{ZtW?8y&DhgSn|Eq<1
z<o&@R#jm|;$9I_b;(-IM;Ca@bRWqL@trfX?tT3f&q<B*J(PMXrOjfnaqlf&^PMy@(
z;irGa9xYvxSj$?LV{cO^Fnqa+AB9ieFEyXkE~D8j3xktfukh3N&=ty53$yhcZ0M|H
z%p9*Z8>dHeKBj4_$N`w4CP6+PC!2-nAU;V~4*SZpbUqN4`hVX1sbS>GD3@d5qHH^I
zel%MCUNMe6y!zS4Kf$jA<;(~bZ&`%sw*<~mMm@bpAc<X40@1?a3p+ab!Fe7jSFpq5
zn`xb{X*4n|fLG9IzVtRdxMtXs9wx`5RN}+S5T|btC7<IbMDtWSX8pTztKdq_?(Pp>
zLWUSDAGYxOX3g;2rC&{d@2^#kH{(<F1})w>DwI~!bt%`Wicv}#trD*)<D8cHB=p_B
z#eec;o*SP`*b(yM-+4duN&tcpZA?!Kx#if;DC$#FzJ&4PPsS&!gFR|(#m^RXU*4Ns
zlc{R+Sp3Vg$kBCNVrP{;b3C@GVt=Ycei_w#H|=MI8(*c6o4>{CHMu`v!u^_>ZaM$C
zP8N}NRqO=5o|vYhG5(#dGRtfvx?3nQ`!*z6j8AV7GhsR43!~V#YW*5knk@(%;x3_n
z)p%vwo1~geI+8!CRN4n=yvnusoZP6F&yHT!4_&75<Cv%Z<DaB6Z4RE7hVzGYz~wt9
zxm3kQ8cLB`p4m_pr979EQQ{yfj5(#TtjHqa!l`1rHY10{0DBoZZqZbuUZ?WyY^BsZ
z6cvPyCUX$(H<aOM(rxq+iv1jCI&=`{aI~TF`GBWXD%YN8!+1>!&??rFV(!ycpYM+X
z5uP|=bCbe2!{H2-r3dSR%1uyGVDj=HRZoqQ@*oP9x1?~9tGJLvrpaWl8^n+EwRqi?
zE%N;oD~mm`<&9!h{ymb~?WOL{`}hr-=f_OLG#m~_foJJdAV?RSx!itrrV1(}wKyWx
zVh)pWMJ*<)?-PMZ^K?@x4lBPP#%m0HGUSyHVk9|`@ZR8=@YCt;n-xils9z*=oaC+?
zAY`d}uQk6QIuCvM3X~`j>&6k=m^I~My7FbG)><XXZ1YLvbbj_09?Tw{N7bpLIT|@~
z=UAtmFH{1l5e5dW;R=rFDf;p7y6%~4JU45c+uH?~SDQ?U;0PDcS}!|i8e*Y5!D~&=
zj2(2_XA#<tpZ3gdm6A0v|G69^H$wWf78)Zb)f|Ms*pQ;C7vb(eTlc(y;eh7FB|hqv
z6Sc84dcvbu<z5O~@;qRH#HQav#hSlN&wB23ewwtGnN)}i<(W}j%x?Um*eBRWTwJa!
znzNj1n9Wq%Hj#>_>gW<E-wLVKEn|E6(9z@~$!7L$56aBBqm&McT%$<SeAca20Lf1;
zqb2#WA4Z|NgqUH8I^~Vmn^ZH~<GQ&)E!3kISfVTW^ZZruIT)<TBW18C7OuyOaFHRP
znt<$;tC%_)iP-UcjLXH`0B@1i`H39beBi1URgNa0HX!HPAPp(i;jeOwd?X}H4x|dt
z)T41J#b(=_(m!=ed{%`3=5ju$R!4JgfMC%&{<^$5-Ob}g6&nzcwUp&thmxgA2!HeC
zRM4Ey(rgHD4FtpZL!3x_@?ljg7xz{6PRqNjYC6qUuF(xox6gB<>!2jv2xqHC=LwX*
zB}*^b5_VAD;A6*Om>oCGv~U_G2P1s^9jcBrve(%~4QhoMoN{OI<hl|bmZE;N1_l9y
zzLzb(L<7V5O=^U86U))ZNj$z?+AKmm0OW+c);^v6@b|J%0xoCH1fF_(W`7{{e)yP=
zb{d{y%qykKlTB@fNxtNW^!UYJlxxT_Kpm&Ks|J(*tLs8#ILl`VeKI`C<DSzJq13At
ze=EW_yzj3Fm#vc-3fcZLFj1Qxs?)?W)p9-2l!^NB^SWA*?u4V4*^ZzH`T@C^bf$`J
zidy#$xH?)K&mQ5c?2&NrxHgNNyDnO99=Rsv0=e9Ikwb$g>S+Ti(xt1>sh{P<VKShi
z`DMXUenpTgsarcCrio;4jR=utvMRIQP7{B@HCv3V$@rqV&<wy9X8421r?|IS657WU
zJR5Hw(P^xvZPOP+&KkFZEk(Vhs6*}S#E5os2MOy*sNLY7Ph)3g8nYu`p5HDA@5S@W
z9I=+rOXG2>UoF$tYzjY=>zP3|{o<UiL-0m7fi(wT90cz_m&%vITg21sAt^C+t5zMn
z*pEg@Wj1lvO3kd&d7hC24fOt>toIv5hO*E8D7Xwo+7r4q4svTu_!)7+D3KA^ekZTA
zf%wS_nPO1%38EqQpR;}bb9eI@vO=1|CcDV*@rxuX@#VgI0HJP^PRj2cqFo<3E^77A
z^|)uL;&Lf))M)ier@rIE8kQhOxu}Mv5*Xp(<o3+pAC=ewdA_L~M<g~;^$mz%C6XG~
z8)zltU5BbzbDGp1Bcrp>yM+~zE-|uo8V+%VOLx+)p0^bd+Z*>!`2W?1+B>J?+MEkN
z$)GP5NS*W0Bee1!UP01;;P*+U^<p+JsqysT26)BGbu8A&^k$`a2i0V5wdTH^%EY~o
zQZidQtbQjrsva0xAA~M`tFdfu7ot>J^~_cT)J9J_g^l*3H)p1ura6-OeR9wF61z!p
z(PO$*5gyw-nPY;yww)f+vqc7fJT0e6ia8x_D40`uobc$XzQnugplrH`E}^RABuyh6
zx-n|PiwJVrtbz4XX{-}^BVh$b1#R}z;VbKl?AZ2@l-j~$>X5$|s?9S*yv6FhzBlB|
z@u1ewO|tuJvwONF|JW~8(r$;-C!+Z2#dyRk`zhlQ-@mC(1)%;CA=ScNzJwCr6Q41f
z$8sABll<^{EPe){h8!en#n0K?RjV-gk$mADRsdpt*jP@cp-;-!1@yAToQ^JoWn|%D
zE~_8c*K)CXByYUSt2<TGLDsuy@a)qo*2Im|HtvNzJ$oNXa5eS!Pt(R%X2oZHCe^!1
z!Lo^Ym=XKpy}i<NgrcM}Bdhi31fJJKBZYU?)2598!xEu`hQSRStS_38`Bf@2fDpwT
za~6*K-$m)-x~b&YkFYka^s-nYtVtQGWYmfzc-e38@`+S!F|#&01Ri_Q88Gss*PJf0
z%&-vcUn+xki+C&_j;l`DcR7d3L0)-Q?$C#gdQJu~OcKf`WTaepx#)9AO*k9(XO0}v
z`;@m97UyV~8|E3MH*MhBP`!{wwRsZhmNWC>v<lfu2NPPUCM&9Un#8e?Z#`9@0t+p9
zrvu=YPizMO_~1cml%(`S8Nt?{|GzA~SFj{me%?n(A%z$s6_kQOf(`(&yO{Mm)6+fe
z-Swu-E$^~2E4}yLR92Sv=6c`0d!}cm$L!9`VjTel04^YcK`<mhP)HAg6qNWtz9{q{
zMJTj72<oBYM&GW=lX<J^<T?NU_x-*$QoeYs?;p2%`eg#`j!^sZ{r$m%nRF8M122$z
zCkJJCXs23?o_;%Fojx%Z)u$glMslYPC@w$T9m~}@e5fJg4ff^kS=uT;@Jpk%I59VK
zdif>uGiHpz-G_&t{EL#TRk~+~yV*~;S4sMTSbhHhKqhE{`dBZ{K0mm@3rFp;A54yh
zwce;Yv4Y{FhK!6StW1T2#r%L5g5!agglkBrUH)l93cs)ym>oG$w-V{M_x;^db~1WA
z9cP;G^ea_oN_MC5!*zK8{oYzz8M~EN{d$-09fQcFo!W)WPoJSuVK@qb`2;8^;L>W)
z3y({e^6tv~NtfNN9e3m(f;$C8j|FajD7O~z<@xI-Lc>XC^w>CP^J43q{h@)K0L9FY
zj>>4b(bF7|xQ#uo?#fGTL!2#&OnXS3IoyE>r1+@X5Rt*-)nh%^bYWUY2a=JVHZc4+
zf`x!*ic@%Eno(oa)w~n`L$YOaCnZ+Yezu#pP)}`FPU%#`OR{HN&s-GbUGimVU<!GN
zI#F7hz_z8S*K{VGZvRrP8`DmjbE}^YXDZEIav_<9W&}P4&bJHyd~c%xgt=v<?H)}B
zy+z<<M|$jH+y`caN4)HxpSGAr<1tNbERc&yEFZgg760*1<w;k#BHS4CKeRr4^P|sO
zR2%Nyd*oI7tAFO}Ct8dHys`fz`d3B80(FR&Pnv^DhMONv7-%ScYGmFNdaoX_muvmE
zl@G1)lV~P?@uc>(=D$XXk3l5Kndj3Wh!}f(?_TNJmsiYJ820{A-6(9<oyT?R&x3Z*
z8&|h8#{>FGFa5hOR+>K(l<}X0E2V<TzPxH7|9Bm9<}VWd;!X6&y|lP;GTW=ppN5}G
zW8yQNDN0d{2w^p>EvnLtn*8pfQTlNI;v94$r~Hml{bg?)Wd_nFF3;;vY%`_rzmaRz
zurc0HEe~2)-J?gI(w*04Gj|FLGp+Tb8*a#mF}K;j4d)p`rLcplVbx({@AYupIjEfV
zI5)E^)4`N*o2?}7wbKtvPcLQ<ub&RXv!U6eyRb)0Kb@N#RyfoWz3FaK>Ky&idZ6Ac
zRNyuO$wB^hcQo-9Pr?t5cZ0+qYQyWr*5yYP+YGpYT`+Z!E-SxsZPvZ;n`(&rLd!J_
zvEv3A(0U4bY;T;K(e(*0dBNB)M;}5dX66r-2H%SqV{Z^WvrN|Y^-L`n1(^BqS)<8W
z8LiM&k9rQxB!_aI@AY<R+Lc&BaDcm~*@{kV`qK1FanB7P+qDewfR)cNeKEYFgxsrE
zXHPfP232pW`?JGom(v@D+F*uKGzgT7+~B<PVkgzFO^bRo>`W>rB+Xif$`sjKtUaZ}
ze@n<lL9E3Jhk8qOBc<;5eTzE)vmEt>Re8ycH*v`)lm64!KOPgu^WhWI;fA{BobAJ)
zrCv8ThQM#&ZCxUR_KerU@<cs+@&Stt4$D}7W7?@&yUKP|>h0EyfXj``U!E+WuBm@4
z4+`Y|x@$5IFB_tp3}DdS-miVKUUu`&&3-Fpj=JK@;-bEY!gFcn)@7TJ@t?6xr|d;%
z7bfN4dxZW3do0BJqb8<Rt#W4{&IyxoqjidryE{cAy!&PSa4_DZ&N`EzZ}cL5ai!lm
zX9vD8mz-Tcb$n>T?C2$!>sjJUpb+_J)6Mo+`65z($T?Mpxirs>Xf{V1@_cNJ4%|;H
zZQ&NWua`*X{c~-+YxnHRjh7DALdBP|+B$4?`|fu4V$s~&SvYF;=nvDAPWt)NTIb^9
zi`^TdcNT))m_=T6s)&A88=T!XtR4^2U^huNo0)5QqqP&e@W&X5zKopm)d9tDS8AX)
zGAxZRdStJ)2cLr;n3re~%hJ<*ATW;JH2QBO1eO|PW55FVWe6o2%5FVcI31rK-pm~4
zrvcP&v#SnAf6{*?j<jZ2R-02ZHlAbl8Ikw#YjR|bUdG~8C8=2f=t@%6E}_4lI{v6#
z-(y#%YV+}YO+*erK=$?r{sm`v+r3Vg5Q<M)g$fzn($RM&(P`Cs5$&{YTF%a1>udo5
zca-^);dA=F*J0iqo)`_04BP$XXFWUYAA!59`V~;*eW<7LHGAT3HBL%fJti^3Y&@m!
z864`79dtCj9233E&*GvK%=pM^ONG0vvy2tTiUM3PNAL6X^2vo+54rwh{na_8yH14*
z+WE$y(?5EpC;?|%j|YAWDhcXAyVdH|gb456JrlE+-GNmzK0j_)ji*X59X8FfvwYDR
zO~5j38su(rvlG5$J>9Qwj*#ed*tc4*&ETt(yxk>ss++Y&olx_IS!6v?`g>*2WbL<z
zOnyXJ!H1pw^rGIVpSA8iJTUqVz*&x-y(}QYw-~42f4t$>icf6G%sh*d&;CX4+n)K3
zab*TJCm$WmnzYoN40nGxW{mF_>wCQ5FEw56G<A@Bc8@2@OxrR85jy_-Wk8>Hi_Nh2
z_*oN3w#w;RFy=&P&%EMf7-t=*m}}qRYNrud8#f_Vf4p8835ScpaZS=jD5*~yiqL5Y
zhsStLppM#kA~Jbdat9tWmqQ#Cb(mHadmJ9s`aF<QWHq~=H_0q8KahPE<Rs_YEN_7T
zSAma0^oY-A#AeTqaD@sd&`%Cb@zUazB-$T$4?6|S$greg@(oCUyV(x{Eu2ZO9a!TG
z<-4atuy8{`3U84J8i%1h38tV$QT6IAOQGbMT6*qwo}MdfZ(L;POU=PQdk!<+pAIX?
zAbiR{nqC$UPm$f>?;jn08Yhl9R>B9Z`0-!-{sEM(5!`3WU<+8KK70S^@5k_!>>-A3
zHzE7=cRR5+PuknwHwU2okw*r-%~<P$7Xj6_Cf%cbU-Y?H;GL)ps3<*N>!q$eZ(=;E
zslDw;BRj*v7K0uBtab1?Ve7+5k2HW0$aQ{l>DL+inS)|O2`<1tnSGGy^3kBqAFgtW
z13mx4T?cJ2@6FW^DHrwnuptg%vX8Y`yu?d;<kV>SpLF&+jjbQ2FY)1XuCsod?0m}M
zSp8@mapnY0PCv4L+8kLbSZc+_-lvS(><rq~dZ+m6X>M~ol@k*EhB=-;Xxix{ml<*h
zHRPI4_S{;z_i}$;Y8t<PzN`wsU;IV^dZs99#q80eOCNqS-M4maS2>`=C(J8+Dazmf
zMQ*xb%Xs4R=GukwC*G>ryghMF2KhU)A<G=JFQ#zNv+|mL7Mv7kA#sPijf{x(%if#8
z?dIuB5d2U7ur$iigm%)X?-KQGU~2h*Qbz0m;mP9<7Y1$$AAI;^q!QbIz!1Ooo_`*;
zIMyn+3oow77tQVo);S<9ghBPYZMy6q(Vq<-Aw9)6^0oKN*!ija7$5f2r{qbdduCc+
ze4g!_AB<ewbX(3}nE3~njY)M#-l2uV;Gg%HZXMezJ+t;a8h8fzzVk%Yo6sKDeceb-
zI_!(He(Mj+(W_zWoPUWo=JnqNR<|CJyQRG6_xJj>fbX2*#y+s;j2l01?bR3a^ZMzb
zu;&f01^vlNQjDzJ$3Al86nI@=8un>0m3p@J5hnZ+NXJGWM5Wcm4;7GS>fDR`?nmR|
zad%ZDK+%>D`KUR%d{zmoB|Z5(^=OoGh8iTy68_+WIE+A_NA8y=!WGgbyyZIY;IU16
zd{h>h5fHGp*mppXAZv+HL<g>r+aG$n6{KwsjbqXD#s_biAJe^*XwIzE^oK(48L`43
zfrl~elf{9VZtd+1p74va{m?wi<oI3dY>%q)#Bc0rMsu=g9YHv-$@x<C5#yWi`#)vI
zvmYO#KY4Nd=)fUS_JDY6pz8qle(20Yow+~mVhQ1c#PiKinLZ8e`Nhhk59|dHkU2I~
z-xIgn%t6ea^<KZ~^M~zz30OS$ePiF!xtP{5!>>*VDJ|<@1K=Q&E}0k2=M(l1$z~fp
zN&aHCRVxLz&u0gZgx*ox?NT2Ai9YTBmwtryZotvb{7Z)L*59G8&0fx=7jnxyN-e^A
zu5oF0X8*=ad5?c8XMnY%+sN!O7w})sH``A#gY6%`{o%9qZ=dYmo_t;SNk9C9rh<GT
z8!uk(ZoO;1FziZYi(PNd8cnL;1^t!x`|dx>3o|3H|NQ8cZGPQ*bAT6i&y`3PL`vgw
z!25#T-y*H^%`)@)gXbZ6kb~7t-rSZ9+vJ9C@^i$w<1{`i#MLu3ID8+Hs6S|F_Y-Ju
zzjfXb-P5l0s+BTcdXsI}Ddj$>?9X<hiuPI2*t4I1E3fq2*>C>txAsJTh~yso8y*$a
zzBikH@_OI=aC?6~p!5yrN3qJY^rHbm-hSFR9YM_TV_huie?0y;@w{-tT_={O&9c?`
zBe1D_HmVNh)en?UzU)4IHTfQIj4n_AeIma1@h8{E-k033ekjDkpAXMwdF3Kqme;!J
z7}<U(o>`rZEw)@AJ<^^vYwb>{`|U0oKikio#ZEp7#d!M|WOnb=jN@WOJY}J6jP)DM
z^VRfDZ@0tF&BL3-&%^GQDx_B7Bh94LL00Nnzw<~QNd0bswA$r)FHHXqjQp8bY0BeV
zR#8cET<%;lU%g0cA5_uTbpL`FeY&=ubX<uxsmDLAt?nkNPhD7W^u_BG+ifEwrYyfX
zF7NKv%dbrCGuzXc614l%1yHU=5zceNXF30;ndi$iM?o#|>6T6XjCIEC-CPNm9swg^
zAap6A(LT4vE;A{s#a?@H(VQBD;hvtF(3{~%tB5`+vG@M@SQG=*PWGZ`deN;~<I4&1
z8FL|d!_tZGYXrO#w0_Y%1=6|0tFywZ`f)v&<wa1lf7$_7h*z30d9|ONh5Rc(;a4s`
zv)l(qrtnc8-)lH;ZCs+DQl<t{i@Dm5RlAT0Th?T!Z!Rl%2R}PH==Xd*W=tDG{rj|7
zH|m}!pK$JB9;oKePaaNc9ls-(QTZ4MpAWG8T%K{}sxk$#gR!;?>N@pSdX9{Gao&HE
z@R?-)WYC)SdzX(Fl{xlB-BGGL?33f*7vkZT+mKqFT|b<cj+rg!y`wv-+o%tRrMqVx
z34-U+@R{1*t#q-=Xj6Fkc+ow(H!=95`_H&8-uy{SI>Y3nL#z{c?gzbz`z4b(e$lP*
ztujB6&~U6i!uEvyi+%cF;OzJ{eF!;N8?v8CWGvOKlvOjTV4y$S0BVZkVew0>JwVR#
z1KK>$3SnyhfcUs%4>rw7<JhZIdfju<b4`RkIWhP8le4u9*`qS`S4rl>(PAP8t-jYr
z)-F2CVo+yLBb+uF(t*_Brrs|e#78|zM`YTyQnEC&CHF82Q^zc!9p_O^Z$@?C0qY50
z?0;0fl&g>V%bB{EpYC(I_~ys5BFLkWFSyS0VXHh}7<QGm-RY)lyr}b^5$43$&>{nG
zFAKQEefGQoKIpHFWRyFrk7}C!#bh%BtS?3{ZdmQvn+)tplfceCXEP^;zF5yne~POt
zJWjHN(i#GH;qQ!g^Qdfhdj!|}RNUWYK3xcw5kkBEl(hqRvS;xgHmJLFtviz&?&XsK
zy`gB?X$RNd1f#*y)ZiW;np@9yPo3rpx3|yOUEAN=wYu`Gw%9-N_f2r|g~>j4M~XVs
z!25?+2mUUwBzd^c@76(~Tb}oinf=)>PTpy#zM>#Txup(9>EQwceb6Go?tQ8jnrzqf
zSH99dJe>>s)~nBIr%7qQ(LOD!KiWLHw?Df|&fL;x0;*nqm0Kz{dc&Xp<X^oHjOgp+
z_1DdRjsMF9miZpolvbHSJ!(BF-RvkM&}%-Ra_WHuCBiL9{_p-2-G5PfeM;t9|Lsxu
zK`wb2d-&-lNj}VdQk_ok$_)~I9KPEB;hAT%bB#AZ^`H%$^T(RmHr(E%RyEzd>7si8
zecoxoz7NEV71Y*yqhnjFgpF$ON@9S)oEq3|f3=OOQFw}z_JKIBcjsykNUdx0fR){F
z?2e8Npoa0)ZTY1+17#x66(hGm9dN!soAQr+1)vT5;eyEZORMBCd8)nt^!Q_Se|(XM
z!k$X>_xOp>Xzm)r5qzAHh&6iFE;T;}#!XTaplzTi_V7$l8xBO6^)9k4(e8Zt5z6Ny
zaT5IA>p?qPCAp)+-Se0I(x#?y&%7^s-O~KS#C*a$c%I0AM9mJKXO8}WE3aNY-oKOt
z;$yzq)|L*6C9X<}vJ<onS)IOcTMLnHCS9V>>a!QDBC=0@)`iLVCF@IdrS_71YccG4
zqa!-kn>oYw&dHo9oVNJHSN5a&g27lQ+@PL8f;H7#-PxvEbJf5brR>jw(Ox(6>n|4d
z+KF|iP40s%VCwK44|^(v0djEglr3A-VN=<Mcz7mP5}ipTw}1R$g{j+qx)Gtje_BV?
z;PbNMJs)v<1}KyaJlPCQdH)UYPIJ=jwr&82$hzLUfq*J;THemWF92Qw0#Jua;K}kq
zomcidzOb*Iy>4W(k~uaU;<-P9n>rd+!ao$^95t?YtV6s0!;YznMs5Dw-)iXtxv2)9
zco(mfLx(-Hoj#s7mLM1M-9_pZBU?a$X8!u0{s$IT1Q=WUfRA+paI<~^@=pIN@b5nc
zTrU;yy`BMx*Pnn4*0=uGU;XM6z|*P#))oW!T)zYvsh<E=*XMw*bq74>e*rnD3-G!>
z2U({#L5A)B@qhj5S8ec|zYVfmpZzt53q1FK1iy1ZhH46o@m+A7KLy7bgE7*8W%dn_
ztNLdkPxgNT$FjlL74V!_;8-wt%^Se&`b+Tm&%p2g<Nq7v<AQPi5}eaLkcIn?fAc@^
z*Z%6i{u_T|4UF>_V4Maxr~ecDM8L8ChkpaIb;0Am0kAL{y#C(;URW1!!tR6d{(JB^
z0%K>uwZ8*0Xl-!)hal(m|NY;7^{ame&SMXp$3Ftk|0m!&PQmN{3LNiC@TmRIAYb_J
z14bQSp8Yx)=Q{vKb^~O+{(Ep<{}0HM{old!6X54B0qgC@;20O++#Y~&{&O&11jhPz
z;5EPfSHJqz*TMgdz?ffv^ZoE&{{LLEn}Auj;civkwzLyDqUm%eXGfTyDRV}qWdpKn
z3ER#S*ajOvuXk7+IfZyY>yYI8fUy;m<cG?5W)=BG(XH0P3})|`$w7Rjc`;;VP0UER
zfOJ#PvX7Q-#KEdWFd*BeGS8~Dxnzpz2E0(W<6Ie8z*RLr3|>*l&;<5~q!sU`-F|pq
z_cUD^bFJ#Ozj%-n4_nDye`8Q+m@_tQHj1n?6pKn~J6Jf~TjCF@Zs{a*kkKdEwmxsQ
zV>F6yT*_*Lwd#k*?Xoe8b&adl;-sCjH=y!6nA$A0Li(B>DtKHpQN6{luHLI^?RV8J
zcxDdUL)E=OzvIC#)k3`<GjY(NHQ{&0@Ul<nm<AaI^KD(-L7vcWd0scC0;iQFW1^ls
z?V{pe3n&d%a*2i0U?b31Ev_U&-_%NcF5J)`Vkt8}%iJvU^G%VB=4H^SjpRXfk`mb_
zOKT}_RNj;#ceBS8RV6~J&qe;6PZc>$j@N;Qu+|m~gCHbXi$BV7<qnUBt$l@mC@D3T
zXRFzg+YqheO|>MkwX!z!qvhj`LK#l;_1K*{N4B=By&@18j%-;b{oX239Bg0vCqc52
zB|O@@sAn)rZK6e2n;+_A`Q%`y#GQc2kL_RIvYI2=GBISbbUxT(d3=5QJ2vr9YpVpl
z9Ok8(kiP>VM2e5@Zd+}A>t1IQ3u|kw%fZ`ilInB~>()zTT+EZ3R6!U{i!EXoXw(D%
z!9&Q*yvwiisa18ghQ@rSS}NFuIw`l3*}V)6dNSBeO?M}vQM`v;)7^U@P%hDW@J^Yg
z3_H7@x^3io*=kJi%(2Rb@p6HM2ozW{xR%4HPuRfVGjdFmY%yn`nol>|;>VWGV5wPx
zM5m%*B*}#p;w9?AqP?ZAy1Xd{aI1_0EwY|f@@U^RT6`@}Rnok@d5lX;I2&OX2mW66
zNsH>HfVoj2^l9h~xfEQ^*c{4K_J#n{jxjS*BsGtYr&`@G7+{M>ZG_f<Eeo51dK#Bn
zlrjfVQ#+t8#)GFo`B|1-k50gv1Nqx!Y}+wTv_!g+X=ote2&CDTv6-G*_T^esB!Pgh
zUQ_XnnHQ7@lq=#cS?^6lE8k2cEQW35jg)Pxgj-{cvd|(tnbTahX1g5fw|rm>lr`JS
zPfCk5n}_IA6?~oQSj^Rj6$@vGO05DV3B*=YJms?Y;}zPbHlvoQkAU~|>)+l%?oNi#
zVbdgTFhaX=HMSyM6P1Tfk)A%@SMYR3-jUf@*H81<snfvE@Ks9A$CTrt{sTGBCZF9S
z5JzBF^rd07S_0K9i5vBqI+G@V4!(k^7!PE$zJu&F-=<q&EmIjeeJU6dMK7z=?zDxf
zZc-(qqt#u|{}zPOBe?0AHI8($a>WuWHU*f!5ict`bjlS|gk1bvqkFHBt2f`d_ZvUa
zci++ei+2k^NRmD+b>GbIXt%#w37IXk`HR2D_^ER$p8JE1ttrcPr$7JBo8;eNe(!uh
zSccxD2~zK=c&H89@h&zW|7|Am@?r=klY`X7eg`0_7W-wQvRsG<nO=U33ZlvB-X>jY
zIJdO$nrL=DnKxT>_0}r5g$DS{y0<y*tE_ng%L;O`aQa=9A^JZ^@&9DA(94P1^m|58
zW@6lO<?_B@F-AC%FKKmE(%698idFPU#|eDC*y)D)z2&N8E@`P>5WxC97E?f@ahcIv
zvGU+RGa~}T?wC5k8N?(f+yp!ZmuECTmAW}%4N9i0Oct@AwKj2M(d;{FA+dc2`E2h9
zd>K|)r7W6i06q-Ly$zCY8znJ>Gcl`FB87W+@>-#A6yIC5wo8j6G%rAsyDZbHe3Tht
zsIWC`KfYsR4|)D!s{_a}UX}&(6;?JB!)gdMRb?5@=F(+`RD4KrDlDh#4j_7XoG0fw
zN@75DninC+kSwN5nyk%otjLoHDI=T!G&?@-(|~t^@ERHtUC!8&F`L(0xkqUNuBJr3
z$J9Eo6VwZkXy;i9g9fh9-yG%H=_v}69KN#yz?l6eG-IP7ZF{<)(=Eo+Xr3b=C<hD`
zRYV1dzpSX?#ix}k*{sHZw2B)GbiK%%g6rk{2Ux8M;v8haSGmmU;4VcV`RnlBGC25{
zC6>Fl+wx|;Q5EYb-TIF6I9S)LGE_9v&7pSWCYRYY$q2Ts-8|FhCX`mQQ*{=m2DPv=
zlHSJrdM5u-36{AkQoqua3uM7;R*uXoK$1uA+`Wr9XuuXQkZ78bMJ<DsVMgq3%?d9`
zLUJF>&N!JmL=w5%<zmt-GISG1P2`A;b;>k%P|^1aFsZ2?R0p1q(snoDV@R%0CK!EZ
z;PPb(V7<T_raLWGu{OLNU%I+Jg=!Bs1Ps_X3&8K!s-<Pnpx?Q3oeVo-GE(vl0+b9&
z1@HW^PnNs9U7y+4se71#XZ4yDYz@cZo$x_wAwqaH+fL`<(8whOvLoZ~)-op0+6C3f
z-)K=c7!E<hY>m#G?15yugf=PFX^0bzd`XkOUJ1|&?5~$|JDQV`t-=O_#B;*i=FaGw
zy0T&>sT*wg{l^+X5J3?84WpmP@#T%^ka@vj7MfCXJgjHS$J=Nv+p{NfN*qeHY@&`N
zl}zR@ck6J-R{OvQ@1q;@?O3yx;rF@+X9=-K>bXgqVHb93vc`M`AZQ}}uGn4<h!V*n
zp(-|tCugORk^8P=f;NA)Q0F|wp&p)b+7^ahIYcu>N+wNO#492rkRm}fC0_(>6&f>W
z9G4l}Ei+63Q)tepFp`K00-*xgBJYqC1AJDBT8TV^;Dw@2iHxjcj9(zMCSPetLeBIB
zoEhxi?2qhK#m<X?Ga8nqhR=POD9mILOSa(Q%vC#|m#U9b%L{^OuH}jDHqhbkZsI$6
ztWc$l%7}hcLmi^Xtso=0T8UgdUY>bBOT()-Bm!SGy|}$%QI)J(AfUX@#2wN@2JiS0
zQ{P0=<{VbonoBSzd{dc{vRmPhnoSNxxGu({nphiII|9Eo>2gJ#$74jT0_rXeBJBd5
z;Rtm514tm-k{$v6EbBxDr_=yzJC285wMwtWc{au{JGr2);FUWex2`cgd%eI(#bTKh
zc}LJxYE`n+AVRZ&3+WX%i@FVCi(wy%RWysC0}oRiK!{^fCtR2EK;b_lcBK=mQuR)P
z%K$7z7o2s#wN^!Gp#lp+e;D+$NtC9sM-c%RSYk1!uxy4Y=Ijbv%E5W7Dm`;mHW4gt
z4(|d>*Tz=R+9lP=)`2Tk)v%(X<tp6|h-fhhw>YG9^Lf&d9xyntNU*spmHU(;iejvI
zwMtdf9x4u}KCH9=mZX$$o1$5-gjuB1hlOl(_K<q0SM%Gq>IACOti;HXN>H3(pn#(a
zd$tRqjEEu(uTu$AmQ6&}Fh)d(PPr;dOrWwF%-WhQa3ZTl8UPNkf<%Jw$~q$8wydZr
z4FZ;96w|p}m2DL9)y+7xs(9Gg8s*p!*x5TwL$D~ie2>Bb9bs1XDatgFfScCgrm-i1
z%rCWQGw`Zcb=VQv&FVB}6J-@QyG=sXrUzgi@qI`fJ_HG}x<#SpM0mjUEC(~2HE$&~
z@k%(sm-kc<>}JsmR`=KpZkL%*)SxAajzg{}0!d#V)^g=!jTB^643N@2_FmRPG$A;A
zR>OD)*(?@UyjbMH`RW?YfSQ-ft4vA{ZKuYqDc~z@mcq1gx?K%dhv_Bo<?B(-_8tvT
zE}O2}en9Q=i8kFZOvZ(zqokH@mfWV+-iIGt2K!7WW2^-{ScR22Zdo)$UTN9Wj9j}N
zH<-j<lPC=fUd0aea^^<fc2w7sx~4o2VX$=l?X)2`cW-Y|FDpd;(!k&=Szv=J)Y3>1
z0WLg4(~xj!;~IbH)x)93>G15U9RQgS`umKDX5z+sxAK#q0oB>=cq`i|cOtXc$Ou3^
zps8?W;yZIt^xBGI+=D4L>&J)hEMWHh{q;<lzj8gRZ(u0DvK%ySvN5uXg<4vw09}C?
zIr;8#HN9??GU||gf9P$wTz%IO%NBU^u3CosPd9c?Duv*={-7V^RBS>pLcVz^E=gBS
zuO*WuW~_VEQea-qkn0`F<@-~UHmmyc4e^^WY48k=;WqDQkzB74dR#3dQkAKbd;zJv
z1#Cga(q69J)W-=*FSn*Lh_wg-eOT)Yy4%QWWvU%;mU+k_TG`?egmMf$4V1SjdBo$D
zq4?fGyhS3I7~yG<|2b_{BNG7o9md#tSS6L6qYf$M;M_4m0KgK$W{P~3GFM?eIbyji
zZl(`HBQGWxFAg|@s9up01rOTnFPpeNEJoE8mpH-F-#J$S0)V;&PUzMK(^{WZ?(FB@
ziGx6ko9$+5a6Kiw?EIFUPk#|#A$w4xJiHL^=i1i_^yC)(u<RJhavQ2f|EW=F+`D{%
zm}#}u*|C$UPGv>4i9jjWmbV9^%qmuCtZ;Z~-zx39(vWSMa=BtwFOx#Sse3o;Eqj$t
zy;JZZ0n4|l2z)0MV`#3SlqBG_U9YTd+n63iY5W*HuSPs2vbc-3K?q+^v|7u7oH3W|
z9k;3{m!jXTYxU{qFrP6bDXxBY`0!<lI;O8j3~*)4GQ;mbg6`kFsQqZ*2Aax`;mnCr
zeZqf=Ih*JER>I+t#ZilHZZR9ztPT9*dsUr<@3^%!VOhT=B9fn!KL75GwPLVgB<say
z@f)jUC~PdnthcQ*T{NI+@b#wNFV}_J>rL`rKR1V<%yvtgLn|}o*+yal8Ho0JddH+D
z7K3mtslpg!J=PXIM)$y#v<S>lG9@E`WCF9*n^56aflXLo*9?u+ax3dFAmoWDw`fUH
z1zQRuT^3j*f;$3dn(C|;lj_`7R0aF>!9oXH=$4Wza1c^(<OY~LP$MVmY&cLKRBP-u
zVbNu7gd6mOkb|@eU~L6dqj+5bAGoPhqJT1q8)KWaPx_Ubv(|3{l$cL@9!@T7jf;w6
z84^UN1aV$8Fz1{*UIKeEq7hsy?`*X1mqfF*AtVGNCl#<lH>(u<+?deMalk>*a;PVJ
z)D~{*{i!yRc`K6IHIX4WyZV|-JXk8<^RS3pczIK50f=3l#N4Qrc3L<2Sh;iOo7Gg+
zKm67mOQnl_;4AnFZq+iC*aKchX&ZjnOucoi1QVs$G0{{%3TkO+FZfQ_kk(w1?JX~h
zRf4&<-bAq(FhGhKQP)c}n35SaLEFGV-;qr$r`KzxTvKH^j)GOY(5%?pp^mf(w5gbE
zXNW~~xLxB|tT{JWPb|e@IkUlN8es21YTUN#zKc3xnnx3f@&xSRylaJD=f&b6Rc^J0
zCl`|j@-ks|WF3{?fY=SP(o1C)$=&tt!meAI?tc$#J__6#ZhaxhEu|bxPq%;j(*?f5
zkN#%I<(n<-UgbwAIvi5?f#P&E(spz!rtNY7a=T8e`@~g}-FEt`6}DL0orPN}swy1#
zQ>vt#LmAw7$gjE6_;YWWw)^{B3@DeIxF%Pc<@}z-S)yYjt*TCEbrfDK>zgIdFif9U
z(x86Ts97+9_eyqKKF_y%5-3!BUt)MDPiiJd7IzRf4mP(mNWG=TAq_Zs4*0?VTG>`T
z%csO75QeZFF(JpeZ5vRA_Z6vSaK720%ZCQc11oL1fJ3r2D->D<Pm>tJTrLVqM{c@9
z+Ao2RI!ZDgzT-L|8QU4C2_<l~rI0cg7PrM}BeqgN6!<KIM?L|n5cTP{YqBI{Dm9>d
zaxsGtWnG|5199pOOp>BzMe(8yDHynax=obf0;j@=5QPdATI9Hys2EL@B`E;fChA32
zGi`>(ELB2*jI@Ln7&!a5qhzj_qO;N=(K~BGtIq7-1Gb8$^bVAgfIanA)V;qETR++w
zf$UZE{WlQx4QhhNja}mSdM&Zs{v-B*J8Q)|rua0mCzRc6j-Bb`-Tht5YV#pbNV?B{
zVRB*#2<kTP%^>3NkL{A9_?Ij{)}b6x!87IiB>*LO^8?X*`ycQ4evH3X&h*luhcdfd
z=~0Ubmo##XLB6m)|D-THZ7VXkk&1UVV(~I?sj}ZIam^(|4YtJOthS40i-p&v9l{^~
z&S(|dZ~&9~nCuT3jx?=8`t8+k_HzkB<9FC0SmguH=AHIua`g6<&Z<)Nxzc$7&GbCW
z{Y`(z3P(dtJA*oU*)G_YR7wIaxd1ZT!;Ow>5q4=)cZqFF-*`7g6$Q7D)H6m+&$lcI
zkC948z-!vN7DF{Y!(`{=W>fQI$W9ZDCJ}!`By{FP+~EWX)Ii~vF-9$_*;L}PB@+CV
zZ4pi1x>2j+6xCz@!R_7Bm0!F}0n<jCsH<*@^GKdGzf-MKKush4S`e0#PQ{qrq)Qn>
z(araA9j*%1jQB@|N{dR|mt*U&w$&u}L~Z<A+j#lNly;O8Yl-UXp>qf0GkOYCIH^z>
zt_!yf=KCByUJNTwwcQn6sLrrFceJcI${n#<>{*NP&E18)jJBEjO`HTmml?Y`5!Yz<
zZnGdZh?*+MaR-3ylV#gpx@y*Nk%3Zp(^dvY6R@3vOx0Y^SwbUFyOOk)0R@3k+2qNg
zL<1j)U6NrbTc}Rr%p-?4Q0yUXBvw}YO|7^=<r9Ux76XxY!0YER(jh<C7}PC%B>9GF
zkYaYV9V@cV!}`HGvb0CTcICQOndJ4MkvFHX4dB~)bthG99j*Jgvp}|hQ)@u+J4K|p
zj4S-P8~6NGDfLodpY6@{^*(9J!^7*Z#`|&;pY~9-yzxx<JW<-|0`+0(tyZtfpB%o)
z7p@I|VhQqlk!$(>lGXOFmwMXXFscxz<)@pB`44~7O&R?v;^!*kvup}a7UP-Y8nBOk
zFBuWvXhjiRsNQ-+G!Vmtgq2AsfSSq2y5b5T*r0+Zcdk`-A6$RhTwoVLmHYm&|9~oJ
z%Lm()I20_q+5NQ%sEWgVW!s=~8Y?NJm-DvaSe=I%-oGny_r(DTkPoA6ll23YZ>TKT
zT@mZ*S}#UQRY~Ozi*9Xu&9cpE5)^jD^cqmp*|WRxT*pnwJLmWKAf1Z4U=a!mkQBOX
z8x?letRkz`Yl6Nf3@j|uAL}6kRku*Rof6Qp<%fQiW43zuD$A_oa&oe0-#)%eHM~|b
zS%hWP!PYyWdlB2)$Qv9oIxO+pUJ0;ug8Ryc6>BHEiW@TjUYzJaco(M!46v7KbSfy}
z@0-&`u7*`y;EhTNKla1=gOsK??W+(w=R?u%6^ijJt~o%AUZ`ILAJzB->pr|Xa<<S#
z?ZDW4{~;2q|MH~!9Si>PcMy~N{<_JJ9t_KqF;iR3uQdV5?zKjXGiDuLSKaP%E=9Eb
zC9>ijea$R&Zs54^=Gl+(YUZT;Oj^GE;cuMr$Mte9dzP}^ezC2&aKSu~nn^CbYw`6K
z&UQ7x+nF|ti6^*P(Zn&NHVG4xWReJ|(1%h+ZJ-uVybienrr9*&@g__*z}8zY+I^z;
z{9cwK3<}^@3_k%<P;l1Vq!Zi~2!XKsx!c!DdMQ@hX!@w=vDq6`uR>ad=;IbuthWo7
zq9<4n*x&NgeQULdk1|Kp<yMT0+Y`Dfj>#mw2hAM7qAtI8|Mn)As3m=R(6#jA%%HaA
zJ=5o<&xvMg48SmDyx7YtM6n(!RlyK%CWa~TCm|jMwsu=xo--G#J9Sp&dgZ3x`4)2|
z?lT+J^k>LJ*@52+wl>F$LJo6@Ydgk{+Ivpy>Rn$12slTue852}a*+=5+SLrG+MzyE
zF?CJ=D{fjw@)Fn{(lSUQuZiszmlGN)kGjrWpTKx%34j$=;xWDkyKIr}#5vi9EH&GY
zr#FrFdr}pYpgq%jjjii_CVy+4v@T^h*DHx4F_@{xuC{&EuJMS{jSmWsQ0AD|>qKK4
z0GR)%x|L>w*27IzlJm8*qWbukh`d7Pry7)~wqn$*TW+XwgtjUSmfOxi7$`NGm`3m_
zO`+%th!LSf0Lg|#E@KA8GGGAkSa}5UUYz6(;*fONRmBX^!}C%?6-|WeKn+d>G<gk@
zm9_*!4qG<%ZFvV$mUeKxQnCgzMAjViz59UXKxCN06)$C!q+C_oEZA(erB-CfD*Kkc
z64K?GhV^I~6ijs`EmCpEt2lW4CTK?|ASa{l=Pl5Ruqm$Q45^@^z%q@Lr1iw=dAq5?
zX=z9B3gZ@L%dAtrA5qc<AX^&o`?QMOloVjQq{{JLqMCxMBvAT;9r9YO6fO)b`B1wX
z)WH(QK*r^#_(=uD=~~iJf2Z)#ooM!J2)YiH@lgFdQ53=7;rF5=>9a(a))R$FNuUPH
z8CSn87f<}kZ__z{#H3`|`T?m&$`^Z}t+f+))(d2y%=LQldVy|>><Sqh@<JtGiz`)i
zq}8_yLT$*E>$c+zlznMD88q5<60^5;gWngk%beZk^^CCQQoX2h)Ln;3Wu<XP(r;7o
zQvko(F>W;SklLs#a@?+;0)Uj<vX(#Uf3et~UxhZMZkl;>6JKMvyVB&Fj>OBYZDKSh
zR<6B1pvPeO^+$4jD?D&%?S^azRi}O;#JsZo-4=Cn<3Dny2TJi`^ZB=hXFCtx4a?7r
zy|0)EdX|^w5=m`kMCL&b-ME!!XJ#f<*xYKr?U4hqjm&`H)4p}90gU)PjQKHA!Nr|v
zzT6mFhu5b5lL60vmou<xVphb34g;(=H%_>Nt7Jm!MPa>4k@<tdmLe&XXnvid9;Csx
z>6Xik3;57*8}#=XusD0UN-5or>$OaVSZt-uI^<-J>SK&qP4K;%&Vh0!tbNVTxvb;V
zMl@6tCqTcxdBJX_ha;H|XI+f`L20$J6c+XXltS*4Ma>RZ{vo}he8P#y0^IJS_WWSC
zzyy=)Yz03yACy+jc#$x<F3Q&GcLmC?`}B^t@Q{RQm4d{jQ8iD}87O0v0)b5fL!V&u
z1`J$&#CqFSE{5CrwG~PNb$S1eEVJG1I<RIL_yKc}ySC|x+r^r2E9UP&&Qk(4h4%eT
zZ++<In@xP@P@brv*C3yS`dTfS0)f_5&h;`fw3et~%3guTwzg*DI>O;3KX#okv@x=d
zD{>dCtTmj<F>Wd3(E^!`^<WqA6F5G=iHSN0dAo{3wp^}8Bj8|4m{g+7Nt8u0H8Em~
zQW9reMPLDLge4pWWLPPAmx$ZE>`D$LSq6)6HJz%EA|&)Vx`RdnWEuj=qLikYO<dJh
z0}G{kSrO<f1y!{H@($H?QsioK<$Bg_b8JsmNQkbOEnvV+pdRQy=Y?9ly0O^+BtJE%
zh(D@OKwryJ=Aco+!QFk0huZpMs+NxGSvrwpNgdHD{LsFE>q|Nu$VR1K-x&a43Trz%
z39tA8vux<KFc(6_=|e{$0__NsRPV6R^z^BcX~#G34627wYYfvSn=$IG6fc$jepM$x
zEyRRH^8onaqqurkK1^e}yp4C7MkKzSP3@bn-t7=Si`iY1-tzYc$fzvVe$8!W$@`O~
z@xxt&1;+Sn00*fr?nyd#NEq_bB3%Qu$5_TbgRSb<#0~R&mNTv;1L?4K<JxcJo?ivh
z)4OEyKvrEcy;g7)Bkex0#Tk)ut!k`gLzGNgBp0IwK%SE>aU>ZNV0*hn!4Pe+^{J@z
zf(M{3?iK+bCKxu6n#W28q-bJvn_*-pS0+IzO<;J5RRqDP08Wc#Yf??&FxBIEn`8)9
zC3umy2;J8y4CN%6<#kb@)rKUA9L<3YGgi|TM&v;6OCSVGs8w~1b7&GIMSwztSrvjc
z)v98|!BK4yXdC;5{leV{b2ahGC`18}RU@@Z3I_KX0aC?_cvC?cHB+tSO;~nV?wn#)
zFq?^QptVN=0Eus=mfvax9gEo%H0GM0X1k7>?7ZhMMr#c;SrGEOoxaE{*O;Xn2Xz<S
zuZaqd*98h>4Q!}c&Fp%<lrLp|AgIc$*>q)N2o`}uJ+;o*8#_FFqZ%bFHBqkZdQX+9
zl3z$`Os`NzzsJnZ^ldXyU4Onu-imI3Jkr!<m41Au{RnIMMyefVcYG6Mwy85GI%uPr
z=!%;F1`G8=af?~8qx`A+d<s0G3tmm|Ys)c-Nis*H#XR*WTWD+t;KNbiSM@AbxO2*=
z)!M>1Twf1`+KtJWqNs}mGZ7f|(0|f4tI(QEu6$!GRPXOmZL0OWE|z4uOXpf%lXNEq
z;oc4mYbhI=;SrbV;Ayj}<RLOi%B1kX;+jRW3O=qZ<J(d~K!8oZ*Hda(YI7O4#?`bW
zh^QgP>Y%!rv{A8WmKg_B4cMTMF<haEi4e(iq6)tDTvvBN%7xNlQTWv0JQ2D7l=QlR
z+g=Bz$LD_kgAsf5Mg7q|+Hur%LbIslSW*C0?SP`4M*Kr@812+bYrE;iO8*sgOqQ;S
zSb->oo9p2&vWt%O%A)ptPC1?}y;||e-7PIX`svbsg6IF_DmG2${cpqM*U$ammDPR%
zE*!nP5PQ%>3OZbrG{%>A$lA1`L-hQu-V!};U6a=7{h23P7QKG?*3sR6_ILW3dUPET
z^@RTJaLdTczFE4%COWd$kS}rMd2_AI?<bsIvG_uE&fiS0h3nG$g8KKG{Ui4degJ$l
zL1tIwR`Q>taQAkXK?*yokqM^%kHZ?GAW9$P3*_au|L)qcum!RQLCx%}{mtRYJ8R%{
z2~+_LYdL%nBEHysEPU-+b8ZR`XLX`rZx`|%4kGI=_mFEGZCMXA6>WlT@=2>8%LNmg
zm<Xcm^qw#ISIv@|S+7(M=n}WQBw!X+?Qn40cio6tFOp1bP|ryktn3eOZJ&V{j<MMq
z>amtC^CGL1VrHo+X^o&vG7{L25#@wq5n-MWh0y0S355`Min@#F6pM*PAay9VD5*ff
zF_WOumYr{5sMN=e&3Xb-ghau#*qt2TaEoZ*=Cgmjpo;<=){z`Y%$~o@_2>80f)NCr
zVUc6RR;S9UU=NAa@1j}^%qRhctmWH(>mPl#NT!EL<=Yti>)L8`SU!`!wJ)|RSu${w
znBf)crW3p1p5~9en_#A?XQHF9x=x<IR-jfr$<5DyOStQW8T0N_nmCk=IqrO?mxhf-
z`p@@@Zdnkr_sc~r8c2ZpE0%0lW@I5}B#VnG-T?6<<wOWdrC}bEnR4d}Bd?DSy@Mu=
zs12B|J*sbETg=`kcPjGOdaLJX5337JuuHWL=a4Wl4o)B}oNl2x?D0y!WgHVb6m%!*
zCSmNOufuL#+TAZy0?jOcc$K|yf6a~8d*!{h1a!}_3`(}<RaQ8ot5r3^dK0=x8)cM(
zP%)pNotU8SOp4AJ)^QwVFdLCWlW1zyY>};+{kn!dC<isD?QDj)%8<Ja%x@GR7l#-Y
zEH|o9e99uA2z(#-oiCJ57jB6?+pM@r^H9-J<5cTbTJuotF$F+3Wi!bYk}F2jpy#lR
z%*v|>@&I7i6C8N2?QFRTZgqr13^-pCj%+Dzp~c#U-9>7?$`%u<T##}d@X~By=O2J3
zGn?);G#qUCh?<f%xpE_w<4p|25GtIi=dotq7}siA1NC+#8W<z9a7BIMjNTQh6@jYE
zHd)=Yws-RA%%xAbCkC=Tte+POo5aR+d=NI9EmK-fiFHY=WNfRx{iw5BP|kt8&w*S!
z-s&EQC?pme06=%o*cR?*ZX+hTwztXEhjkJ?Fe+H0Ink8C)sOI6(~SEF@-CR?=EC)C
zbWlaUCdv$NB-iVuOC`0cXqgIbl*)s8Ju_vqn^9ow+ylufnzW=tJlXQl>_b0aX4XJ~
zUaG8@J@0@9i-fX3w_Tj!e0WjfDML7{a4Tw^KKQ|!RlJY*EfS{KzUZ(+L0*l}VK!NO
z;2)&ft;a$yn)1*ASWd<+seC2@e|Bd0qb^q6L9RW~urV7zXIEvn@0eF}#~MOxS{}dt
zt?c`LrsYLDRQ(Ph`mMCVHh{si(i3RCt+%yvo`CE^o;>>b{eKEi@izAEQEb~~g^oX6
z;tR~pjNu4d9lHxk>$HCj=ThyDizd6J-OU8>fqZW*{)0J;tL-MB!xWG5xAI9WnZeff
zIZ!?OWkVPP{M>tA%jA0N{H%-f8m?eVOpoz+h5!+SUb9?~jt7h|h*F(pf_8BcI1EQ>
zwY8BkGoEr`PY@2+T)!vP2vHZDBUY!bk}!(jQHaVz-BBzQVP#bIvS~#a!#G>QXae6`
z7H`{0mNR85BtV0uD^dqlpTN5*Q$TI1wCckeu6e<%QaH`wwKxO~1twe*H*wM+ceFJo
z4(4MfXX!<*JV-e13Q&Wsh^4c<lSkIkl~p$q6Fv*H5ivR~=QlAKeK5>PeqM>XrKq5U
zW<u*MCCwyrzne%_7wLmkBi^Q?mAFtU-A5cc)>I7lp3Ygrr)`VJEUOquT*60(_ltF}
zef@Y`yqB4tBF?V8o5td!j9RVa*?}dRuhJ*Pq(*5Xc8kkle04OS#|#Yw5Of6vS9_Gc
zI~=DnzIn@*t@w7n_07<AsQW6M&EH$+3-1(h`Yn#vVCKqJD5mv?Nx{>*PvjHfF@0<5
z6O+CH=UKmu7dT_H3_K&X9p={CrD~~~r@nRgcRTaz*BQUIo?%n=ex-E>qonWszzDFm
zQ3+Klo&<pwB9G%VCxPIHW=*A+APZDGNHE_RJX>mK6W`Eew=Akov8h9kgc?{Vz@>o6
zhd>?U@lK#M6mq+iCcvIVfDLI_5=^O*^V&>kO-haWH#Qk=((4He%^6!9pg#{JQ8%Ui
z7rNdUl<wJ2U9EIAgefqOD2|67ZlUK7(X~#aCHp6Wl^J_LA`5nGtsN`Hm*w$`B{SpT
zOG_YwFQ;WF7_C?`UnXf>1?59lCNvZ&a}1_|996)$WYLC1(M_>!HdIwX!TP3Fg^E@Q
zsWV+0B%%3$yd+yeSg{qvE(?XE+HBU!eM9yI-SldrXhs_ics0Zi?bN2hgFM3Fm}jH=
z+*A=(+ol!^=mJEox^Q+VpG1vXc|J6@dvGm#>KIzd2i9-QVClT_z%f7^U<1>%ty4DE
zuo+v?qwS=VQE=f^<^J-8<9~mKnM8H(9e;<t_Aq>KWaC;UuVoAAzpYtaX$1i*ttwK3
z!qTmD^YsmJWlFr!KonEu3Ap2vZhQy#mQuND$i<+g<N4py4@(ipSvzSEmw>`XU6TQ1
zJDK@*^nGH8WEoN23pNlguhjoPqTVxDvh+UhTb0XHpecid$^;-1AV4r+0T2sd7qek<
zxH)y-&N-Z%bB^78I;VTPZ@x2kW_D(Fc4szX6F>w4Odvtiq(xF>nPkajN-mluSJ_rs
zwnS<DpV9|^=sMkf&UsJhzJ1^K|31&}i3#7_e->|fgtk;xKNl)a)b3<G^YZG@MK{Y3
zNAorI8(W1as^+W3HNhyGxRx(PeE_PoA+)$0luK0-KoAn(0%%-@OC-!>EH4Q~fkUhe
z@b%Cq)cFXv(oi@OayFFBDlW)3gjA6#M|#Cu!;=hn!)Z~K)Y7VG;T-Pbh*H3;w&9`+
z3IS<V9IbKtgmk;Ta$yC$(w!l1rqg=TWUwu=@Dd7hJ5#AAuDmHtl9e1zww8Oj_3N?i
zKJY}nN+w=!uH}+znW{(E3YO9~Z}qZQZZJif{i4_>9c$BCyRx*_eEb6b+|%oS>>tVX
z_|;1n(lPgzpD67?42jp3`Wqc_ZSN1`sdQX{KETfmf9j*b>Wx7Pw79F>?{o@1<ZOyb
z*;s07eKPiI;Jw;Tyf!QlbH4I(WZ24+$7`j{U*`N+^QCe{xYY@+wOr|+erxZa%eUMM
z!Sa~7#Lw_!p|~XWR<C}WLQ++1_~{p`nj5=_@s)FBh@4x#$#dH-wi%i77D(GxzLV%w
z)M_PPN1&UVGO+U<s;WWQ9#K+siJ*u=ooIsLJSHUJGu8;J7(j`oBHH9ank%BIYz%|w
z0;5RN@>a&6Js3tV(mH}CveC%os_RsKoT+7>$rUaJl}3RsrV1Tx!AjLJR0g$0C2!ZA
zqGIQ23z;IVUkf*8C8NSCn=-vxAjZYd3aQTY)r1_-@aLtb1?RM6<#0qL>KmJYfsd-E
zkt-4Pqhwyo+$K~hzx6!2A)o1-c$Y;}4Epubr?bfo`7>{5CjX74rABg{6NeT3r1(s&
zl({@)w4W_~S<bFhZXET?tI@AcStI`ib!2biU(?;Z@!s~G+IIb3!yLU_Uf~0X#c~z>
zfaz3x^(D+-=2Yugxo}l2>Ux=Lfkyt>1MU=4+x<MZ0AbaFQAD}bLFU1>_hq8)nzo%T
zSLEua_zesn)$2tyqEcME3%@eDildEU=3=LktB;_xpC=Hnf*{5LDwSx2Qzh2U<?7oN
zo~R+ZE^P`u+$*3M-pnRMVa*@{aRU=oDt$dErV~}6u4hDwW(<dhTOd}gEb?M^QTh2W
zlcQ!kQ^`FmE-q5_qeR7@?aziqbj)4c`Wj1aFf~8hX%ED*&IBJPj;_<f1+!Yjg%z&)
zWq0{HzR*5@;py4pL@5TF_FfN&&ABhd2PrNerV-5rcrxp(<cs7olpkscbQ(c2JAmRy
zLxhSmdND>XV!Cm$dd;P7RJOG=={#?!s0Sh7B@id_3Bd~i$&5naxdde7bxhUDrLD%g
zz-vnOm)M;WuAhjd#l!2rg8bTgZABPedw#wsU;Li-g27(Rzq`1;CGs0*mw$Pq2r7oS
z(RtCSZN>y36P>fd{>K{R{i!}!{`R?d5em~0EbB`O-~PQHlj-zNN0(%vL}u2dKm)@-
zrCQwc9F(BMY7x|V^)k#4TV@NiX>s1yt(|Swu_?h$Y=_IusIW|-i0F$MrV6vt39d4S
zoyZ2pFdJlv?6|gAsWBwBbw#x5J5Z2Ym2&lD^Tzf75?eDT-L0)ezX((-lFwF+m-^3`
zL}9@wjhTEY;isX<4rs*kOZL8$H@l}ImoYDZd=4!<w|IWM&LUas(#E30jwT(d)~oi~
z`DEq39?%LH^j&(mmVqcO@Emx`0$MC<wewqA8;bA)P>{CE-6J=y9wIW97BQXg24^_0
zkx)BR>1u}*PCb#+wmsI{2y@j{NZ#6Dos>?{Wu(`YdsyGASQ&u%+L6+(>&;HX0TtFN
zQ|-jC#Z(Y))skC44Jw9)R-+RahvgEHR9ubCY+F?{#pSG)Zj;<)oxW(MD|AM@ca@6^
zU>`xQT?&dipARl2nn!bQJtZ|Ec>;yW*=kp*CD#%<=%uR)$l@-#961AJnUP=cxDF0w
zCBDZrvk*jF)^UGKd*c?V5xYtp&&Rv#5w~nf(`{m%8VvJ#$<I{F8)6m87`1q>74Oz^
zDps$F?Q12Xw&Cs)vn-M=uS2x;4Urs@)hfgShZTIcvW8^Svb~Kpk&T|J$Cvilehp|n
z6%3<Sf^n)EZDlz&ol2I?flGHCi2l4TOzR6Ao|URRnyX;rtypjF6{;ZPWvV-xJHBMt
z5Qs&~#<UGMd)^0@VXIJ~s&{tI<;@h+#hPS$?pSaM@qXUm_(r3V<BqG4rzMe9MQy3&
z8#ihLAQ_{Sm`Dgx1SNpX?ph%G<NQm~)rhLo8K}EyR235LmI@|XqLVFstDT>+bgKfi
z9^$1{Qrxebr9&?MriwPuYH*#lwPqEY<(tx0l}<7$*2$um#Ptd_p8$isLD|reBCh<F
zno={LbbAlAA3{&F<XzaHE2|fYf@-K;;fGDXa$FP%e`R)tmccmb7rvj?Wo3PUehsR(
zEZrX`>wL|yGlGN4s|N0_rzzYBsI8o`c{iUMNh*Bt$dZpLrK`7JYS9m6-_PMCHd(!~
zGc~vi4y{OxYP}ZFB9}ng8xs-HHcneT%ox=~&HhF;i=Jdj_?&g>OBdzMbIl|jCqI*7
zR4pD}p$jxKu+_FmDdkv|%Hk}@$f>&i-Ef=oucgEoabq`y4M1hrWtW&k2IzT|JUvls
zFKU&OHRCbz)o<(xiS^>IS67X80nhx*)1}<9h3wJp1hw4E9dq_oNAJIgm6it2Om2jr
z1&G2Vem?lh>*V_A;ym;IjdSo@KuVc6w468_C4&pw39nv(dGp5AOGaA^_Bu`@*K7Gm
z5$9%{5<&*?hGNMNn5KZV&WGZv`*ey)qhN>88fh^LA){2Y8!y^ccRox*{4<kS$R*HH
zg}(*`X|(8??M<Gov$g?x0-Tb<LW0ZHAvlA05+P~m#8uoDO0|@T;n`KR6<p6`la(wE
z_9-!2yv!I&fe3W7GTUqhO3`ZLMFOU5^~QFbMe^5?Br}hcL%`-87xN;3U^aG40D{{5
zG79`4HeO8JTqcw?W-qtER$*|Uktw&vMwRDnQ8_7Yd!*+qac*-}t4LA$C00Z+shX%H
zp>t<dGx$aV&26HI9-R1&X)wFkvxQ?;FV(Bw#{?%R@ems$*D?aS!@A!e4QkZlt&5tD
z#I=m9H<r?hMS=*XUaZ%*m3qV8y5Q}`*E-o<!nt}Lto;17tN5XTemTwpFp!FYy<0}r
zo9po$;wA77d!Iz5F9xmZ1UtFa{c`JzBqg*v%dwZXix4}yim#7~OAA%Irb-?PkwU#{
zDYj6}f!FOOqj|02drzmxSLbErHwWqX8inu=T#UUxz-59hs_pcd>XgDQI~QT%X+N#f
zd6nga=!P)9|GdM;Y@i8)_VWg{Ru5ahR8X%MU^bJ|SM{$=yGxi+Esoe+Zb)8z;Ig1f
zVN&}&;&aIRKk=VG0=wi>74TYqA3T&l3x3V7!s|77{VzZE)KeG1XSo4B%Krvle+>MY
z{}3Kuf#?4M-kXD`(gBa@KZ4~S!Ru%L5qL~tpC=y6%i!UB1lxW5pMh@^*8QLGd<~X=
z4F1ex@S^@#|MgQ(eF$y+2^_o#UebH8-*3Y4zxUrg_0%Vy_)+1#>)`D?f%RaA{pe4@
z$N9fPyBa)h{~!Ow<ElZMUxoEQ59|K}Z2SAr_8YM8n{du=fQR)DV2M8QpThF@p}n7k
zbNV8jBLUAp1N%sD9?!x4C1{g?b^i;zei7Py4qpE`cvAP^y}yO_ehMD{3Z8>y_M^W8
zAM9gT{vx#bDe$F6u>5;i{}XU6zYC8q!MYcowDHNOo<cqj+raY{>|2EGz5~zy4m`TQ
z3D^EBaL;}hJgv{bK7Rw({_o&CR^i;><wvi=<H>#g8@P8*&V_{6|1TWlZ{WQD4t%<=
z!g>BRy#7Vl=X22Jo6x=h=hcMek71v`f_;Al_AA2u{AaMwpToL;0PBw6cnloFhW&pG
z*Y`d=JlL)Z`}~tnJoS_U?foURhr>OC)BA{k{eBVF$KjlhVBMd<dr!Q`KM8)~{{+YQ
z*Ki$w0qy?~?t2Gz_&aF-F8FRY;aE@3`35XQSdQUw5svw}fBav*Ykv;=v(?zAtN3N!
z*xbHcy0F$IQ{NkYJwe1bQC$3GvMOYJDB0^ozFMuJ@5xJ>)YDyb@di_74+uI@7a02M
z3R}s6c(Vfu<jdmb=hwE`>Q23tzKZe9d@d*fT4(@$zgzEfi^(dDCq;_KE2C*TK(ec!
zO`|djMs)Og^?8+ApwWE1Bvpy+Lb0#aw<y*vNFG*#QA}|l;m`C|z>!$A<nbRs--TD$
z9;=6^Y=wYy;mB5k1Y0768s3oDhc)3b7l#-jo^nh`+vE^P{}oV0gdgUeiYkWynX(y*
zwq=rS=O{bN$UKlbB8rfQ(Cd{ZDU26rg);d%%Y`K7&*=mucae@-=*5&D{A}^t8uJJ}
zcXi*mdq$VnZ-0esRZ>MR*JU5cghTe9Ywhfj6$w9jw_E?l_uA;2zWv!}cGU8RgzyUc
zq982s>DS(*e@u|K*bArd`&N3Z_vjB_R|K0+4ZclZ-}2=*nX~vS$C=9{8n@p_R<>>)
zVAD19^p#RZLj@wn)`?9imw$M|rEq!eop&m44@Fd|%Hf3diYES+{s-$Kv5GCD55N#A
zL>+dLrJ;FJ+MjXty0BNT8lpGlyT@<?`jR9le0;j#Dv}_22bjw8pvBVhx}=^nJqOkU
zm4Q)t00)XyVJ(AL&`%Tc(tQ=v#5HnI=6hf)lBfX`jbI`X2AVSmdql{7ugpW;uH4O5
zx$A<u@(&W3D@&V1`s?XuvQ#EnWM~sW9BBuwEtz<thF7qoOJt6EJ;a6`0rEs@Os&dq
zlJ9U#3B!bVS0(5bc_UcNaQK&*uyle6okCG2h~?anyMPQ<rEqH-zCmP#B-Z+0DYErk
z_AHAiM4hZ-%Sc8eu93@?8x<)Am1c7Xq4Ozzv&d;)kpcUvE^MzDau$LPIY9y2Ux78`
za8*fbT%Hq^ong)!bU65#Und$Ir(n`6PFhtV$?MJl^I6qb$f3+-rLo_#6;f)I8C9Ya
zh#*KzDt`Oud=gxh5zF%huZ@G7>aD8~KE`c>tr3Ng9)YzIHHPOa2bWSZL`vSjZL|WB
z8%Tqfo#=*EStcr5T{q_`y_(p`n~Lt|8%^NQD<%t^Iej3Dk4IXheu<ZJgjlzakJPs%
zY9)(Tb-Skj@L{Wksv9sP2RxL;nqpe)J<(Eg;t&bv%Bl&qr(Itz*XvS2C^udQnW4NP
z1$siH8jjV%Yo;u<`I1?5%e*l~w43tHZI`SL@9v44<Not2UHUE1h8n`ahdN&I?2u-Z
zA8hb$!D&E$fTg<qY>K&CNw?%j<A_%W@;BSNg((>PrA#5;DN@5-Up)a0`rBO8k*rQj
zZE~W0K>wL4VpnH7w*V-+!-`DvxUoSf+yHz%ml?V%2~;0@q)HI_tsFQSu_2mJ><FwG
z)d&}Mw94RS0n9%4f!n?#Zsve?H~5jSPE}Rciu;$kBH${^jL_g(wp0jZHN?jfDSl8W
z;C0Q*D;wq>z{}s4%}5cXWkv}dVN%kReR-&iZWD)^NcC1}u`Pa6=Olvn%eo+{O2bNv
zVcS-F-6E+-{fZl2hN5+d3LRAlv;>Hh@2qq2I?Lu{Gy%k6Uf9W!Hg9a{^?=9fY>NSi
zSRXW8Z9b;Zpwy{~sJf*|IFk=ma3jf8g;rH2V{JonN0*X;s?sH?XDLbmGjs7yK9Lj%
zBs><ya)|O+k$H}SX-_apN_?Gp5u`sXBZBl=Ar81%c-7lHsWomAT>kT~*~RoR>nuKg
z=hiU0vQBlf#A3H5W8E@$@-6Cy!`^!H9WPb(Dwns7t~Z?&&&u51;1yncLtHVdDUm7O
z7AG&+6jQigGv0?(%$s_qvrpYUG=*Dqdvna*t<be<|J*K;;_ni74RZYSv@EbD)J)za
zS`I?pd#kh!dXiQ~TODP2FW~Nsg`L~c?9lk19j(*i$MPM>2_?FW@Q1JSwx<1weHKak
zS*0UFz=Av^Qgdb45)JHtk}Bi=p*mGQ82@ImrQv;fp?uQUkcJ*{mj(5b&F(f>%kz~P
zL`MvIo$o>FynnFIOlB>hganIDNJ`QHkg0sZmbm(9m-$0od`Emd`>>hW{ry+V`!oLE
z_uqN+{r2m?p1boeu%t8i{)-a&ANkowG)?_rI82`BJCEqeH~;!S-T3I`>hE=b`{X2i
zYxC{*jrXRv-j$B!@OwMY{m58-mH*#<^vyA`^v+vv|K8)ex^Yi6jydG7Tgty?{_=OF
zfB9NRKralx^*!Pb?><m&P0#-1ZmDE3|AxIGE%VbqgM7sI_ItWA{>#H(f3H&zfJkKt
zob&795Ga*^d+m;POo+P9QNtZ^_r752dRu$jknbfRPQdi5J(d6f->}u};hSeNdD}XY
zXVTu|!}M4qUza}Y^&mAzzcVD;g1p$~JCS<RYRaUz7d09{VBlqIf680)UA5I?9z`}K
zOMyVC0pE~>ayrXH>cbmuyWeSC^5>t%?i^CY<)dr&3U6Fw?N<wLou1|%th3TF^YRc(
zsNFqo_?S9r5c|w;D6#vu%SVrub_iPBA0@dh_SY1CSs0e@fa$uxaD|?M()brl?R}M$
zPux6ni{pyAu)>y3M)&q^ll5xuCW5}rJ;M!c%bV>2k+Mq1#WzVSK#<k%)E>w>vxnw8
zbCJaN1<)gDl8NRDD>x%3$}`Jk0F%(GvK5)U!r=LwT9Ls0In~LLw47&9+-bCqM8S$c
z0X5vy1|m|-t0)hJ7LY|^0$&`ZHh5ezdK3phgC@@A7<#E!j!Lv(^u!~H*jl7+8WbeR
zX&hw=rq~nkj*1)ur<3G4bOTRD5W2N#6nOD&_6(-hubcqE?^c<#dmozoa9vI7c1E@a
zamY}<scNAei!2qB%er5-yOA|_6&&<o3az{i)rFRzN=h*gam@NFcbRA%1W=J-DV$Tx
zN+MH94wSkqnTNsRme#GjtTr_MyU?EkT(AV3PC0CWzjuq0D76mUNvb)9TyX4-H>KEn
zTK}PQH0Q0oMiF_a5M}<?-%(#5ajWvAbLIO58H#ErN4KzK_(Nv2BY^luJRJ9x*{}g_
zK6!BbKa}=)aw@$0=)T0DeI|Plpkh@aqliDXuksDf9c!-!Z?U{L`+x>qvm%e%Ro<5=
zn)9EehQZ7qgn=>GoDicSebOHF>W8lfMpn9)i1$^k%{{pSOjeBR8b6NfZB9$UyuqfG
zR?4c@MBrzF^b~9EOJ1M14*)+<n&`^0EUB*C7qqVI!|fCe&}k}Aqb;Y*o+^olSrHfL
z)-V^_60Cl|e5jPGb;z938xZaZI0w07s?v01i+ml=;W7<zvR#KKOHkW}V9eTZiOT2F
ztUTd%{065<{PDJki0q3Dx1Tg|ag=96Y<nhUl2j3RZsB+=!-P~0QYqB9aFonwd6v%0
zo1TM6202ZpyR_`gDOVNaLJfLC5!%!CIa=_Vssg%LoVnEk@gtN%#XU*kM*NDeVEMFQ
z5rS1<gA@eXY#L>iCDtY%Ki>Fh=uFsG@PS_6y24{uQwa2z=pvnFVH%)DBHt#@qsSUs
zNf!B>I^pf=hh*>eDZ=08HksJL@{>p=BfXpRiP$z0R8VynuSz;*YCHz!ku|wezkoB}
z62T5~nYe(E&9bunr0;!zfe^gnx9bJ!*;Ep=AY68LYod|lnV@PiE5h_kvScvM`I_4j
zu@#2I6)MJ)5D10|c|^!4yZ|>{iYuav?Ye4y7&*(#Gz}jaBUkWamFMWbKF#zQMavD?
zJzdgV9G7gqF|P3yI=ZW+422OVa=j&HOIfKNqF%vec}}81AxG^s1V%tmo)Scy@eqGM
zh~3FY21m3%+%;3bb_3hJ726x?#dmY$E5A&p`(&9Iyph}4Aa7Q%VfDxDi!q*Es5O81
zdmZoH-5t6a-hD&d6%Q8VT9M0~u)7?@!sEZHF4VqRl)XmLJYZfu+oGQ*)Y3Zscn3xA
zIhD5xzjgU(@#vOOdwR+;h(~UcFJpr#lK-PTcSMUn_y&k@42z;J2_bxQhhdsdnj5qq
zVO|s=A;OR^5hw|q4<^JLs0@XX7IWw^1)I&cW~SVoG_y0du(ygU+mc?{@oo6DRr2y4
ztwD?v%}>E^vq#V-1Ty2a$dp=YJg{kXhhaDQVJ5Hk8d!C+N%FkQ(p*5Q9*YfYkkBcE
z=-=<r2YlrhN`Xq<$TzNT{nU91b6WHW<m?Vjol7DGv`SzY34LL#har!1OER)puGbK*
z<eT+Cx=*2#&okUMUzIjzISSvD@~f@9E5uW1XNsw_d_}Ox><s~1hvFeqt{>pkI}E_;
zOf-w+TUF+BG(b2Gh&o2+u1@MX>qgctn$^bI@W#PUeB%GFr~FSa=Kl<gkyRKQr(hi2
zgc`=bg)#Rp!Pxl;-|8R2*!f*}{$p5o0?(7M-Twp6_hI>Yc>fT_&tHb|`rpF%`Afj!
zGN8SG3S;^YVeJ1`u<kps&FW7-_0*riF>u)DU%~r-3gh&1Fh>6nj`O6J^AU`-FTu92
z!nPe)zX;oY2DbfeI8F}Ue^SF)h3%5C-_8H)qmModum1u#U_TA#^OsPU_$@f@XJFq?
z!Pwq}<=;Tt3$T0*)_)ToKM!rz;Pq#rEfH!HQ+WM69AgLGn?pNaf#aNm_kINJ{{*!C
zzr%H3g*N{Z-kZbH1SZ!lcz+%CQQ=(wZ+LzSwmpL-4sHAsc>HH*dk40=1CJ-Q4F=8u
zg?r+`HQt9dz6Q00J=o_1XamX*AN?D+NB3a=Pr&s&fcJg}&hslz_Je!*9JKWxVBNok
z^Y|9D(}wf=I<(V<=bwVd-@!T$){S7>Rap1$;2N&N;~&GiCv}@AHK`|cmM3hnKZV!N
z!Mabv=W-X`o5J<K2K)Ry9AAL?)8E56mErNEX7VhoKL?+G0LzcT`7XobW6;JYV4VT?
z|KG!QB;1qVf#Wa2{(G?eTX=5)j&TW||17MN;Tk>;*K!_~{}GNQed@n_*Pa57ndS<<
z7n;&O+I+2S*cdsjj9H)K>v~%@A{G~XcVf^1?@;4;wS><(`Didps&5_+v~*Nr*oU@R
z=`+=<DY|aMJUWBQ0Dam_M+eK-H?(1gt8i_(T9$Su8v#NA3jtzqN|I8(iXS%$w_LVE
zJH^pflNFdQS83*Zguo|iy@c7|>+NcyFz~B`&Rv2B@2p{>es#(_3+>=;v~o~3NTJEw
z_zqgx?e9OotXA+VyQ>A5&wWmPHc}dLB!^C{j%NkOnfp_aSXj?Vd`qmqj^{(7xx_D8
zW<Kcgn=&N2fZ5)3%lmAq29*U`hp@Eb(!62brZ1WE-rOl2-PWyU0vK+oryWCr5qx`&
z8X`ZNfYEJg7*TI{v=Z*CWg(LdyKUJnI9=HYu*s*(NmeCB*IDQk*|p%5O0Okfxh-q+
zatRxjh8rFICAi}2$}6P-7IoFOI;O;eW4#v3xVBA;4YQM!8xlbdvNI8S2i;0lwS!ZJ
zNz#+ELI9MGs%x-S65?fhmev}PI1gGEF=@@RYCBkjs8HJJ?v}i?dg99)YJloD6g$<r
zL<e<@nKq4WZvf#iF&ov4HdhLFY<r|9c)>AxbSfjYON<cW2JU$4q|Ejw54ys|<unT5
zdh*H`ECWKAWA)q~Uz#?|K}e1uk2Pu}wVMhN?RY1i2j3g<gme&WQpZ)J90@JiX-Bjx
z9rP5sZH^*a(s`zWL!VGJMWBw@!#wFB4M@r81dWEaX?ar48nR_bve2BaV(BS)pi)Ru
z_Sj~{(Ky!ui9Ade27*J%3er+JP|%<wLq&{Y3FSHkA}#3>*>>kz2$CgS*P?!sr#Mj%
z+p>pIn9C|6v-aXv#Ue^nYW02kRcscrAk(7e=A~jJax5KVM5}h(ligWqmwbIUMD@e(
z=^?OjO3#mS-EnGjbxgMvS+0S*i0OYJP#3wpGoOqH(|gmb0JOZN!FiqwvvIoa-;Q#g
zzH?K+y5lm^J&r6FccWLF7}o*br_t)WH8Vrkdu+o}3JTt7ld^bo2?b8O-a0MLbFCg7
zm<eR0kVitIUYGYFCp%lJe;shc6bR($E|H*$qp=leejU<p)y;&&X|FO6VDA{k<OO#&
zur$NXZOl#_l!5?6ivmIxbI?PR-i5wbj6ryq$EZrq(h7GO1(J~rFeS#^6<OUPeEIcL
zq3psGA@0i+YoT6^SI0&3mA@ctd-K{^C7a^C<>=fPKa4=i`thB&S$?6Hz8>ueGpulX
z-?^|~{HtT8HJ)drxqMaK7n{F|VmYDZgOcS=i7M7oxP|s>pT#mbV*;?HA1`ly&}P@Q
zjvXH47LPYhjhnZ);+C27e-<DJ4}z3r(7f!OT`u{#Y<Rq>_dlFndVL9B(w{Nb{X6t;
zV^>e&;&J-sdhNh2uD^0o-@GOKR-)r?cBs~J{j0SH<64*6Y@cglli4I@s~2AR+)$ri
zt|$KNWv6|)-=9-o$mI$x)+({3u4Bd=3Q;DJx|8_P?;KQ`XoxrKySMH{B&kH6R^Ir5
z=1$~ZZR*?+?QQ%USnr{Y3jK5EO6ObH5XnRQ*wz;6WS1)5bhAbX32aI&8OW_sOy7T`
zJ##SnndhXj$WETklH9L%oO<hM{|-ktdq7~RJ=(ZdyZB&Td`AAcC7k@@(Y`AFn!TdD
zWLiXj-RmD37c1Y#iu0G`Uf8RjRTlnxD9UNiy)ydUZY3eEe{VZo-7ApK=S}y@{q^O`
zz=<`$6<7luPSyyabg{K9UOc|o&Dy6U13*r;vJ*uVw}r{X&TRt36<wC;vR(}U=^lp~
z)({gHJhb>+aI76>nU^!I)ERWB?Lp{oK)U>av5f`08xhB3PrJeTs-g+IlQd`<0#WaK
z1=)?(gCJX)Gf|$NH}V!zNbF^hT)!E~>f}Bpsd-$(1nn%~rZ}OD3{;P0d_Q6#xMXTL
z2HK{ZDKW}Xevj_~G!_(;<VYab>3$@*bCT%Q!z9gCg1lf*#IS5z(YEL~fJB=e;qh<V
zZN!8eKP|f_7+sqbS8d(A;i^t>)6~X@Qr4^BI$q|_cr0&~0;XxmVo<FpmR-D^JYrTv
z!ZTMms?utDC<US6yj%((`d0x%e|tv|nd@gLjowaRmtT6<Lru4YW`;uD)ZbNi1Mybf
zN9M5_;#z#XRgNJmvdl@+LaEMYQRwOenk#cg*4<YVd-+)&Kam`3yVLG(KR|OYIjyaH
z=?t@_aj<oM^B{q^2M&!7tZP+Q+0vWU^1(}uW-m3X_f(}Ta2vzo5`e~zuWePAs7Ake
z)N;7}7-fsK&9cANtobmlTIKBwXXb=d6x-fyj+N%FoSokE<fsq~rA8%tdJ#gV=aWAC
zfRyxf4aij+z$rRbhDJ^ZI&Bf_y*y3|eaI-d*mC=}z=ecFWeT2hGz7LpcdoyV8JX>6
zxV*}XB6+RoeeeKiy}Q<ctsS?{0L&$v4(=|dUzO<KO%B`FzKxw+O`Y_5`_nxfn2_e!
z2k9eMHjdHCbaA`9)Vg}39q*Xoefa}=PjY?8rlzneN>NiK_Vng}8&TVBW@rEAa6_Lr
zCY@P_V$e}E9jt7;jL9X6JbkGZp^lK6;jK&2b*=s;Y0PP{DrdV2wvFIoqr@Q7HoZmY
z8o|!TOVn7JG-N^T-McQ3#Tq-mzbNCrtym+{+vZjO#kbX3@lZDVcXrL(nTKV9Rl94C
zHiV#LWxQ;*9dhL^7mV9ld(X%ro#{?m9#*>tvwkb3HL@JPqE`qa=U3Zx)*+hdcne`@
zWje!IT{A}cUG5NV{<7k01kU&3o1X7(uyT*n&8_McY=oMR)yT~I&OP`mFEtzMxk{H<
zxt&X)6}!Q1x?Xa&sJy|ksMFb=s9+^)jP4a)c(a}n+m2&n@%cSm@>(+#%ImhaQ8JWA
zZyoQcs&%MiZF{2JV(PtKojH)*dc$Idx#<CjwFk0Kbj=cW%E)qqLbgduLwRRPM+)+)
zR~`URo%Ew%yX01G_X3Lym}tV9GHVZfE)W}vvG0`GKId{1k_=wfMAH#gc_URpAzq5T
zBOcdqYoai<nL<<;VoqwAdX3a7y4~|cU`LxiL0KW@vBsQZ=yzZI$?tNR{5!Q*U!0O#
zOGfyRunPaJoksu==cV{xY@b*}rJ=neNd@w2?`+2RuuoXd(bwzi0RU5@{nKpW%@vy>
z-+$waWiH9rKDa1fzx(*=R_-H+QC`!xa^EfiL*$4OdF2b^?_KIm_ZOXu^LxM4T)y(b
zvoF44NQkrYLUr%{dRSj5ZQFuIlZP(_-4eQwBzk7u)hTiu>@*ZX<97R4(Jlp5y5gWg
zMXi^LO@%CRO9R(|*c-WTTQ#gf4<w3@%2M%2#zP$P<>jgB@!mkQEykFEMu~PES!<x0
zEX%xGo9LKRsX;f5m1Geoty;%4RLJ6V?GnR@wAwWktj0PKE&xu`@r1^3c=!TKCbXa;
zwGSZp%ZGY#>zl%tmz>Se$?j$^-aXtrH|Qj$ygJ>lV*z^=sIqR^nql^r`us!bHz=-a
ziRwTI_0(pHT#RR<Tz^-{V7-ofGZFND(DA8pFd^#s=0tz&_RO8#o)I7R-z%MKrqXw$
zLgN?&K~r}pf0fmT)z*pFOisM5x9fa5J(R-IX$BSHq^1jP0Cf&+k2Ahm93}9z{)Adc
zkNkCg;=2{XzB;N=kXH3B1WdEnX@${I>##PqC5r^nN4hSv0~g^7O~ekG+bP3YkC%i4
zv7tqavCGF~Swi*&uRD5#hC-XDO4^ygX3t|1SMxkJP4LBtq~n>AJKI2lvKeg1SEkKQ
z<P9sRC<#b$n$I^w<x=wDQcWM{vsIX(=~wu!|4GvtGIzi#THo2i_0;8xeDv<t;0ScY
z5pg%Zok^lmm+8?}aZ|$0upMuBW?ApJ-u0r;CfTBNw{soM2Ly~W0yK|@Eu?-_?v(b*
zF?L{=XbAMFtyhA8Y&63CF0*TBNr)La=&->L>dA-Yp-v8TEJsGd(6MHahRuX4`xjD?
zuF6=mc1T_rK=ikfdfrw007LLz)_FiPoBbowWg|`3>&?pyf7Ub^UM3LMVqLs<^)yKJ
zhU~5swhw6mGmo!a*A!r&_Ja1UU1yKtFYzE_HAxVAP3~Jt#VR(WlO9-bvo$0Y8?b8D
z@)53Aemdgru*0R{;HJnyEURZa@fB}x>vo`#2{Xv&3w?=c6uN+(SA+RH$m@L8=v>>2
zyFrt3C3H8*^&9kXA~>w*OceiDT0^l+YD}|8+eYt*-zlgqDNzV^SQHV4gLZkx)U53W
zBzWz<z8|&%_w@2?53S<49kQTTu5x-Q0$Oga0J$YC;lg=!a*BPoa<HlHvgAMC$4ycE
zJu=K{QrXTK`&WjVptLLdb4sGQhw13MnN^}(fw_v?=`Rh%_NaaK3pXC3NBKqjy~<92
z@43gmfrlII?SnvGt(~mRQ^YVB1fm@|8^u0CkI~zozAbUHJhP(&vuk&LqZMw3Xt)8|
zM}hItyo!KWv&BHB674i;OeGnChx#w*XQfb-6diiR63LJF8|q<muWDi<j(F<4R_8#S
zW$hgyHwr~RtS87Inu~;9ztbnHox1q42FOL1j<@W_`jB>OwqPMqBjnr@4lph^S|u&e
zG+;R3bfC8AitJ0HS}TaTykhmKC8FL9W`g;GRl2o`F<-@r?PhV1lgiJ}Ms(<R>W~k&
zgIUY`7G?CaTZi2qc~spVI)n}+TR&B8sM0)R(WQyhN<WTAD6<4HNF+ph)|4f$p@NHS
zPpHLX(s)@4T}5uR-EjA6c@qnaM){Q5W$R6R*kL=vkP2J3N}{pCWQyg@5fk{Diib#}
z<U~i?q=zj`Ik98=PF$o^q|;WRrb<@YB^>&Mm}s+E)#((KvaoFq>%7oE8TlO_>JO!Y
zQ}-cfp);U)tJyMK(RRglH7=t8Fp;G$uzHRD3-qqa$))~S(qpzLD-p}79b9X;J#jz1
zCaN_Tb=Q${99g_%xN{>MqT!8L4pO;VT4dunx1$<b$fMQJ+ol_vcRUr`H0sTyvpzSb
zqbdT>jS$>aOwF|!32Tu%zMA&Tg?@9|sS_6KcUr=LniDlm-=}cK{{dTWO5k<o-s;G-
zSj%@2fSZolC&90mnv-Y~egMLJlqQ+=*BLH<U-`17qT^kY2pj9)ISlx+ja>heXG<!X
zU-ee@?dn;I`TEA<nD%>k&!4oB%C53C4!7S5&H6s_N@IrqkCj6_LA!pGwG$6x*U!yv
zcdPd=gqf8RL!p&NA878{cAGwRhPQaC_TbP<7v3B8e*d~tXSd7WE!`H$E6-K?`B^84
zwn}Pf`t!cV-M*4_m&);c#dIk|Uw82qp@0jAZB^t5X`}4iW&;Uq;T@yavxJ_`m_OXe
zmTF?Ri%;v^q=3A`m>muz2RkQDS#MhOVYAT(r|)$-)z~h>_by^Hc86i^M)l6P^!mO`
zrK+U$wXYd<>HP{(;?VkQDZR>dbF>J7kf6ABY+gHE6Ezhj_;PWBHC8ESAA-u|x>B>-
zV`P&ogYGyyGy3?D;xx-TpL6TsogG3Tj*C`S?A%QPc1xy&BNADBEv99oR8Ti)yRV7`
zd>;d!&UexXo`e}882IO=d24Em{g+|Ftkdi~7G)b~T^3r(qz5}@wy``M0C~T9bsmw|
zM816H7-_Q`tp$=Yoh+ZIqtleGdf~Oi-qEvT7v$b!e(5eE6&Ec1%wP`z!<@KfUQ~~_
zL~<&-<(Xm1eL(a=Q1*2DH-<Z#y@F);e5E}RcjD5`A!p+-h`IV!Fqg%-ea-E@aQo&4
zBaE_w*x~fzRzL%X^$Xe;9$tn7UVraVTuFzTNur|#?NXkVHR2$I>{>S*gAhZ^oJ&DT
zWyNr7h323=64KqOwLN%8!Cg~m<7NGM+|b0Jhb3sLlbDOkys)5-O9q)aQ0bePX-w@`
z-7gS_9jEIC9qZU12<DMSCoHiP1P5|Bq|L60t&hu9!mpPp{yDrDFKuz)b`L0GuiG8a
zGmY|d$eYWTJ+W0dbDNp-!<8U@ra#j;aNAHpyY}9RFtIItB3RB=)93Ze#;UK*t(@0d
zDXv}LCEaqbWEPya%qq7Artp(mS1S7hGG00XLVA}#1LqpzXllz+MW6#1OO+G14AASD
z?y#uBvnPTpWcN2MmY7`5HzTt(!S#qPwa*qTJSJ?<+ip!^{XwBc!pZ7Dg?}C)^quBv
zWw5^&GaGY>FEEl?A076*nyK#Sy`dxGPEDf@giK6GJ0Mi6YvG|LcT(U*)V=tiJS0wI
z$I?yC4_1ACBZYMp50$aKt}M=ulLTp=cU`IO8N^0WEXKlg!w+T~X-0N7vm<6+B@z`-
zGRx%hE8aL?N%EDrb)Q5^{Hw)6gmnd#bCWHY(;{NbbgqFByY*eGIj$L(0Bebp<%b4U
zPy&a*WlR!(6|j*ze}o^;O-KP!Vqvvgx%&xh;~NmBGH8vnm612Gm<yi9Ti503i$_?+
zo9G=scG;~O>C*M8+_DoqH42bB#qOBSWYw76K+qd}mO`doMR!KY!u?6sa;q<|L!zPN
zbM6`pI<z?ZFz3kma%anRDPT4N0=m_T9NKul;IYGe8{diQdfn?2nWoe9%Wud|9*0@X
zl)O%WsT`D2m{BWql%3sU30tRotkBU$>0#Opmx{&6eofS^5uHci|5?ip$utHSVHZN?
zO3(Mk%AneWf7{&sE1l|nNQ|&?G;O1@6NAhmS;fhcvs0CZ4sd#Sz2-vhq#$Q}a4E^6
z;@G}i9S;|vvmP`!MOaVoOa?~8;~87QWlbe4-{wb!X~Y0Dk~g$n(D2~3t8C8Qtkp>?
z1GhdP3VZ=!uu`L0<FRoXA{qwW0Vn!RvrlKY?81T2F{BO)o~8Tgnr_fFCxGx!nBeWT
zCrMMF`Er9GD|i_DHpCgU0J#y{%XJv-`gk+C)PdlKr86`-<Xm#Eoa*H$nxA!HrRW5i
zo@EFMDpTg{3UF2RjjJ;1&{pJiGTi-uER#)iH13ATN%Fwf+pn5M+!Z*o;~X{^fhi>u
z?^uWRZE76W`$gKRjVMS45-Ny=Y@{v<4YqFrNZ4*(5li7N%-5&o15jN365VZTXm6y(
z(=|IY?sXfT+UfFZ4ka7Xu{GXxY(y0VPhWrcD{S?34Wf#3*MW&vfNw>Env{2I6|^yk
zpweSb#JfreT;4OcO7%tayqT-itNlUX??GzDm4i2@UwM$YAf+{<i@dl|UU*gWE|=Qo
z#-o((;^R}&NaKIx_B0#mGLpMazJ1|M%X^X3dz;cm?b_oOn+4-3esHT<6YWZ~Y+MB1
z=~l4T+-F`n7}p;LJCDt-$T%v+9~Te#Xk2+dy;VK0M)}u1;CH*bFCMMo(}1s8m0QEo
zs3hkQs*LumLdPUL>j1{RWD`>%!^{8&vmU-Il!195R1~IU=x)0w<C;ifPDC}KVjUsC
z7WHXI9(F1<%k&_>cr5C{Ler^mQJpG!S_BBdBIL_!WPQYG98UzTN|<oOka2}(Vc-Q8
z&SEDRTa##1-s#GOQIlJM;7sfD*sQjmxhr)Gmd+5W1;nsddg-=L00#iOf!d^5FneJQ
zd=5S)4sZ@j)K(nnY!zn|nq%Kjk~rsoxVMh;#Fk7gD~m)G>q^k)P1g;oXyrRcsGl-j
z|G1NAXMhkT&|uJ?UA9HPb10yLUDAqW^a+jMV$DgQhtY^WZD{Vb>FPVPn)my?aB8}8
zNqwPsCGq&RSTiv?<vl5&XAhkX-FCUTa8c`Q6<&{Jqu%!UR<m|g!pj%MptBow-}>I&
zfpDS^uiw~whkko&<N88UF*ap85uX;D@3j|Je!;@qg-(JZ-Y>HDRgb79gTuSgoLhsK
z=d((uc?A#E$7llnUawq!@j>hx2gB+$VYku3Iwfa9aFt$7Q#f$#P*`nmXs+NTvkuNQ
zCFr<_TuLekzpP^MAaY9qhWGm;u`Dx*w(G3(h^cHzY-G!Jvd%I-A=4n{bR({2`rAfR
z-=V!wL?XW-;&Xngph^a!1PV6S_F4>dV%;bzvO|+)v~C%dPlXh2EAD<-{25bio+0UJ
zPu*7z?<(|7GCJOW0c}lR<h7lw2VcSaf219I?oq_P?eDCxv1NjwzE17$YeDbuI^HTF
z+z%vNrBrIOahf^E;qPqN5O4Y%M4#UM-DmGTINvHaIgdP>y?5KzY9Hp#I-Bcei`aM!
z^{|Pke%^%sjiub2(!{48)}&v}J}-uv6KN~X!9l+z<#RE$9jbOZUSv?LsoOB~Rey%5
z=mk<V1deSco$-3_A=&6vnZS+hOk{`kaN0YT?Q`4S>A2)7Oly#jWQycxR=9yMMA(!i
zd9;H-wBOBK9RiV2rKYGSr>>)+*B=?y?#U}ahq<Pb6I)d%-o!Ao12s3JRPhd55E?#l
zL4=3LTbzV2QE9XV2eUfRQ<#fW3rI7Y&6?xWamz6v6--eoUTr!eodD=RDZ_M-t`z_u
znDgo21nW===fS^tufq(62GqthzvFNqNHC*7qD?WS(?#<(AvAWYd60*8SImhnP-PPM
z#XM|`=mwiqt7c&G>J0%88*{CzlAY4?9d`%Z?qrxM`dUhDlW|S$q}m-H$-DJpldHFO
zJ+``dh&R}d&jRrW?fXfnZZR&JYYg)jNxa=EGF5yAnz2o9RI2YkCd}TpS{ibRRVwPG
z)I@2-7rLjsOb3SOhkJaM%}yljAzPQ39X?r`$2CS~TD2Yqs7Q0Lgq~a&s^83=9?{o}
zzIhC(YtOA_zW%0+Y_TtAcXK3jgf(i8W~lp#3rVjkD$U8LteNvAlOgv8fsucK?JkbK
zPrg#PIAM)ntaztWnDm+iUof(sy$d3m!PfCK-VghThn(cck4R^&>Aidcy6r|GOjG3D
zRQ5F{5vmu#7ql5Q_`}>*H`nN6y^|Nly(uqu&mZ7-1^wP6ymC0s`ICJJ8sIf%yP?cu
z9fM7v`)>Y?^(~8M$*cN1kNQh_QLW~7+p`CqZm-ry=^NprJI|h%`D`*j=islrMuQNG
zmiIf`Lz@h%k6O3YA->*<?uJ!FTr9Fp0@B<Y&m~VsjB%e%5QZ)9+*WJ$CH=_1b<oB|
z)!jOPc!wpfXsElzW+8TX0%gz?%HUUi#j+bYFmd-vOJmKx?cNy}4NutQn@Xz?rcSzM
ztN8{y3PiIYV_dIw8!ayTWp&uL|*dU<l>2qmX78#Lzlo$L_|xZ8jyuL@zHu3HqJ
z$&CEV)7s=Xw;^j*qh2AG_?B&?E@g~1&$Xm>Zi#MXTWl&F7)>F}XL3DSo-09ZFqRdw
z5|(^VDuQ;p5ieopC}z75t_LdNRlh#)#ZxS26PLSl9&j(cPBRm}oWXgN5S&tPGFH8Q
znU_1`C7sG}X@c`Nf_WRMOF^gbj65n*RJw1HExprBswidDU7Frbs<O6EV(F>IQ011a
zJ9WC<P*hX{96<Pu`c&-#<R1dO@ImNM9TsE*4MWMJvkX~FJA5zcBx}`HBgj<!1CLAg
zWvK)4dy3I^n<S!;?!cUI+L*L6Hi5fps)V#Fk8VyH8mdB9)CG3jwvG<yvocG1feqBj
z7Oz=#w^dMa-znW}3`wMx#KB!&3IxvNb2IFyRci8hBo?>TUC@NDZy_UhZ0s$>po?c#
zwnMMCk~e!BDf!~QwI|J*ebhNHSUxR`D!Ea99#N~S+7KMV*dFC7EVYlA1?mHHWRGB+
z#B8@~S(n)^V=Rz&T9cra2e$IT2-q<y<S8NMYzksFNbgeFE*TXEWl`vhjF<`4-CCz^
zDf&#FY@i60gE(*;!mJ!H@S@But2sHqCt)sx;uVQ)X6uluCgu>W%L2|L-;pzty_Lz_
zm^jMqGmNWlYBbu`sP;W-d)z41Ahqr6YTB`M8fHS;Z3&e5!#-84?sWalTz)rCR|)B;
z9|gN$ro+0j9jtUVH=t#aJvhA3d)%sL;#Y>ogN-i88XX}maNFEIt0cGBVY$Gx<vbZw
z;kWytX0DILShAb=9B+FH)wG=bOzj36i-iZ(bQ`$a9bsVKM4$KY)r_+~<!%OCPuhGn
z87eT*C$3Fe#Pz<(L}+D|@SORHKW%%PVY*LqwKkUu{h}g}AYBYjw4k6%ECp~fKs0Jd
z-Vhsro0eJ<I_i<6SP%WS;NUO=3-DZ3;yNvfwzjMe!&#Wq2n1HNJVa<>v`brrNrD-o
z2y(Z1N0<pA$R3H3D@a_15RVKIz&w2!t8^qp<aXQ536M!pa=cCJrq*x_qeZnSWj&>!
zI8X2L)Pt6zZS?g(yI<G>BL*e!q<UCkM_LOJ?f7_oS@6T_K{+$n7jED7$MszP&d=c_
z)ijg*Ih}_Plx|9Iu7236C-azkdFpYy;tzSn2wGvTXE29ot3UX>al%a)Bb9NwWdWdm
zx%q-}=|-a?W*37h=En2sn>D!_yJU)oK*~+!OW|ylZ|!P9tD6of0|^?t%VC$^+EeMX
zjto@-nt@a=?P`6c#155vA|YheZeMYCKLx47TyMX}a~tgvL8#?v87;^SBL59}nb@AP
zPLST4vhzz8zf%)zaW}nN-cw(RBwv4UsT6kD7beY+WrXf&<BN#=uFj`B@MXHNYick$
z>e13b-qwa_*IS%MD$UBeQS)BJLdRfPy`G~5b$`HST3(qJ&%}VL^WyRz<@B>K;SAiO
zuC>8#_?og~LYNfv06k+_>u?s)E<}pVT;_sslxwqSEiRKPj%5J$&*!wBQpOAJhPowX
zr!ad}L`ccYg2Y*ea=+|Sb3?9%CJeD%exb;vGK_LP5N>6++rpc)6xF>7lm3D*qb4mQ
zNaOQ`h5l=S7Er#$@#QA2`%KFkwzh=>6cY99{RW-qsR+CX-2$ogN!sL{>fT+ta4;0p
z9wT^4qwX}C<i;Rfey!vBgjTYe1|u6-(GhNmK+{@YVlkMG3vL2HKv%IKeyA^g$Q7H@
z?4X--LRZ9+1N4RtwqJJEP<i^qf;eQ6plV6S)D?)A1BQP~-I{8xotIrxM*#@U!ECtf
zW?R73Ngt10C5xHUll;ptRINC%wy+UyW5UZIrxgIxvRC8xYP5eah=#SaE}Eqgb#u>J
z)#rTMfXFp1@Csfv@=05cwEX~2DMBJu)(d%&+mSjHM-r?&;B}}#)%$}JVx0&|DMO0{
zkoHi`m?vQ_N*i3Xi)Ndnj8Ba51X+{P0CU835et#-H9MvyF*36cII(?F5R3hc-1DJR
zHIX%m>C3&ru3<abBL1*)tpNXn3FBTnVX%fb&?iIbtQ-Qf>^dUOAslG~pZcRgdB8SU
zCr@jYs%O`vex4rJZ{zMvW~b#~v5IoX`W;O!^sN2XQRlF*d1{!2p(9N1HR_hO*b>6C
zLZ;WCnyNa~_ltLGeP_RM8Q@8ztQ`<KcF>!xRYzQ`iLf&-Qq!DL{JKG*oRJy_$zic|
z_(a1tiHVJ6o-<H?Ffj<n4+q>70fD>IelND7jg7j8Rl+gYUwAR9Bmi?uA#;D?@r>2U
zo~%}_Z-vR)fMa)F)0Eo&V0X31YLo&RC)P6~Cs`Wq4Y0Y?ri$Xl=D-cLtm&>fjNIJq
z&qs+`3(6&iX+8lo_d?#&FmD)liW1~Ex^Lv|xkLE=G0$pWMuW1F%5U=N#(f#@(<{g_
zivWAhfKetaNd!xej*#$@g+)3a_r&s0G3U?5P{ZS<%^}l*VL+`>k-@ko<u<f#eN(@l
zTx%2UeNNhN2SuPZ$?_&!sik(*1H4jF=jyX9U+OjMbfaF4bww;8b?yX6U%uZt-6D#1
z?=&5p%3OnftwWU{*-;-0v~K7(Z>y{VNUgweyf$F<l=c6Qr8kRpB+JkIX8hu1;1`b{
z1lR)^1GUsrOICGNcXh2<xo6&e<GtMXos2yg`@S(4+=BZ~-hI!!xl~qW*4|w$X<E`4
z8cD{C<-yo6V890K2hW2sFMjZ8*bfBBU@*vJ#yxS)|NnizPwWC@7A%%Dkdf{L#^wfx
z>yS^=05u9pr0iHBk_x*jW`<z~Zz55YTTAgPv0DbSiZ_$1zJ?A>dJ!hZMT;%oU*2J7
zMS~UlIjEY|!89W_H={7-8$G^PvjF*9rt-cV54iAA(c=Rc8LI{JR6oACiKL@7BL)5(
zWksme?2?edpd2knoEYU4EO(a?cNqkD3}K^4E&;H&DoRY!qS1$X(#833yIR!HnCA;o
zDBW!+wFiZQ6$8W8Cd%PZ$!V4?6q1l)y(VPBTL7vl4o;e>PB||p!Bl1kDaagC4sJbI
z>olp7I*G^HhR>?s20+>O2E4S_kg30+5<5KMT@0ew-LjmPpWWAfh-2a0=boi${1K4t
zAU~g$&@DwCaa0Gn!KOHJ5GK4qc?V#}hI^9+86Ujsf@$s3_CJ*}fpeq$;`d?lQ|Z0L
zXd_mwVD|44N8r@m%U01u;oW=v+xy*7HG+_<yW1Q<g)ZU@F10>w-HX=VjTK#bQ4vSU
z!^gt?_)%_Bk~@)vI8g6eqUd)3AolSCc2)nB$0D7gn=iH@6V!V%u%C1n!ol_*n#UbB
zl#5fevs*;&rK3zx{{{N~F8RFmclV58_KWz(1uz?pNfmX6qIN;aA*3ePdoFy<S}yiO
zIFVWJ*5g9<7{nkBt11XC53Na$uyn^$sUz8C+)XO)2bkO}t{h+%yGGh7>=Q4-v`Xq(
zP(&ueJ$UF@ZunOsp8*k4`}gAAJcJ)qhhe@-n}PVb<f-rE@%!Dd63pzrNM-%IVA!O@
zLb1tibtgaFq#T@7!^`E9OwD5=5AL_Pdvbfmc&0muA|B?+qBz#={D;U|sU)1wB26oY
zZB6KEDq%-HD<^{Oa1yfXa(MYxyv|oLYmH>J1A~BeE06ej+`^2C^L$6Z$2m?q#8rb@
zApoWsY5_y8UCiu>>t;tpNMd=*Oh`Zu0epQrSSmCMP`ifWlvuI`EI%@OHB16CE_R1S
zByi0DLi~r>q**Kjmt&@Ux45V1pa=!!oMm%aH#mBO=5iwEfev!zlCjJ9Q!-IFrwuBd
zbx71{S8yFy6}GiR6wI4~i|i%rGL3^XB4P_phA@=?QHP}U+FlLRzm*xGDY<0w0n<Vw
zp%mRH`^Zl$oGBNq&1F7q@E!ro(G@ra2NhEpb6gb!ZPugl)GeT;)MXV5mvpG!S2-&v
zeH_ox)E=L#H2}g*02#J9&qeI92-o!!qZpYi4fCW89Fws~IZTFJK16~DStUmq+jfz!
zm%rdMtXqkj_)-GOKn0N4$K;&gwyr)_L%^;pC%x%9#x^RWaz@p|bM;Zq8;n2f?<3K^
zqqLwdAUB2g*XcVAKRsMA<$6RP0iQ3kEM9z;@EN8|#CVwmhPfP@&DG7_O>>IEb(lGq
z!l(zgWZ<$Zw~_#FjaD0Q2*`yt3N&IS_^CL~H2g{8ag1O>r`%Sk56h%L<Sn_0`NBfo
z1t(-qX&AXc8z5QJ&A6c#y|MH`#3&U8th4@**F;T7^LYxZ87j}H(?tr<qimZ_TAnbH
zPgrOvn~1SS(Vm*gg^Q^rND^SS)HDpE1kZQ^=F52tE@4ok-~c8vPwHYJd`4G|&ENjV
zp8=D0L?KZH%y%ETpa$*3{11?AI6D`dl4JzpSQcY9aLPtVz67yAXqK=msEYl;;rn^w
z`%P(apN@f?v^~!Q&+#X>yj}oIEwqK4pGq~n<;`6n`;n7JAiGRHPZu`}Pn%1fVE2*m
z`WA1q+dun|TmgBWASXzNemq<6ZXab|f4DYF@ciEHU-=^%8m?O(WM>`vPP)&ViKI92
zN$xEQa;^2xY#;8di7lGgz4m2S!+$2$4^fbCH_SAF{Yzg0VlxcLP&%7ND2=krgJpTM
z;Bnc5V$1^+S6+JaL^)Y6*xrGvMdJg`f>-y>6=+2)lNH%!W2+1lHq*@Bo!$ixouP9O
zb3+6n`eeoTAn6qaty`?Y4Ui8`)IL^x{`BHuFkn@(;SQJs3uz^X%Kjp4fkwsBo|D?~
z2%U6l76-8ZL3ADNkQ(+-19bsLyuHX-bh1>>+PC~DxvVFt%l4R#(uYig4SMVN(?+EE
zZZ;`sOyH4z?vJH%i?6q+(zR45JCIvnT?f%DhsRl2Dz(qKq6(B_5LC>7%6@1LYLtKI
z5NV!P13S~$7#R_rzG<wK&5O<OZJ&VRpM5Mc8o38)nAl5XgT?#RaE0=&@Vk<eUn@*d
z?Eu}xPGYkde|J3|T4oFJNFh|oE(2s@dX37eUJ>s|0X(pwWsoU+_H8{oUv11L@t~*5
zF0%Q&UwXOMqe0SEL*`s;u?AH-pleXfj>3&oq%g7476@g`9~H^%ryKrA%24utwi_(O
zCi@M<OrQ1+0k%3=XT@r~4tZ4+IjefN6HG=2mIJYu@x@FeB1~5E$vrJa1}>r94>x#^
zj}LP#2&8v==32C*hC#uXRN`VaoZl=c)pqf|h;U2UbnUmDlJ#}u{uPu|lb|h7?_TtV
z{Q@?~j$HV$R}KI%9tM~IA%MR{{C+r2Wrj$t=An3Iq9hVOvet{a4J@QIC2Fk|lEQA*
z*|{+ey_6B{x+sx*NbLEy<&_rrTLFR2G9m#g4@kn!1hRae)M_b_6e?6H4N@!aHb;1E
zgsFvc4CKaQa@hlr%bX@|*Tp1aWqhb`JJx?J6ab<-)P(Biee^B3l-8-t$~K{?)dn{%
zS%*Y{KMwBdp=u3;*s0ZoKq+#*5+=P&$&*-1#@OE8#zvmaNj@?{2=yFH&BNpxNJ3>w
znRU*=gTsD60!6^5MJlOxO_2JR7wqk{*lrX@DZCs3D1(C8t(RP3XFEl3A3<!W1lFxS
z-rx+*ddP>}^v+0sUaaD1u_5rq@oj7$j7-Fj?_ziPUa8cpW4C!iW^(?ZeaCJ2_>b!8
zX#@M^#{JLn5?3w1SoW~h$2*|*?K+=6`g3s|*t+meH~YlT8Otv|zYo{a=g#2HPBGa9
zDrV&{^ZX~{fJ9HAqunQpcuV8w-e3LX_ZNc?@#2RI61__fOc|t~!QMYX-uglZ*QF=T
zPV(`P`EmomM3LO^A^NlbNrS^re-^)WnSUH#*&|c&lwPO1H~%>IKc@FH$IamVWXkBF
z7!%k?QDhLS?})#F0$@BAmB+jd`;+!Hl-`1NZY{%I!9Loe2M^@+V*pDR;QBkcqpeTV
z_g0vndJ|h)?*z{SgqQdE$Cb_{n~DNA9f83s8~$5n^4B|}g8Vm}^hf0r_iNCeH30h0
z$1h6?<5i^UeHt{;VILl;GcQ>g4wtJpl_F8r&<*e>9&kFWElv?zQ-bNz1Dt4P0o(Be
z1|5!y1jL;=D#+(X?KG=xu>l6CTB~soD#r+W124Lfuya&71nUBr=aVrE*x<QpM9%QV
z0yvY+20-zJ#XvF(f0V1zmYhr7mEG=Ow-`z$bb4OP;U87%50`+q6c2j0_oQ%R`svEQ
z*zOg&{)}(?>_(Vv9>in6)egta{5o#~u3nyX^Fmxwh=Jzfe+)A5*5Z%*#m!oYrwt{|
z4e}wnuj9bA2x^nH>Q7`J9O~UIx@liR6I|F|HVQ}w7>{xVWccw}^l@IFz=a&UhDMHC
z;aBipAEd%Q*HRgy%vB$4S;QusjJDMcQhSgpJsQFw6LdH0H{*F?^_JXl6AWBTZIZsM
z-on*xj(&)YJ5hfn1CqS*Mg-U;{e?Sr28I)=SmiM-gnURK=ujmzn#dI4cDn7P=lQMw
z)Gc3H+Jwo*LnyN<Ac=i$$%BUOV_Ko)zyYRD;ISN6;>?WfM^iGKQ+Fj>v=GcMDn1TK
z^AhZy<Ip3O6@cGl2Ans=XpRM(U|i1_EN~+0Nn8T3SAwky5DUppxY7cCFDy`rVK~5n
z7b!%GuvrFC?#EFJ=)qMin@?aRAzbAB3cgpRq9z6eT3V^cmSlDhA}nA`-?30N49g*&
zUyzg+ICyR;Ccm~)FDaK^a_<fN)2hbPZ|Vi=<vSP4AztlydDpMSV=3YEV7|NMU(ZB@
zmBEq!#hxE(XP>l69+^+&q?L-)+*KQ2ylctswg(9Vx=R^P9drg@t&4N13=oj*jly(6
zCztc27@MN(*8?}EK2Yu|TeEw>(<vx@6i+gI8p{Zep$N4bPpTXUCdMB~u|O#IGmNF~
z#sGpdN^E0M5@DCerq?B9w3EqiY@$cN^b|?*8NG!l1}%dw7fm4>#jV9T2>uWNAEghk
z$)M3~sC3b4<iX_>RD-xW)JZFfN)5IEu(rsvyUDHQ7B`OZ)pAfof-qbh`552&qf*KL
zP-p?AKMQynxF?aWr0a!W7!Q4iMDLNKUKVFL1<rHf6n!t?9t^ELJBMXsT)9{&hm&gJ
z;jVNbR8_SSlA9Zt;C-+P%C@D%Uii^nu9h_TZqO>CiPT{rkD<Bj%#JVjA0&O~XC??s
zEp;Wg!&95j3xv^TqnS$XFjU|OADHY`6>YnN<|r(&{z;+1R|>p9gQOEwp)`%$o_6nQ
zd<Uk;ZkH>@F~&pOCbNDISkxZSWVP{*M}`u3O<Lr8{5V}jZ8qE_G?9<#pw2u+RZ3~s
zb^(%GYhwYL&nFrlcvuqHwv-B@#5y1g>}E=ya&1v2i2I;@fY<S@Ab@MgJO7^-QUzYj
zCE(wbfOm2WctigJ_$EETXZbGhQ2syQ)&$!TussI+m;WVr4cIjQ(f<m(p8o*e_aort
zd<X240sH?3>=Ot4D}eC&NB=u8mHq-8^IPEG{O`bf{tdYOAHcWyUxU~FJviPUf%pCs
z;LA*a``2JQ0UrMd-2MaDFAR>i0G`kP1o$|0aEv_I|L0&o4(xXgJ|hggoO@vV{|)y4
zpTXnb0q?QE<1_Gj32grnxc_J1`|N<@Xy7~lYw&yneC}KD+P??KeG8sf!S^}?&;K{@
z`YZ6>{~R3mKY;tc{H>oCcw0TdPkIMD{~y4<m*9J3z+)X8<2&&0`de_n0LT9reC`~4
zMgV-j-+Fz2%MH5=p8ub~n<{|UdGMV#!1p@^pYe~tYd;42y#~MA$Kdh50=It-wtob+
zg~4z5pY8ttzSRE<aKmKFRkb9<9$YdSw})ol@g#GgLgqWeM$GS4diJSRnznOkXBH_i
z+QGY6_M}%kDnm%gAFmjoxALsKMQ_!ZN57<3M85X1gl$ebaz3DZ?a?Dmy4uP%-11&w
zj#O?HyJd2DSy`T$BTyO8q9YnA(<P{2lZy$>9CvXi8jbVv?8!Y^voh|*jOmTj@&3NO
zN!9s!!<tRC_EEQBj$!_3TSfm}kDAAFS)ngH9o;sUEog}EV&7cPjt8R+1k@~IIRpNK
zDud#W8iNm|B)QAr-PlvdGRXtsuN&yeM);e`f$cBmcOP(%R>HmA)l6j5-Z#R7at$53
zdO~_{dm2ohSGH)|p`Yhcp`o9!nsYt8Kg*CPr(wb}wfc+30^yZoA8=9<iz29ZjqDMx
zyl}`up>&BrCQJ$^bEAG&#oumW-^dGW4Vi<2&z;o2X_nc<08b?chzRuV7z@SG;^*lu
zGXp$qbZdr=+P>U$e(`-NwO`}5bTsvNKC3Te8LRfrVjT2cKh7M(UMh8nD%m5`RP8uS
z<Hb_6I_zQtOh`Bp5E<~WF%ThYE%CHJ-2ocm0fZ?t3D#35ZYIY^()v0B!9*~}#Nr!l
z_VNpmRK+pDc0tYFugU!Q5DK#akP34B-pQF`F9hA0U6De5h?F`&pC}IwsZ@mQjzRpb
zJtm6Gxbix7S~3b+()3XTt-t9$HF`*W$Zt_yB6w6Uj*eE<EE3(<+J-C~>uG2k{*vd~
zxwbdcSGKa7mr88E7w=9I@5Z<kQ^m2vGJF^<*k#Opbv(>#!aOXiZ0mISc{1fWu8mXu
z*}Z~uG8xptB{Bqr=gISOHhtXDo88owwn{Mtv3~VI{M5(iw{1&IKw&H{eG~AZ)lR4X
zwZD`(-H2f5G{XGia8>4Vy*MlRiD_m&>crOjLz}Q(o1>kiSf;uMr*wHAQ4f!r_07A1
zz#Jh{bs!b05AR>pb*Nj;8d-F3?X!Zy2VAbZO1Opnp;&)b?WxY*0q_I4kNN2@@Op>`
zR~$3?QAkID40C>D{e7$k>M1wcfq_FGp_yui6KVw_fC>Y-WHqO?>)ou7!3|SPpqy-s
zYnpC9rdIo>`4|vh+Sz-RG)RpG#b09j?cM*j7Y(ZI^~FH+@%=ZRc`r4v<$3kH{jV^N
zs@P5OxOw=+;ISBu{y4heVp9+&HuK4aE>(oiF-s9{YpP41zAV+E2vdddqRt|iGG{ei
zER}YS7yZKU!pOGwux7BlYc4mg!nARCzL8pCx`}fqf8^T`%K92VINb6cTIt-82P!td
zD!i(66Kz90^I&^<=cd_pM0&vcXYrZ})E0D=GY&~9!{xJ`mVVx4U~tl32QNVzRpFlM
z?DdKbd>7ptAt(02v=Bf1O?0c$><}~>7!7njv7olyT|%-NXIJ>0Pa7|RSi|d{^kqdM
z@mI#qXOn$vbQ3Yn)O*drplJ!NPpv80LnZAfegUr)U+E_+0@Aj4*-ZDVjpof8v)e3-
zYUM$8*$k*p;5edBt<TZDy}jmY7gP=M>IhU>0IM(x9hLPQ$U<%{I|zM3tpRPQ)ELzq
zqSuMm=<drxfiLz3#xtnBh*dcNS#mcH3~WuF=N9v~*zGk`>~xaQga%qn)OFkG`)irp
z$xRbwA?$Fe0w#6PBH3Nd9eEc!3^5(2`3s5(X>zH(Rk!2WsljXI7B(j%3(Zp_svV{n
z(7@b&-wOAtV?&PN@-YynA3KK<r=$z$smztupVNnOkJ#HAWTJe!w9cLl)urFbwuq0m
z0ISFkd?uM4|Es1TvVa%XOe@-TSp(UM<3OINmH;eX|Kc17_O}E6?3?57cg#w+ltz&?
z-JzY+Jk^l%?*cvlr7-#%Yqc=u(8&WYK_HccpGbdw@9SQj#5=P8fv*AW)zfk*VeEm-
z%xqa|&Qbg3i&MUn>4gxrc>i8C#}@BxNKw<?iv)pX9Yhj}x>ez!s<H28tHPYFPwXjv
zo_vB!ku0%=Oq6O+)46dn>^-8;)nnW{kZU(F21JN9*JawyLRmik7yuO&+7<e0(9J1>
zq*RuV2G|o*`6RwqyeB7E>%_SpK0CR&s8w7B>VlR1_A|F#r>i3cw7Z6<4GOv*Ibn0<
zB)TC~=cBZHY=F3k0HtTTMB9>B&vZ#Ba_}!d+w;XeHy{+RnzfS<{`Ig+p3g&UQB<*V
zt6sjsEB3m)fgF-M&l~;9QzN+7L|ipVF1<EN8%{g<<z&9?U()B|UMs!i-Dl&+;^52r
zR%6fDu2mcXAvRE+u=*8f)bMchj8cQs{hIDfr4P{O#G`qIV)5Q)QA2*~p5@c{11p%4
zHe0}gut9+0ZG*>MX3Ng)3uj%6ZI(;*#r|$)*yK(Cn*Djd^;|T!n=k)VGPLK&{yuCw
zqmWZY-eb~~bf_Lr?|iUt_IA^8d9#hby4Di-8RMSJ^LE;)i61t5Pb`VMjm$WWL7s(E
z&01;UT<oT*S7g^jD*1X_TvH9usdJp*`7Z-b;9YV*K+(I#tZQ}qjV~s)E#ENjvkRvf
z#5Rs|S*`Wfzb`Cm=E;1mG|LR6a{2V=L`UJJ+h<DmqDAjq13kM#(=$ejXA7p0PDqX2
zyUz4vhB9-B(Y$UcmG3t|<N5yTzdKH;$&)O#aq*y_aI>wueW{ecTeR1JVYOP0`?S7|
zr2Z)(m(*5T|0`*4q9dOP0Y6>eKh`?#4hp4!HJvyugBpQWf1CS~RBq*sE``kBUERO<
z!pM|YV%j*^JCWgOgWL@V$H`rEZ_)lf&BV@Dkzbw9sz3xi_i<URIJUpT?5Z-#(v4PR
z9yj0nBn<CtKTAlNe1}rYJS6ijvQz%$sc-nz17ZNob4uCX9|3*)r!iBOq`*csWxXgL
znAzdzigEsdf8i<LY(5@d!9=rBtM<zM+NBu@Y)QS(dyy03DYzi*YqQZ42;W#=Gy54W
z=UzdjQy`~O;j5pg>}<v$8fNhO-uiPPf1{y2JSBZq4Sa<5v2h|(JZ5Y+ktxL0qI3z>
zA5J2`APHqU%_l4k-M_9Sde*GP{zbDrSk$fQajNRrPI-9Kva{>>y@IB*4e0hq`NPAM
zKUb^WNB2763={H}lN7MjGUm#xK$$h8)e3w%MoV`{#gd|KOE$7SMO-MfT8(96Fg<Yo
zwjUeW?JEP%(!2iM)Dv@Su-h$(G~XS$eC0Wl*!?z*w7>NRJO^}c`4m;s?8{p~&{Al-
z$|)=EHdqj!i!4l9y{{f(4AAF}oRdaf>HJk}=5!9b;wa*Y#$S43s{oj~%lnTbDa}eG
zGR`x8a9N>=$^q8{Rg5QRWJ?<o(4P(-+KExivs<vwh2oLxo=L!$=<9@Iz4l?@un_)2
zMS8SX%6#PF*favG!=ZPl7e=~;{wH7*FH|4(#!!g-K4D#>wFY}qFAcZveFgy^qkiB#
ztsnam+z}nrN&;qxkMgV|ul8lr?G)G$QExe8nz>9X!}^mb%{sgn1_{xkT9d8obJh<P
zva;O=5;SO)HY<$;8Mz~k+rapCtaq0yn-kee_v%n%3#oXr`z<ir$mh+RK^269z7>)>
zZMu86-~8QFi99eKQZ5nYYn|kf`&aY82fmJ7;e{63oLZtSv1O_q^rz+K4|a!3XUV=b
zdvMkHrNvd*RG_)HABqW^*E|-TnkAjx73RhzJH>Efvs<LIgBG1WZPygKKUyxwC*{7g
zZ`2|wa@WwXWO}(5%FUAaeB`!UwZ;um*4JknV9u}S$EE=%u5TYsz8m(RnY8SIZn-Co
z{o*ees2VziW9*CbZpL4CChb;h6KSX((|+}(piEiPQ}X(xa|7PgtqUO`564i;WtuS+
zb{oOAS*;#nGUVUftXuo5TiKSEu#H?J<PZu~F?qEb%s_w)n~M=hKedV1Rcn_Ox|m>Q
z<Kn5a!Tl+{pXGbk#8A=u%38==BIz)Ez98ML8);&eUsYZsevx(?8B}`vVf?@HUDm5)
zsYdjsL_It_oB}4mn>6q@LZV}DeM5X;ar@}^;#NSKs7O(HTtjNj{fEYnE8cqe9ZBtd
zqfj<^&Tr*1)8=XY4aaxy!>5duidDjZX`aOfA2aytr%{_X<<VjFXYh~;?PIBZ2;k4o
zTXnyjYwBkJ#*q^Z|FC-#^@nN6>2|PZ9&58Kf$~zOJ>D)G=tbdB==COW(9#=B9B(7h
zw%i|SC#_B!STOpLpQe#bIx47v#%rVpNv$`g@2Tfki&Q&L@3$^mb(ioSVAx?Z*GVU5
ze^V|@N_*LEdE*Oc_9wP1UsTCyoofEPH|O#@&BRmb(N+NOZL|66MJH5kHhMM4pXv6D
zZck=PE4l$7mU-jsm#giAz4Qq=<k)s=t34&Ovle!BRXArVL$*@+xFATQ4hY`h$CrPW
z_NRUHu)j6FS1TOloZg9b!RB7$gW^m=oh*KD@}TVc)~m6dTBW`35SFnqkEZx=U8sD6
z{`B+1zR-mAy%gJxWh;YLb9$TvvNZcZ%B6OiyVMxpQAf#Yq(eSs!rjBl<5m`<+Ie3;
zR}qS<m{s5%m}0xE`(2wh(1t^&VudrDt<-8o7HZ|S&1TNk<wNsS#vO_l&WF$g%j)!i
z9Zg-3c+T+f6gxIUGJzNEr+<HS1z-KKk+55d#@sW=b}3E$2>ZGK+$kmUp7W?uyP(RM
z^l;;FWz^m=N>AM26E4(Ep$z9_J7Ym~6V1-4{_^pO4qWqq;fNLq!P^gyebU9%!B&8T
zDc@XsBPGV%l|A~!+j^&*0O<qI#D{v~Zn<H;;!dOrYRpq@s7761P3h1+gZ=RpeAsh0
z9JeE5pEdE^>Uz1XvYciUcQOM3c-tDqIcUhp+s1L#9Q|3PjQrdC^jeWe@fR|~cl7LL
zZf>;!!eDamt1Qz&HvMIBQCHmQBNW1qk)PbuRKNlvCrP0p#PA<hSEST1WebxAj*4ZF
zCUf0&%J#yczS{aEw;Cge+{<#*5I%5#k<_ybk`m2(F6I4hTZ6~2#>|GVP*};uL`lh)
zf-$%vo~&URryrjF@Hi6<w9QYqFkz$E?0<UNm?QpLeHwIA^Td9UvFvZ4Pvo8j8~vv<
z*iJ~1<YG($hw?BNHn|Mh1L)NJqXSVYjvx^+#PH$li<!M12Z}riZTQ>B8FuLZFicPT
zi4$Ep$vVXY{rX6#`v463vd#lC!r7Bl1{l)I1!IV*?wKBcR?k2KEsASgv(CLym5U6f
zGlP*F5~!7sDM~{Qh^t!98zKr#<z}QbQy-?QD?tzM^3nR}Iyc%B`gMRfj$}&fX>*05
z=H2r^K6u4_RlWtZz+*59fdMj|Gj^b+l9SYKy}6n2qzS&Z<!WnOo%{lgeTB1gVI5#T
zyjLS>NVnhLqxq#Cpdf1Kp<lGC!o~VLinz&O1;IDVvcW6c_2YW%jEVDFF)N6oJ<oB?
z&Y7WZmp&NPB7=JqxHf3hmalTIq+6;Dh2t22B>V|9?X2~5twCmem&MkL0!v<$+8PCI
zL=3h10aqoNF;n4rS}dfi>sL#&rTLRM;qO&#k}o$>wLuq_P}QaQE+xG5L(rHTFZGTZ
zR(W#A6b>W6?ccIKK9)=eti$6bJQW+9DuSs=CnG4i{%zr~@)Bz)9~=Oij&!ZuC?L_T
zqG&5X2cS4&jq+TWk)+j~b-DMZZQ-S^SB^5nie7w0=tNCV?d%S@8gn#s{|h9yGx{3u
z`RC8~07|)JAPD^f)QW|yMbw-pk9y2F?`LKQdORr}=zr>Thq*c|aLhc7T;@`X3H5ox
zK<{y*{ugD{_w(}3hM40rL_Z|j3hrsNP&c(OYx879xkQHXm9)iKpVxf`|J|4lqquB6
zmr_r!Te2tYW=^y%l8hid7YZ^lC|Z-}4Ep_{+zC>5J$cW957kNl{w?NIrl7dq8#W%Z
zI6=RuL{4s(`bstZWH{cg<?RF0dh~0#kVB89ViJVBe`P|e4><O`;hXtM7|96@ZBvYG
zh?D0Tc2xyf%ueT{X(DtePA>BStLZH%H<Nu<lQ7$P;@(;S-5$@RSkz(33Shx6UA%O(
zf4C3dY*?v{Zoi(`UOW>=PWf_hmbniGvV$XPr<Mio$@91{C)F=zMuXX_86wN{^+igx
zz+62BgKlx^e;K6-Wj*wEhVM+va&U(mB<YEyOH~&~zs{qf97x<cpydlWJghRTBh>-a
z#a3mGVh?_i-h|KZ@)9TwK9sa0Wtt6}7~sS-#e5B)=&lL`(kW)CAACB&LZ!-D>k01p
z<M?_Nnhq|}*Y&pJODxV_MEXgFPSXXGS%q}6WHL(=NAheBhs|-m)fr-Q`=mU_x>5JY
zf;^5WgXLB}xsE%NM$@ie7EBo}viZ}7TCQ2i-4J1cKG+<+$wkz64^E<p_d~4F%K$#<
zZv8C$rur?bEjJ%YWqn{}x}B=hf2+HdG{w979jgO(oijp@Tc0=mtxruz%U|-(wnn?!
zQJ_j;Y~U5G8?xG$rB+ax^Xh%QrPp&OIA*k$Vy{(0msd8OX;imqVI0v<{rsHh6ywiI
z0ra~hESc+Lb_Yk;gjKiNx{1yEr}y3hC-`xMeZZ0pxer3+^X7m$D=^8zaDV#?2{8Vt
z(-!Mq(H(WKoI%@2*99Q4A`qmf9w(uWr<@?43_h*iqb?Y>G5(>jJ0aAgpkfv7Gg>io
zhB5b)Uox+wgPj!LAj{5vC@z<}$ysfWR+^2S2OP}KFu;bgB)po=DcFIp(~fT)(l5Gs
zy!&+6##^};h&OvJk)^vw)I30;scLaY5PFMB=p>&sPT+k?L+CD?xuD57Thz3p2B6kb
z&i>RqO7vc5hU|LU7}b}ny)@U+?5J}Z1tM5sV5TyE9?l%t?X7+r{b?<=ys(;by84E^
z%<GZ)=;Ew}8pOwaz}5$Rw(c@dofjtoK*&k`NZ^xrp6J_qLL>P5@w`9Y;B(3D#|hYo
zZds4>u75?-)+@n}8^*M^iyAJLI5|=nl57M7W9+LAPu`q$Do%u+=#v9wjRMyqcwYOw
zC+8U%VB_<X^ukV~vxCjnK5)Q_=vwu%HkPtEB^nIN7re<ac_#OzOh!{iV=cAZOe6cr
z$@a1zoB|6a95Tr!Fw`+$=_T%1VMaf{xrqxY+Tt$fCCThk28SoGea=_uKHFlD!?~1$
z_)*r2Ibx$<3<f~J0q>?~rP4UYGFZF5Sz(e*Q|FO*Am*{*I`c_(kJ;F7WEu;P3nP_Q
zi^GDB2J&<07d-k{a%0X)eD?q~c8y9T*eJn8e(6IJU+szVpwKZQLoNKY0rIO*e?`1o
zeJ<0jF3tX;@unb3E+?S#NPXH7t<;p*J6IgV@zEOomd3&O9jqqHwtP(5Y^y?jl?>wc
zkExj>5vA+TOueeh8I<e-XISs+I-8AY3g4~*jFdlC(i>Dx0yHC~IG8_-g-kWvccgAt
z(@WCXySloo%THGCW@LuleoR-7bt0{Lv<J)WlVO1?<WnP-r_9E45EQ}Y7!c{XH;ZB5
zlC(^OQy+l<i+ou75k;Bz2=1Av+^v=_3IA0yYO(LkO3$C4x4XRwDfgPSdb!S5E4|nc
zpKL98>8RbVhB{~k3YT*L4p$w^k>#vtypAgD01H$RAEmaE6(<#qe~-?K%ay=U%gq!Q
z>r@y2^F}jgYTlirSfSad!{m6_;3~jh9Ggcjv1C>NKVlbXXm#{Bb-FF&7q4nFKz96<
z_#UTj>YC|2PO22^h$;8>z@Jc?<I9`7lTEYK?CJ_43;iuvW}6S1#`QsyJKJk7Qe^u-
zt~by$_ccwGU&fiuKXt<erUrjRw<@^<4+%V>Q=r+Zz9<tXE$1`=K~dL@UBu_*6_hw-
zdiCs)3(T^nxFrWK4`NXlOX4#mHzUs3t^L|TRo7}l;0Dck6N8RYJ%~=6Qps3H*v4+T
zE3wa95O+=UXemb4=b8i6%=*G?A}j+WaM@sKqmzY3WTj$@6l(#g5apChvC)>|kWAdl
zchm6=yiHJ-hq}Yt*)1kU>_FN2bNuj;*+RI({+ER%Z1n&rPPoc08^ql6c#}FXip#kF
zUyO=51r+S()KjRPgq0D+&V<R87WJhHGjHG@r|T}cmlpS>7mr{kqTbnZn~oSL)jjw1
zl%7egfylndB-n_J=S)r}_b_h?Dl`)Lv$^k)(JUrb<7BQ|fibq$ZFbkK!)!j2?4M55
zrZh6Jdbu*FV<Q;`qM&mBE)VpLd71os>=N#Lx3y;EvvWIk8I@DWv+``lbq;J0q|$o$
z!_N{Cx3``C6yhqsNU|JMn<8~xrf4s)QKyIe3_dKV#V2$K{G#MN>Jn-xN6#`iR1y1N
z(N}2qvYvp#wuesBx>Y?wkx{oOo_=4<mRpNwWF{HLvDqIb&moDAJJr+&^A}7>`>ayV
za^dymeEe=yw2IZJx?*T&uEnH?UYvmwU0pzHTTeTqwL(ML?!G-R+xeWfd&n8ClAhtT
z{yo%5koyU8mP&^XGMz+ahc|7S=v3)F-`g~f+K@V2zUCFjcY2A>z$)$O(R62vJpHL1
z457YmDbTmP#yLCPIcRJOWN94~b^Ka4=eCKqbQw=!?T3}FB@G*UO5I#s*4A33Pqb5P
zuKh{`@Vz;oavh`lWhNkkps!+o1v*u*jWZ@M0v=k4cosM0aXUS#AolJY6CtsaiMHQl
zW-J(32bLh%nY#D|cVIAdv25e{p^%%nEoN{Q=_x|@LE2yH<@%>p04PCzDm1lr;jZUp
z3n;X)rO$p3bv8T^zSjD3X#ClT<n#3|21)wrmm{-AwIVu{?lx6wxNB8E8#S0RA&Fa*
zOTW(;h)Tg8W!H?h?ho!akQg4b+8kxISYXMR8Q_BNe22oMr{GsD`1F}k&9=&vo>2OU
z3TRk}p}U)mJxN9m%wDD3t&rz`Xd=^03#=M!D6^C_=<crlR{>R<mVizW=XK4g3}vMP
zd~a+)qsre)vrRc%5*G+r?wyQqI_0uhE(`=?=fGyyJHOZCb1ob3y%u&7-NN~0rC`21
zd@da*pZpS#Glb{El$+r7Z8m51r0Lb;2SX};S`)IVrhln3{;<B;#-@C5!(9HZi~_wh
z_t91Nk+J>to4-C$Cp9gZu8kVgs#44xesW#CHRZ_zy8(PGscQ3Y5KwtGn<tlz$z%X{
zmy5Z{o0GF%r8emn@{kY2NK*oO;b?1?za{Hh31mcq+-vl!0GN!krIJ>WdZC{2&nM4U
zhM{qB%CTj;_AS3Rv!=#?w)W&F!^^yzZFUne9h6+EqcL}QS=A2KI9%#J=L*f*;tpc|
z(2CNb47O;Aa@KCnbI{;X+aRgh7#HU4V-dia%43ky-L$4eO6jboUXvcML~C*S;prG<
zn7NY4Pp~|_@ZPH%;rZQZJJ?99(5K#fBp3P$P&;*2;>HL5uXgy|#V@nM>%M-_5>86d
z5*&?u{XF{5ur<|5+Q$hHyAdksDY8Oz!g$Dy?^;K)(jmXme$M=)6oQrqjprU~PiYf#
zc<TdWOgt@MCd6yWO64U|do*Oo*N2mp>27k5u#j_q237fTpbnpff>(E?ig=t?t22k=
zi$^z{)#L+CGT~rNwAU@OzqYE#nM%$FWn9m08|r1y;+iaGNR1HROE|;nA)^o%`ip+@
zf|OOc0USO>3+2V~CP*(4^D`)4&M{4EMG)TEg`)NN<)mzMqI&V$X0twsTs4YZZ33Zs
zG+c%O&7bUUpM@N!nIK{Xsqoie;VxQgOaIHVd0e8=$b=o8)XSebvU*uwV?>gY(zs`9
zdIi=U%fQH)c-f5aR{&sY8Lp7c_BjF6*!#V9#I{$s&Y$db3k4!vI}E1ZkVNdu$<dCd
zFC6WB_r8NJ0lD2lZ<m*Du0YXee$@D^3W|4c5v{)WHLqi;-qVfgn&1cJOC;<aiX(4G
z`mm%$J7P2AyZ2UJ{i|N<$r0MiwpewLiRIkNS@tA3)~LApWTWMT*z^>ov<);FE@d0O
zP-~h!FBhbC)?dU@k&bOm%qH|^m~?&3@>Ih#67+KCa_^P0F5n+^%+qQhg8HkIYh((L
z)-i9TB`v-gm<7KSQ!`PdkZ92UfdU(dkcw>2v@s&?Rm518X_&p=;L}1h)yMTGO7p;Z
z&~V&3tbs&izqWMJ^oKjdF$;sDAR-iN`9x}ivhpT2k)8_WqZvIm!n*QKyUi4-!suG(
zb76WczJy-k-^@x`?zBuy8$r<ITHJ1OPYU=VL!DQLR;m_qhUh1x>x)ISeFU=$gxj8K
zH-UrD?vqV=wy7SWvrR_>Mc34kWdfGWi<^r5Bp7Y#ix=Zpp~ue3fnr7ms`T~G7+p6Q
z<<Zi~P;p#X58B!A+_i<;19H3Q8xxAk=;zHhFUESQ0neauYix*1K$-Un0Kl$aU>SZ}
zpSDjBnXGps@h1h<0T(SouaCsO0*QG<QbLZjKPQpyT#E3#Ut9no?j1+9k0g4PK>O~F
z+L@N)x4(ufYutxV-vqz(@7q9y54Rh1{Ntl;8!cJSwS12(;KOjJ*?H`_WAR-0g(ax5
z3p!sJVMm=uWXf!(5^*XxEqr<qX`yN;XMD>POO-J+nRvA>Z6BiiMX|thqh%0cW9}(Y
zJKeJsKrbnn2zCcldj_?7#4;qzE1Xm{x(y6*dRGdZr044ilJ1m_<{GFG$%1ReYafHe
zk`}y;mpy*%g4K_mU-dOH=@y96`O*9!(KL@H%QE|?1VVDLE4C9F#gnglh_G-sV&4E1
z9T@Fz($~wGw$Sru-n08@W}Y)^<&wCf<bN`3HHw?y0<dvXZ10cu%KfekgK+ZX&$Qyz
zV`zyqKpZ>EcIQ^vRc?oKEbQYiP-?T9AUpqdn7*mn^;=EfdOf8iJ5dFM-k^!00o3kY
z!_(nfKpA&#6qyd0vg&QH%-|gmw>HWI=L_5^G-}1;A#nR%*p&!&8T-AGt>TZF&it}i
z%<30LyXP@5*YIp5V|`L#EM+A}HsLeuAqouFr-#4d9?7YLJ94(mLMFg-e1cdb2#>j4
zsSBtSh1{^wKiIRNugV8N*YoP7nOeAkbg2O~)6(0zQ7R_6xNHDW1R<}o9T0g{%Jd8&
zCV2NUOFI)JJwDX(E&J+pX}b!nhbBAwDzbk4a_*A#rB;gf88iPgarfEQ9yN8SmiC;E
zvyD&M;M|v13Q4}tyA}a_XaiH3w%d()Tl(|j-=-s}N$A2rhN?0!rN)#uQS`MXz8x+N
z@#*$?AcHHVoCDb#f_XCD-iZp5B(&mSn9Wz>kGDo`Rz8z8C>J5hxJJ=<?v%jX5MJ&e
zP&fK7nQ@S9JngFNcEdbA8jL=Id(W#Ox&8hT56tCHYAx3sD3?o@I1PD~!p%v4hPTDT
zC3+<+un+A!lm1)*;!@zTQ+&Naq`YWn2Ue+leFqpluQ$rIb)lZZgRKjua{>pi(_{_M
z`!>%BJ6P>4OPHK#r$Kzp5n>@;==oINL2T7MobC*t5bn&vU$_54hyrHT<K67Q*IL)%
z+U)veKiz~~M-oJWbBo6NU=p~p=-C2DTyI<qat*$##*FG>X}U7j#^H9!%2rEvQ(iE=
zss@lk$TYdfSNkVaZ4;zOR%=ZNs(T(vD_b{60?vk|!@{`dJmIEzELKadpfZrKU!h~}
zTy)@U8nD>iuNlmE1$9gBMz+IS2a}2o)(RLLs~}pi;*({6Hoa@%kNl>-1K%BUQ0452
zN=Hbmel)6NHnUPio|A?z{XqWkDN}38c^Xi&4Tef&fl+^(J*pK1q1(op&STK?Hy&W&
z8)N^RIaUPWZE%!t)xHHPF#ppa2l))Qnyf!Q-fAgcY07RqD;%{#O;2sJej)a1|2^_2
zEy%uWrs4<I1$Q8X@R;*Z0#XyP9M7n;V{)d4TVD~$l&C^d1O_vpY+&KLd|wJO)fWmN
z1-Y4T0&TcXsC*1Zq{*M5P5))>>EVT_nCw%TxZU@xb1%C6l+TW1D=wZTa^qSisCCD~
z*<M`}m6>>q*Q$=MoDT2DzPF#tpvRBbKj^}H3+Ho|=*TM@PZxnlPls^aqpFmrhz<`_
zJtv2oI}&M*8}E@+y`U%&V1KC{t^&^DADKJN!y$zMC}(Mkr!U&w(#x~+{e<<@vwzus
z?%ZkdXBB+1$GYfw`5=)ZGGJNWvOLC@FR-dMs%MLtu8*F#b`X71cowN`Khej>);tAM
z+}Z>R)e>iXgvaWDQM+=bjNCdSQLio-70|;=&;<HC1+Ex^m3;G*hEt1AFR@1j65=22
zwMGeeXiAAMWyu&m{jSwWXjM>wh*b(2$t-b1O2&GU+yZfmr7zqLTekpiZ&r;os<@Q1
zpT#z%sOHF}z50M6J>+3?$hG<4<<0|u|NF9|(8J>ALUw-^N=9EXS%Msi;DT-N0A~qi
ztBp-6cl)~ciE3BA_+H}iS#6VgRNG#BTam+tKRki^0!K|LinRD|(0&`Zc}py3_^s}?
zahjTJr@CBPES#k<WdQTV%S*_0%l50}NFk_SUnpN2U2vXt12KEdy5;l)^fRblWhW`P
zzpqz^-igd@1KH!tXMBt4x&t+04B%dw=Hj)8%`I0nY0(Em3P$>|Z#$bvx8lv^0drW*
z+clA=?Hdy$8fX<2x(2=GNHMH5@S3=qv-v>+@o1Ar-RWgO#JZhy4dgX4Z@%hRzqAX0
zQp6OHZ)Olp@^y^*<F8uju<k(#Tl?8b=bNY=j;7wJ%*AwC_#r=PM%zSZfo4xwIYakC
z75S5jbqL}=G_5W9hvZJYa;ff$P|jL`tFijN${AtKn^#V(L%c6sWk;YhC@{@7r*P!&
zZXX7yz0gCh_tao6e$8Hs`9SW)@~FJ(txkMR%fm-K)Z-T-Z`6BpxzhPj1K{oSwb&u#
zc;lfG`<EaBbSslg!3;KCKAGtSM$fj1idKh4lg_Ubw%CK%TBq@cg)BuKl*aFL<44&=
zq3e0h7EgJHtCtqsUYGx)qe_7zJG+}Nip_jMD5YuCn}m3hvJ@ngJmpT4RqtV6K1n|7
zFLIT6qprK%o?zoIXT{@;i%du|TAAq9^&T+H33~FA0|rtq3d|8UN9j1s-xXKsm!eEd
zaBdzM1-?7BHn#>9w`;uj<^Haw-&;uPM-3ev8;|bG$7($|buyO%XYkp6DYj`mEz!wx
z?s}oHVyE7EWifYgvL?0}9NOx&|Dsv%H~P}mNzS`j#A#R(G~U%b8FXV+3@F(!5$TT7
zqb)73+Jfo4i1M3Jwba)V+0A9Me6N*5tKaE`fR`uRyMwY>zSTlK6E2<TFWl%A2H1B1
zFr)oETAY_?01K<Du9)^a>+vWj77F&MJ8tm#?kU&JOWQY73D$_L*M17RS*O6i7JEdi
zy!i)js7zQA7gFEfjRAMA^iAwm4P@Vrm2G9RWFT+c4$80Bz;clLVltLKftsrjGD>-p
z*1DPn>6J6bS4~8&1g$4<1HUpsYTtio1QW3lUP2qoI~}*#qiE{q$&U%UbK358i3)*?
zskNQ9#j063%(Szkzw3#g&GN+>rcg2t1N?`8A3SX|7Dl&{rJ=`VycrjVZFyS_zs!vJ
z+l_B08_l5#_-LoasKSZ;qhY7Q5C^|;ngn^U$<|{5w7dgjwLRw8dp6cem3JF?Zl{t}
zRk7D-g+O9wMXjJQYDF|SZ1S}IReqmZ4W)RAJwD7eI}{Cx6QW00c0DwG(8be;+vS6`
z_Z0ncdre4XwvUY(h%dq&R`@C|n;<$(Cqe_z-Ry#tgiV<^w4u|2LsY1t;?o$MDi4cO
zG-c0Bya@0?H)JGCYU$X?m&B4&g?hcfc$jd_^qzqM%bUdw_&rm^t0il9Q|1CYG}>Jb
zV$aSI9&WKU^O%h`%y!QoizNXS@-1HeSt!3;*1F4pKWwYJ$;@uBM(Kh{*A;M{>%ysJ
zy&>WKoYG3S*@vA^OB@kmm0+Qq{Y$zL7{=2hA~pVY%J$uQsVd|~X`sMy0Wm2w0L<si
z(Maehpl$%gMf3DUv@i}hhe&_(HKLRUmizt7L;F{$4w96jKg2jI>0G+ppqHsefOlD`
zN0({Wc34CqlYGD~J-J`Pct@gUQ9#iYtVs=>Cr#lJ{jyVzx`$fa|1fSys#j;~Bvd|U
zIFPhkOncRMcC0S4C3zDD+>3j`$GvCfJ#F4-mf=iAJ2G-y19bgKL&2=$?HcZ{9az%U
z!^SS%!cQX@Q_+3%c0Gq|GszrKtGcfEypk*=8IVbs^bMK*b#=>AsPYk+7uXxVKIy@@
zKXZCDZ1pVt<&zvmBeRY=@a12II?E4zBPf?D0W#HT?}@ZJF~C4&8i9ja^};Oh@8`yO
z`5v%7erfa4?^s7O7h)6_i){0Sk)KaSd93Ny+<|=qElSLjgf-EpwNI>gU+eYyfDmec
zObx>l!@Y2^IE}MuUwii&=E3Ap!@aIIUe?pZAHN!0j!Hp%!JNmd?jk7WJ6YdJ`?8-d
zx&JyN5npiizzq6f7yCOA<ZHH(gzz6(r64o0E`Y&Kt&EQE=V8Q<f(0@ii?w&_0pseV
zQ&y8qJqD66lf`t5F3u77H(K*j&s0`R*ffl^{B3ss$acDCAqp?9uaD_;UvKot@81hK
zi_&d^<((>%mH2@i*L&(P>JSY;u76QuzA=l@Sr!Hfkm5cOg?zmbn!$Q0vWysoEV+*p
zNsvpPMMZg(VJ!eM1WJ{8nl>2BpGnHb+i?82={e*5%V*6F+;|fxmbaxh!E9c9pD2Qy
z?_TA*t5>cNtl`Q#SB<^?^2F<u$5J`v1EEKtdTn@Y)q7Y}nXaA>KHG{VTL)&dRA}YG
z26y?j>{P=gP9bbB^lKcdmpAp2fgg`^9Zi${Q3+FT=F<40-N-fE^O`f9)EO`k{>%B%
zO*(<O)y#LW>#4JSePWrjiz-!m8$b4xk@b^Tu#TV=b}8Dn%QAc9;NPjPW*^Wa_$hFb
zlAZJ*FqKne%?-3((y0bzj$5!G5#qP`wfD|X0jRoIIM${ze^*vB;(}PoOf=mT++km@
zHv{Z&gt&|Lopx&8kdT^xfaCJZZDpKOiRZeu)-S-;3}0MwUO`%4`})@+k2j#u2>}h&
zVx?`@ZlX3_e5HM+er>sn;|sh0exPywX+82*=AHeEbr)P^^ROtD@oUlF$QTsTc;XgE
z@Xp;Ve}XARfahNk4uE(rjl^4%C+zj3xbt)x<hzGIwcw49PpajFP<ZKsSD9vpd3_j?
z#cp}(EcPo6N2+$Z{RpU}ymQOqCq#D5z~ed=nbn*rnlJ4PJ_{y00VoYgBdH&rpQtda
z^@xf}{J#{vXLBQImhbmUZxtbh6rl)(BJS1RyL(sKogF{ZrmCyEs#rx9y@U5Qkw5}S
z?|mjRVG`a01VIw?tRl;|pYEQX^}E`QE8QCkNiP)A=a8QH1_UGX$@83Z{=eTj)6~zM
z)E#-35FwZ_moR2MRZ8U!{a7K5owNg-oNHuuwS>(}xoe{2s;CStJ+4W_K}Z0kMPX(?
zeaM|{H@ewpSx;7!-WRa>p&Q;0U|q3)G6&5fxW9L>QpDfisMK<~3DC6;-Wvy9k(P1p
zv&|Qxj5Z12ZzEjk*S!ebXQi9&zv%|ji7EJ#(}%_BQNPUURiU3Vy53W|(+(hWN^bm=
zA(39k<ik)L*ieC4weE%(sp*lv=)4z%MHM)iX#st*x#vM!Ui6;%1;*8W`M*~Ee`U8)
z-h1etI#k*^V~x|9co9!|cO?zSc?uFP`O!+0s--h!23S3%i@Egh7q!O+&UsHLwAfty
zw;NVIiLY^h(AOPq+U8D+MBGL*n~%%QvC+SPEA2hw7qbrwt;$6^ytjL*d@v&aDWn);
zxqb+x&Y;|YWJdvPeH#V?Ypg^*Q5y<&7*uxz;_j>Oi6!cls<t|Z@fI)DYV>p@70>MQ
z&pcsi^XcPN!C!K5ollvCl|~g;Gd8OvR-ZLMpn`%+cw3tt*w#pI^9)i`17}iB5m(r~
z(?ly`om2Jxw+-llw~1HTG`t!&ht@oqoM?=>QUZvHoTFTvb7*zMMI(ZvP2_Ad?MJ`1
zYcTY6qmpiqG!oO&|Gdo7=>k%t{kb32_YxZ*T0OYz0pRx0Nd{5(QkH9X7YpH~6N?Aj
zf2R?r<7Y%&eq-s*pXHJ5K-ks3fK1gvNNou!2@2rf9!^G6aHj<}X)t3;@2%z-n%y1g
z7A1ZhE63Kyy%YQF{BP>|$l${o?-$DxDs;h|Fo}{Zt;`I`8lQBJ3T(D?A_=sr{Fear
z4;u09yK1Yvyj1ER=wACMS<9Pt^)!!1+-2zVFAG_qr*7x+=`;Qd^Qcy{8>*Tt&&%M9
zip(}gugXJDy_yPvX2ki6K_?L!KfZ-?BJeYO59A`KM=;t7o1%wkHhz8sFxL_*7~vm?
zsCsV6Fa40tep+#Tc8Czc78vgA16}F9)~Aj*E_IWg%lGcZo~v7JuYtvCiN|bJaw?^P
z<W<;><|vUEbj_oMA18c6swp$CBe|0Vo&uhl<kw$RJ=r$el8sNoS!YaV7CVJpZ>y4W
zzsNZmar$wt^;Yc?16vNL<&03twr?I8`-Nbg$8v1c&MT>8u&@=a+Wb0HaT3Q|Dfcs}
zu`fm4g%A|+r0PpW^=a-4?~o3pO@p?n#Z3VnPs6$aM`q@l@2>z+Z1zkYA2ebAz_5=g
zkbvk8O}7X=hFAy1V{NOg)BFmRY_N+S;G1SS9F2Mryk<6b5mtNFJciUNij;Hb<6Y?l
zyXTnKWLCbX^>H7)_H-uQ1trfY^&p%s*Y=PZ=SLF~FHt#u)-AU)$a0ag<0S40ZxtSf
zAI;<T0jv@tKM}cfu2FW8dN4^D+2jr99Uq(HDr2>On=|hCq%p~#fXnSQ;JNWb<urGh
z#(g4PMTBfi-dd!$BAISmu+enjMaq}<^VmxAB751af!;;@&PMe6bv-+-6Bc>*#*Y*y
zr()+Yeg0T3tiGVJo?T<S>4rtg1*m5&^<62c(ZnB#R#NVkKRqX;&o`<Hbz&~N(D1{4
zY@R~+xjgWk*kB2S!RpV{C)XoRiL}0)d%CgW2PurZWIpe?eN9Va@~k>O^C;ZI;iSPJ
zrk}ZCg+r}GoID3aa4F?EW?g@JtVO%2QhG&8eVIygxm9bd{mn8JIUAi~d`lzLOk3+0
zdo$rh80at46<uOW1V=)f&C%7c3D}Cptm7`X+u!H|L)ekYgi|w8r{y?NEx|a3929be
zFWo6WqPF8zUv8ZJ9Pd2sChM6PcMOIs6O%j+WU1%1J+~4Z*3<@Wn)wHvOk$|%;SSz<
znQ2J}3%$2{efu-T|7vzmNQ_q)^?W<7ec5g{vERph15ORR1}x<S-fsZMHeSqoo{A8W
zwB`4!awIlA3?DakzXJvS2>26vrRhmaO($)f({YBV2rWAYM%-}sEV>*P8f^qQ2|Aua
zpzX^g`mNg7@8Lu#Lf3gHe!L1qe4U2t$Z6J;^)ar0H+{5*Am~Z{SgLWy245vIzY)TV
z8WZ;vkf<s>J-SmDvm>eX<kA>@A^Z$`p0$@51~vp@$E3oW-nHgcy%PoGXdE!+!3Io=
zuX5j{j~B6S9A3$ZF&I!|>f9*qDMerHy&RXz+yV0jsMC5y0s;v>)`<=3fl}eat1Zm9
zC_v6|=b<3phA-|)Ry7~o9Mto`_1Oy`yb|&Cx2y5A>Y++}^661jHJNM;?%*3qX^^@6
zx>Ik*W)0XnZ!M4nTbw_m#Pn0)1Vp(QD>kZu)1(ydg4qXUQmbt*J<czrUJ|VoQUT&B
zl`Zb~1*t>j^OECG|F_p6_@m^spWdyn17zDA=n{=m&Y@}2A2OMzg;?LWD_Y?ll$CAb
zz#JXd3pp_#D}bvNy`2(Wc(|eV#=e@5A&qk+P%_HU8#|6<UYz6p@q+L@QIy($zsZ=Z
zCHJ*mGc(=VAO*J&bFERR9FrT+sxUMK;S`+-OHhZTgwm5-)ZhK%ZO#n(>E?K0tHnyY
zJLm^1F;B5wsu%pUjVM=pjViD>;daj#sTz}y0>+?dt<Qr5JHK2nTg}G^xx_OTH)qO`
zt(O2s3XlrL+;rMHYm-U?t76jzaFhtnDS0$Rmom9L77i8i(L~mhkS))qCZDaS0e&Nf
z@2M^$@ocPEI@+l2UPX|iT1rWTTCkikm&oGTLa`crDdySxz|X#|Edzj^u>a2J`sA$2
zn=$#pkvCFuSu(&}<xgI|!9x$7Q6qbI%f`aT9X(PYHxptb6V3&Gt~h|7p#*ZbvQxMB
zD;^(G78LK4(EI3M0M4D}UyYqQp>~K#aS=uC+V$Iz1pz{bkE0b)cI;^KyMD$QTNvB?
z$YHWVpc}xaYZima=<J}lq;dFPH)8v36QWv2;}DaJyN*b$g7Y3n+m03+e!nw}gUz_;
zyV3rk@z5!r<a=6sHmRgG>&5j^t*`g+ye;Iizez<YveuO-hw>$<`l3mj!B7)Nz`}~R
zYHQ4AF$o=Wb!1SrrRzKZhz9@}-$@jxn1`)^3VtI>MC%}q=&J1f`&1T6E?at>NIxdn
zgVNs;@___WPG1z-#4b_U_0lIxX~MmO9TbIOFfd&-v`zdm>{ALxQwaJF<lxL6J|}Xt
z5tev0gFnZz<o0w?o{~(=n8+JW6d5hwFDqaJqdQPvn#o={6XxP$h=hY-hELWGAu5y_
zHP@7SL5;Tg6;v^XNqC3ELuo?N%@9BrnT^aLn=Xz<bY|)<9O7KoD-0R{xFe4f#m;p)
z8~nb+oYPe(Kf1X?y^!MjB(LoKN<$7HWSTW<y={x-%kKvH?yIFIZwHJ=P`!tfP;zYT
z?UQF(Auy2um%JH$ZD8?KKb&XgFFv#N#VT)}9Fta&9Z!i-==p29;PE@j%K+tkU3*t$
zA8!<mrTi{C4V!wy`zaBJiHo%+c8rJLnwd!rKwwt+lm91O53F<Ln~UAvUOr`Z8V8}K
zWT@qQAjZw&x%C*9{w7cVoz=ivH}QQjQ88P4Q`p#0%6i3Ez+>%Tk-{|A*P2p0GMuaL
zsB%%E3ebGng_CI?L-hS?p=|1XRBkC%{ojS23(!&6(%k<szGbvgt=I0RV<+0dgZ!8#
zqJZevcb;LRLH^o?w5*Gami8K>u-ZgMJ9@`|^fr5Nzx+N@kSfOq34G}Qi!z{d=r8b}
zv~R@J*By#UIj#1ingN`C=D+Hc*M<PH9bPYPUXdwPl~rL;T5DB#RkSQR^jvxWe)unR
z(qc2y^2>*X!oL2$Pr~K@xlneJDNQ=oxd(sQE32pN+jOJdgsrWJ=vGXpRcOI@<OM%z
z#wuva8~>f=&@yom4KGjnfz~HUDsbciszs@!R9HQ%(ooh2rBuKfE+<`aM>BcO9@#pW
zC=T-cSfP6<{!^2_-RP+(xY`32Z8y@osh!DOn<)^db;Rl(%3d~G^tSI9*H|PBbR2y|
z)qcAziJbbW0gVvECip<2^2CZ|<LJNokLGV2-tB)fH=+Ua$M5QS;H1k1GB{xlxdRT@
zx}c`*vc$!rRL-4^+*r~4aZj4xXEOmLgI)z%Gqv?ehd(@1Dr9c`&#`@x#7~GO=j3_z
zHD&}ku~Rln6KvOc+(c7l@pl`vU=eSs4-P7&C;8?q`^y^+=z^M;th~oP;$OeatSp0y
z+;`m!DM;o|KPiE@(K`L3=*w-uMwgx+tY^x}9eW()%l;cM(0p+i{7LyROgi`keSK0W
zD#x3DtVIs=K{d?Xg$Hl;br)U~9y0S7FunzE|68(=?iG{>2*-M~ayhFNDPPJbZ<+5H
z03vT*dbupS=%lk&yn>*aWlhbURD??A8)Wp$F~9r4uD%zJCkSGqMl((3eE}Kwy%1D5
zCXYyZ2T%H+<_Uz;3@$mkX2UEzF5T}115v$Xd%e%vmGRM9PAK8u+Zha+G^doI<m-vg
zY*W%(T0Sjl!c2ws2()Tun54U0sl0hi5HX1dbVq-yn*~clkuO7=XYnXXmV%ljmRZ%?
zsO|^5#Hh+6`c=m^o7maaNNDZ78&Rt+ai~pQxyMjNFu*Y%BrOjGP9=irP^|{B4avdD
z@n=T2n<QfF(Z<nP$D==HUL`=;JVEnu6@Noqrl>-JeR_LTZDoo`O|p9kJ&JXX6pugs
z9X0_dz-nUa#CqYpsF67n0v;2=5;imG%NLkbI_2McC$D@~7Hg%aNou=}To5Oz-Dxi)
z63C0pb3yn{CJUL`EI|hC;(DqxKENM)M^{S@{F()DTf&+yau-;YhX5-eoQZuwo}66e
z7xY-uzfqX&M3fuwxnFqG&)Oq6)gwS@w|6+-0zCUtd)HKzJUqCGM5~p<P=}^@v?K+Z
z2YXetop0ulYs9zGUV>N&_ks;tL59%dsb2Tu#bT{03$LMyY(DrV@!}wGl)Kw@(PNsA
z(_%v|>R2OFj+CJ_9ClNQDg@Q>g<V?puy`u-AkCE$5)%7-?J|!7f;w8+j%9mQ*q$q8
zMt-5f`pLOFAzn3u?NIbM+7|JK@WA4$ZX&fFPlPj5zOysf;i2j%qEUgnn=K2BO4%ZO
zy1ebSME(&mm|UZDLV>GI&LHrapuX#P8ZRg07bg1fq@{ptBE<!N1~c|yt#@ILkxD1s
zI(vDQa~9EBC5{rw(&X$Cc-g`O-!Y0ji6Dj3KqyifR<H(pTcC9BZt24~`_UEFt`$F=
zL4ntWx-I6rnm5h@n{&C|JRT8=+w&!%Nb$qi<h$zv>6)<-iz^A~Otx68cpS4GF3E4S
z4(dUlJ<M%QBY;i?rM;C(1nWs>xje9y_`0TCE0ySiZJY?Nv%Q>kPUaLREE2<;?1%6a
zRsegT3utoFW?wGJ?;16h1Y-$fCXJ7&XpW=1I;kGf^H6?HN2Yb)Xu(JX?X@s_Jm@)%
zy=sj~pOKQkOixOa8qkfCm?1Zj#-D)Tw1_^Dn)PJ6(3Gp{qon~Oig|-o@PxVP^Xr8J
zq6bt;_bU#NO$Ix=ezBiw%>lGC2tb#6@_(v_0W4hdGbwdgjpwBET`;26r$E!NW0WT%
zoRy~?XT%8wl`S-%@Y!+}Srj!cn$e1E?eoL|D_I{i*j>Ak&1Y27twz5zqb)0IwybC~
zb*{}{TrzTijel2#2nWhOiwSe7TU^l2zFzcSYtdOF+$ek!g$z9#tw~s@ZLcAF;xD9F
zu}8Aw<i7k(b{OcNi!hYUH1j5^sXLWE-5So9Yq=727$KLaY*TK=&)xE}JXNtGoF6+|
z@vp#il^HD~yY126zZ?CTmG)!hCO8${%36q;4aS4AFacXfIw^H7<zpyAa)AprU44-*
z;7By^zwkdeRtw{a9%jt4eyMunqqEW|Tupi!MdQ1e05;<|jIy-iM+Har9=MLS7?eGh
zPsp|*IX7pIbG|{QR;;d&D?K&f={1UsM3`RyG#90wmQ1gId(Wxgq<7W)CfPYU3?44m
zirg2do4#aSPB}rnOsu6pIq{8#E%%tvTj5MuopQ<Zx|r<wGVBjhZ3?-DRngz&)I*D-
zMJrpAjEO#a;!Py~x-hPr$ZnNDQtg?p#uP1E-WuAEwO*C;bS991h65#+y5s2`088EP
zl&A0;G2K`%^k00KE=G<cO!VDjes7S6?e<iLV2O?y9ayF4PHc6r%6FPbV(rc8#w7@g
z5X3X1d|ERuDy5sF5{?5$LJwDizkd^NYfSSZ3-S!<Oh9UjsvZp$^J3@nK`t|H+lM=i
zN?|EtDBH<gG8bsNGs@niYrVjVi+;SK%^tU{biSC{Sf;^5@1kQ-2Kp6@DWp(@z5$T%
z?GBJ?Bn4`d%hgC<i)RCYY5!>-;-&_Ji(yuZFb9FRPmXKPxsbq4j*{L?uN2mHDJWre
zBZ1O#mJju$9=En0oz2IM$-GEu%D?s-W*`SN9c#%7Su1JlN=v`fH&@GB?A(~V^PIn3
zU0lReO?T=iO-P#0!daLy1LzZF`o{GmK)x6mvo&tWnfFe%y<v3N47f{wE=Lj-dTTtY
zn^iTAKQ#kY-GReFD(9STz;~ez-dAlIMm*$rc(_RwziEL&TEfwKPz$foHqpQJh9U?q
zq(+rd9wDf;{Qe)x^;hkv6w8QdG<nGh-hjI_YuS_VM>sG}-;Zb9F|#5_;)$*w6Aarb
zhKjr0_Ff+QB?6M``Sea<H1Y1VPtz0aszL!yqVaR%#v6ELStg%a-XkQHFo0j{)O7jd
znlF@(icJoS>f?DkW%$z5K&6g%c59v1mwtpdyST7pCOE!=Fm0Pooq-JZ;a0+%m<p?P
zdqJ1PPQJxOviWL)kwHM~igmjA>+ECJ9kp&!SfUZN{N-kFr(bDG$nGSilzS2rXRiD4
zUJD>||4hdL;y&XtVP>Pt-yPmp_jV5Ry&9Sze^RUjuW%K4B3Q9^cB_<f%er>j1|*q`
zHHu}(?Q~`Hv4k!zlsxwnbp0Y^?)&k@y@&v0Wf61RipRIX+xkfpOmmO1e{QA+4v;r~
zQ?JL$eE+viGE^T8($_!18vXQ$c9u7KgfwRGAqe#|^sv0yj>M3Txk`-6<y`iS>BqOq
z?NFwHxUYiGArGthgu_}(A#)|*h@xl(9{inCD8sQ&#Cd0rWHyxH?zExWBf8TvUHy%h
zPNMYA%N5&fc-RXet#EH>HyQ`m7yDodpw*Cs<90YeO&|2P)(hR})&R?<7xixl-Y-YF
z5>&>yik;p~Pm;VfYB}a-dCt8Fi2diuTzad2uk0QNoJcQ!YW=QRG24n5ekPt8oY4eK
z{bns&ODy5Q4i9SYCMV8E3g6tmWG+@Rjup55@R9>Cy!LVO$B^Hil_gq*<pr_qWQV1{
za+DI6c21ksWK_?{zzVPN=sCX2qfhyc)vwdc9y%NhDhZ?TVe5l#<0Y@Va*FUa+^qgO
z;iL1|3GJp!khkmv+fjMYvLQA9+MEp;b#X_NVhJc?oDa3M<7aaBk20$o7*v7C_ncUt
z{4)O^olk;%Wb|uec8u6!_h_fcv1Krt8<*KsVRyKO+trwW!Nx(K8f-UC+CJL|Q5nDN
zZ{iGjulGC7NI-@XgXK}FRwZt@1lsDPdH!W#EA={j*lY0+#vNC&8>#HtH_4bE$TAoK
zzW0bc%D&_hUnR(q&tzsrqrBa3>FSY6kkuC05hkn0@kSZ0(#1?84+iAMIRy<_4nSrL
zx4#@WZ-gE{a$e{}a+nC})nvUfwsT9bGEK|d7*nXBzYyd9I3%A43;s4~oG5$1-O)%D
zi><_IM<AOScBTpeA<z<~GSvT)s8H4NO6=rHp`Wz^xJ&XjRmo~hc;MkKJi6`yysvZK
zT`uG@c(%u62r%BE!>3!_<SdtcR-1w^)>P46)M1z7p2*F|V;4jKa?C)<&o)ZA)X2v0
zI9}(|Rxm^iuo*QAJ}vSvk@M%-6QXZi`hcbe#cM{EZsu|uY>|r!T@^rx2vV7wb$FAX
zOLJ*dK|`(lXJm^+gFGrlV=2)QX>SGZ0-mRp6Ri}wvL;G#HMhtf=4%gW>k1!fF|1E}
ztQmfQF{J;-<y7JiiVF7%0;&1Mel#9cD$H6-?0OMwmfo5v&$OLyup;eULJ<R(YPn}q
zuY2NH?OYUipMch(!9gRl*po6@7>!p?;FW+uWLH0{Rj;dYKiMfJmclK5KfM2Bwtor{
za%HCcaf}`T%|{s;MK{6nMM}tMU5TV&ceb!?(5Mjx+93CN_SVVpYUF4bJyXy6LTa-o
zmKCl!?-);X5Q{wrf&H#4d29vn7*tCiFMpB*@emO1onEPc#3#elHCJROt!PCKr|#C_
z{4Bo)HD04~6Nrz-g$OWAnnR{pFpZ_QkK51Jczzj-(n;w!;}=fESyw`pz=v=sn(_Ta
zL3ba~kH#4>Dxj4t7b(A6Kh#Bi?Wgr-sB!5!sRDgW>Vhf=J(LOl`O=FH#_)(8EqZ-3
zsA?to3iO*hfJm`Iz#7^9@|0VC2zr=-*~N4aAzSC=P=YG3a54q4xtpHs!zOgz055+{
zEJR~Z_K$9VQ%QxECR#eNbdZ$iMh56RM>e$RFk@<mKk%n>W;rvJX&G}l!)+o%6Q9!B
z9>?h}J(G_@Srf-ns}WFxt?NY{nxDGLTIx8Z!T8f08tUywEf52I$@oGK6!c`Sq=q1h
z;(1i$cI}y`_UE5Izn-V)(5rIOMZCt79MfF;1307pW%lzDi=f!*DL~wICJCQtHGYLu
z$fu*C+C@l+xK)i`H$`t{AxnC6!&^t4!kX`OH0C42OPwVK&<9K|?$k$_&ZBy->gDjw
zOsM}%t$vy>-|Sh#D2IL1Xu^9urFNbWvfkVWsJx;<?RVns8bwgajgB>%NA5|SM*3H}
zw=DW`o=j($_e6O?7QV78nMCX@1;^f44{Q0uTkETXY3VvMO%G!H@Eo`05V^NUTl=Hr
z^5zrqeq+?nC+8MFoSJJ}y)Rm!Udl)*ig7Ls0<+zWWCZKovPYn>_&g1?I<&8tI0j+1
z=`roqB<f9aNR0Wdlfs_-s9doiX=l0$`TIsuOayAVO=++2B!1p5MH~>cD#Hz-1yM+`
z(V7g@YEu08$?I4EJUIRrd;tKoSzO9tL3YobEcA2JY(+YYlTz|$FrHVijmY%dp+`hI
zEI{m3OrNjOUQ4o}es#0X>~}}z{+>aWo6$O!0Lu&&Gb&LC59f;jcbKP7^5Ism_S9O6
zx(VLd5J78b76n+g-#}v^n|a9BD=GB3oXqY$FG+3{uOAxX237rVx@n|@4dLq%3?FxJ
zCiDC}<aARz{ye|CjP9Yz)JHb1rcPn_HttFAYMI`u;Mp>(Tvxi|8d)J0hg{5)4hz)N
zS1N%0@(@TaqNG_rJSlKlIr&jpnN8zbYM>}5VBT}stFrrOt$ztO3oHuq9tV!N%+-$j
zmT%ea7m`>n7F)Z`V%1pSs?0Bm_-Uwgj!x@IeN>NTI0mm8QbQW<Nt&Ok;O2WeweC<b
zSjV^x?@zF7uW`X>HAr-3H{BKo53jJQp#Y}$OT|$%ZJa4|{KuL9Yuk>mI>|bUmD%Fw
z;<McUL3UB!?JKD6#H0Dw%;gKe^Wov$2by|9EdfPmeCLPwaakmX^Mc8iLKS(3y;6{a
zoyOInc~svlj^6ggfukOxuq18q6#YV|OI^<aT}|W^tXMd(_QS?enAjL(@4yp|A;QUt
zT(M$!s7HAZIqG?S63(bm6sk+IX2v-#)}r>eK8s)K+A$EpxpIe8)m2E~VmA{G<26@n
zYjJoMkUWaSS42*p+Hh<C^}gRM(wRQ5jN%1eKMeqhLaNzGuRmt#5GXg<A3wh=s#9AH
zIP|G>{sVC~3nmYkpgYUE|6aBaZb+u25`*c~8S2BRPd;%{o#a_)yC`O}+qYBRLwN0D
zeX(!tJra<dANJwl?UwQuh5UZaNv=Q3G)cajXEiA)VPgAix;#|ZEN+%y#%qkc73MM<
z*9~O`b)KRZam+Dn>;@3RIisGx?BKQW9%Ioy1Ox$ju<vg&V1KwEc1q71<APO-fxhkY
zY8O_1P8J<ClrN}nB59f!T0-J-uZXXng-+B8$QigKwr1cX-IY=DEgrYl?{%k9Z9GDa
zueihn%9R9&$eG8?K?&CZumg*z8Pq?|JiS6cbh{%}&Sr%?_BtU8jMg{_&NjMdh=YGP
zGE3+<vt2dHBc0J(SN}uD=S$C|tk`YrsFfBu9+jW2<yLZE=JMerTg`{T=%|scm3Fa|
zlAr28Y>-Tb0IT_@kGI0ENLuGLB6M2zmkN=9hg7|MsCqOOEcbl(gV?YP*b%!2`3U@n
zRHLf>=Wa;N{jGmtiQH{i8TcqF3%y)R;6x3tzL(wpw`urdGg;CWh1)&YQQ~z4cYiLw
zUOfYGHnNeIFllWn8ECi!d+aZxCEymL^u{w|u<LZ9M+bDVR&+Y+PfW!5*)D&nNOXP8
zlz|1U#}s{)p@}z`;)!!zoF>l>e5SlMnh$y}ySus9dkR<%Hs=(sk~eZwF||^q`z+T(
z;g6$HoYj|fv(?5{!JI2U(x;PN^WXeY59Mnn8SC(Qv)tQywYU<V4n}*8#^0)RH28gz
z=8yYWP4I!9_OJksA2CIh!FFDtTIgqz=}^DjJ!&J%11OI*R{^2C6mxG0`J0mGv^{U_
z3OjSAxnQyYobaowo%Lk4mX#yi4cV@9Pj*@AWv$spp$A{I1c0ouUet{d;C*-0TVedL
zd9d@nF-L~g<D<cV`TFmtAr*XXmy9T}-w}=%k{xcy_q~nv^>347!`b(p<adXBz5xpx
zfnWtLJ<wJLGC|c4`mOb6RfJk`9+Yyd9z40mao6A}mf<s6tgd;j%eun)$FrTpfR;Lc
z!jo#I@b}sGLm+74t~|6a*|2i4nlQb3o$noDvg=km^Nx&8zZY&$TxPX)4Nhb=w>SFA
zoqs0!>5#2I%(siv@GVvHw<r~q>-|Dtu>;1K#d_ps=Z_wq#_5t(d{mrK*f{Aw+@=>|
zn%{uXd?$VT5GZBaSbqq7U^}bb5LT(Wkl-;wC*L*8yX8o}b0-F~xk{R(nsj4xIVXxc
zZhu03blJ@oX1eu0Epxdu4v@>4(xs^(n=JoX=~CW_p0BFT6~K$Kj=*e%*RMkEhD!<1
zms-5YFnmC4>}CXage~?Aj3y%tcN@!5uaPP25%5v5DVn+}b;)woIo6fqOzi#UpCpI1
z0aqxtvsc3sZ3lwg9{|vd%9L!2u<IXENx=+<i{))NjxRvmMBLrh6apP`+!204omnB{
zdQS2atWvJI;Y{j%WWB(*dHpCXO`qB2AC)Zpftk8UJc~M&LIn|r#p?UUe|JH^&&fr)
zXCNvjh;Ff-Rd(4~j!vgkIpNvv@|}WIoneTiLk9}wE?l5`#GM{G>RZjF>C!p^G&a9t
zDqUokyHKe&80i`%#~A)XB6Zu?;z9BFG-VuPL#g+7JC`?~jGH0_JaO7Ob)r=ZQm!#f
zmUduCE;0D)6UUE%$dSStCF9%JA28K!=j~9is>eydwe$A-2;q$UXF62~=)sRVwC%H5
zaW^%*m+IKXyTXkgTx6;za<yivMk@XZE-Rc;@oKKpZoLu|w4&U|I0g@xiPhuE=g41r
zk`4W7(aV8JX^r(uf?L)3%VzL}|K-B2Odb_upSmsX(P7VSb<YQ~Sh%eEGjHJhGg$iA
zdy&d&SaFQE^39~nfl3f4RZ}zkRaKs-+47#B)?5JF?EKr<&Ule}ymQenc_ztjfmGWs
zKu2|yXpy%3lx5YQ*i~DsI&`FC3*GRpPfrd!1oLpmFk2=6-DfLx6tq6HVo+$k=r#VQ
zAe*co@i0&xKik%&b6?%afDMc_3UCLgoyzJ<6+D|v=%;NU_KE`~9Z+JBN7hh-<^ANy
z0~c)rL91Oo)ua_b0cGI&-W^+s<VyqwboHB5{8GbSgL`~p>bHsfs1OQvJ!7b<*UiF9
zlK8gQG&!&YJ;{n^JoX=;?)DGYglhUevdcWiGz8YYUk)dGzl~@y7TKis;iy{Zav+F%
zdKPFR-E;6=9P$r0^vF6>=|P!rhU4A&-1HH{;<?jIDtnQU+-7<5Y=1wnt9jurs*%?5
z`o@vmONbpQmq=#GQ!+?l-TWbVCss23e#M=&b4IWT7kyb_stl_G;V){bWN6&2Wlr0r
zg-eiHo@)3eod@2kQM}3%-K0}oCFFGDJ%)wL88GxW0RJ{P4J&m(ANj{xZ!1vriMIy8
zcRHn$r>!NScUSL@oA37s;1U&x@>P)AdZ1mSk?9`uEFP=HCb6wrKPob@m!BRh?cK&o
zBHbbQV*r~5w6n@l=1&sq{+EeqbUWuYRT3o(vbNb<_l%vi^!Xwjdj)@<N|sV*$F?>a
z^gjHBd|S|74rtAHw2}8!k!&tgffl{;aceo+EyhV+^tG=3A+`G`T3XBP-{#RE_ar>A
zoShA(R5sY0mYOLqkZ*5d+~c^@{;quO4PTbKAkzTZA#={(MWFI(Z#U|X;{4?r>>YB^
z^v+A!zl?_h0`#QX(xzwYh>^uJ#l}4~wheb`_bPEYJ9NhNR%4KZK6X@Iz}#Qk1vxZ0
zx2w3m2uD@;UbI!C>FnbYc^Fox#~t}3m9{g3^yp$L?tK82+fnAXF-(Q7$X6#@E<bx)
zgcf1++Lm?&fj@In!*2A2r+Lm7$xA&|h|yAhx3Rh3kd^+$S3Ro5Flw^49hYW}&+55!
zOy6kxOZyiBU)hw^X*LSPBeOM{5KB4!E-UIB#vUwKu<CmTr}0CTMBwHG$$5w*pB2RH
zBz`CDlTKV`FQOE+Pg9XlVo;is$dCRm20T{Rhc*~Wb%8rAA93seMShCpNa)==MX6j5
zf~<JTDHnEC3s%lk{m8kbsoVZmryV+IK53`$W2}f6qcWt=<;eH4&WG83;yQdP2%WQ?
zCI5fSPLWrd!_O+`$Vy^zk$kVcYL9lpSaSRGf);XIvQyBMZsf@v7Vlx*2a;Wh9i~Ut
zYoC$b`72+5>}6?s(8&f1N`U7R-N9f=8YGh&7L*X&iECBu|LYV!Lx`ELC^7znWXyMz
zf|p(<O0`e_&%)N*1GfYAerXj?G~oZx4VGF`#|+o0!On5U)x$k%IuM^qAH@3azb4D0
z`CN9Yn9)8Hvm2zwCF@Y8m)pcjXkgKLbsPDUWJL#U6Me<M9ldI7(V6E96~z18sYJO^
zOi;N;6wWKFr(eE?1IfAwvd*PTQQm2>N5=w}S{WVT0;CTb0N!JI*ihoRTnfNd`8KxT
zjfS#Xv4<hlCW>g`X|v?A^FC<z6A6@(V~!fEddjSCBsK(B2!zL9KW`z0QQ_!W!I_8C
zSD~tX#8>I|dN5W0r&O??3w^!A0C5UA)y*$HAPo@7m;I&m0blEl2i)4Ex;V%oc`5Tq
zfSE*5w`0j+tUUOmVhV|5vtOL;Un`$})L(p_qc3p@j)_tOX0QGR-Rkb{AA@O^&q(L7
z@oDwSJmW=l3zY#6g?DjisruRJ2Tu0$Cs)p3e>+0n-#W4mn?!nw4C^oJF;}iJH5y^0
z>kIa?xz=`eF)%{LfEWB0AOmQX??`Bz!~ar@rAiPqt(i+_%07o#g_9rC!D~jGEUO7a
zU5QhL5wYzKX@Qc!2+xrnSHj9T2WNBhFngMNnzSSS=kw)@4Y`UMWx&+>R8YBiGfmJT
z!Iyncd1I`veqiJ%S9yQ*nYq)k(hX_69lQ|6wX+e#uuysA8#NhbP8h(hezhv~uu9|?
zB8qE~HJ{m}wvvN(?l^0ez6INY05WSpMb3RPCjc~z<ne5!Eq1Dnoim@Ey9=n!FCXi9
zVkLQ4e{F&y{o<XGAPWwfz5MLCuw8#&leumg-T?d)^I2qx9f)om)#=zSpyp46^vklH
z%(WicwPydkvEqdKHR1`j2`uut2Sct!c#1=$Os}L;(CI>q&&`7<x0he*W@GnN=*^5P
z($IBnfarf(?cf}`nP<1F!^mwAY^TNP0Tbq$48ru&CbI_N6yc{_b$>msNXIqsTwXph
zwCv`XLTbahrdE=n^t2SWi^B0qzDED^bu-An*@v+>u|5AMlWcBEpK8_<*iO~)%mpd)
zb~8D#i7GA=?vhjwhlWr|>LSLLic!f#JlR5}`S;DrCqw`#<rZ+<a5(_Cs5EgAsxG9!
z&SccXpa<J(ZOV>!{k~vkveVTQ0Kp!=N^$z<Qm&rS4uK4cl8yy)M_uH>!^P)Tm=E6@
zLX)175z#5vRt^)8Zrrictk~|i(o6YZWx^#%R|ql(!C$wkH&-y!10$*3{RgQ|HUiZ;
z{dC2cp&x~RAe#pjU%uY@4LvLw`2RQt*7uiP3NH-qidqi$8(`73zF<0R6Wl3SBN(OF
z=QCuma}d}#=d+hG;|ak4O?)K#aU2yhJMgp5_4IYEiIdZk9-4t1WQ(9Mbo`a@2YZNA
zvPoYLkBfPF<_MueGHraCeI4Wy*kZC*oJ_?`-4!LQ`6aZQiKY9Vp&NY=+73%}p)80S
z2^G>LNdod_X@jFaC=JZ+SsirsadTG(9VA>1HLF5v?Auzz6EQ5+ZSS0LTO~~=xkPNR
zU)sd1^VsgMIJkkLx>wP+S?PdJe<N!<cg|GAjzc8F3q!~(#g$S~C`0FYTmN~yB$VZh
zf9^XS#?ymaA}G+PZFWGNN`E?Y6GvyM3d--VWZXUgHvBe^z~tzuwzHfE+w(jo7D|H9
zw`cb`MYKNy2Ii-Cm9rYw-42xL(Aw5IjntQjBa!B<$Lr%<bE2A?#aVg~JuJU1Ci6-y
zB_4OiJ2`In2DJbS-qmeUk4V0Z#Te)Zj%hUwJJ*?Ar*{<FNT0vO2#(VK@R0$6P+2I$
zKXayuZkyc$&To=vTi*iMtzg_$bx*nR)<^3##J|Us7SYXZiSs)V^0WHMT+X)wjpxgI
z+I8(Z(>#d?t83_Y51w^+W~!YIIb*Z%4Lor5v6!6<Vt+9k>4*maO?u1ymsqm|qip-M
z#_$r+H7O7NTUiWqZnDvpg;sH*BcWEiyqYwZIpFX(r<(k(4cYZ?J!`<q6f&d8^!fQz
z!@6PW_wcm4Z>A?F(H`9X*|_9NAwe6dLFB)HMI7gMZaF1&ij{5>1%uLzcTue)VC%BF
zXpAahbJ)=BDO{{YGQZkU%<@OH&Ypi#N1Ly6FqnYxuOTg;3%6{8uDkY64{INsTU~br
zb9yEh`x~x?>L^rb5GV2da<5*6YJJG%k=^4z>YmqMiJ8t#?z~%^kV1i^?=xi}jbHmI
zg>6A&DlJ9V(4%J0Hmkh*36<w!u0eccD``N_R6&jgB&`R8UHJxqE=;S+Js#(AAay7p
ziIa-_@6vDEhi3BWN8rCvPJn@Ih|N}6@qO{>5Wsz7`nhJWC3%<+R;XOBQ2gmcu)Fff
z=&f^@V3sm_MM~+KZCV}051+uH+eWE_dX;w{iLowl)B?pJ$n;R7%Hfag+fSz(_y@eo
z6P!uDoVnTL$=Ly`WR3iV8?2IUWUDX=#s)H77;`7cnAUQ&V2A0)dN}$<YrN(D-!F>?
zU!EhaCb1XVXSwwr1rQp$@LLLSHAeD7=WY3e6|x;5)$h}4d1rP|xR{Vo*D_);@SwRj
z;ckX}fw?kQnsu_5^%c%5%D6R`pEiNs2Xyx%733^7Q~Jeq<S4f?*Hcd<rdEvdIpzN8
zwD;Wiw5vRE8wWpd6z3Y36neo*`{xYkb=xFdKkruAh~oiId+KKx(hy!KB2{DTo*Oo^
z)ss|IuO9ziqx*%{Y}9NjbR*@h{6k(IXGn}fXIbPCjFnNnHgWfLJ1geB0`zHNWJg=W
z7dko#>D|FLSSx>M#3F0S8Jk;D`;Ut}(*vMBCt4deGYsf)gH9B7D53F-M-j<1OrrcQ
zr>ET{@|(R3r{v|~+4u*mMi<(XlI&wMzvfwY>;OzL7_9@>J>u?zMqsjgP$la~s{hA4
zGpy8e`C3e$xe$P}^c?j6tvsF)i+t5;UJ!okxX&4R(1JTEWV7rj?P1gL>})2TVsd@N
zYt<nd@sTip@Q!O>jMC0~KPT7|r56H|qK+<#Roe>)uLt9d&<}!L|GVpF4vOL)lWVPq
zc{XVZlTPDe;Y#P82ay}2EfpGm+eDs&`K92ws`ukcYBz=;@ac9TZ&|b1!4+ynpTA6N
zYsVFc=K5EKqtlqOGVkuF1R{~~L=g~Krj6Q1)5#7C@=bz1w13Z;Zy?n9&oM-=X<S=C
z0nVHMAQB6ti<uX~QMNbi{ADZ|8RSQ3=D_XiH=mY+cJu6^Y$+GQqr*0{V8lzLSlR&U
z;y*o%<<#ayKs)MO=?!&9S;H7#d&#iuuG0>KHtykvW-J!ah|>1`)v6Bxn~%?T?ErSb
ztab5C`y8@k<tCZhO{BAqT(PSyG;QI?+}IcBwtPB4suU8^CRF&<DqevDWX)1`)-9?!
z1Myr@ducop0ws?sM>H$^@pj$;AWRH*C59{P6s)723)MIva&8<83t+L2Z*>x*2DbKg
zkNvN5?!D$Bi=3NfA|K5sO3e(ibl^1f#%N$!BXE0mU*Nvd@|(jr`rmZXykL>}TD8iY
zrsD8^q}u5~r=b{C?2f8Ga4RR>T(~w$ti^>s+Daei3^fv*G(e+)^$TKQ>tKZeWrF?k
z<zTlCyQ9g*BopkZfPVK<S!@aq7V2H=xAE?Iw1uvaY$L6b{`o~KXTa+H#Jgi9Kb9a7
zj$gjWqRfa?mP9dJU9hKr&VW+ZEQ74?L%=})eF9<mZsU7#334@5631(u*!v%fG$1w_
zS}1Ak1p=*Z-E9btqt}-N`B4~ios!tXlpC#qp&ep-P1>NihtI7ppS|<Sd&Ia=zbtv$
z=l=y?@v!AOz2%ff_d{;nLL(PiFMloR*yjeupIPrHf}K^lP_A#uMJ!#Qf$K0Y#=Bc`
zFu3(Z`+3HK4~-!@l%0h5GXFVX^Z4trg2WMoQ(rWIg8>+hyg10v)qhG9Hy5qY!T`DS
z@L4kA<|+XR3(OfRZ`Ly93G*cCP0yG}vUFkok|f}YoHh|-Wf6%Tc6SPy_{f8T{Txkh
zlsT}}0jRpM9HyXM;aKslkEE4+4eehVo$M`I>G~k%VVj;vEmW8Ty6F&tgAY^{-^&b%
z&VGw+AWw7N?tSqe(n^TKrb6rET@rvGlgD@ob7);Jef!2b%5{4qGOs9VQ#lQGh5e_N
zI@t$s(4kT`z;SjiZAQ?%XWwG?t0ib(1E03TvJMtWnZxQ?E%vYF;8jC1JD~44#>kCo
zBhpZnD7jt;L<Nf9Y-q=6(Vo<=I<x%AX35G?s5xp3+=?ewcv^eIme~H00nQ6h+w7)%
z1BLk_Uo|@W*LtLWFInIbt}u=SxK)Y2306(2l~LH5+UtN{LSN&2k4qx`G7kb@vT;g$
zk~nSc395lWYWy~93mAlT)xX%s%*pj{7&FU3hI*ddjav$t->UbQBsw@$<XDjw?{H?8
z@g!REX@xphq_Flq2uQH8F&13ZG)2Q>Ahc8g4V$xKU8F_|2xtLMV|6zbd6;p7dPN~6
zdRS$nLo`X?P}*euFJer5)Pg(UU^QPTF%_Vrxt9P`l7CTYK))NJB~=kyp?4{weTKqc
zq{sXAX|FT`7G&P3JZaR9AKN`8g?o24*&E2OOmE^1efCP$P~HSbc;mzy9(H5?NGmF;
zQ2E$?tH`!-Gy)oS>PWai*Q1eaVtf@m9{!MmGSec^#{LfU8kiGK$l;br-jgfk3|EDN
z)jTq7Lfctf1PrtfK$csJ<5GTrMsI;XOr5k@S9v9oOg9niE5dtjXI3wB3o~iJ_Qq&C
z-HNUtZM3`8%L6OHJsyDqXp|cLZz5ENJp4%vtL?H~Nex<EPliB{Jp`X7(g$XC5X{Eg
zKw=`Ym(sq6ax&w$A9@eUECUtGbu3RrDj#m!{?BZ_BzKRvA%GmNkmLPs23)vW=(!M)
z!`=4l#J1G@J)PVjib37Dq>Fp`(jgS2v$s8VTfVn0D#P}1Mi{}12bFU3B&>by*GF_N
z5El09ee0q)#Z)m}KdO4d4+NkbmKq_U4IM_3i-VWDRxj)YX87lkiWwoGe(rGgjVfOW
z@Lh@rz`AiI^tzR49vv7AbGP>+`%KyNxGhJAkG30@S!rzl;{g(F#3OjCTIbgY&S_<c
zp2_o9u0W*q7aV3bV68gIyK`V&SL#H^t%ci(6waPRwA8ka=yH9(G5iNP(-RXODO#95
zR@7(i&w*In8-4a`6Erc>07YE_*uFTm-Pz43RR8j(GC-y9c}}syrE24mdlx@e!R@^H
z*8M(Z3t0q-9_o;+UWn)<YNw;YL_KWyD(%rwIvsanpB#H0(TJY=2ASUZhZVeXCberO
z{~QD+4D;``%(vP6_gs+KYsP9B<ThLC9bA<|0#fq60HdI|PMWwzG$!rJiBXTjJsO_#
zBxvrklj*5X;J!kxkBaSH>TcjU`b=D}VSr8`uW#2uZY<#ZX6=>Lv8iIe6HB(n#6jb$
zzOOTHqe8IMjT6(6_h7luiS|3qI8-)Bb*AS)A{RN-u;=C66T|vCL`uX&sxak^9G0_x
z**@pk`I*%3Vabon;3#p}(SXfSA_PoP#azedY1@<rUV<zXaZW~b$oWJoM0-6J+Q1ly
z>=ej$+LXq6r!diiv*D#Mngsn`CYWXRCY=t9AB=msV1nIeCKFWL98?q+>`qpoU%`m}
zMeV46I@?N<2(j17#FXY7nAfe=SEglHZox1>wVk`qKzX0wn?1}-9`Spr%C@Ra2p;T{
z*(EYDer0UD?*d-V7)@7vRKZukQdZ4>&&QaR0<xzc!fQ?#4acn}&F$ZR$p(6nBdzqa
zIsD1SoSw4!;<o@{0Pn%)#=&gqV?bqI-YT0h*pI*BTHE=sRp$w~_powCtXO1+H1K+b
zcsiXHybN*SKZ-#yU!JN(TyBfjwvSRg{Hg>}QHN&nzXnwm!s1@NRug5Ls^+`Fo}H&#
zKsF(dNb~N<xY#zx!d!CQ!~EsN_44znQ<78Q4C#=o-Gi<|{iX=uMZrzQ|F)hg6|K?C
z)0HGwCKNMIdt}!D38o1&41ejbKg#M+Z&y+bT?9;1iKO<>1&yWMc|-0~?rRAzqv^wN
zJpO&@HoKB3!{lB))TWSp(qODKNZ%1=W593CZ6@Gz+k1ZOFvY3G2s}}(@+a5XTs-{O
z^BC_b>6meH8f+OHN_T{o0oQ9!$HrEVZ%&%*L!ZtwYuj71B=8P5=GaMpR`gOr5;N|M
zqf_`Y3vs_liITT$N`Cyts-5TKJFFNt9xV%C>#27-+EEp0QGAe5il*<pGMJW5ohn%X
zXvuJnQ_*m+T|CMr9zFBaMYZ05p6ryLCVwZy2AxG3h8y+tr&uQs=@rLY1T`_~`%2aV
zU=r5OnohE^FdWRnr%X>uEDo1%hosbFlG>NFjwI5~d?XT*ax3rmx^Sdc!26pvjQexW
zxa;p$^~ynt%?8umhU+9+dG5CLlFz*NZ9k?w32muH6yz7hfS+cFtg=}<ZyleaHub1+
z)b#M>vm>Zhd{XR^iH-c60V4&%f#Iyf%#o%>8p8s}P!;eIN&%=}d{oY(p`wF2?U(Az
z<?EMEqtqE0X^cCewk9{Vel32CspIHmm(Q8BaOy*W1>iJm;JfYdOJ+|2eeq}NYRUT{
zGWGkC%e{GMtc`wS?`ko?FQ-euAN$O#TVPleMZjDT2T%d!WF#SF_zgE8V+oREgORWf
z<EOK3)0h*&YecSDM0GT9Tho8Px>M3#z&#t}3iloZJK0$oM4S7WDKts9!j*@r=hyL3
zbC+nw_~RLKMogNWpC`=EGTZIFbozOzTxR-;5weW{M$r3s<>~`&pCi&*Ju}Qu`NNwP
z5hkBiT^2#2o%;?PJIBkTdNy6^_|V_wa+$_E`}bB6cob`BtFjK{)EJg_^{wzP60i93
ze|jnbhK(%(!sBFdJ+C>{lSP!d*QivFu;h;yfGgC@R3E1EL_q!jDSD4CN3!%xb3MB`
zr)O4uMl8rVT}@80sxqr8t1>e(Lr1vQ4y`p{FoS8WVFnlsT5I7B*Y2TJMn+~;3X-MB
z<{^ixIlbr~Fu!3gx3LL74u{#j-}k=H^Ee>-oRK=^B1{~i12seIinCOYRAn~GAPF6*
zat8nLfMPSFQjdz?k0=FD|INQa1#s9wYE!!Y1p2~VA)gthC4)^SKv=DKKFZ3AkQXmc
z6TcnpE1vP8Cr6^G8WiRXdN)NTt4e0vqP8Id=7KRLu2(w9`By4<o0Q)Wtg$`?4_Tcm
zHuxvF9+K665Z`8#`DG`npdGH)qT6Q9G(1M^=LcKS`4pHbz_F+y@rIsezBvMcV^S{C
zN52>H7maJ@j>GM%9h9%wkW$RLtd8zTodic`W4=7h2rGL6JrY`vB*(RzIE0Uq$^#6V
zWz^;9K{J^I{PZ4>EDX_B6~l_PVj1kZ<@R~+)(^qRA;FCG2n&}}9fxWP!Kr&z7ZUlh
zH-C{S+2fwx=;er46c)a6ukv0>U@pyR_Gaz0W61{q0MgI>{Ak&bm)!teag^MT!z7~J
z!Q#dBPnZ2v+AE`8DwA+y4WHu1Pllze5mv1h*J|Ku%u_u-yT0d8_7UfF?1=xgctRDT
z)ZS?rRC2-ow~O6WmG(+8RTPlyH}krR%Aw10hX3(CdNDgg`nk%_QLIVWLsd@fmh-1%
zt45`3PG6;>4aIK6_rGvx?nNkFrT4Oy8v41AdCxRRMQmrQnfzhB@CW}Fotf|80WQ3Y
zG<%}eKO!FNa>00E00=h^HmNO-<EC4im{-JK_LgL$?Nt(Bp;;L3Vkz6oR8Q&Ty`Hv(
zxHIFTorNz>p}i_YL<0>HdFNi9DAqg)kS125gU=}FC<Y2)@7fsg$HSdT3HN=M(CQ`&
zO+HN|FSN#vqQ=w8cR08nM1*mu`+aO!<e6%KR9k5ou#vPVxsr@~_X9{h8XIs>{>yIN
zC#mP4Y}=HJr4@rQck*Q|xSS*UqU;cCBv3nH=tVTyys}n7ZTI*no06tnj6g2fEcerg
zmFC;Zp68PwOD1zC&S>cEG%>a?y;$tJ3T}7NtW|yo@lwi=%B`00<hyc1F5-Ml;ECt~
zWQv+aof7#-yQCVp0fXgk9n{9@iBtlP<>)%CWW;=O8HGP271$3ugv0(14X|d;@O4u)
zdTD(+CX$U8XGwtnIa}#RezO_RS0c`m;K&DyNs7DuTft8kQdicd1B{4v;|1^5Njx`J
zn=_I7HYhzl+_iymr?4o);jD)AyO}TMR+j#17`fm+iyH&=hQsv?9^Oi_hZ;mAnkC^y
zC^&?4%Pb1RNnlMWpm+n=xl(m@M>*YjW*sM>Ty47*{<rG4W+C1TjbLS`6F#7$3th-&
zvgw)r>8Q4(;j~gNn@J!W>Yz`oh0}z`(7M^Q@Auo?`XZgH@UfM;e?}sx56=|6>8Myb
zDjxLy;S;f75ng)#_}E4@p@KEqX!<g)jl7D0pE&KN6=NZ|w?vR)<^ehj!On_T3^VcJ
ztH&q+u=>o%-W|F3q50-I4gL~dsF`~%a|E!us-I0UJd>B;aD7TXHN`hGEqv5j>mS5V
z0K1(vQ;52^$a(U6{ZGWr??aF7e<`okqQUL0CVje^G@A!W*P;t7_WCVmUMfY~1QLKt
znXFPh-`(-fzz^gNcJq4+{bZ0h7L2S(++Z`J3Q)3+g-&LEd$0&uXjggG@MSXe8dh7Y
zMu1(`M`VvS+<E@5suMkU1*RxHY*J~4)0NX1@m9}jGuZbeRjEeO;;f%3eB6njh_{VY
zg1sdRkn_CiNQbK@GoP`(VhdXphs6yK$g&zOeOuD<>LHBJ`$ul}w$q8W7>~+?we^?7
zJA71jZKZ?$!ly*mHg`IliTt~ei6q!yyU?oaP8fIW6t%-@59zoviIv#tW)@NywXJkB
z3?9+I34Y}rh^O(=cVNjoZRK+KCCHZu1V2JM8?JZ>*zge8IC$+U>8FmxpMPXg^dtt4
z2e&1FP&qVAU%d<Q1k|L!7h*3-dXJkAE3s*S&?9f_^s|LLID_(#$iFTt;i6q5qE!Qy
ztle~JI&5Gg5!rbwf(`Bg$^m0SS{BKAm{}Ywi(Pq6@e}=yJ`AQ4O_pi~85`A~RZbKs
z(w;G!+NBzgp9FcBA!HeClKM#4J01r0nuPsCIh-UuuamPaE3O|O%53ng(-zYv6zzaN
zJtz@tT$WVl34DkH2Wprfq%3@|u%Au>jT%+mHb-3^^PW_69eq-*fpr*EoSC7$JZ`su
z`oTi8fpT`#P3X@%E(^;p)@hKlI%=GOlG5_yshEZzdAUYq@+ju@2nXkWSCPROK)lNg
zsphF_1*=sto^kW1G+Sk+trQt#Gx-!yd+;PpO+wmk^`fF?ZMh_e2(K0s`OS`AvGbv1
z+s7PChf;wELDOZeyH)xj9gYH2VS(5!yG^cVj0+VXrslC~RLH&#y!ER_9FOae%B8eB
z1Hr7nZ5F;ji%Z_Q85&J(a+&pR7^;>y5lfj*UMvR9m$x`KTNdVg!V_gj7sPZ>&_+-`
zZ-MZ=&>a7w3nsD<JFE5qAz}bFR1y4MUcheTvn|1(2eRJWqiEvgZ|atUzX~UNsmv@V
zX0L?V;SF=S8@R2m9RiJwy=~{c=_k<75dp2rPXuT_c0t@zaT|Uxcq^DB*>PsH48M;a
zknbNvK~6Q-a-AM19Sxv3Mvb#Ieb|*^xe(E56NJxK78t$E9P-sxzREsUn8@>FDOnkp
z;kDuS@uUBl7trZ<;XQg<Y&|)7KK8rY+0=Hc2govnqxuv(WK&-(y)~Nnw08f|`CZPE
z0fE=zKUX^4`a#_|-0^K_@?jqOlJGTcWb3nOKJ%WAo6UINr2@~lbMsWR>_-J{aP`=%
zAhMG!z;`E+1%Oc?Dq!(J8|kuscd^h7@~>lNhUBL?zR1*|kXrA3$tzHZvjYM37o+Dm
z4{EpSAPOr7=+SEA2j1=$jv{;KkIC^}X$uoDG%-q=^)3~csrnHYnVGJWpgEkAt)qjq
zm6P+$FP4S2jsU95(3ke5;sev~g<{ViglIcmS1-d$Zq423bYqcXK}qEfwT^(dr`vPa
z>1TgOiX1lkJSNQSL@pA1dKME?kAvKktoQ*Gv>maPCU%37Xr3H_ESp1#tcrTy5iZ-o
zSU!oc&0DmT+Xp;?uI8pp5DwqYr%Gqx3{h|wupHadTaz1^dlO3w@jvSf13gYJmv~}C
zictu8vWTR=)p>y7f+f{`n)-=&Rcb&3_z$dmE<y!CP;^f(fO(+weAHH*g9_)~2fC5?
z{Ct}8c<!Qp>nN?Hxu9O59!JnAu$Y4@9;)X*m0M`<&a`OKu?py-xQn}eaG|lfx9wp)
zA)(iMdvslk*pj91vlqH8zAm?&9um(U;1`LK8brEws|c#*{lVFb_cm{*L4FUH*3!wU
zm%U2^q0E!AJ>^c{*`itd45RnHefr_`KQ{in*ZW%bCxx2e7;p0^R%0CK6S!3}z!Z5J
zHe~=j{dZ>|%a&O#As(~iksI`{1D_8b8rWU9OP4Wp#t`>oE&H6{TUNaQdK>5Av%~Qa
zNx8tuClElr7RYq#WsqFdjWi^seWRy*mrrioYV8HTN^f8FiOacRm44Aq9I&F_Irijs
z8+~9YAs$|R^19akG{30ik*#Xz^{Njm6q9v`>Xoq<*#I)wE$=3(AMq!Ix~LX|nUQan
z%U2Uu#L=?NJfB-^MlkIepRH#1TjH(3lE}x70$)X?y?mq+)iaM0K!otCVxzIM>DxS!
z^=a6$r#YRUl_ass61-*iz}-{aNoyz7gLRp@9mFjwzk&LTB25sd?W0I5+D^x~&y~Lg
z=l!wm2Fp7f@s(Msy=`@wO6#Z&Ka~oJvQ_|h$Ni409&D%d-w;>_bgpx`tvu&^)bThy
z=`y}&?wXDO9jK)6oTP-Yi0MF9s<~>3EG_CTrd!WG&u*dK;vX|_OFPdk22qxYRT&2Y
zcdc_j`ea(Ic5eFULjh}&U~20rw1Txd@y$ZnRBQ1)V3B(zf|mNGhPEAZ!iUD)g~=gy
z>^)2w*4qkE@THt&Z+zsr{wA=(KqwV2RTwIlW>=#W&t=!6^CTKVA-%ks$Zwr(?6f0S
z@pQdj@9L?lzUO#+W2rhG?8$=esERXXLnT_BPz%uFfjoR{5AbGmCCEotira?5o5?am
za>;De!o(bl2&Lp<dJ40SRJz-f0Xfc*AYYZ0!pUy3T<_7Td1#iy<d4b`bn_uUv{W)g
z7Ck^0f$llw7qG*J{^}}_Jh=-T<pGd4SLxXBWdcJTD_A*wSd?tjpLaJCKB0XWcs?~1
z9#sosHjC%_`TT*AdKzm6&gO;BD);u#hBmwQH&a`@bcWF^JRIV67N=f_a=O3UCz?H}
zyFKPL<Jl@!ihu;E7~lQ}Zz<v0jG>-%bOP7H)TsX5K<48pt8WA+D9)Efrj|?Lrjoxt
zn^sNxX|)%$yl$_Yu5IqUWnw@Me1frSfAm|B(+BU8H{3385r-k?dyREY3sB-Zp8amH
z+1KJ^;^<e@(UZZ^%obmqhI4CRf8pw&lU{Xh^=HxX1*UU@+U4q*tN)LnLN5mtdo-O>
zYu+!0?N-J_FVv$_jFOmGWT)8mo<wi9g>Fg`l4Z~@Kj=_3^VYG&?1>Dv5etLmmu6vy
zd3TTLG-59Q*YWmVt}(f~=kVVge$j#)&JNgrygAg<1`EZ5sWrO+*UW=k!*c@r;<M-J
zPz4KuAao9Jh|b|h-QniM<33&rI^=BXqiF44#?91NZLF^)18K)SJ{%!}g~kjzpou^w
z5;G0rf{m87>bX<joEyk@^mSfnY?njsqcv;J`1pu?q4T8jv=!gED&21XO>%ovaqG9V
zqLx*^lq>BjH~|(}>LP<|cATj*t0K`8rj=t*q~n%w_&A<Y3#?7{ozi&u5*hRp)z%L_
z@HO?b>J{uLDS3*4vzxQGNgHS-ym=X}l)j;9nKyS=dB|z@JXX0)tgOSmt)8kAuRBHi
zZs8dlGf|U%W6@t9iZLz&jSKQ+-3ihTe@##2-B=$+AXc&i>DFe|wN~IDiMC!sn11Y*
zEeJ9T5u=j55wKk<Q&9bNCq31?m2dH)^~BFxx|R1f|J$-cWo+$zk)&(2ngT`A9)9y~
zm&$S7zinkVqAZD+O(btR^lV=(IxV2d1;b*x6|2X2X<JNhG}q_#?V>HaEF`B{{#_5=
z66)=7Neik+xoQVDZfDZt4M)Z*!(>FMDc*4cion1gYU|ksZZm8Nuk4r!N&Q~SL;V1s
zzRej<!+B&pLVL&aqkJ;NxA+1fwOvwpR|adU#jv`@S-sOV=dLxTE3v3xp%<h}ulLNJ
zxZ9o;s7A3KTJO&ouso@X1zGLqR?1kh7=5|i!e0-++G5GQoXs5E?(5g3AKfQLfbOA(
z_C_hOc#_t%43%hw!a{dKjr?1RaoIS?o;PU?p!#y9r!dYk-xGyNGWcvcwwnu)wb06-
z;NKX?F?|tijpsE!hH~;e)8ev~TK&K8)TYICaAK~?N6iCwoU;NbHkKii&RUxh8N_=u
z?!`ufcc7!FzP<%^QE{vFJJCF<N?+G3+C!fVQzsah?O|_E2jOJF4~*PnDK04nFr6lr
zLniru*UeS5lTb*U*{E<6=p^>{Ut%HUGa+hdTsxfkY}qd4$QzH;rL!*tE|}-q)xb0P
z&)&vokHuoWF9NJl3M*ufN*OP5<UGnp8&bC_uJ+ZZ8T*-h!Z6xcObC(I${?qGWozY&
zlG!L63$6Mjo$8`ujsu^^I<05g<&CZ6K-w!8ikZo2(arjgchGJ&2UyMZr1<JV<Z7{q
zOskSNZ+Aj6OyF8Fm$(_DJk(Z7W9Gb;!&nf9NUo*RCmo((Q(a|PYmHt-Y4m@bZ~@7H
zU^+iDgTTR{KTnKX5vXh&2_gSUT<{--r&Jo^qVpUb!5uiTJ)3zTm2xu2&b`XL?mJh0
zNsE!RYczr~7IhHA^lFn@uqv_Pq;_%Qn~blNS4Y_=asrvw3G-;ux1O~UTu$y5LdH=8
zrI8C)OEMY~@GE41vaZSU$rzP57)X*xp#J0gwU3E%<vKUYT~m*!!u-P~2PAkvOnS~j
zWCpU%pH4fOTmkCY)E9a_qDBK!!#zH2Jvz*QXSpAWn#M1&7?6`wyQ%TxUYqRoH5vt;
zVf;_cwV^+E-&rF$rYXjI@@YY4N*31G8&rLfvj#@E$a+3;;R&Ng{kpDw$y0Sb-yRF8
z=d0vuwu6Z~5de_10{`PMofeNo$Q8^-1$&3;v<CDC!`I!j5Ax1@CEiXBo8?Qma8o$B
z+rQW;zf2uO;g6w@9*>}-or*KJLzHsJUzS96WfV#6rym37Uey^=A8FH^f(HWPR!Hsn
zb08i1h)-`yfUgXEn776*%+5me%bxXB?3~od6E3Asu8nO`gQ}%tAS%Z$EWm7FE&Z`X
z4WyS83NuD^8;1_=jtWvm((?6WEWI(m{$h0HTO%%;wm|JTQ0D{6O7+!HfmQ0UyRG5U
zzXLyBQ}&us?f-L?^RJoUG=pRrv?P&l8`ZxVwt0{f?#7&Ncq#e*OyleP$(L<}u7!hz
zo=KOSN%@pUU_Z@k=)QEl#wS%goqE!VHA&P-)eQ{VpQhvoe4R|4KasZ0&1g7*0`MaB
z4ozFpbP<8MmeKG;L&9f2WfwCFX=o;>?HmKH#@30@s3cG;QV(4Wnqk*2;Ga#QMr+r*
zC<X%-|8<R0PLYO>6gnF=B9uYq@^)9OFQK%~R-YPFCg7^%6f&0G@5fuZDaH4eQoXX6
zK<_FN`n@(u7lubfHebwxs2T9|75dAg=ol-K&xC<pN~nkyirN4#p=O;RpMviH0v8K#
znxCq8=#Q@A_+^WQQz1Bi_QELsw}D3Q&N3|cTsKdq9|dw>7GWQJb0^{I3o>f=Nn*vY
zhoydDnXOe9rsa*D?B@z72TD!^Vs)_(-k|MZg9on@07&vFB$i0sNZ6{rTMfipHM&5D
zHoD%JBq11MC_3)>g<9m=wEC6%&3hyko*K$wAO!>ybuZv;o*<R_pnH)lm}odZ1$yv$
z#i7DY7D>Ded4#&El^AT&-oJN%ej8+TAUgG~8#)K1FwNxxr1wY-e}XnDYyAQZR_CyU
zGr(N)f|oeU1s-NydR=}&)qW{em~?~NxuCmrw_3la%k@;Q<CsIwZh$S1pk2752P3s+
zACqS8O3pdl=32y+N^XOqQ60J{cyhHeU%VIyTc;o85WH+Qx#pg_iv6F2Z0cv=YHXAr
z2MXn2NhnlvVR}*}lh{$Z3v@7rI?J!yysT6z9VqcuFN=wF8dO9>!fsk{k{iB|mPvGY
zg=f5-8ezDOBVTxvDKS51iwZ|5psuF*xhlt%W2$`E{aXg@+@>*f6|W(w%J;d(w)Q(-
z&mU~JJ6rXM>+@8tQGKMePCpIugv@j*#9AU4Iyl?|i;8VBV~L=TsqIn`Yb#rkh=N#K
z#zT$yOProw6&iarhOIen-xsTG0!#P}lmPDlZ!#{RnShtehdi!MU<L29uOu-X#J!(h
zWdo0+r={H^nW7=L(2hFhj51qJ6UhUkIjlLl+dUS0MYjvc7%f!oLTaksuJJ}~X_sOb
zg6b{inqTozGVWqsH=bH!`E}+_1>S<7ReMYB|LQylV8hxc!Fmu?tiU)XNXK)R%7ca5
zAX^*Y)b6{!Wq4|Xu%9Qx;AS3AcThGr;NpB?<t8WPmsd7?^wR;>Snj;=v!!aAkx_rT
z(8Yxd_HJR7)<E5kfR%-K#YGBV-AIk4&Xu$RitKsH|CU8Mi&1gh?!A+ZkBUkfz`*Nw
z5Py7c)N)i~!`>Z^M~;a{VAftkiX78NE{69V0&CM=m11dbz(c(9;*(~A(4xt^)_Vz+
zD!rEbc-IPFr;>9j!*_9WMg-)v5e5~F0?7Tzp*SB)2fBjGsTSZZZ!o`{gqrb?e}0lk
z3zLRJ@@92psjkzF%+rNKRU%w={6G4B{>=ZTi|{Lk=EAiWAj{RZdS0cHrUlT151@|3
ziF}ekP%&Ol26^MjX5Q0Xeg#*LA~*FfCk4wbF`4FBjV;ZaQS+>H6gEF%7X*XDnLx}@
z-SJ`2>%SeS_1#42mwkA1*oz**d7c4!={L=C7A){0&~CG5=lv@O_+^*8`B8<w-!0}=
z(1t!b6gTRU+zxSU=Opi8!4?!41@dV{JDyX?dP^@f;BGcOGUO~r`bGA@Pu)R(x69u{
z8&L_1K1`h!7;^)J81w}^QwV6Dyl(!^8#>fsMvBaXD>N>1e;NRV5?D|Tq(Ak@XqKE;
zZd2IaZPY&RYIMxf2ggEC%28O^m-qU00eV=pCdwI5!j=XE0Gnm=yZ5glZFQhkFA<m$
zda+8zDFfbN6$oib?Tz|7;C$pkZM7jG9}nfnx#=AJ0n&RVZEU}|z7C{g@a#XPJ2|dS
zcq<F4?R6Rn&H7(w`doEZTq4Y2QtIWB=+%f6FZUteJa~5w$^q+-_XBmzx420albdjB
zn8@>|>($xgY9(U@vS$AEkIGZ`*1rNTmUgviyq7dP9pS|{td~6(`dd>Bs{)SQSfEJ!
zTu81518wo19p?_!8G-B;OokKG=7-rWr*iRLEBkWUSM>l_w5u;?{}01+Hx}SzdKiF8
zQ}-f&6g}h2oGxSs(o@GF8QFsB6RkDi>y1szHCNRM*zc_VHjpZ}<V;6Xb8KlJyw9p<
zuk!N)Q$R2H)OC4SJsl%dHW{lVoz7s@Op#VFy1DmKNDIXNWd{&Y=J-J<=cA2Tmqw$S
zSR)FdQZjZw?nHeBGqhN4RQ+%;lKr<+JE4aY$A$c~VoGd8RPvd%emA9|@zx~Pa4WqT
zAIj^ou7XQ`s&36OB`A&xiS>qykMOFO*6sJN{}Li^?{qXMSQb`NsX|oLb8KKg@>&Rj
zGz0SVSd`ivuBa`)oxhI8LlJxwYeq^@5R99b3CSBFKU9Ep_edy)pyJ7LkQgzEJNxAx
zkMtkZKozFRd$jea^tk+FozpfW?1Q`>w3!D08wJY4JGOtL^BTj@57~1q{*~nPUm+Ct
zwg0Am(2Iyct;gkZ3H9r}mn(hmANGmv0zi&E8n3nEcX8(Y41g#4qN~_6mK{pKj$VzV
z!FDDL?_uK8>OjNB^^7!Kc{yNTnzmm_egXHhPbq(xM`i=~_Zd?~$jpE64I6F0$D!fB
zS9@i)`sisH`eD%M8_S%uhdx@!3T;dh)r;a*^xVqVHUrt9^4#Omw_L7Xs5dh5h3xKb
zJW*PGlNoXzK!Vom{;tpBm-PxZ#G#yYa@OAi?qn?&X`o}P1_F-pX0q|V3h6%^un;5B
zDW9fR_BX?c1IAYcH!dwH)8nxC=+t>>6_86q#nIB%0!FqUs$%tc-xkU{6A{B@6Ti4{
zcYmfmW}Ye@4KE^h5R~fnXWGN|h`<Y3j}8jDMP(^bYAGaX8)qf9QY=1z^ue!^Z{_Wp
z*lS8T2?7JCOb$Yr!^$rW2|a=LJ8<5qWx&$P_BK|(DkK=BalHd3R8*5fmtC1M;Ck53
zGO=s+Q#EtAzGm{}rh=vxb^AKHK7Cj%e0~-5tIvSzk!JxiocIF4L&H+DM1+IfAv}F@
z<XOPgbRPHj`njs2@-6b^I?^E01ddV5U{NS#s{y@_C8f+MyiwNiS#YY~#TMSR^_(Jf
z=>RU}^W&i!izD)Y%N@-38Tyol%Nc`>ruwXL1n)@SmErRplPq+AHBqU<VBDr(I1%od
zT`5qx0w+EuucO1cOk{MR8JJn8^aC7gmw(g$tm$JeAFcboj5MNkVEPh`oZ%_hVj)5H
z*Q%vjr~)wlJD@8Q7YTch$_RnvH}>An!K_A0%Aq$?34<f7NPqDXz?^QL?M3lA_hi5r
z_f*|(x}N(nBpObOLhYIoSWB&jTeS}|D}$3@*#U=Id=Lp6NU%`yLm40ULhJMj^8dyj
zsL7-?(hDFxTG2wX=S@wIGNlL|chY*V_#{(k6s<EZT*<&+@;Hp5rCO{j@8;zU8l$W>
zaU}!4UiWn~^<Fct<k07m8y2>Ww&Uon0A3{@ZKh1eOKHoyJj;mpqjG7p{HCU?%bj4;
z^bDw)0nO%*7S@{hF@ozt$pFcKqyi48GT#$X>t*KBIvo5q1DhZL7Mh=$xCA_VCv-sW
zx{r=Oyj<MWkx|yCrlA#LE@O1hc4hLPH%XFq9bVNwMSF1ZdHP{N^*CeeVUX5vi?8qy
z_7KL&W^<1PT<#sYF{&Gnz$)UwPD=d)_bd~;Ujke%?Lit&BNTMMAJE$9t@YxfBv*#N
zM0e0SU9Ufh@z~DYLA-8^*ty`ng*?Fg*{$+9a+q6<z^U*_A)#>l>Dxu1idIS;!bJGI
z3UlgcF3)&;f!E?9N<@mqCm&~u4Ivk^HAYEDWU6%r@L9e`PjnFOvWxEckN0G5+ER1c
zp$BW1zF&xGn;p4+w$J~G61+(Lx5!q}UVI&0!22yZ74p@+k#}3C3_3noOhn`1M(V)l
zQHfcZqNVUox8#ajdiuOTrDs!b^zoighqEBKlk32fp;{>qiRkn7JRXmynLSRBm#IuW
z_QS6e&JxbxI17bJYHQrcKi_B>X<0cY5*>4?h$DOr$CPD6P8>f%vriW2{qGgF^12q>
zC2nI)HH|CX3iJE?@qUBJ)u!bLZJx`^A|%Ai93B3Lezz$;Cs49cjYY>%wH9k)1*iHS
zJ|_YBS@4q&BJIpo9-BN%J7OVE;ySTmpx);ti#*E4j)HZ~Z|R_5H%ea?<=qo^Ug~H$
zx8&Q;%Wuj$l$JF3{NWpMdy>NjTLhEBo29NuBFUoUPJkAFubgv4jS2W3NCBtQEKW3?
zv#{vv@{n?~KNQHvwxa@;z_Qp&C^wJ9Qn=<Ly4Tg;n|9;r7Qn|UA7tkf7N8Q#s6q9_
z(&;h1H4xxZZyQ{;)=8IuR`PX-l+$3hMpnuDcJmzNwkuAZ(me&~^j<MFOpdD;+L!W>
z?z)kgJemY+bd9uCa$ur+b)dRG!l8d9`>Yco$3oZLt{B;b`t+}v#mX|3W6I%!^)#>1
zA+%vP{$Twf|Ifi=DowlH?3?GWM}n^!56mi=w9$A4Qf)M-v`T^U5R;&n%8Qz;`^nr=
z4HsbgZ4joxQKKjrn-8q@U%PpNOtN3JU%~_<R-04KVoIPXU29p5_nJ1A0XDwyx%7~+
zXk!pLpbzqOM4eq}_2Hsf5iO8c6b-11<<U~Jej0beBZ?SGaNusa9!%DDMa6~5KxV<a
z@$h-1@SKy9Ix*C#ahe`C|25H;y3hD4mvKz~20eP>c>iXi@jP+jt|1It<w+qwiUjz-
z?|3(=RNjD*haCG?MUUKkzK7K+dCf@v!fm#?o98=xNLQX0i*W4<{X==6reJ`-t>$wo
z1uppCl;uh<Po_dHVkZ)XALZ7oi7~ce)GXtAp|!Xt>AnjLcjG}l&FKJdUuWQdHCz`B
z+3mP-N_eFcGi~AYX15f3aNRL*S+m>7RM0(Tq1bZK4T0DJBHlx?n%C9xdS*0vJeK6{
z?3=S<3A)(%l7SQAebBUi*Sm&AK2%krD@Usvd&m{j&h3j_6h2CIMW*}cf;LwwVa_@g
zK%a@i(#*1kKegAA>m|VIN*D1sz|rj|oFa-+<<7M|t%uBj;EW5sNCBC?VH2JmyH&sB
zpug_)thF~>H^;QC1gF29Z<ccTb!P;bBcOLbP_^@_vHEmp9#lWhhilmuV|=dc^AP}@
zk39U3x;kR31C!Ql2UIH@F#@b-Uso@l>3hWGMT1WP@CVo=Xb91`SD~L7rEEez@RyYJ
zL3-b?|7PFX!;_MY{pZWJ|5{Qkz&@Pj@kR>f{?k_6(~L>VCEo<+IcHf9;T#sBx6+;m
z3ZGTJeCgPk5~rP)EC?j);_0%M+^Q%AsP_FJv%lee5@F|5g(bN)<W}NHlUH*E-?_hq
zis?`ycUI1xt#z*3&znm<zD-=hMO!+&2FQ(9WM!8&8#C-?l!7DK5klA~tXkyhgWQof
zUaF-eP|7@aJ#@aGIs3VX9jIsIq_EaSO>RMPKS>kyRmE8O%0OBbhE9jM^k^5piRE|^
zAURxWN-t$@wvmI1xRiE9+Q@|^?ja{$=^giWgcqEKSg2+Ol_vXIFOvRV&T)7XP;gcL
zuZLLaXkYa(>8wbl7eC38QSWM=O|-y2GzLn8^H##mRAa_#8<xpz*+#wMNfdhLXE2X_
zASg;K_C8W-eLAk)*PBq&`(PBkMer#}ld&zjP^@6JT5N>n<cCS0v(~SW)|Xj!P<mOd
zRbp5eRCQ{zx)l<BibX(LThYNlc8b(l&$bjzBo<aMoSO;FHogrf$xAnT$WZ!2m|0*&
z_+T13OA1L!8a8WCAA($we@cTL!KHFsWJ*lEySzW|rfj9jnseTHvYumNDR~@`1i0a8
zHuM@mWX(6wEr846PXT&zWtp#~4sbT>d+#XaKkMJ_0F;h!EHx6OaFSI(ER=3`=MP7Q
zH<QHX@0?GTf~xsRmMit^%$*f}*TNId#WO!&B{!qJf%ES#&JAVX=Q@jCN3pO8=sJA@
z6K1#(&lMC4q9FsRHhTXt-XnU>>eHfb(a}Q?6_|Jf<Uko)XGQ7vkNvs#DVgG_QjVKQ
zd-TY)oy)(Y1Lalz1zS!%Fbgw6IaJy*ED@b(=9tr0HS7SXIwfCfgFp%oJ}Ioe;wnwU
zPbS#%INhKK`=O)sUr6cg+=+NlEgz`VoX%H&%4rgq1^jqa?;Ql{!&@&Ga?XP3`<Y|C
zkP7m@#%6o&91;Wi@$}aC1_7%woUhcz(^*yoDh8V8%yR0W3(t6?L|3am>^}{duLZ+r
zJUwkDA8+glAS*p*u|HI*EIM~arG=z$wMx6h#NW$DqyMRJh<j{3I#$hge65%pfO#qs
zD#Mt<$PwhcG{m&2bcoR+%fMt*F8b`~XBLw;({|Oe1-C!GHW54tf%h}nE+`+n$%kGi
z-S1(6(#T0i{ov)I(fwv7aoA@zh`6e0o$XJc;<Ltc!XWH!s(L%37E;Avo-Nm7wLNw8
za_jI*9~?}1e%RkSX!cXFKqORKg-o+2cTbQXzi#@dhtxN1Pl7VQ24@dMb@sbmT=$W)
zomi{A@g`XY5XQ~FKBt?{Z2)xKDh9IPdNXfBJ#4lt_UZ~z>(YRc@&{n1{!7*yQ82$%
z{8sk1pgB<G9cOhZ>dojK=EUYD_*yBi+HL;t?|`wJQrh-X;`=$xoL!(J>YD*umAP@%
zGlG$kU*dE4c2@;4;;~ZIS+fM_l_{-3_$hR=60u?N&$hZhJunWu2jHDOWv^l>2k2I4
z<I6GcxR{bGQYtpHzoGHyq1y~>Tp0C5rts<*I@<dNxc08?%A#Sn{CcCGOFEwvXHMv%
zjbNh+MRy%?6e>Nh5xy-lTq}LKw2L1%YO|eaDVVXp|B>jo3k~=7V-{YjyWKlm@ko0s
zni+hEN1|e5tK)looVU23FFhG<^hYX8O!CC(2XcSlN?lGofEDuWPXD*?VQ&>DyNTti
zD)88Xw9AB+@;IK-^|))ABmQYnz_gQ=^HJ0ztbOv}5P};EA{;x8$BLPpQ2jkY_UH@U
z6`%F<Tlv0PE08^o;NY}G<jc>`I@#miZuq-r(U$~JWk6Gw%N`wwpC_xWLt#f2q;T1Q
zK*1L<cTg%M>aAW~$m=eD`DLff0%gm>YjzNtE!Zc?qT-BN^-}S1eN>KJWg6gtxRMTB
z8le0o$rr^!s+Y8CQJC62D3he#=Ij9l%4Bh<><^^HvUd3$fG+o~8vI<;#QSJ+!0@B;
z>s%yvv|hUVZOa)?Me1-lxYg-{W%jTYDeB+%9j(A9$Us0|6N<-adLzI7#q*Y!ig5VD
z6F2TXJFZ0nO{K1o^g*nW1u2Iq>`Opd$->c{e6wP2JbCoH%5KZEOqZ*w;>An|3mAav
zYlIWGhyT4*^3$J6*JL+!M{7nu>YO=~JRT`MVcZbsTBNGmi}6g!4R5!_CzA@cyF}@v
z<dSQ4#=n-TZ^q2NJCz|1HVMF{^9Ik82hfn!*Cb%4(95bob@WhzGh}oEMn_q}EgaUp
zS#k>Bo$c*><E3x+c$sx&Qi$<VW4dW<lJpaJ)D(CVDb{fKmp{1GgM%R%{?N>l`3FM~
zt=eXXe^phxCex{&V(nWGO{RSK5Dfv_B9mb=YznFyT3DBJ-|MIV5g%Qr?f#ZgdfMw`
zZ0f1rUvW1|YXlO?&}sCxp+PjCbNibm<T9CY_%g-P9Gb5jc#`}Ezklr{Q0`mL@!jW#
zc`|9M=PiGXWD5oAUb!q!UvhJW2d;ZZj0$n9rK4y%(<s8lK_Zg20tYZqhG8^ObgZgg
zb#|1=&8Xh3RO6JTtI5ZuLe5>Q#akO{DxPMM$yck5457r*VwI_^Bf^da=uknE>|)!%
zo>%iu2H|wF^bq0A`qyOtSp;1y?bJ?ZKld2jDdcAK<P%pjy6Vae(UMy0?dt?xKpd6P
z!RScx4~JUdpE@!RqUQ}0%<>&kooAW+pe_I6v5|t#?bbBqC|dDfLq#*QKgc(HOY_lg
z4rW=UToTY-Zx@GdqTpPx^jXPasp$DqcIPh2^zVdJEZih&fbLqX8X8D@<%ZRPQvVzj
zTL#P%BDE)t;z3gP>JX&3W4c5@C)u4n1lT+)o115)hyr(vXE+samn<znS^<-pF!%wj
z3@pAf2irxBY6z1!nl`1a7#A<|TZ#CYRh^%uaD=O4>z>_IiYXS{4Nk=qt1y+egt)U*
zn(Ev$@GborjXy2R2JI7jC*1LGA-PfM1os0ZPrxbqH*7?n*BTaXYU;0Z%&U7-ORk_E
zBh&vZ`DC<j-uZt)nvASp<!pZaBuHKluwH<`Uj3%f%^`_qa!?{JMz1q{PfZtIyct#=
zLg|;@!l~O#B|8BC4|rtc%Tm-|<@$+DO7wbbu4U$aoZ8d%)CR;OXJuJB1GD`L-UQtr
zDjU!-d8W2^t@}rAzR~mc{H0WNCu7G7=)vE0h`&iPLd&KX#HMp{h;}I;eNR+SDFaeL
z5q{q}Q9Zn`49e8y8HOucmPqga=J4$gWxwqI%l*EZ*X;;iimR5;{>x-z*4fegMG3HR
z!dy8`GtRSs5*Za-ft$!#4=+KJcd}YA+wfvki`5&k#q7xG<=D`OKxq^&ct0#~w<ZlR
z`WXs}s4F~~<NfcvVgcGo=~4M2LiKMEj+2L?Nk;aqT&pA0F;<uALdm*vU(;W57J=pL
zq3;u_-b5@D94+feG5bcvK=HKII*lQb55l8BAVV1!QZ!?Xa*yIS@uJ5H&vwBHwq33?
zPIq{z@>(R*G}#YtP0zxvcaa(@t*NK5><KsUc6&6lgz4%5a*;Vy?>)_205OKK&%2?1
z<GeE7IRIyj<|~5?x*}P7hu^BF`q^}4T+<d<rv+S0#i%A7_6F`zKTk|ZusGx_aY(XN
z$!44v<$i?%NrBROp4()wB%*SK9EfbhoI+59d2;&%Q7PhZ*j2tNdb~;@_P;-HQZ=Y3
zuF`QNpo5e_=+QU3g?u*Wi#3ktbzCYv`JJ3w41V?#H209Z;3SKO(Sn^!FV4N}p%>2K
z=uxyk4@j7;fub4az6zXea2YiUfUBFsOGQh<KvXXsz#<4IY|hO<BVNXMrd0SU@W-;x
zCvvq2ub3C=a8_<-Q5er?|6E&mcvrR__Xm!_qSgW3X#<kV`QFP!BToW|=p!bw-pE&+
zRpIp(O_w<{hU#^3<W43!t-0sdyjxKq`RKbu4Jd-0@j?0Qcvty0^;FgiW;OC(%GoTy
z?L_f87P70|&@g#ehKknewVbN|qH69#E9pjh{hP?)UVoI?jkNzATqY9mvWx|xKNI+W
zZj7rF1Iuc?z#!R5q;voeWh<ireW~963?uM-%%2IB=#=y@NqvM&vAo`Ul;9c#j$9SO
zI6$GfX89N}Thx>9^R?Xw_B^>&E3G(!aUqG?8x`OUs4HP(yah!kwMISRzxqdgj%*9-
zWH$?SJ%~a*$mD)pNXh7;OVkG)PH4N+_gevua01nsO}T<)6z(OkzQNA|vEB2DUoUk!
zo^jPh@1+~|jlCe174fxDbfw2eru<8$f1B{1qRdq?V~e+}>~AWc#^_2z`)a>>eEvc~
zXeC9xfGZAQgsF^6DH+k)>Pr-;12`JB-oAdCZl)5{WU-*|$QghCgQy**S^AA+933If
zl7wuVcg7_%DEtyFmGgkOndaK}8z#7=)wwY^9~vYt%iS-P{A`jTFK=l<%0L;lfSgM*
zRdq|tVb(ZM%iSIMOAh_2$?;^=A^}^g09=dn#H1PBGDIE?J~F%Gbh2otr_g{%m-`Qh
zXzXDMu)@00{-xe1Be6<PvRjN<I*@}u*A0QFvv<JJS8_q#1GZB_iy<{Y1+thCnMf5f
z)Qtg$=LZ6;M=x&zJ`TA-<cq!dh-*3;(pp2kw4P_#my*n%$hoYqlqf!SX^xmD{wm@2
z2fIM3kqeEph+4@lA7`u1usUX@e9!V}&welcWI%aO>|f_oEgTccW}$j~RAGO8ryW$q
z3;|<Rw(-$xA04_ynVotuc{|=pP(Qnq>{sMbR_z_+`4c4ooXIfqj9}%E>!}HR890p9
zoIkiqY1I*q`;4On#RqGn^`6C+tu4Lh6oX>($dy`ASxFA_oSY0~!Mruxhl(NgEzbW2
z#(WqHS%#MKRJ~t(9o{yayv{YjA!y($Y%C!YD2<lpS_J6(;_&CC8VBxv0f=Oo*K!JQ
zlJ{e^Wc_O)l(09u_q{^2VpZxF@OYBH$1~4iAbHG*;P*^XGB6we5?)%w7;h&};(pD7
ztKEOL6o*>K?W6u%_)*e)#O&+!hvE^myZ7$jc&12>D;xRMv9I>k95(muA30!JuTZn3
z#q#O&fv4S`elg!oV`zn2Iz2lyR&ZFu^ILl$C?kqi<Tc2||A&+?!_b0c1>R`@4u0l$
z8dw}lnxtSC&&g5+Fgl39C|%8l8yI;V=?JY7yN|uY<Ir=^HYA){et(gtq--1!3Wp}{
zUpu9BP`Cu7R3oZ8*L$sE?L_V<^UqVSTVH8*s259s9JCgSe??E>oV8z}o}Lxc*RgU?
z<*v;2gksS9>2V>E5aw@um+7{JHY@o~#!SoH)9(e~;x4Hy=zOLH55CucSD|QC6Ue8W
zvlvP)Fz(Zt%WQ$MEp@g4l!(+N+1pn>;rhP|E_!uK_6|byvWB4ht;kT<YV4#@Rs-t8
zxLM`(x3x*&-m0=n`;B0UZ$fEbK6oRba(_kazz8@f?&vJ1puqqFWg}Fj#KOp@tq|9^
zpBq4ZF7rj<7;ZQ_MpGd7z)#opFAy}E%y<Sm)jBi^zDfUBs<`j0rcW_HMH)d|X|@uF
zKjFVp<EglfzW%T0XQO4+Qj2C-xtD9~mWrd}j3W<rn}5pXY=65Jjv{e|QXk>_1L<pV
z$w;5vF0<B5N@Nqg{^jBXJ$Q0mCj27)&?X2olLQ(zsk8v_ozoA+L~K6|yFtlU2?R?|
z!@CqOPp;CxCoOd4+t)1{k+p(%7DK@v>|aVz{^Jez0rPdiUz4q(U<LJ{1axajJfR1F
z{buCpUCg|Z*6gr);2luWo}2CiM-mE-(!NxoG;Z3%1q%S9c1{EYE{!e8>yL#edQnv3
zJv6f1Hj638XesI#%Fpz|B!ApW$7(K-T5KKW!UnCAZ^@U@L#-4qA4M_2R;{l}!4My;
zJU$3&i1?XF&_jfi?P~8#$vhtC&!_o%_V4-Ed+p3RIC7HTxIoEI4M)vZp6Io-)m7v<
zdMfoho}b3$)KMw_VnT%L_hb9t2W-A!h)z=q4bJLYHA}X@^HGBJ+x`AdbrG!IgL0GE
z7wtHypDMFCdG2}DoWCQxwY{^*ofq}fM#cc#?_AC_=SA23{%N^b&Sl67rIhVSEw&SI
znY*u;rbh<XoZl;B^7z_~MURFDwfdUsuk{ZQPCFoWSx4mdwlJltNjklAy1eUe6>s~J
zXv*ZJuaC-na3aI|Tc;rQyFCP7*YArA0W=|X?wp&HC+HL><Q>UB+iKp7E$=>B9wXPg
z#M{K;;k{YHMYmZbRoHrP`7WepUwrC0JO335I_N#tbc5#lq?^hhiYMwB1CIlpO~gr<
zW*_E=i<16*%-q*^F7D)0_BV|*<KVer(iN{%rG<*6(o9TQOBvqN5wjhw9k)u6{yDcD
zWkfLL5FBJFPDk~ShYt@c&gQpoHJ?r5=DNvmSDmX@{Q%2zWnVa7c+Z}5EyTovy0E>?
z)>y8-3Dd(8pZADp5@YnaqoZJ<5c+AQ4zBMBBwB~>UY<}Dfl|iV<NSj{$6i*kXAlLy
z#Xjv99W^PLFf;AF6q{)eWQzSk0}QHz$rtg@o<+pbfubK1v41&>k?oP4oQAFyF4>75
zf9t{CnVC|1_aEww*~U}UtyH5)2`#j9!VL<_PoI8{vd(w8K7H1|m25&)@4k;PL@{b0
zB1U{0SQI{tF^&h>1?}r}r}|~s7JyNckj&y*nNX-oJ@KfDQKuKai5<(sgZ4R#e-<XA
zx;G?iaJzP|!1WHpd5Eq(R>_Q-t)66OugR^Sg3Q6&W-h9{Oa!{rg<jrx{e&iX^IZR3
z^lMA_agEp1Lo*^PN->!RhS#3fj0M|UF;~O$Jh>C@HsPA_rCdL6D!G7~y1!SCK}rq^
zoMhkR$uPSHSSV#fW;hvQ&2(NXlf-o@fTvhh-22geA0EvB0}E%bpHnulVtl+YmF4&3
z12p6wO|}59>8G9RbO|h6`mAm1yZUk&QSjyQy&@-SM7~?gQVAe~kGru1silkKKngsr
zDnm<1XXeQfdT4fMwJP91>-IBNf4i!VVobWV=3O}q_QJ9Ht@d8;GQa!0W_HPTFhJb(
z_%LT!n|=NZm1eHgv)*i@@N=J;uh0W1`C@ll=jg^sZ0mr3;tAWNWIdIVk20CHi-<Ko
z6)g3t-ejPwH45BOT<o*?W!*GlyHp$v>K0@dD+wF;2sS<I^{&s^B3f~+`Psv7nMA(Y
zDy&3SmaLt4+fJD8L(#(7Qqj3SVEk<Fmu%WznN<!eX2_?t=7WCd!u|8>hzUNe8hSn|
zrU$)ng?R~Sz|(Q#?O3I&AYrP>Rm_wByC9OEBx{IEHA7b|XQKUo$+R?OxYqFH|8aEh
zD%^fTpQu{v^f;K9oa~Ia&~Yc*g7KOXFlu^>8yEuYyp$Uh7K?>76{H4JG5+d8$TXVS
z@8030j;xLO+yGdsMy2cA49iHkFOkBos?{77Z1(s(aWL@^p(YNNF;%uTeA;#G+odRq
zqnHq5a#knYQhR32uZcSO$gK2st%@Ie>rs-S!y-zrCqUp6+uu4v*k}6J^QYD18}?Iw
z5%oEyP%aPG?ABGJR}Rj8B%p<uUB~JDR<=EuU<+5%ZDlH55rA!-Sv*VD^e#iWRkpXA
z;QFNuo!F>6Rd-&;x~&SGqUu=F|8<RtRWI^P9>gdlZ6JVWuhp0Yo8v&hA3@V_h~xY+
z#)5puEz!p{-6?$9G$?O02Z{ugTK$86$1Fo9Bm;yi+Htl4s`r$l6D3VCC#Lj^U&)Ot
zrS%x7azL9`b*6nNQM)<wUJL?UmaOa{u}~Sy3}dy)+<YwgoPpr(eW6Arc+*(GEnG+s
zjOX=PkVX7zNn!8|p)rQz!+h#B!G8i?i>L0-qHEsQ5S<c5vfRuC$ni!}1je)7hU{hP
zHwZ?iA9$&6^HR*qE-33SZh3Yg;|Ko3eN3xMx##7Yz@&gnt3i+3GIZ+5;EZFyuX|W(
zyLFPD?^XJ006eCWex+fg%a<>yreFhpIjf=&4%NN;N?Mj_t(>`Q=1vB&sY)-2{a-34
zrWUR4HcKE%l<~7C66;J!Mc$DrUCO^<^$B(cNE={~HF*=&%hTBw4(;DR-z~`<p8j0e
zy;WljnILkN(><g0fKTHKZJ1C}TtD==a5tHCBH<%Q?^=NN)eP%Qej_=hQ+g|w!pA(a
zQc7*4`+2fKdzZD(Qq)nnja7vaLkx{qxrwjPZ|ac-t3z46kt^X^@l}*d8mGP4o^ju#
zMxWb6QQH@hzmzNZll=eB-kXOxl2v!20viuzz}N;ugE8)b9>7gQ?|bcQR^^_lOewYR
zdxWG2DMAs7kQAYP-*=^?RPL2oRayJiU0nqY-7E&oFg70JdEOVs3%0Qz9^2FJNL|^T
z4>C>T_vhn&-_5wGyPV%W=WcQ1-gC-9JMY2mhuoX1=}H&XpXZaF(&HDs6_#l$?Ti|U
zk+YRZvc2flmwn6aQD1uA-Xkg68q2Nv#H5F{qKp^`=ksLH2g)tsiha&T1ZLWa7$~1E
zPp?fRmtI6;Q?5*epOwKFyPk4q`SW={s2VV)6Rm_5Mfn-u%tgB~{`Jd6_RF|b5fREQ
zUbArXoUP%Ag)u7asq+>~T4O&ckIAtFV|^&0SxN>AzDP4|UCm(y9cg!C+FKUAH4{6>
z$DI?UeBA2r1t(6`B+J*&$C;|seS)pwqdhJ&qGvd7yB$$xB`KXEI9>K8HdMuN-Uz0>
z<S+G{&V)O29B&O-ZWai?eI%8n!twZcl&rxykm~VOIPT4;m;KAR$NfXe)7P7DU|btk
zRnNkN6~m*xDW8e=Qw=hT_~{H4Y>gtQe9Mt`wo`P0H+tON#dJ*8S-q0J5NVO|Hs?PS
zwZjFjP>95{x^OAZWURTeb7ZL@MxUw;C0aun-8pG!VJeFH)Yhnl_ZL+uEf_|fo3Dp3
zW(A?k%JlKb)4f0%)8?vDP2)(IwwWW-b1q*rq@j};g45_m&?s#_^KcLu0~=M5xLIEI
zXj{d)EUaPOq_xvQGq+M+ye&+QyKGj@M3hCPHWO&-;3YnhKb607D8zfFjCJ-F-A#((
zV7_3vCan0}iC`i7Y>g@?iQJJAUB#)*P$K6lBn~#gR-oSMl5+V=L!hjtC=Dg_`237-
z4hbgmW;wAOr`z$IUzeB#m7~1svpS^@5sRp$g}9n{G2|*&ECwleIXnW^tu$bvB-=7u
zv4D}n+A}j8PB&e6Vc#5gb;@p!oZ94EH9z4jYTShdrG^X-OBZ6(jet`xwC@|w$L5vl
z8mpEpTS)N*W$@Ypj`>T%s7FV$Zij(vQvpV^*iuDY>SoYtR+M$0h)#*vsPyEML0?5k
z855aCCVf0ZKYVcc<RwS0!c$Bsj{0>(kIpLjnK5s*mF6#HDox?_h^cT!J6(?jy*`Jx
z$*853Jh9mc6};EATW)&ORbat(nqgGWg>_W-nb-pX{k2$isV%qpKx07{Ognh?N9IDg
zM6_BeV)0F(I?G}e&8vDmp|#pUjp?w_Ma!F*XwxuTxfx%QIAoG2vJlpu(1FpxFe!AY
zhi20<LOA7WXamg)s@@1{30g3FA{R)*DIH{K$r?dq>He__-_(@5ZdlOVHF#HIGNKuE
zXX$kl7rJcscXeaIa4Oc+_-f?K#1b_hOHi4YV4bL}SQT^K#jw&WLMLJ?)>))9pJ@bL
zkE*EU=xukwmg81b&S|fwSu0vK(LBqQRDszAsxyC%>>5fAB%=0rQ(n)4KA3JD%{nh8
zI$!n~j#DlJ$AAt(7p)-(v7&AFX5?TieR9r}^}@LZ<BMqS%6N{}8dBkS(1D(!&rf2q
zV8j`#ELp8!xh*b>F!pLb4@aNQFL`9}vKIAKSidrzSK8xlKGbuwHcI5{WX!S3NT?P{
zfw?8xx?FPc`rN^}MLMmQK8QTAFlS2_%1GLH!6%~EW-CF@B=4ZhnH1Pj@$hY9(_$ig
z;eZn<hUR=x(ahzAjJ%l$!sf7S@rWjo(=NK}Dd|{jELJ7E?#1uUTM~Jb%e|}^A%bou
zurX;TLRPco_<7^T7KTq8A$)NwXp)<K)%rO)`$|v9L|_qnraQVIqFp7g#ax~hS{dFg
z3$NvR9wA95;e@287`Dn2xOY_NbT1cGcReWBRwrjE!er#4i>Edt%$X9G@o5~MGj^19
z&Ck}Op#bKOv6E_R+`w-{YBR}XT&~m+m)Hv&<(<N9p0jK|U~_E7YKTOdwo38&l5E0e
zn7QHX@G9r^^n%W89bO(zb1mv_qIxwMe#udoO$21{@d!)-9oM8I4WlDiWMMlYh3Hl_
z!w6gTA4PPYKq(l2NmUb1xW@3ZX<F}pY`p<GLL_3_%ZVsVX6s(&*y(hbwLBZ!cbHO5
z#HxIF!FRmv)0tLVIS(D5mND|hxIOGK>qGevpXlhUjp^0GR}(K&BxaZ~W@QH9RsS=c
z#>DhOM0O(T#2I#SK6Wfwc8w|${MaL@IlmFN>SJx9GH&!!xDOO;9Q#sO8H&hVD#o3Q
zV|C8!rTMcJgo_y1oHS@~#3SiQWJL&{1_)tTu5anNJ6^^g?k13!-()O1xri-}8=5N#
zJR#MRGQzvUE_E57V|k|GF<{HcF#2Ss5e=Xi&A<m*8n)0rpPDftN5h(=Tj<tnlC=Q6
zzR#hm6xhcr9zy5}l`&RG-BqVU@$yBggz?H$dSfD%7B^J!(;-{ZFudx+azte&>}QB8
zGlke?Cz?%D-A057Hd^`Y7csDIjJu4v$t)OXXNOE`JFB9YO0rn=o~*+m(NXD)cGYma
zN}e*>Z=uc<TEg3LxEev}=#%34aBJOS^l`D{1+|+Fr_$lZ#j>=F^;{AoYK_Ht!g4<1
z%CId_m9*i`#Zo<sX>1Wswy!*;7%erAr&T0@@Y(<xa5eal->%ED74BN7>ujq6(pgW5
zfxf!{)+jI;U4xS|ijZUMdR}qT7U<;*`B!EO4u8*^$z+2$ttuw9q*iKqZ}(Bfl+jXC
zvnp4}N6M3qurE281QmCoT<&=@m3-dSG7=Q03Qjut7b24^>@(QG!19CxbR(G7+A}^h
z)^>2$^Y$CnB^O@Ro|>}NEye@_N09Q`k!a6%-Dah~q-$rR`c~SGr7Rn_Z(gx^_?*d1
ztB{v$^Fb^Uo1AkeO!zz+M4r1Sy+CrFOeSX)M;6XE3XRJvFdi3|a`KvkI=*PPpgq3q
zp=&uf;t+RXhOY&WEhVtn)%l8sJX;VZkK$)I*|G(1jkt_Sh0!h_UP)$2;t+x6B4ggm
zc6*zv%%G>EZtbW?8CAJ{BcY5fU$ZG_ea;g-K_w9;HdPK^sO?Xj4B;%#W#$buSJHP|
zHY`-VEap>QDuxu{v}jCNogbwchc{-9TvNp?+N53&TV)zxk6#XY|1^?tBsin7I^AWZ
zyct)J5=4quG?fE-<|T_})+<kGO*TSmZrXyDJexuT@!!#_;-cjv=i&!Ep{y;HXIm2<
zsxCS4e8%x0i_(E!uj*8mhJ*EN%zj;Z4)-Rz;Y@H9vyYLk#w&UsMveJQE>`WB2&C27
z27IBBnDgP^oO2U+G)gi{h%QOCniI2!PHpMYnV35=QJ?o~$V__G?W=-*WVb~$XGU&!
zGdCUIG`dZN@&Uv%nXYMMA)0$W(QLPT6t?CDYssdBX@#q#uuV)CWEw1-6v6Uxo}ts{
zvjO8!*%m@i9!FCLLpEJiyJjn5d;wj@QtfEd&6V)-SBk~_go93*Wywz#hpH}{+!b%x
z(ss#e>#8Drfz3@+ZRxzoBqY=q+j)u@N?&M4-1PP2NK`08sA6%^He<RlNkx_HsfgUZ
zl%8<N4U|Zw3np#L4%>?&%laCLxuvE<sb+Wbp|dHX;#&E1+#5@ZQqt~C2f^X)oabi2
zzoyC2A@9{RgC(s7<rGn~C(Y$kS$?Js7pd$T8bPKQqUu?E+JQ4nk|RA}zu4?|RKVQb
z@_~RVT*0mJ1;cWV$ocXmq0<{NX6ei8Cb2pcRUX$^aEHrLI^`|%)U?>_9j6OV7bP1p
zrLw|QHp%fw_PJ*I<nT=z)m-w0Y*x@-jj)#%E?VcwDX>$p;-Adsf_87hv2aOeGKXC#
zD2wZi>CEdy$(1sqVA8BL3)eD-4}2+vO_9-z<=h2-INB98Z)xJ=T%^k}ZjL?Y>oMZ<
z6^p50ZXjh}I3c{IWV7mElp*Q|on=WJp9H(a^BJ{0-6o6`n-7KW1qzjjN5ls%d$T1p
zq^$<wQj0a4*-uhPMvA9aMx1$AOsMPBF)o>5&yROOxfNL$MX`EZKFLS$I#10is$gGW
zAp)<^aN9ey7GAxvG3)XidGR4_%1_^D)~ynM)`$ga8zGY~)2cdRh6BQD+`M+NyR~#}
zdBQ*$95;A<$@s$Tgvdg#JrPtX?KAXTJPQVn%t{xbjfJF?bi->J&zDL?OXPRhkh_=q
zZy{r-d1s@Mlbs<e*e0KHfSz>v^U+kOsA1>rjx)L2PK5LvaV2{yEjCkUiNcYnEmpR>
z%=y&8mx@bGCB77tMqn|Kvih_ht6DPwm)6^%Hl_A+xgbO78<yi`wxQbcIK;ex4Abz1
z+hN50WuNbo+D{w81)4izsnx4K$J(W43e?bL3UC?Hf_i5T8q2XQ+nlGoFxoJUr}g#b
zIn_DTn-;Imz{fabA$d&ILN*a|XgR)_29>9p6tAp#W4TZP5!GRVjRy%op`2q)N#ry;
zhF}veve2DDUqKy2t~(t_YAchhCmQDrFTU!c4yk?ViMb6?Tr-QO(it#2`H~uQr03jT
zzjaRQnU^<o%aQaQ=PJ)ls7hR;?6Bi8rJZ!qsxU>=?VDR!t*um`d6_2WV3DHYf?d7@
zcAo3#i|6j7aU&c?#zJWHBpgqd*Gw5)Wwe2Q^A1vm{lG>j;p&+U2FZfQ;iH@8de*G7
zH(@tC+GFcpuJ_qIb?vEBV1}y~?HQb_4y@ELxL6@0inNyvk?^<nJyQt7N7UeglDzF#
zxU{G}o%F0fbcB}K*Po!PDQhG)?ua}`M~|ek`bQE8#_X@4N_ViV#;4)3fD|h#qk%wE
zr0u#jnnIXFCY`OeM^+#t<!ENn9=Qst@G|>@aOJ+<7+yF#na4#HwKM@{p-KC#pbXdb
zI$j?oELVyWJ!P58mq53)j!GBP>IIt$iIxi~I8R2D8!kuOP)EUrAYQH}=cEeGg!mhz
zIjEAmqr*n(bi?isTFF^Oh?Q=|oD0Qfkabo@-T7GQk+hC#u(CRZh6@>gqC7h4jLJP_
zPlU%JN*khar-Foo4O$%YBSDuw4<}ToEB*+@`P1&@aJ<1sJwzDmvTAXd80}=04rOgZ
zUz=A(b@Js@ARQdO<Tc?bjf1MLOY6(m0^vDj)8efJ<u>|ycfpPO$R%x*m}85e@z55}
z5IUViQf+GpJ5QB1EHgOVN^sot7~zfni5KH^N+0CseA$@98?iICxfh}<o;r7#S!PX0
z5)LYX!OOO6S&s+P=w#uQ#OVhO_8`LRF~cTyCjEjm%bGf(#W-p8YLk_g^JI5k#V&$*
zS-5SaHleVix1J>NRi{YzWLjTLh>kB~iIw~lbLJS_+~K-jq|Tb=#az>$)olelYKE>-
zRvcB9%l<Kw)8{5u?OYuv8GZBmRzmBtNorKW=v#jjzv!EDEgYXVPA#TtUMt2YDmg>E
zDU_$A7xBn&D^y%UG*m5Nj>VRjSeJ%ZI<O1-r@oOe_q;=;hHh~J4O+aUlUt3$Z53HC
zpL)hbdQhS4x)Z)7N2wE7w2b*y%p28)b3|uo797^qr0`_jolDMfMfDjfvoOcSqP#NT
zPEN_s;B>fVa5NJ6Ejni9&DDvXESZ$jU^2qV%o0L{->JY*T;X7-OweWoJA*F?6MDNP
zZB>BMAnF-a!{^uLv}q)tjO4wW3e`eBbA=fb!|rp!rqdXe&y25c9<sOFad)LMW0F2<
zOepLgUts8?&b3I*1zYfeS&#GjeA3@46A?138#lt0RB|guAF<AfTiz5UHBM!P`RF2H
zw}zeYdaAW}ll=JQAnY`Cvr}-ZzU@-@XRF*Y!EJ;^@+fL_IguO{Bj(Pt=GZWrCh`g`
zpVo3VkGJU^>tS(vF5#Lk-jMlwi(G4dBb+!~bR25qi*7r{<~dElI5|=^mPo>V(WE-(
z7_Fd*3xrv@>{lvQ{K&#W5H1$#R)fS)F5jU2i<Oj}bjPiD6&X5(VYJ^n@2pQENGZy(
zs7T?3ZIzKyBSr1wTkV+jj2Dg7oy3t!;WjBG?4)xG4F^Q|m*5Jqwi3ExibN8zG{s$8
zh*r+S1z4vBb6WFZ>f-no?kM@Z8Mo4q$H4+XjI#S3%=z);mBNL#w@HlSa@UdgglmXY
zBLtg-efOl&QAgbDwb~iZA_enIPIq89VDz4A2(9K=F!GySXFOpbM_;;;Y1M8VBc|m6
z++AsEY)n{rF>2OXgNe$xqZhNK6;o3Qbd)6}<qF*4`J!AFjjp>!&!ZL*5%jAXnvRYR
z#ccEY<7QM6P01umUMdxau^ZIFlpDUUUw6HToVqkRv{+D5&Qx0e<ywM+&tv#X=v)T3
z&dv|%(!#q%u<NI`EoA)BP^=Ykp(idr?GqKeSXjvBl3!5HdYu)i#7j(cO<@Bg3WVLv
zNRKGUGxkVFU9JYiBOGFOT1``qrmmL1;+;dCHbuJQJ?G?7pF|d7wo51CbxSd5iiRyb
ztxp#HFW`}A%5~jMNGerTaM@CMBvwde!bXK3ld)B5?g&#;5MjH>Q}!G3S|qRa_dKu6
z(glwp;_>F{W2)9<TU7B+7M;%LI5|pJ=Lr)!agC>z6khqsw9A3m>I_^wm*<VmlL}ay
z9`fg}sK=9(Qy8i*im3R?i@Zg~M&m|M7UyH(Snna1UYs|zZ4|B8L`Mm)kxC({#KM&k
zg*(ZJRRw*MKg9CK3|BHz<O@dwe$usyisKnLL2Vae-<;p-wVXyZd~=$C6H`Wc2w!&?
zX3T!jOh&rbW8yArsa66W#yV>AYh14Q(_{e;ZR8|k?m?$mN7h98q}1!JniXKK+h2kf
z*Cpib$O)A4)#jWA)N;9Kw>%4`sZIXa8Ki5`;<@pS1J(Ei(sadHj(GE?A|(wzb35)Z
zIQjNwtGHPer%~f6uu*c6#YSprS$H~iTxvt;mXZ7VcnY<;>!1Kx)`n}dzDN)Qqr=@e
zp1Lg;g9+plaT#c2bO{?~HO+|C8MRV8D>lR<pRNk0Ze{qyesTqDnYaIW-j?=Hx#9Rt
zY{=?>1xVKcRz#NcS|8~viPbr7v+Sl_4ku1T9azMl2<K0DdA~k2Qbmq6L{*;m$Mfse
z^|4qw-L?h2F;#V_YR#F#vC$N-uIb_X`08UB)KkZ;!}+O@eQJJE<)UXox{MDtThQZ&
z<c+Y)YKtjlgjBs46?V|Do#OJtc9bF<5~OU}tbR#HoQciLiD;mCDOD0N0srX(krMC9
z7VN%&#GO^sSsYDpcQe*CZ8jw0jrvfaAmN5?-#Vqv+B~AKco>!OEEzA?laI%Hvq`$e
zZCK)%t%);RB%FmhXc!mPvtZpCE$mZgW*j%mT9)>y5@@Oz%B8ZQ@Pw6{U`X=p3#Rsh
z+Fzf&Ty(>g3Z#<c9XbqdZd$39ksVqtS+q_&=k~<cad84Kn^kMQP_`8C)%U~Ft&pAW
zf)*h#iOH<EXm7+D@KH59gk?@wF$&J?T<Qc{N~^&!@yw)V-rhCE5?Ng=TMgA{mwb`v
znX6a0)E3gE0ypfsh{oqt#I+LAlRP^WHnf}^TvrSX5rOeQk{(Nm<KCw<pk>X~s<e>A
zJ`Oj|HPr5qJA@PxtF%n-iALF2*H?78>1=Z7f-#yd`><K5NOLq+@s3jQ<Hte0co{}|
za_nJF=#7V_Pc%IR*<6Z?%oZz)F^@A#%YFLjc<Krk?)i(v2H5*%%*M2Z&J^OIl&vsD
zElBZXqv_T<EzL`l5<{@1J#@D0_IahT>ZteOvj(rr()EE^jiU|Nk*LsAUay)Tr^rMx
z=^HB7Sp7+HO}~M;qmp8T6{eDPB{DYLURQWP3qo#+6pK@Su-JF55?FE^R3+gCS!%pk
zc)(?tZ%__<u<Y}6B{3b(wfxH3OJ+x%NwWcm&XZzHaZovyJyTfG_}oLS*hxwW8o`!q
zK2BYM4;zkPB;j<9b<#yEC<erY3tEmKf}zEnmrc|cSWsN;h8<eCKFkHN*dwJW&y+i$
zX&>@P+-X)`lGGLh2c~u5t5vOiPE;YU8@k7unAnpb`!^74VYE~1u(Q|TI0-+xIcN3=
zMa>n<mSr(+4tYvx#^~1+3W0{2G={o}^TCY__uHr^T?_<`wz}txlRxg{;ZC@Vi4$<w
z%X~r^-d}TO#+`LJ?+tLE83ogy(%R14F@t@cV|=EgI7xUN#Uz$paHMC@xgyda+7buY
z6>FGV>sB-gJFoi0S2{_DF>&g&FHf%*G)~gNpJq~=>P(yvCJi#7Xf8q-%M20eSuM*B
z_Jr5N+ZahBcrMmiF8jwpmnI(McqM|ud7k{2D{v>5&9u^-ea3BTg;kWKU5uD%8LS{R
z%Oaca`sx?qY^tX0vP+$s+A`d=%UYk~Y@q%tk>j19rnRhaQI@mCGT3)BpE@ynbYU`+
zv4?d*{mHg|%7LjfWIC59IKq_NC2m<@N$aWyr!<KcJt?A{-guc>oYQhFTnO<uv-v4!
zy%=w%T2*N`vmWV0D8l2Fr)wb|^jv3C#F1M}-N#?^l{}~1E+(p}+w58jR5M5Jm`hE{
zIkj$<rl!SZ(TlO(nTn5s+v)aN%R%Dk%~YA2PFK6J1X5_OmJG$HW7xRdYdHC^M{S8S
z<}xqc?_I=wX=V9}0<p^0u~$5s{BPn*0n2$^1(A+K#}Cm4j*JFRiymCkG0Y2&i{a}d
z+F(}PnefH8QW1BMGc~1LwNaqb1v_DDr_{#-usEWMWxZaQv<6Kv#C$B!tlDfccRknf
zhP(KZVbkZ+g+l%!9Z?)}i=AJs!<h+70M6mrt2yIR{Do2?T6EKXZBq`bP}YCbtP^dX
z)i=zGMpNiZmkz_pVApisfto^-(UmJI9c%&VOgeTfefWTNeP+xla;YvVNS`HVsIN~J
zeE5|$eaf`rSZ^TJqteRK^9_4&w1@eU?&e*4w;fCCb@OIr9i8x;KBsdYQk3p58B?8l
zo4~QqK3_e?Wwm3rz_8}UCn^+}<ceAISNT-=iZT}rMLlfK>rUGIW;i6&SgMO%eA($X
z$jf$_>S8lApPP?a;B%8bQL)w5K@AH!<dyl03wlSImT;Iih$*6Ht@gTiaY~o=AcQIx
zGrBN&7L?yeUDIS~qVN)Yfv`&DcvaminUh-Drw^3SEwom2o)m?g-mJ|X*Sc-k0k4G%
zGq2*yc+@_r!l#0fd3#ATGK-p>@U>)Ng;d*Nf7RD?d-A?o&Us3Md1Ha$xTTZQVm(L4
z!^4RVot$+RK*K|N1umKwv%E}tg2b4V%(pmuyljtHIbBD6I(!B_Y+@to5x3e_v&ucu
zWF{G&Cq^X{vmZ?m7FT9wSfsH~LpCgHamS$JOnXls<`Xe6u5l`DntL*iQj_6ZqG@V$
zF{Ww?B{G>VTCm{8lWB{wgSg$CJHR*fs&kf7w~U|l5R>7waeXP~_pIv2JI-`&b@mz`
zLwaZ9)|b{6i<ZyffkUab*l$Xp>Wjt~+iKgEhgmmaCgqZqk(x&{!SO_`sjbkJN@OHY
zdP#StrVRR#2c0$^w&c5ym820uV+&VWRNU*KEG_w^Mrh-ZbUKqc$foUfCep?NVl=8f
z=8vPHb#9b%snL{6$s!Z>b(7O`d>#=G2Vxc#Z;M9cR(FFVH(M=UQmeRPYkFrOeZdz@
zbtlJjkwQ1%lBEw-8*;IaM_59<R@WV8X2TOqP)D0%s)t-s1!eB({N!QcJZ;I$DqZEG
zQ!#m9$*r=1>P8+8Y4l(Q5J%$iCw+FxaXyHV$$B=4xz1EZLyko6mP`C{rO|Wppnax{
zDBFI!W2IrUa}8!nJJ-O;a$r7??tRR|1!j}a+N|vr=cVx}B<+_5C3M&D6c|)?9}5%M
z*A3D0@k%d*xcvECT8ke5{`dTe(8_tx6nQXP%M6D+Wc1T!cKo^e*u+x#IM4K|Bx$ec
zyyFSQdUdGh8OQWsE6j5xTr|yBqBcK5p6q@DV{I9<5npo!t=02(<!Pr~-%c+#OPTRb
z0I?s>S7xIcG+Va8X30KlDCJ#&n{O~Sr=1AFt0f&($9%@|oOSVXFo+}dl)G&;mc230
zd?|lhe-W0QJgBuAd47pCavSsUs51g~h<&V4(q>(Sj*9Tgnt@_sy$}?d>aF0@88gAh
z$wa#tC{PO1LZ&1uS2Ji@<XWsG<4XV8keKo$oDM!}SHlTCWp6bcWAqx$`V&Wq?APSp
z6tClnr6BKfFUu9|ff>HwqT}j$tu-5t%%+2cYTQl`ip#a&a+nA0JL%D;@qDo0apfv>
z5iG*0qAgK+xHtZp?5JV#R#44q97%P8n|JxNE!4^`#du#T3r6I}(<i<Dq>@C3484g2
z%bNq^qzh@gISsby=FbMo+>$>(VIXB>?<yMz)|)-`6)%-X5id!NP%8DBB5UI7Q>Tsg
zbi$p+T`O&WW8RgN)=Eapq8IMQmA^GhIu0=r11NKh^YL?$D7{~nz^0~sJ$Jq4-oPl^
z^(x8~JaAILPkNOLHg9sR>d7<wB`Y(`us*o##BI(^$Nd>eI?Xnu7yL2`Hlp<*inb8m
z&9B9BaazU=H_UlZX0w(oKhX#_g#J*`)eMHw21B~DBNZ#=?YS2GE;mmvOT)4#Vbt<I
zda?rF7~%H!Wa)Ccwnmfei!v4N%Z0Mf<47(bl85BBHAk$;pQhzkTbU(cifOG1VLC->
zy2#|Z%<nhGoRxXfspf}6=c66>TJ^5G>q=Fo%xkn$F|3NLNKRSmI8Sqj^>E?Knyxyp
zKi|aF*HiP+B;}|KjRZD47i~pVOSMRaoap(m`s}LJpd+J{#~b2HPEN+78}!wjN4ZcM
zcW`IP%DOP+ePz`@X~BFc^^&BMuP+3%s;e?iaml_G;NzB+ZnQa4W9W*A)g&CBiqta8
zYq^xEeerC{$tR~}#BHay<y)De4v`jFwWjc|r+LY<$<QPgfs@(K;ww|Z3aDYz%tcqn
z67?!xCzC02xSkQ2bhxEsCxo-`nOQwm_0LE^%ZUxw>ziy%Jmq04CNNb!cha7HpvvWq
zj<Bmy>eLdckPvfYE19`-c1BLEMiaajRGr}eb=GzGWYNNIOk0IYDT83zn}%lCao|8~
z66ZU$5^X?{K<#dndlA)lR0%d*YnL|(tHWB|^fmDW+&dS>!Nhqp?kr*XSTdSZWVy(Q
zeW`4p?0VwKs4F{f(X^s&GrzU&liCiUH=eQ>;ZEv|i^7#Mu2IyORuZO@a&OWJavrZJ
zQVIP8vSsNQJXBI6zT*ffQf$%~=qOSgifS`UV79<ArtpW=4(G*K4~}8#k4}tMsFE)s
zyfkZ@O|1HFOENIrZxM~a@S-_>qQ!KpjCZ8w)Oo{edDoC7FQ>r75bk!n(jy)uPJd?Q
z;v#nOXvm3kmV&q$Qe2X1!$(Y$EN(2#yQS&wxJ9A2RjL7}JcGz5kb*wBRNTsOX81%B
zki|>>Rk+xyrUTb(laUx-ZLvL0Vn4AM%?3OvIJtn2JC~=z8Hx)~O40fB-3DwCzmWcX
zbG29SCuGs24@`tbUDhaE!d?f9yuJ)ZUVdsdPf)(O@fJeXWmOs-Po<A^Bk5AHoqyg>
zMfWig&tggK>d?Urde$TA&6u<yt225wJbd1ks2fej3#m?TF{d|=S|%gnM?BKxnkn45
zVC7_qMTJQ<J$I6KcCse7Qz#P(skK;BQaDraoSaC~7m2gk$Vj>rEC*7Jjtn!-STSu^
z?zfLQRGxWPb>XQXSEYmjlm-2p$$7aW>Fek+E|Z2bMrZx2smUxA^E1+r`HA_3ntjuo
zPMC$2RH}i6%$Luxrn%2cNw9d3uqSSZ!q8+pp{Oc0PuZ4R_7<UQGI72^BpNs7;BvEU
z#=IdztEZONFMW=KRYC|<Q|KnLo(hiOamVBpciOs8!Xk40^!mm1!0|4oF^0>2hE92N
zp3vBmA%reEX{PHi5JZ@Ax^XTacE=HMLbFns$Bx_#r4IWi=cr({16OLi8v6|INUPb)
zw$P;qFEi~Jxioj2EN*&biMDrYuF{Ac9S4=1>VzebR1l=Olu~FN=0a9Zw(HNiF-=5w
z3LTv}JynW5al_)Mkk@K%ho6j;CGNa_IxunGpSBX5cdb@CS~^)%cS{;4p4xO}_>^vi
z7;6_o`P95qAE*?-ZcQ3dubZ?zb+|?-I3XT@ZVGw?Hhk=HjPGv}6Xwx@|h^#y!B
zg1e`6SPMSis5!eg|0PA1D5sD)t?!&NkhM(kLc18pG^giNZZG}(3*~xF?u-(NPWIAq
zaTbNIesT%fiw@i1oUJyV&L3rp7$Od^VYcfFwldekblJGCv#y6aQ^5dcPa9-qtc8bT
z1fOS&29qHw2^mwlv}jS)JaeSLG?mD)#f7p<%i4Siv{EPiL!q4a=B8WfmL|*gBLz_8
zpuop`7S@VbEMeP5a~<?Qo$KLprzuKI*p1F!{M#(?%9(tq4ki?y0}J4)#p$XoNQaBr
zx;7rF1;WY6NN#2W!{YLwEh=B<ncPU-6pw!e<E)C)TUxbMM`wMAVj1P}k+TcZh#9T5
z$ya@BeC3-5F~1jy;tNz<M0tF@q}>rz1m=UmY-cWVtEB#dldMTJy0B)Z23rVCLg8QJ
zXF)?y4RqGfM=eCsmU7LQC0TDY!ruI7OyhSZbZ{5-+kWh5)Xb*lrju-P$U-IEXd))I
z@V1U|k#`po#}8?u1}_@UUbN=7$_2}2$Q$Se;eG_mR43hYWVjl$m#cF$a=Og8LiS8q
zgyFWx(J2~thXYGRRbFLwBg&@No~SM;SsQDx&=#4ZaW3MG+azM66BVkNCNvW`s*thK
zc^l$jBHnpc9rVCPt4}xEx)DZn^>93=S@34631iYP+wvkFbt%@%&}T9eEtO5>3sG6N
zj4+c#Esj&8oAwH~>PC#YXlvGa${47+F?<-VXXi3GMjwiAXqjXU^{7Oa@)|czxNOG=
zlEls5>|Thw5*;{48?`j&9yO%kR+`z6Z47gcu%qNC!VLrLL33}pY~Lgjm&ht*lhQ#;
z%4k_wrLWxqRdc2E0h3qaD;MV&unAa^r|T{}sDz8;$yugaIw($7IgK{dT$!u+SIWkQ
zK59QJPgIQVP>B(TV4q|;Y%<1D&%}LW8>_@ks?k-780j3PnjXS<LWmr(MjIXCYnGL&
zgG*)1lZj3=V_Ixge~U-amZ4`Ey&Xnlpuoj9CbO4XmTZlN>(jn^cpYrhJLe)fR=%>X
zb)@vw1gSnsy4`Slv0ctc7kU3QSqsrk7?u;~tqA4T7Gbz-#afK+Gb5jK$R<?&A{bt9
z<xasdeoNbEa|B|=F6|+t604_XJD-lOMqC%8?e#)Q`^2n1D}z>QsVZ{gbyx0EUELZ{
z=KR*H*UdrWW1z^lbGa2B3E8U#Ivy%v^fYqCjMtuXM*Y_&<sEs(Jz1MNX{mJFnyRvE
z&js}QQnKhU&*im6giWc&MvgHp6waxhr96R2s|A^tQOhy7slbJnTRE-yxVa&cdN=qY
zHeASX4UfK-z!|f}RG(D1QnK8_7;d1?)mxNT$j)^Q*3vNMM)P`fnXG6yI_FxCZiY$a
zMYSDg3;vT5_+A#m5-m^GL%;x2oLoAHFqoTkj#8Eci*}-;{@A4%i(L~-4Yg-#T~`qS
zqmWp-P%n;I7=NwM(7N?pF=`6i$8330<F-loeYP!Yrf4V_&1r>I=nfKYm_E}H1p?>t
zr$*z;8r7-ht5)5nhrrcv7vz8|<6SWhPsU9T!@;Evm!juWRs=g*>v3iZZYYL~S7w7m
z&>Z(rx4yd0ob{tKU=(?oRv8%76yY#!XUNT%*65zLRE#w-%4h4v=Dlz`z+b5ZO1eq2
zGfmHM#;eix^spsQ<PLX83zxEo^TsIx_c75ZZsr4Up25MMOwHpnqbKV0QtD7Jmo?Nn
z)=ro^En%t&1-_xTp}b)_x`=UCljRpQasKw23D5EFl;w)z9DX==ezD*sXxUxYLco`M
zew4BLE8*oZ5(`zDuDQw-b^S=(r<d9Z#^Cj%6<Ohh=^lXu330RHBAUgz@oLN;Hs><g
z!?Q?XYmTZj*m<Ji%M)yNLu`v$Jl8dNm_^eO1JeFlUiIaeE-gz29~~=9uQ%XSmEQR<
zA$A!@P%9biRWp_HNz5lQ@=~9VYD61W^-Lla^T7>UM3~RtYUEpi#UQGdo(z+%l)LDX
z70)+`1ufiN)h1pXwXmYB-Id3ffI2Q8#pKI|bLaKcQp$P_4>8W-lb3=QW)_v8SI!qG
z`R-PD&ahQ!#7mYMiH$xtYnoe2y9!GVkE5XopZVsB;-VyJjOi7<W<7{p%3IQn9LFZv
zs!!sH5#cTG4Canc?dRrGZO?q;hP&hm8?#T^trCxt@l;L(-J@2%y5H=$Rd4&eRJ$p;
zlvn@W37=R|<vpFA&QWh7>DindZS@SEaDku4L{g`T9o9^^U!aE->+xkUXzit)$Kz2%
zO^%jq+{NU}b}ErIdR9pyQ8qD2Bvp7S=?Z1X9ceq9dWnr+v2?NPQ)idf{n1M+vQ>*Z
z83#R8)8=IoPAZedz*>GOcGP8NjVG1ZH<~%mty(61p~Z}?YArciRT+!8XW_twl}$0{
zRifqYlRl67bW6gFNzw_$F|P-dQ!7VU*XnpJIZV!F7s@@hW*$3v4MseQNV{l9h>oAF
z(c$2$1}c@|yj#X_-5kz6Yk+I5bBz90&8`~}yWvs+f$03Pm~qjntgyEq)9MjpU|(lt
zXu&j<2rY-guI6XbXl&SBi_3;8Yt&`Rt8)w^=~ABH7A>bwg?+Ou&PqY0wM#B<8+>_C
zJCz7ZFeZoVs=6tHWLjX(IGsKdFolv?TSBk!8)E*b8|@GoIJ9EYUp6_Avg`7cBkffp
zOsbH*+s)g~nz_p2@CGYKavx?CshhP^paKB2w7Ej#+Eq!fPEZ=P85D2W&FxYOc|oZg
zj_j|np(^a*qxe~aY=g`DBhG@E^6&*()rw5WG*JRM*z>?CFHr4fErq*Hv(0=eJ6<%(
zu)4(;$Ht$9gS)vRs4A3A9zY^4Z;~QC%B-f?Iq+Nr4c+ihM`GSBXJMtdf=1C3mJNlY
zG;DZIF&`iTW|NJy+x5QE=|XPOM|e##O~S2fi{m3?b;(*zDRjv>rbl(^mipLw8LwjY
zuLM&0@z02i;YISasuTGge<E8gQ2|53Vav1C=ir>Ys`-KgVM4C4On|srZ7n-!{${j9
znLj>}?nM!<hI(DgLu6p7v_+L#^QN-}bpH6XGkc}lJK3?!7N*RogPQ$fT2%*&JCwJP
zs;!+h<Nl~g6Y$a`6{G@52RD~;`sHG5WwNbtmKF|%Z{g1CbkKHr*4VKYac|D>8>fBi
zh6rVQG4gV(XvK&k6A9S9E{((S4~ua@H|6sf<8Fpk&qvBp>wI|4=y&m?6m-!bW$bJ)
zsP<IW;;Hf3h`*D~ykK>#&o6SNa6Opw-@uT|Gobt!bPDK_nOVA-F>;8}=Jw#kOla<G
zPuz$k6Ldf#nj=F@)-q!WkK&R^MnwwQOPtcUu)s$^t(j!DT22maEaxvSQ*&}d<psBv
zYG~!G_Pm?CtdK3vA!+x5Dsuiv`drACw}%VWXo?cMykNx>l!%QdUJ~MSf$-{LB?psI
zUDv^#J+Rdk*F~>Kj{9_@8H<6ngbFw(!GcoUJA(Q$1l=qV*|j*_$J7?{C2~KWm1sP^
zdY14<vT=gRh}?G2H^kHBtSw8#;62VvGGOVVy%{Simnx@Y-O0do(HO(=W2ebtwa)t*
zlqi0#hi)->6Y7~eXE@+Dy_B&9;;4~0Rk(`kG&CGw@~nAGcv7S$j$4uoUhkLI7@EC&
z^Oi^=4Z!)f>98j!IRj<Q>1ALy(Xu{L4xu8j_=J$@aYj1r*E(Y6Tj~tGFMF#|$lJ}B
zE_3yY!tjCPuf6uO0&wr@|M{u=DF=SafuC~VryTex2Y$+dpK{=*9Qgke2R=4_Z!P!^
zfj~d>gllm>xA^HPG|)6AG*_NUsgff%u2#T?u<6|hTvw)!l*n%D^kedM?f<wIIWaV>
zUvCU8AUKW_3;y2OuQHtj*eD;FVh?y<L{y6LYj?3VuO@gXGi-F09cy*(N-Yw-;H*5o
zB>7{t_K-2M?>chH(Rk5PbQi;5Ovm!I8K?G$+>G15XuVLTi=!*%naqT9*b}Kvcu1@$
zPP!F=_Q7-7*%i+_nT|RC>b&T}lVYP)d5YAUwpJhiS~n;JH4PRtWH=kW@nrCG<C~^Y
zcy-u6L^(_E5v{DvW``fO*yb|(wP#zQQ7m^mlX;8}lq$<?v5QNPPt{TWR7yRzn2t|M
zFCUonZavD^kLJ#W8z&t)ebV+4db_%;KtEZH^lmJ0Uo#dQnVXZdzr{>j*jiu)EI=I-
zpTln6AdZj+>_uY(`!qLy+qXIqZm5Eqi7U%dYMpoF4vj7a;#X8-mog4!p%SF*dI#%y
z=G^8DDSuhlxoF-RcakQJM1LjMlordzvm(uJVQ$lBK04iY|8=hL>8UTUpLf=hk}LEi
z);T&sWqrEUi4&^Mhn7qqONHT#dN#>OQSB=Z(ey~rk~O*%S3gE#N7NpCI8N=?`;x`E
z<yZ3PO>HFqyXqNf?#tGIJtjd!;()>MZ2qxlTI;<6SN+Z2$CeJ}In#&8XU;b~vIl-A
zF!#J1L&-yW57k(lr#$|rgX;M&>Sxw8GgaJR$9{u948|9J?d01oEPed9rTeC1V3U~*
zh=b0t(Gy|Es3msL`@#}2Y5LCCpBSGiYg|<Q>knA-cG{0$qr+I@%kEE=ZoU-KTy-A#
zZwnb_juTh+e_qotcZUuu3iVjx&th!05V&YD&CT9=aY<fz&jECErJa9NxS^(saUvyl
zN=6>$m7BRu2UFo*bsorP3YBM`^-1m7z(u4|OU-3wW$syFz;`fey?AixL#4!W(R%Ue
z#8~vmrz<AE1rBiNxsMe1{6;>)@{h$wERNYb6L6EZ$6wK?jc0tmqPk_Q@T_{{R6ThN
z{eDawwLdCcnLM|YtuMC8V*2>RSDrQdwm4g|7z@=-JNCUOdwTUm{7mp^+x0KP_wwIQ
z&zxww&wMc$DWO*uWCnJ_OOBeXU-D@X&9vSmOf2NTp#kkEvSLRk7xy}cE^lHdU$xj5
z^+z3Z=h#5i-Z`21tXiF6|A*XUIVHqDP0M-H{>{Y?GZzw!kUZznCRbDP$cZP2)zFvX
z<B74*w~XrNiP3Yc6bvhEoI32W4V$XiOUq&pet7xv@aY^gf;f0hjf@sQcl^=E7mZ^J
zq65tn%U*ALq24}CDwmBT#i4HU!=SeM>L0d+zMpeCZlC!q^CTg1^oC>Sx$!e=q{G>q
zUB9__@>^4lui{8HIIg$kT4Dc_h2`dDf8MxM$~^leOXx~69GN$I7GkKuwjkMO3P0OM
zgHKe;S?!U;ObYMB7v>4R@~Ud%+Q<axqSZft;<oUH)foBx>=&kG;mYrQG_Z7`8R5tm
zB5`g?1~)aVpC^;ZbFq$;TQqV#7yaKOD><|M_iw#+Wb}W2JhxTR=a`Z|*6|cli)TXN
zGhXC+;)xl4q4@aqPvEZ#>+zD}6Tg)ZlR3_MH04UW9t(f|v%=TM!gs<1F!ax_y>|2G
z1cG-y{@QDw6211?{qWoS!S~~G>jJ^s;JNL86#^dt|2?xnV6q4VE{Q<!snY^M;Ijh3
zs|e%)FMdEEc;bXWV6zDXk9<NPs96PqKR60`P$+0vAV@tW5Ig|k?i{2Y5(vKYt5A+p
zAh_&+JRgDb<pRNd5dP}N1cGCBfxrX*w=lp2>4s(mf^R_Dk9-u;JSGt6#smW4e*$_r
zfxwZ4`2Qjhd>d$eD+6>sD-irFJntJ72xNJPdmL~=J#&zjc?81y0XxhEe^7+-!2j%|
zK%fGAfr3D=1;1}Wo*(RkdL0x9Mt%b@&I$zkN>CnbD3qRn`U7^sbKtA+dj)9x40uT2
zEeizqe+Y0w+D+h%3F1o%NHYyIJ}3~ZsiB@K!0`-}t%S67$X62x{uOYJJTDO3f%NZ$
z-?x4Z@<91R4X6*Kw*dwQ(yjqdQ-J0EXQ8f8)~hWj7yJnD<cY&TuL(T+IPe|v{Rv=t
zWFD{s4@We>uU`SWS}6ZPkO9cyatGwn27e6b9R*%O_^XgE1bH3;EZ^w@4<P-wfzQ7P
zVVeQU(?h=ffERGc7J*I==;;8@3HWUR{1oJc=U1V;&=SN$`ujdD5L}0}F945Cz=Q9D
z?3V5WJUBctknaTi2E2PGgde&e>fwYsAA)+ifaYfa^9O)0koNN9P_7j4{u1zo5C~#!
zkk>DR?1A=QLE8J?2Xw&y1<27sLi_qvz%v6hAZ-`qxcOo5P}f)A3u&P)CJ&_fMQ8`W
z`>#U!??Jc*^nL(s=T!=50uM?LKpBwE12TUZ+T@`FP}X}uzDA($1%CVj<bN9I(~t+k
z_rcQv_4x}1{s%sP_1)0EApC<*L46;EbkHVVeFn<#LEB@Y&HZPH2mT&|@DCuo^(4p>
z@Vx352%Z5RUp@u&A#LF2A^-c~e=*3C2i|Z3!Mjg_TmaAa0`MEi{v+@d{8x~75Xyk|
zvId=a4bq0*1w8yUctXAU{pI^%;4%0=f$+bAoN6JE4V3>f<a^;^C?^W>Adf$Ihd?k9
zf!{^IC*b2Di2Kg3gO5R39|8LCy9=-%g8$zQX>E}2@^PS@fVT0oKpU_=69-u?fn25_
z4Lm;u&sU-S90GoppiO*4515947PO-^;P0nC379}O$0ShB&jEiyZnX5Z*Pv!U1L7Hs
zKR{XlMGJt0;BDYR90CxjKn4C8@ESO0Y{egb^s$E#yT)wOE6rd819RzhO069w9)9CL
zjosz4=~1w5_3)J5=6(vY3LcWZ_S!@6ydONU`wbe<GzYFvZ>I9<zW%fEkFrDk=btP;
zcITsz4}t@XgK-l6>6i1v7$1S(`gq^OsMhJ=|D`?X0xJiuPv_Pn;r;#R2iSiY&`s3d
zd$;mB-M9C7^I?eWV;%wjcJO`L{b#>o+w`8;ohJ^v8FeXbW>l}n9v*P%s2#;!z=vmF
zd+mSksN08tMxX!C#NVhJbVmVnJ3$xxW8k-GJ-RzBo!;Rxy)KFYr3p1KU`hVkYkl54
z0RBGkeeC_Z2EcE-{{O%Gci$ZF{-1^?2R!)Qzni+#fV>bj;Qf8~@a@(<J_U)OOaC~0
zyS0xufQ~43#|cBh8?KM@2QR-atNZ`q=MVS)KbaKVJpy?lIKcVAAA=Ky_cw4pvO6Dt
zRA$hWlm@#E*eUq_9ynnre8cr|{cY}}gEn>lwe<l%=RZ@p^W7adKX4D{Zu0K`wo~4F
z;M`T-CFSmXgyG^1*T*M*<=jBtU-<R^GQcPQrRVP?ATLA>`1mWk;M*P#`uJeV*yiK2
zZ<USx2Kj_)cYH7$zTx`#d~f^6fPWUMIKY>iT)guj<b|jKzW3k5w^w_74iet$FMHto
zcblW&JA2@Sq5KWk#~He29^ib%{6_<vzxC+f-udPZobUTFICqSz&%9MW?r4sJkb3uV
zwS5m|ALC*9>%5%(H`@T?M}Fq+9Rl(})PR@2d=H}#e&~-6@9anH@Gx}>3}y^>?HF80
zz1e7T;Yz1ljk+E_p|<KL`ymnNtsOO^qiWBr8p9#q1Df6C9fr7V*T<+g{^s-j=hi!q
z9qd2Z-1JKyhP)6QVEm<f829Qgumsqa_a1!QwYvyj1{%A~O9+(LcYQ1ycQ*!o<<I}(
z=zxEJb>x@tT-|}~7w=))=3hV0&b|W6m>+{}x3>8D)Tz_%&cAJZQ1qS{C6E`Q2mE{Q
zJ&b$xmmTf!>HkPOe7A0QK5~74;QBmy=zmTP`pTuk*9Uz3%iy=}{GS~df8id+{ye)q
zPwnI*EVH)xxCh1^GQPL+SOQ#+K)wgS-?yXOA8voIT2upUU;NYmKEU?<&;I3|2IPe-
z1OC0|$MA2*c(X_Q+fBxAOn-tA{eO&q2O!@z#&_StxZC=uKS#eC{Jk;pnTKCr9tmFF
zgYNb?*O%LFW8BppbpP``x;xwdhaulb!T0IzX#Y>`-nMq*&As+-*j;{hD0kcSF+O|q
zYlA)-$eRZ8V~;<6M*?{vY9PON-NU%E{cmG@KP1{Azn=i(oAP_Nad({X`tgSA<9tAM
zZP3n^_CGgRzx?t09>4o`$O};eoIn3#aPH`*Pwvjke|PyJxV#5W>l-Lv@2gikvH{MG
z`(7LHlSi)KIkN-jJMZD#IUe`r4X+vlneP~n_rSTMufEAffzY&jKPcS8*XQ9wpZvi<
z*3!x80X7k6ia7!KAZozF|8x)ATWF7aVB5Prejn)UHlA$b>%-g&<9Byp{JDD=-$Hx*
z2{69N$d-9`oO~bPJ=e$ind^;#oWJwI4-VSndp`bacMFggq6WNt$32`o<=lTyxgUJL
zZ|{)v9<M;V%Xyz=cR2^3%)aYm``+fa2Xe0b%j`hT-`f=5`7Gpvr~$U0y@%~B$axQJ
zd&~JdKxa2O2Y~pt+Y942cVPUPdl=t>oPPq0Z^}7j-5sZI8zemYIRDAj8_4+&ZhU+o
z=a2obU%yL3UWgj-^6mF<?v!(XOgsYqe(*cw{P^zU&hB!4z_z=b-B4!V^|6(nUm0NA
z_sru1Z0^7R;N1^EK8PA%d)qy1JLUWYMD7EBKlmN<%O2SFmh;O%XE!--<AdV&#CUTD
z#(tt7-apyK_=`}+j``&$!1$(|ZOHC?%=H0+>+^A>^M4Ka_`qKs9`Nz0qW7)>@<G&q
zkNrR&BLlv_zPcZLKVRSXG0MQ-TOa(S7~ksafZz#q_j>d(^<5v!H$HuO@Gfw8_3H=v
z|8GU_-u?vSgW#YZ{|5s7dbq&%>(Q6rc0F_uo&~?XSF%T^`q4@9E!N=sd*F8f&A#j7
z_{YEdhXMXST8a(cWt3l@dg;$z$3NIl`Zq}Pe(*!!`};`!I`p4A-l>25`gYJXjt(}H
zY{Rd;cEbK9fBqH9+KWFbh}+4ZJ@)ec!~A)_WB2~Fy`BW}10I>j=LbCMy!XBVkN)vP
z_rLTm$P3W}8UG6e`gPbjZtm<)JJvyOxe7bqn_mE0KkmKn*?+k;=ucp`b<m&w=6(0y
zJ+}kn|GtND=ljYw#s?s7$NS127<Y`B_uf~8&fWQ!hw`>vzl}+M_iqN+zI<eKfbAov
zqIXY2UWgj-@1G&?!~ENRm+JSIo%?lrfZJ`*d}BcR*FA9l$Ue@myuLp&Is2VMecXY!
zfB(+k@4)$kdpIZH+3yGaH2r<m1K|5S+%fO$0dofr-$2*@wzWGSYf$F4>(d(5ume7R
z_)otwz^A}IaJK+?A!@+K{~H2*KJLV~E#rP4-qC0G*p~g#uGHTL+lTLt&jV#{yFR|h
z|7LlB@7cFKJdpE5_E+yd26-WBfbX9m@Wc4}ed7@LKE56N+XLV3{QC~j*sXu)pv=DO
zV=H{wGr+de`@jI(5yj{3d~FA|e}puBY(ntcvfatM9rN}c*mi4zuXhy2^&i8BLOy^q
z;NAD{;oI4NKMcS1-(&h~+a3LPk7;BF@9y>A_q%tOYX{2Pc75J;Zx;r<`@3Izy<dD~
z=&8H!g1itl!1fOi_+hzjW4j;XcC@=a=IY(s-DRM$n_Od1X5aO(9g4OF*j^0((m<}4
z$3Jm*We2vuhcta`{c^VDx;?h^`PL6_&%ck{+h}-**q!e7{(hhCZhQM5g?tb-;K|=X
zpih?p->0hr-_O_g{V`1rew*$dOxdkL4MvT(IQ<L04|w{t9sqwI`0e`B5Z-ouJb$op
z?YaK*-zE<X)-dn?<Y#YxcSl{m2XXznh{11{vCTsr{MPTo+jZHa@$FWZd#w=0KXP}R
zKfE8Itbb$hj`fA#d;MMdl`F${3Xm7b4|x8!5a{D{fZxXX4hZ-C1o&z2_i*m9&%UFN
z`~;kqd47C*skXj4!2Yf5>)8LCIC5tU@&Tj)_P>EZAN$V!z0Ko3_8t9uk3G8`*za-n
z`%wNPkoN)bJLR8*|F>OV?hpO-2M2xVd*|YZ`v0f@W$Dg$cVPQ#_-!xw_p$Ai{~q6e
z{(bpVyW@N--+>B{7a$CH_*c8&+#bV!5#pW$e^35<%+I^Qd~>2cM(>XEhu1q+|LgN$
z;Mrdoj7cK;`Mb|S-ff)!>)*lo&i^;gpJ1+e6X##;finbUZ@a#n<)YWujQ{YCCk8n0
zd+hMtKiYxwyO5?Y_r8p``_nH$_<i?&+c96i#r`z-%qvKFckeGAD7WwW*xrkr9rTxX
z{N+=FHhG}(u{%D<2T=oA|0M+a*mlm>CitHO|8DR*=IfuhNj}8vF6SR!FMjw3nnAyb
zWqx~r@mBM%?|cmM0{H>PzktAA{ife9cdl!Hf^qW=L4ONq_2;$w!M`8;wu~4E_g$Zl
ztMj!1#<@p7GLZ4jZ@=&E7k6O%b4b(2xO3dup1b?=<BoA>kG;Jg9d~T(?)<AldE2g!
zjd^%>fUW#<=LY<H$L7D@(Li2^8u0JWAn?Qd+m`V=A#O*1{t0CK2Kxl>_w9~zn}0xJ
zz(dKGOaq+1eBf^eINuxm!#nSSybwLW`KJ)*<Lt|HTLwFE_Q#$b-z49d_e%dC=qGm2
z|C4+4#XIP4%dp=rc8t$^G_xOFf9-t#+~?oDo%Q=#-}Pnr_WM6E;L+RptpSfd=WN{h
zEaZcz0gwI|0(~C!+v_%uw&%A#-}>P<*ATCN@VUGPT^iE%U7zlSqn8GBXOF%9jUxP=
z2k)-DPIs_>@kfxR&x3yZ-noC#|4w|5-X8lGKgyG%uOEjIJR*DTwRZ*HtlJ+#S^c_A
zfZwhg9OD{{Lp6BrJRh;g2b&$8=*{+d8EEu*^8on!z;BoR!~1=oDZXdGgR{NbfcH@o
z_y5#(1>jK?S9gU75hEf3A|j?SRn$}wQ%pj{fGMRGHPw_-OCf4RM1%+tK~oGgB2tKm
zh=>spBO+P^3=}OSs|G|wL>iSMB2q+4k)onfo09*WJ2Tl~cV>4Jzkj~(vh&`|z4yFx
z@16Jdy|*E_)WWwLy5aatez3-^>vIphNG`aN=TCO$1zrJ@#`s+SeU4yTwZBTRojC2S
zV1MXgNb=%ibcoGf$4y==#Qt=M$qUcP&<zfHhvCP?-yIk;jTj534it>1eY!_5K2u&5
z+;3srg*n7%*O$Ra`}TV}o@@C?j8=hFOmXx0Ti9kJ#<pjv=h0{9B+5EI@ATQha_C`5
z^86!onCGl7JI^~}+gf`hxlA4(8QRdW&9bpm+X$}}I|i{&0>`)r3>ntY(Cd$(cz*~V
z<kDUTOfC|C5=6(lmwE2H7W%F@PQ+Z($k87j+$(XswEr04=$VrTzq-=$y#sUTI}c)N
z$;6TStU8E$O<)}iDRbkC=ehm0(1mNMg}<W{o@cGGkLS7qh@EF~7pj$K3HP~iPJwOH
z$m2a-&l4WE{`eWGhcAN92fw#)ZpWN(9!(6x))P;<M3w`2tn}cE=el7&bOB3v{J?>4
zB=#|1m|xa)tLM7Gxf};_r@Hxz=ejTpx^OM{-bW`q&L$7ZpM72E0T}g*$^j3~$*^r2
z<NV&DJ0;FnZvIl@+@<`x;2sO-dzcd*XRZa=5T28)dhvXpa>seb{qFVdA=qRiHrGAl
zNzlWPa9D>9v6Vnr%jAuE6s{vfAbK6~T=RG-jQ93RAb*<sIOfAQ8?j8yI3V{{#^q(n
zy_F9yomt%<dKi-9_!~Mr4z9W3YtlmO!|T@OI4<^_|Ey$HmzD=$-?d)GbKcvdu*o@P
z8+?;XVzbXF*0qy|+sL?^bIvHdi_`xBIezi+uJ$n?%!id*vF~?Sr<~2OzgXE9ez(G|
zk6*6&Hou-)i{N+QbT_}VV9zwh{_y&AsjsE4SLASe<<Pf+{h*7k9Q!-ykl!fB9_ROJ
z#qP%84GoJd`&+dADDm@f>yKX=-m7W#r%?XB4Ikt;9}=Fw<To8+uHQWTMmkfs2?AB{
zlLq}{2zfI04bMJ~7hCu?LoYo3_PNUXe(O1<Mua~waE2RKtn1!B&;uNa{agB&qQu^_
zrdoKcyssV6(6B(+m%QKPIBs)}DZrSW_pu$RbtQME`?zn1JvPSU`Aq{P=PzjespR}4
z^-F`jpobyB^(H#LcqC)YiihV?+B$yyO?oHn_keCH#QvT%4cn#>o9kJ@HVfNE%po@W
zI-mKQ4M~J#Ky)t0oyykbSD>ui&0iVpvJs=}p4@ooVMzFU107;yU6^_>`OF$gf@q9C
zHP_Ge(0B0@et+HdzTa1t?+vg`->hrn`&9J#9fRE2-*Y_|epc`#d8N`T9(40!?*EdP
z3CFdOyjneWlH}FHs~!%PLk~m3%X)N(jj=M=%(ZhVPF`nX|L~h{D86&-&BJcLb;7Vw
zH%z=a^edO~J##UhI?Ij2e(uw)|IY-+HAU(fY{5h8f}NlTb-_`K4snz~h@(4%_$iFf
z5QvVCXTAC1*Chu$$6@n%*@chGbxBR}$#PxN@}AV{UFtYweR^Hv9f(i++|PP2>v`+~
zwH7Gojkvv`q2EKomH2o~`^XRT!5B8?aNIxNI@VVmd@Zwly{dghJ08!)OnA;-p>G2P
zGDbHvw4WV{eGonvd%HeP!8U880Akli>@_!3A8X-*^_~o24w?KOi#{83%k_J-WeS^c
zU4uE)4L^RqzYrsyk>_X4KnC99Y5#EO_^V+n{P_8NIt9WyxEK;W_rs}H7XoYH!*%>)
zV2_Q*?|P?tnZhQ=zYcSF{NcHF8TQ3Ees4jVM93*>Xy`I0l-FyuuV`F*)<-YbmGCji
z^6}R=j>nT@F^{Jm-g((?`FbUe<MDhq@g7exd|drVh_jbHKGLz@#K+?!JZVf=0^8wZ
zrSc(b^BUL+&rfsiWPV!TIXp{2<l!(whs<@KU!R0c)0m^K_b9G~E`}sW|ALMyN3*eC
zbI{z72KM4Tp=!(5YV9jLM{T}6Cnzu91Mogg%A=w6U=@6X^KGs{xkg%i$NfEod~b#i
z*Lq-{Ym;l&Gwo`HO}MVYoOY0W2<P{J^o7L8wa5fOw&ChwSbzNFa@dWx-Y^a}>fncQ
zH0w0F(&%SQ`|`~G^FlFy3HvyA0K`7eTHJV+3U?Sb<DH?!mi?95K9AG3Z{?KdUT4f@
zB9MXiY}!8-I+hjMS9+K)=79g&i@z|&?{;8osIn!sx*Yqc$2c1vO|6ozB#4exy1CBX
z3w>8!Ou<|>^6&Z$!TZ)RyofoppAWJ5vd<Hq#UUnPBk)d5zxg4)mT6xD!+cryS3LFZ
zOhX}ZGkh#oK7_|V!!~(Lg%}>UqJI$562f<5@Ml!-WDrsxcduim7&DC=CbT$Cp3MgW
zrSd*(LW{{YU7(90sjU~#A%{_pEAH=4W-+h43+F$}$Mf1pv^aU3#Eerry!*0W`4SG7
z!WTKTzZcrMn1wN&i%qR1_5G*9owvMS%|^~$&o;`ThautoIdsT*G(J2FNlZSHC*t@2
zmaiq+S9pBwYe~<!!<)Ee@G<m>(D6L$Ii76n*IYL@yn#dTwMqGs_%4Rc@c5eZ)JBY1
z-}^6a0*8&y`AZhK>&ko|gA0kV>pSjP=weu6{0usbag=j~XK8YuD~{k@pKX@?N^L(p
zhb+!L=joU!6ezr>p`p){p<{X4<I7%WJvkK9*;e>kYWZ3eo3|!iTJ|Wx^Z$jRV|mJR
zEEaE`ugWnGB~Srh<1JqcwXg8nOUHh5?czCUxRU^S0lagw!}9T@$A@)Z^4yp9mUo~K
zKKeWr;%tHT5ha&B_3b{4TG(Hp>`P5Q0sE|J=CV2OnKe5P`!0nvea%)SJ#dk`o=aiV
zG_Kj7^u9#y6@B*JiX3j=)cd7iKj@+>7%R{rM&dCT8As+#62!U&^l%Z$H%}-B;3EzC
z$&d~ZW81!8@Y8o55NtVH)Nd&}P5dUfOJS3>=5ehXo@e$N@5!@BQ2Hc30`KMYdpeW@
z^R*Ag$ak&fDa@FKQwLwmlrQ1>G5BZ)Auo(YDIA`GPtSF!T*;?by5oE|^h~3z{vH37
z$<N*G)$`QJeTS_(AG+8jzUQICIQy<2tn-U!$%~}azOTF!zFhG(=NDqTBl${+_dkFA
zisa(UgSH2^D2x(sK4WLDM2mOaNvPvJ81K;Zd?pm{x!OmRn)e*PyXM!x{%p(sBc5Zh
z)-BIE9LcY_?(90Hq2XK0#~hE3bnG|luZJi1K|rq*KCWLJ%9n?+FFaq&^+*B6tbDoH
zb3m^8XuKXtde)uS=6)JnNR2#RS1;H3k6v0XIWsipcfl6W#jxbeY;>42`P>2FI>S${
zUz!Wg^@t1JP5irDhW5Z5ytgyj^7RmG(pPwXTCw%yjz6|X;A5NeA$2+n_QQEM&kzbQ
zmI*O2_FM->I<pG3Y>B&0OJSFdb$awC*GQc{{ovce`O%-e6C4jc3<>8Cq7#F24-c_9
zPrR?8VUO}9e3ZjiI3Fet7h=rL!zQfLjd?idId>kG!nSGT#P#>Srb8D)!pTf@VsPTQ
zUWv^~SG*7Nt@0(D%z!U)!kjnf)pYck^QjQ)y25jMboo@2R4#S%F%Nc4BOk8c0nUdm
zhJ+8^2O}R*Y9;RUH3gY^e?!Aj<wJOw4*TRG4HC`+&$CGoT`N7!{h6}o-N(neGmXdR
z`fd2#(8ZAW=6TJRmpw3M*QqB6QR_7Ah4^sxtWxjY-d}sC)asg%PX<$<Yj93;;I!A1
z-WWIQNmGlK*LigwoTad9nr}_nWZ}FYlf(HmIn7wwb?*Lq3Q_3{l>FJf?r}|LBSzP6
zW=2B~LlSeoV@HhH5R-3)OJ2+IIg{sFt{?8o_T?W~Ojzc|aSwFah$Cy@WwQQO^m<)l
zdiiIog5O#=_)aHli+Rs;9d-EG5pvV08^(>hb@;7#u&n=zA{Kw_FM(g?Wh$gI#NaPQ
z-!$5}<m;t!z8(0)dE)z$ug?#Tg)WAKgEDl&<7C$3@Vxh|$58{7`l6d3^L`^SPICN4
zx)bya#y@I|TzkxM8jOY5cM-(oyyxP;x=vE-;#$~u@n`Oj!KB3D&0XsH`-znSdH;9*
zsLz8dEo@UTFPuN~oscoL^4xP-6_vg~;c_>BlL!!v{JH+N$sp)qNMbx09b$Cxmxuk<
z`!Sw#S_FN8dJnE+;_CPth6gQNr4C$XjUaaxE>G%3;+nI<&DR9jW0RV2{HA;=^e`-Z
z-HT2*Uj`S?K^Csqm*x7(ByFV|SFG>P-JoZ1G3LaT4+*aW#?iV?@Wj!7ov_)1&*shb
z`?+ch-ybwSu4Cc&x?>-?({-9@&fmE&x$BTQYZ_zbdapPOx)_p}m7qgz$b<2njDD)#
zXT2xjxu0(3l6-BD+vtJ49(<*+YZ~#n?#t}3@bP>=e1jndpIO7mjkQjAVi$d#m{H~C
z@h;dljW~C1>n!J@HU*31d~iaC^57KcVo0v@cprkb#~kB1h*<fV4KZu1`+V)ntz*A`
zb$F<u;h^P<Yb||oU9x>y-@iO{AIXKerknsD*RBd35A&BkqTC<wtjpo~pge4c{gukT
z<Q@5CTzM`raovXgAqby^oeBy6tqe0Od$oH#D8+m>#>(|f>_X^aNPLe+hrSsr<J;s^
zA@-$1Ow2sz#YiGm+6Q)e@R{=?@wv{8TP%EcVvY}A0mf{6abHtwd?kNz=lkujYZ@`S
z-W?qaT?`3_#pn>Dt1cN+`+C}wDBi>;)YLU@ocyk18gaV*26q?eVn}d~Lx(u+_3adF
zGrtNTJs~F69-QF`Elk$J2iNOlNC$|?BXi$|*j)E)R$JJ34kI?!vC%hqSb%-@^;v9e
z>V!GuWjC(Lu*XJR**8y?wd|Ujqq3H@9?{~}tD%P>;p`4{;>|w~E^mF*Hxu7M3ty4O
zNB+ZkWA2f|P)yZzfAK5sd@8|Q)5wkMH`*hiiy`5L@%7~s*A6?MJZpzDpE~^2jgQv`
zrV*d(?{2h#E`|i(Xmp6rSC{tpaSy)8*je|@)_QP;*X4Qds(WWWzF8+ZR(jIz;7SW8
z*PCcK?e)WRgCy$uQMlG!2j+PJxpe(rc@Xq4BwUWt814Er-*Y!&%&t!lMl05;KI=WW
zu7^D~;#xJSMC$YTbt&@Q>9hw{1P@xcZo?dMmk%-dZ{xDh4<1~RG1ljYigoThH2C1s
zi*Yt|F)ZATL?=AH2ID-8Wk5`gHsOAY{#JnhkD}TgU!FVJ$fN7G*u9{KA;EYnI>hLT
zFEQHj^<a#M?@kY{64+xSu8X^jmH2Mi@LdkK3m(`X++yJxfqlOC5|<rc4=!(fOKRM_
z#lklldT=eg-J<c?>#vDz0mkh0*Zgq!u*dJcn9oKYroLJ#yi9#n-7`48v>~`p`IT$z
z;h577!o25vUjO%n=sfZ)XI6;hvRbz9x^>*m$Gj(44?mq@%hVIPjg7uWEpL}SHW=dI
zX6$2(n8!xP=AaAqd+vcrr6s)Tt~0|2)V-X1Z{grMhd6lNGdPHsQi?AJyw>SE{+7Hk
zV@CDNy-4@4uMGYfzhp=Uh|!I8|7|?<FkSNCCap{V{2oG|{3H+8jTv5i`wbHU2Rwc-
zMH+R0RQ{%8AaJj|!^S<klpl%vjo6M7ch3?RU)&GFkA3{~%|=}BEju@B_-k^!g5w74
zBM#Od#}gsRknry*_{J0d8fst&?D+f?9e+*67Uf5HEr3mOS^{BQk|6YFd=5ch=e*}W
ziucqQ_wQ*dUw7x{WcW6XcqX(OEcZ#rO?*#cche;w)Xax2hJ>?W=#aC)5YFeZ{2bCu
z{1Mbv!B@1p-7qFM>-^eK&JKlda$5v3InVE#6k@v$5*=H3Ud2c0VPJ68+l%nWMs6-V
zHBZ*R_9G|faJymMNw4lx*oDjAW1n3I#M>9rG`ybm4}N_4Irr|2-lNxtIAs2j!(s?I
zWE~JMg_wQ~iH<4q^b{Y9`0ld7%_HN<Mhx@Q9+sS}{pZ=jV|7X(cp>yKBs~5O9h*nu
z&w(@*b3`)2MlSsLc&s0{AZxY4A$87cD)LwYA&=BEJQ5Rm)|fo^bAEW8&v?UK=jMI|
zAPA<Z?eCX0`XBe5Bz3;-`2ST;fi8xH)8C>)PEDQjSgbm4D*gy+E8r_yo#(7rpV@w6
zC`XBd+%hjroga@rh1je*_h4&Yo$mw&SDo`(la28${NN4A&%hTWB|k?l`cZI;!Y*9?
z26OEEB;LM|=(!M%*Inm(;fMANC+JEeuD5!<mNn?j5Ql@Xj~o_5IG>nIe$s|j=N=B5
zU+1Zt+&r>Y*ofo#3ICCt%=`Bw$;s5NMKztEhausS_-r28&w)heF%ok`GQvh0{P=j>
zxAI3>3lt8i^L)%FkHk(MQz3>&Vj2R`m^`=het4Z1zvZs;2jSZ^Vj6h;W5Vg@DXoOl
z{%PmejD#+Rgj3cHF`GK)u~>E9RQwUtmcduFIzQ>>8#2FFc!b+);h)?VLC7tS!JN;D
z&8l+`w(z=%?@Uy?*`1$H!Y3PXELnM$oX`8zj>+NnEeY#`tD%RkaQQ2A$R+cG<HXw+
z5<M5f@w)4LGyM4S^B?WH_3ra_sLu1?lN=U9$RRNikHKWsxrf8Znu(7^TrX^K^Jsq$
z$=lgc*2@pa&zGFMZhv{rQH5W4yhdX-JQ9BnBs!0gm?M%AHaY-bw0t~y+n=(gV-BVY
zmaEaBe^VdH=v(#Sxn1h5?+8ehG4LFDY<XsvcS5nf3jV|Eqc!$Xk|9=oc(8@%TYQn-
z3k<IFp#8hRl2(^WT-TI7BXK=<`TCmo6?WlrAn=h(6IbH3>LX6P?)o?YKfd~yzvA|+
zp<6>7{t|xe`k<bv4`Q<F!-FX@*WzOl=b3liJeuc|#L+3`RN?V=`yLk_2b?mkrW^Dy
zBs^Y;j?E+S=RkCQ#Em&38DS$GexlV!i!Uz8T54hW1$6BC=#FixK0Nnu;;)a|7<g8E
z)-f|{TPU^z;6J=R%=v@Ztora^YhHaM{LLL#Vqs%kKmBT{{5^=7lOOHJ?FT<>_v*J6
zcJk)SOJcY3(u2MEd0FehKNEi0h_^?b`fcJ>bB0S^em<zYW;OIMBzf5%ohW%3H)dB}
zZiXLUeHVPtA*)YaC<lH99OSVC!t)=wBYp~P41wrc@!V_j=4ZTR9_a9%`}&N}s!b!F
z)6RcW{#HoGeS;)7ihhw%-3GcC5>9i`iBexp#UDX!Dttw&_fFlv&X}+8$o1J3z(a0}
zAmo<EV7`Zi)t3ib^XjYceRq8o!#^8wTweczted}@(>sUT*~`xe4uT%Kg1sL)#7-Sz
zXD)CaC9J+Y*qdKpsUNuU^Z6bdF{IzqLh$$4_OR5~qv=CyIzbOZk_&y&iBey2V~$7y
z*iD0<XnAncpdFcuEG#)1i@7c$f7ZJ1d5qz$s|ZMIW8hhuw=1LP_E2muhyOV9(u1ve
zd07t(uInQEdiS}LXG>fIXPzc`+2NHo!Gj9B#I=v+G9RBN7a424M#YKOeO;9BcmKLs
z_36Jd$739>q&_Y~C(iotU}}DS<nD0uI1QNC$jkp09+vO2Ykqu_)W^rElWTfG4@1IZ
zHab!2BW}zQ$q2gx;fL#mS@Y19MqK~7Wld(a!XZ5N#y;{`0^$5T2<K5~V+cgY*7FXY
zw@%_d|IGQ&ef}}m>wqA5{&dj?a{jrd*A;U9N!)x(^>pZBSUAl>hn$)^=doCI-c<Y%
z)K<b*v~}ljx17u_J3~3j_Z`S>5yZrzHTo1{v##$v*qT@8dx61K=QqM98)JKSX*a3!
z9m8Lf{OplaRP(;VE?j0{4!JaSPP}~~(Q_djue;6<z>hCKw|@Ci=FpEq99{~a<gge*
z4!L%l{3IspI@7~p^Xoiqmzzia?u3mvu50~))cGyH?=L*2{JOBF8}u+FJoZAz=8^bw
zAkle@#2k@~u#pZwJ|4T2uFYJma7dm16!Xbr2_(GEiD?K#V`}Pe`{S<jl8@bWZr(o!
z1mU#evu~u%uY6^M)cG}+-CI2tx)>Ht)6pTPo;q(T{s?Mkz*n?7zh&m8j262?IeH1O
zklP}NsdICk$sD!n+=DH=ZsMbKGcdU7d;om1F+VHjt(Q9g<xMklxIJmfj+$zPUAW{s
zV|IQLZ(m6CTnNYOuJbzh@#W{J*$G+wKM8SoF?^E4IO^QPVPwt3$0E*id)z!e3p{M(
z?TvftrOp%EUnq6{*2Jf4T0sv(!eb9~Y#zhvJZ{Vp$q2h$;m610f%hNDELS+B&iURD
zc`Sj%sB_Od>p%Q_Uic4porgcy`)bpZQs*a^ohx;|bauz;>!Azi!YO~VK~6n&-c<Y%
z)E2{+kJl^qJe0A|!txW1B_E&6hp;;FV2Q6z>Z9POuV|AsdT*#sSnqMxi3d~j>m>VA
zcb$v?CN}c&@k1BOdQ-LGU8$4T=a$!82t5o*OfNtuN}a@wIU<;_n+rd_cz$@>_RQ4^
zht$dWm>;c9_`ZW)126vndeLRZJ~y9t!#5lGT=K~qQX?ZCyGCl{#x|E#Pl6tXgwONP
zA)iAaCNH`EHy68$*9!Ra@p}5EnvAxeh4Pc@o}Hh>WS<LJKQXX{7frm&cwi@RxXy?3
z;FFD54&2v8o{N1sbz%;;2kcrE+@kOcpXXwqou908-iv7>X6FfUFZ}p;tU7va)}YTr
zJe~ueHjm_$cqzoh=i@OjHM`JL|LNv&7<{r3L%Zz(sq@a6Pf4BUeU@F*33?b39)HX^
z5XPJHiN7zT$(S7pnFc>T9#8*nRptVPL+U&gKJ7YRh;8CAnCv?Dyh!kaPl(0)-F%ww
zx5P4hSe4ZI#6D+BoxiuNU-fY4VMzEq8y)g#>U<&kcAYmByMxw18T|QpU0%92<6DJC
zcuj$SJ3o00rp}3taW}E{U~6`r*Z#}RXAyj|5zA8(PLMhu^YUXk-2V9N(ZSWwLs$6x
z5ju8$F2uH7=W$|o*7;`m@$tBL=8ai>4utAF8GdaZdtjS*DGMQXoqI4fyUvroaPw%s
zj}gO#bt~k$_xVZPrOpd(%&0kP;Xey=?D{Iew!zP1vFpq80RIQqSDoiLM!-KC@$_Dw
zB**dYxr?Q~l84<`y#aa{l6>ff4)ej(R{{EVeKi%ktG@QapD!=+F9>7~IvC1}GvVLP
z3m${1FJiOn%Y&`i^_BW>cV3w1LB#TMp*oL#{Z3^Lx4(FBX0Q|V&=o$3-L9_!Y}@q}
zCuV1TrNNJn$G?1aN7e!h#~EQbn3H`WW^MA|h^#3`K&ztQICuT{%ySNf_~1MF(elgl
zAlzFU4mg2a`1A2n)~zOEwZbFo_vyeBZ+>~OH9Nn`zI5jo-xXkEJ{`LHTXlc(=$|FO
z4sA#Zj)xwGB)@onCR%>QiP@Q7GvLR^W50gmvW_Yo!sBVcVe`oRB7RB%#9qHWm?Cp6
z&MV%{U%7c44!>-~@Z8%+WZmm?@*}c-FMRBZnri4_NO<goj?E+S_l21Hh#RvbA?x7B
z$7532e>3}kEjWb7j_^qyOCY>&Q3x?S5|e!%@jRUO)=Hdo2D%=0^JzaH`?&K0xlXHH
ztgh1@ZQrT7E%X3U_~h}D&mj=v=W*EQk)~pI&>BdCKOe9CaGkb5;SpX>g?~FgiOHNt
zh%FytV(r1!>^dLyjhjz%ABb4a8t|RedB;-qyMwP+-Vz)NJq!t-?a{IGlbG%ENSv6R
zbzTfVJ|1f({UU3hg@eCkvT-mc`$A%H7g^hmfYwLB@!^&GGe>_LsuN<c>trLg$s>iB
z>^kv0WdFf+lKY)IuJ(1~&X-n6oveTJ0=eEg`;F}CUeE(XiR;Pe@K{Wp@Hp%`X)1OH
zt$}>_^TqdxiAOUwC_GXpZQ(z>PRz49VzcYSgRR+hGUte!PrhHw#@H6^u8=x;cE@!&
z+#dbuhMK9+Ls$6Z?;gn~adMoP?K+7Qv$IYr;K#?~hO^JhYWts1ekQ@M&0_(!iN|2F
z&xamNku?+N0=^SCT=#$M_2#AfOXPfb>Dw*keE9b%UsP{V_=U$4fz{@b`1?XkoyU#Y
zk&t`g$H(LB_7gJ)eIMen4Sd>l&U;vf#{%^2I`_OR@Pq3-?Z0k5Z-aj};_3ZV2jTOo
z+n$#?A8^85)!m?nA>s1`bnH6kaoBa<RO}8~1KIHB<Mo``hccEaJW}V0@NefQkHMS|
ziH-GRV(r1!>^d*0ck^j~uj;>JhSd30z0~_R?_U`Rj)op!37=e(?EEBVyUydp?5y)L
z`0?>LeA5|O-zpr!V=MTzc`U%T$xmXk>)eB>*>zs~KR1u#;Fpa!QXY9(^77Qje<^kT
z(UR1f)zHI`@W`0kJQiTPFC<3nBQZM?ax?t+c>Heii<y0nhUz>4KFQ+{2>YciLOd2=
zI~(HpEq9!&BL4qT_;am`C9us#zG^qN5x)L-e7V%|Ck6La?^8I1FTR&dzS8x4;!Hu`
zgH5xd{v({7u;b(7(fKE4UfmGl17_vDBVOmRPoXcyCi3qp#znzJ#ba+6J+5fXxSL@k
z3Dy(vtI;GJ4bN3BUhM1r*Sijs>zExY-j(}_nZJ2`9sU<~{Qbs6yvIW;9k3-$cp{hN
ziE(3}_|JqyV!!H!;;Zf)W&W?ABtgR*Ahu)wJ|s398*R2c*eQeOw1nh9VBT5C9Y{M!
z9d2S3Loy({;j|Jm7}6E8xoaRW3z7>-gsjDlky1zx$YI=^SOO`6Btz<Ob6_5103-<#
z?2O;+Loy)s_`>@FqzIA<Ie;&a%OQo3?vU;HB3A*)gLH=MMBryZ@*xS3jrc-R0?CCW
zLe}B}zZB8~au^rcOCX~l$&kGuat>rLBneW7i^h47fsl5PAc!x6WH11bT3iH8fMi1s
zfW+mHLP#3q5KioskP(p1kexWe&VuAa5+R#$qAG#pKn~+1u@+JaNrxQ4qPqk#3X%-@
z9E;xzkOD|5qz;S8Jjg&u2gr65@(f5G3mQ_3;+X)+h8#jdR6z<M-61;>&`QV%NLR>S
zs7!+lP^y8$>K%y_U{>-96v}V4_=)L(lkg8eDXO(X1|<Xl3$66>boFjPBB6jnS!+`D
zCu^FmEtHeA9ol0{!aFcUO80o~qAq===}+!ES?i#y8|$LAWUy5i$AL2J4M~!E&UGSf
zBBcV!`V({nPJzu1+Ai(0%>$Nth2=QTaUI90nA;K3UhC2h+d=j0{5Wn>a@8~aPUOes
ze-ig=8??#R8Sk+KqhOwaIVBKIr#{<2=qy*hyqN!lc{3r?A=ITEwngeWbtC2@F)-f?
zod+PaL7QxRH>ig?_7;q@i?hkt|3}Ca2z6<PZLat~t|j*wDN(k(yp>^Ysh&@}Y<bAt
zD$TzyZuesz^L;9WzG#OnF$_a}4FBZ+J_v2lCfio{PuE=f{By1U1LST9b!ms~9Q91N
zF$N{dj`#S-KxZO^HfWPA4>?<<^t>^+1M|i~#zLq|J8WIV|8Xseo5HbxdhYMVP>d->
zdM@p<)d53>((~rwU6?lkG9E%dw8O^t6R@W-4@zVB9|oN}A+$l8Z28FDdiC7RS?{-F
z&NUF~P@ioYbPmM8JPPwhLvDjmmv-28sXA?pTe^y)m$L%sjD*kzZL%dI*G4HlZ`^Lg
zyh6xL5b72{*tUuP5N8})69dD|m~#V!b7_}t1~42_dfvE=z`R=_w?L>%J8ZdO7%~(m
zUJl6ra0qSCCR-Bnwn{x8bH?rWm~%OVI@D*&flj67pE>JVbB195P{{8f)TJG^x$4<+
zW84nJz?=u2>mjs3n`}Y&=erB&dgFF22J<1;L8wbRY}3X6v2iO>w!FOk8hXEi&<^dg
z<sxsFC_Qi724miDA-{o8mv-3dMK6TmPz?X%e-MN=Xp^lL{zs|jU(UE)g*lf&s6&0W
zBhVS5`S-<bAm&{S`6Yz9w8M6_dKTOmw@PKl%UKR|u7uDAZL&>3p6^t8-njL{yj;i?
z5bEYY*!qe85N90guGSkbhM!?hUkK;YE?Ye?6evA!+;~m)3&_tQ)TJG^D$xsJSQ5iO
z`R@;*4ccTYLB8*f;XfPm`apU^s7pI++f<!4#-O{3iTC(>Kqm`A8??z*5B~*9&l`iD
zn3oQ@1VUZfVN=i1L&wjt7h+)eDdt=Z;au8fD@DHVReIhSWMEz<<WdNAX@@OCI0#`#
zQ=E7?NQO=?2yM`&H00nC^=!;pI~QV7J%l>R5Vmya%+vh)YUd}IcM&8FLS5Qno384#
zF>bqKVEz$wE`ZPmZL(Fte`odHfH!VuW8RM;sSxVY4%;O0AL5K-h02zfw{tKj1;V+s
z%a(z>tx$U2xSfZ2=R>+fs7pI+heR)gVQ&oo<o{d<ZO|s$8u%|z&%B&*YlF!LFpoOa
zXFC9$Jk7r^ZYMzDL`Wipy0pXAPd)!_jN3eA$IIFOpwn90piQ<>$n&jA&l@+M$cz)J
z(GFWL@gL%hV_ns=eJ_R<m~<5LIG1+W4go{H((}fRU;bJ_5+Ky29kwN+7s5~x!$0}w
zg(TJG3ne~_knf$<vn^-bzQ>&X5b98$tr9wkntxy1{)2h{g&cuUmv-2`SG8>@4df|1
zUe3ON&UX;npiQ<^<mWV{=Z)LHG4D&rAqaJ8hwY&F4{^q^x)>O~q8@~EX_svYFeK??
z@p14C=6wq}452RVuoZ-1$X9l}9FYI7A+$l8Y~7K!Gh+DvC+7VN@;QXMw8J(@)oEi4
z_>KT}d;Nce!OtMHL7Qw#;6F*dJK&AM$C&pCWH*Gmw8J)5{2%+hYOu29#jpo@yCAef
zyKHI5_gPBMTRWd(-ag1)2z6<PZLjEs@?d)m|8GO*9}wE0O|}={KVLn!a@Nj=n6nN-
z9qO~~hEA^L-<LN#FmEU1?-1(J4qGo(r;Tx&q3n1$+X9{K5Za(kwgTjOt<v+xZ7b$&
zgS-o&F72?LFaATEajczsKJUfwH_Ukl!nw4|wig%%C_Qi7-p9NTAn!q_OFL{8q8Gw2
zD~5maUk9NL+GHz4z9*^YQO>x%g*ktQP>1?#^Pt0b1km+j-h{!;kT*FALOW~+)idtK
zxaF!idO53x&PE7r&?Z}F<Y$S}^TsWRd9OiUg;1Av*!GD35N90Q7z4xWm{SAc+#rOl
zf;FO##h1GqFz*e>dI)uChmG$6U{B+Hi~-7ymjm)&3!x3#WaGO*wd(noGj4yyoaZ6b
zp*~w4bgE)teg*T^LSBYYmv-0|tJ-diTYU`7%b>FcLL0QnwiW)<^*aJBvE2^R6~gO4
zesbS($V$ix2z6<PZNB&qamKMyWy{OkOPKQ_gmY<^EgyNiM(KHTcQxky1+of4UD{zw
z3d0akoOu0{|0)P=&?Z|Q{AXw`eR;DK^Im{F2ca(Qu$`~!v@r&yG5jxp&JqZ1&?Z|x
za(#``^VZHn%v%I`3PN4lVN=i1k3Cl<sCNXs96SxZCn2=65W=<{7_ya~HwKF_?^(z*
z5bDwn+bq!w<w02t|K-rBgwO_UvJFP=c91*$e74nE@{msxI;df1Jyl?=8-#XflWigF
zB<Ps<V);1cJpq{yp)T#P>1WrCu^g!EczJvfI*&nUgErZck;i39&l}5!Fz;c=YzTE}
zhi$*C9U&e$wlxNZIhZpG!nw4|RtXG=Y8~>%@=?s22bl|@F72=l3B!=5?07jK|Bpau
zgErYxk;~I!_&*c#&Vq1_p)T#P-L0M{H^yLV4F9J<=L`sK&?Z|Y{3q(?_`WsmRLtuL
zVSZ7UcGyOX|6^m2uWWfa=mfp?5Za+#w(h8b8A{I^gVQmu3#2oIy0pW#Tl7L0>SFjm
z89JvyXoEJ{mcW0K=F+Z%9vCz0dRz3{K~92Dmv&TZgZ=6mT^qHdF&+iVrk4x)N`lZH
z?X#sLhvzB1V`?HDV+KnC`mG?xL#RtTs<lOo_`H(O(OYYq$F6sLcL8&~m|A0yc|g1L
z!?qEa($qTz-uUp?PlTKRp)T#Pm5N>{KE=w8*MBD{Cqj=lG@pS1$m<sz{_Xgj4uvj|
z&JgO-4jY+JjPUIOwh$j3z^LJhxy|fSpMHMMfZfxy5Bg;L9Qb&=j8S(8apgg1i^sx!
zBUNplK3096aJTwAE*1GYRrOnztIw1S?3=ImEz<jzs?UU#dixbU{+iz2q_?-}?H%ef
zVUONc>t&$jS9-ewK8~t>%T}spQrfD|gid<9oBC{dj^5si&z^c;mfqJ-eI{I~x3AUX
z*X!*B<lAt)Z?xVwUVSD^(%Vz@c)8x5tG5^E?ZxUdVVU06?;W+Q*4rcCW0UH)+@|;K
zP@f5V^!9!|{*~UYfX-39ua&Bal(y<Kp_AV3raoJqqqn!>v!~vdrT6typ9xp$?Q8Y;
z^?Lh8y**NIk5!)udhJe`qQ|G}@pR<*T)l6B-nUqNCM?t2tMz!b-W~y+O?uxpy>Ey5
zOxUBh_v`Vm^mYYwj_Q4_RBffSRi6o+^maG(+43B{eWBj&rMLU2&xHPZ`)WNtNN*=#
z1>qVpT<;&P_m5Yf36u2pR6Sm<x995Z1$uk2`s9Bz%e5<IwH~k5+Z*)u7QOwx`b^lR
dxA*CBEb|S4lvY>|j+gZ_(2^@dYt@I{{{wjop=SU9

literal 0
HcmV?d00001

diff --git a/examples/nntool/visual_wake/vww.c b/examples/nntool/visual_wake/vww.c
index f8158224e..84ec96b16 100644
--- a/examples/nntool/visual_wake/vww.c
+++ b/examples/nntool/visual_wake/vww.c
@@ -11,7 +11,7 @@
 
 #include "vww.h"
 #include "vwwKernels.h"
-#include "ImgIO.h"
+#include "gaplib/ImgIO.h"
 
 #define __XSTR(__s) __STR(__s)
 #define __STR(__s) #__s
@@ -30,137 +30,90 @@
 
 AT_HYPERFLASH_FS_EXT_ADDR_TYPE __PREFIX(_L3_Flash) = 0;
 
-#ifdef __EMUL__
-  #include <sys/types.h>
-  #include <unistd.h>
-  #include <sys/stat.h>
-  #include <fcntl.h>
-  #include <sys/param.h>
-  #include <string.h>
-  #ifndef TENSOR_DUMP_FILE
-    #define TENSOR_DUMP_FILE "tensor_dump_file.dat"
-  #endif
-#endif
-
 // Softmax always outputs Q15 short int even from 8 bit input
-L2_MEM short int *ResOut;
+signed short int Output_1[2];
 typedef signed char IMAGE_IN_T;
-L2_MEM IMAGE_IN_T *ImageIn;
+unsigned char Input_1[AT_INPUT_SIZE];
 
 static void RunNetwork()
 {
-  printf("Running on cluster\n");
+	printf("Running on cluster\n");
 #ifdef PERF
-  printf("Start timer\n");
-  gap_cl_starttimer();
-  gap_cl_resethwtimer();
+	printf("Start timer\n");
+	gap_cl_starttimer();
+	gap_cl_resethwtimer();
 #endif
-  __PREFIX(CNN)(ResOut);
-  printf("Runner completed\n");
-
-  printf("\n");
-  
-  //Checki Results
-  if (ResOut[1] > ResOut[0]) {
-    printf("person seen (%d, %d)\n", ResOut[0], ResOut[1]);
-  } else {
-    printf("no person seen (%d, %d)\n", ResOut[0], ResOut[1]);
-  }
-  printf("\n");
+	__PREFIX(CNN)(Input_1, Output_1);
+	printf("Runner completed\n");
+
+	printf("\n");
 }
 
-#if defined(__EMUL__)
-int main(int argc, char *argv[]) 
-{
-  if (argc < 2) {
-    printf("Usage: %s [image_file]\n", argv[0]);
-    exit(1);
-  }
-  char *ImageName = argv[1];
-  if (dt_open_dump_file(TENSOR_DUMP_FILE)) {
-    printf("Failed to open tensor dump file %s.\n", TENSOR_DUMP_FILE);
-    exit(1);
-  }
-#else
 int start()
 {
-  char *ImageName = __XSTR(AT_IMAGE);
-  struct pi_device cluster_dev;
-  struct pi_cluster_task *task;
-  struct pi_cluster_conf conf;
-//  gv_vcd_configure(0, NULL);
-#endif
+	char *ImageName = __XSTR(AT_IMAGE);
+	struct pi_device cluster_dev;
+	struct pi_cluster_task *task;
+	struct pi_cluster_conf conf;
+	//  gv_vcd_configure(0, NULL);
+
+	//Input image size
+
+	printf("Entering main controller\n");
+
+	pi_cluster_conf_init(&conf);
+	pi_open_from_conf(&cluster_dev, (void *)&conf);
+	pi_cluster_open(&cluster_dev);
+	pi_freq_set(PI_FREQ_DOMAIN_CL,175000000);
+	pi_freq_set(PI_FREQ_DOMAIN_FC,250000000);
+	task = pmsis_l2_malloc(sizeof(struct pi_cluster_task));
+	if (!task) {
+		printf("failed to allocate memory for task\n");
+	}
+	memset(task, 0, sizeof(struct pi_cluster_task));
+	task->entry = &RunNetwork;
+	task->stack_size = STACK_SIZE;
+	task->slave_stack_size = SLAVE_STACK_SIZE;
+	task->arg = NULL;
 
-  //Input image size
-
-  printf("Entering main controller\n");
-
-#ifndef __EMUL__
-  pi_cluster_conf_init(&conf);
-  pi_open_from_conf(&cluster_dev, (void *)&conf);
-  pi_cluster_open(&cluster_dev);
-//  pi_freq_set(PI_FREQ_DOMAIN_CL,175000000);
-  task = pmsis_l2_malloc(sizeof(struct pi_cluster_task));
-  memset(task, 0, sizeof(struct pi_cluster_task));
-  task->entry = &RunNetwork;
-  task->stack_size = STACK_SIZE;
-  task->slave_stack_size = SLAVE_STACK_SIZE;
-  task->arg = NULL;
-#endif
+	printf("Constructor\n");
 
-  // Allocate some stacks for cluster in L1, rt_nb_pe returns how many cores exist.
-//  void *stacks = rt_alloc(RT_ALLOC_CL_DATA, STACK_SIZE*rt_nb_pe());
-//  if (stacks == NULL) return -1;
-
-  printf("Constructor\n");
-
-  // IMPORTANT - MUST BE CALLED AFTER THE CLUSTER IS SWITCHED ON!!!!
-  if (__PREFIX(CNN_Construct)())
-  {
-    printf("Graph constructor exited with an error\n");
-    return 1;
-  }
-
-#ifndef NO_IMAGE
-  printf("Reading image\n");
-  //Reading Image from Bridge
-  if (ReadImageFromFile(ImageName, AT_INPUT_WIDTH, AT_INPUT_HEIGHT, AT_INPUT_COLORS, (char *)vww_L2_Memory, AT_INPUT_SIZE*sizeof(IMAGE_IN_T), 1, 0)) {
-    printf("Failed to load image %s\n", ImageName);
-    return 1;
-  }
-  printf("Finished reading image\n");
-#endif
-#ifdef PRINT_IMAGE
-  for (int i=0; i<H; i++) {
-    for (int j=0; j<W; j++) {
-      printf("%03d, ", ImageInChar[W*i + j]);
-    }
-    printf("\n");
-  }
-#endif
-  ResOut = (short int *) AT_L2_ALLOC(0, 2*sizeof(short int));
+	// IMPORTANT - MUST BE CALLED AFTER THE CLUSTER IS SWITCHED ON!!!!
+	if (__PREFIX(CNN_Construct)())
+	{
+		printf("Graph constructor exited with an error\n");
+		return 1;
+	}
 
-  if (ResOut==0) {
-    printf("Failed to allocate Memory for Result (%ld bytes)\n", 2*sizeof(short int));
-    return 1;
-  }
+	printf("Reading image\n");
+	//Reading Image from Bridge
+	if (ReadImageFromFile(ImageName, AT_INPUT_WIDTH, AT_INPUT_HEIGHT, AT_INPUT_COLORS,
+			      		  Input_1, AT_INPUT_SIZE*sizeof(IMAGE_IN_T), IMGIO_OUTPUT_CHAR, 0)) {
+		printf("Failed to load image %s\n", ImageName);
+		return 1;
+	}
+	printf("Finished reading image\n");
+
+	printf("Call cluster\n");
+	// Execute the function "RunNetwork" on the cluster.
+	pi_cluster_send_task_to_cl(&cluster_dev, task);
+	//Check Results
+	if (Output_1[1] > Output_1[0]) {
+		printf("person seen (%d, %d)\n", Output_1[0], Output_1[1]);
+	} else {
+		printf("no person seen (%d, %d)\n", Output_1[0], Output_1[1]);
+	}
+	printf("\n");
 
-  printf("Call cluster\n");
-  // Execute the function "RunNetwork" on the cluster.
-#ifdef __EMUL__
-  RunNetwork(NULL);
-#else
-  pi_cluster_send_task_to_cl(&cluster_dev, task);
-#endif
-  
-  __PREFIX(CNN_Destruct)();
+	__PREFIX(CNN_Destruct)();
 
 #ifdef PERF
 	{
 		unsigned int TotalCycles = 0, TotalOper = 0;
 		printf("\n");
 		for (int i=0; i<(sizeof(AT_GraphPerf)/sizeof(unsigned int)); i++) {
-			printf("%45s: Cycles: %10d, Operations: %10d, Operations/Cycle: %f\n", AT_GraphNodeNames[i], AT_GraphPerf[i], AT_GraphOperInfosNames[i], ((float) AT_GraphOperInfosNames[i])/ AT_GraphPerf[i]);
+			printf("%45s: Cycles: %10d, Operations: %10d, Operations/Cycle: %f\n", AT_GraphNodeNames[i],
+			       AT_GraphPerf[i], AT_GraphOperInfosNames[i], ((float) AT_GraphOperInfosNames[i])/ AT_GraphPerf[i]);
 			TotalCycles += AT_GraphPerf[i]; TotalOper += AT_GraphOperInfosNames[i];
 		}
 		printf("\n");
@@ -169,19 +122,12 @@ int start()
 	}
 #endif
 
-#ifdef __EMUL__
-  dt_close_dump_file();
-#else
-  pmsis_exit(0);
-#endif
-
-  printf("Ended\n");
-  return 0;
+	pmsis_exit(0);
+	printf("Ended\n");
+	return 0;
 }
 
-#ifndef __EMUL__
 int main(void)
 {
-  return pmsis_kickoff((void *) start);
+	return pmsis_kickoff((void *) start);
 }
-#endif
diff --git a/examples/nntool/visual_wake/vww.h b/examples/nntool/visual_wake/vww.h
index 7870ebe44..6724cccca 100644
--- a/examples/nntool/visual_wake/vww.h
+++ b/examples/nntool/visual_wake/vww.h
@@ -13,7 +13,6 @@
 #include <fcntl.h>
 #include <sys/param.h>
 #include <string.h>
-#include "helpers.h"
 #endif
 
 extern AT_HYPERFLASH_FS_EXT_ADDR_TYPE __PREFIX(_L3_Flash);
diff --git a/examples/nntool/visual_wake/vww_emul.c b/examples/nntool/visual_wake/vww_emul.c
new file mode 100644
index 000000000..783304455
--- /dev/null
+++ b/examples/nntool/visual_wake/vww_emul.c
@@ -0,0 +1,95 @@
+/*
+ * Copyright (C) 2017 GreenWaves Technologies
+ * All rights reserved.
+ *
+ * This software may be modified and distributed under the terms
+ * of the BSD license.  See the LICENSE file for details.
+ *
+ */
+
+#include <stdio.h>
+
+#include "vww_emul.h"
+#include "vwwKernels.h"
+#include "gaplib/ImgIO.h"
+
+#define __XSTR(__s) __STR(__s)
+#define __STR(__s) #__s
+
+
+#define AT_INPUT_SIZE (AT_INPUT_WIDTH*AT_INPUT_HEIGHT*AT_INPUT_COLORS)
+
+#ifndef STACK_SIZE
+#define STACK_SIZE     2048 
+#endif
+
+AT_HYPERFLASH_FS_EXT_ADDR_TYPE __PREFIX(_L3_Flash) = 0;
+
+#include <sys/types.h>
+#include <unistd.h>
+#include <sys/stat.h>
+#include <fcntl.h>
+#include <sys/param.h>
+#include <string.h>
+
+// Softmax always outputs Q15 short int even from 8 bit input
+signed short int Output_1[2];
+typedef signed char IMAGE_IN_T;
+unsigned char Input_1[AT_INPUT_SIZE];
+
+static void RunNetwork()
+{
+  printf("Running on cluster Input_1(%p) Output_1(%p)\n", Input_1, Output_1);
+  __PREFIX(CNN)(Input_1, Output_1);
+  printf("Runner completed Input_1(%p) Output_1(%p)\n", Input_1, Output_1);
+
+  printf("\n");
+  
+  //Checki Results
+  if (Output_1[1] > Output_1[0]) {
+    printf("person seen (%d, %d)\n", Output_1[0], Output_1[1]);
+  } else {
+    printf("no person seen (%d, %d)\n", Output_1[0], Output_1[1]);
+  }
+  printf("\n");
+}
+
+int main(int argc, char *argv[]) 
+{
+  if (argc < 2) {
+    printf("Usage: %s [image_file]\n", argv[0]);
+    exit(1);
+  }
+  char *ImageName = argv[1];
+
+  //Input image size
+
+  printf("Entering main controller\n");
+
+  printf("Constructor\n");
+
+  // IMPORTANT - MUST BE CALLED AFTER THE CLUSTER IS SWITCHED ON!!!!
+  if (__PREFIX(CNN_Construct)())
+  {
+    printf("Graph constructor exited with an error\n");
+    return 1;
+  }
+
+  printf("Reading image Input_1(%p)\n", Input_1);
+  //Reading Image from Bridge
+  if (ReadImageFromFile(ImageName, AT_INPUT_WIDTH, AT_INPUT_HEIGHT, AT_INPUT_COLORS, Input_1, AT_INPUT_SIZE*sizeof(IMAGE_IN_T), IMGIO_OUTPUT_CHAR, 0)) {
+    printf("Failed to load image %s\n", ImageName);
+    return 1;
+  }
+  printf("Finished reading image\n");
+
+  printf("Call cluster Input_1(%p)\n", Input_1);
+  // Execute the function "RunNetwork" on the cluster.
+  RunNetwork(NULL);
+  
+  __PREFIX(CNN_Destruct)();
+
+  printf("Ended\n");
+  return 0;
+}
+
diff --git a/examples/nntool/visual_wake/vww_emul.h b/examples/nntool/visual_wake/vww_emul.h
new file mode 100644
index 000000000..88a4c860c
--- /dev/null
+++ b/examples/nntool/visual_wake/vww_emul.h
@@ -0,0 +1,18 @@
+
+#ifndef __VWW_H__
+#define __VWW_H__
+
+#define __PREFIX(x) vww ## x
+
+#include "Gap.h"
+
+#include <sys/types.h>
+#include <unistd.h>
+#include <sys/stat.h>
+#include <fcntl.h>
+#include <sys/param.h>
+#include <string.h>
+
+extern AT_HYPERFLASH_FS_EXT_ADDR_TYPE __PREFIX(_L3_Flash);
+
+#endif
diff --git a/examples/pmsis/test_periph/i2s/output/Makefile b/examples/pmsis/test_periph/i2s/output/Makefile
new file mode 100644
index 000000000..1ceceecb4
--- /dev/null
+++ b/examples/pmsis/test_periph/i2s/output/Makefile
@@ -0,0 +1,36 @@
+APP = test
+APP_SRCS = test.c
+APP_CFLAGS = -O3 -g
+APP_LDFLAGS = -lgcc
+
+CONFIG_I2S=1
+
+SAMPLING_FREQ = 44100
+WORD_SIZE = 16
+SIGNAL_FREQ = 4000
+STIM_WAV_0_0 ?= $(CONFIG_BUILD_DIR)/stim_0_0.wav
+
+override config_args += --config-opt=**/runner/gvsoc_dpi/enabled=true
+
+override config_args += --config-opt=board/components/mic0/mic/stim=$(STIM_WAV_0_0)
+override config_args += --config-opt=board/components/mic0/mic/stim_incr_start=0x0055
+override config_args += --config-opt=board/components/mic0/mic/stim_mode=incr
+
+override config_args += --config-opt=board/components/mic1/mic/stim=$(STIM_WAV_0_0)
+override config_args += --config-opt=board/components/mic1/mic/stim_incr_start=0x1055
+override config_args += --config-opt=board/components/mic1/mic/stim_mode=incr
+
+override config_args += --config-opt=board/components/mic2/mic/stim=$(STIM_WAV_0_0)
+override config_args += --config-opt=board/components/mic2/mic/stim_incr_start=0x2055
+override config_args += --config-opt=board/components/mic2/mic/stim_mode=incr
+
+override config_args += --config-opt=board/components/mic3/mic/stim=$(STIM_WAV_0_0)
+override config_args += --config-opt=board/components/mic3/mic/stim_incr_start=0x3055
+override config_args += --config-opt=board/components/mic3/mic/stim_mode=incr
+
+
+gen:
+	sox -n -r $(SAMPLING_FREQ) --bits $(WORD_SIZE) $(STIM_WAV_0_0) synth 3 sine $(SIGNAL_FREQ) vol 0.995
+
+
+include $(RULES_DIR)/pmsis_rules.mk
diff --git a/examples/pmsis/test_periph/i2s/output/test.c b/examples/pmsis/test_periph/i2s/output/test.c
new file mode 100644
index 000000000..b80fead6e
--- /dev/null
+++ b/examples/pmsis/test_periph/i2s/output/test.c
@@ -0,0 +1,120 @@
+/*
+ * Copyright (C) 2018 GreenWaves Technologies
+ *
+ * Licensed under the Apache License, Version 2.0 (the "License");
+ * you may not use this file except in compliance with the License.
+ * You may obtain a copy of the License at
+ *
+ *     http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+/* This example shows how to use I2S to send data to a DAC and/or speaker. */
+
+#include "pmsis.h"
+#include "bsp/bsp.h"
+
+#define NB_ELEM            ( 256 )
+#define ELEM_SIZE          ( sizeof(uint16_t) )
+#define BUFF_SIZE          ( NB_ELEM * ELEM_SIZE )
+
+#define NB_CHANNELS        ( 1 )
+#define NB_ACTIVE_CHANNELS ( 1 )
+
+PI_L2 static uint8_t ch_buff[NB_CHANNELS][2][BUFF_SIZE];
+static struct pi_device i2s;
+
+static void buffer_init(void *buffer, uint32_t size)
+{
+    uint8_t *buff = (uint8_t *) buffer;
+    for (uint32_t i=0; i<size; i++)
+    {
+        buff[i] = i | 0x55;
+    }
+}
+
+static int test_entry()
+{
+    int32_t errors = 0;
+
+    printf("Entering main controller\n");
+
+    // The configuration given when the driver is opened, is the global one
+    // which applies to all channels like the number of channels, sampling rate
+    // and so on.
+    struct pi_i2s_conf i2s_conf;
+    pi_i2s_conf_init(&i2s_conf);
+
+    i2s_conf.frame_clk_freq = 44100;
+    i2s_conf.itf = 0;
+    i2s_conf.word_size = 32;
+    i2s_conf.mem_word_size = 32;
+    i2s_conf.channels = NB_CHANNELS;
+    i2s_conf.options = PI_I2S_OPT_TDM;
+
+    pi_open_from_conf(&i2s, &i2s_conf);
+    errors = pi_i2s_open(&i2s);
+
+    if (errors)
+    {
+        printf("Error opening i2s : %lx\n", errors);
+        return -1;
+    }
+
+    // Now that the global configuration is given, configure each channel
+    // independently.
+    for (int i=0; i<(int) NB_ACTIVE_CHANNELS; i++)
+    {
+        // Enabled RX for slot i with pingpong buffers
+        i2s_conf.channel_id = i;
+        i2s_conf.options = PI_I2S_OPT_PINGPONG | PI_I2S_OPT_IS_TX | PI_I2S_OPT_ENABLED;
+        i2s_conf.block_size = BUFF_SIZE;
+        i2s_conf.pingpong_buffers[0] = ch_buff[i][0];
+        i2s_conf.pingpong_buffers[1] = ch_buff[i][1];
+        pi_i2s_ioctl(&i2s, PI_I2S_IOCTL_CONF_SET, &i2s_conf);
+
+        /* Init data buffer to send. */
+        buffer_init(ch_buff[i][0], BUFF_SIZE);
+        buffer_init(ch_buff[i][1], BUFF_SIZE);
+    }
+
+    // Start sending.
+    // Starting from there, the driver will alternate between the 2 pingpong
+    // buffers for each channel.
+    if (pi_i2s_ioctl(&i2s, PI_I2S_IOCTL_START, NULL))
+        return -1;
+
+    for (int i=0; i<(int) NB_ACTIVE_CHANNELS; i++)
+    {
+        /* Buffer arg is NULL because we are using pingpong buffers. */
+        pi_i2s_channel_write(&i2s, i, NULL, BUFF_SIZE);
+    }
+
+    // Transfer is done, close everything
+    pi_i2s_ioctl(&i2s, PI_I2S_IOCTL_STOP, NULL);
+    pi_i2s_close(&i2s);
+
+    if (errors)
+        printf("TEST FAILURE\n");
+    else
+        printf("TEST SUCCESS\n");
+
+    return errors;
+}
+
+void test_kickoff(void *arg)
+{
+    int ret = test_entry();
+    pmsis_exit(ret);
+}
+
+int main()
+{
+    printf("PMSIS I2S Output example\n");
+    return pmsis_kickoff((void *) test_kickoff);
+}
diff --git a/examples/pmsis/test_periph/test_camera_gc0308/Makefile b/examples/pmsis/test_periph/test_camera_gc0308/Makefile
index c3456b558..9a95dd8e6 100644
--- a/examples/pmsis/test_periph/test_camera_gc0308/Makefile
+++ b/examples/pmsis/test_periph/test_camera_gc0308/Makefile
@@ -1,6 +1,7 @@
 APP = test
-APP_SRCS += test.c ImgIO.c
+APP_SRCS += test.c
 APP_CFLAGS += -O3 -g
+APP_LDFLAGS += -lgaplib
 
 #APP_CFLAGS += -DHIMAX
 
diff --git a/examples/pmsis/test_periph/test_camera_gc0308/test.c b/examples/pmsis/test_periph/test_camera_gc0308/test.c
index 94423caa1..75d4fd228 100644
--- a/examples/pmsis/test_periph/test_camera_gc0308/test.c
+++ b/examples/pmsis/test_periph/test_camera_gc0308/test.c
@@ -5,7 +5,6 @@
  * This software may be modified and distributed under the terms
  * of the BSD license.  See the LICENSE file for details.
  *
- * Authors: Germain Haugou, ETH (germain.haugou@iis.ee.ethz.ch)
  */
 
 // This example shows how to strean the capture of a camera image using
@@ -17,35 +16,37 @@
 #include "bsp/bsp.h"
 #include "bsp/camera.h"
 #include "bsp/camera/gc0308.h"
-#include "ImgIO.h"
 
+#include "bsp/ram.h"
+#include "bsp/ram/hyperram.h"
+
+#include "gaplib/ImgIO.h"
 
 #define WIDTH    640
 #define HEIGHT   480
 #define PIXEL_SIZE  1
 
 #define BUFF_SIZE (WIDTH*HEIGHT*PIXEL_SIZE)
+#define ITER_SIZE  (0x1000)
 
-#if defined(__FREERTOS__)
-#define ITER_SIZE  BUFF_SIZE
-#else
-#define ITER_SIZE  (0x1FFFF)
-#endif
-
-PI_L2 unsigned char *buff;
+PI_L2 unsigned char *buff[2];
+PI_L2 unsigned char *imgIO_buff;
 
+static struct pi_device ram;
+static uint32_t l3_buff;
 static struct pi_device camera;
-static struct pi_device lcd;
 static pi_task_t ctrl_tasks[2];
+
 static int remaining_size;
+static int saved_size;
 static volatile int done;
 static int nb_transfers;
-static unsigned char *current_buff;
+static unsigned char current_buff;
+static int current_size[2];
 static int current_task;
-static pi_buffer_t buffer;
 
 static void handle_transfer_end(void *arg);
-
+static void handle_ram_end(void *arg);
 
 // This is called to enqueue new transfers
 static void enqueue_transfer()
@@ -63,39 +64,33 @@ static void enqueue_transfer()
 
         // Enqueue a transfer. The callback will be called once the transfer is finished
         // so that  a new one is enqueued while another one is already running
-        pi_camera_capture_async(&camera, current_buff, iter_size, pi_task_callback(task, handle_transfer_end, NULL));
+        pi_camera_capture_async(&camera, buff[current_task], iter_size, pi_task_callback(task, handle_transfer_end, (void *) current_task));
 
+        current_size[current_task] = iter_size;
         remaining_size -= iter_size;
         nb_transfers++;
-        current_buff += iter_size;
         current_task ^= 1;
     }
-
 }
 
-
 static void handle_transfer_end(void *arg)
 {
     nb_transfers--;
+    current_buff = (unsigned char) arg;
 
     enqueue_transfer();
 
-    if (nb_transfers == 0)
-        done = 1;
+    pi_task_t cb_tx;
+    pi_ram_write_async(&ram, (l3_buff+saved_size), buff[current_buff], (uint32_t) current_size[current_buff], pi_task_callback(&cb_tx, handle_ram_end, NULL));
+
+    saved_size += current_size[current_buff];
 }
 
-static int32_t open_display(struct pi_device *device)
+
+static void handle_ram_end(void *arg)
 {
-    struct pi_ili9341_conf ili_conf;
-    pi_ili9341_conf_init(&ili_conf);
-    pi_open_from_conf(device, &ili_conf);
-    if (pi_display_open(device))
-    {
-        printf("Failed to open display\n");
-        return -1;
-    }
-    pi_display_ioctl(device, PI_ILI_IOCTL_ORIENTATION, (void *) PI_ILI_ORIENTATION_270);
-    return 0;
+    if (nb_transfers == 0 && saved_size == BUFF_SIZE)
+        done = 1;
 }
 
 static int open_camera(struct pi_device *device)
@@ -113,31 +108,6 @@ static int open_camera(struct pi_device *device)
     return 0;
 }
 
-static void dump_cpi_reg()
-{
-    printf("addr glob: %X\n", (*(volatile unsigned int *)(long)(0x1A102480)));
-    printf("size glob: %X\n", (*(volatile unsigned int *)(long)(0x1A102484)));
-    printf("cfg glob: %X\n", (*(volatile unsigned int *)(long)(0x1A102488)));
-
-    printf("reg glob: %X\n", (*(volatile unsigned int *)(long)(0x1A1024A0)));
-    printf("ll glob: %X\n", (*(volatile unsigned int *)(long)(0x1A1024A4)));
-    printf("ur glob: %X\n", (*(volatile unsigned int *)(long)(0x1A1024A8)));
-    printf("size glob: %X\n", (*(volatile unsigned int *)(long)(0x1A1024AC)));
-    printf("filter glob: %X\n", (*(volatile unsigned int *)(long)(0x1A1024B0)));
-}
-
-static void dump_pixel(unsigned char *buff, unsigned int size)
-{
-    for(int i=0; i<size; i++)
-    {
-        if (i && i%320==0)
-            printf("\n");
-
-        printf("0x%X ", buff[i]);
-    }
-    printf("\n");
-}
-
 typedef struct gc0308_reg{
     uint8_t addr;
     uint8_t value;
@@ -145,6 +115,7 @@ typedef struct gc0308_reg{
 
 static gc0308_reg_t __gc0308_reg_init[] =
 {
+
 };
 
 uint8_t reg_value=0;
@@ -161,16 +132,6 @@ static void test_camera_i2c (struct pi_device *device)
     }
 }
 
-static void dump_camera_reg(struct pi_device *device)
-{
-    for(int addr = 0x0; addr<0xFF; addr++)
-    //int addr = 0x0;
-    {
-        pi_camera_reg_get(device, addr, &reg_value);
-        printf("addr %X = %X\n", addr, reg_value);
-    }
-}
-
 static int test_entry()
 {
     printf("Entering main controller\n");
@@ -180,36 +141,45 @@ static int test_entry()
         printf("Failed to open camera\n");
         goto error;
     }
-    dump_camera_reg(&camera);
 
-#if 0
-
-    if (open_display(&lcd))
+    /* Init & open ram. */
+    struct pi_hyperram_conf conf;
+    pi_hyperram_conf_init(&conf);
+    pi_open_from_conf(&ram, &conf);
+    if (pi_ram_open(&ram))
     {
-        printf("Failed to open display\n");
+        printf("Error ram open !\n");
         pmsis_exit(-3);
     }
 
-    buff = pmsis_l2_malloc(BUFF_SIZE);
-    if (buff == NULL) goto error;
+    if (pi_ram_alloc(&ram, &l3_buff, (uint32_t) BUFF_SIZE))
+    {
+        printf("Ram malloc failed !\n");
+        pmsis_exit(-4);
+    }
+
+
+    // prepare 2 buffer for double buffering
+    buff[0] = pmsis_l2_malloc(ITER_SIZE);
+    buff[1] = pmsis_l2_malloc(ITER_SIZE);
 
-    for (int i=0; i<BUFF_SIZE; i++)
-        buff[i] = 0x4F;
+    // prepare a full buffer for image IO
+    imgIO_buff = pmsis_l2_malloc(BUFF_SIZE);
+
+    if (buff[0] == NULL || buff[1] == NULL) goto error;
 
     remaining_size = BUFF_SIZE;
     nb_transfers = 0;
-    current_buff = buff;
+    current_buff = 0;
     current_task = 0;
+    saved_size = 0;
     done = 0;
 
-    buffer.data = buff;
-    pi_buffer_init(&buffer, PI_BUFFER_TYPE_L2, buff);
-    pi_buffer_set_format(&buffer, WIDTH, HEIGHT, 1, PI_BUFFER_FORMAT_RGB565);
-
     char name[25];
     int idx = 0;
     //while (1)
     {
+        printf("start to taking picture\n");
         enqueue_transfer();
         pi_camera_control(&camera, PI_CAMERA_CMD_START, 0);
         while(!done)
@@ -218,26 +188,20 @@ static int test_entry()
         }
         pi_camera_control(&camera, PI_CAMERA_CMD_STOP, 0);
 
-#if defined(DISPLAY)
-        pi_display_write(&lcd, &buffer, 0, 0, WIDTH, HEIGHT);
-#else
-#if defined(__FREERTOS__)
-        sprintf(name, "../../../output.raw", idx);
-#else
-        sprintf(name, "../../../output.raw", idx);
-#endif  /* __FREERTOS__ */
-        WriteImageToFile(name, WIDTH, HEIGHT, buff, PIXEL_SIZE);
+        pi_ram_read(&ram, l3_buff, imgIO_buff, (uint32_t) BUFF_SIZE);
+        sprintf(name, "../../../output_%d.ppm", idx);
+        //WriteImageToFile(name, 320, 240, PIXEL_SIZE, imgIO_buff, RGB565_IO);
+        WriteImageToFile(name, WIDTH, HEIGHT, PIXEL_SIZE, imgIO_buff, GRAY_SCALE_IO);
         idx++;
-#endif  /* 0 */
+
         done = 0;
         remaining_size = BUFF_SIZE;
+        saved_size = 0;
         nb_transfers = 0;
-        current_buff = buff;
+        current_buff = 0;
         current_task = 0;
     }
 
-#endif
-
     pi_camera_close(&camera);
 
     printf("Test success\n");
diff --git a/examples/pmsis/test_periph/test_camera_io/Makefile b/examples/pmsis/test_periph/test_camera_io/Makefile
index c3456b558..4f0a14570 100644
--- a/examples/pmsis/test_periph/test_camera_io/Makefile
+++ b/examples/pmsis/test_periph/test_camera_io/Makefile
@@ -1,8 +1,9 @@
 APP = test
-APP_SRCS += test.c ImgIO.c
+APP_SRCS += test.c
 APP_CFLAGS += -O3 -g
+APP_LDFLAGS += -lgaplib
 
-#APP_CFLAGS += -DHIMAX
+APP_CFLAGS += -DHIMAX
 
 #APP_CFLAGS += -DTRACE_CPI
 
diff --git a/examples/pmsis/test_periph/test_camera_io/test.c b/examples/pmsis/test_periph/test_camera_io/test.c
index 5b93fc5b1..502b1dde1 100644
--- a/examples/pmsis/test_periph/test_camera_io/test.c
+++ b/examples/pmsis/test_periph/test_camera_io/test.c
@@ -18,7 +18,7 @@
 #include "bsp/camera.h"
 #include "bsp/camera/himax.h"
 #include "bsp/camera/ov7670.h"
-#include "ImgIO.h"
+#include "gaplib/ImgIO.h"
 
 #include "bsp/display.h"
 #include "bsp/display/ili9341.h"
@@ -245,7 +245,7 @@ static int test_entry()
 
     char name[25];
     int idx = 0;
-    //while (1)
+    while (1)
     {
         enqueue_transfer();
         pi_camera_control(&camera, PI_CAMERA_CMD_START, 0);
@@ -258,12 +258,12 @@ static int test_entry()
 #if defined(DISPLAY)
         pi_display_write(&lcd, &buffer, 0, 0, WIDTH, HEIGHT);
 #else
-#if defined(__FREERTOS__)
-        sprintf(name, "../../../output.raw", idx);
+        sprintf(name, "../../../output%d.raw", idx);
+#if defined (HIMAX)
+        WriteImageToFile(name, WIDTH, HEIGHT, PIXEL_SIZE, buff, GRAY_SCALE_IO);
 #else
-        sprintf(name, "../../../output.raw", idx);
-#endif  /* __FREERTOS__ */
-        WriteImageToFile(name, WIDTH, HEIGHT, buff, PIXEL_SIZE);
+        WriteImageToFile(name, WIDTH, HEIGHT, PIXEL_SIZE, buff, RGB565_IO);
+#endif
         idx++;
 #endif  /* 0 */
         done = 0;
diff --git a/examples/pmsis/test_periph/test_camera_lcd/Makefile b/examples/pmsis/test_periph/test_camera_lcd/Makefile
index 5b60e805f..2ed541994 100644
--- a/examples/pmsis/test_periph/test_camera_lcd/Makefile
+++ b/examples/pmsis/test_periph/test_camera_lcd/Makefile
@@ -3,7 +3,7 @@
 
 APP              = test
 APP_SRCS        += test_camera_lcd.c $(GAP_LIB_PATH)/img_io/ImgIO.c
-APP_INC         += . $(GAP_LIB_PATH)/include
+APP_INC         += . $(GAP_LIB_PATH)/include $(TILER_INC)
 APP_CFLAGS      += -O3 -g
 
 ifeq ($(ASYNC), 1)
@@ -17,8 +17,6 @@ endif
 override config_args += --config-opt=camera/image-stream=$(CURDIR)/imgTest0.pgm
 override config_args += --config-opt=display/enabled=true
 
-RUNNER_CONFIG = $(CURDIR)/config.ini
-
 clean::
 	@rm -rf img_OUT_*.ppm
 
diff --git a/examples/pmsis/test_periph/test_camera_lcd/test_camera_lcd.c b/examples/pmsis/test_periph/test_camera_lcd/test_camera_lcd.c
index 371b435c0..32d3a72b3 100644
--- a/examples/pmsis/test_periph/test_camera_lcd/test_camera_lcd.c
+++ b/examples/pmsis/test_periph/test_camera_lcd/test_camera_lcd.c
@@ -39,7 +39,7 @@ static void cam_handler(void *arg)
     pi_display_write_async(&lcd, &buffer, 0, 0, LCD_WIDTH, LCD_HEIGHT, &task);
     #else
     sprintf(imgName, "../../../img_OUT_%ld.ppm", idx);
-    WriteImageToFile(imgName, CAMERA_WIDTH, CAMERA_HEIGHT, imgBuff0, sizeof(uint8_t));
+    WriteImageToFile(imgName, CAMERA_WIDTH, CAMERA_HEIGHT, sizeof(uint8_t), imgBuff0, GRAY_SCALE_IO);
     idx++;
     //lcd_handler(NULL);
     #endif  /* DISPLAY */
@@ -191,7 +191,7 @@ void test_camera_with_lcd(void)
         #else
         sprintf(imgName, "../../../img_OUT_%ld.ppm", idx);
         printf("Dumping image %s\n", imgName);
-        WriteImageToFile(imgName, CAMERA_WIDTH, CAMERA_HEIGHT, imgBuff0, sizeof(uint8_t));
+        WriteImageToFile(imgName, CAMERA_WIDTH, CAMERA_HEIGHT, sizeof(uint8_t), imgBuff0, GRAY_SCALE_IO);
         idx++;
         #endif  /* DISPLAY */
         #endif  /* ASYNC */
diff --git a/examples/pmsis/test_periph/test_camera_ov5640/test.c b/examples/pmsis/test_periph/test_camera_ov5640/test.c
index fdabcd8a5..8bcffec86 100644
--- a/examples/pmsis/test_periph/test_camera_ov5640/test.c
+++ b/examples/pmsis/test_periph/test_camera_ov5640/test.c
@@ -32,20 +32,18 @@
 PI_L2 unsigned char *buff[2];
 PI_L2 unsigned char *imgIO_buff;
 
+static struct pi_device ram;
+static uint32_t l3_buff;
 static struct pi_device camera;
 static pi_task_t ctrl_tasks[2];
-static pi_task_t ram_tasks[2];
+
 static int remaining_size;
 static int saved_size;
 static volatile int done;
 static int nb_transfers;
-static int nb_hyper_transfers;
-static int total_hyper_transfers;
 static unsigned char current_buff;
 static int current_size[2];
 static int current_task;
-static struct pi_device ram;
-static uint32_t l3_buff;
 
 static void handle_transfer_end(void *arg);
 static void handle_ram_end(void *arg);
@@ -58,17 +56,18 @@ static void enqueue_transfer()
     // at the same time)
     while (remaining_size > 0 && nb_transfers < 2)
     {
-        current_size[current_task] = ITER_SIZE;
-        if (remaining_size < ITER_SIZE)
-            current_size[current_task] = remaining_size;
+        int iter_size = ITER_SIZE;
+        if (remaining_size < iter_size)
+            iter_size = remaining_size;
 
         pi_task_t *task = &ctrl_tasks[current_task];
 
         // Enqueue a transfer. The callback will be called once the transfer is finished
         // so that  a new one is enqueued while another one is already running
-        pi_camera_capture_async(&camera, buff[current_task], current_size[current_task], pi_task_callback(task, handle_transfer_end, NULL));
+        pi_camera_capture_async(&camera, buff[current_task], iter_size, pi_task_callback(task, handle_transfer_end, (void *) current_task));
 
-        remaining_size -= current_size[current_task];
+        current_size[current_task] = iter_size;
+        remaining_size -= iter_size;
         nb_transfers++;
         current_task ^= 1;
     }
@@ -77,25 +76,20 @@ static void enqueue_transfer()
 static void handle_transfer_end(void *arg)
 {
     nb_transfers--;
-    current_buff = current_task;
+    current_buff = (unsigned char) arg;
 
     enqueue_transfer();
 
-    if (saved_size < BUFF_SIZE && nb_hyper_transfers < 2)
-    {
-        pi_task_t *task = &ram_tasks[current_task];
-        pi_ram_write_async(&ram, (l3_buff+saved_size), buff[current_buff], (uint32_t) current_size[current_buff], pi_task_callback(task, handle_ram_end, NULL));
-        saved_size += current_size[current_buff];
-        nb_hyper_transfers ++;
-    }
+    pi_task_t cb_tx;
+    pi_ram_write_async(&ram, (l3_buff+saved_size), buff[current_buff], (uint32_t) current_size[current_buff], pi_task_callback(&cb_tx, handle_ram_end, NULL));
+
+    saved_size += current_size[current_buff];
 }
 
 
 static void handle_ram_end(void *arg)
 {
-    total_hyper_transfers ++;
-    nb_hyper_transfers --;
-    if (nb_transfers == 0 && saved_size == BUFF_SIZE && nb_hyper_transfers == 0)
+    if (nb_transfers == 0 && saved_size == BUFF_SIZE)
         done = 1;
 }
 
@@ -197,12 +191,11 @@ static void ov5640_test_pattern(struct pi_device *device)
 
 static int test_entry()
 {
-    //printf("Entering main controller\n");
+    printf("Entering main controller\n");
     pi_freq_set(PI_FREQ_DOMAIN_FC, 250000000);
     pi_perf_conf(1 << PI_PERF_CYCLES | 1 << PI_PERF_ACTIVE_CYCLES);
-    pi_perf_reset();
-    uint32_t cycles = pi_perf_read(PI_PERF_ACTIVE_CYCLES);
-    uint32_t tim_cycles = pi_perf_read(PI_PERF_CYCLES);
+    uint32_t cycles, tim_cycles;
+    uint32_t start = pi_perf_read(PI_PERF_CYCLES);
 
     pi_perf_start();
 
@@ -257,7 +250,7 @@ static int test_entry()
 
 
     unsigned int cfg_glob = (*(volatile unsigned int *)(long)(0x1A1024A0));
-    cfg_glob |= ((0x4<<1)|0x1); // enable frame drop, and drop 1 image
+    cfg_glob |= ((0x5<<1)|0x1); // enable frame drop, and drop 1 image
     (*(volatile unsigned int *)(long)(0x1A1024A0)) = cfg_glob;
 
     //while (1)
diff --git a/gvsoc/gvsoc/bin/gvsoc_analyze_insn b/gvsoc/gvsoc/bin/gvsoc_analyze_insn
new file mode 100755
index 000000000..6d985340f
--- /dev/null
+++ b/gvsoc/gvsoc/bin/gvsoc_analyze_insn
@@ -0,0 +1,205 @@
+#!/usr/bin/env python3
+
+import argparse
+import os
+from subprocess import Popen, PIPE
+import re
+from prettytable import PrettyTable
+import collections
+
+
+class Insn(object):
+
+  def __init__(self, label):
+    self.label = label
+    self.nb = 0
+    self.min = -1
+    self.max = -1
+    self.total = 0
+
+  def add_instance(self, cycles):
+    self.nb += 1
+    self.total += cycles
+    if self.min == -1 or cycles < self.min:
+      self.min = cycles
+    if self.max == -1 or cycles > self.max:
+      self.max = cycles
+
+
+class Trace_line(object):
+
+  def __init__(self, time, cycles, path, debug, mode, pc, instr, label):
+    self.time = time
+    self.cycles = cycles
+    self.path = path
+    self.debug = debug
+    self.mode = mode
+    self.pc = pc
+    self.instr = instr
+    self.label = label
+    self.duration = 1
+
+  def set_duration(self, next_line_cycles):
+    self.duration = next_line_cycles - self.cycles
+
+
+
+class Trace_file(object):
+
+  def __init__(self, path):
+    self.insns = {}
+    self.lines = []
+
+
+    with open(path) as f:
+        prev_line = None
+        for line in f.readlines()[1:]:
+          try:
+            time, cycles, path, debug, mode, pc, instr = re.findall('([ \t]*\d+):([ \t]*\d+):([ \t]*\[.*\])[ \t]*([^ ^\t]*)[ \t]*([^ ^\t]*)[ \t]*([^ ^\t]*)[ \t]*(.*)', line)[0]
+          except:
+            time, cycles, pc, opcode, instr = re.findall('[ \t]*(\d+ns)[ \t]*(\d+)[ \t]*([^ ^\t]*)[ \t]*([^ ^\t]*)[ \t]*(.*)', line)[0]
+            debug = None
+            path = None
+            mode = None
+          
+          label = instr.split()[0]
+          cycles = int(cycles, 0)
+
+          if label.find("c.") == 0:
+            label = label.replace("c.", "")
+
+          if label == 'li':
+            label = 'add'
+          elif label == 'mv':
+            label = 'add'
+          elif label.find('add') == 0:
+            label = 'add'
+          elif label.find('jr') == 0:
+            label = 'jalr'
+          elif label.find('swsp') == 0:
+            label = 'sw'
+          elif label.find('lwsp') == 0:
+            label = 'lw'
+          elif label.find('p.extract') == 0:
+            label = 'p.extract'
+          elif label.find('p.bclr') == 0:
+            label = 'p.p.bclr'
+          elif label.find('beq') == 0:
+            label = 'beq'
+          elif label.find('pv.shuffle') == 0:
+            label = 'pv.shuffle'
+
+          line = Trace_line(time, cycles, path, debug, mode, pc, instr, label)
+          self.lines.append(line)
+
+          if prev_line is not None:
+            prev_line.set_duration(cycles)
+
+          prev_line = line
+
+
+    for line in self.lines:
+      if self.insns.get(line.label) is None:
+        self.insns[line.label] = Insn(line.label)
+
+      self.insns[line.label].add_instance(line.duration)
+
+
+  def dump(self):
+    for name, insn in self.insns.items():
+      print ('%s %d %f' % (name, insn.nb, float(insn.total) / insn.nb))
+    
+
+
+
+parser = argparse.ArgumentParser(description='Generate PC debug info')
+
+parser.add_argument("--trace", dest="traces", default=[], action="append", help="Specify trace input file")
+
+args = parser.parse_args()
+
+
+trace_files = collections.OrderedDict()
+
+for trace_file_path in args.traces:
+  trace_files[trace_file_path] = Trace_file(trace_file_path)
+
+
+insns = []
+
+for path, trace_file in trace_files.items():
+  for label, insn in trace_file.insns.items():
+    found_insn = None
+    for insn_stat in insns:
+      if insn_stat[0] == label:
+        found_insn = insn_stat
+        break
+    
+    if found_insn is None:
+      found_insn = [ label, insn.total]
+      insns.append(found_insn)
+
+
+
+rows = ['Instruction']
+
+for path, trace_file in trace_files.items():
+  rows.append('Occurences (%s)' % path)
+  rows.append('Duration (%s)' % path)
+
+if len(trace_files.values()) == 2:
+  rows.append('diff')
+
+
+table = PrettyTable(rows)
+
+table.float_format = ".2"
+table.align = "r"
+table.align['Instruction'] = 'l'
+
+total = 0
+
+for insn in insns:
+  row = [insn[0]]
+  trace_insns = []
+  for path, trace_file in trace_files.items():
+    trace_insn = trace_file.insns.get(insn[0])
+    if trace_insn is None:
+      duration = 0
+      nb = 0
+      trace_insns.append(None)
+    else:
+      duration = float(trace_insn.total) / trace_insn.nb
+      nb = trace_insn.nb
+      trace_insns.append(trace_insn)
+
+    row.append(nb)
+    row.append(duration)
+
+  if len(trace_files.values()) == 2:
+    if trace_insns[0] is None:
+      count0 = 0
+    else:
+      count0 = trace_insns[0].total
+    if trace_insns[1] is None:
+      count1 = 0
+    else:
+      count1 = trace_insns[1].total
+
+    row.append(count1 - count0)
+    total += count1 - count0
+
+  table.add_row(row)
+
+
+if len(trace_files.values()) == 2:
+  row = ['Total']
+
+  for path, trace_file in trace_files.items():
+    row.append('')
+    row.append('')
+
+  row.append(total)
+  table.add_row(row)
+
+print (table)
\ No newline at end of file
diff --git a/gvsoc/gvsoc/dpi-wrapper/Makefile b/gvsoc/gvsoc/dpi-wrapper/Makefile
index 568c01f76..c589e12de 100644
--- a/gvsoc/gvsoc/dpi-wrapper/Makefile
+++ b/gvsoc/gvsoc/dpi-wrapper/Makefile
@@ -6,7 +6,7 @@ CFLAGS += -I$(INSTALL_DIR)/include -fPIC
 LDFLAGS += -L$(INSTALL_DIR)/lib -fPIC -shared -O3 -g -ljson
 
 DPI_CFLAGS += $(CFLAGS) -DUSE_DPI
-DPI_LDFLAGS += $(LDFLAGS) -lpulpvp-debug
+DPI_LDFLAGS += $(LDFLAGS) -lpulpvp-sv
 
 DPI_CFLAGS += -Iext/sv/include -Iext/nosv
 
diff --git a/gvsoc/gvsoc/dpi-wrapper/src/dpi.cpp b/gvsoc/gvsoc/dpi-wrapper/src/dpi.cpp
index 74d3b3545..df632ea38 100644
--- a/gvsoc/gvsoc/dpi-wrapper/src/dpi.cpp
+++ b/gvsoc/gvsoc/dpi-wrapper/src/dpi.cpp
@@ -18,6 +18,7 @@
  * Authors: Germain Haugou, ETH (germain.haugou@iis.ee.ethz.ch)
  */
 
+
 #include <stdint.h>
 #include <stdio.h>
 #include <gv/gvsoc.h>
diff --git a/gvsoc/gvsoc/engine/include/gv/gvsoc.h b/gvsoc/gvsoc/engine/include/gv/gvsoc.h
index 0c4906e1b..a63c349d9 100644
--- a/gvsoc/gvsoc/engine/include/gv/gvsoc.h
+++ b/gvsoc/gvsoc/engine/include/gv/gvsoc.h
@@ -41,4 +41,4 @@ void *gv_chip_pad_bind(void *handle, char *name, int ext_handle);
 }
 #endif
 
-#endif
\ No newline at end of file
+#endif
diff --git a/gvsoc/gvsoc/models/Makefile b/gvsoc/gvsoc/models/Makefile
index f230c1ea6..4adaa65ac 100644
--- a/gvsoc/gvsoc/models/Makefile
+++ b/gvsoc/gvsoc/models/Makefile
@@ -21,7 +21,8 @@ VP_DIRS=memory pulp pulp/fll pulp/stdout pulp/chips/pulpissimo cpu/iss \
   pulp/chips/multino pulp/efuse board pulp/chips/arnold \
   devices/hyperbus devices/spiflash vendor/dolphin pulp/chips/pulpissimo_v1 \
   pulp/rtc pulp/gpio pulp/chips/gap_rev1 pulp/chips/pulp_v1 pulp/chips/vivosoc3_1 \
-  pulp/mram pulp/hwce cache pulp/chips/gap8_revc pulp/hwacc devices/uart devices/sound
+  pulp/mram pulp/hwce cache pulp/chips/gap8_revc pulp/hwacc devices/uart devices/sound \
+  devices/testbench
 
 
 -include $(ROOT_VP_BUILD_DIR)/props.mk
diff --git a/gvsoc/gvsoc/models/cpu/iss/include/isa_lib/int.h b/gvsoc/gvsoc/models/cpu/iss/include/isa_lib/int.h
index 71ec60964..8fd3290cc 100644
--- a/gvsoc/gvsoc/models/cpu/iss/include/isa_lib/int.h
+++ b/gvsoc/gvsoc/models/cpu/iss/include/isa_lib/int.h
@@ -54,6 +54,14 @@ static inline unsigned int lib_XOR(iss_cpu_state_t *s, unsigned int a, unsigned
 static inline unsigned int lib_OR(iss_cpu_state_t *s, unsigned int a, unsigned int b) { return a | b; }
 static inline unsigned int lib_AND(iss_cpu_state_t *s, unsigned int a, unsigned int b) { return a & b; }
 
+static inline uint64_t lib_SLL_64(iss_cpu_state_t *s, uint64_t a, uint64_t b) { return a << b; }
+static inline uint64_t lib_SRL_64(iss_cpu_state_t *s, uint64_t a, uint64_t b) { return a >> b; }
+static inline uint64_t lib_SRA_64(iss_cpu_state_t *s, uint64_t a, uint64_t b) { return ((int32_t)a) >> b; }
+static inline uint64_t lib_ROR_64(iss_cpu_state_t *s, uint64_t a, uint64_t b) { return (a >> b) | (a << (32 - b)); }
+static inline uint64_t lib_XOR_64(iss_cpu_state_t *s, uint64_t a, uint64_t b) { return a ^ b; }
+static inline uint64_t lib_OR_64(iss_cpu_state_t *s, uint64_t a, uint64_t b) { return a | b; }
+static inline uint64_t lib_AND_64(iss_cpu_state_t *s, uint64_t a, uint64_t b) { return a & b; }
+
 
 
 
@@ -84,10 +92,13 @@ static inline unsigned int lib_ADD_C(iss_cpu_state_t *s, unsigned int a, unsigne
 #endif
 
 static inline unsigned int lib_ADD(iss_cpu_state_t *s, unsigned int a, unsigned int b) { return a + b; }
+static inline uint64_t lib_ADD_64(iss_cpu_state_t *s, uint64_t a, uint64_t b) { return a + b; }
 #ifdef ISS_STATE_HAS_CARRY
 static inline unsigned int lib_ADDC_C(iss_cpu_state_t *s, unsigned int a, unsigned int b) { return addWithCarry(s, a, b); }
 #endif
 static inline unsigned int lib_SUB(iss_cpu_state_t *s, unsigned int a, unsigned int b) { return a - b; }
+static inline uint64_t lib_SUB_64(iss_cpu_state_t *s, uint64_t a, uint64_t b) { return a - b; }
+
 
 #ifdef ISS_STATE_HAS_CARRY
 static inline unsigned int lib_SUB_C(iss_cpu_state_t *s, unsigned int a, unsigned int b) {
@@ -109,6 +120,12 @@ static inline unsigned int lib_MACC(iss_cpu_state_t *s, unsigned int a, unsigned
 static inline unsigned int lib_MSU(iss_cpu_state_t *s, unsigned int a, unsigned int b, unsigned int c) { return a - b * c; }
 static inline unsigned int lib_MMUL(iss_cpu_state_t *s, unsigned int a, unsigned int b, unsigned int c) { return - b * c; }
 
+
+static inline uint64_t lib_MACS_64(iss_cpu_state_t *s, int64_t a, int64_t b, int64_t c) { return a + b * c; }
+static inline uint64_t lib_MSUS_64(iss_cpu_state_t *s, int64_t a, int64_t b, int64_t c) { return a - b * c; }
+static inline uint64_t lib_MACU_64(iss_cpu_state_t *s, uint64_t a, uint64_t b, uint64_t c) { return a + b * c; }
+static inline uint64_t lib_MSUU_64(iss_cpu_state_t *s, uint64_t a, uint64_t b, uint64_t c) { return a - b * c; }
+
 #define SL(val) ((int16_t)((val) & 0xffff))
 #define SH(val) ((int16_t)(((val)>>16) & 0xffff))
 #define ZL(val) ((uint16_t)((val) & 0xffff))
@@ -279,6 +296,8 @@ static inline unsigned int lib_MMUL_ZH_SH(iss_cpu_state_t *s, unsigned int b, un
 
 static inline unsigned int lib_MULS(iss_cpu_state_t *s, int a, int b) { return a * b; }
 static inline unsigned int lib_MULU(iss_cpu_state_t *s, unsigned int a, unsigned int b) { return a * b; }
+static inline uint64_t lib_MULS_64(iss_cpu_state_t *s, int64_t a, int64_t b) { return a * b; }
+static inline uint64_t lib_MULU_64(iss_cpu_state_t *s, uint64_t a, uint64_t b) { return a * b; }
 static inline unsigned int lib_DIVS(iss_cpu_state_t *s, int a, int b) { if (b == 0) return 0; else return a / b; }
 static inline unsigned int lib_DIVU(iss_cpu_state_t *s, unsigned int a, unsigned int b) { if (b == 0) return 0; else return a / b; }
 static inline unsigned int lib_MINU(iss_cpu_state_t *s, unsigned int a, unsigned int b) { return a < b ? a : b; }
@@ -289,6 +308,11 @@ static inline int lib_ABS(iss_cpu_state_t *s, int a) { return a >= 0 ? a : -a; }
 static inline unsigned int lib_AVGU(iss_cpu_state_t *s, unsigned int a, unsigned int b) { return (a + b) >> 1; }
 static inline int lib_AVGS(iss_cpu_state_t *s, int a, int b) { return (a + b) >> 1; }
 
+static inline uint64_t lib_MINU_64(iss_cpu_state_t *s, uint64_t a, uint64_t b) { return a < b ? a : b; }
+static inline int64_t lib_MINS_64(iss_cpu_state_t *s, int a, int64_t b) { return a < b ? a : b; }
+static inline uint64_t lib_MAXU_64(iss_cpu_state_t *s, uint64_t a, uint64_t b) { return a > b ? a : b; }
+static inline int64_t lib_MAXS_64(iss_cpu_state_t *s, int a, int64_t b) { return a > b ? a : b; }
+static inline int64_t lib_ABS_64(iss_cpu_state_t *s, int64_t a) { return a >= 0 ? a : -a; }
 
 
 
@@ -352,6 +376,17 @@ static inline unsigned int lib_CNT(iss_cpu_state_t *s, unsigned int t) {
 #endif
 }
 
+static inline unsigned int lib_CNT_64(iss_cpu_state_t *s, uint64_t t) {
+#if 1
+  return __builtin_popcount(t);
+#else
+  uint64_t v = cpu->regs[pc->inReg[0]];
+  v = v - ((v >> 1) & 0x55555555);
+  v = (v & 0x33333333) + ((v >> 2) & 0x33333333);
+  cpu->regs[pc->outReg[0]] = ((v + (v >> 4) & 0xF0F0F0F) * 0x1010101) >> 24;
+#endif
+}
+
 static inline unsigned int lib_CLB(iss_cpu_state_t *s, unsigned int t)
 {
   if (t == 0) return 0;
diff --git a/gvsoc/gvsoc/models/cpu/iss/include/isa_lib/macros.h b/gvsoc/gvsoc/models/cpu/iss/include/isa_lib/macros.h
index 32386af81..ab269cf6c 100644
--- a/gvsoc/gvsoc/models/cpu/iss/include/isa_lib/macros.h
+++ b/gvsoc/gvsoc/models/cpu/iss/include/isa_lib/macros.h
@@ -40,6 +40,9 @@
 #define REG_SET(reg,val) iss_set_reg(iss, insn->out_regs[reg], val)
 #define IN_REG_SET(reg,val) iss_set_reg(iss, insn->in_regs[reg], val)
 
+#define REG64_GET(reg) iss_get_reg64(iss, insn->in_regs[reg])
+#define REG64_SET(reg,val) iss_set_reg64(iss, insn->out_regs[reg], val)
+
 #define SIM_GET(index) insn->sim[index]
 #define UIM_GET(index) insn->uim[index]
 
diff --git a/gvsoc/gvsoc/models/cpu/iss/include/iss.hpp b/gvsoc/gvsoc/models/cpu/iss/include/iss.hpp
index 191187000..c2d1f4e38 100644
--- a/gvsoc/gvsoc/models/cpu/iss/include/iss.hpp
+++ b/gvsoc/gvsoc/models/cpu/iss/include/iss.hpp
@@ -35,6 +35,7 @@
 #include "pulp_v2.hpp"
 #include "rvXgap8.hpp"
 #include "rvXgap9.hpp"
+#include "rvXint64.hpp"
 #include "rnnext.hpp"
 
 #endif
diff --git a/gvsoc/gvsoc/models/cpu/iss/include/regs.hpp b/gvsoc/gvsoc/models/cpu/iss/include/regs.hpp
index 921e65df0..4f38dc713 100644
--- a/gvsoc/gvsoc/models/cpu/iss/include/regs.hpp
+++ b/gvsoc/gvsoc/models/cpu/iss/include/regs.hpp
@@ -54,6 +54,28 @@ static inline iss_reg_t iss_get_reg(iss_t *iss, int reg)
   return iss_get_reg_untimed(iss, reg);
 }
 
+static inline iss_reg64_t iss_get_reg64_untimed(iss_t *iss, int reg)
+{
+  if (reg == 0)
+      return 0;
+  else
+      return (((uint64_t)iss->cpu.regfile.regs[reg+1]) << 32) + iss->cpu.regfile.regs[reg];
+}
+
+static inline void iss_set_reg64(iss_t *iss, int reg, iss_reg64_t value)
+{
+  if (reg != 0)
+  {
+    iss->cpu.regfile.regs[reg] = value & 0xFFFFFFFF;
+    iss->cpu.regfile.regs[reg+1] = value >> 32;
+  }
+}
+
+static inline iss_reg64_t iss_get_reg64(iss_t *iss, int reg)
+{
+  return iss_get_reg64_untimed(iss, reg);
+}
+
 static inline iss_reg_t iss_get_reg_for_jump(iss_t *iss, int reg) {
   //unsigned long regCycle = cpu->regsCycle[reg];
   //if (cpu->cycles < regCycle + 1) {
diff --git a/gvsoc/gvsoc/models/cpu/iss/include/rvXint64.hpp b/gvsoc/gvsoc/models/cpu/iss/include/rvXint64.hpp
new file mode 100644
index 000000000..8317e246e
--- /dev/null
+++ b/gvsoc/gvsoc/models/cpu/iss/include/rvXint64.hpp
@@ -0,0 +1,321 @@
+/*
+ * Copyright (C) 2018 ETH Zurich and University of Bologna
+ *
+ * Licensed under the Apache License, Version 2.0 (the "License");
+ * you may not use this file except in compliance with the License.
+ * You may obtain a copy of the License at
+ *
+ *     http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+/* 
+ * Authors: Germain Haugou, ETH (germain.haugou@iis.ee.ethz.ch)
+ */
+
+#ifndef __CPU_ISS_RVXINT64_HPP
+#define __CPU_ISS_RVXINT64_HPP
+
+#include "iss_core.hpp"
+#include "isa_lib/int.h"
+#include "isa_lib/macros.h"
+
+
+
+static inline iss_insn_t *add_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, LIB_CALL2(lib_ADD_64, REG64_GET(0), REG64_GET(1)));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *sub_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, LIB_CALL2(lib_SUB_64, REG64_GET(0), REG64_GET(1)));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *sll_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, LIB_CALL2(lib_SLL_64, REG64_GET(0), REG64_GET(1)));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *slt_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG_SET(0, (int32_t)REG64_GET(0) < (int32_t)REG64_GET(1));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *sltu_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG_SET(0, REG64_GET(0) < REG64_GET(1));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *xor_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, LIB_CALL2(lib_XOR_64, REG64_GET(0), REG64_GET(1)));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *srl_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, LIB_CALL2(lib_SRL_64, REG64_GET(0), REG64_GET(1)));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *sra_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, LIB_CALL2(lib_SRA_64, REG64_GET(0), REG64_GET(1)));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *or_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, LIB_CALL2(lib_OR_64, REG64_GET(0), REG64_GET(1)));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *and_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG_SET(0, LIB_CALL2(lib_AND_64, REG64_GET(0), REG64_GET(1)));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *slli_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, LIB_CALL2(lib_SLL_64, REG64_GET(0), UIM_GET(0)));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *srli_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, LIB_CALL2(lib_SRL_64, REG64_GET(0), UIM_GET(0)));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *srai_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, LIB_CALL2(lib_SRA_64, REG64_GET(0), UIM_GET(0)));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *addi_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, LIB_CALL2(lib_ADD_64, REG64_GET(0), SIM_GET(0)));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *slti_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG_SET(0, (int32_t)REG64_GET(0) < insn->sim[0]);
+    return insn->next;
+}
+
+
+static inline iss_insn_t *sltiu_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG_SET(0, REG64_GET(0) < (uint32_t)SIM_GET(0));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *xori_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, LIB_CALL2(lib_XOR_64, REG64_GET(0), SIM_GET(0)));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *ori_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, LIB_CALL2(lib_OR_64, REG64_GET(0), SIM_GET(0)));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *andi_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, LIB_CALL2(lib_AND_64, REG64_GET(0), SIM_GET(0)));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *p_abs_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+  REG64_SET(0, LIB_CALL1(lib_ABS_64, REG64_GET(0)));
+  return insn->next;
+}
+
+
+static inline iss_insn_t *p_seq_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+
+    REG_SET(0, REG64_GET(0) == REG64_GET(1));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *p_sne_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+
+    REG_SET(0, REG64_GET(0) != REG64_GET(1));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *p_slet_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+
+    REG_SET(0, (int64_t)REG64_GET(0) <= (int64_t)REG64_GET(1));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *p_sletu_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG_SET(0, REG64_GET(0) <= REG64_GET(1));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *p_min_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, LIB_CALL2(lib_MINS_64, REG64_GET(0), REG64_GET(1)));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *p_minu_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, LIB_CALL2(lib_MINU_64, REG64_GET(0), REG64_GET(1)));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *p_max_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, LIB_CALL2(lib_MAXS_64, REG64_GET(0), REG64_GET(1)));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *p_maxu_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, LIB_CALL2(lib_MAXU_64, REG64_GET(0), REG64_GET(1)));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *p_cnt_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+  REG_SET(0, LIB_CALL1(lib_CNT_64, REG64_GET(0)));
+  return insn->next;
+}
+
+
+static inline iss_insn_t *p_exths_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, iss_get_signed_value64(REG_GET(0), 16));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *p_exthz_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, iss_get_field64(REG_GET(0), 0, 16));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *p_extbs_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, iss_get_signed_value64(REG_GET(0), 8));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *p_extbz_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, iss_get_field64(REG_GET(0), 0, 8));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *p_extws_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, iss_get_signed_value64(REG_GET(0), 8));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *p_extwz_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, iss_get_field64(REG_GET(0), 0, 8));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *p_mac_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+    REG64_SET(0, LIB_CALL3(lib_MACS_64, REG64_GET(2), REG_GET(0), REG_GET(1)));
+    return insn->next;
+}
+
+
+static inline iss_insn_t *p_msu_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+  REG64_SET(0, LIB_CALL3(lib_MSUS_64, REG64_GET(2), REG_GET(0), REG_GET(1)));
+  return insn->next;
+}
+
+
+static inline iss_insn_t *p_macu_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+  REG64_SET(0, LIB_CALL3(lib_MACU_64, REG64_GET(2), REG_GET(0), REG_GET(1)));
+  return insn->next;
+}
+
+
+static inline iss_insn_t *p_msuu_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+  REG64_SET(0, LIB_CALL3(lib_MSUU_64, REG64_GET(2), REG_GET(0), REG_GET(1)));
+  return insn->next;
+}
+
+
+static inline iss_insn_t *p_muls_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+  REG64_SET(0, LIB_CALL2(lib_MULS_64, REG_GET(0), REG_GET(1)));
+  return insn->next;
+}
+
+
+static inline iss_insn_t *p_mulu_d_exec(iss_t *iss, iss_insn_t *insn)
+{
+  REG64_SET(0, LIB_CALL2(lib_MULU_64, REG_GET(0), REG_GET(1)));
+
+  return insn->next;
+}
+
+
+#endif
\ No newline at end of file
diff --git a/gvsoc/gvsoc/models/cpu/iss/include/types.hpp b/gvsoc/gvsoc/models/cpu/iss/include/types.hpp
index f8ec5e632..f61da1d91 100644
--- a/gvsoc/gvsoc/models/cpu/iss/include/types.hpp
+++ b/gvsoc/gvsoc/models/cpu/iss/include/types.hpp
@@ -44,6 +44,10 @@
 #error Unknown core version
 #endif
 
+typedef uint64_t iss_reg64_t;
+
+#define PRIxFULLREG64  "16.16" PRIx64
+
 #if defined(ISS_WORD_64)
 
 #define ISS_OPCODE_MAX_SIZE 8
@@ -124,6 +128,7 @@ typedef enum {
   ISS_DECODER_ARG_FLAG_PREINC = 2,
   ISS_DECODER_ARG_FLAG_COMPRESSED = 4,
   ISS_DECODER_ARG_FLAG_FREG = 8,
+  ISS_DECODER_ARG_FLAG_REG64 = 16,
 } iss_decoder_arg_flag_e;
 
 typedef struct iss_insn_arg_s {
@@ -134,6 +139,7 @@ typedef struct iss_insn_arg_s {
     struct {
       int index;
       iss_reg_t value;
+      iss_reg64_t value_64;
     } reg;
     struct {
       iss_sim_t value;
diff --git a/gvsoc/gvsoc/models/cpu/iss/include/utils.hpp b/gvsoc/gvsoc/models/cpu/iss/include/utils.hpp
index 96b39a2a6..dc30c9972 100644
--- a/gvsoc/gvsoc/models/cpu/iss/include/utils.hpp
+++ b/gvsoc/gvsoc/models/cpu/iss/include/utils.hpp
@@ -38,4 +38,19 @@ static inline iss_opcode_t iss_get_zext_value(iss_opcode_t val, int bits)
   return ((unsigned int)val) << (ISS_REG_WIDTH-bits) >> (ISS_REG_WIDTH-bits);
 }
 
+static inline uint64_t iss_get_field64(iss_opcode_t val, int shift, int bits)
+{
+  return (val >> shift) & ((1<<bits) - 1);
+}
+
+static inline int64_t iss_get_signed_value64(iss_opcode_t val, int bits)
+{
+  return ((int64_t)val) << (ISS_REG_WIDTH-bits) >> (ISS_REG_WIDTH-bits);
+}
+
+static inline uint64_t iss_get_zext_value64(iss_opcode_t val, int bits)
+{
+  return ((uint64_t)val) << (ISS_REG_WIDTH-bits) >> (ISS_REG_WIDTH-bits);
+}
+
 #endif
diff --git a/gvsoc/gvsoc/models/cpu/iss/isa_gen/isa_gen.py b/gvsoc/gvsoc/models/cpu/iss/isa_gen/isa_gen.py
index 8747f67b6..a5d7faf39 100644
--- a/gvsoc/gvsoc/models/cpu/iss/isa_gen/isa_gen.py
+++ b/gvsoc/gvsoc/models/cpu/iss/isa_gen/isa_gen.py
@@ -261,6 +261,10 @@ def __init__(self, id, ranges, dumpName=True):
     def genExtract(self, isaFile, level):
         dump(isaFile, level, '  pc->outReg[%d] = %s + NB_REGS;\n' % (self.id, self.ranges.gen()))
 
+class OutReg64(OutReg):
+    def __init__(self, id, ranges, dumpName=True):
+        super(OutReg64, self).__init__(id=id, ranges=ranges, dumpName=dumpName, flags=['ISS_DECODER_ARG_FLAG_REG64'])
+
 class OutRegComp(OutReg):
     def __init__(self, id, ranges, dumpName=True):
         super(OutRegComp, self).__init__(id=id, ranges=ranges, dumpName=dumpName, flags=['ISS_DECODER_ARG_FLAG_COMPRESSED'])
@@ -313,6 +317,10 @@ def __init__(self, id, ranges, dumpName=True):
     def genExtract(self, isaFile, level):
         dump(isaFile, level, '  pc->inReg[%d] = %s + NB_REGS;\n' % (self.id, self.ranges.gen()))
 
+class InReg64(InReg):
+    def __init__(self, id, ranges, dumpName=True):
+        super(InReg64, self).__init__(id=id, ranges=ranges, dumpName=dumpName, flags=['ISS_DECODER_ARG_FLAG_REG64'])
+
 class InRegComp(InReg):
     def __init__(self, id, ranges, dumpName=True):
         super(InRegComp, self).__init__(id=id, ranges=ranges, dumpName=dumpName, flags=['ISS_DECODER_ARG_FLAG_COMPRESSED'])
diff --git a/gvsoc/gvsoc/models/cpu/iss/isa_gen/isa_riscv_gen.py b/gvsoc/gvsoc/models/cpu/iss/isa_gen/isa_riscv_gen.py
index 53ad77111..b255d24b7 100755
--- a/gvsoc/gvsoc/models/cpu/iss/isa_gen/isa_riscv_gen.py
+++ b/gvsoc/gvsoc/models/cpu/iss/isa_gen/isa_riscv_gen.py
@@ -94,6 +94,11 @@ def __init__(self, label, format, encoding, decode=None, N=None, L=None, mapTo=N
                             InReg (0, Range(15, 5)),
                             InReg (1, Range(20, 5)),
                             ]
+        elif format == 'R64':
+            self.args = [   OutReg64(0, Range(7,  5)),
+                            InReg64 (0, Range(15, 5)),
+                            InReg64 (1, Range(20, 5)),
+                            ]
         elif format == 'BITREV':
             self.args = [   OutReg(0, Range(7,  5)),
                             InReg (0, Range(15, 5)),
@@ -188,6 +193,12 @@ def __init__(self, label, format, encoding, decode=None, N=None, L=None, mapTo=N
                             InReg (0, Range(15, 5)),
                             InReg (1, Range(20, 5)),
                             ]
+        elif format == 'RRRR64':
+            self.args = [   OutReg64(0, Range(7,  5)),
+                            InReg64 (2, Range(7,  5), dumpName=False),
+                            InReg64 (0, Range(15, 5)),
+                            InReg64 (1, Range(20, 5)),
+                            ]
         elif format == 'RRRR2':
             self.args = [   OutReg(0, Range(7,  5)),
                             InReg (0, Range(7,  5), dumpName=False),
@@ -223,6 +234,10 @@ def __init__(self, label, format, encoding, decode=None, N=None, L=None, mapTo=N
             self.args = [   OutReg(0, Range(7,  5)),
                             InReg (0, Range(15, 5)),
                             ]
+        elif format == 'R1_64':
+            self.args = [   OutReg64(0, Range(7,  5)),
+                            InReg64 (0, Range(15, 5)),
+                            ]
         elif format == 'RRU':
             self.args = [   OutReg(0, Range(7,  5)),
                             InReg (0, Range(15, 5)),
@@ -252,6 +267,12 @@ def __init__(self, label, format, encoding, decode=None, N=None, L=None, mapTo=N
                             InReg (1, Range(20, 5)),
                             InReg (2, Range(25, 5)),
                         ]
+        elif format == 'RR64':
+            self.args = [   OutReg64(0, Range(7,  5)),
+                            InReg64 (0, Range(15, 5)),
+                            InReg64 (1, Range(20, 5)),
+                            InReg64 (2, Range(7, 5)),
+                        ]
         elif format == 'SR':
             self.args = [   InReg (1, Range(20, 5)),
                             Indirect(InReg (0, Range(15, 5)), InReg (2, Range(7, 5))),
@@ -265,6 +286,11 @@ def __init__(self, label, format, encoding, decode=None, N=None, L=None, mapTo=N
                             InReg (0, Range(15, 5)),
                             SignedImm(0, Range(20, 12)),
                         ]
+        elif format == 'I64':
+            self.args = [   OutReg64(0, Range(7,  5)),
+                            InReg64 (0, Range(15, 5)),
+                            SignedImm(0, Range(20, 5)),
+                        ]
         elif format == 'Z':
             self.args = [
                         ]
@@ -1760,6 +1786,56 @@ def __init__(self, label, format, encoding, decode=None, N=None, L=None, mapTo=N
     R5('p.bitrev',          'BITREV',   '11000-- ----- ----- 101 ----- 0110011', mapTo="gap9_BITREV"),
 ])
 
+int64 = IsaSubset('int64',
+[
+    R5('add.d',      'R64',     '0010000 ----- ----- 000 ----- 0110011'),
+    R5('sub.d',      'R64',     '0110000 ----- ----- 000 ----- 0110011'),
+    R5('sll.d',      'R64',     '0010000 ----- ----- 001 ----- 0110011'),
+    R5('slt.d',      'R64',     '0011000 ----- ----- 010 ----- 0110011'),
+    R5('sltu.d',     'R64',     '0011000 ----- ----- 011 ----- 0110011'),
+    R5('xor.d',      'R64',     '0010000 ----- ----- 100 ----- 0110011'),
+    R5('srl.d',      'R64',     '0010000 ----- ----- 101 ----- 0110011'),
+    R5('sra.d',      'R64',     '0110000 ----- ----- 101 ----- 0110011'),
+    R5('or.d',       'R64',     '0110000 ----- ----- 110 ----- 0110011'),
+    R5('and.d',      'R64',     '0110000 ----- ----- 111 ----- 0110011'),
+
+    R5('slli.d',     'I64',    '0010000 ----- ----- 001 ----- 0010011'),
+    R5('srli.d',     'I64',    '0010010 ----- ----- 101 ----- 0010011'),
+    R5('srai.d',     'I64',    '0110010 ----- ----- 101 ----- 0010011'),
+    R5('addi.d',     'I64',    '0010001 ----- ----- 001 ----- 0010011'),
+
+    R5('slti.d',     'I64',    '0011000 ----- ----- 010 ----- 0011011'),
+    R5('sltiu.d',    'I64',    '0011000 ----- ----- 011 ----- 0011011'),
+    R5('xori.d',     'I64',    '0010000 ----- ----- 100 ----- 0011011'),
+    R5('ori.d',      'I64',    '0010000 ----- ----- 110 ----- 0011011'),
+    R5('andi.d',     'I64',    '0010000 ----- ----- 111 ----- 0011011'),
+
+    R5('p.abs.d',    'R1_64',     '0010010 00000 ----- 000 ----- 0110011'),
+    R5('p.seq.d',    'RRRR64',   '0011011 ----- ----- 010 ----- 0110011'),
+    R5('p.slet.d',   'RRRR64',   '0011010 ----- ----- 010 ----- 0110011'),
+    R5('p.sletu.d',  'RRRR64',   '0011010 ----- ----- 011 ----- 0110011'),
+    R5('p.sne.d',    'RRRR64',   '0011011 ----- ----- 011 ----- 0110011'),
+    R5('p.min.d',    'RRRR64',   '0010010 ----- ----- 100 ----- 0110011'),
+    R5('p.minu.d',   'RRRR64',   '0010010 ----- ----- 101 ----- 0110011'),
+    R5('p.max.d',    'RRRR64',   '0010010 ----- ----- 110 ----- 0110011'),
+    R5('p.maxu.d',   'RRRR64',   '0010010 ----- ----- 111 ----- 0110011'),
+    R5('p.cnt.d',    'R1_64',     '0011010 00000 ----- 001 ----- 0110011'),
+    R5('p.exths.d',  'R1_64',     '0110010 00000 ----- 000 ----- 0110011'),
+    R5('p.exthz.d',  'R1_64',     '0110010 00000 ----- 001 ----- 0110011'),
+    R5('p.extbs.d',  'R1_64',     '0110010 00000 ----- 011 ----- 0110011'),
+    R5('p.extbz.d',  'R1_64',     '0010010 00000 ----- 100 ----- 0110011'),
+    R5('p.extws.d',  'R1_64',     '0110010 00000 ----- 101 ----- 0110011'),
+    R5('p.extwz.d',  'R1_64',     '0110010 00000 ----- 110 ----- 0110011'),
+
+    R5('p.mac.d',    'RR64',   '0111001 ----- ----- 000 ----- 0110011'),
+    R5('p.msu.d',    'RR64',   '0111001 ----- ----- 001 ----- 0110011'),
+    R5('p.macu.d',   'RR64',   '0111001 ----- ----- 010 ----- 0110011'),
+    R5('p.msuu.d',   'RR64',   '0111001 ----- ----- 011 ----- 0110011'),
+    R5('p.muls.d',   'R64',      '0111001 ----- ----- 100 ----- 0110011'),
+    R5('p.mulu.d',   'R64',      '0111001 ----- ----- 101 ----- 0110011'),
+])
+
+
 parser = argparse.ArgumentParser(description='Generate ISA for RISCV')
 
 parser.add_argument("--version", dest="version", default=1, type=int, metavar="VALUE", help="Specify ISA version")
@@ -1801,6 +1877,7 @@ def __init__(self, label, format, encoding, decode=None, N=None, L=None, mapTo=N
         IsaDecodeTree('sfloat', [Xf16, Xf16alt, Xf8, Xfvec, Xfaux]),
         IsaDecodeTree('gap8', [gap8]),
         IsaDecodeTree('gap9', [gap9]),
+        IsaDecodeTree('int64', [int64]),
         #IsaTree('fpud', rv32d),
         #IsaTree('gap8', gap8),
         #IsaTree('priv_pulp_v2', priv_pulp_v2),
@@ -1836,7 +1913,7 @@ def __init__(self, label, format, encoding, decode=None, N=None, L=None, mapTo=N
                 elif "mul" in insn.tags:
                     insn.get_out_reg(0).set_latency(2)
                 elif "mulh" in insn.tags:
-                    insn.get_out_reg(0).set_latency(3)
+                    insn.set_latency(5)
                 elif "div" in insn.tags:
                     insn.get_out_reg(0).set_latency(31)
 
@@ -1852,7 +1929,7 @@ def __init__(self, label, format, encoding, decode=None, N=None, L=None, mapTo=N
                 elif "mul" in insn.tags:
                     insn.get_out_reg(0).set_latency(3)
                 elif "mulh" in insn.tags:
-                    insn.get_out_reg(0).set_latency(3)
+                    insn.set_latency(5)
                 elif "div" in insn.tags:
                     insn.get_out_reg(0).set_latency(37)
 
diff --git a/gvsoc/gvsoc/models/cpu/iss/src/trace.cpp b/gvsoc/gvsoc/models/cpu/iss/src/trace.cpp
index 51c423b4f..98bcb6e79 100644
--- a/gvsoc/gvsoc/models/cpu/iss/src/trace.cpp
+++ b/gvsoc/gvsoc/models/cpu/iss/src/trace.cpp
@@ -154,7 +154,7 @@ static inline int iss_trace_dump_reg(iss_t *iss, iss_insn_t *insn, char *buff, u
   return sprintf(buff, "x%d", reg);
 }
 
-static char *iss_trace_dump_reg_value(iss_t *iss, iss_insn_t *insn, char *buff, bool is_out, int reg, unsigned int saved_value, iss_decoder_arg_t **prev_arg, bool is_long)
+static char *iss_trace_dump_reg_value(iss_t *iss, iss_insn_t *insn, char *buff, bool is_out, int reg, uint64_t saved_value, iss_decoder_arg_t *arg, iss_decoder_arg_t **prev_arg, bool is_long)
 {
   char regStr[16];
   iss_trace_dump_reg(iss, insn, regStr, reg);
@@ -163,7 +163,10 @@ static char *iss_trace_dump_reg_value(iss_t *iss, iss_insn_t *insn, char *buff,
 
   if (is_out) buff += sprintf(buff,  "=");
   else buff += sprintf(buff,  ":");
-  buff += sprintf(buff,  "%8.8x ", saved_value); 
+  if (arg->flags & ISS_DECODER_ARG_FLAG_REG64)
+    buff += sprintf(buff,  "%" PRIxFULLREG64 " ", saved_value);
+  else
+    buff += sprintf(buff,  "%" PRIxFULLREG " ", (iss_reg_t)saved_value);
   return buff;
 }
 
@@ -173,17 +176,17 @@ static char *iss_trace_dump_arg_value(iss_t *iss, iss_insn_t *insn, char *buff,
   {
     if ((dump_out && arg->type == ISS_DECODER_ARG_TYPE_OUT_REG) || (!dump_out && arg->type == ISS_DECODER_ARG_TYPE_IN_REG))
     {
-      buff = iss_trace_dump_reg_value(iss, insn, buff, arg->type == ISS_DECODER_ARG_TYPE_OUT_REG, insn_arg->u.reg.index, saved_arg->u.reg.value, prev_arg, is_long);
+      buff = iss_trace_dump_reg_value(iss, insn, buff, arg->type == ISS_DECODER_ARG_TYPE_OUT_REG, insn_arg->u.reg.index, arg->flags & ISS_DECODER_ARG_FLAG_REG64 ? saved_arg->u.reg.value_64 : saved_arg->u.reg.value, arg, prev_arg, is_long);
     }
   }
   else if (arg->type == ISS_DECODER_ARG_TYPE_INDIRECT_IMM)
   {
-    if (!dump_out) buff = iss_trace_dump_reg_value(iss, insn, buff, 0, insn_arg->u.indirect_imm.reg_index, saved_arg->u.indirect_imm.reg_value, prev_arg, is_long);
+    if (!dump_out) buff = iss_trace_dump_reg_value(iss, insn, buff, 0, insn_arg->u.indirect_imm.reg_index, saved_arg->u.indirect_imm.reg_value, arg, prev_arg, is_long);
     iss_addr_t addr;
     if (arg->flags & ISS_DECODER_ARG_FLAG_POSTINC)
     {
       addr = saved_arg->u.indirect_imm.reg_value;
-      if (dump_out) buff = iss_trace_dump_reg_value(iss, insn, buff, 1, insn_arg->u.indirect_imm.reg_index, addr + insn_arg->u.indirect_imm.imm, prev_arg, is_long);
+      if (dump_out) buff = iss_trace_dump_reg_value(iss, insn, buff, 1, insn_arg->u.indirect_imm.reg_index, addr + insn_arg->u.indirect_imm.imm, arg, prev_arg, is_long);
     }
     else
     {
@@ -193,13 +196,13 @@ static char *iss_trace_dump_arg_value(iss_t *iss, iss_insn_t *insn, char *buff,
   }
   else if (arg->type == ISS_DECODER_ARG_TYPE_INDIRECT_REG)
   {
-    if (!dump_out) buff = iss_trace_dump_reg_value(iss, insn, buff, 0, insn_arg->u.indirect_reg.offset_reg_index, saved_arg->u.indirect_reg.offset_reg_value, prev_arg, is_long);
-    if (!dump_out) buff = iss_trace_dump_reg_value(iss, insn, buff, 0, insn_arg->u.indirect_reg.base_reg_index, saved_arg->u.indirect_reg.base_reg_value, prev_arg, is_long);
+    if (!dump_out) buff = iss_trace_dump_reg_value(iss, insn, buff, 0, insn_arg->u.indirect_reg.offset_reg_index, saved_arg->u.indirect_reg.offset_reg_value, arg, prev_arg, is_long);
+    if (!dump_out) buff = iss_trace_dump_reg_value(iss, insn, buff, 0, insn_arg->u.indirect_reg.base_reg_index, saved_arg->u.indirect_reg.base_reg_value, arg, prev_arg, is_long);
     iss_addr_t addr;
     if (arg->flags & ISS_DECODER_ARG_FLAG_POSTINC)
     {
       addr = saved_arg->u.indirect_reg.base_reg_value;
-      if (dump_out) buff = iss_trace_dump_reg_value(iss, insn, buff, 1, insn_arg->u.indirect_reg.base_reg_index, addr + insn_arg->u.indirect_reg.offset_reg_value, prev_arg, is_long);
+      if (dump_out) buff = iss_trace_dump_reg_value(iss, insn, buff, 1, insn_arg->u.indirect_reg.base_reg_index, addr + insn_arg->u.indirect_reg.offset_reg_value, arg, prev_arg, is_long);
     }
     else
     {
@@ -374,7 +377,12 @@ static void iss_trace_save_arg(iss_t *iss, iss_insn_t *insn, iss_insn_arg_t *ins
     if (save_out && arg->type == ISS_DECODER_ARG_TYPE_OUT_REG ||
       !save_out && arg->type == ISS_DECODER_ARG_TYPE_IN_REG)
     {
-      saved_arg->u.reg.value = iss_get_reg_untimed(iss, insn_arg->u.reg.index);
+      if (arg->flags & ISS_DECODER_ARG_FLAG_REG64)
+      {
+        saved_arg->u.reg.value_64 = iss_get_reg64_untimed(iss, insn_arg->u.reg.index);
+      }
+      else
+        saved_arg->u.reg.value = iss_get_reg_untimed(iss, insn_arg->u.reg.index);
     }
 
   }
diff --git a/gvsoc/gvsoc/models/devices/testbench/Makefile b/gvsoc/gvsoc/models/devices/testbench/Makefile
new file mode 100644
index 000000000..355a391c8
--- /dev/null
+++ b/gvsoc/gvsoc/models/devices/testbench/Makefile
@@ -0,0 +1,2 @@
+IMPLEMENTATIONS += devices/testbench/testbench
+devices/testbench/testbench_SRCS = devices/testbench/testbench.cpp
diff --git a/gvsoc/gvsoc/models/devices/testbench/testbench.cpp b/gvsoc/gvsoc/models/devices/testbench/testbench.cpp
new file mode 100644
index 000000000..394a892bb
--- /dev/null
+++ b/gvsoc/gvsoc/models/devices/testbench/testbench.cpp
@@ -0,0 +1,303 @@
+/*
+ * Copyright (C) 2018 GreenWaves Technologies
+ *
+ * Licensed under the Apache License, Version 2.0 (the "License");
+ * you may not use this file except in compliance with the License.
+ * You may obtain a copy of the License at
+ *
+ *     http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+/* 
+ * Authors: Germain Haugou, GreenWaves Technologies (germain.haugou@greenwaves-technologies.com)
+ */
+
+#include <vp/vp.hpp>
+#include <vp/itf/io.hpp>
+#include <vp/itf/uart.hpp>
+#include <vp/itf/clock.hpp>
+#include <stdio.h>
+#include <string.h>
+#include <stdint.h>
+#include <unistd.h>
+#include <thread>
+#include <mutex>
+#include <condition_variable>
+#include <iostream>
+#include <common/telnet_proxy.hpp>
+
+
+#define PI_TESTBENCH_CMD_GPIO_LOOPBACK 1
+#define PI_TESTBENCH_MAX_REQ_SIZE 256
+
+
+typedef struct {
+    uint8_t input;
+    uint8_t output;
+    uint8_t enabled;
+} pi_testbench_req_t;
+
+
+typedef enum {
+    STATE_WAITING_CMD,
+    STATE_WAITING_REQUEST
+} testbench_state_e;
+
+class Gpio
+{
+public:
+    vp::wire_slave<int> itf;
+
+    int loopback = -1;
+    uint32_t value;
+};
+
+
+class Testbench : public vp::component
+{
+public:
+    Testbench(js::config *config);
+
+    int build();
+
+    void uart_tx_sampling();
+
+private:
+
+    void uart_start_tx_sampling(int baudrate);
+    void uart_stop_tx_sampling();
+    void handle_received_byte(uint8_t byte);
+
+    void handle_gpio_loopback();
+
+    static void uart_sync(void *__this, int data);
+    static void gpio_sync(void *__this, int value, int id);
+
+    static void uart_sampling_handler(void *__this, vp::clock_event *event);
+
+    testbench_state_e state;
+    string ctrl_type;
+    uint64_t period;
+    bool uart_tx_wait_start = true;
+    bool uart_tx_wait_stop = false;
+    int uart_current_tx;
+    uint64_t uart_baudrate;
+    int uart_nb_bits;
+    bool uart_sampling_tx = false;
+    uint8_t uart_byte;
+    int nb_gpio;
+    int req_size;
+    int current_req_size;
+    uint8_t req[PI_TESTBENCH_MAX_REQ_SIZE];
+    uint8_t cmd;
+
+    std::vector<Gpio> gpios;
+    vp::uart_slave uart_in;
+
+    vp::trace trace;
+
+    vp::clock_event *uart_sampling_event;
+    vp::clock_master clock_cfg;
+};
+
+Testbench::Testbench(js::config *config)
+    : vp::component(config)
+{
+}
+
+
+int Testbench::build()
+{
+    traces.new_trace("trace", &trace, vp::DEBUG);
+
+    this->new_master_port("clock_cfg", &clock_cfg);
+
+    this->ctrl_type = get_js_config()->get("ctrl_type")->get_str();
+    this->nb_gpio = get_js_config()->get("nb_gpio")->get_int();
+
+    if (this->ctrl_type == "uart")
+    {
+        this->uart_baudrate = get_js_config()->get("uart_baudrate")->get_int();
+        this->uart_in.set_sync_meth(&Testbench::uart_sync);
+        this->new_slave_port("ctrl", &this->uart_in);
+        this->uart_sampling_event = event_new(Testbench::uart_sampling_handler);
+    }
+
+    this->gpios.resize(this->nb_gpio);
+    
+    for (int i=0; i<this->nb_gpio; i++)
+    {
+        this->gpios[i].itf.set_sync_meth_muxed(&Testbench::gpio_sync, i);
+        this->new_slave_port("gpio" + std::to_string(i), &this->gpios[i].itf);
+    }
+
+    this->state = STATE_WAITING_CMD;
+
+    return 0;
+}
+
+
+void Testbench::uart_tx_sampling()
+{
+    this->trace.msg(vp::trace::LEVEL_TRACE, "Sampling bit (value: %d)\n", uart_current_tx);
+
+    if (uart_tx_wait_stop)
+    {
+        if (uart_current_tx == 1)
+        {
+            this->trace.msg(vp::trace::LEVEL_TRACE, "Received stop bit\n", uart_current_tx);
+            uart_tx_wait_start = true;
+            uart_tx_wait_stop = false;
+            this->uart_stop_tx_sampling();
+        }
+    }
+    else
+    {
+        this->trace.msg(vp::trace::LEVEL_TRACE, "Received data bit (data: %d)\n", uart_current_tx);
+        uart_byte = (uart_byte >> 1) | (uart_current_tx << 7);
+        uart_nb_bits++;
+        if (uart_nb_bits == 8)
+        {
+            this->trace.msg(vp::trace::LEVEL_DEBUG, "Sampled TX byte (value: 0x%x)\n", uart_byte);
+            this->trace.msg(vp::trace::LEVEL_TRACE, "Waiting for stop bit\n");
+            uart_tx_wait_stop = true;
+            this->handle_received_byte(uart_byte);
+        }
+    }
+}
+
+
+void Testbench::uart_sampling_handler(void *__this, vp::clock_event *event)
+{
+    Testbench *_this = (Testbench *)__this;
+
+    _this->uart_tx_sampling();
+
+    if (_this->uart_sampling_tx)
+    {
+        _this->event_enqueue(_this->uart_sampling_event, 2);
+    }
+}
+
+
+void Testbench::uart_sync(void *__this, int data)
+{
+    Testbench *_this = (Testbench *)__this;
+
+    _this->trace.msg(vp::trace::LEVEL_TRACE, "UART sync (value: %d, waiting_start: %d)\n", data, _this->uart_tx_wait_start);
+
+    _this->uart_current_tx = data;
+
+    if (_this->uart_tx_wait_start && data == 0)
+    {
+        _this->trace.msg(vp::trace::LEVEL_TRACE, "Received start bit\n");
+
+        _this->uart_start_tx_sampling(_this->uart_baudrate);
+        _this->uart_tx_wait_start = false;
+        _this->uart_nb_bits = 0;
+    }
+}
+
+
+void Testbench::gpio_sync(void *__this, int value, int id)
+{
+    Testbench *_this = (Testbench *)__this;
+    Gpio *gpio = &_this->gpios[id];
+
+    _this->trace.msg(vp::trace::LEVEL_DEBUG, "Received GPIO sync (id: %d)\n", id);
+
+    gpio->value = value;
+
+    if (gpio->loopback != -1)
+    {
+        _this->trace.msg(vp::trace::LEVEL_DEBUG, "Generating gpio on loopback (id: %d)\n", gpio->loopback);
+        _this->gpios[gpio->loopback].itf.sync(value);
+    }
+}
+
+
+void Testbench::uart_start_tx_sampling(int baudrate)
+{
+    this->trace.msg(vp::trace::LEVEL_TRACE, "Start TX sampling (baudrate: %d)\n", this->uart_baudrate);
+
+    // We set the frequency to twice the baudrate to be able sampling in the
+    // middle of the cycle
+    this->clock_cfg.set_frequency(this->uart_baudrate*2);
+
+    this->uart_sampling_tx = 1;
+
+    this->event_reenqueue(this->uart_sampling_event, 3);
+}
+
+
+void Testbench::uart_stop_tx_sampling(void)
+{
+    this->uart_sampling_tx = 0;
+    
+    if (this->uart_sampling_event->is_enqueued())
+    {
+        this->event_cancel(this->uart_sampling_event);
+    }
+}
+
+
+void Testbench::handle_received_byte(uint8_t byte)
+{
+    if (this->state == STATE_WAITING_CMD)
+    {
+        this->cmd = byte;
+
+        switch (byte) {
+            case PI_TESTBENCH_CMD_GPIO_LOOPBACK:
+                this->state = STATE_WAITING_REQUEST;
+                this->req_size = sizeof(pi_testbench_req_t);
+                this->current_req_size = 0;
+                break;
+        }
+    }
+    else if (this->state == STATE_WAITING_REQUEST)
+    {
+        this->req[this->current_req_size++] = byte;
+        if (this->current_req_size == this->req_size)
+        {
+            this->state = STATE_WAITING_CMD;
+
+            switch (this->cmd) {
+                case PI_TESTBENCH_CMD_GPIO_LOOPBACK:
+                    this->handle_gpio_loopback();
+                    break;
+            }
+
+        }
+    }
+}
+
+
+void Testbench::handle_gpio_loopback()
+{
+    pi_testbench_req_t *req = (pi_testbench_req_t *)this->req;
+
+    this->trace.msg(vp::trace::LEVEL_INFO, "Handling GPIO loopback (enabled: %d, output: %d, intput: %d)\n", req->enabled, req->output, req->input);
+
+    if (req->enabled)
+    {
+        this->gpios[req->output].loopback = req->input;
+        this->gpios[req->input].itf.sync(this->gpios[req->output].value);
+    }
+    else
+    {
+        this->gpios[req->output].loopback = -1;
+    }
+}
+
+
+extern "C" vp::component *vp_constructor(js::config *config)
+{
+    return new Testbench(config);
+}
diff --git a/gvsoc/gvsoc/models/utils/dpi_chip_wrapper.cpp b/gvsoc/gvsoc/models/utils/dpi_chip_wrapper.cpp
index f548cb165..ed9b8d138 100644
--- a/gvsoc/gvsoc/models/utils/dpi_chip_wrapper.cpp
+++ b/gvsoc/gvsoc/models/utils/dpi_chip_wrapper.cpp
@@ -30,6 +30,7 @@
 #include <vp/itf/clock.hpp>
 #include <vp/itf/i2c.hpp>
 #include <vp/itf/i2s.hpp>
+#include <vp/itf/wire.hpp>
 
 using namespace std;
 
@@ -75,6 +76,7 @@ class Qspim_group : public Pad_group
     int *cs;
 };
 
+
 class I2s_group : public Pad_group
 {
 public:
@@ -94,6 +96,20 @@ class I2s_group : public Pad_group
     int sdo;
 };
 
+
+class Gpio_group : public Pad_group
+{
+public:
+    Gpio_group(dpi_chip_wrapper *top, std::string name) : Pad_group(top, name) {}
+    void edge(Dpi_chip_wrapper_callback *callback, int64_t timestamp, int data);
+    void rx_edge(int data);
+    bool bind(std::string pad_name, Dpi_chip_wrapper_callback *callback);
+    vp::trace trace;
+    vp::wire_master<int> master;
+    Dpi_chip_wrapper_callback *rx_callback;
+};
+
+
 class Uart_group : public Pad_group
 {
 public:
@@ -108,6 +124,7 @@ class Uart_group : public Pad_group
     Dpi_chip_wrapper_callback *rx_callback;
 };
 
+
 class Hyper_group : public Pad_group
 {
 public:
@@ -137,6 +154,8 @@ class dpi_chip_wrapper : public vp::component
     static void uart_sync(void *__this, int data, int id);
     static void hyper_sync_cycle(void *__this, int data, int id);
     static void i2s_slave_edge(void *__this, int sck, int ws, int sd, int id);
+    static void gpio_rx_edge(void *__this, int data, int id);
+    static void gpio_sync(void *__this, int data, int id);
 
     vp::trace trace;
 
@@ -241,6 +260,16 @@ int dpi_chip_wrapper::build()
                 traces.new_trace_event(name + "/rx", &group->rx_trace, 1);
                 nb_itf++;
             }
+            else if (type == "gpio")
+            {
+                Gpio_group *group = new Gpio_group(this, name);
+                new_master_port(name, &group->master);
+                traces.new_trace(name, &group->trace, vp::WARNING);
+
+                group->master.set_sync_meth_muxed(&dpi_chip_wrapper::gpio_rx_edge, nb_itf);
+                this->groups.push_back(group);
+                nb_itf++;
+            }
             else if (type == "i2s")
             {
                 I2s_group *group = new I2s_group(this, name);
@@ -260,6 +289,7 @@ int dpi_chip_wrapper::build()
     return 0;
 }
 
+
 void dpi_chip_wrapper::qspim_sync(void *__this, int data_0, int data_1, int data_2, int data_3, int mask, int id)
 {
 #if 0
@@ -279,6 +309,7 @@ void dpi_chip_wrapper::qspim_sync(void *__this, int data_0, int data_1, int data
 #endif
 }
 
+
 void dpi_chip_wrapper::uart_rx_edge(void *__this, int data, int id)
 {
     dpi_chip_wrapper *_this = (dpi_chip_wrapper *)__this;
@@ -286,6 +317,15 @@ void dpi_chip_wrapper::uart_rx_edge(void *__this, int data, int id)
     group->rx_edge(data);
 }
 
+
+void dpi_chip_wrapper::gpio_rx_edge(void *__this, int data, int id)
+{
+    dpi_chip_wrapper *_this = (dpi_chip_wrapper *)__this;
+    Gpio_group *group = static_cast<Gpio_group *>(_this->groups[id]);
+    group->rx_edge(data);
+}
+
+
 void dpi_chip_wrapper::i2s_slave_edge(void *__this, int sck, int ws, int sd, int id)
 {
     dpi_chip_wrapper *_this = (dpi_chip_wrapper *)__this;
@@ -293,6 +333,7 @@ void dpi_chip_wrapper::i2s_slave_edge(void *__this, int sck, int ws, int sd, int
     group->rx_edge(sck, ws, sd);
 }
 
+
 void dpi_chip_wrapper::hyper_sync_cycle(void *__this, int data, int id)
 {
 #if 0
@@ -513,10 +554,40 @@ void Uart_group::rx_edge(int data)
     dpi_external_edge(this->rx_callback->handle, data);
 }
 
+
+/*
+ * GPIO
+ */
+
+bool Gpio_group::bind(std::string pad_name, Dpi_chip_wrapper_callback *callback)
+{
+    this->rx_callback = callback;
+    return false;
+}
+
+
+void Gpio_group::edge(Dpi_chip_wrapper_callback *callback, int64_t timestamp, int data)
+{
+    this->trace.msg(vp::trace::LEVEL_TRACE, "GPIO edge (timestamp: %ld, name: %s, value: %d)\n", timestamp, callback->name.c_str(), data);
+
+    if (this->master.is_bound())
+    {
+        this->master.sync(data);
+    }
+}
+
+
+void Gpio_group::rx_edge(int data)
+{
+    dpi_external_edge(this->rx_callback->handle, data);
+}
+
+
 void dpi_chip_wrapper::start()
 {
 }
 
+
 extern "C" vp::component *vp_constructor(js::config *config)
 {
     return new dpi_chip_wrapper(config);
diff --git a/libs/gap_lib/Makefile b/libs/gap_lib/Makefile
index f860d85c1..d4bf72207 100644
--- a/libs/gap_lib/Makefile
+++ b/libs/gap_lib/Makefile
@@ -2,6 +2,8 @@ SRC = \
   jpeg/dct.c jpeg/jpeg_constants.c jpeg/jpeg_encoder.c jpeg/cluster.c \
   img_io/ImgIO.c
 
+CFLAGS+= -I$(TILER_PATH)/include -I$(CURDIR)/include/gaplib
+
 ifdef GAP_SDK_HOME
 include $(CURDIR)/rules/gap_sdk.mk
 else
diff --git a/libs/gap_lib/img_io/ImgIO.c b/libs/gap_lib/img_io/ImgIO.c
index 8eed6ae7a..011f5a57e 100644
--- a/libs/gap_lib/img_io/ImgIO.c
+++ b/libs/gap_lib/img_io/ImgIO.c
@@ -1,417 +1,448 @@
-/*
- * Copyright 2019 GreenWaves Technologies, SAS
- * * Licensed under the Apache License, Version 2.0 (the "License");
- * you may not use this file except in compliance with the License.
- * You may obtain a copy of the License at
- *
- *     http://www.apache.org/licenses/LICENSE-2.0
- *
- * Unless required by applicable law or agreed to in writing, software
- * distributed under the License is distributed on an "AS IS" BASIS,
- * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
- * See the License for the specific language governing permissions and
- * limitations under the License.
- */
-
-#include <stdio.h>
-#include <sys/types.h>
-#include <sys/stat.h>
-#include <fcntl.h>
-#include "pmsis.h"
-#include "gaplib/ImgIO.h"
-#include "bsp/bsp.h"
-#include "bsp/fs.h"
-
-#define PPM_HEADER 40
-
-#define Max(a, b)               (((a)>(b))?(a):(b))
-#define Min(a, b)               (((a)<(b))?(a):(b))
-
-#define ALIGN(Value, Size)      (((Value)&((1<<(Size))-1))?((((Value)>>(Size))+1)<<(Size)):(Value))
-
-#define CHUNK_SIZE 8192
-
-#define PRINTF printf
-
-unsigned char *img_rgb888;
-
-static void progress_bar(char * OutString, int n, int tot)
-{
-    int tot_chars = 30;
-    PRINTF("%s",OutString);
-    PRINTF(" [");
-    int chars = (n*tot_chars)/tot;
-
-    for (int i=0; i<tot_chars; i++)
-    {
-        if (i<=chars)
-        {
-            PRINTF("#");
-        }
-        else
-        {
-            PRINTF(" ");
-        }
-    }
-    PRINTF("]");
-    PRINTF("\n");
-}
-
-static unsigned int SkipComment(unsigned char *Img, unsigned int Ind)
-{
-    while (Img[Ind] == '#')
-    {
-        while (Img[Ind] != '\n')
-        {
-            PRINTF("%c", Img[Ind]);
-            Ind++;
-        }
-        Ind++;
-    }
-    return Ind;
-}
-
-static unsigned int ReadPPMHeader(unsigned char *ImgIn, unsigned int *W, unsigned int *H, unsigned int *IsRGB)
-{
-#define IS_DIGIT(C) (((C) >= '0') && ((C) <= '9'))
-    unsigned int Val, Ind = 0;
-
-    if ((ImgIn[0] == 'P') && (ImgIn[1] == '5') && (ImgIn[2] == '\n'))
-    {
-        *IsRGB = 0;
-    }
-    else if ((ImgIn[0] == 'P') && (ImgIn[1] == '6') && (ImgIn[2] == '\n'))
-    {
-        *IsRGB = 1;
-    }
-    else
-    {
-        return 0;
-    }
-    Ind = 3;
-
-    Ind=SkipComment(ImgIn, Ind);
-    while (!IS_DIGIT(ImgIn[Ind]))
-    {
-        Ind++;
-    }
-    Val = 0;
-    while (IS_DIGIT(ImgIn[Ind]))
-    {
-        Val = Val*10 + (ImgIn[Ind] - 0x30);
-        Ind++;
-    }
-    *W = Val;
-    Ind=SkipComment(ImgIn, Ind);
-    while (!IS_DIGIT(ImgIn[Ind]))
-    {
-        Ind++;
-    }
-    Val = 0;
-    while (IS_DIGIT(ImgIn[Ind]))
-    {
-        Val = Val*10 + (ImgIn[Ind] - 0x30);
-        Ind++;
-    }
-    *H = Val;
-
-    Ind=SkipComment(ImgIn, Ind);
-    while (!IS_DIGIT(ImgIn[Ind]))
-    {
-        Ind++;
-    }
-    Val = 0;
-    while (IS_DIGIT(ImgIn[Ind]))
-    {
-        Val = Val*10 + (ImgIn[Ind] - 0x30);
-        Ind++;
-    }
-    if (Val != 255)
-    {
-        return 0;
-    }
-    while (ImgIn[Ind] != 0xA)
-    {
-        Ind++;
-    }
-
-    return (Ind+1);
-#undef IS_DIGIT
-}
-
-static unsigned int GetInputImageInfos(char *Name, unsigned int *W, unsigned int *H, unsigned int *IsRGB, unsigned int *HeaderSize)
-{
-    struct pi_fs_conf conf;
-    pi_fs_conf_init(&conf);
-    struct pi_device fs;
-
-    conf.type = PI_FS_HOST;
-
-    pi_open_from_conf(&fs, &conf);
-
-    if (pi_fs_mount(&fs))
-        return -2;
-
-    static int Debug = 0;
-    void *File = pi_fs_open(&fs, Name, PI_FS_FLAGS_READ);
-    unsigned int Err = 0;
-
-    *W = 0; *H = 0; *IsRGB = 0; *HeaderSize = 0;
-
-    if (Debug)
-    {
-        PRINTF("File: %s open: %s\n", Name, File?"Ok":"Failed");
-    }
-    if (File)
-    {
-        unsigned char *Header = (unsigned char *) pmsis_l2_malloc(256);
-        Err |= (Header == NULL);
-        if (Err)
-        {
-            return Err;
-        }
-        if (pi_fs_read(File,Header, 256) == 256)
-        {
-            unsigned int i;
-            *HeaderSize = ReadPPMHeader(Header, W, H, IsRGB);
-            if (Debug)
-            {
-                PRINTF("Image %s:  [W: %d, H: %d] %s, HeaderSize: %d\n", Name, *W, *H, *IsRGB?"Color":"Gray", *HeaderSize);
-                for (i=0; i<*HeaderSize; i++)
-                {
-                    PRINTF("%c", Header[i]);
-                }
-                PRINTF("\n");
-            }
-        }
-        else
-        {
-            Err = 2;
-        }
-        pmsis_l2_malloc_free(Header, 256);
-        pi_fs_close(File);
-        pi_fs_unmount(&fs);
-    }
-    return Err;
-}
-
-unsigned char *ReadImageFromFile(char *ImageName, unsigned int *W, unsigned int *H, unsigned char *InBuffer, unsigned int BuffSize)
-{
-    void *File = NULL;
-    unsigned int IsRGB, HeaderSize, Size, AlignedSize, ReadSize=0;
-    unsigned char *ImagePtr = 0;
-    int Allocated = 0;
-
-    struct pi_fs_conf conf;
-    pi_fs_conf_init(&conf);
-    struct pi_device fs;
-
-    conf.type = PI_FS_HOST;
-
-    pi_open_from_conf(&fs, &conf);
-
-    if (pi_fs_mount(&fs))
-        return NULL;
-
-    if (GetInputImageInfos(ImageName, W, H, &IsRGB, &HeaderSize))
-    {
-        PRINTF("Failed to get input images infos, %s\n", ImageName); goto Fail;
-    }
-    if (IsRGB)
-    {
-        PRINTF("Only Gray levels supported, found RGB\n"); goto Fail;
-    }
-    File = pi_fs_open(&fs, ImageName, PI_FS_FLAGS_READ);
-    if (File == 0)
-    {
-        PRINTF("Failed to open file, %s\n", ImageName); goto Fail;
-    }
-    Size = (*W)*(*H)*(IsRGB?3:1);
-    if (InBuffer && (BuffSize >= Size))
-    {
-        AlignedSize = Size;
-        ImagePtr = InBuffer;
-    }
-    else
-    {
-        Allocated = 1;
-        AlignedSize = ALIGN(Size, 2);
-        ImagePtr = (unsigned char *) pmsis_l2_malloc(AlignedSize);
-    }
-    if (ImagePtr == 0)
-    {
-        PRINTF("Failed to allocate %d bytes for input image\n", AlignedSize); goto Fail;
-    }
-    pi_fs_seek(File,HeaderSize);
-    {
-        unsigned char *TargetImg = ImagePtr;
-        unsigned int RemainSize = AlignedSize;
-
-        while (RemainSize > 0)
-        {
-            unsigned int Chunk = Min(4096, RemainSize);
-            unsigned R = pi_fs_read(File,TargetImg, Chunk);
-            ReadSize+=R;
-            if (R!=Chunk) break;
-            TargetImg += Chunk; RemainSize -= Chunk;
-        }
-    }
-    if (AlignedSize!=ReadSize)
-    {
-        PRINTF("Error, expects %d bytes but got %d\n", AlignedSize, ReadSize); goto Fail;
-    }
-    pi_fs_close(File);
-    pi_fs_unmount(&fs);
-    PRINTF("Image %s, [W: %d, H: %d], Gray, Size: %d bytes, Loaded sucessfully\n", ImageName, *W, *H, AlignedSize);
-
-    return (ImagePtr);
-Fail:
-    if (ImagePtr && Allocated)
-    {
-        pmsis_l2_malloc_free(ImagePtr, AlignedSize);
-    }
-    pi_fs_close(File);
-    pi_fs_unmount(&fs);
-    PRINTF("Failed to load image %s from flash\n", ImageName);
-    return 0;
-}
-
-static void WritePPMHeader(void *FD, unsigned int W, unsigned int H, unsigned char imgFormat)
-{
-    // BYPASS mode, no need any header
-    if (imgFormat == BYPASS_IO)
-        return ;
-
-    unsigned int Ind = 0, x, i, L;
-    unsigned char *Buffer = (unsigned char *) pmsis_l2_malloc(PPM_HEADER * sizeof(unsigned char));
-
-    /* P5<cr>* */
-    Buffer[Ind++] = 0x50;                                   // P
-    if (imgFormat == GRAY_SCALE_IO) Buffer[Ind++] = 0x35;   // 5
-    else Buffer[Ind++] = 0x36;                              // 6
-    Buffer[Ind++] = 0xA;                                    // <cr>
-
-    /* W <space> */
-    x = W; L=0;
-    while (x>0)
-    {
-        x = x/10;
-        L++;
-    }
-    x = W; i = 1;
-    while (x>0)
-    {
-        Buffer[Ind+L-i] = 0x30 + (x%10);
-        i++;
-        x=x/10;
-    }
-    Ind += L;
-    Buffer[Ind++] = 0x20;
-
-    /* H <cr> */
-    x = H; L=0;
-    while (x>0)
-    {
-        x = x/10;
-        L++;
-    }
-    x = H; i = 1;
-    while (x>0)
-    {
-        Buffer[Ind+L-i] = 0x30 + (x%10);
-        i++;
-        x=x/10;
-    }
-    Ind += L;
-    Buffer[Ind++] = 0xA;
-
-    /* 255 <cr> */
-    Buffer[Ind++] = 0x32;
-    Buffer[Ind++] = 0x35;
-    Buffer[Ind++] = 0x35;
-    Buffer[Ind++] = 0xA;
-
-    for (unsigned int a=0; a<Ind; a++)
-    {
-        pi_fs_write(FD,&(Buffer[a]), sizeof(unsigned char));
-    }
-
-    pmsis_l2_malloc_free(Buffer, PPM_HEADER * sizeof(unsigned char));
-}
-
-static void rgb565_to_rgb888 (unsigned char *input, unsigned int input_size, unsigned char *output )
-{
-    unsigned char red, green, blue; // 8-bits each
-    unsigned short pixel;
-    unsigned int ind = 0;
-
-    // Just a simplest implementation, need to be optimized the performance
-    for (int i = 0; i < input_size; i+=2) {
-        pixel = *(unsigned short *) (input + i);
-        red = (unsigned short)((pixel & 0xF800) >> 11);  // 5
-        green = (unsigned short)((pixel & 0x07E0) >> 5); // 6
-        blue = (unsigned short)(pixel & 0x001F);         // 5
-
-        output[ind] = red << 3;  /* red */
-        output[ind+1] = green << 2;  /* green */
-        output[ind+2] = blue << 3;  /* blue */
-        ind += 3;
-    }
-}
-
-int WriteImageToFile(char *ImageName, unsigned int W, unsigned int H, unsigned char PixelSize, unsigned char *OutBuffer, unsigned char imgFormat)
-{
-    struct pi_fs_conf conf;
-    pi_fs_conf_init(&conf);
-    struct pi_device fs;
-
-    conf.type = PI_FS_HOST;
-
-    pi_open_from_conf(&fs, &conf);
-
-    if (pi_fs_mount(&fs))
-        return 0;
-
-    void *File = pi_fs_open(&fs, ImageName, PI_FS_FLAGS_WRITE);
-
-    int ret = 0;
-    WritePPMHeader(File,W,H, imgFormat);
-
-    if(imgFormat == RGB565_IO)
-    {
-        unsigned int rgb888_size = (CHUNK_SIZE/2)*3;     // size of 888 image in byte
-        img_rgb888 = (unsigned char *) pmsis_l2_malloc(rgb888_size);
-
-        int steps = (W*H*PixelSize) / CHUNK_SIZE;             // convert and fs write times
-
-        for(int i=0;i<steps;i++){
-            progress_bar("Writing image ",i,steps);
-            rgb565_to_rgb888(OutBuffer+(CHUNK_SIZE*i), CHUNK_SIZE, img_rgb888);
-            ret+=pi_fs_write(File, img_rgb888, rgb888_size);
-        }
-        if(((W*H*PixelSize) % CHUNK_SIZE) != 0)
-        {
-            rgb888_size = ((W*H*PixelSize) % CHUNK_SIZE)/2*3;
-            rgb565_to_rgb888((OutBuffer+(CHUNK_SIZE*steps)),((W*H*PixelSize) % CHUNK_SIZE) ,img_rgb888);
-            ret+=pi_fs_write(File, img_rgb888, rgb888_size);
-        }
-
-        pmsis_l2_malloc_free(img_rgb888, (CHUNK_SIZE/2)*3);
-    }
-    else
-    {
-        int steps = (W*H*PixelSize) / CHUNK_SIZE;
-
-        for(int i=0;i<steps;i++){
-            progress_bar("Writing image ",i,steps);
-            ret+=pi_fs_write(File,OutBuffer +(CHUNK_SIZE*i), CHUNK_SIZE);
-        }
-        if(((W*H*PixelSize) % CHUNK_SIZE) != 0)
-            ret+=pi_fs_write(File,OutBuffer+(CHUNK_SIZE*steps) , ((W*H*PixelSize) % CHUNK_SIZE)*sizeof(unsigned char));
-    }
-
-    pi_fs_close(File);
-    pi_fs_unmount(&fs);
-
-    return ret;
-}
+/*
+ * Copyright (C) 2017 GreenWaves Technologies
+ * All rights reserved.
+ *
+ * This software may be modified and distributed under the terms
+ * of the BSD license.  See the LICENSE file for details.
+ *
+ */
+#include "Gap.h"
+#include "gaplib/ImgIO.h"
+#include "stdint.h"
+
+
+#define Max(a, b)               (((a)>(b))?(a):(b))
+#define Min(a, b)               (((a)<(b))?(a):(b))
+
+#define ALIGN(Value, Size)      (((Value)&((1<<(Size))-1))?((((Value)>>(Size))+1)<<(Size)):(Value))
+
+#define CHUNK_SIZE 8192
+
+unsigned char *img_rgb888;
+
+
+static void progress_bar(char * OutString, int n, int tot)
+{
+	int tot_chars = 30;
+	printf("%s",OutString);
+	printf(" [");
+	int chars = (n*tot_chars)/tot;
+
+	for(int i=0;i<tot_chars;i++){
+		if(i<=chars)
+			printf("#");
+		else printf(" ");
+	}
+	printf("]");
+	printf("\n");
+
+}
+
+void SkipCommentAndWhiteSpace(unsigned char *pImg, int buf_len, int *i)
+{
+	int saw_nl = 1;
+	while (*i < buf_len && (pImg[*i] == '#'||pImg[*i] == ' '||pImg[*i] == '\t'||pImg[*i] == '\r'||pImg[*i] == '\n')) {
+		if (saw_nl && pImg[*i] == '#') {
+			while (*i < buf_len && pImg[*i] != '\n') {
+				printf("%c", pImg[*i]);
+				(*i)++;
+			}
+		}
+		saw_nl = (pImg[*i] == '\n');
+		(*i)++;
+	}
+}
+
+unsigned int ReadValue(unsigned char *pImg, int buf_len, int *i)
+{
+#define IS_DIGIT(C) (((C) >= '0') && ((C) <= '9'))
+	unsigned int val = 0;
+	SkipCommentAndWhiteSpace(pImg, buf_len, i);
+	while (*i < buf_len && !IS_DIGIT(pImg[*i])) {
+		(*i)++;
+	}
+	while (*i < buf_len && IS_DIGIT(pImg[*i])) {
+		val = val * 10 + (pImg[*i] - 0x30);
+		(*i)++;
+	}
+	return val;
+#undef IS_DIGIT
+}
+
+static int ReadPPMHeader(unsigned char *ImgIn, unsigned int *W, unsigned int *H, unsigned int *BytesPerPixel, unsigned int *HeaderLen, int buf_len)
+{
+	*W = *H = *BytesPerPixel = *HeaderLen = 0;
+
+	if      (ImgIn[0] == 'P' && ImgIn[1] == '5' && ImgIn[2] == '\n') *BytesPerPixel = 1;
+	else if (ImgIn[0] == 'P' && ImgIn[1] == '6' && ImgIn[2] == '\n') *BytesPerPixel = 3;
+	else return 1;
+
+	int i = 3;
+
+	*W = ReadValue(ImgIn, buf_len, &i);
+	*H = ReadValue(ImgIn, buf_len, &i);
+	unsigned int Val = ReadValue(ImgIn, buf_len, &i);
+
+	if (Val != 255) return 1;
+
+	while (ImgIn[i++] != 0xA) {};
+	*HeaderLen = i;
+	return 0;
+}
+
+static int GetInputImageInfos(char *Name, unsigned int *W, unsigned int *H, unsigned int *BytesPerPixel, unsigned int *HeaderSize)
+{
+	*W = 0; *H = 0; *BytesPerPixel = 0; *HeaderSize = 0;
+	switch_fs_t fs;
+	__FS_INIT(fs);
+	switch_file_t File = __OPEN_READ(fs, Name);
+
+	if (!File) {
+		printf("Unable to open file %s\n", Name);
+		return 1;
+	}
+
+	unsigned int Err = 0;
+	unsigned char *Header = (unsigned char *) gap_allocL2(256);
+	Err |= (Header == 0);
+	if (__READ(File, Header, 256) == 256) {
+		unsigned int i;
+		if (ReadPPMHeader(Header, W, H, BytesPerPixel, HeaderSize, 256)) {
+			printf("Unable to load header %s", Name);
+			Err = 1;
+		} else {
+			printf("Image %s:  [W: %d, H: %d] Bytes per pixel %d, HeaderSize: %d\n", Name, *W, *H, *BytesPerPixel, *HeaderSize);
+			for (i=0; i<*HeaderSize;i++) printf("%c", Header[i]);
+			printf("\n");
+		}
+	} else {
+		printf("Unable to read header %s", Name);
+		Err = 1;
+	}
+	gap_freeL2(Header, 256);
+	__CLOSE(File);
+	__FS_DEINIT(fs);
+	return Err;
+}
+
+static int ReadMultiChannelImageRGB565(switch_file_t File, unsigned short * InBuffer, int W, int H)
+{
+	unsigned int RowSize = W*3;
+	unsigned char InputBuf[RowSize];
+	unsigned short * pInBuffer = InBuffer;
+
+	for (int CurRow=0; CurRow < H; CurRow++) {
+		int RemainBytes = RowSize;
+		unsigned char *pInpBuf = InputBuf;
+		while (RemainBytes > 0) {
+			__int_ssize_t len = __READ(File, pInpBuf, RemainBytes);
+			if (!len) return 1;
+			RemainBytes -= len;
+			pInpBuf += len;
+		}
+		for (int j=0, i=0; i < W; i++) {
+			pInBuffer[W * CurRow + i] = ((((uint16_t)InputBuf[j]&0xf8)<<8)|(((uint16_t)InputBuf[j+1]&0xfc)<<3)|(((uint16_t)InputBuf[j+2]&0xf8)>>3));
+            j+=3;
+		}
+	}
+	return 0;
+}
+
+static int ReadMultiChannelImageTranspose2CHW(switch_file_t File, signed char * InBuffer, int W, int H, int BytesPerPixel)
+{
+	unsigned int RowSize = W*BytesPerPixel, ChannelSize = W * H;
+	unsigned char InputBuf[RowSize];
+	signed char * pInBuffer = InBuffer;
+
+	for (int CurRow=0; CurRow < H; CurRow++) {
+		int RemainBytes = RowSize;
+		unsigned char *pInpBuf = InputBuf;
+		while (RemainBytes > 0) {
+			__int_ssize_t len = __READ(File, pInpBuf, RemainBytes);
+			if (!len) return 1;
+			RemainBytes -= len;
+			pInpBuf += len;
+		}
+		for (int i=0; i < W; i++) {
+			for (int j=0; j < BytesPerPixel; j++) {
+				pInBuffer[ChannelSize * j + W * CurRow + i] = InputBuf[i * BytesPerPixel + j];
+			}
+		}
+	}
+	return 0;
+}
+
+static int ReadMultiChannelImage(switch_file_t File, signed char * InBuffer, int W, int H, int BytesPerPixel)
+{
+	unsigned int RowSize = W*BytesPerPixel, ChannelSize = W * H;
+	unsigned char InputBuf[RowSize];
+	signed char * pInBuffer = InBuffer;
+
+	for (int CurRow=0; CurRow < H; CurRow++) {
+		int RemainBytes = RowSize;
+		unsigned char *pInpBuf = InputBuf;
+		while (RemainBytes > 0) {
+			__int_ssize_t len = __READ(File, pInpBuf, RemainBytes);
+			if (!len) return 1;
+			RemainBytes -= len;
+			pInpBuf += len;
+		}
+		for (int i=0; i < W; i++) {
+			for (int j=0; j < BytesPerPixel; j++) {
+				pInBuffer[RowSize * CurRow + i * BytesPerPixel + j] = InputBuf[i * BytesPerPixel + j];
+			}
+		}
+	}
+	return 0;
+}
+
+static int ReadMultiChannelImageShortTranspose2CHW(switch_file_t File, short int * InBuffer, int W, int H, int BytesPerPixel)
+{
+	unsigned int RowSize = W*BytesPerPixel, ChannelSize = W * H;
+	unsigned char InputBuf[RowSize];
+	short int * pInBuffer = InBuffer;
+
+	for (int CurRow=0; CurRow < H; CurRow++) {
+		int RemainBytes = RowSize;
+		unsigned char *pInpBuf = InputBuf;
+		while (RemainBytes > 0) {
+			__int_ssize_t len = __READ(File, pInpBuf, RemainBytes);
+			if (!len) return 1;
+			RemainBytes -= len;
+			pInpBuf += len;
+		}
+		for (int i=0; i < W; i++) {
+			for (int j=0; j < BytesPerPixel; j++) {
+				pInBuffer[ChannelSize * j + W * CurRow + i] = (short int) (InputBuf[i * BytesPerPixel + j]);
+			}
+		}
+	}
+	return 0;
+}
+
+static int ReadMultiChannelImageShort(switch_file_t File, short int * InBuffer, int W, int H, int BytesPerPixel)
+{
+	unsigned int RowSize = W*BytesPerPixel, ChannelSize = W * H;
+	unsigned char InputBuf[RowSize];
+	short int * pInBuffer = InBuffer;
+
+	for (int CurRow=0; CurRow < H; CurRow++) {
+		int RemainBytes = RowSize;
+		unsigned char *pInpBuf = InputBuf;
+		while (RemainBytes > 0) {
+			__int_ssize_t len = __READ(File, pInpBuf, RemainBytes);
+			if (!len) return 1;
+			RemainBytes -= len;
+			pInpBuf += len;
+		}
+		for (int i=0; i < W; i++) {
+			for (int j=0; j < BytesPerPixel; j++) {
+				pInBuffer[RowSize * CurRow + i * BytesPerPixel + j] = (short int) (InputBuf[i * BytesPerPixel + j]);
+			}
+		}
+	}
+	return 0;
+}
+
+int ReadImageFromFile(char *ImageName, unsigned int DesiredW, unsigned int DesiredH, unsigned int DesiredBytesPerPixel, void *InBuffer, unsigned int BuffSize, img_io_out_t out_type, int Transpose2CHW) 
+{
+	switch_file_t File = (switch_file_t) 0;
+	unsigned int BytesPerPixel, W, H, HeaderSize, Size, ReadSize=0;
+
+	if (GetInputImageInfos(ImageName, &W, &H, &BytesPerPixel, &HeaderSize)) {
+		printf("Failed to get input images infos, %s\n", ImageName); goto Fail;
+	}
+	if (BytesPerPixel != DesiredBytesPerPixel) {
+		printf("Expecting %d bytes per pixel image, %s\n", BytesPerPixel, ImageName); goto Fail;
+	}
+	if (DesiredH != H || DesiredW != W) {
+		printf("Expecting [%dx%d] image, got [%dx%d] %s\n", DesiredW, DesiredH, W, H, ImageName); goto Fail;
+	}
+	switch_fs_t fs;
+	__FS_INIT(fs);
+	File = __OPEN_READ(fs, ImageName);
+	if (File == 0) {
+		printf("Failed to open file, %s\n", ImageName); goto Fail;
+	}
+
+	Size = W*H*BytesPerPixel;
+	if (out_type == IMGIO_OUTPUT_RGB565) {
+		if (BuffSize < W*H*2) {
+			printf("Buffer is too small, %s\n", ImageName); goto Fail;
+		}
+	} else {
+		if (BuffSize < Size) {
+			printf("Buffer is too small, %s\n", ImageName); goto Fail;
+		}
+	}
+	__SEEK(File, HeaderSize);
+	int res;
+	switch (out_type) {
+		case IMGIO_OUTPUT_CHAR:
+			if (Transpose2CHW){
+				res = ReadMultiChannelImageTranspose2CHW(File, (signed char *)InBuffer, W, H, BytesPerPixel);
+			} else {
+				res = ReadMultiChannelImage(File, (signed char *)InBuffer, W, H, BytesPerPixel);
+			}
+			break;
+		case IMGIO_OUTPUT_SHORT:
+			if (Transpose2CHW){
+				res = ReadMultiChannelImageShortTranspose2CHW(File, (short int *)InBuffer, W, H, BytesPerPixel);
+			} else {
+				res = ReadMultiChannelImageShort(File, (short int *)InBuffer, W, H, BytesPerPixel);
+			}
+			break;
+		case IMGIO_OUTPUT_RGB565:
+			res = ReadMultiChannelImageRGB565(File, (unsigned short *)InBuffer, W, H);
+			break;
+		default:
+			res = 1;
+	}
+	if (res) {
+		printf("Input ended unexpectedly or bad format, %s\n", ImageName); goto Fail;
+	}
+	__CLOSE(File);
+	__FS_DEINIT(fs);
+	printf("Image %s, [W: %d, H: %d], Bytes per pixel %d, Size: %d bytes, Loaded successfully\n", ImageName, W, H, BytesPerPixel, Size);
+
+	return 0;
+Fail:
+	__CLOSE(File);
+	__FS_DEINIT(fs);
+	printf("Failed to load image %s from flash\n", ImageName);
+	return 1;
+}
+
+static void WritePPMHeader(void *FD, unsigned int W, unsigned int H, unsigned char imgFormat)
+{
+    // BYPASS mode, no need any header
+    if (imgFormat == BYPASS_IO)
+        return ;
+
+    unsigned int Ind = 0, x, i, L;
+    unsigned char *Buffer = (unsigned char *) gap_allocL2(PPM_HEADER * sizeof(unsigned char));
+
+    /* P5<cr>* */
+    Buffer[Ind++] = 0x50;                                   // P
+    if (imgFormat == GRAY_SCALE_IO) Buffer[Ind++] = 0x35;   // 5
+    else Buffer[Ind++] = 0x36;                              // 6
+    Buffer[Ind++] = 0xA;                                    // <cr>
+
+    /* W <space> */
+    x = W; L=0;
+    while (x>0)
+    {
+        x = x/10;
+        L++;
+    }
+    x = W; i = 1;
+    while (x>0)
+    {
+        Buffer[Ind+L-i] = 0x30 + (x%10);
+        i++;
+        x=x/10;
+    }
+    Ind += L;
+    Buffer[Ind++] = 0x20;
+
+    /* H <cr> */
+    x = H; L=0;
+    while (x>0)
+    {
+        x = x/10;
+        L++;
+    }
+    x = H; i = 1;
+    while (x>0)
+    {
+        Buffer[Ind+L-i] = 0x30 + (x%10);
+        i++;
+        x=x/10;
+    }
+    Ind += L;
+    Buffer[Ind++] = 0xA;
+
+    /* 255 <cr> */
+    Buffer[Ind++] = 0x32;
+    Buffer[Ind++] = 0x35;
+    Buffer[Ind++] = 0x35;
+    Buffer[Ind++] = 0xA;
+
+    for (unsigned int a=0; a<Ind; a++)
+    {
+        __WRITE(FD,&(Buffer[a]), sizeof(unsigned char));
+    }
+
+    gap_freeL2(Buffer, PPM_HEADER * sizeof(unsigned char));
+}
+
+static void rgb565_to_rgb888 (unsigned char *input, unsigned int input_size, unsigned char *output )
+{
+    unsigned char red, green, blue; // 8-bits each
+    unsigned short pixel;
+    unsigned int ind = 0;
+
+    // Just a simplest implementation, need to be optimized the performance
+    for (unsigned int i = 0; i < input_size; i+=2) {
+        pixel = *(unsigned short *) (input + i);
+        red = (unsigned short)((pixel & 0xF800) >> 11);  // 5
+        green = (unsigned short)((pixel & 0x07E0) >> 5); // 6
+        blue = (unsigned short)(pixel & 0x001F);         // 5
+
+        output[ind] = red << 3;  /* red */
+        output[ind+1] = green << 2;  /* green */
+        output[ind+2] = blue << 3;  /* blue */
+        ind += 3;
+    }
+}
+
+
+int WriteImageToFile(char *ImageName, unsigned int W, unsigned int H, unsigned char PixelSize, unsigned char *OutBuffer, unsigned char imgFormat)
+{
+
+	switch_fs_t fs;
+	__FS_INIT(fs);
+
+    void *File = __OPEN_WRITE(fs, ImageName);
+
+    int ret = 0;
+    WritePPMHeader(File,W,H, imgFormat);
+
+    if(imgFormat == RGB565_IO)
+    {
+        unsigned int rgb888_size = (CHUNK_SIZE/2)*3;     // size of 888 image in byte
+        img_rgb888 = (unsigned char *) gap_allocL2(rgb888_size);
+
+        int steps = (W*H*PixelSize) / CHUNK_SIZE;             // convert and fs write times
+
+        for(int i=0;i<steps;i++){
+            progress_bar("Writing image ",i,steps);
+            rgb565_to_rgb888(OutBuffer+(CHUNK_SIZE*i), CHUNK_SIZE, img_rgb888);
+            ret+=__WRITE(File, img_rgb888, rgb888_size);
+        }
+        if(((W*H*PixelSize) % CHUNK_SIZE) != 0)
+        {
+            rgb888_size = ((W*H*PixelSize) % CHUNK_SIZE)/2*3;
+            rgb565_to_rgb888((OutBuffer+(CHUNK_SIZE*steps)),((W*H*PixelSize) % CHUNK_SIZE) ,img_rgb888);
+            ret+=__WRITE(File, img_rgb888, rgb888_size);
+        }
+
+        gap_freeL2(img_rgb888, (CHUNK_SIZE/2)*3);
+    }
+    else
+    {
+        int steps = (W*H*PixelSize) / CHUNK_SIZE;
+
+        for(int i=0;i<steps;i++){
+            progress_bar("Writing image ",i,steps);
+            ret+=__WRITE(File,OutBuffer +(CHUNK_SIZE*i), CHUNK_SIZE);
+        }
+        if(((W*H*PixelSize) % CHUNK_SIZE) != 0)
+            ret+=__WRITE(File,OutBuffer+(CHUNK_SIZE*steps) , ((W*H*PixelSize) % CHUNK_SIZE)*sizeof(unsigned char));
+    }
+
+    __CLOSE(File);
+    __FS_DEINIT(fs);
+
+    return ret;
+}
diff --git a/libs/gap_lib/include/gaplib/ImgIO.h b/libs/gap_lib/include/gaplib/ImgIO.h
index 20124cef2..b2c667a5f 100644
--- a/libs/gap_lib/include/gaplib/ImgIO.h
+++ b/libs/gap_lib/include/gaplib/ImgIO.h
@@ -1,24 +1,22 @@
 /*
- * Copyright 2019 GreenWaves Technologies, SAS
+ * Copyright (C) 2017 GreenWaves Technologies
+ * All rights reserved.
  *
- * Licensed under the Apache License, Version 2.0 (the "License");
- * you may not use this file except in compliance with the License.
- * You may obtain a copy of the License at
+ * This software may be modified and distributed under the terms
+ * of the BSD license.  See the LICENSE file for details.
  *
- *     http://www.apache.org/licenses/LICENSE-2.0
- *
- * Unless required by applicable law or agreed to in writing, software
- * distributed under the License is distributed on an "AS IS" BASIS,
- * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
- * See the License for the specific language governing permissions and
- * limitations under the License.
  */
 
-
 #ifndef __IMG_IO_H__
 #define __IMG_IO_H__
 
-#define PPM_HEADER                          40
+#include "fs_switch.h"
+
+typedef enum {
+	IMGIO_OUTPUT_CHAR,
+	IMGIO_OUTPUT_SHORT,
+	IMGIO_OUTPUT_RGB565
+} img_io_out_t;
 
 enum {
     BYPASS_IO = 0,
@@ -27,7 +25,13 @@ enum {
     RGB888_IO = 3
 };
 
-unsigned char *ReadImageFromFile(char *ImageName, unsigned int *W, unsigned int *H, unsigned char *InBuffer, unsigned int BuffSize);
+typedef enum {
+	IMGIO_SHIFT = 1
+} img_io_post_process_t;
+
+int ReadImageFromFile(char *ImageName, unsigned int DesiredW, unsigned int DesiredH, unsigned int DesiredBytesPerPixel, void *InBuffer, unsigned int BuffSize, img_io_out_t out_type, int Transpose2CHW);
 int WriteImageToFile(char *ImageName, unsigned int W, unsigned int H, unsigned char PixelSize, unsigned char *OutBuffer, unsigned char imgFormat);
+
+
 #endif //__IMG_IO_H__
 
diff --git a/libs/gap_lib/include/gaplib/fs_switch.h b/libs/gap_lib/include/gaplib/fs_switch.h
new file mode 100644
index 000000000..dca4e29ac
--- /dev/null
+++ b/libs/gap_lib/include/gaplib/fs_switch.h
@@ -0,0 +1,80 @@
+/*
+ * Copyright (C) 2017 GreenWaves Technologies
+ * All rights reserved.
+ *
+ * This software may be modified and distributed under the terms
+ * of the BSD license.  See the LICENSE file for details.
+ *
+ */
+
+#ifndef __FS_SWITCH_H__
+#define __FS_SWITCH_H__
+
+//#include "Gap.h"
+#include <stdio.h>
+#include <stdlib.h>
+#include <sys/types.h>
+#include <sys/stat.h>
+#include <string.h>
+#include <stdarg.h>
+
+#define PPM_HEADER 40
+
+#ifdef __EMUL__
+#include <unistd.h>
+    #include <fcntl.h>
+    #include <errno.h>
+    typedef int switch_fs_t;
+    typedef int switch_file_t;
+    #define __FS_INIT(__X) 1
+    #define __FS_DEINIT(__X)
+    #define __OPEN_READ(__FS, __NAME) open(__NAME, O_RDONLY, 0)
+    #define __OPEN_WRITE(__FS, __NAME) open(__NAME, O_RDWR | O_CREAT, S_IRWXU)
+    #define __CLOSE(__FD) close(__FD)
+    #define __SEEK(__FD, __POS) lseek(__FD, __POS, SEEK_SET)
+    #define __READ(__FD, __BUF, __LEN) read(__FD, __BUF, __LEN)
+    #define __WRITE(__FD, __BUF, __LEN) write(__FD, __BUF, __LEN)
+    #define __WRITEATCLUSTER(__FD, __POS, __BUF, __LEN) write(__FD, __BUF, __LEN)
+    #define __int_ssize_t ssize_t
+#else
+    #include "bsp/fs.h"
+    typedef pi_fs_file_t * switch_file_t;
+    typedef struct {
+        struct pi_fs_conf conf;
+        struct pi_device fs;
+    } switch_fs_t;
+
+    static inline void switch_init_fs(switch_fs_t * fs) {
+        pi_fs_conf_init(&fs->conf);
+        fs->conf.type = PI_FS_HOST;
+        pi_open_from_conf(&fs->fs, &fs->conf);
+        pi_fs_mount(&fs->fs);
+    }
+
+    static inline int32_t switch_writeat_cl(pi_fs_file_t *file, uint32_t index, void *buffer,
+                                        uint32_t size) {
+        pi_cl_fs_req_t evt;
+        pi_cl_fs_copy(file, index, buffer, size, 0, &evt);
+        return pi_cl_fs_wait(&evt);
+    }
+
+    #define __FS_INIT(__FS)                             \
+    do {                                                \
+        pi_fs_conf_init(&__FS.conf);                    \
+        __FS.conf.type = PI_FS_HOST;                    \
+        pi_open_from_conf(&__FS.fs, &__FS.conf);        \
+        pi_fs_mount(&__FS.fs);                          \
+    } while (0)
+    #define strerror(__x) "error unknown"
+    #define __FS_DEINIT(__FS)  pi_fs_unmount(&__FS.fs)
+    #define __OPEN_READ(__FS, __NAME) pi_fs_open(&__FS.fs, __NAME, PI_FS_FLAGS_READ)
+    #define __OPEN_WRITE(__FS, __NAME) pi_fs_open(&__FS.fs, __NAME, PI_FS_FLAGS_WRITE)
+    #define __CLOSE(__FD) pi_fs_close(__FD)
+    #define __SEEK(__FD, __POS) pi_fs_seek(__FD, (__POS))
+    #define __READ(__FD, __BUF, __LEN) pi_fs_read(__FD, (void *)(__BUF), (__LEN))
+    #define __WRITE(__FD, __BUF, __LEN) pi_fs_write(__FD, (void *)(__BUF), (__LEN))
+    #define __WRITEATCLUSTER(__FD, __POS, __BUF, __LEN) switch_writeat_cl(__FD, __POS, __BUF, __LEN)
+    #define __int_ssize_t unsigned int
+#endif
+
+#endif
diff --git a/rtos/freeRTOS/vendors/gwt/TARGET_GWT/pmsis/implem/pmsis_implem_gap8/drivers/udma/i2s/i2s_internal.c b/rtos/freeRTOS/vendors/gwt/TARGET_GWT/pmsis/implem/pmsis_implem_gap8/drivers/udma/i2s/i2s_internal.c
index b1cb1b2fb..ca8a35417 100644
--- a/rtos/freeRTOS/vendors/gwt/TARGET_GWT/pmsis/implem/pmsis_implem_gap8/drivers/udma/i2s/i2s_internal.c
+++ b/rtos/freeRTOS/vendors/gwt/TARGET_GWT/pmsis/implem/pmsis_implem_gap8/drivers/udma/i2s/i2s_internal.c
@@ -284,7 +284,7 @@ static int32_t __pi_i2s_conf_apply(struct i2s_itf_data_s *itf_data)
      * are used, so both i2s_0 and i2s_1 use i2s_0 internal clock.
      */
     itf_data->clk = (g_i2s_flags & PI_I2S_SETUP_SINGLE_CLOCK) ? 0 : itf_data->i2s_id;
-    if ((itf_data->clk == 0) && (itf_data->options & PI_I2S_OPT_EXT_CLK))
+    if ((g_i2s_flags & PI_I2S_SETUP_SINGLE_CLOCK) && (itf_data->options & PI_I2S_OPT_EXT_CLK))
     {
         I2S_TRACE_ERR("Error clock configuration : Single internal clock and "
                       "external clock are defined !\n");
diff --git a/rtos/freeRTOS/vendors/gwt/TARGET_GWT/pmsis/implem/pmsis_implem_gap8/include/pmsis/implem/drivers/perf/perf.h b/rtos/freeRTOS/vendors/gwt/TARGET_GWT/pmsis/implem/pmsis_implem_gap8/include/pmsis/implem/drivers/perf/perf.h
index 3cc4aab0e..f92d39fe1 100644
--- a/rtos/freeRTOS/vendors/gwt/TARGET_GWT/pmsis/implem/pmsis_implem_gap8/include/pmsis/implem/drivers/perf/perf.h
+++ b/rtos/freeRTOS/vendors/gwt/TARGET_GWT/pmsis/implem/pmsis_implem_gap8/include/pmsis/implem/drivers/perf/perf.h
@@ -74,6 +74,19 @@ static inline void pi_perf_reset()
     }
 }
 
+static inline void pi_perf_fc_reset()
+{
+    __pi_perf_fc_reset();
+}
+
+static inline void pi_perf_cl_reset()
+{
+    /* Reset all performance counters to 0. */
+    #if (FEATURE_CLUSTER == 1)
+    __pi_perf_cl_reset();
+    #endif  /* FEATURE_CLUSTER */
+}
+
 static inline void pi_perf_start()
 {
     /* Initialize timer if needed and start counters. */
@@ -89,6 +102,19 @@ static inline void pi_perf_start()
     }
 }
 
+static inline void pi_perf_fc_start()
+{
+    __pi_perf_fc_start();
+}
+
+static inline void pi_perf_cl_start()
+{
+    /* Initialize timer if needed and start counters. */
+    #if (FEATURE_CLUSTER == 1)
+    __pi_perf_cl_start();
+    #endif  /* FEATURE_CLUSTER */
+}
+
 static inline void pi_perf_stop()
 {
     /* Stop counters and timers, and save values. */
@@ -118,4 +144,16 @@ static inline unsigned int pi_perf_read(int id)
     }
 }
 
+static inline unsigned int pi_perf_fc_read(int id)
+{
+    return __pi_perf_fc_read(id);
+}
+
+static inline unsigned int pi_perf_cl_read(int id)
+{
+    #if (FEATURE_CLUSTER == 1)
+    return __pi_perf_cl_read(id);
+    #endif  /* FEATURE_CLUSTER */
+}
+
 #endif  /* __PI_PERF_H__ */
diff --git a/rtos/pmsis/pmsis_api/include/pmsis/drivers/uart.h b/rtos/pmsis/pmsis_api/include/pmsis/drivers/uart.h
index f4667f728..00410fe27 100644
--- a/rtos/pmsis/pmsis_api/include/pmsis/drivers/uart.h
+++ b/rtos/pmsis/pmsis_api/include/pmsis/drivers/uart.h
@@ -163,7 +163,14 @@ enum pi_uart_ioctl_cmd
      *
      * This command disables flow control on UART device.
      */
-    PI_UART_IOCTL_DISABLE_FLOW_CONTROL = 6
+    PI_UART_IOCTL_DISABLE_FLOW_CONTROL = 6,
+
+    /**
+     * \brief Flush UART TX.
+     *
+     * This command will wait until all pending buffers are flushed outside
+     */
+    PI_UART_IOCTL_FLUSH = 7
 };
 
 /**
diff --git a/rtos/pmsis/pmsis_bsp/rules/freertos_bsp_rules.mk b/rtos/pmsis/pmsis_bsp/rules/freertos_bsp_rules.mk
index d358bd8b3..7b03e8a1c 100644
--- a/rtos/pmsis/pmsis_bsp/rules/freertos_bsp_rules.mk
+++ b/rtos/pmsis/pmsis_bsp/rules/freertos_bsp_rules.mk
@@ -32,7 +32,7 @@ else ifeq ($(BOARD_NAME), gap9_v2)
 PMSIS_BSP_SRC = $(GAP9_SRC)
 endif
 
-EXCLUDE_FROM_SRCS= transport/transport.c transport/nina_w10/nina_w10.c flash/spiflash/spiflash.c
+EXCLUDE_FROM_SRCS= transport/transport.c transport/nina_w10/nina_w10.c
 
 PMSIS_BSP_SRCS := $(filter-out $(EXCLUDE_FROM_SRCS), $(PMSIS_BSP_SRC))
 PMSIS_BSP_SRCS := $(foreach f, $(PMSIS_BSP_SRCS), $(PMSIS_BSP_DIR)/$f)
diff --git a/rtos/pulp/pulp-os/drivers/drivers.mk b/rtos/pulp/pulp-os/drivers/drivers.mk
index 976fba4ae..1d1ac7e7e 100644
--- a/rtos/pulp/pulp-os/drivers/drivers.mk
+++ b/rtos/pulp/pulp-os/drivers/drivers.mk
@@ -102,7 +102,6 @@ endif
 
 # GPIO
 
-ifeq '$(pulp_chip_family)' 'gap'
 ifeq '$(CONFIG_GPIO_ENABLED)' '1'
 PULP_FC_CFLAGS += -DRT_CONFIG_GPIO_ENABLED
 ifneq '$(gpio/version)' ''
@@ -110,7 +109,6 @@ PULP_LIB_FC_SRCS_rt += drivers/gpio/gpio-v$(gpio/version).c
 #PULP_LIB_FC_ASM_SRCS_rt += drivers/gpio/gpio-v$(gpio/version)_asm.S
 endif
 endif
-endif
 
 
 
diff --git a/rtos/pulp/pulp-os/drivers/gpio/gpio-v3.c b/rtos/pulp/pulp-os/drivers/gpio/gpio-v3.c
new file mode 100644
index 000000000..49d11871f
--- /dev/null
+++ b/rtos/pulp/pulp-os/drivers/gpio/gpio-v3.c
@@ -0,0 +1,177 @@
+/*
+ * Copyright (C) 2018 ETH Zurich and University of Bologna
+ *
+ * Licensed under the Apache License, Version 2.0 (the "License");
+ * you may not use this file except in compliance with the License.
+ * You may obtain a copy of the License at
+ *
+ *     http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+#include "pmsis.h"
+
+#define NB_GPIO_PORT ((ARCHI_NB_GPIO+31)/32)
+
+extern RT_FC_TINY_DATA uint32_t __rt_gpio_status;
+
+typedef struct 
+{
+  int port;
+} pi_gpio_t;
+
+static pi_gpio_t __rt_gpio[NB_GPIO_PORT];
+
+
+
+void pi_gpio_conf_init(struct pi_gpio_conf *conf)
+{
+  conf->port = 0;
+}
+
+
+
+int pi_gpio_open(struct pi_device *device)
+{
+  int irq = rt_irq_disable();
+
+  struct pi_gpio_conf *conf = (struct pi_gpio_conf *)device->config;
+
+  if (conf->port >= NB_GPIO_PORT)
+    goto error;
+
+  pi_gpio_t *gpio = &__rt_gpio[conf->port];
+
+  device->data = (void *)gpio;
+
+  gpio->port = conf->port;
+
+  rt_irq_restore(irq);
+
+  return 0;
+
+error:
+  rt_irq_restore(irq);
+  return -1;
+}
+
+
+int pi_gpio_pin_configure(struct pi_device *device, pi_gpio_e pin, pi_gpio_flags_e flags)
+{
+  if (pin & PI_GPIO_IS_GPIO_MASK)
+  {
+    pi_pad_e pad = ((pin & ~PI_GPIO_IS_GPIO_MASK)>> PI_GPIO_NUM_SHIFT);
+    /* Setup first pad for GPIO. */
+
+    pi_pad_set_function(pad, PI_PAD_FUNC1);
+  }
+  pin = (pin & PI_GPIO_NUM_MASK);
+  return pi_gpio_mask_configure(device, 1<<pin, flags);
+}
+
+int pi_gpio_pin_write(struct pi_device *device, uint32_t pin, uint32_t value)
+{
+  pin = (pin & PI_GPIO_NUM_MASK);
+  int irq = rt_irq_disable();
+  hal_gpio_set_pin_value(pin, value);
+  rt_irq_restore(irq);
+  return 0;
+}
+
+int pi_gpio_pin_read(struct pi_device *device, uint32_t pin, uint32_t *value)
+{
+  pin = (pin & PI_GPIO_NUM_MASK);
+  *value = (hal_gpio_get_value() >> pin) & 1;
+  return 0;
+}
+
+int pi_gpio_pin_task_add(struct pi_device *device, uint32_t pin, pi_task_t *task, pi_gpio_notif_e flags)
+{
+  pin = (pin & PI_GPIO_NUM_MASK);
+  return 0;
+}
+
+int pi_gpio_pin_task_remove(struct pi_device *device, uint32_t pin)
+{
+  pin = (pin & PI_GPIO_NUM_MASK);
+  return 0;
+}
+
+int pi_gpio_mask_configure(struct pi_device *device, uint32_t mask, pi_gpio_flags_e flags)
+{
+  int irq = rt_irq_disable();
+  int is_out = flags & PI_GPIO_OUTPUT;
+  hal_gpio_set_dir(mask, is_out);
+
+  if (is_out)
+    hal_gpio_en_set(hal_gpio_en_get() & ~mask);
+  else
+    hal_gpio_en_set(hal_gpio_en_get() | mask);
+
+  rt_irq_restore(irq);
+
+  return 0;
+}
+
+int pi_gpio_mask_write(struct pi_device *device, uint32_t mask, uint32_t value)
+{
+  hal_gpio_set_value(mask, value);
+  return 0;
+}
+
+int pi_gpio_mask_read(struct pi_device *device, uint32_t mask, uint32_t *value)
+{
+  *value = hal_gpio_get_value();
+  return 0;
+}
+
+int pi_gpio_mask_task_add(struct pi_device *device, uint32_t mask, pi_task_t *task, pi_gpio_notif_e flags)
+{
+  return 0;
+}
+
+int pi_gpio_mask_task_remove(struct pi_device *device, uint32_t mask)
+{
+  return 0;
+}
+
+void pi_gpio_pin_notif_configure(struct pi_device *device, uint32_t pin, pi_gpio_notif_e flags)
+{
+  pin = (pin & PI_GPIO_NUM_MASK);
+  int irq = rt_irq_disable();
+  if (flags == PI_GPIO_NOTIF_NONE)
+  {
+    //hal_gpio_inten_set(hal_gpio_inten_get() & ~(1<<pin));
+  }
+  else
+  {
+    //hal_gpio_inten_set(hal_gpio_inten_get() | (1<<pin));
+    int inttype = ARCHI_GPIO_INTTYPE_NO(pin);
+    int mode =
+      flags == PI_GPIO_NOTIF_RISE ? ARCHI_GPIO_INTTYPE_RISE : 
+      flags == PI_GPIO_NOTIF_FALL ? ARCHI_GPIO_INTTYPE_FALL :
+      ARCHI_GPIO_INTTYPE_RISE_AND_FALL;
+    uint32_t prev = hal_gpio_inttype_get(inttype) & ~(((1<<ARCHI_GPIO_INTTYPE_SIZE) - 1) << ARCHI_GPIO_INTTYPE_BIT(pin));
+    hal_gpio_inttype_set(inttype, prev | (mode << ARCHI_GPIO_INTTYPE_BIT(pin)));
+  }
+  rt_irq_restore(irq);
+}
+
+void pi_gpio_pin_notif_clear(struct pi_device *device, uint32_t pin)
+{
+  pin = (pin & PI_GPIO_NUM_MASK);
+  int irq = rt_irq_disable();
+  __rt_gpio_status &= ~(1<<pin);
+  rt_irq_restore(irq);
+}
+
+int pi_gpio_pin_notif_get(struct pi_device *device, uint32_t pin)
+{
+  pin = (pin & PI_GPIO_NUM_MASK);
+  return (__rt_gpio_status >> pin) & 1;
+}
diff --git a/rtos/pulp/pulp-os/drivers/pwm/pwm-v1.c b/rtos/pulp/pulp-os/drivers/pwm/pwm-v1.c
index 32ff19aa3..8f27782f4 100644
--- a/rtos/pulp/pulp-os/drivers/pwm/pwm-v1.c
+++ b/rtos/pulp/pulp-os/drivers/pwm/pwm-v1.c
@@ -64,9 +64,6 @@ int32_t pi_pwm_open(struct pi_device *device)
 
     device->data = (void *)timer;
 
-    pi_pad_set_function(PI_PAD_33_B12_TIMER0_CH2, PI_PAD_33_B12_TIMER0_CH2_FUNC0);
-
-
     timer->open_count++;
     if (timer->open_count == 1)
     {
diff --git a/rtos/pulp/pulp-os/libs/io/prf.c b/rtos/pulp/pulp-os/libs/io/prf.c
index a9d264d4e..3ce41f726 100644
--- a/rtos/pulp/pulp-os/libs/io/prf.c
+++ b/rtos/pulp/pulp-os/libs/io/prf.c
@@ -12,64 +12,60 @@
 #include <stdarg.h>
 #include <string.h>
 #include <ctype.h>
-
-#ifndef MAXFLD
-#define	MAXFLD	200
-#endif
+#include <limits.h>
+#include <sys/types.h>
 
 #ifndef EOF
 #define EOF  -1
 #endif
 
+#define CONFIG_MINIMAL_LIBC_LL_PRINTF 1
+
+#ifdef CONFIG_MINIMAL_LIBC_LL_PRINTF
+#define VALTYPE long long
+#else
+#define VALTYPE long
+#endif
+
 static void _uc(char *buf)
 {
-	for (/**/; *buf; buf++) {
+	do {
 		if (*buf >= 'a' && *buf <= 'z') {
 			*buf += 'A' - 'a';
 		}
-	}
+	} while (*buf++);
 }
 
-/* Convention note: "end" as passed in is the standard "byte after
- * last character" style, but...
- */
-static int _reverse_and_pad(char *start, char *end, int minlen)
-{
-	int len;
-
-	while (end - start < minlen) {
-		*end++ = '0';
-	}
-
-	*end = 0;
-	len = end - start;
-	for (end--; end > start; end--, start++) {
-		char tmp = *end;
-		*end = *start;
-		*start = tmp;
-	}
-	return len;
-}
-
-/* Writes the specified number into the buffer in the given base,
+/*
+ * Writes the specified number into the buffer in the given base,
  * using the digit characters 0-9a-z (i.e. base>36 will start writing
- * odd bytes), padding with leading zeros up to the minimum length.
+ * odd bytes).
  */
-static int _to_x(char *buf, uint32_t n, int base, int minlen)
+static int _to_x(char *buf, unsigned VALTYPE n, unsigned int base)
 {
-	char *buf0 = buf;
+	char *start = buf;
+	int len;
 
 	do {
-		int d = n % base;
+		unsigned int d = n % base;
 
 		n /= base;
 		*buf++ = '0' + d + (d > 9 ? ('a' - '0' - 10) : 0);
 	} while (n);
-	return _reverse_and_pad(buf0, buf, minlen);
+
+	*buf = 0;
+	len = buf - start;
+
+	for (buf--; buf > start; buf--, start++) {
+		char tmp = *buf;
+		*buf = *start;
+		*start = tmp;
+	}
+
+	return len;
 }
 
-static int _to_hex(char *buf, uint32_t value,
-		   int alt_form, int precision, int prefix)
+static int _to_hex(char *buf, unsigned VALTYPE value, bool alt_form, char prefix)
 {
 	int len;
 	char *buf0 = buf;
@@ -79,7 +75,7 @@ static int _to_hex(char *buf, uint32_t value,
 		*buf++ = 'x';
 	}
 
-	len = _to_x(buf, value, 16, precision);
+	len = _to_x(buf, value, 16);
 	if (prefix == 'X') {
 		_uc(buf0);
 	}
@@ -87,7 +83,7 @@ static int _to_hex(char *buf, uint32_t value,
 	return len + (buf - buf0);
 }
 
-static int _to_octal(char *buf, uint32_t value, int alt_form, int precision)
+static int _to_octal(char *buf, unsigned VALTYPE value, bool alt_form)
 {
 	char *buf0 = buf;
 
@@ -99,32 +95,28 @@ static int _to_octal(char *buf, uint32_t value, int alt_form, int precision)
 			return 1;
 		}
 	}
-	return (buf - buf0) + _to_x(buf, value, 8, precision);
+	return (buf - buf0) + _to_x(buf, value, 8);
 }
 
-static int _to_udec(char *buf, uint32_t value, int precision)
+static int _to_udec(char *buf, unsigned VALTYPE value)
 {
-	return _to_x(buf, value, 10, precision);
+	return _to_x(buf, value, 10);
 }
 
-static int _to_dec(char *buf, int32_t value, int fplus, int fspace, int precision)
+static int _to_dec(char *buf, VALTYPE value, bool fplus, bool fspace)
 {
 	char *start = buf;
 
-#if (MAXFLD < 10)
-  #error buffer size MAXFLD is too small
-#endif
-
 	if (value < 0) {
 		*buf++ = '-';
-		if (value != (int32_t)0x80000000)
-			value = -value;
-	} else if (fplus)
+		value = -value;
+	} else if (fplus) {
 		*buf++ = '+';
-	else if (fspace)
+	} else if (fspace) {
 		*buf++ = ' ';
+	}
 
-	return (buf + _to_udec(buf, (uint32_t) value, precision)) - start;
+	return (buf + _to_udec(buf, value)) - start;
 }
 
 static	void _rlrshift(uint64_t *v)
@@ -132,7 +124,8 @@ static	void _rlrshift(uint64_t *v)
 	*v = (*v & 1) + (*v >> 1);
 }
 
-/* Tiny integer divide-by-five routine.  The full 64 bit division
+/*
+ * Tiny integer divide-by-five routine.  The full 64 bit division
  * implementations in libgcc are very large on some architectures, and
  * currently nothing in Zephyr pulls it into the link.  So it makes
  * sense to define this much smaller special case here to avoid
@@ -149,19 +142,22 @@ static	void _rlrshift(uint64_t *v)
  */
 static void _ldiv5(uint64_t *v)
 {
-	uint32_t i, hi;
-	uint64_t rem = *v, quot = 0, q;
+	uint32_t hi;
+	uint64_t rem = *v, quot = 0U, q;
+	int i;
+
 	static const char shifts[] = { 32, 3, 0 };
 
-	/* Usage in this file wants rounded behavior, not truncation.  So add
+	/*
+	 * Usage in this file wants rounded behavior, not truncation.  So add
 	 * two to get the threshold right.
 	 */
-	rem += 2;
+	rem += 2U;
 
 	for (i = 0; i < 3; i++) {
 		hi = rem >> shifts[i];
-		q = (uint64_t)(hi / 5) << shifts[i];
-		rem -= q * 5;
+		q = (uint64_t)(hi / 5U) << shifts[i];
+		rem -= q * 5U;
 		quot += q;
 	}
 
@@ -170,16 +166,18 @@ static void _ldiv5(uint64_t *v)
 
 static	char _get_digit(uint64_t *fr, int *digit_count)
 {
-	int		rval;
+	char rval;
 
 	if (*digit_count > 0) {
 		*digit_count -= 1;
-		*fr = *fr * 10;
+		*fr = *fr * 10U;
 		rval = ((*fr >> 60) & 0xF) + '0';
 		*fr &= 0x0FFFFFFFFFFFFFFFull;
-	} else
+	} else {
 		rval = '0';
-	return (char) (rval);
+	}
+
+	return rval;
 }
 
 /*
@@ -195,6 +193,7 @@ static	char _get_digit(uint64_t *fr, int *digit_count)
  *		"fplus"		TRUE if "+" conversion flag in effect.
  *		"fspace"	TRUE if " " conversion flag in effect.
  *		"precision"	Desired precision (negative if undefined).
+ *		"zeropad"	To store padding info to be inserted later
  */
 
 /*
@@ -207,27 +206,34 @@ static	char _get_digit(uint64_t *fr, int *digit_count)
 #define	MAXFP1	0xFFFFFFFF	/* Largest # if first fp format */
 #define HIGHBIT64 (1ull<<63)
 
-static int _to_float(char *buf, uint64_t double_temp, int c,
-					 int falt, int fplus, int fspace, int precision)
+struct zero_padding { int predot, postdot, trail; };
+
+static int _to_float(char *buf, uint64_t double_temp, char c,
+		     bool falt, bool fplus, bool fspace, int precision,
+		     struct zero_padding *zp)
 {
-	register int    decexp;
-	register int    exp;
-	int             sign;
-	int             digit_count;
-	uint64_t        fract;
-	uint64_t        ltemp;
-	int             prune_zero;
-	char           *start = buf;
+	int decexp;
+	int exp;
+	bool sign;
+	int digit_count;
+	uint64_t fract;
+	uint64_t ltemp;
+	bool prune_zero;
+	char *start = buf;
 
 	exp = double_temp >> 52 & 0x7ff;
 	fract = (double_temp << 11) & ~HIGHBIT64;
 	sign = !!(double_temp & HIGHBIT64);
 
+	if (sign) {
+		*buf++ = '-';
+	} else if (fplus) {
+		*buf++ = '+';
+	} else if (fspace) {
+		*buf++ = ' ';
+	}
 
 	if (exp == 0x7ff) {
-		if (sign) {
-			*buf++ = '-';
-		}
 		if (!fract) {
 			if (isupper(c)) {
 				*buf++ = 'I';
@@ -258,18 +264,14 @@ static int _to_float(char *buf, uint64_t double_temp, int c,
 	}
 
 	if ((exp | fract) != 0) {
+		if (exp == 0) {
+			/* this is a denormal */
+			while (((fract <<= 1) & HIGHBIT64) == 0) {
+				exp--;
+			}
+		}
 		exp -= (1023 - 1);	/* +1 since .1 vs 1. */
 		fract |= HIGHBIT64;
-		decexp = true;		/* Wasn't zero */
-	} else
-		decexp = false;		/* It was zero */
-
-	if (decexp && sign) {
-		*buf++ = '-';
-	} else if (fplus) {
-		*buf++ = '+';
-	} else if (fspace) {
-		*buf++ = ' ';
 	}
 
 	decexp = 0;
@@ -278,7 +280,7 @@ static int _to_float(char *buf, uint64_t double_temp, int c,
 			_rlrshift(&fract);
 			exp++;
 		}
-		fract *= 5;
+		fract *= 5U;
 		exp++;
 		decexp--;
 
@@ -303,30 +305,38 @@ static int _to_float(char *buf, uint64_t double_temp, int c,
 		exp++;
 	}
 
-	if (precision < 0)
+	if (precision < 0) {
 		precision = 6;		/* Default precision if none given */
+	}
+
 	prune_zero = false;		/* Assume trailing 0's allowed     */
 	if ((c == 'g') || (c == 'G')) {
-		if (!falt && (precision > 0))
-			prune_zero = true;
-		if ((decexp < (-4 + 1)) || (decexp > (precision + 1))) {
-			if (c == 'g')
-				c = 'e';
-			else
-				c = 'E';
-		} else
+		if (decexp < (-4 + 1) || decexp > precision) {
+			c += 'e' - 'g';
+			if (precision > 0) {
+				precision--;
+			}
+		} else {
 			c = 'f';
+			precision -= decexp;
+		}
+		if (!falt && (precision > 0)) {
+			prune_zero = true;
+		}
 	}
 
 	if (c == 'f') {
 		exp = precision + decexp;
-		if (exp < 0)
+		if (exp < 0) {
 			exp = 0;
-	} else
+		}
+	} else {
 		exp = precision + 1;
+	}
 	digit_count = 16;
-	if (exp > 16)
+	if (exp > 16) {
 		exp = 16;
+	}
 
 	ltemp = 0x0800000000000000;
 	while (exp--) {
@@ -343,111 +353,118 @@ static int _to_float(char *buf, uint64_t double_temp, int c,
 
 	if (c == 'f') {
 		if (decexp > 0) {
-			while (decexp > 0) {
+			while (decexp > 0 && digit_count > 0) {
 				*buf++ = _get_digit(&fract, &digit_count);
 				decexp--;
 			}
-		} else
+			zp->predot = decexp;
+			decexp = 0;
+		} else {
 			*buf++ = '0';
-		if (falt || (precision > 0))
+		}
+		if (falt || (precision > 0)) {
 			*buf++ = '.';
-		while (precision-- > 0) {
-			if (decexp < 0) {
-				*buf++ = '0';
-				decexp++;
-			} else
-				*buf++ = _get_digit(&fract, &digit_count);
 		}
+		if (decexp < 0 && precision > 0) {
+			zp->postdot = -decexp;
+			if (zp->postdot > precision) {
+				zp->postdot = precision;
+			}
+			precision -= zp->postdot;
+		}
+		while (precision > 0 && digit_count > 0) {
+			*buf++ = _get_digit(&fract, &digit_count);
+			precision--;
+		}
+		zp->trail = precision;
 	} else {
 		*buf = _get_digit(&fract, &digit_count);
-		if (*buf++ != '0')
+		if (*buf++ != '0') {
 			decexp--;
-		if (falt || (precision > 0))
+		}
+		if (falt || (precision > 0)) {
 			*buf++ = '.';
-		while (precision-- > 0)
+		}
+		while (precision > 0 && digit_count > 0) {
 			*buf++ = _get_digit(&fract, &digit_count);
+			precision--;
+		}
+		zp->trail = precision;
 	}
 
 	if (prune_zero) {
+		zp->trail = 0;
 		while (*--buf == '0')
 			;
-		if (*buf != '.')
+		if (*buf != '.') {
 			buf++;
+		}
 	}
 
 	if ((c == 'e') || (c == 'E')) {
-		*buf++ = (char) c;
+		*buf++ = c;
 		if (decexp < 0) {
 			decexp = -decexp;
 			*buf++ = '-';
-		} else
+		} else {
 			*buf++ = '+';
-		*buf++ = (char) ((decexp / 10) + '0');
+		}
+		if (decexp >= 100) {
+			*buf++ = (decexp / 100) + '0';
+			decexp %= 100;
+		}
+		*buf++ = (decexp / 10) + '0';
 		decexp %= 10;
-		*buf++ = (char) (decexp + '0');
+		*buf++ = decexp + '0';
 	}
 	*buf = 0;
 
 	return buf - start;
 }
 
-static int _atoi(char **sptr)
+static int _atoi(const char **sptr)
 {
-	register char *p;
-	register int   i;
+	const char *p = *sptr - 1;
+	int i = 0;
 
-	i = 0;
-	p = *sptr;
-	p--;
-	while (isdigit(((int) *p)))
+	while (isdigit(*p)) {
 		i = 10 * i + *p++ - '0';
+	}
 	*sptr = p;
 	return i;
 }
 
-int _prf(int (*func)(), void *dest, char *format, va_list vargs)
+int _prf(int (*func)(), void *dest, const char *format, va_list vargs)
 {
 	/*
-	 * Due the fact that buffer is passed to functions in this file,
-	 * they assume that it's size if MAXFLD + 1. In need of change
-	 * the buffer size, either MAXFLD should be changed or the change
-	 * has to be propagated across the file
+	 * The work buffer has to accommodate for the largest data length.
+	 * The max range octal length is one prefix + 3 bits per digit
+	 * meaning 12 bytes on 32-bit and 23 bytes on 64-bit.
+	 * The float code may extract up to 16 digits, plus a prefix,
+	 * a leading 0, a dot, and an exponent in the form e+xxx for
+	 * a total of 24. Add a trailing NULL so it is 25.
 	 */
-	char			buf[MAXFLD + 1];
-	register int	c;
-	int				count;
-	register char	*cptr;
-	int				falt;
-	int				fminus;
-	int				fplus;
-	int				fspace;
-	register int	i;
-	int				need_justifying;
-	char			pad;
-	int				precision;
-	int				prefix;
-	int				width;
-	char			*cptr_temp;
-	int32_t			*int32ptr_temp;
-	int32_t			int32_temp;
-	uint32_t			uint32_temp;
-	uint64_t			double_temp;
+	char buf[25];
+	char c;
+	int count;
+	char *cptr;
+	bool falt, fminus, fplus, fspace, fzero;
+	int i;
+	int width, precision;
+	int clen, prefix, zero_head;
+	struct zero_padding zero;
+	VALTYPE val;
+
+#define PUTC(c)	do { if ((*func)(c, dest) == EOF) return EOF; } while (false)
 
 	count = 0;
 
 	while ((c = *format++)) {
 		if (c != '%') {
-			if ((*func) (c, dest) == EOF) {
-				return EOF;
-			}
-
+			PUTC(c);
 			count++;
-
 		} else {
-			fminus = fplus = fspace = falt = false;
-			pad = ' ';		/* Default pad character    */
-			precision = -1;	/* No precision specified   */
-
+			fminus = fplus = fspace = falt = fzero = false;
 			while (strchr("-+ #0", (c = *format++)) != NULL) {
 				switch (c) {
 				case '-':
@@ -467,7 +484,7 @@ int _prf(int (*func)(), void *dest, char *format, va_list vargs)
 					break;
 
 				case '0':
-					pad = '0';
+					fzero = true;
 					break;
 
 				case '\0':
@@ -477,85 +494,88 @@ int _prf(int (*func)(), void *dest, char *format, va_list vargs)
 
 			if (c == '*') {
 				/* Is the width a parameter? */
-				width = (int32_t) va_arg(vargs, int32_t);
+				width = va_arg(vargs, int);
 				if (width < 0) {
 					fminus = true;
 					width = -width;
 				}
 				c = *format++;
-			} else if (!isdigit(c))
+			} else if (!isdigit(c)) {
 				width = 0;
-			else {
+			} else {
 				width = _atoi(&format);	/* Find width */
 				c = *format++;
 			}
 
-			/*
-			 * If <width> is INT_MIN, then its absolute value can
-			 * not be expressed as a positive number using 32-bit
-			 * two's complement.  To cover that case, cast it to
-			 * an unsigned before comparing it against MAXFLD.
-			 */
-			if ((unsigned) width > MAXFLD) {
-				width = MAXFLD;
-			}
-
+			precision = -1;
 			if (c == '.') {
 				c = *format++;
 				if (c == '*') {
-					precision = (int32_t)
-					va_arg(vargs, int32_t);
-				} else
+					precision = va_arg(vargs, int);
+				} else {
 					precision = _atoi(&format);
+				}
 
-				if (precision > MAXFLD)
-					precision = -1;
 				c = *format++;
 			}
 
 			/*
-			 * This implementation only checks that the following format
-			 * specifiers are followed by an appropriate type:
+			 * This implementation only supports the following
+			 * length modifiers:
 			 *    h: short
+			 *   hh: char
 			 *    l: long
-			 *    L: long double
+			 *   ll: long long
 			 *    z: size_t or ssize_t
-			 * No further special processing is done for them.
 			 */
-
-			if (strchr("hlLz", c) != NULL) {
+			i = 0;
+			if (strchr("hlz", c) != NULL) {
 				i = c;
 				c = *format++;
-				/*
-				 * Here there was a switch() block
-				 * which was doing nothing useful, I
-				 * am still puzzled at why it was left
-				 * over. Maybe before it contained
-				 * stuff that was needed, but in its
-				 * current form, it was being
-				 * optimized out.
-				 */
+				if (i == 'l' && c == 'l') {
+					i = 'L';
+					c = *format++;
+				} else if (i == 'h' && c == 'h') {
+					i = 'H';
+					c = *format++;
+				}
 			}
 
-			need_justifying = false;
+			cptr = buf;
 			prefix = 0;
+			zero.predot = zero.postdot = zero.trail = 0;
+
 			switch (c) {
 			case 'c':
-				buf[0] = (char) ((int32_t) va_arg(vargs, int32_t));
-				buf[1] = '\0';
-				need_justifying = true;
-				c = 1;
+				buf[0] = va_arg(vargs, int);
+				clen = 1;
+				precision = 0;
 				break;
 
 			case 'd':
 			case 'i':
-				int32_temp = (int32_t) va_arg(vargs, int32_t);
-				c = _to_dec(buf, int32_temp, fplus, fspace, precision);
-				if (fplus || fspace || (int32_temp < 0))
+				switch (i) {
+				case 'l':
+					val = va_arg(vargs, long);
+					break;
+#ifdef CONFIG_MINIMAL_LIBC_LL_PRINTF
+				case 'L':
+					val = va_arg(vargs, long long);
+					break;
+#endif
+				case 'z':
+					val = va_arg(vargs, ssize_t);
+					break;
+				case 'h':
+				case 'H':
+				default:
+					val = va_arg(vargs, int);
+					break;
+				}
+				clen = _to_dec(buf, val, fplus, fspace);
+				if (fplus || fspace || val < 0) {
 					prefix = 1;
-				need_justifying = true;
-				if (precision != -1)
-					pad = ' ';
+				}
 				break;
 
 			case 'e':
@@ -564,120 +584,221 @@ int _prf(int (*func)(), void *dest, char *format, va_list vargs)
 			case 'F':
 			case 'g':
 			case 'G':
-				/* standard platforms which supports double */
 			{
+				uint64_t double_val;
+
+				/* standard platforms which supports double */
 				union {
 					double d;
 					uint64_t i;
 				} u;
 
-				u.d = (double) va_arg(vargs, double);
-				double_temp = u.i;
-			}
+				u.d = va_arg(vargs, double);
+				double_val = u.i;
 
-				c = _to_float(buf, double_temp, c, falt, fplus,
-					      fspace, precision);
-				if (fplus || fspace || (buf[0] == '-'))
+				clen = _to_float(buf, double_val, c, falt,
+						 fplus, fspace, precision,
+						 &zero);
+				if (fplus || fspace || (buf[0] == '-')) {
 					prefix = 1;
-				need_justifying = true;
+				}
+				clen += zero.predot + zero.postdot + zero.trail;
+				if (!isdigit(buf[prefix])) {
+					/* inf or nan: no zero padding */
+					fzero = false;
+				}
+				precision = -1;
 				break;
+			}
 
 			case 'n':
-				int32ptr_temp = (int32_t *)va_arg(vargs, int32_t *);
-				*int32ptr_temp = count;
-				break;
-
-			case 'o':
-				uint32_temp = (uint32_t) va_arg(vargs, uint32_t);
-				c = _to_octal(buf, uint32_temp, falt, precision);
-				need_justifying = true;
-				if (precision != -1)
-					pad = ' ';
-				break;
+				switch (i) {
+				case 'h':
+					*va_arg(vargs, short *) = count;
+					break;
+				case 'H':
+					*va_arg(vargs, char *) = count;
+					break;
+				case 'l':
+					*va_arg(vargs, long *) = count;
+					break;
+#ifdef CONFIG_MINIMAL_LIBC_LL_PRINTF
+				case 'L':
+					*va_arg(vargs, long long *) = count;
+					break;
+#endif
+				case 'z':
+					*va_arg(vargs, ssize_t *) = count;
+					break;
+				default:
+					*va_arg(vargs, int *) = count;
+					break;
+				}
+				continue;
 
 			case 'p':
-				uint32_temp = (uint32_t) va_arg(vargs, uint32_t);
-				c = _to_hex(buf, uint32_temp, true, 8, (int) 'x');
-				need_justifying = true;
-				if (precision != -1)
-					pad = ' ';
+				val = (uintptr_t) va_arg(vargs, void *);
+				clen = _to_hex(buf, val, true, 'x');
+				prefix = 2;
 				break;
 
 			case 's':
-				cptr_temp = (char *) va_arg(vargs, char *);
+				cptr = va_arg(vargs, char *);
 				/* Get the string length */
-				for (c = 0; c < MAXFLD; c++) {
-					if (cptr_temp[c] == '\0') {
+				if (precision < 0) {
+					precision = INT_MAX;
+				}
+				for (clen = 0; clen < precision; clen++) {
+					if (cptr[clen] == '\0') {
 						break;
 					}
 				}
-				if ((precision >= 0) && (precision < c))
-					c = precision;
-				if (c > 0) {
-					memcpy(buf, cptr_temp, (size_t) c);
-					need_justifying = true;
-				}
+				precision = 0;
 				break;
 
+			case 'o':
 			case 'u':
-				uint32_temp = (uint32_t) va_arg(vargs, uint32_t);
-				c = _to_udec(buf, uint32_temp, precision);
-				need_justifying = true;
-				if (precision != -1)
-					pad = ' ';
-				break;
-
 			case 'x':
 			case 'X':
-				uint32_temp = (uint32_t) va_arg(vargs, uint32_t);
-				c = _to_hex(buf, uint32_temp, falt, precision, c);
-				if (falt)
-					prefix = 2;
-				need_justifying = true;
-				if (precision != -1)
-					pad = ' ';
+				switch (i) {
+				case 'l':
+					val = va_arg(vargs, unsigned long);
+					break;
+#ifdef CONFIG_MINIMAL_LIBC_LL_PRINTF
+				case 'L':
+					val = va_arg(vargs, unsigned long long);
+					break;
+#endif
+				case 'z':
+					val = va_arg(vargs, size_t);
+					break;
+				case 'h':
+				case 'H':
+				default:
+					val = va_arg(vargs, unsigned int);
+					break;
+				}
+				if (c == 'o') {
+					clen = _to_octal(buf, val, falt);
+				} else if (c == 'u') {
+					clen = _to_udec(buf, val);
+				} else {
+					clen = _to_hex(buf, val, falt, c);
+					if (falt) {
+						prefix = 2;
+					}
+				}
 				break;
 
 			case '%':
-				if ((*func)('%', dest) == EOF) {
-					return EOF;
-				}
-
+				PUTC('%');
 				count++;
-				break;
+				continue;
+
+			default:
+				PUTC('%');
+				PUTC(c);
+				count += 2;
+				continue;
 
 			case 0:
 				return count;
 			}
 
-			if (c >= MAXFLD + 1)
-				return EOF;
-
-			if (need_justifying) {
-				if (c < width) {
-					if (fminus)	{
-						/* Left justify? */
-						for (i = c; i < width; i++)
-							buf[i] = ' ';
-					} else {
-						/* Right justify */
-						(void) memmove((buf + (width - c)), buf, (size_t) (c
-										+ 1));
-						if (pad == ' ')
-							prefix = 0;
-						c = width - c + prefix;
-						for (i = prefix; i < c; i++)
-							buf[i] = pad;
-					}
-					c = width;
+			if (precision >= 0) {
+				zero_head = precision - clen + prefix;
+			} else if (fzero) {
+				zero_head = width - clen;
+			} else {
+				zero_head = 0;
+			}
+			if (zero_head < 0) {
+				zero_head = 0;
+			}
+			width -= clen + zero_head;
+
+			/* padding for right justification */
+			if (!fminus && width > 0) {
+				count += width;
+				while (width-- > 0) {
+					PUTC(' ');
+				}
+			}
+
+			/* data prefix */
+			clen -= prefix;
+			count += prefix;
+			while (prefix-- > 0) {
+				PUTC(*cptr++);
+			}
+
+			/* zero-padded head */
+			count += zero_head;
+			while (zero_head-- > 0) {
+				PUTC('0');
+			}
+
+			/*
+			 * main data:
+			 *
+			 * In the case of floats, 3 possible zero-padding
+			 * are included in the clen count, either with
+			 *	xxxxxx<zero.predot>.<zero.postdot>
+			 * or with
+			 *	x.<zero.postdot>xxxxxx<zero.trail>[e+xx]
+			 * In the non-float cases, those predot, postdot and
+			 * tail params are equal to 0.
+			 */
+			count += clen;
+			if (zero.predot) {
+				c = *cptr;
+				while (isdigit(c)) {
+					PUTC(c);
+					clen--;
+					c = *++cptr;
+				}
+				clen -= zero.predot;
+				while (zero.predot-- > 0) {
+					PUTC('0');
+				}
+			}
+			if (zero.postdot) {
+				do {
+					c = *cptr++;
+					PUTC(c);
+					clen--;
+				} while (c != '.');
+				clen -= zero.postdot;
+				while (zero.postdot-- > 0) {
+					PUTC('0');
+				}
+			}
+			if (zero.trail) {
+				c = *cptr;
+				while (isdigit(c) || c == '.') {
+					PUTC(c);
+					clen--;
+					c = *++cptr;
+				}
+				clen -= zero.trail;
+				while (zero.trail-- > 0) {
+					PUTC('0');
 				}
+			}
+			while (clen-- > 0) {
+				PUTC(*cptr++);
+			}
 
-				for (cptr = buf; c > 0; c--, cptr++, count++) {
-					if ((*func)(*cptr, dest) == EOF)
-						return EOF;
+			/* padding for left justification */
+			if (width > 0) {
+				count += width;
+				while (width-- > 0) {
+					PUTC(' ');
 				}
 			}
 		}
 	}
 	return count;
+
+#undef PUTC
 }
diff --git a/tools/autotiler_v3/Makefile b/tools/autotiler_v3/Makefile
index 5ad3a7b48..2258541b8 100644
--- a/tools/autotiler_v3/Makefile
+++ b/tools/autotiler_v3/Makefile
@@ -1,4 +1,4 @@
-TILER_VER=3.0.5
+TILER_VER=3.0.6
 export TILER_LIB=libtile.${TILER_VER}.a
 ifdef GAP_SDK_HOME
 export TILER_URL=$(GAP_SDK_HOME)/.tiler_url
diff --git a/tools/autotiler_v3/generators/CNN/CNN_AT_Misc.c b/tools/autotiler_v3/generators/CNN/CNN_AT_Misc.c
new file mode 100644
index 000000000..18c82161f
--- /dev/null
+++ b/tools/autotiler_v3/generators/CNN/CNN_AT_Misc.c
@@ -0,0 +1,253 @@
+#include "Gap.h"
+#include "CNN_BasicKernels_SQ8.h"
+
+static int CoreCountDynamic = 1;
+static int ActiveCore = gap_ncore();
+
+static inline unsigned int __attribute__((always_inline)) ChunkSize(unsigned int X)
+
+{
+	unsigned int NCore;
+	unsigned int Log2Core;
+	unsigned int Chunk;
+
+	if (CoreCountDynamic) NCore = ActiveCore; else NCore = gap_ncore();
+	Log2Core = gap_fl1(NCore);
+	Chunk = (X>>Log2Core) + ((X&(NCore-1))!=0);
+	return Chunk;
+}
+
+/* Tensor Dump */
+typedef enum {
+        AT_MEM_UNDEF,
+        AT_MEM_L3_HRAM,
+        AT_MEM_L3_QSPIRAM,
+        AT_MEM_L3_OSPIRAM,
+        AT_MEM_L3_HFLASH,
+        AT_MEM_L3_QSPIFLASH,
+        AT_MEM_L3_OSPIFLASH,
+        AT_MEM_L3_MRAMFLASH,
+        AT_MEM_L2,
+        AT_MEM_L1,
+        AT_MEM_LAST
+} AT_MemLocation_T;
+
+static void *AT_TensorGetNextPage(
+	int Loc,
+	void *L3_Device,
+	void *L3_Event,
+	unsigned int Size,
+	void *L2_BufferAddr,
+	void *Addr,
+	int Offset)
+
+{
+	switch (Loc) {
+		case AT_MEM_L3_HRAM:
+			AT_HYPERRAM_CL_COPY((AT_HYPERRAM_T *) L3_Device, (AT_HYPERRAM_EXT_ADDR_TYPE) (Addr+Offset), (AT_HYPERRAM_INT_ADDR_TYPE) L2_BufferAddr, Size, 0, L3_Event);
+			AT_HYPERRAM_CL_WAIT((AT_HYPERRAM_T *) L3_Device, L3_Event);
+			break;
+#if 0
+		case AT_MEM_L3_QSPIRAM:
+			AT_QSPIRAM_CL_COPY((AT_QSPIRAM_T *) L3_Device, (AT_QSPIRAM_EXT_ADDR_TYPE) (Addr+Offset), (AT_QSPIRAM_INT_ADDR_TYPE) L2_BufferAddr, Size, 1, L3_Event);
+			AT_QSPIRAM_CL_WAIT((AT_QSPIRAM_T *) L3_Device, L3_Event);
+			break;
+		case AT_MEM_L3_OSPIRAM:
+			AT_OSPIRAM_CL_COPY((AT_OSPIRAM_T *) L3_Device, (AT_OSPIRAM_EXT_ADDR_TYPE) (Addr+Offset), (AT_OSPIRAM_INT_ADDR_TYPE) L2_BufferAddr, Size, 1, L3_Event);
+			AT_OSPIRAM_CL_WAIT((AT_OSPIRAM_T *) L3_Device, L3_Event);
+			break;
+#endif
+		case AT_MEM_L3_HFLASH:
+			AT_HYPERFLASH_FS_CL_COPY((AT_HYPERFLASH_FS_T *) L3_Device, (AT_HYPERFLASH_FS_EXT_ADDR_TYPE) (Addr+Offset), (AT_HYPERFLASH_FS_INT_ADDR_TYPE) L2_BufferAddr, Size, 0, L3_Event);
+			AT_HYPERFLASH_FS_CL_WAIT((AT_HYPERFLASH_FS_T *) L3_Device, L3_Event);
+			break;
+#if 0
+		case AT_MEM_L3_QSPIFLASH:
+			AT_QSPIFLASH_FS_CL_COPY((AT_QSPIFLASH_FS_T *) L3_Device, (AT_QSPIFLASH_FS_EXT_ADDR_TYPE) (Addr+Offset), (AT_QSPIFLASH_FS_INT_ADDR_TYPE) L2_BufferAddr, Size, 1, L3_Event);
+			AT_QSPIFLASH_FS_CL_WAIT((AT_QSPIFLASH_FS_T *) L3_Device, L3_Event);
+			break;
+		case AT_MEM_L3_OSPIFLASH:
+			AT_OSPIFLASH_FS_CL_COPY((AT_OSPIFLASH_FS_T *) L3_Device, (AT_OSPIFLASH_FS_EXT_ADDR_TYPE) (Addr+Offset), (AT_OSPIFLASH_FS_INT_ADDR_TYPE) L2_BufferAddr, Size, 1, L3_Event);
+			AT_OSPIFLASH_FS_CL_WAIT((AT_OSPIFLASH_FS_T *) L3_Device, L3_Event);
+			break;
+		case AT_MEM_L3_MRAMFLASH:
+			AT_EMRAMFLASH_FS_CL_COPY((AT_EMRAMFLASH_FS_T *) L3_Device, (AT_EMRAMFLASH_FS_EXT_ADDR_TYPE) (Addr+Offset), (AT_EMRAMFLASH_FS_INT_ADDR_TYPE) L2_BufferAddr, Size, 1, L3_Event);
+			AT_EMRAMFLASH_FS_CL_WAIT((AT_EMRAMFLASH_FS_T *) L3_Device, L3_Event);
+			break;
+#endif
+		case AT_MEM_L2:
+		case AT_MEM_L1:
+			return Addr;
+	}
+	return L2_BufferAddr;
+}
+
+void AT_DumpTensor(
+	char *NodeName,
+	char *ArgName,
+	int Loc,
+	void *L3_Device,
+	void *L3_Event,
+	int ItemSize,
+	int Dim,
+	int D0,
+	int D1,
+	int D2,
+	int D3,
+	int D4,
+	void *L2_BufferAddr,
+	unsigned int L2_BufferSize,
+	void *Addr)
+{
+	int MAX_PER_LINE = 30;
+	int SizeToRead = D0*D1*D2*D3*D4*ItemSize;
+	int InBuffer=0;
+	if (L2_BufferSize==0) L2_BufferSize = SizeToRead;
+	int Item = 0;
+	int ReadSoFar = 0;
+	void *BaseAddr = Addr;
+
+	printf("Node: %s, Argument: %s, Dim: %d, [%d][%d][%d][%d][%d] ItemSize: %d\n", NodeName, ArgName, Dim, D0,D1,D2,D3,D4, ItemSize);
+	for (int d0=0; d0<D0; d0++) {
+		if (Dim>=5) printf("D%d: %d\n", Dim-5, d0);
+		for (int d1=0; d1<D1; d1++) {
+			if (Dim>=4) printf("D%d: %d\n", Dim-4, d1);
+			for (int d2=0; d2<D2; d2++) {
+				if (Dim>=3) printf("D%d: %d\n", Dim-3, d2);
+				for (int d3=0; d3<D3; d3++) {
+					int Nprinted = 0;
+					if (Dim>=2) printf("D%d: %d - D%d:0..%d\n", Dim-2, d3, Dim-1, D4);
+					else printf("D%d:0..%d\n", Dim-1, D4);
+					for (int d4=0; d4<D4; d4++) {
+						int Val = 0;
+						if (InBuffer==0) {
+							int Size = Min(L2_BufferSize, SizeToRead);
+							Addr = AT_TensorGetNextPage(Loc, L3_Device, L3_Event, Size, L2_BufferAddr, BaseAddr, ReadSoFar);
+							InBuffer = Size;
+							SizeToRead -= Size;
+							ReadSoFar += Size;
+							Item = 0;
+						}
+						switch (ItemSize) {
+							case 1:
+								Val = *((char *) (Addr+Item));
+								break;
+							case 2:
+								Val = *((short int *) (Addr+Item));
+								break;
+							case 4:
+								Val = *((int *) (Addr+Item));
+								break;
+						}
+						InBuffer -= ItemSize;
+						Item += ItemSize;
+						printf(" %d", Val);
+						Nprinted++;
+						if (Nprinted==MAX_PER_LINE) {
+							printf("\n"); Nprinted=0;
+						}
+					}
+					if (Nprinted) printf("\n");
+				}
+			}
+		}
+	}
+}
+
+/* Tile Padding */
+
+typedef struct {
+        char *__restrict__ In;          /**< Tile */
+        short int W;                    /**< Tile width */
+        short int H;                    /**< Tile Height */
+        short int Feat;                 /**< Number of features */
+        short int Size;                 /**< Tile data type size in bytes */
+        short int Pad;                  /**< Number of lines to be cleared at bottom of each tile if horizontal tile, at right if vertical */
+        short int Orientation;          /**< Tile orientation. 0: Horizontal, 1: vertical */
+} AT_KerTileClear_T;
+
+static void AT_KerParTileClear(AT_KerTileClear_T *Arg)
+
+{
+	char * __restrict__ In = Arg->In;
+	int W = Arg->W;
+	int H = Arg->H;
+	int Feat = Arg->Feat;
+	int Size = Arg->Size;
+	int Pad = Arg->Pad;
+	
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(Feat);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, Feat);
+
+	if (Arg->Orientation == 0) { /* Horizontal */
+		int ClrSize = W*Pad*Size;
+       		for (unsigned int i=First; i<Last; i++) {
+			char *Base = (In + i*W*H*Size + W*(H-Pad)*Size);
+			for (unsigned j=0; j<(ClrSize/4); j++) ((int*) Base)[j] = 0;
+			for (unsigned j=(ClrSize/4)*4; j<ClrSize; j++) Base[j] = 0;
+		}
+	} else {
+		int ClrSize = Pad*Size;
+       		for (unsigned int i=First; i<Last; i++) {
+			char *Base = (In + i*W*H*Size + (W-Pad)*Size);
+			for (unsigned j=0; j<H; j++)
+				for (unsigned k=0; k<ClrSize; k++) Base[W*Size*j + k] = 0;
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+static void AT_KerTileClear(AT_KerTileClear_T *Arg)
+
+{
+	char * __restrict__ In = Arg->In;
+	int W = Arg->W;
+	int H = Arg->H;
+	int Size = Arg->Size;
+	int Pad = Arg->Pad;
+	
+	unsigned int CoreId = gap_coreid();
+	if (Arg->Orientation == 0) { /* Horizontal */
+		int ClrSize = W*Pad*Size;
+		unsigned int Chunk = ChunkSize(ClrSize);
+		unsigned int First = Chunk*CoreId;
+		unsigned int Last = Min(First+Chunk, ClrSize);
+		char *Base = (In + W*(H-Pad)*Size);
+       		for (unsigned int i=First; i<Last; i++) Base[i] = 0;
+	} else {
+		unsigned int Chunk = ChunkSize(H);
+		unsigned int First = Chunk*CoreId;
+		unsigned int Last = Min(First+Chunk, H);
+		char *Base = (In + (W-Pad)*Size);
+		int ClrSize = Pad*Size;
+       		for (unsigned int i=First; i<Last; i++) 
+			for (unsigned k=0; k<ClrSize; k++) Base[W*Size*i + k] = 0;
+	}
+	gap_waitbarrier(0);
+}
+
+void AT_TileClear(
+	char *__restrict__ In,	/* Tile */
+	int W,			/* Tile width */
+	int H,			/* Tile height */
+	int Feat,		/* Number of features */
+	int Size,		/* Tile element size in bytes */
+	int Pad,		/* Height or width of the area to be 0 padded */
+	int Orientation		/* 0: Horizontal tile, 1: Vertical tile */
+	)
+
+{
+	volatile AT_KerTileClear_T Arg;
+
+	Arg.In = In; Arg.W = W; Arg.H = H; Arg.Size = Size; Arg.Feat = Feat; Arg.Pad = Pad; Arg.Orientation = Orientation;
+
+	if (Feat > 1) {
+		AT_FORK(gap_ncore(), (void *) AT_KerParTileClear, (void *) &Arg);
+		__CALL(AT_KerParTileClear, (AT_KerTileClear_T *) &Arg);
+	} else {
+		AT_FORK(gap_ncore(), (void *) AT_KerTileClear, (void *) &Arg);
+		__CALL(AT_KerTileClear, (AT_KerTileClear_T *) &Arg);
+	}
+}
diff --git a/tools/autotiler_v3/generators/CNN/CNN_Activation_SQ8.c b/tools/autotiler_v3/generators/CNN/CNN_Activation_SQ8.c
new file mode 100644
index 000000000..83f538a46
--- /dev/null
+++ b/tools/autotiler_v3/generators/CNN/CNN_Activation_SQ8.c
@@ -0,0 +1,1208 @@
+#include "Gap.h"
+#include "CNN_BasicKernels_SQ8.h"
+
+static int CoreCountDynamic = 1;
+static int ActiveCore = gap_ncore();
+
+static inline unsigned int __attribute__((always_inline)) ChunkSize(unsigned int X)
+
+{
+        unsigned int NCore;
+        unsigned int Log2Core;
+        unsigned int Chunk;
+
+        if (CoreCountDynamic) NCore = ActiveCore; else NCore = gap_ncore();
+        Log2Core = gap_fl1(NCore);
+        Chunk = (X>>Log2Core) + ((X&(NCore-1))!=0);
+        return Chunk;
+}
+
+/*
+ * Standalone activation
+*/
+static void Ker_Activation_SQ8(
+        signed char * __restrict__ In,
+        signed char * __restrict__ Out,
+	unsigned int N,
+        CNN_ActivationOper_T Activation,
+	unsigned int ActScale, unsigned int ActScaleN, int A0, int B0, int C0
+        )
+
+{
+        for (unsigned int i=0; i<N/2; i++) {
+                int Acc0 = In[2*i], Acc1 = In[2*i+1];
+		switch (Activation) {
+			case ACT_NONE:     Acc0 = AT_SCALE(Acc0, ActScale, ActScaleN); Acc1 = AT_SCALE(Acc1, ActScale, ActScaleN); break;
+			case ACT_RELU:     Acc0 = AT_SCALE(Max(0, Acc0), ActScale, ActScaleN); Acc1 = AT_SCALE(Max(0, Acc1), ActScale, ActScaleN); break;
+			case ACT_RELUN:    Acc0 = AT_SCALE(Min(A0, Max(0, Acc0)), ActScale, ActScaleN); Acc1 = AT_SCALE(Min(A0, Max(0, Acc1)), ActScale, ActScaleN); break;
+			case ACT_HSIGMOID: Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0, ActScale, ActScaleN); Acc1 = AT_SCALE(Max(0, Min(A0, Acc1 + B0)) * C0, ActScale, ActScaleN); break;
+			case ACT_HSWISH:   Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScale, ActScaleN); Acc1 = AT_SCALE(Max(0, Min(A0, Acc1 + B0)) * C0 * Acc1, ActScale, ActScaleN); break;
+			case ACT_LEAKYRELU:
+				{
+					int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+					int Acc0N = AT_NORM(Acc0 * A0, 7);
+					Acc0 = AT_SCALE((Neg0*Acc0N+Pos0*Acc0), ActScale, ActScaleN);
+					int Neg1 = gap_bitextractu(Acc1, 1, 31), Pos1 = !Neg1;
+					int Acc1N = AT_NORM(Acc1 * A0, 7);
+					Acc1 = AT_SCALE((Neg1*Acc1N+Pos1*Acc1), ActScale, ActScaleN);
+				//	Acc0 = AT_SCALE(((Acc0<0) ? AT_NORM((Acc0 * A0), 7):Acc0), ActScale, ActScaleN);
+				//	Acc1 = AT_SCALE(((Acc1<0) ? AT_NORM((Acc1 * A0), 7):Acc1), ActScale, ActScaleN);
+				}
+				break;
+		}
+                Out[2*i] = gap_clip(Acc0, 7), Out[2*i+1] = gap_clip(Acc1, 7);
+        }
+	if (N&0x1) {
+        	unsigned int i=N-1;
+                int Acc0 = In[i];
+		switch (Activation) {
+			case ACT_NONE:     Acc0 = AT_SCALE(Acc0, ActScale, ActScaleN); break;
+			case ACT_RELU:     Acc0 = AT_SCALE(Max(0, Acc0), ActScale, ActScaleN); break;
+			case ACT_RELUN:    Acc0 = AT_SCALE(Min(A0, Max(0, Acc0)), ActScale, ActScaleN); break;
+			case ACT_HSIGMOID: Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0, ActScale, ActScaleN); break;
+			case ACT_HSWISH:   Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScale, ActScaleN); break;
+			case ACT_LEAKYRELU:
+				{
+					int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+					int Acc0N = AT_NORM(Acc0 * A0, 7);
+					Acc0 = AT_SCALE((Neg0*Acc0N+Pos0*Acc0), ActScale, ActScaleN);
+				//	Acc0 = AT_SCALE(((Acc0<0) ? AT_NORM((Acc0 * A0), 7):Acc0), ActScale, ActScaleN);
+				}
+				break;
+		}
+                Out[i] = gap_clip(Acc0, 7);
+	}
+}
+
+/*
+ * Standalone activation variant with Scale = 1.0
+*/
+static void Ker_ActivationScale1_SQ8(
+        signed char * __restrict__ In,
+        signed char * __restrict__ Out,
+	unsigned int N,
+        CNN_ActivationOper_T Activation,
+	int A0
+        )
+
+{
+        for (unsigned int i=0; i<N/2; i++) {
+                int Acc0 = In[2*i], Acc1 = In[2*i+1];
+		switch (Activation) {
+			case ACT_RELU: Acc0 = Max(0, Acc0); Acc1 = Max(0, Acc1); break;
+			case ACT_RELUN: Acc0 = Min(A0, Max(0, Acc0)); Acc1 = Min(A0, Max(0, Acc1)); break;
+		}
+                Out[2*i] = Acc0; Out[2*i+1] = Acc1;
+        }
+	if (N&0x1) {
+        	unsigned int i=N-1;
+                int Acc0 = In[i];
+		switch (Activation) {
+			case ACT_RELU: Acc0 = Max(0, Acc0); break;
+			case ACT_RELUN: Acc0 = Min(A0, Max(0, Acc0)); break;
+		}
+                Out[i] = Acc0;
+	}
+}
+
+/*
+ * Conv/Linear DP scaling followed by an optional activation, Out buffer is different from In Buffer
+*/
+static void KerReduct_Activation_SQ8(
+        int * __restrict__ In,
+        signed char * __restrict__ Out,
+	unsigned int N,
+	unsigned int Scale,
+	unsigned int ScaleN,
+        CNN_ActivationOper_T Activation,
+	unsigned int ActScale, unsigned int ActScaleN, int A0, int B0, int C0
+        )
+
+{
+        for (unsigned int i=0; i<N; i++) {
+                int Acc0 = gap_clip(AT_SCALE(In[i], Scale, ScaleN), 7);
+		switch (Activation) {
+			case ACT_NONE:
+				break;
+			case ACT_RELU:
+				Acc0 = AT_SCALE(Max(0, Acc0), ActScale, ActScaleN);
+				break;
+			case ACT_RELUN:
+				Acc0 = AT_SCALE(Min(A0, Max(0, Acc0)), ActScale, ActScaleN);
+				break;
+			case ACT_HSIGMOID:
+				Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0, ActScale, ActScaleN);
+				break;
+			case ACT_HSWISH:
+				Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScale, ActScaleN);
+				break;
+			case ACT_LEAKYRELU:
+				{
+					int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+					int Acc0N = AT_NORM(Acc0 * A0, 7);
+					Acc0 = AT_SCALE((Neg0*Acc0N+Pos0*Acc0), ActScale, ActScaleN);
+				//	Acc0 = AT_SCALE(((Acc0<0) ? AT_NORM(Acc0 * A0, 7):Acc0), ActScale, ActScaleN);
+				}
+				break;
+		}
+                Out[i] = gap_clip(Acc0, 7);
+        }
+}
+
+/*
+ * Conv/Linear DP scaling followed by an optional activation, variant for ScaleAct=1.0, Out buffer is different from In Buffer
+*/
+static void KerReduct_ActivationScale1_SQ8(
+        int * __restrict__ In,
+        signed char * __restrict__ Out,
+	unsigned int N,
+	unsigned int Scale,
+	unsigned int ScaleN,
+        CNN_ActivationOper_T Activation,
+	int A0, int B0, int C0
+        )
+
+{
+        for (unsigned int i=0; i<N; i++) {
+                int Acc0 = gap_clip(AT_SCALE(Scale, In[i], ScaleN), 7);
+		switch (Activation) {
+			case ACT_NONE:
+				break;
+			case ACT_RELU:
+				Acc0 = Max(0, Acc0);
+				break;
+			case ACT_RELUN:
+				Acc0 = Min(A0, Max(0, Acc0));
+				break;
+		}
+                Out[i] = Acc0;
+        }
+}
+
+/*
+ * Conv/Linear DP scaling followed by an optional activation, In place version
+ * Input is 32b int output is 8b
+*/
+static void KerReductIO_Activation_SQ8(
+        signed char *__restrict__ Out,
+        int *__restrict__ In,
+	unsigned int N,
+	unsigned int Scale,
+	unsigned int ScaleN,
+        CNN_ActivationOper_T Activation,
+	unsigned int ActScale, unsigned int ActScaleN, int A0, int B0, int C0
+        )
+
+{
+        for (unsigned int i=0; i<N; i++) {
+                int Acc0 = gap_clip(AT_SCALE(In[i], Scale, ScaleN), 7);
+		switch (Activation) {
+			case ACT_NONE:
+				break;
+			case ACT_RELU:
+				Acc0 = AT_SCALE(Max(0, Acc0), ActScale, ActScaleN);
+				break;
+			case ACT_RELUN:
+				Acc0 = AT_SCALE(Min(A0, Max(0, Acc0)), ActScale, ActScaleN);
+				break;
+			case ACT_HSIGMOID:
+				Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0, ActScale, ActScaleN);
+				break;
+			case ACT_HSWISH:
+				Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScale, ActScaleN);
+				break;
+			case ACT_LEAKYRELU:
+				{
+					int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+					int Acc0N = AT_NORM(Acc0 * A0, 7);
+					Acc0 = AT_SCALE((Neg0*Acc0N+Pos0*Acc0), ActScale, ActScaleN);
+				//	Acc0 = AT_SCALE(((Acc0<0) ? AT_NORM(Acc0 * A0, 7):Acc0), ActScale, ActScaleN);
+				}
+				break;
+		}
+                Out[i] = gap_clip(Acc0, 7);
+        }
+}
+
+/*
+ * Conv/Linear DP scaling followed by an optional activation, variant for ActScale=1.0, In place version
+ * Input is 32b int output is 8b
+*/
+static void KerReductIO_ActivationScale1_SQ8(
+        signed char *__restrict__ Out,
+        int *__restrict__ In,
+	unsigned int N,
+	unsigned int Scale,
+	unsigned int ScaleN,
+        CNN_ActivationOper_T Activation,
+	int A0, int B0, int C0
+        )
+
+{
+        for (unsigned int i=0; i<N; i++) {
+                int Acc0 = gap_clip(AT_SCALE(In[i], Scale, ScaleN), 7);
+		switch (Activation) {
+			case ACT_NONE:
+				break;
+			case ACT_RELU:
+				Acc0 = Max(0, Acc0);
+				break;
+			case ACT_RELUN:
+				Acc0 = Min(A0, Max(0, Acc0));
+				break;
+		}
+                Out[i] = Acc0;
+        }
+}
+
+/*
+ * Conv/Linear DP scaling followed by an optional activation, Out buffer is different from In Buffer
+ * Partial unroll to avoid load use penalty
+*/
+static void _KerReduct_Activation_SQ8(
+        int * __restrict__ In,
+        signed char * __restrict__ Out,
+	unsigned int N,
+	unsigned int Scale,
+	unsigned int ScaleN,
+        CNN_ActivationOper_T Activation,
+	unsigned int ActScale, unsigned int ActScaleN, int A0, int B0, int C0
+        )
+
+{
+        for (unsigned int i=0; i<(N/2); i++) {
+                int Acc0 = gap_clip(AT_SCALE(In[2*i+0], Scale, ScaleN), 7);
+                int Acc1 = gap_clip(AT_SCALE(In[2*i+1], Scale, ScaleN), 7);
+		
+		switch (Activation) {
+			case ACT_NONE:
+				break;
+			case ACT_RELU:
+				Acc0 = AT_SCALE(Max(0, Acc0), ActScale, ActScaleN);
+				Acc1 = AT_SCALE(Max(0, Acc1), ActScale, ActScaleN);
+				break;
+			case ACT_RELUN:
+				Acc0 = AT_SCALE(Min(A0, Max(0, Acc0)), ActScale, ActScaleN);
+				Acc1 = AT_SCALE(Min(A0, Max(0, Acc1)), ActScale, ActScaleN);
+				break;
+			case ACT_HSIGMOID:
+				Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0, ActScale, ActScaleN);
+				Acc1 = AT_SCALE(Max(0, Min(A0, Acc1 + B0)) * C0, ActScale, ActScaleN);
+				break;
+			case ACT_HSWISH:
+				Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScale, ActScaleN);
+				Acc1 = AT_SCALE(Max(0, Min(A0, Acc1 + B0)) * C0 * Acc1, ActScale, ActScaleN);
+				break;
+			case ACT_LEAKYRELU:
+				{
+					int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+					int Neg1 = gap_bitextractu(Acc1, 1, 31), Pos1 = !Neg1;
+					int Acc0N = AT_NORM(Acc0 * A0, 7);
+					int Acc1N = AT_NORM(Acc1 * A0, 7);
+					Acc0 = AT_SCALE((Neg0*Acc0N+Pos0*Acc0), ActScale, ActScaleN);
+					Acc1 = AT_SCALE((Neg1*Acc1N+Pos1*Acc1), ActScale, ActScaleN);
+
+				//	Acc0 = AT_SCALE(((Acc0<0) ? AT_NORM(Acc0 * A0, 7):Acc0), ActScale, ActScaleN);
+				//	Acc1 = AT_SCALE(((Acc1<0) ? AT_NORM(Acc1 * A0, 7):Acc1), ActScale, ActScaleN);
+				}
+				break;
+		}
+                Out[2*i] = gap_clip(Acc0, 7); Out[2*i+1] = gap_clip(Acc1, 7);
+        }
+        if (N&0x1) {
+                int Acc0 = gap_clip(AT_SCALE(In[N-1], Scale, ScaleN), 7);
+		switch (Activation) {
+			case ACT_NONE:
+				break;
+			case ACT_RELU:
+				Acc0 = AT_SCALE(Max(0, Acc0), ActScale, ActScaleN);
+				break;
+			case ACT_RELUN:
+				Acc0 = AT_SCALE(Min(A0, Max(0, Acc0)), ActScale, ActScaleN);
+				break;
+			case ACT_HSIGMOID:
+				Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0, ActScale, ActScaleN);
+				break;
+			case ACT_HSWISH:
+				Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScale, ActScaleN);
+				break;
+			case ACT_LEAKYRELU:
+				{
+					int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+					int Acc0N = AT_NORM(Acc0 * A0, 7);
+					Acc0 = AT_SCALE((Neg0*Acc0N+Pos0*Acc0), ActScale, ActScaleN);
+
+					// Acc0 = AT_SCALE(((Acc0<0) ? AT_NORM(Acc0 * A0, 7):Acc0), ActScale, ActScaleN);
+				}
+				break;
+		}
+                Out[N-1] = gap_clip(Acc0, 7);
+        }
+}
+
+/*
+ * Conv/Linear DP scaling followed by an optional activation, variant for ActScale=1.0, Out buffer is different from In Buffer
+ * Partial unroll to avoid load use penalty
+*/
+static void _KerReduct_ActivationScale1_SQ8(
+        int * __restrict__ In,
+        signed char * __restrict__ Out,
+	unsigned int N,
+	unsigned int Scale,
+	unsigned int ScaleN,
+        CNN_ActivationOper_T Activation,
+	int A0, int B0, int C0
+        )
+
+{
+        for (unsigned int i=0; i<(N/2); i++) {
+                int Acc0 = gap_clip(AT_SCALE(In[2*i+0], Scale, ScaleN), 7);
+                int Acc1 = gap_clip(AT_SCALE(In[2*i+1], Scale, ScaleN), 7);
+		
+		switch (Activation) {
+			case ACT_NONE:
+				break;
+			case ACT_RELU:
+				Acc0 = Max(0, Acc0);
+				Acc1 = Max(0, Acc1);
+				break;
+			case ACT_RELUN:
+				Acc0 = Min(A0, Max(0, Acc0));
+				Acc1 = Min(A0, Max(0, Acc1));
+				break;
+		}
+                Out[2*i]   = Acc0; Out[2*i+1] = Acc1;
+        }
+        if (N&0x1) {
+                int Acc0 = gap_clip(AT_SCALE(In[N-1], Scale, ScaleN), 7);
+		switch (Activation) {
+			case ACT_NONE:
+				break;
+			case ACT_RELU:
+				Acc0 = Max(0, Acc0);
+				break;
+			case ACT_RELUN:
+				Acc0 = Min(A0, Max(0, Acc0));
+				break;
+		}
+                Out[N-1] = Acc0;
+        }
+}
+
+/*
+ * Conv/Linear DP scaling followed by an optional activation, In place version
+ * Input is 32b int output is 8b
+ * Partially unrolled version to avoid load use penalty
+*/
+static void _KerReductIO_Activation_SQ8(
+        signed char * __restrict__ Out,
+        int *__restrict__ In,
+	unsigned int N,
+	unsigned int Scale,
+	unsigned int ScaleN,
+        CNN_ActivationOper_T Activation,
+	unsigned int ActScale, unsigned int ActScaleN, int A0, int B0, int C0
+        )
+
+{
+        for (unsigned int i=0; i<(N/2); i++) {
+                int Acc0 = gap_clip(AT_SCALE(In[2*i+0], Scale, ScaleN), 7);
+                int Acc1 = gap_clip(AT_SCALE(In[2*i+1], Scale, ScaleN), 7);
+		switch (Activation) {
+			case ACT_NONE:
+				break;
+			case ACT_RELU:
+				Acc0 = AT_SCALE(Max(0, Acc0), ActScale, ActScaleN);
+				Acc1 = AT_SCALE(Max(0, Acc1), ActScale, ActScaleN);
+				break;
+			case ACT_RELUN:
+				Acc0 = AT_SCALE(Min(A0, Max(0, Acc0)), ActScale, ActScaleN);
+				Acc1 = AT_SCALE(Min(A0, Max(0, Acc1)), ActScale, ActScaleN);
+				break;
+			case ACT_HSIGMOID:
+				Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0, ActScale, ActScaleN);
+				Acc1 = AT_SCALE(Max(0, Min(A0, Acc1 + B0)) * C0, ActScale, ActScaleN);
+				break;
+			case ACT_HSWISH:
+				Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScale, ActScaleN);
+				Acc1 = AT_SCALE(Max(0, Min(A0, Acc1 + B0)) * C0 * Acc1, ActScale, ActScaleN);
+				break;
+			case ACT_LEAKYRELU:
+				{
+					int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+					int Neg1 = gap_bitextractu(Acc1, 1, 31), Pos1 = !Neg1;
+					int Acc0N = AT_NORM(Acc0 * A0, 7);
+					int Acc1N = AT_NORM(Acc1 * A0, 7);
+					Acc0 = AT_SCALE((Neg0*Acc0N+Pos0*Acc0), ActScale, ActScaleN);
+					Acc1 = AT_SCALE((Neg1*Acc1N+Pos1*Acc1), ActScale, ActScaleN);
+
+				//	Acc0 = AT_SCALE(((Acc0<0) ? AT_NORM(Acc0 * A0, 7):Acc0), ActScale, ActScaleN);
+				//	Acc1 = AT_SCALE(((Acc1<0) ? AT_NORM(Acc1 * A0, 7):Acc1), ActScale, ActScaleN);
+				}
+				break;
+		}
+                Out[2*i]   = gap_clip(Acc0, 7); Out[2*i+1] = gap_clip(Acc1, 7);
+        }
+        if (N&0x1) {
+                int Acc0 = gap_clip(AT_SCALE(In[N-1], Scale, ScaleN), 7);
+		switch (Activation) {
+			case ACT_NONE:
+				break;
+			case ACT_RELU:
+				Acc0 = AT_SCALE(Max(0, Acc0), ActScale, ActScaleN);
+				break;
+			case ACT_RELUN:
+				Acc0 = AT_SCALE(Min(A0, Max(0, Acc0)), ActScale, ActScaleN);
+				break;
+			case ACT_HSIGMOID:
+				Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0, ActScale, ActScaleN);
+				break;
+			case ACT_HSWISH:
+				Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScale, ActScaleN);
+				break;
+			case ACT_LEAKYRELU:
+				{
+					int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+					int Acc0N = AT_NORM(Acc0 * A0, 7);
+					Acc0 = AT_SCALE((Neg0*Acc0N+Pos0*Acc0), ActScale, ActScaleN);
+
+					// Acc0 = AT_SCALE(((Acc0<0) ? AT_NORM(Acc0 * A0, 7):Acc0), ActScale, ActScaleN);
+				}
+				break;
+		}
+                Out[N-1] = gap_clip(Acc0, 7);
+        }
+}
+
+/*
+ * Conv/Linear DP scaling followed by an optional activation, Variant for ActScale=1.0, In place version
+ * Input is 32b int output is 8b
+ * Partially unrolled version to avoid load use penalty
+*/
+static void _KerReductIO_ActivationScale1_SQ8(
+        signed char *__restrict__ Out,
+        int *__restrict__ In,
+	unsigned int N,
+	unsigned int Scale,
+	unsigned int ScaleN,
+        CNN_ActivationOper_T Activation,
+	int A0, int B0, int C0
+        )
+
+{
+        for (unsigned int i=0; i<(N/2); i++) {
+                int Acc0 = gap_clip(AT_SCALE(In[2*i+0], Scale, ScaleN), 7);
+                int Acc1 = gap_clip(AT_SCALE(In[2*i+1], Scale, ScaleN), 7);
+		switch (Activation) {
+			case ACT_NONE:
+				break;
+			case ACT_RELU:
+				Acc0 = Max(0, Acc0);
+				Acc1 = Max(0, Acc1);
+				break;
+			case ACT_RELUN:
+				Acc0 = Min(A0, Max(0, Acc0));
+				Acc1 = Min(A0, Max(0, Acc1));
+				break;
+		}
+                Out[2*i]   = Acc0; Out[2*i+1] = Acc1;
+        }
+        if (N&0x1) {
+                int Acc0 = gap_clip(AT_SCALE(In[N-1], Scale, ScaleN), 7);
+		switch (Activation) {
+			case ACT_NONE:
+				break;
+			case ACT_RELU:
+				Acc0 = Max(0, Acc0);
+				break;
+			case ACT_RELUN:
+				Acc0 = Min(A0, Max(0, Acc0));
+				break;
+		}
+                Out[N-1] = Acc0;
+        }
+}
+
+/*
+ * Buffer compaction, scattered by chunk size groups of 8b moved to a contiguous representation through a parallel reduction tree
+*/
+void static __attribute__ ((noinline)) KerReductIO_Compact_SQ8(int *__restrict__ In, unsigned int Size, unsigned int CoreId, unsigned int ChunkCell)
+
+{
+	unsigned int U = gap_ncore()/2, Log2Core = gap_fl1(gap_ncore()), A = 2, B = 1;
+	for (int k=0; k<Log2Core; k++) {
+		if (CoreId<U) {
+			signed char *__restrict__ OOs = ((signed char *)In+(A*CoreId+B)*ChunkCell);
+			signed char *__restrict__ IIs = ((signed char *)In+((sizeof(int)/sizeof(signed char))*(A*CoreId+B))*ChunkCell);
+			int *__restrict__ II = (int *) IIs;
+			int *__restrict__ OO = (int *) OOs;
+			for (int i=0;i<Size/8;i++) {
+				int V0 = II[2*i], V1 = II[2*i+1];
+				OO[2*i] = V0; OO[2*i+1] = V1;
+			}
+			for (int i=((Size/8)*8); i<Size; i++) OOs[i] = IIs[i];
+		}
+		U = U/2; A = A*2; B = B*2;
+	}
+	gap_waitbarrier(0);
+}
+
+
+/*
+ * Input Scaling and reduction to 8b then channel cnetric activation, Out location != In location. Features are evaluated in parallel
+*/
+void KerParReduct_CC_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	int S = Arg->Feat;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Arg->W*Arg->H;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	for (int c=First; c<Last; c++) KerReduct_ActivationScale1_SQ8(In+Size*c, Out+Size*c, Size, Scale[c], ScaleN[c], ACT_NONE, A0, B0, C0);
+	gap_waitbarrier(0);
+}
+
+
+void KerParReduct_CC_ReLU_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	int S = Arg->Feat;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Arg->W*Arg->H;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	for (int c=First; c<Last; c++) KerReduct_ActivationScale1_SQ8(In+Size*c, Out+Size*c, Size, Scale[c], ScaleN[c], ACT_RELU, A0, B0, C0);
+	gap_waitbarrier(0);
+}
+
+void KerParReduct_CC_ReLUN_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	int S = Arg->Feat;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Arg->W*Arg->H;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	for (int c=First; c<Last; c++) KerReduct_ActivationScale1_SQ8(In+Size*c, Out+Size*c, Size, Scale[c], ScaleN[c], ACT_RELUN, A0, B0, C0);
+	gap_waitbarrier(0);
+
+}
+
+void KerParReduct_CC_HSigmoid_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	int S = Arg->Feat;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Arg->W*Arg->H;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	for (int c=First; c<Last; c++) KerReduct_Activation_SQ8(In+Size*c, Out+Size*c, Size, Scale[c], ScaleN[c], ACT_HSIGMOID, ActScale, ActScaleN, A0, B0, C0);
+	gap_waitbarrier(0);
+}
+
+void KerParReduct_CC_HSwish_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	int S = Arg->Feat;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Arg->W*Arg->H;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	for (int c=First; c<Last; c++) KerReduct_Activation_SQ8(In+Size*c, Out+Size*c, Size, Scale[c], ScaleN[c], ACT_HSWISH, ActScale, ActScaleN, A0, B0, C0);
+	gap_waitbarrier(0);
+}
+
+void KerParReduct_CC_LeakyReLU_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	int S = Arg->Feat;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Arg->W*Arg->H;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	for (int c=First; c<Last; c++) KerReduct_Activation_SQ8(In+Size*c, Out+Size*c, Size, Scale[c], ScaleN[c], ACT_LEAKYRELU, ActScale, ActScaleN, A0, B0, C0);
+	gap_waitbarrier(0);
+}
+
+/*
+ * Input Scaling and reduction to 8b then channel centric activation, Out location = In location. Features are evaluated in parallel
+*/
+extern void DumpFeaturePlanes(char *Mess, int DataSize, void *Plane, unsigned int NPlanes, unsigned int W, unsigned int Wmax, unsigned int H, unsigned int Hmax);
+
+void KerParReductIO_CC_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	unsigned int S = Arg->Feat;
+	unsigned int Size = Arg->W*Arg->H;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	signed char *__restrict__ Out = (signed char *__restrict__)(In+First*Size);
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	S = Size*Max(0, Last-First);
+	for (int c=First; c<Last; Out+=Size, c++) KerReductIO_ActivationScale1_SQ8(Out, In+Size*c, Size, Scale[c], ScaleN[c], ACT_NONE, A0, B0, C0);
+	gap_waitbarrier(0);
+	KerReductIO_Compact_SQ8(In, S, CoreId, ChunkCell*Size);
+}
+
+void KerParReductIO_CC_ReLU_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	unsigned int S = Arg->Feat;
+	unsigned int Size = Arg->W*Arg->H;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	signed char *__restrict__ Out = (signed char *__restrict__)(In+First*Size);
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	S = Size*Max(0, Last-First);
+	for (int c=First; c<Last; Out+=Size, c++) KerReductIO_ActivationScale1_SQ8(Out, In+Size*c, Size, Scale[c], ScaleN[c], ACT_RELU, A0, B0, C0);
+	gap_waitbarrier(0);
+	KerReductIO_Compact_SQ8(In, S, CoreId, ChunkCell*Size);
+}
+
+void KerParReductIO_CC_ReLUN_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	unsigned int S = Arg->Feat;
+	unsigned int Size = Arg->W*Arg->H;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	signed char *__restrict__ Out = (signed char *__restrict__)(In+First*Size);
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	S = Size*Max(0, Last-First);
+	for (int c=First; c<Last; Out+=Size, c++) KerReductIO_ActivationScale1_SQ8(Out, In+Size*c, Size, Scale[c], ScaleN[c], ACT_RELUN, A0, B0, C0);
+	gap_waitbarrier(0);
+	KerReductIO_Compact_SQ8(In, S, CoreId, ChunkCell*Size);
+}
+
+void KerParReductIO_CC_HSigmoid_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	unsigned int S = Arg->Feat;
+	unsigned int Size = Arg->W*Arg->H;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	signed char *__restrict__ Out = (signed char *__restrict__)(In+First*Size);
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	S = Size*Max(0, Last-First);
+	for (int c=First; c<Last; Out+=Size, c++) KerReductIO_Activation_SQ8(Out, In+Size*c, Size, Scale[c], ScaleN[c], ACT_HSIGMOID, ActScale, ActScaleN, A0, B0, C0);
+	gap_waitbarrier(0);
+	KerReductIO_Compact_SQ8(In, S, CoreId, ChunkCell*Size);
+}
+
+void KerParReductIO_CC_HSwish_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	unsigned int S = Arg->Feat;
+	unsigned int Size = Arg->W*Arg->H;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	signed char *__restrict__ Out = (signed char *__restrict__)(In+First*Size);
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	S = Size*Max(0, Last-First);
+	for (int c=First; c<Last; Out+=Size, c++) KerReductIO_Activation_SQ8(Out, In+Size*c, Size, Scale[c], ScaleN[c], ACT_HSWISH, ActScale, ActScaleN, A0, B0, C0);
+	gap_waitbarrier(0);
+	KerReductIO_Compact_SQ8(In, S, CoreId, ChunkCell*Size);
+}
+
+void KerParReductIO_CC_LeakyReLU_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	unsigned int S = Arg->Feat;
+	unsigned int Size = Arg->W*Arg->H;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	signed char *__restrict__ Out = (signed char *__restrict__)(In+First*Size);
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	S = Size*Max(0, Last-First);
+	for (int c=First; c<Last; Out+=Size, c++) KerReductIO_Activation_SQ8(Out, In+Size*c, Size, Scale[c], ScaleN[c], ACT_LEAKYRELU, ActScale, ActScaleN, A0, B0, C0);
+	gap_waitbarrier(0);
+	KerReductIO_Compact_SQ8(In, S, CoreId, ChunkCell*Size);
+}
+
+/* Input Scaling and reduction to 8b then channel centric activation, Out location != In location. Features are evaluated one after the other in parallel */
+void KerReduct_CC_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	unsigned int Feat = Arg->Feat;
+	unsigned S = Arg->W*Arg->H;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Max(0, Last-First);
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	for (int c=0; c<Feat; c++) KerReduct_ActivationScale1_SQ8(In+S*c+First, Out+S*c+First, Size, Scale[c], ScaleN[c], ACT_NONE, A0, B0, C0);
+	gap_waitbarrier(0);
+}
+
+void KerReduct_CC_ReLU_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	unsigned int Feat = Arg->Feat;
+	unsigned S = Arg->W*Arg->H;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Max(0, Last-First);
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	for (int c=0; c<Feat; c++) KerReduct_ActivationScale1_SQ8(In+S*c+First, Out+S*c+First, Size, Scale[c], ScaleN[c], ACT_RELU, A0, B0, C0);
+	gap_waitbarrier(0);
+}
+
+void KerReduct_CC_ReLUN_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	unsigned int Feat = Arg->Feat;
+	unsigned S = Arg->W*Arg->H;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Max(0, Last-First);
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	for (int c=0; c<Feat; c++) KerReduct_ActivationScale1_SQ8(In+S*c+First, Out+S*c+First, Size, Scale[c], ScaleN[c], ACT_RELUN, A0, B0, C0);
+	gap_waitbarrier(0);
+}
+
+void KerReduct_CC_HSigmoid_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	unsigned int Feat = Arg->Feat;
+	unsigned S = Arg->W*Arg->H;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Max(0, Last-First);
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	for (int c=0; c<Feat; c++) KerReduct_Activation_SQ8(In+S*c+First, Out+S*c+First, Size, Scale[c], ScaleN[c], ACT_HSIGMOID, ActScale, ActScaleN, A0, B0, C0);
+	gap_waitbarrier(0);
+}
+
+void KerReduct_CC_HSwish_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	unsigned int Feat = Arg->Feat;
+	unsigned S = Arg->W*Arg->H;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Max(0, Last-First);
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	for (int c=0; c<Feat; c++) KerReduct_Activation_SQ8(In+S*c+First, Out+S*c+First, Size, Scale[c], ScaleN[c], ACT_HSWISH, ActScale, ActScaleN, A0, B0, C0);
+	gap_waitbarrier(0);
+}
+
+void KerReduct_CC_LeakyReLU_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	unsigned int Feat = Arg->Feat;
+	unsigned S = Arg->W*Arg->H;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Max(0, Last-First);
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	for (int c=0; c<Feat; c++) KerReduct_Activation_SQ8(In+S*c+First, Out+S*c+First, Size, Scale[c], ScaleN[c], ACT_LEAKYRELU, ActScale, ActScaleN, A0, B0, C0);
+	gap_waitbarrier(0);
+}
+
+/* Input Scaling and reduction to 8b then channel centric activation, Out location = In location. Features are evaluated one after the other in parallel */
+void KerReductIO_CC_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	unsigned int Feat = Arg->Feat;
+	unsigned int S = Arg->W*Arg->H;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ InOut = (int *__restrict__) Arg->In;
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Max(0, Last-First);
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	for (int c=0; c<Feat; c++) {
+		KerReductIO_ActivationScale1_SQ8((signed char *__restrict__)(InOut+S*c+First), InOut+S*c+First, Size, Scale[c], ScaleN[c], ACT_NONE, A0, B0, C0);
+		gap_waitbarrier(0);
+		KerReductIO_Compact_SQ8(InOut+S*c, Size, CoreId, ChunkCell);
+	}
+	ChunkCell = ChunkSize(Feat); First = CoreId*ChunkCell; Last  = Min(First+ChunkCell, Feat); Size = S*Max(0, Last-First);
+	KerReductIO_Compact_SQ8(InOut, Size, CoreId, ChunkCell*Size);
+}
+
+void KerReductIO_CC_ReLU_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	unsigned int Feat = Arg->Feat;
+	unsigned int S = Arg->W*Arg->H;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ InOut = (int *__restrict__) Arg->In;
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Max(0, Last-First);
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	for (int c=0; c<Feat; c++) {
+		KerReductIO_ActivationScale1_SQ8((signed char *__restrict__)(InOut+S*c+First), InOut+S*c+First, Size, Scale[c], ScaleN[c], ACT_RELU, A0, B0, C0);
+		gap_waitbarrier(0);
+		KerReductIO_Compact_SQ8(InOut+S*c, Size, CoreId, ChunkCell);
+	}
+	ChunkCell = ChunkSize(Feat); First = CoreId*ChunkCell; Last  = Min(First+ChunkCell, Feat); Size = S*Max(0, Last-First);
+	KerReductIO_Compact_SQ8(InOut, Size, CoreId, ChunkCell*Size);
+}
+
+void KerReductIO_CC_ReLUN_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	unsigned int Feat = Arg->Feat;
+	unsigned int S = Arg->W*Arg->H;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ InOut = (int *__restrict__) Arg->In;
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Max(0, Last-First);
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	for (int c=0; c<Feat; c++) {
+		KerReductIO_ActivationScale1_SQ8((signed char *__restrict__)(InOut+S*c+First), InOut+S*c+First, Size, Scale[c], ScaleN[c], ACT_RELUN, A0, B0, C0);
+		gap_waitbarrier(0);
+		KerReductIO_Compact_SQ8(InOut+S*c, Size, CoreId, ChunkCell);
+	}
+	ChunkCell = ChunkSize(Feat); First = CoreId*ChunkCell; Last  = Min(First+ChunkCell, Feat); Size = S*Max(0, Last-First);
+	KerReductIO_Compact_SQ8(InOut, Size, CoreId, ChunkCell*Size);
+}
+
+void KerReductIO_CC_HSigmoid_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	unsigned int Feat = Arg->Feat;
+	unsigned int S = Arg->W*Arg->H;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ InOut = (int *__restrict__) Arg->In;
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Max(0, Last-First);
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	for (int c=0; c<Feat; c++) {
+		KerReductIO_Activation_SQ8((signed char *__restrict__)(InOut+S*c+First), InOut+S*c+First, Size, Scale[c], ScaleN[c], ACT_HSIGMOID, ActScale, ActScaleN, A0, B0, C0);
+		gap_waitbarrier(0);
+		KerReductIO_Compact_SQ8(InOut+S*c, Size, CoreId, ChunkCell);
+	}
+	ChunkCell = ChunkSize(Feat); First = CoreId*ChunkCell; Last  = Min(First+ChunkCell, Feat); Size = S*Max(0, Last-First);
+	KerReductIO_Compact_SQ8(InOut, Size, CoreId, ChunkCell*Size);
+}
+
+void KerReductIO_CC_HSwish_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	unsigned int Feat = Arg->Feat;
+	unsigned int S = Arg->W*Arg->H;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ InOut = (int *__restrict__) Arg->In;
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Max(0, Last-First);
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	for (int c=0; c<Feat; c++) {
+		KerReductIO_Activation_SQ8((signed char *__restrict__)(InOut+S*c+First), InOut+S*c+First, Size, Scale[c], ScaleN[c], ACT_HSWISH, ActScale, ActScaleN, A0, B0, C0);
+		gap_waitbarrier(0);
+		KerReductIO_Compact_SQ8(InOut+S*c, Size, CoreId, ChunkCell);
+	}
+	ChunkCell = ChunkSize(Feat); First = CoreId*ChunkCell; Last  = Min(First+ChunkCell, Feat); Size = S*Max(0, Last-First);
+	KerReductIO_Compact_SQ8(InOut, Size, CoreId, ChunkCell*Size);
+}
+
+void KerReductIO_CC_LeakyReLU_SQ8(KerConvLinReduct_SQ8_T *Arg)
+
+{
+	unsigned int Feat = Arg->Feat;
+	unsigned int S = Arg->W*Arg->H;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	int * __restrict__ InOut = (int *__restrict__) Arg->In;
+	unsigned char * __restrict__ Scale = (unsigned char *__restrict__) Arg->Scale;
+	unsigned char * __restrict__ ScaleN = (unsigned char *__restrict__) Arg->ScaleN;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Max(0, Last-First);
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	for (int c=0; c<Feat; c++) {
+		KerReductIO_Activation_SQ8((signed char *__restrict__)(InOut+S*c+First), InOut+S*c+First, Size, Scale[c], ScaleN[c], ACT_LEAKYRELU, ActScale, ActScaleN, A0, B0, C0);
+		gap_waitbarrier(0);
+		KerReductIO_Compact_SQ8(InOut+S*c, Size, CoreId, ChunkCell);
+	}
+	ChunkCell = ChunkSize(Feat); First = CoreId*ChunkCell; Last  = Min(First+ChunkCell, Feat); Size = S*Max(0, Last-First);
+	KerReductIO_Compact_SQ8(InOut, Size, CoreId, ChunkCell*Size);
+}
+
+/*
+ * Standalone Scaled Activation, Features are evaluated in parallel
+*/
+
+void KerPar_ReLU_SQ8(KerActivation_SQ8_T *Arg)
+
+{
+	unsigned int S = Arg->Feat, CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	signed char * __restrict__ In = (signed char *__restrict__) Arg->In;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	unsigned int Size = Arg->W*Arg->H;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	if (ActScale) for (int c=First; c<Last; c++) Ker_Activation_SQ8(In + Size*c, Out + Size*c, Size, ACT_RELU, ActScale, ActScaleN, A0, B0, C0);
+	else for (int c=First; c<Last; c++) Ker_ActivationScale1_SQ8(In + Size*c, Out + Size*c, Size, ACT_RELU, A0);
+	gap_waitbarrier(0);
+}
+
+void KerPar_ReLUN_SQ8(KerActivation_SQ8_T *Arg)
+
+{
+	unsigned int S = Arg->Feat, CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	signed char * __restrict__ In = (signed char *__restrict__) Arg->In;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	unsigned int Size = Arg->W*Arg->H;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	if (ActScale) for (int c=First; c<Last; c++) Ker_Activation_SQ8(In + Size*c, Out + Size*c, Size, ACT_RELUN, ActScale, ActScaleN, A0, B0, C0);
+	else for (int c=First; c<Last; c++) Ker_ActivationScale1_SQ8(In + Size*c, Out + Size*c, Size, ACT_RELUN, A0);
+	gap_waitbarrier(0);
+}
+
+void KerPar_HSigmoid_SQ8(KerActivation_SQ8_T *Arg)
+
+{
+	unsigned int S = Arg->Feat, CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	signed char * __restrict__ In = (signed char *__restrict__) Arg->In;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	unsigned int Size = Arg->W*Arg->H;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	for (int c=First; c<Last; c++) Ker_Activation_SQ8(In + Size*c, Out + Size*c, Size, ACT_HSIGMOID, ActScale, ActScaleN, A0, B0, C0);
+	gap_waitbarrier(0);
+}
+
+void KerPar_HSwish_SQ8(KerActivation_SQ8_T *Arg)
+
+{
+	unsigned int S = Arg->Feat, CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	signed char * __restrict__ In = (signed char *__restrict__) Arg->In;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	unsigned int Size = Arg->W*Arg->H;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	for (int c=First; c<Last; c++) Ker_Activation_SQ8(In + Size*c, Out + Size*c, Size, ACT_HSWISH, ActScale, ActScaleN, A0, B0, C0);
+	gap_waitbarrier(0);
+}
+
+void KerPar_LeakyReLU_SQ8(KerActivation_SQ8_T *Arg)
+
+{
+	unsigned int S = Arg->Feat, CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	signed char * __restrict__ In = (signed char *__restrict__) Arg->In;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	unsigned int Size = Arg->W*Arg->H;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+	for (int c=First; c<Last; c++) Ker_Activation_SQ8(In + Size*c, Out + Size*c, Size, ACT_LEAKYRELU, ActScale, ActScaleN, A0, B0, C0);
+	gap_waitbarrier(0);
+}
+
+/*
+ * Standalone Scaled Activation, Features are evaluated one after the other in parallel
+*/
+
+void Ker_ReLU_SQ8(KerActivation_SQ8_T *Arg)
+
+{
+	unsigned int S = Arg->W*Arg->H*Arg->Feat, CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	signed char * __restrict__ In = (signed char *__restrict__) Arg->In;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Max(0, Last-First);
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+
+	if (ActScale) Ker_Activation_SQ8(In+First, Out+First, Size, ACT_RELU, ActScale, ActScaleN, A0, B0, C0);
+	else Ker_ActivationScale1_SQ8(In+First, Out+First, Size, ACT_RELU, A0);
+	gap_waitbarrier(0);
+}
+
+void Ker_ReLUN_SQ8(KerActivation_SQ8_T *Arg)
+
+{
+	unsigned int S = Arg->W*Arg->H*Arg->Feat, CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	signed char * __restrict__ In = (signed char *__restrict__) Arg->In;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Max(0, Last-First);
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+
+	if (ActScale) Ker_Activation_SQ8(In+First, Out+First, Size, ACT_RELUN, ActScale, ActScaleN, A0, B0, C0);
+	else Ker_ActivationScale1_SQ8(In+First, Out+First, Size, ACT_RELUN, A0);
+	gap_waitbarrier(0);
+}
+
+void Ker_HSigmoid_SQ8(KerActivation_SQ8_T *Arg)
+
+{
+	unsigned int S = Arg->W*Arg->H*Arg->Feat, CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	signed char * __restrict__ In = (signed char *__restrict__) Arg->In;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Max(0, Last-First);
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+
+	Ker_Activation_SQ8(In+First, Out+First, Size, ACT_HSIGMOID, ActScale, ActScaleN, A0, B0, C0);
+	gap_waitbarrier(0);
+}
+
+void Ker_HSwish_SQ8(KerActivation_SQ8_T *Arg)
+
+{
+	unsigned int S = Arg->W*Arg->H*Arg->Feat, CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	signed char * __restrict__ In = (signed char *__restrict__) Arg->In;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Max(0, Last-First);
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+
+	Ker_Activation_SQ8(In+First, Out+First, Size, ACT_HSWISH, ActScale, ActScaleN, A0, B0, C0);
+	gap_waitbarrier(0);
+}
+
+void Ker_LeakyReLU_SQ8(KerActivation_SQ8_T *Arg)
+
+{
+	unsigned int S = Arg->W*Arg->H*Arg->Feat, CoreId = gap_coreid(), ChunkCell = ChunkSize(S), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, S);
+	signed char * __restrict__ In = (signed char *__restrict__) Arg->In;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char * __restrict__ Infos = (signed char *__restrict__) Arg->Infos;
+	unsigned int Size = Max(0, Last-First);
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+
+	Ker_Activation_SQ8(In+First, Out+First, Size, ACT_LEAKYRELU, ActScale, ActScaleN, A0, B0, C0);
+	gap_waitbarrier(0);
+}
diff --git a/tools/autotiler_v3/generators/CNN/CNN_BasicKernels.h b/tools/autotiler_v3/generators/CNN/CNN_BasicKernels.h
index 28fe68ed5..9cb070f4d 100644
--- a/tools/autotiler_v3/generators/CNN/CNN_BasicKernels.h
+++ b/tools/autotiler_v3/generators/CNN/CNN_BasicKernels.h
@@ -194,9 +194,9 @@ typedef KerConv_fps_T KerConvDW_fps_T;		/* Alias to separate regular conv from d
 /* Double precision */
 typedef struct {
 	short int * __restrict__ In;    	/**< Pointer to input tile  */
-	unsigned short int W;	   	/**< Width of the input tile */
+	unsigned short int W;	 	  	/**< Width of the input tile */
 	unsigned short int UsedW;	   	/**< Part of the input width to be used */
-	unsigned short int H;	   	/**< Height of the input tile */
+	unsigned short int H;	   		/**< Height of the input tile */
 	unsigned short int UsedH;	   	/**< Part of the input height to be used */
 	unsigned short int InFeatures;		/**< Number of output features, used for channel parallel kernels */
 	unsigned short int OutFeatures;		/**< Number of output features, used for channel parallel kernels */
@@ -216,9 +216,9 @@ typedef struct {
 
 typedef struct {
 	signed char * __restrict__ In;    	/**< Pointer to input tile  */
-	unsigned short int W;	   	/**< Width of the input tile */
+	unsigned short int W;	   		/**< Width of the input tile */
 	unsigned short int UsedW;	   	/**< Part of the input width to be used */
-	unsigned short int H;	   	/**< Height of the input tile */
+	unsigned short int H;	   		/**< Height of the input tile */
 	unsigned short int UsedH;	   	/**< Part of the input height to be used */
 	unsigned short int InFeatures;		/**< Number of output features, used for channel parallel kernels */
 	unsigned short int OutFeatures;		/**< Number of output features, used for channel parallel kernels */
@@ -250,7 +250,7 @@ typedef struct {
 	signed char NormBias;			/**< Bias to ConvOut correction factor */
 	unsigned short int InFeatures;		/**< Number of channels, used only for channel parallel kernels */
 	int LB;					/**< If Out<LB then Out=LB */
-	int UB;					/**< If Out>UB then Out=UB or pointer to upper bound vector if RELUN_VECTOR */
+	int UB;					/**< If Out>UB then Out=UB */
 	short int * __restrict__ MulBias;	/**< Output Multiplicative bias */
 } KerDP_fp_T;
 
@@ -263,7 +263,7 @@ typedef struct {
 	signed char NormBias;			/**< Precision of the multiplicative bias */
 	unsigned short int InFeatures;		/**< Number of channels, used only for channel parallel kernels */
 	int LB;					/**< If Out<LB then Out=LB */
-	int UB;					/**< If Out>UB then Out=UB or pointer to upper bound vector if RELUN_VECTOR */
+	int UB;					/**< If Out>UB then Out=UB */
 	signed char * __restrict__ MulBias;	/**< Output Multiplicative bias */
 } KerDP_fps_T;
 
@@ -292,7 +292,7 @@ typedef struct {
 	unsigned char Sy;		/**< Stride Sy, used only if Sx!=Sy */
 	unsigned char Dy;		/**< Dilation Dy, used only if Dx!=Dy */
 	int LB;				/**< Lower bound for the output */
-	int UB;				/**< Upper bound for the output or pointer to upper bound vector if RELUN_VECTOR */
+	int UB;				/**< Upper bound for the output */
 } KerReLUPool_fp_T;
 
 typedef struct {
@@ -342,7 +342,7 @@ typedef struct {
 	unsigned char Sy;		/**< Stride Sy, used only if Sx!=Sy */
 	unsigned char Dy;		/**< Dilation Dy, used only if Dx!=Dy */
 	int LB;				/**< Lower bound for the output */
-	int UB;				/**< Upper bound for the output or pointer to upper bound vector if RELUN_VECTOR */
+	int UB;				/**< Upper bound for the output */
 } KerReLUPool_fps_T;
 
 typedef struct {
@@ -388,7 +388,7 @@ typedef struct {
 	unsigned char Norm;			/**< Normalization factor */
 	signed char NormBias;			/**< Bias Normalization factor */
 	int LB;					/**< Lower bound for the output */
-	int UB;					/**< Upper bound for the output or pointer to upper bound vector if RELUN_VECTOR */
+	int UB;					/**< Upper bound for the output */
 } KerLinearLayerReLU_fp_T;
 
 typedef struct {
@@ -402,7 +402,7 @@ typedef struct {
 	unsigned char Norm;			/**< Normalization factor */
 	signed char NormBias;			/**< Bias Normalization factor */
 	int LB;					/**< Lower bound for the output */
-	int UB;					/**< Upper bound for the output or pointer to upper bound vector if RELUN_VECTOR */
+	int UB;					/**< Upper bound for the output */
 } KerLinearLayerReLU_fps_T;
 
 typedef struct {
@@ -416,7 +416,7 @@ typedef struct {
 	unsigned char Norm;			/**< Normalization factor */
 	signed char NormBias;			/**< Normalization factor for the bias */
 	int LB;					/**< Lower bound for the output */
-	int UB;					/**< Upper bound for the output or pointer to upper bound vector if RELUN_VECTOR */
+	int UB;					/**< Upper bound for the output */
 } KerLinearLayerReLU_fp_fps_fp_T;
 
 typedef struct {
@@ -430,9 +430,23 @@ typedef struct {
 	unsigned char Norm;			/**< Normalization factor */
 	signed char NormBias;			/**< Normalization factor for the bias */
 	int LB;					/**< Lower bound for the output */
-	int UB;					/**< Upper bound for the output or pointer to upper bound vector if RELUN_VECTOR */
+	int UB;					/**< Upper bound for the output */
 } KerLinearLayerReLU_fps_fps_fp_T;
 
+typedef struct {
+	signed char * __restrict__ In;		/**< Pointer to input tile */
+	unsigned short int InSize;		/**< Size of the the tile */
+	unsigned short int TotalInSize;		/**< Total input size in case parallelization is performed on outputs */
+	unsigned short int OutSize;		/**< Size of the output tile */
+	signed char * __restrict__ Filter;	/**< Pointer to filter tile, width is TotalInSize */
+	signed char * __restrict__ Bias;	/**< Pointer to bias tile, size is OutSize */
+	int * __restrict__ Out;			/**< Pointer to output tile, size if OutSize */
+	unsigned char Norm;			/**< Normalization factor */
+	signed char NormBias;			/**< Normalization factor for the bias */
+	int LB;					/**< Lower bound for the output */
+	int UB;					/**< Upper bound for the output */
+} KerLinearLayerReLU_fps_fps_fpd_T;
+
 typedef struct {
 	short int * __restrict__ In;		/**< Pointer to input tile */
 	unsigned short int InSize;		/**< Size of the the tile */
@@ -444,7 +458,7 @@ typedef struct {
 	unsigned char Norm;			/**< Normalization factor */
 	signed char NormBias;			/**< Normalization factor for the bias */
 	int LB;					/**< Lower bound for the output */
-	int UB;					/**< Upper bound for the output or pointer to upper bound vector if RELUN_VECTOR */
+	int UB;					/**< Upper bound for the output */
 } KerLinearLayerReLU_fp_fp_fpd_T;
 
 typedef struct {
@@ -476,7 +490,7 @@ typedef struct {
         short int * __restrict__ Bias;		/**< Pointer to Bias */
         short int * __restrict__ Out;		/**< Pointer to Out */
         int LB;					/**< Min output value */
-        int UB;					/**< Max output value or pointer to upper bound vector if RELUN_VECTOR */
+        int UB;					/**< Max output value */
         char Norm;				/**< Precision, input/output/filter */
         signed char NormBias;			/**< Bias precision */
         char Oper;				/**< Activation operation after linear layer, see CNN_Activation_Oper_T */
@@ -487,7 +501,7 @@ typedef struct {
         signed char * __restrict__ Bias;	/**< Pointer to Bias */
         signed char * __restrict__ Out;		/**< Pointer to Out */
         int LB;					/**< Min output value */
-        int UB;					/**< Max output value or pointer to upper bound vector if RELUN_VECTOR */
+        int UB;					/**< Max output value */
         char Norm;				/**< Precision, input/output/filter */
         signed char NormBias;			/**< Bias precision */
         char Oper;				/**< Activation operation after linear layer, see CNN_Activation_Oper_T */
@@ -505,7 +519,7 @@ typedef struct {
 	unsigned short int H;			/**< Input Height */
 	unsigned short int N;			/**< Number of (input, input, output) */
 	int LB;					/**< Lower bound for the output */
-	int UB;					/**< Upper bound for the output or pointer to upper bound vector if RELUN_VECTOR */
+	int UB;					/**< Upper bound for the output */
 	unsigned char In1_Q;			/**< In1 quantization */
 	unsigned char In2_Q;			/**< In2 quantization */
 	unsigned char Out_Q;			/**< Out quantization */
@@ -519,7 +533,7 @@ typedef struct {
 	unsigned short int H;			/**< Input Height */
 	unsigned short int N;			/**< Number of (input, input, output) */
 	int LB;					/**< Lower bound for the output */
-	int UB;					/**< Upper bound for the output or pointer to upper bound vector if RELUN_VECTOR */
+	int UB;					/**< Upper bound for the output */
 	unsigned char In1_Q;			/**< In1 quantization */
 	unsigned char In2_Q;			/**< In2 quantization */
 	unsigned char Out_Q;			/**< Out quantization */
@@ -533,7 +547,7 @@ typedef struct {
 	unsigned short int H;			/**< Input Height */
 	unsigned short int N;			/**< Number of channels/features */
 	int LB;					/**< Lower bound for the output */
-	int UB;					/**< Upper bound for the output or pointer to upper bound vector if RELUN_VECTOR */
+	int UB;					/**< Upper bound for the output */
 	short int *__restrict__ ScaleScalar;	/**< Pointer to optional Scalar value to be applied to all channels */
 	unsigned char Scale_Q;			/**< Scalar fixed point format */
 	unsigned char Norm;			/**< Normalization factor to be applied to result */
@@ -547,7 +561,7 @@ typedef struct {
 	unsigned short int H;			/**< Input Height */
 	unsigned short int N;			/**< Number of channels/features */
 	int LB;					/**< Lower bound for the output */
-	int UB;					/**< Upper bound for the output or pointer to upper bound vector if RELUN_VECTOR */
+	int UB;					/**< Upper bound for the output */
 	signed char *__restrict__ ScaleScalar;	/**< Pointer to optional Scalar value to be applied to all channels */
 	unsigned char Scale_Q;			/**< Scalar fixed point format */
 	unsigned char Norm;			/**< Normalization factor to be applied to result */
@@ -566,7 +580,7 @@ typedef struct {
 	unsigned short int OutFirstCol;       	/**< Equal M2FirstCol */
 	short int * __restrict__ BufferColIn2;	/**< In case vectorization is used will be used to copy a column of In2 into a line */
 	int LB;					/**< If Out<LB then Out=LB */
-	int UB;					/**< If Out>UB then Out=UB or pointer to upper bound vector if RELUN_VECTOR */
+	int UB;					/**< If Out>UB then Out=UB */
 	unsigned char Norm;			/**< Fixed point format */
 	signed char NormBias;			/**< Precision of the bias */
 	unsigned char NormMulBias;		/**< Precision of the multiplicative bias */
@@ -590,7 +604,7 @@ typedef struct {
 	unsigned short int OutFirstCol;       	/**< Equal M2FirstCol */
 	short int * __restrict__ BufferColIn2;	/**< In case vectorization is used will be used to copy a column of In2 into a line */
 	int LB;					/**< If Out<LB then Out=LB */
-	int UB;					/**< If Out>UB then Out=UB or pointer to upper bound vector if RELUN_VECTOR */
+	int UB;					/**< If Out>UB then Out=UB */
 	unsigned char Norm;			/**< Fixed point format */
 	signed char NormBias;			/**< Precision of the bias */
 	unsigned char NormMulBias;		/**< Precision of the multiplicative bias */
@@ -614,7 +628,7 @@ typedef struct {
 	unsigned short int OutFirstCol;       	/**< Equal M2FirstCol */
 	signed char * __restrict__ BufferColIn2;/**< In case vectorization is used will be used to copy a column of In2 into a line */
 	int LB;					/**< If Out<LB then Out=LB */
-	int UB;					/**< If Out>UB then Out=UB or pointer to upper bound vector if RELUN_VECTOR */
+	int UB;					/**< If Out>UB then Out=UB */
 	unsigned char Norm;			/**< Fixed point format */
 	signed char NormBias;			/**< Precision of the bias */
 	unsigned char NormMulBias;		/**< Precision of the multiplicative bias */
@@ -638,7 +652,7 @@ typedef struct {
 	unsigned short int OutFirstCol;       	/**< Equal M2FirstCol */
 	signed char * __restrict__ BufferColIn2;/**< In case vectorization is used will be used to copy a column of In2 into a line */
 	int LB;					/**< If Out<LB then Out=LB */
-	int UB;					/**< If Out>UB then Out=UB or pointer to upper bound vector if RELUN_VECTOR */
+	int UB;					/**< If Out>UB then Out=UB */
 	unsigned char Norm;			/**< Fixed point format */
 	signed char NormBias;			/**< Precision of the bias */
 	unsigned char NormMulBias;		/**< Precision of the multiplicative bias */
@@ -1267,12 +1281,10 @@ extern void KerConvNxMDxDyStrideSxSy_DP_fps(KerConv_DP_fps_T *Arg);
    Feature maps of bytes (_fps) or half words (_fp)
 */
 extern void KerParReLU_fp(KerReLUPool_fp_T *Arg);
-extern void KerParReLUN_Vector_fp(KerReLUPool_fp_T *Arg);
 extern void KerParHswish_fp(KerReLUPool_fp_T *Arg);
 extern void KerParHsigmoid_fp(KerReLUPool_fp_T *Arg);
 
 extern void KerParReLU_fps(KerReLUPool_fps_T *Arg);
-extern void KerParReLUN_Vector_fps(KerReLUPool_fps_T *Arg);
 extern void KerParHswish_fps(KerReLUPool_fps_T *Arg);
 extern void KerParHsigmoid_fps(KerReLUPool_fps_T *Arg);
 
@@ -1280,9 +1292,7 @@ extern void KerParHsigmoid_fps(KerReLUPool_fps_T *Arg);
    Feature maps of bytes (_fps) or half words (_fp)
 */
 extern void KerReLU_fp(KerReLUPool_fp_T *Arg);
-extern void KerReLUN_Vector_fp(KerReLUPool_fp_T *Arg);
 extern void KerReLU_fps(KerReLUPool_fps_T *Arg);
-extern void KerReLUN_Vector_fps(KerReLUPool_fps_T *Arg);
 
 /******************************************************************************************************************************/
 /**************** DOUBLE PRECISION TO SINGLE PRECISION REDUCTION **************************************************************/
@@ -1293,26 +1303,20 @@ extern void KerReLUN_Vector_fps(KerReLUPool_fps_T *Arg);
 
 /* Input is Double precision on 32 bits Qx.2N, Output is Single precision on 16 bits Qx.N, input and output are disjoints */
 extern void KerDP_fp(KerDP_fp_T *Arg);
-extern void KerDP_ReLUN_Vector_fp(KerDP_fp_T *Arg);
 /* Input is Double precision on 32 bits Qx.2N, Output is Single precision on 16 bits Qx.N, input and output point to same location */
 extern void KerDP_IO_fp(KerDP_fp_T *Arg);
-extern void KerDP_IO_ReLUN_Vector_fp(KerDP_fp_T *Arg);
 /* Input is Double precision on 32 bits Qx.2N, Output is Single precision on 16 bits Qx.N, input and output are disjoints,
    same MulBias applied to all out channels */
 extern void KerDPMulBiasScalar_fp(KerDP_fp_T *Arg);
-extern void KerDPMulBiasScalar_ReLUN_Vector_fp(KerDP_fp_T *Arg);
 /* Input is Double precision on 32 bits Qx.2N, Output is Single precision on 16 bits Qx.N, input and output point to same location,
    same MulBias applied to all out channels */
 extern void KerDPMulBiasScalar_IO_fp(KerDP_fp_T *Arg);
-extern void KerDPMulBiasScalar_IO_ReLUN_Vector_fp(KerDP_fp_T *Arg);
 /* Input is Double precision on 32 bits Qx.2N, Output is Single precision on 16 bits Qx.N, input and output are disjoints,
    each out channel has its own MulBias */
 extern void KerDPMulBias_fp(KerDP_fp_T *Arg);
-extern void KerDPMulBias_ReLUN_Vector_fp(KerDP_fp_T *Arg);
 /* Input is Double precision on 32 bits Qx.2N, Output is Single precision on 16 bits Qx.N, input and output point to same location,
    each out channel has its own MulBias */
 extern void KerDPMulBias_IO_fp(KerDP_fp_T *Arg);
-extern void KerDPMulBias_IO_ReLUN_Vector_fp(KerDP_fp_T *Arg);
 /* Input is Double precision on 32 bits Qx.2N, Output is Single precision on 16 bits Qx.N, input and output are disjoints
    out is (in * ReLU6(in+3))/6 */
 extern void KerDP_hswish_fp(KerDP_fp_T *Arg);
@@ -1334,26 +1338,20 @@ extern void KerDP_IO_leakyrelu_fp(KerDP_fp_T *Arg);
 
 /* Input is Double precision on 16 or 32 bits Qx.2N, Output is Single precision on 8 bits Qx.N, input and output are disjoints */
 extern void KerDP_fps(KerDP_fps_T *Arg);
-extern void KerDP_ReLUN_Vector_fps(KerDP_fps_T *Arg);
 /* Input is Double precision on 16 or 32 bits Qx.2N, Output is Single precision on 8 bits Qx.N, input and output point to same location */
 extern void KerDP_IO_fps(KerDP_fps_T *Arg);
-extern void KerDP_IO_ReLUN_Vector_fps(KerDP_fps_T *Arg);
 /* Input is Double precision on 16 or 32 bits Qx.2N, Output is Single precision on 8 bits Qx.N, input and output are disjoints,
    same MulBias applied to all out channels */
 extern void KerDPMulBiasScalar_fps(KerDP_fps_T *Arg);
-extern void KerDPMulBiasScalar_ReLUN_Vector_fps(KerDP_fps_T *Arg);
 /* Input is Double precision on 16 or 32 bits Qx.2N, Output is Single precision on 8 bits Qx.N, input and output point to same location,
    same MulBias applied to all out channels */
 extern void KerDPMulBiasScalar_IO_fps(KerDP_fps_T *Arg);
-extern void KerDPMulBiasScalar_IO_ReLUN_Vector_fps(KerDP_fps_T *Arg);
 /* Input is Double precision on 16 or 32 bits Qx.2N, Output is Single precision on 8 bits Qx.N, input and output are disjoints,
    each out channel has its own MulBias */
 extern void KerDPMulBias_fps(KerDP_fps_T *Arg);
-extern void KerDPMulBias_ReLUN_Vector_fps(KerDP_fps_T *Arg);
 /* Input is Double precision on 16 or 32 bits Qx.2N, Output is Single precision on 8 bits Qx.N, input and output point to same location,
    each out channel has its own MulBias */
 extern void KerDPMulBias_IO_fps(KerDP_fps_T *Arg);
-extern void KerDPMulBias_IO_ReLUN_Vector_fps(KerDP_fps_T *Arg);
 /* Input is Double precision on 16 or 32 bits Qx.2N, Output is Single precision on 8 bits Qx.N, input and output are disjoints
    out is (in * ReLU6(in+3))/6 */
 extern void KerDP_hswish_fps(KerDP_fps_T *Arg);
@@ -1441,15 +1439,10 @@ extern void KerPoolNxMStrideSxSy_fps(KerReLUPool_fps_T *Arg);
 
 /* A single output is evaluated in parallel on all cores */
 extern void KerLinearLayerReLU_fp(KerLinearLayerReLU_fp_T *Arg);
-extern void KerLinearLayerReLUN_Vector_fp(KerLinearLayerReLU_fp_T *Arg);
 extern void KerLinearLayerReLU_fps(KerLinearLayerReLU_fps_T *Arg);
-extern void KerLinearLayerReLUN_Vector_fps(KerLinearLayerReLU_fps_T *Arg);
 extern void KerLinearLayerReLU_fp_fps_fp(KerLinearLayerReLU_fp_fps_fp_T *Arg);
-extern void KerLinearLayerReLUN_Vector_fp_fps_fp(KerLinearLayerReLU_fp_fps_fp_T *Arg);
 extern void KerLinearLayerReLU_fp_fp_fpd(KerLinearLayerReLU_fp_fp_fpd_T *Arg);
-extern void KerLinearLayerReLUN_Vector_fp_fp_fpd(KerLinearLayerReLU_fp_fp_fpd_T *Arg);
 extern void KerLinearLayerReLU_fps_fps_fp(KerLinearLayerReLU_fps_fps_fp_T *Arg);
-extern void KerLinearLayerReLUN_Vector_fps_fps_fp(KerLinearLayerReLU_fps_fps_fp_T *Arg);
 
 /* A single output is evaluated in parallel on all cores, double precision output, need reduction step after */
 extern void KerDPLinearLayer_fp(KerDPLinearLayer_fp_T *Arg);
@@ -1460,21 +1453,17 @@ extern void KerDPLinearLayerReduct_fps(KerDPLinearLayerReduct_fps_T *Arg);
 
 /* Several output are evaluated in parallel, one per core */
 extern void KerParLinearLayerReLU_fp(KerLinearLayerReLU_fp_T *Arg);
-extern void KerParLinearLayerReLUN_Vector_fp(KerLinearLayerReLU_fp_T *Arg);
 extern void KerParLinearLayerHswish_fp(KerLinearLayerReLU_fp_T *Arg);
 extern void KerParLinearLayerHsigmoid_fp(KerLinearLayerReLU_fp_T *Arg);
 
 extern void KerParLinearLayerReLU_fps(KerLinearLayerReLU_fps_T *Arg);
-extern void KerParLinearLayerReLUN_Vector_fps(KerLinearLayerReLU_fps_T *Arg);
 extern void KerParLinearLayerHswish_fps(KerLinearLayerReLU_fps_T *Arg);
 extern void KerParLinearLayerHsigmoid_fps(KerLinearLayerReLU_fps_T *Arg);
 
 extern void KerParLinearLayerReLU_fps_fps_fp(KerLinearLayerReLU_fps_fps_fp_T *Arg);
-extern void KerParLinearLayerReLUN_Vector_fps_fps_fp(KerLinearLayerReLU_fps_fps_fp_T *Arg);
+extern void KerParLinearLayerReLU_fps_fps_fpd(KerLinearLayerReLU_fps_fps_fpd_T *Arg);
 extern void KerParLinearLayerReLU_fp_fps_fp(KerLinearLayerReLU_fp_fps_fp_T *Arg);
-extern void KerParLinearLayerReLUN_Vector_fp_fps_fp(KerLinearLayerReLU_fp_fps_fp_T *Arg);
 extern void KerParLinearLayerReLU_fp_fp_fpd(KerLinearLayerReLU_fp_fp_fpd_T *Arg);
-extern void KerParLinearLayerReLUN_Vector_fp_fp_fpd(KerLinearLayerReLU_fp_fp_fpd_T *Arg);
 
 
 /******************************************************************************************************************************/
@@ -1491,73 +1480,51 @@ extern void KerParMatAddReLU_fp(KerMat3_fp_T *Arg);
 extern void KerParMatAddReLU_fps(KerMat3_fps_T *Arg);
 
 extern void KerParMatMul_fp(KerMatMul_fp_T *Arg);
-extern void KerParMatMul_ReLUN_Vector_fp(KerMatMul_fp_T *Arg);
 
 extern void KerParMatMulSxSy_fp(KerMatMul_fp_T *Arg);
-extern void KerParMatMulSxSy_ReLUN_Vector_fp(KerMatMul_fp_T *Arg);
 
 extern void KerParMatMul_fpd_fp(KerMatMul_fpd_fp_T *Arg);
-extern void KerParMatMul_ReLUN_Vector_fpd_fp(KerMatMul_fpd_fp_T *Arg);
 
 extern void KerParMatMulSxSy_fpd_fp(KerMatMul_fpd_fp_T *Arg);
-extern void KerParMatMulSxSy_ReLUN_Vector_fpd_fp(KerMatMul_fpd_fp_T *Arg);
 
 extern void KerParMatMulScaleScalar_fp(KerMatMul_fp_T *Arg);
-extern void KerParMatMulScaleScalar_ReLUN_Vector_fp(KerMatMul_fp_T *Arg);
 
 extern void KerParMatMulScaleScalarSxSy_fp(KerMatMul_fp_T *Arg);
-extern void KerParMatMulScaleScalarSxSy_ReLUN_Vector_fp(KerMatMul_fp_T *Arg);
 
 extern void KerParMatMulScaleScalar_fpd_fp(KerMatMul_fpd_fp_T *Arg);
-extern void KerParMatMulScaleScalar_ReLUN_Vector_fpd_fp(KerMatMul_fpd_fp_T *Arg);
 
 extern void KerParMatMulScaleScalarSxSy_fpd_fp(KerMatMul_fpd_fp_T *Arg);
-extern void KerParMatMulScaleScalarSxSy_ReLUN_Vector_fpd_fp(KerMatMul_fpd_fp_T *Arg);
 
 extern void KerParMatMulScale_fp(KerMatMul_fp_T *Arg);
-extern void KerParMatMulScale_ReLUN_Vector_fp(KerMatMul_fp_T *Arg);
 
 extern void KerParMatMulScaleSxSy_fp(KerMatMul_fp_T *Arg);
-extern void KerParMatMulScaleSxSy_ReLUN_Vector_fp(KerMatMul_fp_T *Arg);
 
 extern void KerParMatMulScale_fpd_fp(KerMatMul_fpd_fp_T *Arg);
-extern void KerParMatMulScale_ReLUN_Vector_fpd_fp(KerMatMul_fpd_fp_T *Arg);
 
 extern void KerParMatMulScaleSxSy_fpd_fp(KerMatMul_fpd_fp_T *Arg);
-extern void KerParMatMulScaleSxSy_ReLUN_Vector_fpd_fp(KerMatMul_fpd_fp_T *Arg);
 
 extern void KerParMatMul_fps(KerMatMul_fps_T *Arg);
-extern void KerParMatMul_ReLUN_Vector_fps(KerMatMul_fps_T *Arg);
 
 extern void KerParMatMulSxSy_fps(KerMatMul_fps_T *Arg);
-extern void KerParMatMulSxSy_ReLUN_Vector_fps(KerMatMul_fps_T *Arg);
 
 extern void KerParMatMul_fp_fps(KerMatMul_fp_fps_T *Arg);
-extern void KerParMatMul_ReLUN_Vector_fp_fps(KerMatMul_fp_fps_T *Arg);
 
 extern void KerParMatMulSxSy_fp_fps(KerMatMul_fp_fps_T *Arg);
-extern void KerParMatMulSxSy_ReLUN_Vector_fp_fps(KerMatMul_fp_fps_T *Arg);
 
 extern void KerParMatMulScaleScalar_fps(KerMatMul_fps_T *Arg);
 extern void KerParMatMulScaleScalarSxSy_fps(KerMatMul_fps_T *Arg);
 
 extern void KerParMatMulScaleScalar_fp_fps(KerMatMul_fp_fps_T *Arg);
-extern void KerParMatMulScaleScalar_ReLUN_Vector_fp_fps(KerMatMul_fp_fps_T *Arg);
 
 extern void KerParMatMulScaleScalarSxSy_fp_fps(KerMatMul_fp_fps_T *Arg);
-extern void KerParMatMulScaleScalarSxSy_ReLUN_Vector_fp_fps(KerMatMul_fp_fps_T *Arg);
 
 extern void KerParMatMulScale_fps(KerMatMul_fps_T *Arg);
-extern void KerParMatMulScale_ReLUN_Vector_fps(KerMatMul_fps_T *Arg);
 
 extern void KerParMatMulScaleSxSy_fps(KerMatMul_fps_T *Arg);
-extern void KerParMatMulScaleSxSy_ReLUN_Vector_fps(KerMatMul_fps_T *Arg);
 
 extern void KerParMatMulScale_fp_fps(KerMatMul_fp_fps_T *Arg);
-extern void KerParMatMulScale_ReLUN_Vector_fp_fps(KerMatMul_fp_fps_T *Arg);
 
 extern void KerParMatMulScaleSxSy_fp_fps(KerMatMul_fp_fps_T *Arg);
-extern void KerParMatMulScaleSxSy_ReLUN_Vector_fp_fps(KerMatMul_fp_fps_T *Arg);
 
 extern void KerParMatMulHswish_fp(KerMatMul_fp_T *Arg);
 extern void KerParMatMulHswishSxSy_fp(KerMatMul_fp_T *Arg);
@@ -1575,48 +1542,36 @@ extern void KerParMatMulLeakyrelu_fps(KerMatMul_fps_T *Arg);
 extern void KerParMatMulLeakyreluSxSy_fps(KerMatMul_fps_T *Arg);
 
 extern void KerParMatMulSmallFeat_fp(KerMatMul_fp_T *Arg);
-extern void KerParMatMulSmallFeat_ReLUN_Vector_fp(KerMatMul_fp_T *Arg);
 
 extern void KerParMatMulHswishSmallFeat_fp(KerMatMul_fp_T *Arg);
 extern void KerParMatMulHsigmoidSmallFeat_fp(KerMatMul_fp_T *Arg);
 extern void KerParMatMulLeakyreluSmallFeat_fp(KerMatMul_fp_T *Arg);
 
 extern void KerParMatMulScaleScalarSmallFeat_fp(KerMatMul_fp_T *Arg);
-extern void KerParMatMulScaleScalarSmallFeat_ReLUN_Vector_fp(KerMatMul_fp_T *Arg);
 
 extern void KerParMatMulScaleSmallFeat_fp(KerMatMul_fp_T *Arg);
-extern void KerParMatMulScaleSmallFeat_ReLUN_Vector_fp(KerMatMul_fp_T *Arg);
 
 extern void KerParMatMulSmallFeat_fps(KerMatMul_fps_T *Arg);
-extern void KerParMatMulSmallFeat_ReLUN_Vector_fps(KerMatMul_fps_T *Arg);
 
 extern void KerParMatMulHswishSmallFeat_fps(KerMatMul_fps_T *Arg);
 extern void KerParMatMulHsigmoidSmallFeat_fps(KerMatMul_fps_T *Arg);
 extern void KerParMatMulLeakyreluSmallFeat_fps(KerMatMul_fps_T *Arg);
 
 extern void KerParMatMulScaleScalarSmallFeat_fps(KerMatMul_fps_T *Arg);
-extern void KerParMatMulScaleScalarSmallFeat_ReLUN_Vector_fps(KerMatMul_fps_T *Arg);
 
 extern void KerParMatMulScaleSmallFeat_fps(KerMatMul_fps_T *Arg);
-extern void KerParMatMulScaleSmallFeat_ReLUN_Vector_fps(KerMatMul_fps_T *Arg);
 
 extern void KerParMatScaleVector_fp(KerMatScale_fp_T *Arg);
-extern void KerParMatScaleVector_ReLUN_Vector_fp(KerMatScale_fp_T *Arg);
 
 extern void KerParMatScaleVector_fps(KerMatScale_fps_T *Arg);
-extern void KerParMatScaleVector_ReLUN_Vector_fps(KerMatScale_fps_T *Arg);
 
 extern void KerParMatScaleScalar_fp(KerMatScale_fp_T *Arg);
-extern void KerParMatScaleScalar_ReLUN_Vector_fp(KerMatScale_fp_T *Arg);
 
 extern void KerParMatScaleScalar_fps(KerMatScale_fps_T *Arg);
-extern void KerParMatScaleScalar_ReLUN_Vector_fps(KerMatScale_fps_T *Arg);
 
 extern void KerParMatScaleVectorScalar_fp(KerMatScale_fp_T *Arg);
-extern void KerParMatScaleVectorScalar_ReLUN_Vector_fp(KerMatScale_fp_T *Arg);
 
 extern void KerParMatScaleVectorScalar_fps(KerMatScale_fps_T *Arg);
-extern void KerParMatScaleVectorScalar_ReLUN_Vector_fps(KerMatScale_fps_T *Arg);
 
 extern void CNN_ParTranspose_fps(KerMatTranspose_fps_T *Arg);
 extern void CNN_ParTransposeSxSy_fps(KerMatTranspose_fps_T *Arg);
diff --git a/tools/autotiler_v3/generators/CNN/CNN_BasicKernels_SQ8.h b/tools/autotiler_v3/generators/CNN/CNN_BasicKernels_SQ8.h
new file mode 100644
index 000000000..d82244007
--- /dev/null
+++ b/tools/autotiler_v3/generators/CNN/CNN_BasicKernels_SQ8.h
@@ -0,0 +1,745 @@
+#ifndef __CNN_BASICKERNELS_SQ8__
+#define __CNN_BASICKERNELS_SQ8__
+#include "Gap.h"
+
+#ifdef __pulp__
+#ifndef Min
+#define Min(a, b)       __builtin_pulp_minsi((a), (b))
+#endif
+#ifndef Max
+#define Max(a, b)       __builtin_pulp_maxsi((a), (b))
+#endif
+#else
+#define Min(a, b)       (((a)<(b))?(a):(b))
+#define Max(a, b)       (((a)>(b))?(a):(b))
+#endif
+
+
+#define NORM_ROUND
+#ifdef NORM_ROUND
+#define AT_NORM(x, n)   gap_roundnorm_reg((x), (n))
+#else
+#define AT_NORM(x, n)   gap_norm_reg((x), (n))
+#endif
+
+#define AT_SCALE(X, Scale, ScaleN)      AT_NORM((X)*(Scale), (ScaleN))
+
+#define AT_LSHIFT(x, n) ((x)<<(n))
+#define AT_RSHIFT(x, n) ((x)>>(n))
+
+#ifdef GENASM
+#ifdef __EMUL__
+#define gap_ncore()     8
+#define gap_coreid()    __builtin_pulp_CoreId()
+#endif
+#endif
+
+#define AT_INF_BIASL_SM         0
+#define AT_INF_ACTSCALE		0
+#define AT_INF_ACTSCALEN	1
+#define AT_INF_A0		2
+#define AT_INF_B0		3
+#define AT_INF_C0		4
+
+#define AT_INF_BIASN		5
+#define AT_INF_IN1SCALE		5
+#define AT_INF_SCALE		5
+
+#define AT_INF_SCALEN		6
+#define AT_INF_IN1SCALEN	6
+
+#define AT_INF_OUTSCALE		7
+#define AT_INF_OUTSCALEN	8
+
+#define AT_INF_DIM		9
+
+typedef enum {
+        ACT_NONE = 0,
+        ACT_RELU,
+        ACT_RELUN,
+        ACT_HSIGMOID,
+        ACT_HSWISH,
+        ACT_LEAKYRELU,
+} CNN_ActivationOper_T;
+
+/******************************************************************************************************************
+	Bias setting for convolution and linear layers
+******************************************************************************************************************/
+typedef struct {
+	int *__restrict__ Out;
+	unsigned short int W;
+	unsigned short int H;
+	unsigned short int Feat;
+	void *__restrict__ Bias;
+	unsigned char NormBias;
+} KerSetBias_SQ8_T;
+
+/******************************************************************************************************************
+	Linear, Bias 32b, 16b or 8b
+	1) 32b output with Bias assumed to be set in Out before, need channel scaling and reduction after
+	2) Output can be fully evaluated (FullFeat) then Bias setting scaling and activation (ReLU, ReLUN) is
+	performed in a single shot
+******************************************************************************************************************/
+typedef struct {
+	signed char * __restrict__ In;
+	signed char * __restrict__ Weights;
+	void *__restrict__ Bias;
+	int * __restrict__ Out;
+	unsigned short int InDim;
+	unsigned short int TotalInDim;
+	unsigned short int OutDim;
+	unsigned char *__restrict__ Scale;
+	unsigned char *__restrict__ ScaleN;
+	signed char *__restrict__ Infos;
+} KerLinear_SQ8_T;
+
+/******************************************************************************************************************
+	Point Wise and Depth Convolution, 32b output
+	Bias assumed to be set in Out before for Point Wise conv, directly managed for depth wise conv
+	Need scaling and reduction after
+******************************************************************************************************************/
+
+typedef struct {
+	signed char * __restrict__ In;		/**< Pointer to input tile  */
+	unsigned short int W;			/**< Width of the input tile */
+	unsigned short int UsedW;		/**< Part of the input width to be used */
+	unsigned short int H;			/**< Height of the input tile */
+	unsigned short int UsedH;		/**< Part of the input height to be used */
+	unsigned short int InFeatures;		/**< Number of input features, used for channel parallel kernels */
+	unsigned short int OutFeatures;		/**< Number of output features, used for channel parallel kernels */
+	unsigned short int TotalInFeatures;	/**< Total Input feature space in current tile */
+	signed char * __restrict__ Filter;      /**< Pointer to convolution coefficients. (Nx x Ny) coeffs in Q15 */
+	signed char * __restrict__ Bias;	/**< Pointer to bias tile, used when convolution is depth wise */
+	int * __restrict__ Out;			/**< Pointer to output tile, this tile can have up to N-1 lines and N-1 column than In depending on Pad */
+	v4s Pad;				/**< Paddding, 0: Left, 1: Right, 2: Top, 3: Bottom */
+	unsigned char NormBias;			/**< Bias init correction factor */
+	unsigned char Orientation;		/**< Tile orientation: 1 => Horizontal, 0 => Vertical, used only for feature parallel kernels */
+	unsigned char N;			/**< Dimension of the convolution: Nx, NxN, used only for general versions */
+	unsigned char S;			/**< Output stride, S, used only for general versions */
+	unsigned char D;			/**< Dilation Dx */
+	unsigned char Ny;			/**< Filter Ny, used only if Nx!=Ny */
+	unsigned char Sy;			/**< Stride Sy, used only if Sx!=Sy */
+	unsigned char Dy;			/**< Dilation Dy, used only if Dx!=Dy */
+} KerConv_SQ8_T;
+
+/******************************************************************************************************************
+	Reduction scaling and activation after double precision convolution or linear layer
+******************************************************************************************************************/
+typedef struct {
+	int *__restrict__ In;
+	void *__restrict__ Out;
+	unsigned short int Feat;
+	unsigned short int W;
+	unsigned short int H;
+	unsigned char * __restrict__ Scale;
+	unsigned char * __restrict__ ScaleN;
+	signed char * __restrict__ Infos;
+} KerConvLinReduct_SQ8_T;
+
+/******************************************************************************************************************
+	Standalone scaling and activation
+******************************************************************************************************************/
+typedef struct {
+	signed char *__restrict__ In;
+	signed char *__restrict__ Out;
+	unsigned short int Feat;
+	unsigned short int W;
+	unsigned short int H;
+	signed char * __restrict__ Infos;
+} KerActivation_SQ8_T;
+
+
+/******************************************************************************************************************
+	Pooling followed by optional scaling and activation
+******************************************************************************************************************/
+typedef struct {
+	signed char * __restrict__ In;
+	signed char * __restrict__ Out;
+	unsigned short int Feat;
+	unsigned short int W;
+	unsigned short int UsedW;
+	unsigned short int H;
+	unsigned short int UsedH;
+	unsigned char PoolMax;
+	unsigned char FS;		/* Filter Size, x */
+	unsigned char FSy;		/* Filter Size, y */
+	unsigned char S;		/* Filter Stride, x */
+	unsigned char Sy;		/* Filter Stride, y */
+	unsigned char D;
+	unsigned char Dy;
+	unsigned char Orientation;
+	unsigned char DoScale;
+	v4s Pad;
+	signed char * __restrict__ Infos;
+} KerPool_SQ8_T;
+
+/******************************************************************************************************************
+	Global average Pooling followed by optional scaling and activation
+******************************************************************************************************************/
+typedef struct {
+        void * __restrict__ In;		/**< Pointer to input tile  */
+        unsigned short int W;		/**< Width of the input tile */
+        unsigned short int H;		/**< Height of the input tile */
+        unsigned short int Feat; 	/**< Number of features, used only for channel parallel kernels */
+        unsigned char FirstTile;	/**< 1 if this tile is the first one of its group */
+	unsigned char DoScale;		/**< Apply Scaling */
+        void * __restrict__ Out;	/**< Pointer to output tile */
+	signed char * __restrict__ Infos;
+} KerGlobalPool_SQ8_T;
+
+
+/******************************************************************************************************************
+	Tensor multiplication used for 1x1 convolution. Channel centric scaling.
+******************************************************************************************************************/
+
+typedef struct {
+	signed char * __restrict__ In1;         /**< First input matrix tile, convolution weights */
+	unsigned short int W_In1;               /**< First input matrix tile width */
+	unsigned short int H_In1;               /**< First input matrix tile height */
+	signed char * __restrict__ In2;         /**< Second input matrix tile, convolution features */
+	unsigned short int W_In2;               /**< Second input matrix tile width, height is by construction H_In1 */
+	void * __restrict__ Bias;        	/**< Bias input tile, convolution bias */
+	unsigned char * __restrict__ Scale;   	/**< Scale Factor to be applied after convolution */
+	unsigned char * __restrict__ ScaleN;   	/**< Normalization Factor to be applied after scaling */
+	signed char * __restrict__ Out;         /**< Output matrix tile, W=W_In2, H=H_In1 by construction */
+	unsigned short int W_Out;               /**< Output matrix full width */
+	unsigned short int OutFirstCol;         /**< Equal M2FirstCol */
+	signed char * __restrict__ BufferColIn2;/**< In case vectorization is used will be used to copy a column of In2 into a line */
+	unsigned char NormBias;                 /**< Normalization factor to be applied to Bias */
+	unsigned char ColFirst;                 /**< 1 if product is formed with a vertical tile from In1 and a horizontal from In2, 0 if Hor tile In1 Ver tile In2 */
+	unsigned char Sx;                       /**< When used for 1x1 convolution In2 is a feature maps [H_In2=W_In1=InFeat, W_In2=W*H], Sx applies to W and Sy to H */
+	unsigned char Sy;                       /**< When used for 1x1 convolution In2 is a feature maps [H_In2=W_In1=InFeat, W_In2=W*H], Sy applies to W and Sy to H */
+	unsigned short int W;                   /**< When used for 1x1 convolution In2 is a feature maps [H_In2=W_In1=InFeat, W_In2=W*H], W */
+	unsigned short int H;                   /**< When used for 1x1 convolution In2 is a feature maps [H_In2=W_In1=InFeat, W_In2=W*H], H */
+	signed char * __restrict__ Infos;	/**< Scaling and constants data */
+} KerMatMul_SQ8_T;
+
+/******************************************************************************************************************
+	Tensor addition with optional In1 and Output scaling
+******************************************************************************************************************/
+
+typedef struct {
+	signed char * __restrict__ In1;		/**< First input tensor */
+	signed char * __restrict__ In2;		/**< Second input tensor */
+	signed char * __restrict__ Out;		/**< Onput tensor */
+	unsigned short int Feat;		/**< Number of features */
+	unsigned short int W;			/**< Feature width */
+	unsigned short int H;			/**< Feature height */
+	unsigned char DoScale;			/**< Apply Scaling */
+	signed char * __restrict__ Infos;	/**< Scaling and constants data */
+} KerMat3_SQ8_T;
+
+/******************************************************************************************************************
+	Matrix transposition and 3D Tensor dim permutation
+******************************************************************************************************************/
+
+typedef struct {
+	signed char *__restrict__ In;           /**< Input matrix */
+	signed char *__restrict__ Out;          /**< Output matrix */
+	unsigned int Feat;                      /**< Number of matrices */
+	unsigned int W;                         /**< Matrix width */
+	unsigned int H;                         /**< Matrix height */
+	unsigned char Sx;                       /**< Stride for W dimension */
+	unsigned char Sy;                       /**< Stride for H dimension */
+} KerMatTranspose_fps_T;
+
+
+/******************************************************************************************************************
+	SoftMax, Q15 output
+******************************************************************************************************************/
+
+typedef struct {
+	signed char *__restrict__ In;           /**< Pointer to input tile */
+	unsigned short int N;                   /**< Size of the tile */
+	unsigned short int Norm;                /**< Normalization factor */
+	short int *__restrict__ Out;            /**< Pointer to output tile */
+	signed char * __restrict__ Infos;	/**< Scaling and constants data */
+} KerSoftMax_SQ8_T;
+
+/******************************************************************************************************************
+	Bias setting for convolution and linear layers, output is 32b, input is 8,16 or 32b
+******************************************************************************************************************/
+
+/* Features in parallel */
+void KerParSetBiasB32_SQ8(KerSetBias_SQ8_T *Arg);
+void KerParSetBiasB16_SQ8(KerSetBias_SQ8_T *Arg);
+void KerParSetBiasB8_SQ8(KerSetBias_SQ8_T *Arg);
+
+/* Each feature in parallel */
+void KerSetBiasB32_SQ8(KerSetBias_SQ8_T *Arg);
+void KerSetBiasB16_SQ8(KerSetBias_SQ8_T *Arg);
+void KerSetBiasB8_SQ8(KerSetBias_SQ8_T *Arg);
+
+
+/******************************************************************************************************************
+	Convolution, Bias is assigned separately. Output is 32 bits. Parallel Features and Features Parallel
+******************************************************************************************************************/
+
+void KerParConv1x1Stride1_SQ8(KerConv_SQ8_T *Arg);
+void KerParConv1x1Stride2_SQ8(KerConv_SQ8_T *Arg);
+void KerParConv1x1StrideS_SQ8(KerConv_SQ8_T *Arg);
+void KerParConv3x1Stride1x1_SQ8(KerConv_SQ8_T *Arg);
+void KerParConv3x1Stride2x1_SQ8(KerConv_SQ8_T *Arg);
+void KerParConv1x3Stride1x1_SQ8(KerConv_SQ8_T *Arg);
+void KerParConv1x3Stride1x2_SQ8(KerConv_SQ8_T *Arg);
+void KerParConv3x3Stride1_SQ8(KerConv_SQ8_T *Arg);
+void KerParConv3x3Stride2_SQ8(KerConv_SQ8_T *Arg);
+void KerParConv3x3StrideS_SQ8(KerConv_SQ8_T *Arg);
+void KerParConv5x1Stride1x1_SQ8(KerConv_SQ8_T *Arg);
+void KerParConv5x1Stride2x1_SQ8(KerConv_SQ8_T *Arg);
+void KerParConv1x5Stride1x1_SQ8(KerConv_SQ8_T *Arg);
+void KerParConv1x5Stride1x2_SQ8(KerConv_SQ8_T *Arg);
+void KerParConv5x5Stride1_SQ8(KerConv_SQ8_T *Arg);
+void KerParConv5x5Stride2_SQ8(KerConv_SQ8_T *Arg);
+void KerParConv5x5StrideS_SQ8(KerConv_SQ8_T *Arg);
+void KerParConv7x7StrideS_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvNxNStrideS_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvNxMStrideSxSy_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvNxMDxDyStrideSxSy_SQ8(KerConv_SQ8_T *Arg);
+
+
+void KerConv1x1Stride1_SQ8(KerConv_SQ8_T *Arg);
+void KerConv1x1Stride2_SQ8(KerConv_SQ8_T *Arg);
+void KerConv1x1StrideS_SQ8(KerConv_SQ8_T *Arg);
+void KerConv3x1Stride1x1_SQ8(KerConv_SQ8_T *Arg);
+void KerConv3x1Stride2x1_SQ8(KerConv_SQ8_T *Arg);
+void KerConv1x3Stride1x1_SQ8(KerConv_SQ8_T *Arg);
+void KerConv1x3Stride1x2_SQ8(KerConv_SQ8_T *Arg);
+void KerConv3x3Stride1_SQ8(KerConv_SQ8_T *Arg);
+void KerConv3x3Stride2_SQ8(KerConv_SQ8_T *Arg);
+void KerConv3x3StrideS_SQ8(KerConv_SQ8_T *Arg);
+void KerConv5x1Stride1x1_SQ8(KerConv_SQ8_T *Arg);
+void KerConv5x1Stride2x1_SQ8(KerConv_SQ8_T *Arg);
+void KerConv1x5Stride1x1_SQ8(KerConv_SQ8_T *Arg);
+void KerConv1x5Stride1x2_SQ8(KerConv_SQ8_T *Arg);
+void KerConv5x5Stride1_SQ8(KerConv_SQ8_T *Arg);
+void KerConv5x5Stride2_SQ8(KerConv_SQ8_T *Arg);
+void KerConv5x5StrideS_SQ8(KerConv_SQ8_T *Arg);
+void KerConv7x7StrideS_SQ8(KerConv_SQ8_T *Arg);
+void KerConvNxNStrideS_SQ8(KerConv_SQ8_T *Arg);
+void KerConvNxMStrideSxSy_SQ8(KerConv_SQ8_T *Arg);
+void KerConvNxMDxDyStrideSxSy_SQ8(KerConv_SQ8_T *Arg);
+
+
+/******************************************************************************************************************
+	Depth Wise convolution, 8b, 16b and 32b Bias. Output is 32 bits. Parallel Features and Features Parallel
+******************************************************************************************************************/
+
+/* 8 Bits Bias, Features in parallel */
+void KerParConvDW1x1Stride1B8_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW1x1Stride2B8_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW1x1StrideSB8_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW3x1Stride1x1B8_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW3x1Stride2x1B8_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW1x3Stride1x1B8_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW1x3Stride1x2B8_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW3x3Stride1B8_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW3x3Stride2B8_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW3x3StrideSB8_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW5x1Stride1x1B8_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW5x1Stride2x1B8_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW1x5Stride1x1B8_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW1x5Stride1x2B8_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW5x5Stride1B8_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW5x5Stride2B8_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW5x5StrideSB8_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW7x7StrideSB8_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDWNxNStrideSB8_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDWNxMStrideSxSyB8_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDWNxMDxDyStrideSxSyB8_SQ8(KerConv_SQ8_T *Arg);
+
+/* 16 Bits Bias, Features in parallel */
+void KerParConvDW1x1Stride1B16_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW1x1Stride2B16_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW1x1StrideSB16_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW3x1Stride1x1B16_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW3x1Stride2x1B16_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW1x3Stride1x1B16_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW1x3Stride1x2B16_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW3x3Stride1B16_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW3x3Stride2B16_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW3x3StrideSB16_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW5x1Stride1x1B16_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW5x1Stride2x1B16_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW1x5Stride1x1B16_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW1x5Stride1x2B16_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW5x5Stride1B16_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW5x5Stride2B16_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW5x5StrideSB16_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW7x7StrideSB16_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDWNxNStrideSB16_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDWNxMStrideSxSyB16_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDWNxMDxDyStrideSxSyB16_SQ8(KerConv_SQ8_T *Arg);
+
+/* 32 Bits Bias, Features in parallel */
+void KerParConvDW1x1Stride1B32_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW1x1Stride2B32_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW1x1StrideSB32_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW3x1Stride1x1B32_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW3x1Stride2x1B32_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW1x3Stride1x1B32_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW1x3Stride1x2B32_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW3x3Stride1B32_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW3x3Stride2B32_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW3x3StrideSB32_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW5x1Stride1x1B32_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW5x1Stride2x1B32_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW1x5Stride1x1B32_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW1x5Stride1x2B32_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW5x5Stride1B32_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW5x5Stride2B32_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW5x5StrideSB32_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDW7x7StrideSB32_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDWNxNStrideSB32_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDWNxMStrideSxSyB32_SQ8(KerConv_SQ8_T *Arg);
+void KerParConvDWNxMDxDyStrideSxSyB32_SQ8(KerConv_SQ8_T *Arg);
+
+/* 8 Bits Bias, One Feature in parallel */
+void KerConvDW1x1Stride1B8_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW1x1Stride2B8_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW1x1StrideSB8_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW3x1Stride1x1B8_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW3x1Stride2x1B8_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW1x3Stride1x1B8_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW1x3Stride1x2B8_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW3x3Stride1B8_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW3x3Stride2B8_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW3x3StrideSB8_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW5x1Stride1x1B8_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW5x1Stride2x1B8_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW1x5Stride1x1B8_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW1x5Stride1x2B8_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW5x5Stride1B8_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW5x5Stride2B8_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW5x5StrideSB8_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW7x7StrideSB8_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDWNxNStrideSB8_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDWNxMStrideSxSyB8_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDWNxMDxDyStrideSxSyB8_SQ8(KerConv_SQ8_T *Arg);
+
+/* 16 Bits Bias, One Feature in parallel */
+void KerConvDW1x1Stride1B16_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW1x1Stride2B16_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW1x1StrideSB16_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW3x1Stride1x1B16_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW3x1Stride2x1B16_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW1x3Stride1x1B16_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW1x3Stride1x2B16_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW3x3Stride1B16_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW3x3Stride2B16_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW3x3StrideSB16_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW5x1Stride1x1B16_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW5x1Stride2x1B16_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW1x5Stride1x1B16_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW1x5Stride1x2B16_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW5x5Stride1B16_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW5x5Stride2B16_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW5x5StrideSB16_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW7x7StrideSB16_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDWNxNStrideSB16_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDWNxMStrideSxSyB16_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDWNxMDxDyStrideSxSyB16_SQ8(KerConv_SQ8_T *Arg);
+
+/* 32 Bits Bias, One Feature in parallel */
+void KerConvDW1x1Stride1B32_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW1x1Stride2B32_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW1x1StrideSB32_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW3x1Stride1x1B32_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW3x1Stride2x1B32_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW1x3Stride1x1B32_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW1x3Stride1x2B32_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW3x3Stride1B32_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW3x3Stride2B32_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW3x3StrideSB32_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW5x1Stride1x1B32_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW5x1Stride2x1B32_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW1x5Stride1x1B32_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW1x5Stride1x2B32_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW5x5Stride1B32_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW5x5Stride2B32_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW5x5StrideSB32_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDW7x7StrideSB32_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDWNxNStrideSB32_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDWNxMStrideSxSyB32_SQ8(KerConv_SQ8_T *Arg);
+void KerConvDWNxMDxDyStrideSxSyB32_SQ8(KerConv_SQ8_T *Arg);
+
+/******************************************************************************************************************
+          Input Scaling followed by an optional activation. Parallel Feature, Feature Parallel
+	  Input is assumed to be the 32b unnormalized output of a convolution or a linear layer
+	  Optional activation is applied to the scaled input and can be optionaly scaled also
+	  Output is a scaled 8b quantized tensor
+	  Channel Centric (CC)
+******************************************************************************************************************/
+
+/*
+ * Input Scaling and reduction to 8b then channel centric activation, Out location != In location. Features are evaluated in parallel
+*/
+void KerParReduct_CC_SQ8(KerConvLinReduct_SQ8_T *Arg);
+void KerParReduct_CC_ReLU_SQ8(KerConvLinReduct_SQ8_T *Arg);
+void KerParReduct_CC_ReLUN_SQ8(KerConvLinReduct_SQ8_T *Arg);
+void KerParReduct_CC_HSigmoid_SQ8(KerConvLinReduct_SQ8_T *Arg);
+void KerParReduct_CC_HSwish_SQ8(KerConvLinReduct_SQ8_T *Arg);
+void KerParReduct_CC_LeakyReLU_SQ8(KerConvLinReduct_SQ8_T *Arg);
+
+/*
+ * Input Scaling and reduction to 8b then channel centric activation, Out location = In location. Features are evaluated in parallel
+*/
+void KerParReductIO_CC_SQ8(KerConvLinReduct_SQ8_T *Arg);
+void KerParReductIO_CC_ReLU_SQ8(KerConvLinReduct_SQ8_T *Arg);
+void KerParReductIO_CC_ReLUN_SQ8(KerConvLinReduct_SQ8_T *Arg);
+void KerParReductIO_CC_HSigmoid_SQ8(KerConvLinReduct_SQ8_T *Arg);
+void KerParReductIO_CC_HSwish_SQ8(KerConvLinReduct_SQ8_T *Arg);
+void KerParReductIO_CC_LeakyReLU_SQ8(KerConvLinReduct_SQ8_T *Arg);
+
+/*
+ * Input Scaling and reduction to 8b then channel centric activation, Out location != In location. Features are evaluated one after the other in parallel
+*/
+void KerReduct_CC_SQ8(KerConvLinReduct_SQ8_T *Arg);
+void KerReduct_CC_ReLU_SQ8(KerConvLinReduct_SQ8_T *Arg);
+void KerReduct_CC_ReLUN_SQ8(KerConvLinReduct_SQ8_T *Arg);
+void KerReduct_CC_HSigmoid_SQ8(KerConvLinReduct_SQ8_T *Arg);
+void KerReduct_CC_HSwish_SQ8(KerConvLinReduct_SQ8_T *Arg);
+void KerReduct_CC_LeakyReLU_SQ8(KerConvLinReduct_SQ8_T *Arg);
+
+/*
+ * Input Scaling and reduction to 8b then channel centric activation, Out location = In location. Features are evaluated one after the other in parallel
+*/
+void KerReductIO_CC_SQ8(KerConvLinReduct_SQ8_T *Arg);
+void KerReductIO_CC_ReLU_SQ8(KerConvLinReduct_SQ8_T *Arg);
+void KerReductIO_CC_ReLUN_SQ8(KerConvLinReduct_SQ8_T *Arg);
+void KerReductIO_CC_HSigmoid_SQ8(KerConvLinReduct_SQ8_T *Arg);
+void KerReductIO_CC_HSwish_SQ8(KerConvLinReduct_SQ8_T *Arg);
+void KerReductIO_CC_LeakyReLU_SQ8(KerConvLinReduct_SQ8_T *Arg);
+
+/******************************************************************************************************************
+          Stand alone activation. Parallel Feature, Feature Parallel
+	  Input is a scaled 8b tensor
+	  Output is a scaled 8b tensor, Scale can be different from the one of input
+******************************************************************************************************************/
+
+/*
+ * Standalone Scaled Activation, Features are evaluated in parallel
+*/
+void KerPar_ReLU_SQ8(KerActivation_SQ8_T *Arg);
+void KerPar_ReLUN_SQ8(KerActivation_SQ8_T *Arg);
+void KerPar_HSigmoid_SQ8(KerActivation_SQ8_T *Arg);
+void KerPar_HSwish_SQ8(KerActivation_SQ8_T *Arg);
+void KerPar_LeakyReLU_SQ8(KerActivation_SQ8_T *Arg);
+
+/*
+ * Standalone Scaled Activation, Features are evaluated one after the other in parallel
+*/
+void Ker_ReLU_SQ8(KerActivation_SQ8_T *Arg);
+void Ker_ReLUN_SQ8(KerActivation_SQ8_T *Arg);
+void Ker_HSigmoid_SQ8(KerActivation_SQ8_T *Arg);
+void Ker_HSwish_SQ8(KerActivation_SQ8_T *Arg);
+void Ker_LeakyReLU_SQ8(KerActivation_SQ8_T *Arg);
+
+
+/******************************************************************************************************************
+	Pooling group.
+	Performs Max, Average or Global average pooling followed by an optional Scaling or Scaling and Activation.
+	Several output feature maps are evaluated in parallel, one feature map per core
+******************************************************************************************************************/
+
+void KerParPool2x2Stride2_SQ8(KerPool_SQ8_T *Arg);
+void KerParPool2x2Stride2_ReLU_SQ8(KerPool_SQ8_T *Arg);
+void KerParPool2x2Stride2_ReLUN_SQ8(KerPool_SQ8_T *Arg);
+
+void KerParPoolNxNStrideS_SQ8(KerPool_SQ8_T *Arg);
+void KerParPoolNxNStrideS_ReLU_SQ8(KerPool_SQ8_T *Arg);
+void KerParPoolNxNStrideS_ReLUN_SQ8(KerPool_SQ8_T *Arg);
+
+void KerParPoolNxMStrideSxSy_SQ8(KerPool_SQ8_T *Arg);
+void KerParPoolNxMStrideSxSy_ReLU_SQ8(KerPool_SQ8_T *Arg);
+void KerParPoolNxMStrideSxSy_ReLUN_SQ8(KerPool_SQ8_T *Arg);
+
+void KerParGlobalMaxPool_SQ8(KerGlobalPool_SQ8_T *Arg);
+void KerParGlobalMaxPool_Reduct_SQ8(KerGlobalPool_SQ8_T *Arg);
+void KerParGlobalMaxPool_Reduct_ReLU_SQ8(KerGlobalPool_SQ8_T *Arg);
+void KerParGlobalMaxPool_Reduct_ReLUN_SQ8(KerGlobalPool_SQ8_T *Arg);
+
+void KerParGlobalAvgPool_SQ8(KerGlobalPool_SQ8_T *Arg);
+void KerParGlobalAvgPool_Reduct_SQ8(KerGlobalPool_SQ8_T *Arg);
+void KerParGlobalAvgPool_Reduct_ReLU_SQ8(KerGlobalPool_SQ8_T *Arg);
+void KerParGlobalAvgPool_Reduct_ReLUN_SQ8(KerGlobalPool_SQ8_T *Arg);
+
+void KerParGlobalMaxPoolFullFeat_SQ8(KerGlobalPool_SQ8_T *Arg);
+void KerParGlobalMaxPoolFullFeat_ReLU_SQ8(KerGlobalPool_SQ8_T *Arg);
+void KerParGlobalMaxPoolFullFeat_ReLUN_SQ8(KerGlobalPool_SQ8_T *Arg);
+
+void KerParGlobalAvgPoolFullFeat_SQ8(KerGlobalPool_SQ8_T *Arg);
+void KerParGlobalAvgPoolFullFeat_ReLU_SQ8(KerGlobalPool_SQ8_T *Arg);
+void KerParGlobalAvgPoolFullFeat_ReLUN_SQ8(KerGlobalPool_SQ8_T *Arg);
+
+
+/*************************************************************************************************************************************************
+	Pooling group.
+	Performs Max or Average pooling followed by an optional Scaling or Scaling and Activation.
+	One output feature map is evaluated in parallel on all cores
+*************************************************************************************************************************************************/
+
+void KerPool2x2Stride2_SQ8(KerPool_SQ8_T *Arg);
+void KerPool2x2Stride2_ReLU_SQ8(KerPool_SQ8_T *Arg);
+void KerPool2x2Stride2_ReLUN_SQ8(KerPool_SQ8_T *Arg);
+
+void KerPoolNxNStrideS_SQ8(KerPool_SQ8_T *Arg);
+void KerPoolNxNStrideS_ReLU_SQ8(KerPool_SQ8_T *Arg);
+void KerPoolNxNStrideS_ReLUN_SQ8(KerPool_SQ8_T *Arg);
+
+void KerPoolNxMStrideSxSy_SQ8(KerPool_SQ8_T *Arg);
+void KerPoolNxMStrideSxSy_ReLU_SQ8(KerPool_SQ8_T *Arg);
+void KerPoolNxMStrideSxSy_ReLUN_SQ8(KerPool_SQ8_T *Arg);
+
+
+/*************************************************************************************************************************************************
+	Tensor Addition with Input1 and Output optionally scaled (Tensor centric) followed by optional activation
+*************************************************************************************************************************************************/
+
+void KerParMatAdd_SQ8(KerMat3_SQ8_T *Arg);
+void KerParMatAdd_ReLU_SQ8(KerMat3_SQ8_T *Arg);
+void KerParMatAdd_ReLUN_SQ8(KerMat3_SQ8_T *Arg);
+void KerParMatAdd_HSigmoid_SQ8(KerMat3_SQ8_T *Arg);
+void KerParMatAdd_HSwish_SQ8(KerMat3_SQ8_T *Arg);
+void KerParMatAdd_LeakyReLU_SQ8(KerMat3_SQ8_T *Arg);
+
+/*************************************************************************************************************************************************
+	Matrix mult with channel centric scaling, followed by optional activation: ReLU and ReLUN, other activations should be performed
+	using standalone activation kernels
+   	In1 convolution weights
+	In2 convolution Features
+*************************************************************************************************************************************************/
+
+void KerParMatMulB8_SQ8(KerMatMul_SQ8_T *Arg);
+void KerParMatMulB8_ReLU_SQ8(KerMatMul_SQ8_T *Arg);
+void KerParMatMulB8_ReLUN_SQ8(KerMatMul_SQ8_T *Arg);
+void KerParMatMulSxSyB8_SQ8(KerMatMul_SQ8_T *Arg);
+void KerParMatMulSxSyB8_ReLU_SQ8(KerMatMul_SQ8_T *Arg);
+void KerParMatMulSxSyB8_ReLUN_SQ8(KerMatMul_SQ8_T *Arg);
+
+void KerParMatMulB16_SQ8(KerMatMul_SQ8_T *Arg);
+void KerParMatMulB16_ReLU_SQ8(KerMatMul_SQ8_T *Arg);
+void KerParMatMulB16_ReLUN_SQ8(KerMatMul_SQ8_T *Arg);
+void KerParMatMulSxSyB16_SQ8(KerMatMul_SQ8_T *Arg);
+void KerParMatMulSxSyB16_ReLU_SQ8(KerMatMul_SQ8_T *Arg);
+void KerParMatMulSxSyB16_ReLUN_SQ8(KerMatMul_SQ8_T *Arg);
+
+void KerParMatMulB32_SQ8(KerMatMul_SQ8_T *Arg);
+void KerParMatMulB32_ReLU_SQ8(KerMatMul_SQ8_T *Arg);
+void KerParMatMulB32_ReLUN_SQ8(KerMatMul_SQ8_T *Arg);
+void KerParMatMulSxSyB32_SQ8(KerMatMul_SQ8_T *Arg);
+void KerParMatMulSxSyB32_ReLU_SQ8(KerMatMul_SQ8_T *Arg);
+void KerParMatMulSxSyB32_ReLUN_SQ8(KerMatMul_SQ8_T *Arg);
+
+/*************************************************************************************************************************************************
+	Matrix mult with channel centric scaling for small first matrix in the product, goal is to improve parallelism in this specific situation
+	followed by an optional activation: ReLU and ReLUN, other activations should be performed using standalone activation kernels
+
+   	In1 fits completly in shared L1, convolution weights
+	In2 has been transposed before being used, convolution Features
+	Parallelization scheme partition In2 along H_In2
+*************************************************************************************************************************************************/
+
+void KerParMatMulB8_SF_SQ8(KerMatMul_SQ8_T *Arg);
+void KerParMatMulB8_ReLU_SF_SQ8(KerMatMul_SQ8_T *Arg);
+void KerParMatMulB8_ReLUN_SF_SQ8(KerMatMul_SQ8_T *Arg);
+
+void KerParMatMulB16_SF_SQ8(KerMatMul_SQ8_T *Arg);
+void KerParMatMulB16_ReLU_SF_SQ8(KerMatMul_SQ8_T *Arg);
+void KerParMatMulB16_ReLUN_SF_SQ8(KerMatMul_SQ8_T *Arg);
+
+void KerParMatMulB32_SF_SQ8(KerMatMul_SQ8_T *Arg);
+void KerParMatMulB32_ReLU_SF_SQ8(KerMatMul_SQ8_T *Arg);
+void KerParMatMulB32_ReLUN_SF_SQ8(KerMatMul_SQ8_T *Arg);
+
+/*************************************************************************************************************************************************
+	Matrix by Vector Multiplication followed by an optional Activation (all of them supported)
+*************************************************************************************************************************************************/
+
+void KerParMatVectMul_SQ8(KerMat3_SQ8_T *Arg);
+void KerParMatVectMul_ReLU_SQ8(KerMat3_SQ8_T *Arg);
+void KerParMatVectMul_ReLUN_SQ8(KerMat3_SQ8_T *Arg);
+void KerParMatVectMul_HSigmoid_SQ8(KerMat3_SQ8_T *Arg);
+void KerParMatVectMul_HSwish_SQ8(KerMat3_SQ8_T *Arg);
+void KerParMatVectMul_LeakyReLU_SQ8(KerMat3_SQ8_T *Arg);
+
+
+/*************************************************************************************************************************************************
+	Linear Layer with 32b output.
+	When an output cannot be evaluated by a single call (Non FullFeat) Bias assumed to be set before. Scaling and activation done after
+	When FullFeat Bias setting, Linear and channel scaling all performed in the same call. Bias can be 8,16 or 32b
+*************************************************************************************************************************************************/
+
+void KerParLinearLayer_SQ8(KerLinear_SQ8_T *Arg);
+
+void KerParLinearLayerFullFeatB8_SQ8(KerLinear_SQ8_T *Arg);
+void KerParLinearLayerFullFeatB8_ReLU_SQ8(KerLinear_SQ8_T *Arg);
+void KerParLinearLayerFullFeatB8_ReLUN_SQ8(KerLinear_SQ8_T *Arg);
+
+void KerParLinearLayerFullFeatB16_SQ8(KerLinear_SQ8_T *Arg);
+void KerParLinearLayerFullFeatB16_ReLU_SQ8(KerLinear_SQ8_T *Arg);
+void KerParLinearLayerFullFeatB16_ReLUN_SQ8(KerLinear_SQ8_T *Arg);
+
+void KerParLinearLayerFullFeatB32_SQ8(KerLinear_SQ8_T *Arg);
+void KerParLinearLayerFullFeatB32_ReLU_SQ8(KerLinear_SQ8_T *Arg);
+void KerParLinearLayerFullFeatB32_ReLUN_SQ8(KerLinear_SQ8_T *Arg);
+
+/*************************************************************************************************************************************************
+	List of Matrix Transposition, no scaling
+*************************************************************************************************************************************************/
+
+void CNN_ParTranspose_fps(KerMatTranspose_fps_T *Arg);
+void CNN_ParTransposeSxSy_fps(KerMatTranspose_fps_T *Arg);
+void CNN_Transpose_fps(KerMatTranspose_fps_T *Arg);
+void CNN_TransposeSxSy_fps(KerMatTranspose_fps_T *Arg);
+
+/*************************************************************************************************************************************************
+	3D Tensor dimension permutations, no scaling
+*************************************************************************************************************************************************/
+
+void CNN_MatPermCHW2CWH_fps(KerMatTranspose_fps_T *Arg);
+void CNN_MatPermCHW2HWC_fps(KerMatTranspose_fps_T *Arg);
+void CNN_MatPermCHW2WHC_fps(KerMatTranspose_fps_T *Arg);
+void CNN_MatPermCHW2WCH_fps(KerMatTranspose_fps_T *Arg);
+void CNN_MatPermCHW2HCW_fps(KerMatTranspose_fps_T *Arg);
+
+/*************************************************************************************************************************************************
+	SotMax, Q15 Output
+*************************************************************************************************************************************************/
+
+void KerParSoftMax_SQ8(KerSoftMax_SQ8_T *Arg);
+
+/*************************************************************************************************************************************************
+	AT book keeping functions
+*************************************************************************************************************************************************/
+
+void AT_TileClear(
+        char *__restrict__ In,  	/**< Tile */
+        int W,                  	/**< Tile width */
+        int H,                 		/**< Tile height */
+        int Feat,               	/**< Number of features */
+        int Size,               	/**< Tile element size in bytes */
+        int Pad,                	/**< Height or width of the area to be 0 padded */
+        int Orientation         	/**< 0: Horizontal tile, 1: Vertical tile */
+        );
+
+void AT_DumpTensor(
+        char *NodeName,                 /**< Graph Node Name, a User Kernel */
+        char *ArgName,                  /**< Argument name of this user kernel */
+        int Loc,                        /**< Exec location if this argument, AT_MEM_xyz */
+        void *L3_Device,                /**< Pointer to device descriptor in case Loc is external */
+        void *L3_Event,                 /**< Pointer to a read event for this device descriptor if any */
+        int ItemSize,                   /**< Data type size in bytes */
+        int Dim,                        /**< Number of dimensions, up to 5, from D0 most outer to D4 most inner */
+        int D0,                         /**< Actual value of this dimension if defined, 1 otherwise */
+        int D1,                         /**< Actual value of this dimension if defined, 1 otherwise */
+        int D2,                         /**< Actual value of this dimension if defined, 1 otherwise */
+        int D3,                         /**< Actual value of this dimension if defined, 1 otherwise */
+        int D4,                         /**< Actual value of this dimension if defined, 1 otherwise */
+        void *L2_BufferAddr,            /**< In case exec loc is external pointer to a buffer in L2 to host partial copy of Arg */
+        unsigned int L2_BufferSize,     /**< Size of this buffer */
+        void *Addr                      /**< Address of Arg */
+        );
+
+
+#endif
diff --git a/tools/autotiler_v3/generators/CNN/CNN_BiasReLULinear_BasicKernels.c b/tools/autotiler_v3/generators/CNN/CNN_BiasReLULinear_BasicKernels.c
index f1b132ae9..2bb1a7c46 100644
--- a/tools/autotiler_v3/generators/CNN/CNN_BiasReLULinear_BasicKernels.c
+++ b/tools/autotiler_v3/generators/CNN/CNN_BiasReLULinear_BasicKernels.c
@@ -316,7 +316,7 @@ void KerSetBias_fpd(KerSetBias_fpd_T *Arg)
 
 	// int Bias = AT_LSHIFT(*Arg->Bias, NormBias);
 	int Bias = *Arg->Bias;
-	for (i=0; i<(Iter); i++) Out[i] = Bias;
+	for (i=0; i<(Iter); i++) Out[First+i] = Bias;
 	gap_waitbarrier(0);
 }
 
@@ -388,7 +388,7 @@ void KerSetBias_fpd_fp(KerSetBias_fpd_fp_T *Arg)
 
 	// int Bias = AT_LSHIFT(*Arg->Bias, NormBias);
 	int Bias = *Arg->Bias;
-	for (i=0; i<(Iter); i++) Out[i] = Bias;
+	for (i=0; i<(Iter); i++) Out[First+i] = Bias;
 	gap_waitbarrier(0);
 }
 
@@ -410,7 +410,7 @@ void KerSetBias_fpd_fps(KerSetBias_fpd_fps_T *Arg)
 
 	// int Bias = AT_LSHIFT(*Arg->Bias, NormBias);
 	int Bias = *Arg->Bias;
-	for (i=0; i<(Iter); i++) Out[i] = Bias;
+	for (i=0; i<(Iter); i++) Out[First+i] = Bias;
 	gap_waitbarrier(0);
 }
 
@@ -456,7 +456,7 @@ void KerSetBias_DP_fp(KerSetBias_fpd_fp_T *Arg)
 	int i;
 
 	int Bias = AT_LSHIFT(*Arg->Bias, NormBias);
-	for (i=0; i<(Iter); i++) Out[i] = Bias;
+	for (i=0; i<(Iter); i++) Out[First+i] = Bias;
 	gap_waitbarrier(0);
 }
 
@@ -477,7 +477,7 @@ void KerSetBias_DP_fps(KerSetBias_fpd_fps_T *Arg)
 	int i;
 
 	int Bias = AT_LSHIFT(*Arg->Bias, NormBias);
-	for (i=0; i<(Iter); i++) Out[i] = Bias;
+	for (i=0; i<(Iter); i++) Out[First+i] = Bias;
 	gap_waitbarrier(0);
 }
 
@@ -675,61 +675,14 @@ void KerParReLU_fps(KerReLUPool_fps_T *Arg)
 	unsigned int OutFeatures = Arg->OutFeatures;
 	signed char * __restrict__ Out = Arg->Out;
 	int LB = Arg->LB;
-	int UB = Arg->UB;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int Chunk = ChunkSize(OutFeatures);
-	unsigned int First = Chunk*CoreId;
-	unsigned int Last = Min(First+Chunk, OutFeatures);
-
-	for (unsigned int of=First; of<Last; of++) KerParDoReLU_fps(In+of*W*H, W, H, Out+of*Wo*Ho, LB, UB);
-
-	gap_waitbarrier(0);
-}
-
-void KerParReLUN_Vector_fp(KerReLUPool_fp_T *Arg)
-
-{
-	/* LB, UB are assumed to FP o */
-	short int * __restrict__ In = Arg->In;
-	unsigned int W = Arg->W;
-	unsigned int H = Arg->H;
-	unsigned int Wo = W;
-	unsigned int Ho = H;
-	unsigned int OutFeatures = Arg->OutFeatures;
-	short int * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB;
-    int UB = Arg->UB;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int Chunk = ChunkSize(OutFeatures);
-	unsigned int First = Chunk*CoreId;
-	unsigned int Last = Min(First+Chunk, OutFeatures);
-
-	for (unsigned int of=First; of<Last; of++) KerParDoReLU_fp(In+of*W*H, W, H, Out+of*Wo*Ho, LB, UB);
-
-	gap_waitbarrier(0);
-}
-
-void KerParReLUN_Vector_fps(KerReLUPool_fps_T *Arg)
-
-{
-	/* LB, UB are assumed to FP o */
-	signed char * __restrict__ In = Arg->In;
-	unsigned int W = Arg->W;
-	unsigned int H = Arg->H;
-	unsigned int Wo = W;
-	unsigned int Ho = H;
-	unsigned int OutFeatures = Arg->OutFeatures;
-	signed char * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB, UB = Arg->UB;
+	char *UB = (char *) Arg->UB;
 
 	unsigned int CoreId = gap_coreid();
 	unsigned int Chunk = ChunkSize(OutFeatures);
 	unsigned int First = Chunk*CoreId;
 	unsigned int Last = Min(First+Chunk, OutFeatures);
 
-	for (unsigned int of=First; of<Last; of++) KerParDoReLU_fps(In+of*W*H, W, H, Out+of*Wo*Ho, LB, UB);
+	for (unsigned int of=First; of<Last; of++) KerParDoReLU_fps(In+of*W*H, W, H, Out+of*Wo*Ho, LB, UB[of]);
 
 	gap_waitbarrier(0);
 }
@@ -884,52 +837,6 @@ void KerReLU_fps(KerReLUPool_fps_T *Arg)
 	gap_waitbarrier(0);
 }
 
-void KerReLUN_Vector_fp(KerReLUPool_fp_T *Arg)
-
-{
-	/* LB, UB are in FP o */
-	short int * __restrict__ In = Arg->In;
-	int W = Arg->W;
-	int H = Arg->H;
-	short int * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB, UB = *((char *) Arg->UB);
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize((W*H)/2);
-	unsigned int First = CoreId*ChunkCell;
-	unsigned int Last  = Minu(First+ChunkCell, (W*H)/2);
-	v2s * VectIn  = (v2s *) In;
-	v2s * VectOut = (v2s *) Out;
-	int i, j;
-
-	for (i=First; i<Last; i++) VectOut[i] = gap_min2(gap_max2(VectIn[i], ((v2s) {LB, LB})), ((v2s) {UB, UB}));
-	if ((W*H)&0x1) Out[W*H-1] = Min(Max(In[W*H-1], LB), UB);
-	gap_waitbarrier(0);
-}
-
-void KerReLUN_Vector_fps(KerReLUPool_fps_T *Arg)
-
-{
-	/* LB, UB are in FP o */
-	signed char * __restrict__ In = Arg->In;
-	int W = Arg->W;
-	int H = Arg->H;
-	signed char * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB, UB = *((char *) Arg->UB);
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize((W*H)/4);
-	unsigned int First = CoreId*ChunkCell;
-	unsigned int Last  = Minu(First+ChunkCell, (W*H)/4);
-	v4s * VectIn  = (v4s *) In;
-	v4s * VectOut = (v4s *) Out;
-	int i, j;
-
-	for (i=First; i<Last; i++) VectOut[i] = gap_min4(gap_max4(VectIn[i], ((v4s) {LB, LB, LB, LB})), ((v4s) {UB, UB, UB, UB}));
-	for (i=((W*H)/4)*4; i<(W*H); i++) Out[i] = Min(Max(In[i], LB), UB);
-	gap_waitbarrier(0);
-}
-
 /**************************************************************************************************************************************
 	Linear Layer followed by optional linear rectification group
 **************************************************************************************************************************************/
@@ -1152,229 +1059,6 @@ void KerLinearLayerReLU_fp_fp_fpd(KerLinearLayerReLU_fp_fp_fpd_T *Arg)
        	gap_waitbarrier(0);
 }
 
-void KerLinearLayerReLUN_Vector_fp(KerLinearLayerReLU_fp_T *Arg)
-
-{
-	/* Bias in DP context due to reduction: Bias point position is i+w, shift by i+w-b. Usually << but could be >> eventhough should have bias in max i+w bits. Report an error?
-	   Norm = i+w-o
-	   NormBias = i+w-b
-	   LB, UB: o
-	*/
-	short int * __restrict__ In = Arg->In;
-	int InSize = Arg->InSize;
-	const short int * __restrict__ Filter = Arg->Filter;
-	const short int * __restrict__ Bias = Arg->Bias;
-	unsigned int Norm = Arg->Norm;
-	int NormBias = Arg->NormBias;
-	short int * __restrict__ Out = Arg->Out;
-	int OutSize = Arg->OutSize;
-	int LB = Arg->LB;
-       	char *UB = (char *)Arg->UB;
-	static L1_CL_MEM int Reduct[8];
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(InSize);
-	unsigned int First = CoreId*ChunkCell;
-	unsigned int Last  = Min(First+ChunkCell, InSize);
-	int Iter = Max(0, Last-First);
-
-	for (int i=0; i<OutSize; i++) {
-		v2s * __restrict__ Filt = (v2s *) (&Filter[i*InSize+First]);
-		v2s * __restrict__ VectIn = (v2s *) (&In[First]);
-		int Acc = 0;
-		for (int j=0; j<(Iter/2); j++) Acc = gap_sumdotp2(VectIn[j], Filt[j], Acc);
-		if (Iter%2) Acc += In[Last-1]*Filter[i*InSize+Last-1];
-		Reduct[CoreId] = Acc;
-		gap_waitbarrier(0);
-		if (CoreId==0) {
-			Acc = AT_LSHIFT(Bias[i], NormBias);
-			for (int j=0;j<gap_ncore();j++) Acc += Reduct[j];
-			Out[i] = Min(Max(AT_NORM(Acc, Norm), LB), UB[i]);
-		}
-		gap_waitbarrier(0);
-	}
-       	gap_waitbarrier(0);
-}
-
-void KerLinearLayerReLUN_Vector_fps(KerLinearLayerReLU_fps_T *Arg)
-
-{
-	/* Bias in DP context due to reduction: Bias point position is i+w, shift by i+w-b. Usually << but could be >> eventhough should have bias in max i+w bits. Report an error?
-	   Norm = i+w-o
-	   Bias = i+w-b
-	   LB, UB: o
-	*/
-	signed char * __restrict__ In = Arg->In;
-	int InSize = Arg->InSize;
-	const signed char * __restrict__ Filter = Arg->Filter;
-	const signed char * __restrict__ Bias = Arg->Bias;
-	unsigned int Norm = Arg->Norm;
-	int NormBias = Arg->NormBias;
-	signed char * __restrict__ Out = Arg->Out;
-	int OutSize = Arg->OutSize;
-	int LB = Arg->LB;
-       	char *UB = (char *)Arg->UB;
-	static L1_CL_MEM int Reduct[8];
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(InSize);
-	unsigned int First = CoreId*ChunkCell;
-	unsigned int Last  = Min(First+ChunkCell, InSize);
-	int Iter = Max(0, Last-First);
-
-	for (int i=0; i<OutSize; i++) {
-		v4s * __restrict__ Filt = (v4s *) (&Filter[i*InSize+First]);
-		v4s * __restrict__ VectIn = (v4s *) (&In[First]);
-		int Acc = 0;
-		for (int j=0; j<(Iter/4); j++) Acc = gap_sumdotp4(VectIn[j], Filt[j], Acc);
-		for (int j=4*(Iter/4); j<Iter; j++) Acc += In[First+j]*Filter[i*InSize+First+j];
-		Reduct[CoreId] = Acc;
-		gap_waitbarrier(0);
-		if (CoreId==0) {
-			Acc = AT_LSHIFT(Bias[i], NormBias);
-			for (int j=0;j<gap_ncore();j++) Acc += Reduct[j];
-			Out[i] = Min(Max(AT_NORM(Acc, Norm), LB), UB[i]);
-		}
-		gap_waitbarrier(0);
-	}
-       	gap_waitbarrier(0);
-}
-
-void KerLinearLayerReLUN_Vector_fp_fps_fp(KerLinearLayerReLU_fp_fps_fp_T *Arg)
-
-{
-	/* Bias in DP context due to reduction: Bias point position is i+w, shift by i+w-b. Usually << but could be >> eventhough should have bias in max i+w bits. Report an error?
-	   Norm = i+w-o
-	   Bias = i+w-b
-	   LB, UB: o
-	*/
-	short int * __restrict__ In = Arg->In;
-	int InSize = Arg->InSize;
-	const signed char * __restrict__ Filter = Arg->Filter;
-	const short int * __restrict__ Bias = Arg->Bias;
-	unsigned int Norm = Arg->Norm;
-	int NormBias = Arg->NormBias;
-	short int * __restrict__ Out = Arg->Out;
-	int OutSize = Arg->OutSize;
-	int LB = Arg->LB;
-       	char *UB = (char *)Arg->UB;
-	static L1_CL_MEM int Reduct[8];
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(InSize);
-	unsigned int First = CoreId*ChunkCell;
-	unsigned int Last  = Min(First+ChunkCell, InSize);
-	int Iter = Max(0, Last-First);
-
-	for (int i=0; i<OutSize; i++) {
-		v2s * __restrict__ VectIn = (v2s *) (&In[First]);
-		int Acc = 0;
-		for (int j=0; j<(Iter/2); j++) {
-			v2s F = gap_pack2(Filter[i*InSize+First+2*j], Filter[i*InSize+First+2*j+1]);
-			Acc = gap_sumdotp2(VectIn[j], F, Acc);
-		}
-		if (Iter%2) Acc += In[Last-1]*Filter[i*InSize+Last-1];
-		Reduct[CoreId] = Acc;
-		gap_waitbarrier(0);
-		if (CoreId==0) {
-			Acc = AT_LSHIFT(Bias[i], NormBias);
-			for (int j=0;j<gap_ncore();j++) Acc += Reduct[j];
-			Out[i] = Min(Max(AT_NORM(Acc, Norm), LB), UB[i]);
-		}
-		gap_waitbarrier(0);
-	}
-       	gap_waitbarrier(0);
-}
-
-void KerLinearLayerReLUN_Vector_fps_fps_fp(KerLinearLayerReLU_fps_fps_fp_T *Arg)
-
-{
-	/* Bias in DP context due to reduction: Bias point position is i+w, shift by i+w-b. Usually << but could be >> eventhough should have bias in max i+w bits. Report an error?
-	   Norm = i+w-o
-	   Bias = i+w-b
-	   LB, UB: o
-	*/
-	signed char * __restrict__ In = Arg->In;
-	int InSize = Arg->InSize;
-	const signed char * __restrict__ Filter = Arg->Filter;
-	const short int * __restrict__ Bias = Arg->Bias;
-	unsigned int Norm = Arg->Norm;
-	int NormBias = Arg->NormBias;
-	short int * __restrict__ Out = Arg->Out;
-	int OutSize = Arg->OutSize;
-	int LB = Arg->LB;
-       	char *UB = (char *)Arg->UB;
-	static L1_CL_MEM int Reduct[8];
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(InSize);
-	unsigned int First = CoreId*ChunkCell;
-	unsigned int Last  = Min(First+ChunkCell, InSize);
-	int Iter = Max(0, Last-First);
-
-	for (int i=0; i<OutSize; i++) {
-		v4s * __restrict__ Filt = (v4s *) (&Filter[i*InSize+First]);
-		v4s * __restrict__ VectIn = (v4s *) (&In[First]);
-		int Acc = 0;
-		for (int j=0; j<(Iter/4); j++) Acc = gap_sumdotp4(VectIn[j], Filt[j], Acc);
-		for (int j=4*(Iter/4); j<Iter; j++) Acc += In[First+j]*Filter[i*InSize+First+j];
-		Reduct[CoreId] = Acc;
-		gap_waitbarrier(0);
-		if (CoreId==0) {
-			Acc = AT_LSHIFT(Bias[i], NormBias);
-			for (int j=0;j<gap_ncore();j++) Acc += Reduct[j];
-			Out[i] = Min(Max(AT_NORM(Acc, Norm), LB), UB[i]);
-		}
-		gap_waitbarrier(0);
-
-	}
-	gap_waitbarrier(0);
-}
-
-void KerLinearLayerReLUN_Vector_fp_fp_fpd(KerLinearLayerReLU_fp_fp_fpd_T *Arg)
-
-{
-	/* Bias in DP context due to reduction: Bias point position is i+w, shift by i+w-b. Usually << but could be >> eventhough should have bias in max i+w bits. Report an error?
-	   Norm = i+w-o
-	   Bias = i+w-b
-	   LB, UB: o
-	*/
-	short int * __restrict__ In = Arg->In;
-	int InSize = Arg->InSize;
-	const short int * __restrict__ Filter = Arg->Filter;
-	const short int * __restrict__ Bias = Arg->Bias;
-	unsigned int Norm = Arg->Norm;
-	int NormBias = Arg->NormBias;
-	int * __restrict__ Out = Arg->Out;
-	int OutSize = Arg->OutSize;
-	int LB = Arg->LB;
-       	char *UB = (char *)Arg->UB;
-	static L1_CL_MEM int Reduct[8];
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(InSize);
-	unsigned int First = CoreId*ChunkCell;
-	unsigned int Last  = Min(First+ChunkCell, InSize);
-	int Iter = Max(0, Last-First);
-
-	for (int i=0; i<OutSize; i++) {
-		v2s * __restrict__ Filt = (v2s *) (&Filter[i*InSize+First]);
-		v2s * __restrict__ VectIn = (v2s *) (&In[First]);
-		int Acc = 0;
-		for (int j=0; j<(Iter/2); j++) Acc = gap_sumdotp2(VectIn[j], Filt[j], Acc);
-		if (Iter%2) Acc += In[Last-1]*Filter[i*InSize+Last-1];
-		Reduct[CoreId] = Acc;
-		gap_waitbarrier(0);
-		if (CoreId==0) {
-			Acc = AT_LSHIFT(Bias[i], NormBias);
-			for (int j=0;j<gap_ncore();j++) Acc += Reduct[j];
-			Out[i] = Min(Max(AT_NORM(Acc, Norm), LB), UB[i]);
-		}
-		gap_waitbarrier(0);
-	}
-       	gap_waitbarrier(0);
-}
-
 /* Double precision Linear Layer */
 void KerDPLinearLayer_fp(KerDPLinearLayer_fp_T *Arg)
 
@@ -1447,7 +1131,6 @@ typedef enum {
         KACT_NONE = 0,
         KACT_RELU,
         KACT_RELUN,
-        KACT_RELUN_VECTOR,
         KACT_HSIGMOID,
         KACT_HSWISH,
         KACT_LEAKY,
@@ -1490,9 +1173,6 @@ void KerDPLinearLayerReduct_fp(KerDPLinearLayerReduct_fp_T *Arg)
 				Acc = gap_clip(Neg*Input1+Pos*Input, 15);
 			}
 			break;
-		case KACT_RELUN_VECTOR:
-			Acc = Min(Max(AT_NORM(Acc, Norm), Arg->LB), *((char *)Arg->UB));
-			break;
 		default:
 			/* No Activation LB=-32768, UB=32767, ReLU: LB=0,UB=32767, ReLUN: LB=0,UB=N<<Norm */
 			Acc = Min(Max(AT_NORM(Acc, Norm), Arg->LB), Arg->UB);
@@ -1565,9 +1245,6 @@ void KerDPLinearLayerReduct_fps(KerDPLinearLayerReduct_fps_T *Arg)
 				Acc = gap_clip(Neg*Input1+Pos*Input, 7);
 			}
 			break;
-		case KACT_RELUN_VECTOR:
-			Acc = Min(Max(AT_NORM(Acc, Norm), Arg->LB), *((char *)Arg->UB));
-			break;
 		default:
 			/* No Activation LB=-128, UB=127, ReLU: LB=0,UB=127, ReLUN: LB=0,UB=N<<Norm */
 			Acc = Min(Max(AT_NORM(Acc, Norm), Arg->LB), Arg->UB);
@@ -1621,48 +1298,6 @@ void KerParLinearLayerReLU_fp(KerLinearLayerReLU_fp_T *Arg)
 	gap_waitbarrier(0);
 }
 
-void KerParLinearLayerReLUN_Vector_fp(KerLinearLayerReLU_fp_T *Arg)
-
-{
-	/*
-	 	NormBias: w+i-b
-	 	Norm: w+i-o
-		LB, UB: in o format
-	*/
-	short int * __restrict__ In = Arg->In;
-	int TotalInSize = Arg->TotalInSize;
-	int InSize = Arg->InSize;
-	const short int * __restrict__ Filter = Arg->Filter;
-	const short int * __restrict__ Bias = Arg->Bias;
-	unsigned int Norm = Arg->Norm;
-	int NormBias = Arg->NormBias;
-	short int * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB;
-	char *UB = (char *) Arg->UB;
-
-	int OutSize = Arg->OutSize;
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(OutSize);
-	unsigned int First = CoreId*ChunkCell;
-	unsigned int Last  = Min(First+ChunkCell, OutSize);
-	int i,j;
-	v2s * __restrict__ VectIn = (v2s *) In;
-
-	/* Don't use this kernel for partial evaluation of an output */
-	for (i=First; i<Last; i++) {
-		v2s * __restrict__ Filt = (v2s *) (&Filter[i*TotalInSize]);
-		int Acc = AT_LSHIFT(Bias[i], NormBias);
-		for (j = 0; j<(InSize/(2*2)); j++) {
-			Acc = gap_sumdotp2(VectIn[2*j], Filt[2*j], Acc);
-			Acc = gap_sumdotp2(VectIn[2*j+1], Filt[2*j+1], Acc);
-		}
-		if (InSize&0x2) Acc = gap_sumdotp2(VectIn[InSize/2], Filt[InSize/2], Acc);
-		if (InSize&0x1) Acc += In[InSize-1]*Filter[i*InSize+InSize-1];
-		Out[i] = Min(Max(AT_NORM(Acc, Norm), LB), UB[i]);
-	}
-	gap_waitbarrier(0);
-}
-
 void KerParLinearLayerHswish_fp(KerLinearLayerReLU_fp_T *Arg)
 
 {
@@ -1797,47 +1432,6 @@ void KerParLinearLayerReLU_fps(KerLinearLayerReLU_fps_T *Arg)
 	gap_waitbarrier(0);
 }
 
-void KerParLinearLayerReLUN_Vector_fps(KerLinearLayerReLU_fps_T *Arg)
-
-{
-	/* Norm: w+i-o
-	   Bias is in b, NormBias: w+i-b
-	   LB, UB: in o format
-	*/
-	signed char * __restrict__ In = Arg->In;
-	int TotalInSize = Arg->TotalInSize;
-	int InSize = Arg->InSize;
-	const signed char * __restrict__ Filter = Arg->Filter;
-	const signed char * __restrict__ Bias = Arg->Bias;
-	unsigned int Norm = Arg->Norm;
-	int NormBias = Arg->NormBias;
-	signed char * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB;
-	char *UB = (char *) Arg->UB;
-
-	int OutSize = Arg->OutSize;
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(OutSize);
-	unsigned int First = CoreId*ChunkCell;
-	unsigned int Last  = Min(First+ChunkCell, OutSize);
-	int i,j;
-	v4s * __restrict__ VectIn = (v4s *) In;
-
-	/* Don't use this kernel for partial evaluation of an output */
-	for (i=First; i<Last; i++) {
-		v4s * __restrict__ Filt = (v4s *) (&Filter[i*TotalInSize]);
-		int Acc = Bias[i]<<NormBias;
-		for (j=0; j<(InSize/(4*2)); j++) {
-			Acc = gap_sumdotp4(VectIn[2*j], Filt[2*j], Acc);
-			Acc = gap_sumdotp4(VectIn[2*j+1], Filt[2*j+1], Acc);
-		}
-		if (InSize&0x4) Acc = gap_sumdotp4(VectIn[InSize/4-1], Filt[InSize/4-1], Acc);
-		for (j=4*(InSize/4); j<InSize; j++) Acc += In[j]*Filter[i*TotalInSize+j];
-		Out[i] = Min(Max(AT_NORM(Acc, Norm), LB), UB[i]);
-	}
-	gap_waitbarrier(0);
-}
-
 void KerParLinearLayerHswish_fps(KerLinearLayerReLU_fps_T *Arg)
 
 {
@@ -1966,7 +1560,7 @@ void KerParLinearLayerReLU_fps_fps_fp(KerLinearLayerReLU_fps_fps_fp_T *Arg)
 	gap_waitbarrier(0);
 }
 
-void KerParLinearLayerReLUN_Vector_fps_fps_fp(KerLinearLayerReLU_fps_fps_fp_T *Arg)
+void KerParLinearLayerReLU_fps_fps_fpd(KerLinearLayerReLU_fps_fps_fpd_T *Arg)
 
 {
 	/* Norm: w+i-o
@@ -1977,12 +1571,11 @@ void KerParLinearLayerReLUN_Vector_fps_fps_fp(KerLinearLayerReLU_fps_fps_fp_T *A
 	int TotalInSize = Arg->TotalInSize;
 	int InSize = Arg->InSize;
 	const signed char * __restrict__ Filter = Arg->Filter;
-	short int * __restrict__ Bias = Arg->Bias;
+	const signed char * __restrict__ Bias = Arg->Bias;
 	unsigned int Norm = Arg->Norm;
 	int NormBias = Arg->NormBias;
-	short int * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB;
-	char *UB = (char *) Arg->UB;
+	int * __restrict__ Out = Arg->Out;
+	int LB = Arg->LB, UB = Arg->UB;
 
 	int OutSize = Arg->OutSize;
 	unsigned int CoreId = gap_coreid();
@@ -2001,7 +1594,7 @@ void KerParLinearLayerReLUN_Vector_fps_fps_fp(KerLinearLayerReLU_fps_fps_fp_T *A
 		}
 		if (InSize&0x4) Acc = gap_sumdotp4(VectIn[InSize/4-1], VectFilter[InSize/4-1], Acc);
 		for (j=((InSize/4)*4); j<InSize; j++) Acc += In[j]*Filter[j];
-		Out[i] = Min(Max(AT_NORM(Acc, Norm), LB), UB[i]);
+		Out[i] = Min(Max(AT_NORM(Acc, Norm), LB), UB);
 	}
 	gap_waitbarrier(0);
 }
@@ -2043,44 +1636,6 @@ void KerParLinearLayerReLU_fp_fps_fp(KerLinearLayerReLU_fp_fps_fp_T *Arg)
 	gap_waitbarrier(0);
 }
 
-void KerParLinearLayerReLUN_Vector_fp_fps_fp(KerLinearLayerReLU_fp_fps_fp_T *Arg)
-
-{
-	/* Norm: w+i-o
-	   Bias is in b, NormBias: w+i-b
-	   LB, UB: in o format
-	*/
-	short int * __restrict__ In = Arg->In;
-	int TotalInSize = Arg->TotalInSize;
-	int InSize = Arg->InSize;
-	const signed char * __restrict__ Filter = Arg->Filter;
-	const short int * __restrict__ Bias = Arg->Bias;
-	unsigned int Norm = Arg->Norm;
-	int NormBias = Arg->NormBias;
-	short int * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB;
-	char *UB = (char *) Arg->UB;
-
-	int OutSize = Arg->OutSize;
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(OutSize);
-	unsigned int First = CoreId*ChunkCell;
-	unsigned int Last  = Min(First+ChunkCell, OutSize);
-	int i,j;
-	v2s * __restrict__ VectIn = (v2s *) In;
-
-	for (i=First; i<Last; i++) {
-		int Acc = Bias[i]<<NormBias;
-		for (j=0; j<(InSize/2); j++) {
-			v2s F = gap_pack2(Filter[i*TotalInSize+2*j], Filter[i*TotalInSize+2*j+1]);
-			Acc = gap_sumdotp2(VectIn[j], F, Acc);
-		}
-		if (InSize%2) Acc += In[InSize-1]*Filter[i*InSize+InSize-1];
-		Out[i] = Min(Max(AT_NORM(Acc, Norm), LB), UB[i]);
-	}
-	gap_waitbarrier(0);
-}
-
 void KerParLinearLayerReLU_fp_fp_fpd(KerLinearLayerReLU_fp_fp_fpd_T *Arg)
 
 {
@@ -2116,42 +1671,6 @@ void KerParLinearLayerReLU_fp_fp_fpd(KerLinearLayerReLU_fp_fp_fpd_T *Arg)
 	gap_waitbarrier(0);
 }
 
-void KerParLinearLayerReLUN_Vector_fp_fp_fpd(KerLinearLayerReLU_fp_fp_fpd_T *Arg)
-
-{
-	/* Norm: w+i-o
-	   Bias is in b, NormBias: w+i-b
-	   LB, UB: in o format
-	*/
-	short int * __restrict__ In = Arg->In;
-	int TotalInSize = Arg->TotalInSize;
-	int InSize = Arg->InSize;
-	const short int * __restrict__ Filter = Arg->Filter;
-	const short int * __restrict__ Bias = Arg->Bias;
-	unsigned int Norm = Arg->Norm;
-	int NormBias = Arg->NormBias;
-	int * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB;
-	char *UB = (char *) Arg->UB;
-
-	int OutSize = Arg->OutSize;
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(OutSize);
-	unsigned int First = CoreId*ChunkCell;
-	unsigned int Last  = Min(First+ChunkCell, OutSize);
-	int i,j;
-	v2s * __restrict__ VectIn = (v2s *) In;
-
-	for (i=First; i<Last; i++) {
-		v2s * __restrict__ Filt = (v2s *) (&Filter[i*TotalInSize]);
-		int Acc = Bias[i]<<NormBias;
-		for (j = 0; j<(InSize/2); j++) Acc = gap_sumdotp2(VectIn[j], Filt[j], Acc);
-		if (InSize%2) Acc += In[InSize-1]*Filter[i*InSize+InSize-1];
-		Out[i] = Min(Max(AT_NORM(Acc, Norm), LB), UB[i]);
-	}
-	gap_waitbarrier(0);
-}
-
 /**************************************************************************************************************************************
 	Double precision to single precision reduction
 **************************************************************************************************************************************/
@@ -2178,43 +1697,11 @@ void KerDP_fp(KerDP_fp_T *Arg)
 	v2s * __restrict__ O = (v2s *)(&Out[First]);
 
 	for (i=0; i<(Size/2); i++) {
-		int Acc0 = I[2*i], Acc1 = I[2*i+1];
-		Acc0 = Min(Max(AT_NORM(Acc0, Norm), LB), UB); Acc1 = Min(Max(AT_NORM(Acc1, Norm), LB), UB);
-		O[i] = gap_pack2(Acc0, Acc1);
-	}
-	if (Size&0x1) Out[Last-1] = Min(Max(AT_NORM(In[Last-1], Norm), LB), UB);
-	gap_waitbarrier(0);
-}
-
-void KerDP_ReLUN_Vector_fp(KerDP_fp_T *Arg)
-
-{
-	/* Norm: w+i-o
-	   LB, UB: in o format
-	*/
-	int * __restrict__ In = Arg->In;
-	short int * __restrict__ Out = Arg->Out;
-	int S = Arg->W*Arg->H;
-	int Feat = Arg->InFeatures;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	unsigned int Norm = Arg->Norm;
-       	unsigned int CoreId = gap_coreid();
-       	unsigned int ChunkCell = ChunkSize(Feat);
-       	unsigned int First = CoreId*ChunkCell;
-       	unsigned int Last  = Min(First+ChunkCell, Feat);
-
-	for (int f=First; f<Last; f++) {
-		int * __restrict__ I = &In[S*f];
-		v2s * __restrict__ O = (v2s *)(&Out[S*f]);
-		int UB = pUB[f];
-		for (int i=0; i<(S/2); i++) {
-			int Acc0 = I[2*i], Acc1 = I[2*i+1];
-			Acc0 = Min(Max(AT_NORM(Acc0, Norm), LB), UB); Acc1 = Min(Max(AT_NORM(Acc1, Norm), LB), UB);
-			O[i] = gap_pack2(Acc0, Acc1);
-		}
-		if (S&0x1) Out[S*f+S-1] = Min(Max(AT_NORM(In[S*f+S-1], Norm), LB), UB);
+		int Acc0 = I[2*i], Acc1 = I[2*i+1];
+		Acc0 = Min(Max(AT_NORM(Acc0, Norm), LB), UB); Acc1 = Min(Max(AT_NORM(Acc1, Norm), LB), UB);
+		O[i] = gap_pack2(Acc0, Acc1);
 	}
+	if (Size&0x1) Out[Last-1] = Min(Max(AT_NORM(In[Last-1], Norm), LB), UB);
 	gap_waitbarrier(0);
 }
 
@@ -2252,42 +1739,6 @@ void KerDPMulBiasScalar_fp(KerDP_fp_T *Arg)
 	gap_waitbarrier(0);
 }
 
-void KerDPMulBiasScalar_ReLUN_Vector_fp(KerDP_fp_T *Arg)
-
-{
-	/* Norm: w+i-o
-	   NormBias: m
-	   LB, UB: in o format
-	*/
-	int * __restrict__ In = Arg->In;
-	short int * __restrict__ Out = Arg->Out;
-	int S = Arg->W*Arg->H;
-	int Feat = Arg->InFeatures;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	int M = *Arg->MulBias;
-       	unsigned int CoreId = gap_coreid();
-       	unsigned int ChunkCell = ChunkSize(Feat);
-       	unsigned int First = CoreId*ChunkCell;
-       	unsigned int Last  = Min(First+ChunkCell, Feat);
-
-	for (int f=First; f<Last; f++) {
-		int * __restrict__ I = &In[S*f];
-		v2s * __restrict__ O = (v2s *)(&Out[S*f]);
-		int UB = pUB[f];
-		for (int i=0; i<(S/2); i++) {
-			int Acc0 = I[2*i], Acc1 = I[2*i+1];
-			Acc0 = Min(Max(AT_NORM(AT_NORM(Acc0, Norm)*M, NormBias), LB), UB);
-			Acc1 = Min(Max(AT_NORM(AT_NORM(Acc1, Norm)*M, NormBias), LB), UB);
-			O[i] = gap_pack2(Acc0, Acc1);
-		}
-		if (S&0x1) Out[S*f+S-1] = Min(Max(AT_NORM(AT_NORM(In[S*f+S-1], Norm)*M, NormBias), LB), UB);
-	}
-	gap_waitbarrier(0);
-}
-
 void KerDPMulBias_fp(KerDP_fp_T *Arg)
 
 {
@@ -2324,43 +1775,6 @@ void KerDPMulBias_fp(KerDP_fp_T *Arg)
 	gap_waitbarrier(0);
 }
 
-void KerDPMulBias_ReLUN_Vector_fp(KerDP_fp_T *Arg)
-
-{
-	/* Norm: w+i-o
-	   NormBias: m
-	   LB, UB: in o format
-	*/
-	int * __restrict__ In = Arg->In;
-	short int * __restrict__ Out = Arg->Out;
-	int Feat = Arg->InFeatures;
-	int S = Arg->W*Arg->H;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	short int * __restrict__ MB = Arg->MulBias;
-       	unsigned int CoreId = gap_coreid();
-       	unsigned int ChunkCell = ChunkSize(Feat);
-       	unsigned int First = CoreId*ChunkCell;
-       	unsigned int Last  = Min(First+ChunkCell, Feat);
-
-	for (int f=First; f<Last; f++) {
-		int * __restrict__ I = &In[S*f];
-		v2s * __restrict__ O = (v2s *)(&Out[S*f]);
-		int M = MB[f];
-		int UB = pUB[f];
-		for (int i=0; i<(S/2); i++) {
-			int Acc0 = I[2*i], Acc1 = I[2*i+1];
-			Acc0 = Min(Max(AT_NORM(AT_NORM(Acc0, Norm)*M, NormBias), LB), UB);
-			Acc1 = Min(Max(AT_NORM(AT_NORM(Acc1, Norm)*M, NormBias), LB), UB);
-			O[i] = gap_pack2(Acc0, Acc1);
-		}
-		if (S&0x1) Out[S*f+S-1] = Min(Max(AT_NORM(AT_NORM(I[S-1], Norm)*M, NormBias), LB), UB);
-	}
-	gap_waitbarrier(0);
-}
-
 void KerDP_hswish_fp(KerDP_fp_T *Arg)
 
 {
@@ -2522,63 +1936,6 @@ void KerDP_IO_fp(KerDP_fp_T *Arg)
 	}
 }
 
-void KerDP_IO_ReLUN_Vector_fp(KerDP_fp_T *Arg)
-
-{
-	/* Norm: w+i-o
-	   NormBias: m
-	   LB, UB: in o format
-	*/
-	int * __restrict__ In = Arg->In;
-	short int * __restrict__ Out = Arg->Out;
-	int S = Arg->W*Arg->H;
-	int Feat = Arg->InFeatures;
-	int LB = Arg->LB;
-        char *pUB = (char *) Arg->UB;
-	unsigned int Norm = Arg->Norm;
-	int i,j,k,U,A,B,Log2Core;
-       	unsigned int CoreId = gap_coreid();
-       	unsigned int ChunkCell = ChunkSize(Feat);
-       	unsigned int First = CoreId*ChunkCell;
-       	unsigned int Last  = Min(First+ChunkCell, Feat);
-	int Size = S*Max(0, Last-First);
-
-	/* First normalize In, each parallel chunk overwrites it's own input
-	   After we are done In contains groups of contiguous normalized values
-	   each group beeing followed by an empty group of exactly the same size, these
-	   one need to be supressed, second step is taking care of this reduction */
-	for (int f=First; f<Last; f++) {
-		int * __restrict__ I = &In[S*f];
-		v2s * __restrict__ O = (v2s *)(&Out[S*f]);
-		int UB = pUB[f];
-		for (int i=0; i<(S/2); i++) {
-			int Acc0 = I[2*i], Acc1 = I[2*i+1];
-			Acc0 = Min(Max(AT_NORM(Acc0, Norm), LB), UB); Acc1 = Min(Max(AT_NORM(Acc1, Norm), LB), UB);
-			O[i] = gap_pack2(Acc0, Acc1);
-		}
-		if (S&0x1) ((short int *)I)[S-1] = Min(Max(AT_NORM(I[S-1], Norm), LB), UB);
-	}
-	gap_waitbarrier(0);
-	/* Now this is the reduction phase */
-	ChunkCell *= S;
-	U = gap_ncore()/2; Log2Core = gap_fl1(gap_ncore()); A = 2; B = 1;
-	for (k=0; k<Log2Core; k++) {
-		if (CoreId<U) {
-			short int *__restrict__ OOs = ((short int *)In+(A*CoreId+B)*ChunkCell);
-			short int *__restrict__ IIs = ((short int *)In+(2*(A*CoreId+B))*ChunkCell);
-			int *__restrict__ II = (int *) IIs;
-			int *__restrict__ OO = (int *) OOs;
-			for (i=0;i<(Size/4);i++) {
-				int V0 = II[2*i], V1 = II[2*i+1];
-				OO[2*i] = V0; OO[2*i+1] = V1;
-			}
-			for (i=((Size/4)*4); i<Size; i++) OOs[i] = IIs[i];
-		}
-		U = U/2; A = A*2; B = B*2;
-		gap_waitbarrier(0);
-	}
-}
-
 void KerDP_IO_hsigmoid_fp(KerDP_fp_T *Arg)
 
 {
@@ -2809,66 +2166,6 @@ void KerDPMulBiasScalar_IO_fp(KerDP_fp_T *Arg)
 	}
 }
 
-void KerDPMulBiasScalar_IO_ReLUN_Vector_fp(KerDP_fp_T *Arg)
-
-{
-	/* Norm: w+i-o
-	   NormBias: m
-	   LB, UB: in o format
-	*/
-	int * __restrict__ In = Arg->In;
-	short int * __restrict__ Out = Arg->Out;
-	int Feat = Arg->InFeatures;
-	int S = Arg->W*Arg->H;
-	int LB = Arg->LB;
-       	char *pUB = (char *) Arg->UB;
-	int M = *Arg->MulBias;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int i,j,k,U,A,B,Log2Core;
-       	unsigned int CoreId = gap_coreid();
-       	unsigned int ChunkCell = ChunkSize(Feat);
-       	unsigned int First = CoreId*ChunkCell;
-       	unsigned int Last  = Min(First+ChunkCell, Feat);
-	int Size = S*Max(0, Last-First);
-
-	/* First normalize In, each parallel chunk overwrites it's own input
-	   After we are done In contains groups of contiguous normalized values
-	   each group beeing followed by an empty group of exactly the same size, these
-	   one need to be supressed, second step is taking care of this reduction */
-	for (int f=First; f<Last; f++) {
-		int * __restrict__ I = &In[S*f];
-		v2s * __restrict__ O = (v2s *)(&Out[S*f]);
-		int UB = pUB[f];
-		for (int i=0; i<(S/2); i++) {
-			int Acc0 = I[2*i], Acc1 = I[2*i+1];
-			Acc0 = Min(Max(AT_NORM(AT_NORM(Acc0, Norm)*M, NormBias), LB), UB);
-			Acc1 = Min(Max(AT_NORM(AT_NORM(Acc1, Norm)*M, NormBias), LB), UB);
-			O[i] = gap_pack2(Acc0, Acc1);
-		}
-		if (S&0x1) ((short int *)I)[S-1] = Min(Max(AT_NORM(AT_NORM(I[S-1], Norm)*M, NormBias), LB), UB);
-	}
-	gap_waitbarrier(0);
-	/* Now this is the reduction phase */
-	ChunkCell *= S;
-	U = gap_ncore()/2; Log2Core = gap_fl1(gap_ncore()); A = 2; B = 1;
-	for (k=0; k<Log2Core; k++) {
-		if (CoreId<U) {
-			short int *__restrict__ OOs = ((short int *)In+(A*CoreId+B)*ChunkCell);
-			short int *__restrict__ IIs = ((short int *)In+(2*(A*CoreId+B))*ChunkCell);
-			int *__restrict__ II = (int *) IIs;
-			int *__restrict__ OO = (int *) OOs;
-			for (i=0;i<(Size/4);i++) {
-				int V0 = II[2*i], V1 = II[2*i+1];
-				OO[2*i] = V0; OO[2*i+1] = V1;
-			}
-			for (i=((Size/4)*4); i<Size; i++) OOs[i] = IIs[i];
-		}
-		U = U/2; A = A*2; B = B*2;
-		gap_waitbarrier(0);
-	}
-}
-
 void KerDPMulBias_IO_fp(KerDP_fp_T *Arg)
 
 {
@@ -2928,67 +2225,6 @@ void KerDPMulBias_IO_fp(KerDP_fp_T *Arg)
 	}
 }
 
-void KerDPMulBias_IO_ReLUN_Vector_fp(KerDP_fp_T *Arg)
-
-{
-	/* Norm: w+i-o
-	   NormBias: m
-	   LB, UB: in o format
-	*/
-	int * __restrict__ In = Arg->In;
-	short int * __restrict__ Out = Arg->Out;
-	int S = Arg->W*Arg->H;
-	int Feat = Arg->InFeatures;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	short int * __restrict__ MB = Arg->MulBias;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int i,j,k,U,A,B,Log2Core;
-       	unsigned int CoreId = gap_coreid();
-       	unsigned int ChunkCell = ChunkSize(Feat);
-       	unsigned int First = CoreId*ChunkCell;
-       	unsigned int Last  = Min(First+ChunkCell, Feat);
-	int Size = S*Max(0, Last-First);
-
-	/* First normalize In, each parallel chunk overwrites it's own input
-	   After we are done In contains groups of contiguous normalized values
-	   each group beeing followed by an empty group of exactly the same size, these
-	   one need to be supressed, second step is taking care of this reduction */
-	for (int f=First; f<Last; f++) {
-		int *I = &In[S*f];
-		v2s *O = (v2s *)(&In[S*f]);
-		int M = MB[f];
-		int UB = pUB[f];
-		for (i=0; i<(S/2); i++) {
-			int Acc0 = I[2*i], Acc1 = I[2*i+1];
-			Acc0 = Min(Max(AT_NORM(AT_NORM(Acc0, Norm)*M, NormBias), LB), UB);
-			Acc1 = Min(Max(AT_NORM(AT_NORM(Acc1, Norm)*M, NormBias), LB), UB);
-			O[i] = gap_pack2(Acc0, Acc1);
-		}
-		if (S&0x1) ((short int *)I)[S-1] = Min(Max(AT_NORM(AT_NORM(I[S-1], Norm)*M, NormBias), LB), UB);
-	}
-	gap_waitbarrier(0);
-	/* Now this is the reduction phase */
-	ChunkCell *= S;
-	U = gap_ncore()/2; Log2Core = gap_fl1(gap_ncore()); A = 2; B = 1;
-	for (k=0; k<Log2Core; k++) {
-		if (CoreId<U) {
-			short int *__restrict__ OOs = ((short int *)In+(A*CoreId+B)*ChunkCell);
-			short int *__restrict__ IIs = ((short int *)In+(2*(A*CoreId+B))*ChunkCell);
-			int *__restrict__ II = (int *) IIs;
-			int *__restrict__ OO = (int *) OOs;
-			for (i=0;i<(Size/4);i++) {
-				int V0 = II[2*i], V1 = II[2*i+1];
-				OO[2*i] = V0; OO[2*i+1] = V1;
-			}
-			for (i=((Size/4)*4); i<Size; i++) OOs[i] = IIs[i];
-		}
-		U = U/2; A = A*2; B = B*2;
-		gap_waitbarrier(0);
-	}
-}
-
 void KerDP_fps(KerDP_fps_T *Arg)
 
 {
@@ -3004,55 +2240,21 @@ void KerDP_fps(KerDP_fps_T *Arg)
        	unsigned int CoreId = gap_coreid();
        	unsigned int ChunkCell = ChunkSize(S);
        	unsigned int First = CoreId*ChunkCell;
-       	unsigned int Last  = Min(First+ChunkCell, S);
-	int Size = Max(0, Last-First);
-
-	DP_fps_T * __restrict__ I = &In[First];
-	v4s * __restrict__ O = (v4s *)(&Out[First]);
-	signed char *__restrict__ Os = &Out[First];
-
-	for (i=0; i<(Size/4); i++) {
-		int Acc0 = I[4*i  ], Acc1 = I[4*i+1], Acc2 = I[4*i+2], Acc3 = I[4*i+3];
-		Acc0 = Min(Max(AT_NORM(Acc0, Norm), LB), UB); Acc1 = Min(Max(AT_NORM(Acc1, Norm), LB), UB);
-		Acc2 = Min(Max(AT_NORM(Acc2, Norm), LB), UB); Acc3 = Min(Max(AT_NORM(Acc3, Norm), LB), UB);
-		O[i] = gap_pack4(Acc0, Acc1, Acc2, Acc3);
-	}
-	for (i=((Size/4)*4); i<Size; i++) Os[i] = Min(Max(AT_NORM(I[i], Norm), LB), UB);
-
-	gap_waitbarrier(0);
-}
-
-void KerDP_ReLUN_Vector_fps(KerDP_fps_T *Arg)
-
-{
-	/* Norm: w+i-o
-	   LB, UB: in o format
-	*/
-	DP_fps_T * __restrict__ In = Arg->In;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int S = Arg->W*Arg->H;
-	int Feat = Arg->InFeatures;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	unsigned int Norm = Arg->Norm;
-       	unsigned int CoreId = gap_coreid();
-       	unsigned int ChunkCell = ChunkSize(Feat);
-       	unsigned int First = CoreId*ChunkCell;
-       	unsigned int Last  = Min(First+ChunkCell, Feat);
+       	unsigned int Last  = Min(First+ChunkCell, S);
+	int Size = Max(0, Last-First);
 
-	for (int f=First; f<Last; f++) {
-		DP_fps_T * __restrict__ I = &In[S*f];
-		v4s * __restrict__ O = (v4s *)(&Out[S*f]);
-		signed char *__restrict__ Os = &Out[S*f];
-		int UB = pUB[f];
-		for (int i=0; i<(S/4); i++) {
-			int Acc0 = I[4*i  ], Acc1 = I[4*i+1], Acc2 = I[4*i+2], Acc3 = I[4*i+3];
-			Acc0 = Min(Max(AT_NORM(Acc0, Norm), LB), UB); Acc1 = Min(Max(AT_NORM(Acc1, Norm), LB), UB);
-			Acc2 = Min(Max(AT_NORM(Acc2, Norm), LB), UB); Acc3 = Min(Max(AT_NORM(Acc3, Norm), LB), UB);
-			O[i] = gap_pack4(Acc0, Acc1, Acc2, Acc3);
-		}
-		for (int i=((S/4)*4); i<S; i++) Os[i] = Min(Max(AT_NORM(I[i], Norm), LB), UB);
+	DP_fps_T * __restrict__ I = &In[First];
+	v4s * __restrict__ O = (v4s *)(&Out[First]);
+	signed char *__restrict__ Os = &Out[First];
+
+	for (i=0; i<(Size/4); i++) {
+		int Acc0 = I[4*i  ], Acc1 = I[4*i+1], Acc2 = I[4*i+2], Acc3 = I[4*i+3];
+		Acc0 = Min(Max(AT_NORM(Acc0, Norm), LB), UB); Acc1 = Min(Max(AT_NORM(Acc1, Norm), LB), UB);
+		Acc2 = Min(Max(AT_NORM(Acc2, Norm), LB), UB); Acc3 = Min(Max(AT_NORM(Acc3, Norm), LB), UB);
+		O[i] = gap_pack4(Acc0, Acc1, Acc2, Acc3);
 	}
+	for (i=((Size/4)*4); i<Size; i++) Os[i] = Min(Max(AT_NORM(I[i], Norm), LB), UB);
+
 	gap_waitbarrier(0);
 }
 
@@ -3174,45 +2376,6 @@ void KerDPMulBiasScalar_fps(KerDP_fps_T *Arg)
 	gap_waitbarrier(0);
 }
 
-void KerDPMulBiasScalar_ReLUN_Vector_fps(KerDP_fps_T *Arg)
-
-{
-	/* Norm: w+i-o
-	   NormBias: m
-	   LB, UB: in o format
-	*/
-	DP_fps_T * __restrict__ In = Arg->In;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int S = Arg->W*Arg->H;
-	int Feat = Arg->InFeatures;
-	int LB = Arg->LB;
-	char *pUB = (char *)Arg->UB;
-	int M = *Arg->MulBias;
-	unsigned int Norm = Arg->Norm+Arg->NormBias;
-	int i, j;
-       	unsigned int CoreId = gap_coreid();
-       	unsigned int ChunkCell = ChunkSize(Feat);
-       	unsigned int First = CoreId*ChunkCell;
-       	unsigned int Last  = Min(First+ChunkCell, Feat);
-	int Size = S*Max(0, Last-First);
-
-	for (int f=First; f<Last; f++) {
-		DP_fps_T * __restrict__ I = &In[S*f];
-		v4s * __restrict__ O = (v4s *)(&Out[S*f]);
-		signed char *__restrict__ Os = &Out[S*f];
-		int UB = pUB[f];
-		for (i=0; i<(S/4); i++) {
-			int Acc0 = I[4*i  ], Acc1 = I[4*i+1],
-			    Acc2 = I[4*i+2], Acc3 = I[4*i+3];
-			Acc0 = Min(Max(AT_NORM(Acc0*M, Norm), LB), UB); Acc1 = Min(Max(AT_NORM(Acc1*M, Norm), LB), UB);
-			Acc2 = Min(Max(AT_NORM(Acc2*M, Norm), LB), UB); Acc3 = Min(Max(AT_NORM(Acc3*M, Norm), LB), UB);
-			O[i] = gap_pack4(Acc0, Acc1, Acc2, Acc3);
-		}
-		for (i=((S/4)*4); i<S; i++) Os[i] = Min(Max(AT_NORM(I[i]*M, Norm), LB), UB);
-	}
-	gap_waitbarrier(0);
-}
-
 void KerDPMulBias_fps(KerDP_fps_T *Arg)
 
 {
@@ -3251,46 +2414,6 @@ void KerDPMulBias_fps(KerDP_fps_T *Arg)
 	gap_waitbarrier(0);
 }
 
-void KerDPMulBias_ReLUN_Vector_fps(KerDP_fps_T *Arg)
-
-{
-	/* Norm: w+i-o
-	   NormBias: m
-	   LB, UB: in o format
-	*/
-	DP_fps_T * __restrict__ In = Arg->In;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int S = Arg->W*Arg->H;
-	int Feat = Arg->InFeatures;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	signed char * __restrict__ MB = Arg->MulBias;
-	unsigned int Norm = Arg->Norm+Arg->NormBias;
-	int i, j;
-       	unsigned int CoreId = gap_coreid();
-       	unsigned int ChunkCell = ChunkSize(Feat);
-       	unsigned int First = CoreId*ChunkCell;
-       	unsigned int Last  = Min(First+ChunkCell, Feat);
-	int Size = S*Max(0, Last-First);
-
-	for (int f=First; f<Last; f++) {
-		DP_fps_T * __restrict__ I = &In[S*f];
-		v4s * __restrict__ O = (v4s *)(&Out[S*f]);
-		signed char *__restrict__ Os = &Out[S*f];
-		int M = MB[f];
-		int UB = pUB[f];
-		for (i=0; i<(S/4); i++) {
-			int Acc0 = I[4*i  ], Acc1 = I[4*i+1],
-			    Acc2 = I[4*i+2], Acc3 = I[4*i+3];
-			Acc0 = Min(Max(AT_NORM(Acc0*M, Norm), LB), UB); Acc1 = Min(Max(AT_NORM(Acc1*M, Norm), LB), UB);
-			Acc2 = Min(Max(AT_NORM(Acc2*M, Norm), LB), UB); Acc3 = Min(Max(AT_NORM(Acc3*M, Norm), LB), UB);
-			O[i] = gap_pack4(Acc0, Acc1, Acc2, Acc3);
-		}
-		for (i=((S/4)*4); i<S; i++) Os[i] = Min(Max(AT_NORM(I[i]*M, Norm), LB), UB);
-	}
-	gap_waitbarrier(0);
-}
-
 void KerDP_leakyrelu_fps(KerDP_fps_T *Arg)
 
 {
@@ -3376,64 +2499,6 @@ void KerDP_IO_fps(KerDP_fps_T *Arg)
 	}
 }
 
-void KerDP_IO_ReLUN_Vector_fps(KerDP_fps_T *Arg)
-
-{
-	/* Norm: w+i-o
-	   LB, UB: in o format
-	*/
-	DP_fps_T * __restrict__ In = Arg->In;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int S = Arg->W*Arg->H;
-	int Feat = Arg->InFeatures;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	int i,j,k,U,A,B,Log2Core;
-	unsigned int Norm = Arg->Norm;
-       	unsigned int CoreId = gap_coreid();
-       	unsigned int ChunkCell = ChunkSize(Feat);
-       	unsigned int First = CoreId*ChunkCell;
-       	unsigned int Last  = Min(First+ChunkCell, Feat);
-	int Size = S*Max(0, Last-First);
-
-	/* First normalize In, each parallel chunk overwrites it's own input
-	   After we are done In contains groups of contiguous normalized values
-	   each group beeing followed by an empty group of exactly the same size, these
-	   one need to be supressed, second step is taking care of this reduction */
-	for (int f=First; f<Last; f++) {
-		DP_fps_T * __restrict__ I = &In[S*f];
-		v4s * __restrict__ O = (v4s *)(&Out[S*f]);
-		signed char *__restrict__ Os = &Out[S*f];
-		int UB = pUB[f];
-		for (int i=0; i<(S/4); i++) {
-			int Acc0 = I[4*i  ], Acc1 = I[4*i+1], Acc2 = I[4*i+2], Acc3 = I[4*i+3];
-			Acc0 = Min(Max(AT_NORM(Acc0, Norm), LB), UB); Acc1 = Min(Max(AT_NORM(Acc1, Norm), LB), UB);
-			Acc2 = Min(Max(AT_NORM(Acc2, Norm), LB), UB); Acc3 = Min(Max(AT_NORM(Acc3, Norm), LB), UB);
-			O[i] = gap_pack4(Acc0, Acc1, Acc2, Acc3);
-		}
-		for (int i=((S/4)*4); i<S; i++) Os[i] = Min(Max(AT_NORM(I[i], Norm), LB), UB);
-	}
-	gap_waitbarrier(0);
-
-	ChunkCell *= S;
-	U = gap_ncore()/2; Log2Core = gap_fl1(gap_ncore()); A = 2; B = 1;
-	for (k=0; k<Log2Core; k++) {
-		if (CoreId<U) {
-			signed char *__restrict__ OOs = ((signed char *)In+(A*CoreId+B)*ChunkCell);
-			signed char *__restrict__ IIs = ((signed char *)In+((sizeof(DP_fps_T)/sizeof(signed char))*(A*CoreId+B))*ChunkCell);
-			int *__restrict__ II = (int *) IIs;
-			int *__restrict__ OO = (int *) OOs;
-			for (i=0;i<Size/8;i++) {
-				int V0 = II[2*i], V1 = II[2*i+1];
-				OO[2*i] = V0; OO[2*i+1] = V1;
-			}
-			for (i=((Size/8)*8); i<Size; i++) OOs[i] = IIs[i];
-		}
-		U = U/2; A = A*2; B = B*2;
-		gap_waitbarrier(0);
-	}
-}
-
 void KerDP_IO_hswish_fps(KerDP_fps_T *Arg)
 
 {
@@ -3670,68 +2735,6 @@ void KerDPMulBiasScalar_IO_fps(KerDP_fps_T *Arg)
 	}
 }
 
-void KerDPMulBiasScalar_IO_ReLUN_Vector_fps(KerDP_fps_T *Arg)
-
-{
-	/* Norm: w+i-o
-	   NormBias: m
-	   LB, UB: in o format
-	*/
-	DP_fps_T * __restrict__ In = Arg->In;
-	signed char * __restrict__ Out = Arg->Out;
-	int Feat = Arg->InFeatures;
-	int S = Arg->W*Arg->H;
-	unsigned int Norm = Arg->Norm+Arg->NormBias;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	int M = *Arg->MulBias;
-	int i,j,k,U,A,B,Log2Core;
-       	unsigned int CoreId = gap_coreid();
-       	unsigned int ChunkCell = ChunkSize(Feat);
-       	unsigned int First = CoreId*ChunkCell;
-       	unsigned int Last  = Min(First+ChunkCell, Feat);
-	int Size = S*Max(0, Last-First);
-
-
-	/* First normalize In, each parallel chunk overwrites it's own input
-	   After we are done In contains groups of contiguous normalized values
-	   each group beeing followed by an empty group of exactly the same size, these
-	   one need to be supressed, second step is taking care of this reduction */
-	for (int f=First; f<Last; f++) {
-		DP_fps_T *I = &In[S*f];
-		v4s *O = (v4s *)(&In[S*f]);
-		signed char *Os = (signed char *) (In + S*f);
-		int UB = pUB[f];
-		for (i=0; i<(S/4); i++) {
-			int Acc0 = I[4*i], Acc1 = I[4*i+1],
-		    	    Acc2 = I[4*i+2], Acc3 = I[4*i+3];
-			Acc0 = Min(Max(AT_NORM(Acc0*M, Norm), LB), UB); Acc1 = Min(Max(AT_NORM(Acc1*M, Norm), LB), UB);
-			Acc2 = Min(Max(AT_NORM(Acc2*M, Norm), LB), UB); Acc3 = Min(Max(AT_NORM(Acc3*M, Norm), LB), UB);
-			O[i] = gap_pack4(Acc0, Acc1, Acc2, Acc3);
-		}
-		for (i=((S/4)*4); i<S; i++) Os[i] = Min(Max(AT_NORM(I[i]*M, Norm), LB), UB);
-	}
-	gap_waitbarrier(0);
-
-	ChunkCell *= S;
-	U = gap_ncore()/2; Log2Core = gap_fl1(gap_ncore()); A = 2; B = 1;
-	for (k=0; k<Log2Core; k++) {
-		if (CoreId<U) {
-			signed char *__restrict__ OOs = ((signed char *)In+(A*CoreId+B)*ChunkCell);
-			signed char *__restrict__ IIs = ((signed char *)In+((sizeof(DP_fps_T)/sizeof(signed char))*(A*CoreId+B))*ChunkCell);
-			int *__restrict__ II = (int *) IIs;
-			int *__restrict__ OO = (int *) OOs;
-			for (i=0;i<Size/8;i++) {
-				int V0 = II[2*i], V1 = II[2*i+1];
-				OO[2*i] = V0; OO[2*i+1] = V1;
-			}
-			for (i=((Size/8)*8); i<Size; i++) OOs[i] = IIs[i];
-		}
-		U = U/2; A = A*2; B = B*2;
-		gap_waitbarrier(0);
-	}
-}
-
 void KerDPMulBias_IO_fps(KerDP_fps_T *Arg)
 
 {
@@ -3792,66 +2795,3 @@ void KerDPMulBias_IO_fps(KerDP_fps_T *Arg)
 		gap_waitbarrier(0);
 	}
 }
-
-void KerDPMulBias_IO_ReLUN_Vector_fps(KerDP_fps_T *Arg)
-
-{
-	/* Norm: w+i-o
-	   NormBias: m
-	   LB, UB: in o format
-	*/
-	DP_fps_T * __restrict__ In = Arg->In;
-	signed char * __restrict__ Out = Arg->Out;
-	int Feat = Arg->InFeatures;
-	int S = Arg->W*Arg->H;
-	unsigned int Norm = Arg->Norm+Arg->NormBias;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	signed char * __restrict__ MB = Arg->MulBias;
-	int i,j,k,U,A,B,Log2Core;
-       	unsigned int CoreId = gap_coreid();
-       	unsigned int ChunkCell = ChunkSize(Feat);
-       	unsigned int First = CoreId*ChunkCell;
-       	unsigned int Last  = Min(First+ChunkCell, Feat);
-	int Size = S*Max(0, Last-First);
-
-
-	/* First normalize In, each parallel chunk overwrites it's own input
-	   After we are done In contains groups of contiguous normalized values
-	   each group beeing followed by an empty group of exactly the same size, these
-	   one need to be supressed, second step is taking care of this reduction */
-	for (int f=First; f<Last; f++) {
-		DP_fps_T *I = &In[S*f];
-		v4s *O = (v4s *)(&In[S*f]);
-		signed char *Os = (signed char *) (In + S*f);
-		int M = MB[f];
-		int UB = pUB[f];
-		for (i=0; i<(S/4); i++) {
-			int Acc0 = I[4*i], Acc1 = I[4*i+1],
-		    	    Acc2 = I[4*i+2], Acc3 = I[4*i+3];
-			Acc0 = Min(Max(AT_NORM(Acc0*M, Norm), LB), UB); Acc1 = Min(Max(AT_NORM(Acc1*M, Norm), LB), UB);
-			Acc2 = Min(Max(AT_NORM(Acc2*M, Norm), LB), UB); Acc3 = Min(Max(AT_NORM(Acc3*M, Norm), LB), UB);
-			O[i] = gap_pack4(Acc0, Acc1, Acc2, Acc3);
-		}
-		for (i=((S/4)*4); i<S; i++) Os[i] = Min(Max(AT_NORM(I[i]*M, Norm), LB), UB);
-	}
-	gap_waitbarrier(0);
-
-	ChunkCell *= S;
-	U = gap_ncore()/2; Log2Core = gap_fl1(gap_ncore()); A = 2; B = 1;
-	for (k=0; k<Log2Core; k++) {
-		if (CoreId<U) {
-			signed char *__restrict__ OOs = ((signed char *)In+(A*CoreId+B)*ChunkCell);
-			signed char *__restrict__ IIs = ((signed char *)In+((sizeof(DP_fps_T)/sizeof(signed char))*(A*CoreId+B))*ChunkCell);
-			int *__restrict__ II = (int *) IIs;
-			int *__restrict__ OO = (int *) OOs;
-			for (i=0;i<Size/8;i++) {
-				int V0 = II[2*i], V1 = II[2*i+1];
-				OO[2*i] = V0; OO[2*i+1] = V1;
-			}
-			for (i=((Size/8)*8); i<Size; i++) OOs[i] = IIs[i];
-		}
-		U = U/2; A = A*2; B = B*2;
-		gap_waitbarrier(0);
-	}
-}
diff --git a/tools/autotiler_v3/generators/CNN/CNN_Bias_Linear_SQ8.c b/tools/autotiler_v3/generators/CNN/CNN_Bias_Linear_SQ8.c
new file mode 100644
index 000000000..137194bdd
--- /dev/null
+++ b/tools/autotiler_v3/generators/CNN/CNN_Bias_Linear_SQ8.c
@@ -0,0 +1,464 @@
+#include "Gap.h"
+#include "CNN_BasicKernels_SQ8.h"
+
+#define VOL volatile
+
+
+static int CoreCountDynamic = 1;
+static int ActiveCore = gap_ncore();
+
+static inline unsigned int __attribute__((always_inline)) ChunkSize(unsigned int X)
+
+{
+	unsigned int NCore;
+	unsigned int Log2Core;
+	unsigned int Chunk;
+
+	if (CoreCountDynamic) NCore = ActiveCore; else NCore = gap_ncore();
+	Log2Core = gap_fl1(NCore);
+	Chunk = (X>>Log2Core) + ((X&(NCore-1))!=0);
+	return Chunk;
+}
+
+
+/* Set output features maps initial bias group
+
+	KerParSetBiasB32_SQ8		Bias and out are int, output feature maps are evaluated in parallel (one per core)
+	KerParSetBiasB16_SQ8		Bias is half word, out is int, output feature maps are evaluated in parallel (one per core)
+	KerParSetBiasB8_SQ8		Bias is byte, out is int, output feature maps are evaluated in parallel (one per core)
+
+	KerSetBiasB32_SQ8		Bias and out are int, a single output feature map is evaluated in parallel on all cores
+	KerSetBiasB16_SQ8		Bias is short, out is int, a single output feature map is evaluated in parallel on all cores
+	KerSetBiasB8_SQ8		Bias is byte, out is int, a single output feature map is evaluated in parallel on all cores
+*/
+
+/* Set Bias, all outputs evalauted in parallel */
+void KerParSetBiasB32_SQ8(KerSetBias_SQ8_T *Arg)
+
+{
+	int * __restrict__ Out = Arg->Out;
+	unsigned int W = Arg->W, H = Arg->H, Feat = Arg->Feat;
+	int * __restrict__ Bias = Arg->Bias;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	for (unsigned int of=First; of<Last; of++) {
+		int *LineOut = (int *) (Out+W*H*of);
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		for (unsigned int i=0; i<((W*H)/2); i++) {
+			LineOut[2*i] = B; LineOut[2*i+1] = B;
+		}
+		LineOut[W*H-1] = B;
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParSetBiasB16_SQ8(KerSetBias_SQ8_T *Arg)
+
+{
+	int * __restrict__ Out = Arg->Out;
+	unsigned int W = Arg->W, H = Arg->H, Feat = Arg->Feat;
+	short int * __restrict__ Bias = Arg->Bias;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	for (unsigned int of=First; of<Last; of++) {
+		int *LineOut = (int *) (Out+W*H*of);
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		for (unsigned int i=0; i<((W*H)/2); i++) {
+			LineOut[2*i] = B; LineOut[2*i+1] = B;
+		}
+		LineOut[W*H-1] = B;
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParSetBiasB8_SQ8(KerSetBias_SQ8_T *Arg)
+
+{
+	int * __restrict__ Out = Arg->Out;
+	unsigned int W = Arg->W, H = Arg->H, Feat = Arg->Feat;
+	signed char * __restrict__ Bias = Arg->Bias;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	for (unsigned int of=First; of<Last; of++) {
+		int *LineOut = (int *) (Out+W*H*of);
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		for (unsigned int i=0; i<((W*H)/2); i++) {
+			LineOut[2*i] = B; LineOut[2*i+1] = B;
+		}
+		LineOut[W*H-1] = B;
+	}
+	gap_waitbarrier(0);
+}
+
+/* Set bias, one output evaluated in parallel */
+void KerSetBiasB32_SQ8(KerSetBias_SQ8_T *Arg)
+
+{
+	int * __restrict__ Out = Arg->Out;
+	unsigned int W = Arg->W, H = Arg->H, Feat = Arg->Feat;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(W*H), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, W*H), Iter = Max(0, Last-First);
+
+	for (unsigned int f=0; f<Feat; f++) {
+		int B = AT_LSHIFT(Bias[f], NormBias);
+		for (unsigned int i=0; i<Iter/2; i++) {
+			Out[W*H*f + First + 2*i] = B; Out[W*H*f + First + 2*i+1] = B;
+		}
+		if (Iter&0x1) Out[W*H*f + First + Iter-1] = B;
+	}
+	gap_waitbarrier(0);
+}
+
+void KerSetBiasB16_SQ8(KerSetBias_SQ8_T *Arg)
+
+{
+	int * __restrict__ Out = Arg->Out;
+	unsigned int W = Arg->W, H = Arg->H, Feat = Arg->Feat;
+	short int * __restrict__ Bias = Arg->Bias;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(W*H), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, W*H), Iter = Max(0, Last-First);
+
+	for (int f=0; f<Feat; f++) {
+		int B = AT_LSHIFT(Bias[f], NormBias);
+		for (int i=0; i<Iter/2; i++) {
+			Out[W*H*f + First + 2*i] = B; Out[W*H*f + First + 2*i+1] = B;
+		}
+		if (Iter&0x1) Out[W*H*f + First + Iter-1] = B;
+	}
+	gap_waitbarrier(0);
+}
+
+void KerSetBiasB8_SQ8(KerSetBias_SQ8_T *Arg)
+
+{
+	int * __restrict__ Out = Arg->Out;
+	unsigned int W = Arg->W, H = Arg->H, Feat = Arg->Feat;
+	signed char * __restrict__ Bias = Arg->Bias;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(W*H), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, W*H), Iter = Max(0, Last-First);
+
+	for (int f=0; f<Feat; f++) {
+		int B = AT_LSHIFT(Bias[f], NormBias);
+		for (int i=0; i<Iter/2; i++) {
+			Out[W*H*f + First + 2*i] = B; Out[W*H*f + First + 2*i+1] = B;
+		}
+		if (Iter&0x1) Out[W*H*f + First + Iter-1] = B;
+	}
+	gap_waitbarrier(0);
+}
+
+/**************************************************************************************************************************************
+	Linear Layer with 32b output. Bias assumed to be set before. Scaling and activation done after
+**************************************************************************************************************************************/
+
+/* Output cannnot be evaluated completly, result on 32b, Bias assumed to be set before and reduction/scaling/activation after */
+void KerParLinearLayer_SQ8(KerLinear_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = Arg->In;
+	int TotalInDim = Arg->TotalInDim;				// Reorganize weight layout to make TotalInDim = InDim
+	unsigned int InDim = Arg->InDim, OutDim = Arg->OutDim;
+	const signed char * __restrict__ Weights = Arg->Weights;
+	int * __restrict__ Out = Arg->Out;
+
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(OutDim), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, OutDim);
+	v4s * __restrict__ VectIn = (v4s *) In;
+
+	for (int i=First; i<Last; i++) {
+		v4s * __restrict__ W = (v4s *) (&Weights[i*TotalInDim]);
+		int Acc = Out[i];
+		for (int j=0; j<(InDim/(4*2)); j++) {
+			v4s V0=VectIn[2*j], V1=VectIn[2*j+1];
+			v4s C0=W[2*j], C1=W[2*j+1];
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		}
+		if (InDim&0x4) Acc = gap_sumdotp4(VectIn[InDim/4-1], W[InDim/4-1], Acc);
+		for (int j=4*(InDim/4); j<InDim; j++) Acc += In[j]*Weights[i*TotalInDim+j];
+		Out[i] = Acc;
+	}
+	gap_waitbarrier(0);
+}
+
+/* Output can be evaluated completly */
+/* 8b Bias */
+void KerParLinearLayerFullFeatB8_SQ8(KerLinear_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = Arg->In;
+	unsigned int InDim = Arg->InDim, OutDim = Arg->OutDim;
+	const signed char * __restrict__ Weights = Arg->Weights;
+	const signed char * __restrict__ Bias = Arg->Bias;
+	unsigned int NormBias = ((unsigned char *)Arg->Infos)[AT_INF_BIASN];
+	unsigned char *Scale = Arg->Scale;
+	unsigned char *ScaleN = Arg->ScaleN;
+	signed char * __restrict__ Out = (signed char * __restrict__) Arg->Out;
+
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(OutDim), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, OutDim);
+	v4s * __restrict__ VectIn = (v4s *) In;
+
+	for (int i=First; i<Last; i++) {
+		v4s * __restrict__ W = (v4s *) (&Weights[i*InDim]);
+		int Acc = AT_LSHIFT(Bias[i], NormBias);
+		for (int j=0; j<(InDim/(4*2)); j++) {
+			v4s V0=VectIn[2*j], V1=VectIn[2*j+1];
+			v4s C0=W[2*j], C1=W[2*j+1];
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		}
+		if (InDim&0x4) Acc = gap_sumdotp4(VectIn[InDim/4-1], W[InDim/4-1], Acc);
+		for (int j=4*(InDim/4); j<InDim; j++) Acc += In[j]*Weights[i*InDim+j];
+		Out[i] = gap_clip(AT_SCALE(Acc, Scale[i], ScaleN[i]), 7);
+	}
+	gap_waitbarrier(0);
+}
+
+
+void KerParLinearLayerFullFeatB8_ReLU_SQ8(KerLinear_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = Arg->In;
+	unsigned int InDim = Arg->InDim, OutDim = Arg->OutDim;
+	const signed char * __restrict__ Weights = Arg->Weights;
+	const signed char * __restrict__ Bias = Arg->Bias;
+	unsigned int NormBias = ((unsigned char *)Arg->Infos)[AT_INF_BIASN];
+	unsigned char *Scale = Arg->Scale;
+	unsigned char *ScaleN = Arg->ScaleN;
+	signed char * __restrict__ Out = (signed char * __restrict__) Arg->Out;
+
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(OutDim), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, OutDim);
+	v4s * __restrict__ VectIn = (v4s *) In;
+
+	for (int i=First; i<Last; i++) {
+		v4s * __restrict__ W = (v4s *) (&Weights[i*InDim]);
+		int Acc = AT_LSHIFT(Bias[i], NormBias);
+		for (int j=0; j<(InDim/(4*2)); j++) {
+			v4s V0=VectIn[2*j], V1=VectIn[2*j+1];
+			v4s C0=W[2*j], C1=W[2*j+1];
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		}
+		if (InDim&0x4) Acc = gap_sumdotp4(VectIn[InDim/4-1], W[InDim/4-1], Acc);
+		for (int j=4*(InDim/4); j<InDim; j++) Acc += In[j]*Weights[i*InDim+j];
+		Out[i] = Max(0, gap_clip(AT_SCALE(Acc, Scale[i], ScaleN[i]), 7));
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParLinearLayerFullFeatB8_ReLUN_SQ8(KerLinear_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = Arg->In;
+	unsigned int InDim = Arg->InDim, OutDim = Arg->OutDim;
+	const signed char * __restrict__ Weights = Arg->Weights;
+	const signed char * __restrict__ Bias = Arg->Bias;
+	unsigned int NormBias = ((unsigned char *)Arg->Infos)[AT_INF_BIASN];
+	unsigned char *Scale = Arg->Scale;
+	unsigned char *ScaleN = Arg->ScaleN;
+	int A0 = Arg->Infos[AT_INF_A0];
+	signed char * __restrict__ Out = (signed char * __restrict__) Arg->Out;
+
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(OutDim), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, OutDim);
+	v4s * __restrict__ VectIn = (v4s *) In;
+
+	for (int i=First; i<Last; i++) {
+		v4s * __restrict__ W = (v4s *) (&Weights[i*InDim]);
+		int Acc = AT_LSHIFT(Bias[i], NormBias);
+		for (int j=0; j<(InDim/(4*2)); j++) {
+			v4s V0=VectIn[2*j], V1=VectIn[2*j+1];
+			v4s C0=W[2*j], C1=W[2*j+1];
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		}
+		if (InDim&0x4) Acc = gap_sumdotp4(VectIn[InDim/4-1], W[InDim/4-1], Acc);
+		for (int j=4*(InDim/4); j<InDim; j++) Acc += In[j]*Weights[i*InDim+j];
+		Out[i] = Max(0, Min(A0, AT_SCALE(Acc, Scale[i], ScaleN[i])));
+	}
+	gap_waitbarrier(0);
+}
+
+/* 16b Bias */
+void KerParLinearLayerFullFeatB16_SQ8(KerLinear_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = Arg->In;
+	unsigned int InDim = Arg->InDim, OutDim = Arg->OutDim;
+	const signed char * __restrict__ Weights = Arg->Weights;
+	const short int * __restrict__ Bias = Arg->Bias;
+	unsigned int NormBias = ((unsigned char *)Arg->Infos)[AT_INF_BIASN];
+	unsigned char *Scale = Arg->Scale;
+	unsigned char *ScaleN = Arg->ScaleN;
+	signed char * __restrict__ Out = (signed char * __restrict__) Arg->Out;
+
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(OutDim), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, OutDim);
+	v4s * __restrict__ VectIn = (v4s *) In;
+
+	for (int i=First; i<Last; i++) {
+		v4s * __restrict__ W = (v4s *) (&Weights[i*InDim]);
+		int Acc = AT_LSHIFT(Bias[i], NormBias);
+		for (int j=0; j<(InDim/(4*2)); j++) {
+			v4s V0=VectIn[2*j], V1=VectIn[2*j+1];
+			v4s C0=W[2*j], C1=W[2*j+1];
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		}
+		if (InDim&0x4) Acc = gap_sumdotp4(VectIn[InDim/4-1], W[InDim/4-1], Acc);
+		for (int j=4*(InDim/4); j<InDim; j++) Acc += In[j]*Weights[i*InDim+j];
+		Out[i] = gap_clip(AT_SCALE(Acc, Scale[i], ScaleN[i]), 7);
+	}
+	gap_waitbarrier(0);
+}
+
+
+void KerParLinearLayerFullFeatB16_ReLU_SQ8(KerLinear_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = Arg->In;
+	unsigned int InDim = Arg->InDim, OutDim = Arg->OutDim;
+	const signed char * __restrict__ Weights = Arg->Weights;
+	const short int * __restrict__ Bias = Arg->Bias;
+	unsigned int NormBias = ((unsigned char *)Arg->Infos)[AT_INF_BIASN];
+	unsigned char *Scale = Arg->Scale;
+	unsigned char *ScaleN = Arg->ScaleN;
+	signed char * __restrict__ Out = (signed char * __restrict__) Arg->Out;
+
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(OutDim), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, OutDim);
+	v4s * __restrict__ VectIn = (v4s *) In;
+
+	for (int i=First; i<Last; i++) {
+		v4s * __restrict__ W = (v4s *) (&Weights[i*InDim]);
+		int Acc = AT_LSHIFT(Bias[i], NormBias);
+		for (int j=0; j<(InDim/(4*2)); j++) {
+			v4s V0=VectIn[2*j], V1=VectIn[2*j+1];
+			v4s C0=W[2*j], C1=W[2*j+1];
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		}
+		if (InDim&0x4) Acc = gap_sumdotp4(VectIn[InDim/4-1], W[InDim/4-1], Acc);
+		for (int j=4*(InDim/4); j<InDim; j++) Acc += In[j]*Weights[i*InDim+j];
+		Out[i] = Max(0, gap_clip(AT_SCALE(Acc, Scale[i], ScaleN[i]), 7));
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParLinearLayerFullFeatB16_ReLUN_SQ8(KerLinear_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = Arg->In;
+	unsigned int InDim = Arg->InDim, OutDim = Arg->OutDim;
+	const signed char * __restrict__ Weights = Arg->Weights;
+	const short int * __restrict__ Bias = Arg->Bias;
+	unsigned int NormBias = ((unsigned char *)Arg->Infos)[AT_INF_BIASN];
+	unsigned char *Scale = Arg->Scale;
+	unsigned char *ScaleN = Arg->ScaleN;
+	int A0 = Arg->Infos[AT_INF_A0];
+	signed char * __restrict__ Out = (signed char * __restrict__) Arg->Out;
+
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(OutDim), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, OutDim);
+	v4s * __restrict__ VectIn = (v4s *) In;
+
+	for (int i=First; i<Last; i++) {
+		v4s * __restrict__ W = (v4s *) (&Weights[i*InDim]);
+		int Acc = AT_LSHIFT(Bias[i], NormBias);
+		for (int j=0; j<(InDim/(4*2)); j++) {
+			v4s V0=VectIn[2*j], V1=VectIn[2*j+1];
+			v4s C0=W[2*j], C1=W[2*j+1];
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		}
+		if (InDim&0x4) Acc = gap_sumdotp4(VectIn[InDim/4-1], W[InDim/4-1], Acc);
+		for (int j=4*(InDim/4); j<InDim; j++) Acc += In[j]*Weights[i*InDim+j];
+		Out[i] = Max(0, Min(A0, AT_SCALE(Acc, Scale[i], ScaleN[i])));
+	}
+	gap_waitbarrier(0);
+}
+
+/* 32b Bias */
+void KerParLinearLayerFullFeatB32_SQ8(KerLinear_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = Arg->In;
+	unsigned int InDim = Arg->InDim, OutDim = Arg->OutDim;
+	const signed char * __restrict__ Weights = Arg->Weights;
+	const int * __restrict__ Bias = Arg->Bias;
+	unsigned int NormBias = ((unsigned char *)Arg->Infos)[AT_INF_BIASN];
+	unsigned char *Scale = Arg->Scale;
+	unsigned char *ScaleN = Arg->ScaleN;
+	signed char * __restrict__ Out = (signed char * __restrict__) Arg->Out;
+
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(OutDim), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, OutDim);
+	v4s * __restrict__ VectIn = (v4s *) In;
+
+	for (int i=First; i<Last; i++) {
+		v4s * __restrict__ W = (v4s *) (&Weights[i*InDim]);
+		int Acc = AT_LSHIFT(Bias[i], NormBias);
+		for (int j=0; j<(InDim/(4*2)); j++) {
+			v4s V0=VectIn[2*j], V1=VectIn[2*j+1];
+			v4s C0=W[2*j], C1=W[2*j+1];
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		}
+		if (InDim&0x4) Acc = gap_sumdotp4(VectIn[InDim/4-1], W[InDim/4-1], Acc);
+		for (int j=4*(InDim/4); j<InDim; j++) Acc += In[j]*Weights[i*InDim+j];
+		Out[i] = gap_clip(AT_SCALE(Acc, Scale[i], ScaleN[i]), 7);
+	}
+	gap_waitbarrier(0);
+}
+
+
+void KerParLinearLayerFullFeatB32_ReLU_SQ8(KerLinear_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = Arg->In;
+	unsigned int InDim = Arg->InDim, OutDim = Arg->OutDim;
+	const signed char * __restrict__ Weights = Arg->Weights;
+	const int * __restrict__ Bias = Arg->Bias;
+	unsigned int NormBias = ((unsigned char *)Arg->Infos)[AT_INF_BIASN];
+	unsigned char *Scale = Arg->Scale;
+	unsigned char *ScaleN = Arg->ScaleN;
+	signed char * __restrict__ Out = (signed char * __restrict__) Arg->Out;
+
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(OutDim), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, OutDim);
+	v4s * __restrict__ VectIn = (v4s *) In;
+
+	for (int i=First; i<Last; i++) {
+		v4s * __restrict__ W = (v4s *) (&Weights[i*InDim]);
+		int Acc = AT_LSHIFT(Bias[i], NormBias);
+		for (int j=0; j<(InDim/(4*2)); j++) {
+			v4s V0=VectIn[2*j], V1=VectIn[2*j+1];
+			v4s C0=W[2*j], C1=W[2*j+1];
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		}
+		if (InDim&0x4) Acc = gap_sumdotp4(VectIn[InDim/4-1], W[InDim/4-1], Acc);
+		for (int j=4*(InDim/4); j<InDim; j++) Acc += In[j]*Weights[i*InDim+j];
+		Out[i] = Max(0, gap_clip(AT_SCALE(Acc, Scale[i], ScaleN[i]), 7));
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParLinearLayerFullFeatB32_ReLUN_SQ8(KerLinear_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = Arg->In;
+	unsigned int InDim = Arg->InDim, OutDim = Arg->OutDim;
+	const signed char * __restrict__ Weights = Arg->Weights;
+	const int * __restrict__ Bias = Arg->Bias;
+	unsigned int NormBias = ((unsigned char *)Arg->Infos)[AT_INF_BIASN];
+	unsigned char *Scale = Arg->Scale;
+	unsigned char *ScaleN = Arg->ScaleN;
+	int A0 = Arg->Infos[AT_INF_A0];
+	signed char * __restrict__ Out = (signed char * __restrict__) Arg->Out;
+
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(OutDim), First = CoreId*ChunkCell, Last  = Min(First+ChunkCell, OutDim);
+	v4s * __restrict__ VectIn = (v4s *) In;
+
+	for (int i=First; i<Last; i++) {
+		v4s * __restrict__ W = (v4s *) (&Weights[i*InDim]);
+		int Acc = AT_LSHIFT(Bias[i], NormBias);
+		for (int j=0; j<(InDim/(4*2)); j++) {
+			v4s V0=VectIn[2*j], V1=VectIn[2*j+1];
+			v4s C0=W[2*j], C1=W[2*j+1];
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		}
+		if (InDim&0x4) Acc = gap_sumdotp4(VectIn[InDim/4-1], W[InDim/4-1], Acc);
+		for (int j=4*(InDim/4); j<InDim; j++) Acc += In[j]*Weights[i*InDim+j];
+		Out[i] = Max(0, Min(A0, AT_SCALE(Acc, Scale[i], ScaleN[i])));
+	}
+	gap_waitbarrier(0);
+}
diff --git a/tools/autotiler_v3/generators/CNN/CNN_Conv_BasicKernels.c b/tools/autotiler_v3/generators/CNN/CNN_Conv_BasicKernels.c
index 82f5a4108..121ee526e 100644
--- a/tools/autotiler_v3/generators/CNN/CNN_Conv_BasicKernels.c
+++ b/tools/autotiler_v3/generators/CNN/CNN_Conv_BasicKernels.c
@@ -103,7 +103,7 @@ static void *AT_TensorGetNextPage(
 			break;
 #if 0
 		case AT_MEM_L3_OSPIFLASH:
-			AT_OSPIFLASH_FS_CL_COPY((AT_OSPIFLASH_FS_T *) L3_Device, (AT_OSPIFLASH_FS_EXT_ADDR_TYPE) (Addr+Offset), (AT_OSPIFLASH_FS_CL_WAIT) L2_BufferAddr, Size, 1, L3_Event);
+			AT_OSPIFLASH_FS_CL_COPY((AT_OSPIFLASH_FS_T *) L3_Device, (AT_OSPIFLASH_FS_EXT_ADDR_TYPE) (Addr+Offset), (AT_OSPIFLASH_FS_INT_ADDR_TYPE) L2_BufferAddr, Size, 1, L3_Event);
 			AT_OSPIFLASH_FS_CL_WAIT((AT_OSPIFLASH_FS_T *) L3_Device, L3_Event);
 			break;
 		case AT_MEM_L3_MRAMFLASH:
diff --git a/tools/autotiler_v3/generators/CNN/CNN_Conv_DP_BasicKernels.c b/tools/autotiler_v3/generators/CNN/CNN_Conv_DP_BasicKernels.c
index db0913fec..34ace29f6 100644
--- a/tools/autotiler_v3/generators/CNN/CNN_Conv_DP_BasicKernels.c
+++ b/tools/autotiler_v3/generators/CNN/CNN_Conv_DP_BasicKernels.c
@@ -250,6 +250,62 @@ static void __attribute__ ((noinline)) KerConv2x3from3x3Stride1_V_DP_fps(
 	}
 }
 
+static void __attribute__ ((noinline)) KerConv2x3from3x3Stride1_V_DP_2Out_fps(
+	signed char * __restrict__ In,
+	int W, int PadTOrg,
+	int Wo, int Ho, int Ho_F, int Ho_L,
+	DP_fps_T * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	unsigned int NextFilter,
+	int FilterConf
+	)
+{
+	v4s V0, V1, V2;
+	v4s C00, C01, C02, C10, C11, C12;
+	signed char *PtIn;
+	DP_fps_T *PtOut0, *PtOut1;
+	int Bottom = Ho-Ho_L;
+
+	if (FilterConf) {
+		C00 = (v4s) (int) *((unsigned short *) (Filter + 0*3+0)); C01 = (v4s) (int) *((unsigned short *) (Filter + 1*3+0)); C02 = (v4s) (int) *((unsigned short *) (Filter + 2*3+0));
+		Filter += NextFilter;
+		C10 = (v4s) (int) *((unsigned short *) (Filter + 0*3+0)); C11 = (v4s) (int) *((unsigned short *) (Filter + 1*3+0)); C12 = (v4s) (int) *((unsigned short *) (Filter + 2*3+0));
+	} else {
+		C00 = (v4s) (int) *((unsigned short *) (Filter + 0*3+1)); C01 = (v4s) (int) *((unsigned short *) (Filter + 1*3+1)); C02 = (v4s) (int) *((unsigned short *) (Filter + 2*3+1));
+		Filter += NextFilter;
+		C10 = (v4s) (int) *((unsigned short *) (Filter + 0*3+1)); C11 = (v4s) (int) *((unsigned short *) (Filter + 1*3+1)); C12 = (v4s) (int) *((unsigned short *) (Filter + 2*3+1));
+	}
+	if (Ho_F==1) {
+		PtIn = In; PtOut0 = Out; Ho_F = 0;
+		V0 = (v4s){0,0,0,0};
+		V1 = *((v4s *) PtIn); PtIn += W;
+	} else  { // == 0
+		PtIn = In + (Ho_F*1-PadTOrg)*W; PtOut0 = Out+Ho_F*Wo;
+		V0 = *((v4s *) PtIn); PtIn += W;
+		V1 = *((v4s *) PtIn); PtIn += W;
+	}
+	PtOut1 = PtOut0+Wo*Ho;
+	for (unsigned int i=Ho_F; i<Ho_L; i++) {
+		int Acc0 = *PtOut0, Acc1 = *PtOut1;
+		V2 = *((v4s *) PtIn); PtIn += W;
+		Acc0 = gap_sumdotp4(V0, C00, Acc0); Acc0 = gap_sumdotp4(V1, C01, Acc0); Acc0 = gap_sumdotp4(V2, C02, Acc0);
+		Acc1 = gap_sumdotp4(V0, C10, Acc1); Acc1 = gap_sumdotp4(V1, C11, Acc1); Acc1 = gap_sumdotp4(V2, C12, Acc1);
+		*PtOut0 =  Acc0; PtOut0+=Wo;
+		*PtOut1 =  Acc1; PtOut1+=Wo;
+		V0 = V1; V1 = V2;
+	}
+	if (Bottom) {
+		int Acc0 = *PtOut0, Acc1 = *PtOut1;
+		PtIn -= 2*W;
+		V0 = *((v4s *) PtIn); PtIn += W;
+		V1 = *((v4s *) PtIn);
+		Acc0 = gap_sumdotp4(V0, C00, Acc0); Acc0 = gap_sumdotp4(V1, C01, Acc0);
+		Acc1 = gap_sumdotp4(V0, C10, Acc1); Acc1 = gap_sumdotp4(V1, C11, Acc1);
+		*PtOut0 =  Acc0;
+		*PtOut1 =  Acc1;
+	}
+}
+
 static void __attribute__ ((noinline)) KerConv2x3from3x3Stride2_V_DP_fps(
 	signed char * __restrict__ In,
 	int W, int PadTOrg,
@@ -368,6 +424,41 @@ static void __attribute__ ((noinline)) KerConv3x2from3x3Stride1_H_DP_fps(
 	}
 }
 
+static void __attribute__ ((noinline)) KerConv3x2from3x3Stride1_H_DP_2Out_fps(
+	signed char * __restrict__ In,
+	int W, int PadL,
+	int Wo, int Ho, int Wo_F, int Wo_L,
+	DP_fps_T * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	unsigned int NextFilter,
+	int FilterConf
+	)
+
+{
+	v4s V0, V1;
+	v4s C00, C01, C10, C11;
+	signed char *PtIn = In+Wo_F*1-PadL;
+	DP_fps_T *PtOut0 = Out, *PtOut1 = PtOut0 + Wo*Ho;
+
+	if (FilterConf) {
+		C00 = *((v4s *) &Filter[0*3+0]); C01 = *((v4s *) &Filter[1*3+0]); C00[3] = 0; C01[3] = 0;
+		Filter += NextFilter;
+		C10 = *((v4s *) &Filter[0*3+0]); C11 = *((v4s *) &Filter[1*3+0]); C10[3] = 0; C11[3] = 0;
+	} else {
+		C00 = *((v4s *) &Filter[1*3+0]); C01 = *((v4s *) &Filter[2*3+0]); C00[3] = 0; C01[3] = 0;
+		Filter += NextFilter;
+		C10 = *((v4s *) &Filter[1*3+0]); C11 = *((v4s *) &Filter[2*3+0]); C10[3] = 0; C11[3] = 0;
+	}
+	for (unsigned int i=Wo_F; i<Wo_L; i++) {
+		int Acc0 = *PtOut0, Acc1 = *PtOut1;
+		V0 = *((v4s *) (PtIn+0*W+0)); V1 = *((v4s *) (PtIn+1*W+0)); PtIn++;
+		Acc0 = gap_sumdotp4(V0, C00, Acc0); Acc0 = gap_sumdotp4(V1, C01, Acc0);
+		Acc1 = gap_sumdotp4(V0, C10, Acc1); Acc1 = gap_sumdotp4(V1, C11, Acc1);
+		*PtOut0 = Acc0; PtOut0++;
+		*PtOut1 = Acc1; PtOut1++;
+	}
+}
+
 static void __attribute__ ((noinline)) KerConv3x2from3x3Stride2_H_DP_fps(
 	signed char * __restrict__ In,
 	int W, int PadL,
@@ -3120,6 +3211,34 @@ static void __attribute__ ((noinline)) KerConv3x3BorderStride1_DP_fps(
 	if (PadB) KerConv3x2from3x3Stride1_H_DP_fps(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Out+Ho_L*Wo+Wo_F, Filter, 1);
 }
 
+static void __attribute__ ((noinline)) KerConv3x3BorderStride1_DP_2Out_fps(
+	signed char *__restrict__ In,
+	DP_fps_T *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	unsigned int NextFilter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	v4s PadOrg
+	)
+
+{
+	int Fh=3, Fw=3, Stride=1;
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+
+	if (PadL) KerConv2x3from3x3Stride1_V_DP_2Out_fps(In, W, PadTOrg, Wo, Ho, Ho_F, Ho_L, Out, Filter, NextFilter, 0);
+	if (PadR) KerConv2x3from3x3Stride1_V_DP_2Out_fps(In+Wo_L*Stride-PadLOrg, W, PadTOrg, Wo, Ho, Ho_F, Ho_L, Out+Wo-1, Filter, NextFilter, 1);
+	if (PadT) KerConv3x2from3x3Stride1_H_DP_2Out_fps(In, W, PadLOrg, Wo, Ho, Wo_F, Wo_L, Out+Wo_F, Filter, NextFilter, 0);
+	if (PadB) KerConv3x2from3x3Stride1_H_DP_2Out_fps(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Ho, Wo_F, Wo_L, Out+Ho_L*Wo+Wo_F, Filter, NextFilter, 1);
+}
+
 static void __attribute__ ((noinline)) KerConv3x3BorderStride2_DP_fps(
 	signed char *__restrict__ In,
 	DP_fps_T *__restrict__ Out,
@@ -3850,6 +3969,51 @@ static void __attribute__ ((noinline)) KerConv3x3Stride1_Body_DP_fps(
 	}
 }
 
+static void __attribute__ ((noinline)) KerConv3x3Stride1_Body_DP_2Out_fps(
+	signed char *__restrict__ In,
+	DP_fps_T *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	unsigned int NextFilter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad
+	)
+
+{
+	v4s C00 = *((v4s *) &Filter[0]), C01 = *((v4s *) &Filter[3]), C02 = *((v4s *) &Filter[6]);
+	v4s C10 = *((v4s *) &Filter[NextFilter+0]), C11 = *((v4s *) &Filter[NextFilter+3]), C12 = *((v4s *) &Filter[NextFilter+6]);
+	v4s V0, V1, V2;
+	unsigned short int StrideX = 1;
+	unsigned short int StrideY = 1;
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+	DP_fps_T *PtO0 = Out+Wo*Ho_F+Wo_F, *PtO1 = PtO0 + Wo*Ho;
+	C00[3]=0; C01[3]=0; C02[3]=0;
+	C10[3]=0; C11[3]=0; C12[3]=0;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		v4s *PtI = (v4s *) (In + (Ho_F*StrideY-PadT)*W + (w*StrideX-PadL));
+		DP_fps_T *PtO_0 = PtO0, *PtO_1 = PtO1;
+		V0 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+		V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int Acc0 = *PtO_0, Acc1 = *PtO_1;
+			V2 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+			Acc0 = gap_sumdotp4(V0, C00, Acc0); Acc0 = gap_sumdotp4(V1, C01, Acc0); Acc0 = gap_sumdotp4(V2, C02, Acc0);
+			Acc1 = gap_sumdotp4(V0, C10, Acc1); Acc1 = gap_sumdotp4(V1, C11, Acc1); Acc1 = gap_sumdotp4(V2, C12, Acc1);
+			V0 = V1; V1 = V2;
+			*PtO_0 = Acc0; PtO_0+=Wo;
+			*PtO_1 = Acc1; PtO_1+=Wo;
+		}
+		PtO0++; PtO1++;
+	}
+}
+
 static void __attribute__ ((noinline)) KerConv3x3Stride2_Body_DP_fps(
 	signed char *__restrict__ In,
 	DP_fps_T *__restrict__ Out,
@@ -4276,6 +4440,7 @@ void __attribute__ ((noinline)) KerConv7x7StrideS_Body_DP_fps(
 	v4s V0, V1;
 	unsigned short int PadL = Pad[0], PadT = Pad[2];
 	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+	int Off = (6 - Stride)*W;
 
 	for (unsigned int w=Wo_F; w<Wo_L; w++) {
 		v4s *__restrict__ PtI = (v4s *) (In + (Ho_F*Stride-PadT)*W + (w*Stride-PadL));
@@ -4295,7 +4460,7 @@ void __attribute__ ((noinline)) KerConv7x7StrideS_Body_DP_fps(
 			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
 			V0 = *PtI++; V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W-4); C0 = *PtC++; C1 = *PtC; PtC = (v4s *) ((signed char *)PtC+3); C1[3] = 0;
 			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
-			V0 = *PtI++; V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W-4); C0 = *PtC++; C1 = *PtC; PtC = (v4s *) ((signed char *)PtC+3); C1[3] = 0;
+                        V0 = *PtI++; V1 = *PtI; PtI = (v4s*) ((signed char *)PtI-Off-4); C0 = *PtC++; C1 = *PtC; PtC = (v4s *) ((signed char *)PtC+3-49); C1[3] = 0;
 			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
 			*PtO = S; PtO+=Wo;
 		}
@@ -5218,6 +5383,7 @@ void __attribute__ ((noinline)) KerConv7x7StrideS_Body_DP_fp(
 	int V3;
 	unsigned short int PadL = Pad[0], PadT = Pad[2];
 	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+	int Off = (6 - Stride)*W;
 
 	for (unsigned int w=Wo_F; w<Wo_L; w++) {
 		v2s *__restrict__ PtI = (v2s *) (In + (Ho_F*Stride-PadT)*W + (w*Stride-PadL));
@@ -5249,8 +5415,8 @@ void __attribute__ ((noinline)) KerConv7x7StrideS_Body_DP_fp(
 			C0 = *PtC++; C1 = *PtC++; C2 = *PtC++; C3 = *((short int *)PtC); PtC = (v2s*) ((short int *)PtC+1);
 			S = gap_sumdotp2(V0,  C0,  S); S = gap_sumdotp2(V1,  C1,  S); S = gap_sumdotp2(V2,  C2,  S); S = S + V3*C3;
 
-			V0 = *PtI++; V1 = *PtI++; V2 = *PtI++; V3 = *((short int *)PtI); PtI = (v2s*) ((short int *)PtI+W-6);
-			C0 = *PtC++; C1 = *PtC++; C2 = *PtC++; C3 = *((short int *)PtC); PtC = (v2s*) ((short int *)PtC+1);
+			V0 = *PtI++; V1 = *PtI++; V2 = *PtI++; V3 = *((short int *)PtI); PtI = (v2s*) ((short int *)PtI-Off-6);
+			C0 = *PtC++; C1 = *PtC++; C2 = *PtC++; C3 = *((short int *)PtC); PtC = (v2s*) ((short int *)PtC+1-49);
 			S = gap_sumdotp2(V0,  C0,  S); S = gap_sumdotp2(V1,  C1,  S); S = gap_sumdotp2(V2,  C2,  S); S = S + V3*C3;
 
 			*PtO = S; PtO+=Wo;
@@ -6549,7 +6715,7 @@ void KerParConv3x3Stride1_DP_fps(KerConv_DP_fps_T *Arg)
 	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
 
 	unsigned int InFeatures = Arg->InFeatures;
-		
+#ifdef OLD
 	for (unsigned int of=First; of<Last; of++) {
 		for (unsigned int If=0; If<InFeatures; If++) {
 			signed char *in = In+W*H*If, *filter = Filter+FS*FS*(TotalInFeatures*of + If);
@@ -6558,6 +6724,27 @@ void KerParConv3x3Stride1_DP_fps(KerConv_DP_fps_T *Arg)
 			if ((int)PadIn) KerConv3x3BorderStride1_DP_fps(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn);
 		}
 	}
+#else
+	unsigned int Iter = Max(0, Last-First);
+	for (unsigned int i=0; i<Iter/2; i++) {
+		unsigned int of = 2*i+First;
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FS*FS*(TotalInFeatures*of + If);
+			DP_fps_T *out = Out+Wo*Ho*(of);
+			KerConv3x3Stride1_Body_DP_2Out_fps(in, out, filter, TotalInFeatures*FS*FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn);
+			if ((int)PadIn) KerConv3x3BorderStride1_DP_2Out_fps(in, out, filter, TotalInFeatures*FS*FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn);
+		}
+	}
+	if (Iter&0x1) {
+		unsigned int of = Last-1;
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FS*FS*(TotalInFeatures*of + If);
+			DP_fps_T *out = Out+Wo*Ho*(of);
+			KerConv3x3Stride1_Body_DP_fps(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn);
+			if ((int)PadIn) KerConv3x3BorderStride1_DP_fps(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn);
+		}
+	}
+#endif
 	gap_waitbarrier(0);
 }
 
diff --git a/tools/autotiler_v3/generators/CNN/CNN_Conv_DW_SQ8.c b/tools/autotiler_v3/generators/CNN/CNN_Conv_DW_SQ8.c
new file mode 100644
index 000000000..3229649a6
--- /dev/null
+++ b/tools/autotiler_v3/generators/CNN/CNN_Conv_DW_SQ8.c
@@ -0,0 +1,7038 @@
+#include "Gap.h"
+#include "CNN_BasicKernels_SQ8.h"
+
+static int CoreCountDynamic = 1;
+static int ActiveCore = gap_ncore();
+
+static inline unsigned int __attribute__((always_inline)) ChunkSize(unsigned int X)
+
+{
+	unsigned int NCore;
+	unsigned int Log2Core;
+	unsigned int Chunk;
+
+	if (CoreCountDynamic) NCore = ActiveCore; else NCore = gap_ncore();
+	Log2Core = gap_fl1(NCore);
+	Chunk = (X>>Log2Core) + ((X&(NCore-1))!=0);
+	return Chunk;
+}
+
+static int FirstDefinedOutput(unsigned int F, unsigned int Pad, unsigned int Stride)
+
+{
+	// k*S - (F-1)/2 >=0 => k >= (((F-1)/2) + S-1)/S
+
+	return ((Pad+Stride-1)/Stride);
+}
+
+static int LastDefinedOutput(unsigned int DimIn, unsigned int F, unsigned int PadL, unsigned int Stride)
+
+{
+	// k*S + ((F-1)/2 - PadL + F/2) < Dim  => k < (Dim-((F-1)/2 - PadL + (F/2)) + S-1)/S
+
+	return ((DimIn - ((F-1)/2 - PadL + (F/2)) + Stride-1)/Stride);
+}
+
+static int __attribute__ ((always_inline)) MinCond(int a, int b)
+
+{
+	if (a<0 || b<0) printf("MinCond(%d, %d)\n", a, b);
+#ifdef DIM_ALWAYS_GREATER_THAN_FILTER
+	return a;
+#else
+	return Max(0, Min(a, b));
+#endif
+}
+
+static void __attribute__ ((noinline)) KerConv2x1from3x1StrideNx1_V_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadTOrg,
+	int Wo, int Ho, int Ho_F, int Ho_L,
+	int Bias,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+{
+	int V0,V1;
+	int C0,C1;
+	signed char *PtIn;
+	int *PtOut;
+
+	if (FilterConf) { /* Right Side */
+		C0 = Filter[0]; C1 = Filter[1];
+	} else { /* Left Side */
+		C0 = Filter[1]; C1 = Filter[2];
+	}
+	PtIn = In + (Ho_F*1-PadTOrg)*W; PtOut = Out+Ho_F*Wo;
+	for (unsigned int i=Ho_F; i<Ho_L; i++) {
+		int Acc = Bias;
+		V0 = *PtIn; V1 = *(PtIn+1); PtIn += W;
+		Acc += V0*C0; Acc += V1*C1;
+		*PtOut =  Acc; PtOut+=Wo;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv1x2from1x3Stride1xN_H_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadL,
+	int Wo, int Wo_F, int Wo_L,
+	int Bias,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+{
+	int V0,V1;
+	int C0,C1;
+	signed char *PtIn = In+Wo_F*1-PadL;
+	int *PtOut = Out;
+
+	if (FilterConf) { /* Bottom Side */
+		C0 = Filter[0]; C1 = Filter[1];
+	} else { /* Top Side */
+		C0 = Filter[1]; C1 = Filter[2];
+	}
+	for (unsigned int i=Wo_F; i<Wo_L; i++) {
+		int Acc = Bias;
+		V0 = *(PtIn+0*W+0); V1 = *(PtIn+1*W+0); PtIn++;
+		Acc += V0*C0; Acc += V1*C1;
+		*PtOut = Acc; PtOut++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv2x3from3x3Stride1_V_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadTOrg,
+	int Wo, int Ho, int Ho_F, int Ho_L,
+	int Bias,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+{
+	v4s V0, V1, V2;
+	v4s C0, C1, C2;
+	signed char *PtIn;
+	int *PtOut;
+	int Bottom = Ho-Ho_L;
+
+	if (FilterConf) {
+		C0 = (v4s) (int) *((unsigned short *) (Filter + 0*3+0)); C1 = (v4s) (int) *((unsigned short *) (Filter + 1*3+0)); C2 = (v4s) (int) *((unsigned short *) (Filter + 2*3+0));
+	} else {
+		C0 = (v4s) (int) *((unsigned short *) (Filter + 0*3+1)); C1 = (v4s) (int) *((unsigned short *) (Filter + 1*3+1)); C2 = (v4s) (int) *((unsigned short *) (Filter + 2*3+1));
+	}
+	if (Ho_F==1) {
+		PtIn = In; PtOut = Out; Ho_F = 0;
+		V0 = (v4s){0,0,0,0};
+		V1 = *((v4s *) PtIn); PtIn += W;
+	} else  { // == 0
+		PtIn = In + (Ho_F*1-PadTOrg)*W; PtOut = Out+Ho_F*Wo;
+		V0 = *((v4s *) PtIn); PtIn += W;
+		V1 = *((v4s *) PtIn); PtIn += W;
+	}
+	for (unsigned int i=Ho_F; i<Ho_L; i++) {
+		int Acc = Bias;
+		V2 = *((v4s *) PtIn); PtIn += W;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc);
+		*PtOut =  Acc; PtOut+=Wo;
+		V0 = V1; V1 = V2;
+	}
+	if (Bottom) {
+		int Acc = Bias;
+		PtIn -= 2*W;
+		V0 = *((v4s *) PtIn); PtIn += W;
+		V1 = *((v4s *) PtIn);;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		*PtOut =  Acc;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv2x3from3x3Stride2_V_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadTOrg,
+	int Wo, int Ho, int Ho_F, int Ho_L,
+	int Bias,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+{
+	v4s V0, V1, V2;
+	v4s C0, C1, C2;
+	signed char *PtIn;
+	int *PtOut = Out;
+	int Bottom = Ho-Ho_L;
+
+	if (FilterConf) {
+		C0 = (v4s) (int) *((unsigned short *) (Filter + 0*3+0)); C1 = (v4s) (int) *((unsigned short *) (Filter + 1*3+0)); C2 = (v4s) (int) *((unsigned short *) (Filter + 2*3+0));
+	} else {
+		C0 = (v4s) (int) *((unsigned short *) (Filter + 0*3+1)); C1 = (v4s) (int) *((unsigned short *) (Filter + 1*3+1)); C2 = (v4s) (int) *((unsigned short *) (Filter + 2*3+1));
+	}
+	if (Ho_F==1) {
+		PtIn = In; PtOut = Out; Ho_F = 0;
+		V0 = (v4s){0,0,0,0};
+	} else  { // == 0
+		PtIn = In + (Ho_F*2-PadTOrg)*W; PtOut = Out+Ho_F*Wo;
+		V0 = *((v4s *) PtIn); PtIn += W;
+	}
+	for (unsigned int i=Ho_F; i<Ho_L; i++) {
+		int Acc = Bias;
+		V1 = *((v4s *) PtIn); PtIn += W; V2 = *((v4s *) PtIn); PtIn += W;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc);
+		*PtOut =  Acc; PtOut+=Wo;
+		V0 = V2;
+	}
+	if (Bottom) {
+		int Acc = Bias;
+		PtIn -= W;
+		V0 = *((v4s *) PtIn); PtIn += W;
+		V1 = *((v4s *) PtIn);;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		*PtOut =  Acc;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv2x3from3x3StrideS_V_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadTOrg,
+	int Wo, int Ho, int Ho_F, int Ho_L,
+	int Stride,
+	int Bias,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+{
+	v4s V0, V1, V2;
+	v4s C0, C1, C2;
+	signed char *PtIn;
+	int *PtOut;
+	int Bottom = Ho-Ho_L;
+
+	if (FilterConf) {
+		C0 = (v4s) (int) *((unsigned short *) (Filter + 0*3+0)); C1 = (v4s) (int) *((unsigned short *) (Filter + 1*3+0)); C2 = (v4s) (int) *((unsigned short *) (Filter + 2*3+0));
+	} else {
+		C0 = (v4s) (int) *((unsigned short *) (Filter + 0*3+1)); C1 = (v4s) (int) *((unsigned short *) (Filter + 1*3+1)); C2 = (v4s) (int) *((unsigned short *) (Filter + 2*3+1));
+	}
+	if (Ho_F==1) {
+		PtIn = In; PtOut = Out; Ho_F = 0;
+		V0 = (v4s){0,0,0,0};
+	} else  { // == 0
+		PtIn = In + (Ho_F*Stride-PadTOrg)*W; PtOut = Out+Ho_F*Wo;
+		V0 = *((v4s *) PtIn); PtIn += W;
+	}
+	for (unsigned int i=Ho_F; i<Ho_L; i++) {
+		int Acc = Bias;
+		V1 = *((v4s *) PtIn); PtIn += W; V2 = *((v4s *) PtIn); PtIn += (Stride-2)*W;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc);
+		*PtOut =  Acc; PtOut+=Wo;
+		V0 = *((v4s *) PtIn); PtIn += W;
+	}
+	if (Bottom) {
+		int Acc = Bias;
+		PtIn -= W;
+		V0 = *((v4s *) PtIn); PtIn += W;
+		V1 = *((v4s *) PtIn);;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		*PtOut =  Acc;
+	}
+}
+
+
+static void __attribute__ ((noinline)) KerConv3x2from3x3Stride1_H_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadL,
+	int Wo, int Wo_F, int Wo_L,
+	int Bias,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+
+{
+	v4s V0, V1;
+	v4s C0, C1;
+	signed char *PtIn = In+Wo_F*1-PadL;
+	int *PtOut = Out;
+
+	if (FilterConf) {
+		C0 = *((v4s *) &Filter[0*3+0]); C1 = *((v4s *) &Filter[1*3+0]); C0[3] = 0; C1[3] = 0;
+	} else {
+		C0 = *((v4s *) &Filter[1*3+0]); C1 = *((v4s *) &Filter[2*3+0]); C0[3] = 0; C1[3] = 0;
+	}
+	for (unsigned int i=Wo_F; i<Wo_L; i++) {
+		int Acc = Bias;
+		V0 = *((v4s *) (PtIn+0*W+0)); V1 = *((v4s *) (PtIn+1*W+0)); PtIn++;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		*PtOut = Acc; PtOut++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv3x2from3x3Stride2_H_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadL,
+	int Wo, int Wo_F, int Wo_L,
+	int Bias,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+
+{
+	v4s V0, V1;
+	v4s C0, C1;
+	signed char *PtIn = In+Wo_F*2-PadL;
+	int *PtOut = Out;
+
+	if (FilterConf) {
+		C0 = *((v4s *) &Filter[0*3+0]); C1 = *((v4s *) &Filter[1*3+0]); C0[3] = 0; C1[3] = 0;
+	} else {
+		C0 = *((v4s *) &Filter[1*3+0]); C1 = *((v4s *) &Filter[2*3+0]); C0[3] = 0; C1[3] = 0;
+	}
+	for (unsigned int i=Wo_F; i<Wo_L; i++) {
+		int Acc = Bias;
+		V0 = *((v4s *) (PtIn+0*W+0)); V1 = *((v4s *) (PtIn+1*W+0)); PtIn+=2;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		*PtOut = Acc; PtOut++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv3x2from3x3StrideS_H_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadL,
+	int Wo, int Wo_F, int Wo_L,
+	int Stride,
+	int Bias,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+
+{
+	v4s V0, V1;
+	v4s C0, C1;
+	signed char *PtIn = In+Wo_F*Stride-PadL;
+	int *PtOut = Out;
+
+	if (FilterConf) {
+		C0 = *((v4s *) &Filter[0*3+0]); C1 = *((v4s *) &Filter[1*3+0]); C0[3] = 0; C1[3] = 0;
+	} else {
+		C0 = *((v4s *) &Filter[1*3+0]); C1 = *((v4s *) &Filter[2*3+0]); C0[3] = 0; C1[3] = 0;
+	}
+	for (unsigned int i=Wo_F; i<Wo_L; i++) {
+		int Acc = Bias;
+		V0 = *((v4s *) (PtIn+0*W+0)); V1 = *((v4s *) (PtIn+1*W+0)); PtIn+=Stride;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		*PtOut = Acc; PtOut++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv4x1from5x1StrideNx1_V_SQ8(
+	signed char * __restrict__ In,
+	int W, v4s PadOrg, v4s Pad,
+	int Wo, int Ho, int Ho_F, int Ho_L,
+	int Bias,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+
+{
+	v4s V0;
+	v4s C0;
+	signed char *PtIn;
+	int *PtOut;
+
+	switch (FilterConf) {
+		case 2: // [0..4 x 0] => [2..4 x 0]  PadL==2
+			C0 = *((v4s*) (Filter + 0*5+2)); C0[3] = 0;
+			break;
+		case 1: // [0..4 x 0] => [1..4 x 0] PadL==1
+			C0 = *((v4s*) (Filter + 0*5+1));
+			break;
+		case 3: // [0..4 x 0] => [0..3 x 0] PadR==1
+			C0 = *((v4s*) (Filter + 0*5+0));
+			break;
+		case 4: // [0..4 x 0] => [0..2 x 0] PadR==2
+			C0 = *((v4s*) (Filter + 0*5+0)); C0 = (v4s)(((int)C0)<<8);
+			break;
+		case 5: // [0..4 x 0] => [0..2 x 0] PadR==2, Wo==1
+			C0 = *((v4s*) (Filter + 0*5+0)); C0[3] = 0;
+			break;
+	}
+	PtIn = In + (Ho_F*1-PadOrg[2])*W; PtOut = Out+Ho_F*Wo;
+	V0 = * (v4s *) PtIn; PtIn += W;
+	for (unsigned int i=Ho_F; i<Ho_L; i++) {
+		int Acc = Bias;
+		Acc = gap_sumdotp4(V0, C0, Acc);
+		V0 = * (v4s *) PtIn; PtIn += W;
+		*PtOut =  Acc; PtOut+=Wo;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv1x4from1x5Stride1xN_H_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadL,
+	int Wo, int Wo_F, int Wo_L,
+	int Bias,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+
+{
+	v4s V0;
+	v4s C0;
+	int x0,x1,x2,x3;
+	signed char *PtIn = In+Wo_F*1-PadL;
+	int *PtOut = Out;
+
+	switch (FilterConf) {
+		case 2: // PadT == 2
+			C0 = *((v4s *) &Filter[2]);  C0[3] = 0;
+			break;
+		case 1: // PadT == 1
+			C0 = *((v4s *) &Filter[1]);
+			break;
+		case 3: // PadB == 1
+			C0 = *((v4s *) &Filter[0]);
+			break;
+		case 4: // PadB == 2
+			C0 = *((v4s *) &Filter[0]); C0 = (v4s)((int)C0<<8);
+			break;
+		case 5: // PadB == 2, Ho == 1
+			C0 = *((v4s *) &Filter[0]);  C0[3] = 0;
+			break;
+	}
+	x0 = *(PtIn+0*W+0); x1 = *(PtIn+1*W+0); x2 = *(PtIn+2*W+0); x3 = *(PtIn+3*W+0); V0 = gap_pack4(x0,x1,x2,x3); PtIn+=1;
+	for (unsigned int i=Wo_F; i<Wo_L; i++) {
+		int Acc = Bias;
+		Acc = gap_sumdotp4(V0, C0, Acc);
+		x0 = *(PtIn+0*W+0); x1 = *(PtIn+1*W+0); x2 = *(PtIn+2*W+0); x3 = *(PtIn+3*W+0); V0 = gap_pack4(x0,x1,x2,x3); PtIn+=1;
+		*PtOut = Acc; PtOut++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv4x5from5x5Stride1_V_SQ8(
+	signed char * __restrict__ In,
+	int W, v4s PadOrg, v4s Pad,
+	int Wo, int Ho, int Ho_F, int Ho_L,
+	int Bias,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+{
+	v4s V0, V1, V2, V3, V4;
+	v4s C0, C1, C2, C3, C4;
+	signed char *PtIn;
+	int *PtOut;
+	int Bottom, PadT = Pad[2], PadTOrg = PadOrg[2], PadB = Pad[3];
+
+	switch (FilterConf) {
+		case 2: // [0..4 x 0..4] => [2..4 x 0..4] PadL == 2
+			C0 = *((v4s*) (Filter + 0*5+2)); C0[3] = 0;
+			C1 = *((v4s*) (Filter + 1*5+2)); C1[3] = 0;
+			C2 = *((v4s*) (Filter + 2*5+2)); C2[3] = 0;
+			C3 = *((v4s*) (Filter + 3*5+2)); C3[3] = 0;
+			C4 = *((v4s*) (Filter + 4*5+2)); C4[3] = 0;
+			break;
+		case 1: // [0..4 x 0..4] => [1..4 x 0..4] PadL == 1
+			C0 = *((v4s*) (Filter + 0*5+1));
+			C1 = *((v4s*) (Filter + 1*5+1));
+			C2 = *((v4s*) (Filter + 2*5+1));
+			C3 = *((v4s*) (Filter + 3*5+1));
+			C4 = *((v4s*) (Filter + 4*5+1));
+			break;
+		case 3: // [0..4 x 0..4] => [0..3 x 0..4] PadR == 1
+			C0 = *((v4s*) (Filter + 0*5+0));
+			C1 = *((v4s*) (Filter + 1*5+0));
+			C2 = *((v4s*) (Filter + 2*5+0));
+			C3 = *((v4s*) (Filter + 3*5+0));
+			C4 = *((v4s*) (Filter + 4*5+0));
+			break;
+		case 4: // [0..4 x 0..4] => [1..3 x 0..4] PadR == 2
+			C0 = *((v4s*) (Filter + 0*5+0)); C0 = (v4s)(((int)C0)<<8);
+			C1 = *((v4s*) (Filter + 1*5+0)); C1 = (v4s)(((int)C1)<<8);
+			C2 = *((v4s*) (Filter + 2*5+0)); C2 = (v4s)(((int)C2)<<8);
+			C3 = *((v4s*) (Filter + 3*5+0)); C3 = (v4s)(((int)C3)<<8);
+			C4 = *((v4s*) (Filter + 4*5+0)); C4 = (v4s)(((int)C4)<<8);
+			break;
+		case 5: // [0..4 x 0..4] => [0..2 x 0..4] PadR == 2, Wo==1
+			C0 = *((v4s*) (Filter + 0*5+0)); C0[3] = 0;
+			C1 = *((v4s*) (Filter + 1*5+0)); C1[3] = 0;
+			C2 = *((v4s*) (Filter + 2*5+0)); C2[3] = 0;
+			C3 = *((v4s*) (Filter + 3*5+0)); C3[3] = 0;
+			C4 = *((v4s*) (Filter + 4*5+0)); C4[3] = 0;
+			break;
+	}
+	if (PadT==2) {
+		PtIn = In; Ho_F = 0;
+		V0 = (v4s){0,0,0,0}; V1 = (v4s){0,0,0,0};
+	} else if (PadT) { // == 1
+		PtIn = In; Ho_F = 0;
+		V0 = (v4s){0,0,0,0};
+		V1 = *((v4s *) PtIn); PtIn += W;
+	} else { // Ho_F==0
+		PtIn = In + (Ho_F*1-PadTOrg)*W;
+		V0 = *((v4s *) PtIn); PtIn += W;
+		V1 = *((v4s *) PtIn); PtIn += W;
+	}
+	V2 = *((v4s *) PtIn); PtIn += W;
+	V3 = *((v4s *) PtIn); PtIn += W;
+ 	PtOut = Out+Ho_F*Wo;
+	if (Ho==1) {
+		int Acc = Bias; Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc); *PtOut = Acc;
+		return;
+	}
+	for (unsigned int i=Ho_F; i<Ho_L; i++) {
+		int Acc = Bias;
+		V4 = *((v4s *) PtIn); PtIn += W;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc); Acc = gap_sumdotp4(V3, C3, Acc); Acc = gap_sumdotp4(V4, C4, Acc);
+		Acc = Acc;
+		*PtOut = Acc; PtOut+=Wo;
+		V0 = V1; V1 = V2; V2 = V3; V3 = V4;
+	}
+	if (PadB) {
+		int Acc = Bias;
+		PtIn -= 4*W;
+		V0 = *((v4s *) PtIn); PtIn += W; V1 = *((v4s *) PtIn); PtIn += W; V2 = *((v4s *) PtIn); PtIn += W; V3 = *((v4s *) PtIn); PtIn += W;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc); Acc = gap_sumdotp4(V3, C3, Acc);
+		Acc = Acc;
+		*PtOut = Acc; PtOut+=Wo;
+		if (PadB==2) {
+			Acc = Bias;
+			V0 = V1; V1 = V2; V2 = V3;
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc);
+			*PtOut =  Acc;
+		}
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv4x5from5x5Stride2_V_SQ8(
+	signed char * __restrict__ In,
+	int W, int H, v4s PadOrg, v4s Pad,
+	int Wo, int Ho, int Ho_F, int Ho_L,
+	int Bias,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+{
+	v4s V0, V1, V2, V3, V4;
+	v4s C0, C1, C2, C3, C4;
+	signed char *PtIn;
+	int *PtOut;
+	int PadL = PadOrg[0], PadT = Pad[2], PadTOrg = PadOrg[2], PadB = Pad[3];
+
+	switch (FilterConf) {
+		case 2: // [0..4 x 0..4] => [2..4 x 0..4] PadL == 2
+			C0 = *((v4s*) (Filter + 0*5+2)); C0[3] = 0;
+			C1 = *((v4s*) (Filter + 1*5+2)); C1[3] = 0;
+			C2 = *((v4s*) (Filter + 2*5+2)); C2[3] = 0;
+			C3 = *((v4s*) (Filter + 3*5+2)); C3[3] = 0;
+			C4 = *((v4s*) (Filter + 4*5+2)); C4[3] = 0;
+			break;
+		case 1: // [0..4 x 0..4] => [1..4 x 0..4] PadL==1
+			C0 = *((v4s*) (Filter + 0*5+1));
+			C1 = *((v4s*) (Filter + 1*5+1));
+			C2 = *((v4s*) (Filter + 2*5+1));
+			C3 = *((v4s*) (Filter + 3*5+1));
+			C4 = *((v4s*) (Filter + 4*5+1));
+			break;
+		case 3: // [0..4 x 0..4] => [0..3 x 0..4] PadR==1
+			C0 = *((v4s*) (Filter + 0*5+0));
+			C1 = *((v4s*) (Filter + 1*5+0));
+			C2 = *((v4s*) (Filter + 2*5+0));
+			C3 = *((v4s*) (Filter + 3*5+0));
+			C4 = *((v4s*) (Filter + 4*5+0));
+			break;
+		case 4: // [0..4 x 0..4] => [0..2 x 0..4] PadR==2
+			C0 = *((v4s*) (Filter + 0*5+0)); C0[3] = 0;
+			C1 = *((v4s*) (Filter + 1*5+0)); C1[3] = 0;
+			C2 = *((v4s*) (Filter + 2*5+0)); C2[3] = 0;
+			C3 = *((v4s*) (Filter + 3*5+0)); C3[3] = 0;
+			C4 = *((v4s*) (Filter + 4*5+0)); C4[3] = 0;
+			break;
+	}
+	if (PadT==2) {
+		PtIn = In; Ho_F = 0;
+		V0 = (v4s){0,0,0,0}; V1 = (v4s){0,0,0,0};
+	} else if (PadT) { // == 1
+		PtIn = In; Ho_F = 0;
+		V0 = (v4s){0,0,0,0}; V1 = *((v4s *) PtIn); PtIn += W;
+	} else {
+		PtIn = In + (Ho_F*2-PadTOrg)*W;
+		V0 = *((v4s *) PtIn); PtIn += W;
+		V1 = *((v4s *) PtIn); PtIn += W;
+	}
+ 	PtOut = Out+Ho_F*Wo;
+	V2 = *((v4s *) PtIn); PtIn += W;
+	for (unsigned int i=Ho_F; i<Ho_L; i++) {
+		int Acc = Bias;
+		V3 = *((v4s *) PtIn); PtIn += W; V4 = *((v4s *) PtIn); PtIn += W;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc); Acc = gap_sumdotp4(V3, C3, Acc); Acc = gap_sumdotp4(V4, C4, Acc);
+		Acc = Acc;
+		*PtOut = Acc; PtOut+=Wo;
+		V0 = V2; V1 = V3; V2 = V4;
+	}
+	if (PadB) {
+		int Acc = Bias;
+		PtIn -= 3*W;
+		V0 = *((v4s *) PtIn); PtIn += W; V1 = *((v4s *) PtIn); PtIn += W; V2 = *((v4s *) PtIn); PtIn += W;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc);
+		if (PadB==1) {
+			V3 = *((v4s *) PtIn); Acc = gap_sumdotp4(V3, C3, Acc);
+		}
+		Acc = Acc;
+		*PtOut = Acc;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv4x5from5x5StrideS_V_SQ8(
+	signed char * __restrict__ In,
+	int W, int H, v4s PadOrg, v4s Pad,
+	int Wo, int Ho, int Ho_F, int Ho_L,
+	int Stride, 
+	int Bias,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+{
+	/* Here stride should always be > 2 since we have specialized form for smaller strides */
+	v4s V0, V1, V2, V3, V4;
+	v4s C0, C1, C2, C3, C4;
+	signed char *PtIn;
+	int *PtOut;
+	int PadL = PadOrg[0], PadT = Pad[2], PadTOrg = PadOrg[2], PadB = Pad[3];
+
+	switch (FilterConf) {
+		case 2: // [0..4 x 0..4] => [2..4 x 0..4] PadL==2
+			C0 = *((v4s*) (Filter + 0*5+2)); C0[3] = 0;
+			C1 = *((v4s*) (Filter + 1*5+2)); C1[3] = 0;
+			C2 = *((v4s*) (Filter + 2*5+2)); C2[3] = 0;
+			C3 = *((v4s*) (Filter + 3*5+2)); C3[3] = 0;
+			C4 = *((v4s*) (Filter + 4*5+2)); C4[3] = 0;
+			break;
+		case 1: // [0..4 x 0..4] => [1..4 x 0..4] PadL==1
+			C0 = *((v4s*) (Filter + 0*5+1));
+			C1 = *((v4s*) (Filter + 1*5+1));
+			C2 = *((v4s*) (Filter + 2*5+1));
+			C3 = *((v4s*) (Filter + 3*5+1));
+			C4 = *((v4s*) (Filter + 4*5+1));
+			break;
+		case 3: // [0..4 x 0..4] => [0..3 x 0..4] PadR==1
+			C0 = *((v4s*) (Filter + 0*5+0));
+			C1 = *((v4s*) (Filter + 1*5+0));
+			C2 = *((v4s*) (Filter + 2*5+0));
+			C3 = *((v4s*) (Filter + 3*5+0));
+			C4 = *((v4s*) (Filter + 4*5+0));
+			break;
+		case 4: // [0..4 x 0..4] => [0..2 x 0..4] PadR==2
+			C0 = *((v4s*) (Filter + 0*5+0)); C0[3] = 0;
+			C1 = *((v4s*) (Filter + 1*5+0)); C1[3] = 0;
+			C2 = *((v4s*) (Filter + 2*5+0)); C2[3] = 0;
+			C3 = *((v4s*) (Filter + 3*5+0)); C3[3] = 0;
+			C4 = *((v4s*) (Filter + 4*5+0)); C4[3] = 0;
+			break;
+	}
+	if (PadT==2) {
+		PtIn = In; Ho_F = 0;
+		V0 = (v4s){0,0,0,0}; V1 = (v4s){0,0,0,0};
+	} else if (PadT) { // == 1
+		PtIn = In; Ho_F = 0;
+		V0 = (v4s){0,0,0,0}; V1 = *((v4s *) PtIn); PtIn += W;
+	} else {
+		PtIn = In + (Ho_F*Stride-PadTOrg)*W; PtOut = Out+Ho_F*Wo;
+		V0 = *((v4s *) PtIn); PtIn += W;
+		V1 = *((v4s *) PtIn); PtIn += W;
+	}
+ 	PtOut = Out+Ho_F*Wo;
+
+
+	for (unsigned int i=Ho_F; i<Ho_L; i++) {
+		int Acc = Bias;
+		V2 = *((v4s *) PtIn); PtIn += W; V3 = *((v4s *) PtIn); PtIn += W; V4 = *((v4s *) PtIn); PtIn += (Stride-4)*W;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc); Acc = gap_sumdotp4(V3, C3, Acc); Acc = gap_sumdotp4(V4, C4, Acc);
+		Acc = Acc;
+		*PtOut = Acc; PtOut+=Wo;
+		V0 = *((v4s *) PtIn); PtIn += W; V1 = *((v4s *) PtIn); PtIn += W;
+	}
+	if (PadB) {
+		int Acc = Bias;
+		PtIn -= 2*W;
+		V0 = *((v4s *) PtIn); PtIn += W; V1 = *((v4s *) PtIn); PtIn += W; V2 = *((v4s *) PtIn); PtIn += W;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc);
+		if (PadB==1) {
+			V3 = *((v4s *) PtIn); Acc = gap_sumdotp4(V3, C3, Acc);
+		}
+		Acc = Acc;
+		*PtOut = Acc;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv5x4from5x5Stride1_H_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadL,
+	int Wo, int Wo_F, int Wo_L,
+	int Bias,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+
+{
+	v4s V0, V1, V2, V3, V4;
+	v4s C0, C1, C2, C3, C4;
+
+	signed char *PtIn = In+Wo_F*1-PadL;
+	int *PtOut = Out;
+
+	switch (FilterConf) {
+		case 2: // PadT == 2
+			C0 = *((v4s *) &Filter[2*5+0]); 
+			C1 = *((v4s *) &Filter[3*5+0]);
+			C2 = *((v4s *) &Filter[4*5+0]);
+			C3 = (v4s){0,0,0,0}; C4 = (v4s){Filter[2*5+4], Filter[3*5+4], Filter[4*5+4], 0};
+			break;
+		case 1: // PadT == 1
+			C0 = *((v4s *) &Filter[1*5+0]);
+			C1 = *((v4s *) &Filter[2*5+0]);
+			C2 = *((v4s *) &Filter[3*5+0]);
+			C3 = *((v4s *) &Filter[4*5+0]); C4 = (v4s){Filter[1*5+4], Filter[2*5+4], Filter[3*5+4], Filter[4*5+4]};
+			break;
+		case 3: // PadB == 1
+			C0 = *((v4s *) &Filter[0*5+0]);
+			C1 = *((v4s *) &Filter[1*5+0]);
+			C2 = *((v4s *) &Filter[2*5+0]);
+			C3 = *((v4s *) &Filter[3*5+0]); C4 = (v4s){Filter[0*5+4], Filter[1*5+4], Filter[2*5+4], Filter[3*5+4]};
+			break;
+		case 4: // PadB == 2
+			C0 = (v4s){0,0,0,0};
+			C1 = *((v4s *) &Filter[0*5+0]);
+			C2 = *((v4s *) &Filter[1*5+0]);
+			C3 = *((v4s *) &Filter[2*5+0]); C4 = (v4s){0, Filter[0*5+4], Filter[1*5+4], Filter[2*5+4]};
+			break;
+		case 5: // PadB == 2, Ho == 1
+			C0 = *((v4s *) &Filter[0*5+0]);
+			C1 = *((v4s *) &Filter[1*5+0]);
+			C2 = *((v4s *) &Filter[2*5+0]);
+			C3 = (v4s){0,0,0,0}; C4 = (v4s){Filter[0*5+4], Filter[1*5+4], Filter[2*5+4], 0};
+			break;
+	}
+	V0 = *((v4s *) (PtIn+0*W+0)); V1 = *((v4s *) (PtIn+1*W+0)); V2 = *((v4s *) (PtIn+2*W+0)); V3 = *((v4s *) (PtIn+3*W+0)); PtIn += 4;
+	for (unsigned int i=Wo_F; i<Wo_L; i++) {
+		int x0, x1, x2, x3;
+		int Acc = Bias;
+		x0 = PtIn[0*W]; x1 = PtIn[1*W]; x2 = PtIn[2*W]; x3 = PtIn[3*W]; PtIn++;
+		V4 = gap_pack4(x0,x1,x2,x3);
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc); Acc = gap_sumdotp4(V3, C3, Acc); Acc = gap_sumdotp4(V4, C4, Acc);
+		*PtOut = Acc; PtOut++;
+		V0 = __builtin_shuffle(V0, (v4s)(int)V4, (v4s){1,2,3,4});
+		V1 = __builtin_shuffle(V1, (v4s)(int)V4, (v4s){1,2,3,5});
+		V2 = __builtin_shuffle(V2, (v4s)(int)V4, (v4s){1,2,3,6});
+		V3 = __builtin_shuffle(V3, (v4s)(int)V4, (v4s){1,2,3,7});
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv5x4from5x5Stride2_H_SQ8(
+	signed char * __restrict__ In,
+	int W, int H, int PadL, int PadT,
+	int Wo, int Wo_F, int Wo_L,
+	int Bias,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+
+{
+	v4s V0, V1, V2, V3, V4;
+	v4s C0, C1, C2, C3, C4;
+
+	signed char *PtIn = In+Wo_F*2-PadL;
+	int *PtOut = Out;
+
+	switch (FilterConf) {
+		case 2:	// PadT==2
+			C0 = *((v4s *) &Filter[2*5+0]); 
+			C1 = *((v4s *) &Filter[3*5+0]);
+			C2 = *((v4s *) &Filter[4*5+0]);
+			C3 = (v4s){0,0,0,0}; C4 = (v4s){Filter[2*5+4], Filter[3*5+4], Filter[4*5+4], 0};
+			break;
+		case 1:	// PadT==1
+			C0 = *((v4s *) &Filter[1*5+0]);
+			C1 = *((v4s *) &Filter[2*5+0]);
+			C2 = *((v4s *) &Filter[3*5+0]);
+			C3 = *((v4s *) &Filter[4*5+0]); C4 = (v4s){Filter[1*5+4], Filter[2*5+4], Filter[3*5+4], Filter[4*5+4]};
+			break;
+		case 3: // PadB==1
+			C0 = *((v4s *) &Filter[0*5+0]);
+			C1 = *((v4s *) &Filter[1*5+0]);
+			C2 = *((v4s *) &Filter[2*5+0]);
+			C3 = *((v4s *) &Filter[3*5+0]); C4 = (v4s){Filter[0*5+4], Filter[1*5+4], Filter[2*5+4], Filter[3*5+4]};
+			break;
+		case 4: // PadB==2
+			C0 = *((v4s *) &Filter[0*5+0]);
+			C1 = *((v4s *) &Filter[1*5+0]);
+			C2 = *((v4s *) &Filter[2*5+0]);
+			C3 = (v4s){0,0,0,0}; C4 = (v4s){Filter[0*5+4], Filter[1*5+4], Filter[2*5+4], 0};
+			break;
+	}
+	for (unsigned int i=Wo_F; i<Wo_L; i++) {
+		int x0, x1, x2, x3;
+		int Acc = Bias;
+		V0 = *((v4s *) (PtIn+0*W+0)); V1 = *((v4s *) (PtIn+1*W+0)); V2 = *((v4s *) (PtIn+2*W+0)); V3 = *((v4s *) (PtIn+3*W+0)); PtIn += 4;
+		x0 = PtIn[0*W]; x1 = PtIn[1*W]; x2 = PtIn[2*W]; x3 = PtIn[3*W]; PtIn+=(2-4);
+		V4 = gap_pack4(x0,x1,x2,x3);
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc); Acc = gap_sumdotp4(V3, C3, Acc); Acc = gap_sumdotp4(V4, C4, Acc);
+		*PtOut = Acc; PtOut++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv5x4from5x5StrideS_H_SQ8(
+	signed char * __restrict__ In,
+	int W, int H, int PadL, int PadT,
+	int Wo, int Wo_F, int Wo_L,
+	unsigned int Stride,
+	int Bias,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+
+{
+	v4s V0, V1, V2, V3, V4;
+	v4s C0, C1, C2, C3, C4;
+
+	signed char *PtIn = In+Wo_F*Stride-PadL;
+	int *PtOut = Out;
+
+	switch (FilterConf) {
+		case 2:	// PadT==2
+			C0 = *((v4s *) &Filter[2*5+0]); 
+			C1 = *((v4s *) &Filter[3*5+0]);
+			C2 = *((v4s *) &Filter[4*5+0]);
+			C3 = (v4s){0,0,0,0}; C4 = (v4s){Filter[2*5+4], Filter[3*5+4], Filter[4*5+4], 0};
+			break;
+		case 1:	// PadT==1
+			C0 = *((v4s *) &Filter[1*5+0]);
+			C1 = *((v4s *) &Filter[2*5+0]);
+			C2 = *((v4s *) &Filter[3*5+0]);
+			C3 = *((v4s *) &Filter[4*5+0]); C4 = (v4s){Filter[1*5+4], Filter[2*5+4], Filter[3*5+4], Filter[4*5+4]};
+			break;
+		case 3: // PadB==1
+			C0 = *((v4s *) &Filter[0*5+0]);
+			C1 = *((v4s *) &Filter[1*5+0]);
+			C2 = *((v4s *) &Filter[2*5+0]);
+			C3 = *((v4s *) &Filter[3*5+0]); C4 = (v4s){Filter[0*5+4], Filter[1*5+4], Filter[2*5+4], Filter[3*5+4]};
+			break;
+		case 4: // PadB==2
+			C0 = *((v4s *) &Filter[0*5+0]);
+			C1 = *((v4s *) &Filter[1*5+0]);
+			C2 = *((v4s *) &Filter[2*5+0]);
+			C3 = (v4s){0,0,0,0};
+			C4 = (v4s){Filter[0*5+4], Filter[1*5+4], Filter[2*5+4], 0};
+			break;
+	}
+	for (unsigned int i=Wo_F; i<Wo_L; i++) {
+		int x0, x1, x2, x3;
+		int Acc = Bias;
+		V0 = *((v4s *) (PtIn+0*W+0)); V1 = *((v4s *) (PtIn+1*W+0)); V2 = *((v4s *) (PtIn+2*W+0)); V3 = *((v4s *) (PtIn+3*W+0)); PtIn += 4;
+		x0 = PtIn[0*W]; x1 = PtIn[1*W]; x2 = PtIn[2*W]; x3 = PtIn[3*W]; PtIn+=((int)Stride-4);
+		V4 = gap_pack4(x0,x1,x2,x3);
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc); Acc = gap_sumdotp4(V3, C3, Acc); Acc = gap_sumdotp4(V4, C4, Acc);
+		*PtOut = Acc; PtOut++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConvNxNStrideS_Border_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int Fw,
+	int Fh,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad,
+	v4s PadOrg,
+	int Bias
+	)
+
+{
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadROrg = PadOrg[1], PadBOrg = PadOrg[3];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+	int Hi_F = (Fh-1)/2 - PadTOrg;
+	int Hi_L = Hi_F + (Ho_L-1)*Stride;	// iff Hi_L>Hi_F
+	int Wi_F = (Fw-1)/2 - PadLOrg;
+	int Wi_L = Wi_F + (Wo_L-1)*Stride;	// iff Wi_L>Wi_F
+
+	if (PadT) { /* Top */
+		int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+	       	for (unsigned int h=0; h<Ho_F; h++) {
+			int Fh_min = ht, Fh_max = MinCond(Fh, hb); // ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+			for (unsigned int w=Wo_F; w<Wo_L; w++) {
+				int Acc = Bias;
+				for (unsigned int i=Fh_min; i<Fh_max; i++) 
+					for (unsigned int j=0; j<Fw; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			ht -= Stride; hb -= Stride;
+		}
+	}
+	if (PadB) { /* Bottom */
+		int ht = 0, hb = H - (Hi_L+Stride) + Fh/2;
+	       	for (unsigned int h=Ho_L; h<Ho; h++) {
+			int Fh_min = ht, Fh_max = MinCond(hb, Fh); // ht Can't be > F by definition of Ho_L so we can remove and use ht only
+			for (unsigned int w=Wo_F; w<Wo_L; w++) {
+				int Acc = Bias;
+				for (unsigned int i=Fh_min; i<Fh_max; i++) 
+					for (unsigned int j=0; j<Fw; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			hb -= Stride;
+		}
+	}
+	if (PadL) { /* Left */
+		int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+	       	for (unsigned int w=0; w<Wo_F; w++) {
+			int Wh_min = wl, Wh_max = MinCond(Fw, wr); // wh Can't be < 0 by definition of Wo_F so we can remove and use wl only
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+				int Acc = Bias;
+				for (unsigned int i=0; i<Fh; i++) 
+					for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			wl -= Stride; wr -= Stride;
+		}
+	}
+	if (PadR) { /* Right */
+		int wl = 0, wr = W - (Wi_L+Stride) + Fw/2;
+	       	for (unsigned int w=Wo_L; w<Wo; w++) {
+			int Wh_min = wl, Wh_max = MinCond(wr, Fw); // ht Can't be > F by definition of Ho_L so we can remove and use ht only
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+		       		int Acc = Bias;
+				for (unsigned int i=0; i<Fh; i++) 
+					for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			wr -= Stride;
+		}
+	}
+	if (PadT) {
+		if (PadL) { /* Upper left corner */
+			int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+				for (unsigned int w=0; w<Wo_F; w++) {
+					int Acc = Bias;
+					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only. ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(Fw, wr), Fh_min = ht, Fh_max = MinCond(Fh, hb);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wl -= Stride; wr -= Stride;
+				}
+				ht -= Stride; hb -= Stride;
+			}
+		}
+		if (PadR) { /* Upper right corner */
+			int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int wl = 0, wr = W - (Wi_L+Stride) + Fw/2;
+				for (unsigned int w=Wo_L; w<Wo; w++) {
+					int Acc = Bias;
+					// ht Can't be > F by definition of Ho_L so we can remove and use ht only. ht Can't be > F by definition of Ho_L so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(wr, Fw), Fh_min = ht, Fh_max = MinCond(Fh, hb);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wr -= Stride;
+				}
+				ht -= Stride; hb -= Stride;
+			}
+		}
+	}
+	if (PadB) {
+		if (PadL) { /* Bottom Left corner */
+			int ht = 0, hb = H - (Hi_L+Stride) + Fh/2;
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+				for (unsigned int w=0; w<Wo_F; w++) {
+					int Acc = Bias;
+ 					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only.  ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(Fw, wr), Fh_min = ht, Fh_max = MinCond(hb, Fh);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wl -= Stride; wr -= Stride;
+				}
+				hb -= Stride;
+			}
+		}
+		if (PadR) { /* Bottom Right corner */
+			int ht = 0, hb = H - (Hi_L+Stride) + Fh/2;
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int wl = 0, wr = W - (Wi_L+Stride) + Fw/2;
+				for (unsigned int w=Wo_L; w<Wo; w++) {
+					int Acc = Bias;
+ 					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only.  ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(wr, Fw), Fh_min = ht, Fh_max = MinCond(hb, Fh);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wr -= Stride;
+				}
+				hb -= Stride;
+			}
+		}
+	}
+}
+
+static void __attribute__ ((noinline)) KerConvNxMStrideSxSy_Border_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int Fw,
+	int Fh,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int StrideX,
+	int StrideY,
+	v4s Pad,
+	v4s PadOrg,
+	int Bias
+	)
+
+{
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadROrg = PadOrg[1], PadBOrg = PadOrg[3];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+	int Hi_F = (Fh-1)/2 - PadTOrg;
+	int Hi_L = Hi_F + (Ho_L-1)*StrideY;	// iff Hi_L>Hi_F
+	int Wi_F = (Fw-1)/2 - PadLOrg;
+	int Wi_L = Wi_F + (Wo_L-1)*StrideX;	// iff Wi_L>Wi_F
+
+	if (PadT) { /* Top */
+		int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+	       	for (unsigned int h=0; h<Ho_F; h++) {
+			int Fh_min = ht, Fh_max = MinCond(Fh, hb); // ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+			for (unsigned int w=Wo_F; w<Wo_L; w++) {
+				int Acc = Bias;
+				for (unsigned int i=Fh_min; i<Fh_max; i++) 
+					for (unsigned int j=0; j<Fw; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			ht -= StrideY; hb -= StrideY;
+		}
+	}
+	if (PadB) { /* Bottom */
+		int ht = 0, hb = H - (Hi_L+StrideY) + Fh/2;
+	       	for (unsigned int h=Ho_L; h<Ho; h++) {
+			int Fh_min = ht, Fh_max = MinCond(hb, Fh); // ht Can't be > F by definition of Ho_L so we can remove and use ht only
+			for (unsigned int w=Wo_F; w<Wo_L; w++) {
+				int Acc = Bias;
+				for (unsigned int i=Fh_min; i<Fh_max; i++) 
+					for (unsigned int j=0; j<Fw; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			hb -= StrideY;
+		}
+	}
+	if (PadL) { /* Left */
+		int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+	       	for (unsigned int w=0; w<Wo_F; w++) {
+			int Wh_min = wl, Wh_max = MinCond(Fw, wr); // wh Can't be < 0 by definition of Wo_F so we can remove and use wl only
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+				int Acc = Bias;
+				for (unsigned int i=0; i<Fh; i++) 
+					for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			wl -= StrideX; wr -= StrideX;
+		}
+	}
+	if (PadR) { /* Right */
+		int wl = 0, wr = W - (Wi_L+StrideX) + Fw/2;
+	       	for (unsigned int w=Wo_L; w<Wo; w++) {
+			int Wh_min = wl, Wh_max = MinCond(wr, Fw); // ht Can't be > F by definition of Ho_L so we can remove and use ht only
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+		       		int Acc = Bias;
+				for (unsigned int i=0; i<Fh; i++) 
+					for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			wr -= StrideX;
+		}
+	}
+	if (PadT) {
+		if (PadL) { /* Upper left corner */
+			int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+				for (unsigned int w=0; w<Wo_F; w++) {
+					int Acc = Bias;
+					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only. ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(Fw, wr), Fh_min = ht, Fh_max = MinCond(Fh, hb);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wl -= StrideX; wr -= StrideX;
+				}
+				ht -= StrideY; hb -= StrideY;
+			}
+		}
+		if (PadR) { /* Upper right corner */
+			int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int wl = 0, wr = W - (Wi_L+StrideX) + Fw/2;
+				for (unsigned int w=Wo_L; w<Wo; w++) {
+					int Acc = Bias;
+					// ht Can't be > F by definition of Ho_L so we can remove and use ht only. ht Can't be > F by definition of Ho_L so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(wr, Fw), Fh_min = ht, Fh_max = MinCond(Fh, hb);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wr -= StrideX;
+				}
+				ht -= StrideY; hb -= StrideY;
+			}
+		}
+	}
+	if (PadB) {
+		if (PadL) { /* Bottom Left corner */
+			int ht = 0, hb = H - (Hi_L+StrideY) + Fh/2;
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+				for (unsigned int w=0; w<Wo_F; w++) {
+					int Acc = Bias;
+ 					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only.  ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(Fw, wr), Fh_min = ht, Fh_max = MinCond(hb, Fh);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wl -= StrideX; wr -= StrideX;
+				}
+				hb -= StrideY;
+			}
+		}
+		if (PadR) { /* Bottom Right corner */
+			int ht = 0, hb = H - (Hi_L+StrideY) + Fh/2;
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int wl = 0, wr = W - (Wi_L+StrideX) + Fw/2;
+				for (unsigned int w=Wo_L; w<Wo; w++) {
+					int Acc = Bias;
+ 					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only.  ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(wr, Fw), Fh_min = ht, Fh_max = MinCond(hb, Fh);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wr -= StrideX;
+				}
+				hb -= StrideY;
+			}
+		}
+	}
+}
+
+static void __attribute__ ((noinline)) KerConvNxMDxDyStrideSxSy_Border_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int Fw,
+	int Fh,
+	int Dw,
+	int Dh,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int StrideX,
+	int StrideY,
+	v4s Pad,
+	v4s PadOrg,
+	int Bias
+	)
+
+{
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadROrg = PadOrg[1], PadBOrg = PadOrg[3];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+	int TFw = Dw*(Fw-1)+1, TFh = Dh*(Fh-1)+1;
+	int Hi_F = (TFh-1)/2 - PadTOrg;
+	int Hi_L = Hi_F + (Ho_L-1)*StrideY;	// iff Hi_L>Hi_F
+	int Wi_F = (TFw-1)/2 - PadLOrg;
+	int Wi_L = Wi_F + (Wo_L-1)*StrideX;	// iff Wi_L>Wi_F
+	int Prec=10;
+	int InvDh = ((1<<Prec)+Dh-1)/Dh;
+	int InvDw = ((1<<Prec)+Dw-1)/Dw;
+
+	/*
+	Here we assume that for a given filter output we don't have padding on both side of the input.
+	Thanks to this assumption we can simplify a bit where filter starts and stops in the input.
+	Either starts at 0 if (right or bottom) and stops at a place function of the padding or
+	stops at Fw/Fh if (left or bottom) and starts  a place function of the padding
+	*/
+	if (PadT) { /* Top */
+		int ht = PadTOrg;
+	       	for (unsigned int h=0; h<Ho_F; h++) {
+			int hta = gap_mulsN(ht-1, InvDh, Prec) + 1; // hta = (ht-1)/Dh+1
+			int Fh_min = hta;
+			for (unsigned int w=Wo_F; w<Wo_L; w++) {
+				int Acc = Bias;
+				for (unsigned int i=Fh_min; i<Fh; i++) 
+					for (unsigned int j=0; j<Fw; j++) Acc += In[(h*StrideY-PadTOrg+i*Dh)*W + (w*StrideX-PadLOrg+j*Dw)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			ht -= StrideY;
+		}
+	}
+	if (PadB) { /* Bottom */
+		int hb = H - (Hi_L+StrideY) + TFh/2;
+	       	for (unsigned int h=Ho_L; h<Ho; h++) {
+			int hba = gap_mulsN(hb-1, InvDh, Prec) + 1; // hba = (hb-1)/Dh+1
+			int Fh_max = MinCond(hba, Fh);
+			for (unsigned int w=Wo_F; w<Wo_L; w++) {
+				int Acc = Bias;
+				for (unsigned int i=0; i<Fh_max; i++) 
+					for (unsigned int j=0; j<Fw; j++) Acc += In[(h*StrideY-PadTOrg+i*Dh)*W + (w*StrideX-PadLOrg+j*Dw)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			hb -= StrideY;
+		}
+	}
+	if (PadL) { /* Left */
+		int wl = PadLOrg;
+	       	for (unsigned int w=0; w<Wo_F; w++) {
+			int wla = gap_mulsN(wl-1, InvDw, Prec) + 1; // wla = (wl-1)/Dw+1
+			int Wl_min = wla;
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+				int Acc = Bias;
+				for (unsigned int i=0; i<Fh; i++) 
+					for (unsigned int j=Wl_min; j<Fw; j++) Acc += In[(h*StrideY-PadTOrg+i*Dh)*W + (w*StrideX-PadLOrg+j*Dw)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			wl -= StrideX;
+		}
+	}
+	if (PadR) { /* Right */
+		int wr = W - (Wi_L+StrideX) + TFw/2;
+	       	for (unsigned int w=Wo_L; w<Wo; w++) {
+			int wra = gap_mulsN(wr-1, InvDw, Prec) + 1; // wra = (wr-1)/Dw+1
+			int Wr_max = MinCond(wra, Fw); // ht Can't be > F by definition of Ho_L so we can remove and use ht only
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+		       		int Acc = Bias;
+				for (unsigned int i=0; i<Fh; i++) 
+					for (unsigned int j=0; j<Wr_max; j++) Acc += In[(h*StrideY-PadTOrg+i*Dh)*W + (w*StrideX-PadLOrg+j*Dw)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			wr -= StrideX;
+		}
+	}
+	if (PadT) {
+		if (PadL) { /* Upper left corner */
+			int ht = PadTOrg;
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int wl = PadLOrg;
+				int hta = gap_mulsN(ht-1, InvDh, Prec) + 1; // hta = (ht-1)/Dh+1
+				for (unsigned int w=0; w<Wo_F; w++) {
+					int Acc = Bias;
+					int wla = gap_mulsN(wl-1, InvDw, Prec) + 1; // wla = (wl-1)/Dw+1
+					int Wl_min = wla, Fh_min = hta;
+					for (unsigned int i=Fh_min; i<Fh; i++) 
+						for (unsigned int j=Wl_min; j<Fw; j++) Acc += In[(h*StrideY-PadTOrg+i*Dh)*W + (w*StrideX-PadLOrg+j*Dw)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wl -= StrideX;
+				}
+				ht -= StrideY;
+			}
+		}
+		if (PadR) { /* Upper right corner */
+			int ht = PadTOrg;
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int wr = W - (Wi_L+StrideX) + TFw/2;
+				int hta = gap_mulsN(ht-1, InvDh, Prec) + 1; // hta = (ht-1)/Dh+1
+				for (unsigned int w=Wo_L; w<Wo; w++) {
+					int Acc = Bias;
+					int wra = gap_mulsN(wr-1, InvDw, Prec) + 1; // wra = (wr-1)/Dw+1
+					int Wr_max = MinCond(wra, Fw), Fh_min = hta;
+					for (unsigned int i=Fh_min; i<Fh; i++) 
+						for (unsigned int j=0; j<Wr_max; j++) Acc += In[(h*StrideY-PadTOrg+i*Dh)*W + (w*StrideX-PadLOrg+j*Dw)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wr -= StrideX;
+				}
+				ht -= StrideY;
+			}
+		}
+	}
+	if (PadB) {
+		if (PadL) { /* Bottom Left corner */
+			int hb = H - (Hi_L+StrideY) + TFh/2;
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int wl = PadLOrg;
+				int hba = gap_mulsN(hb-1, InvDh, Prec) + 1; // hba = (hb-1)/Dh+1
+				for (unsigned int w=0; w<Wo_F; w++) {
+					int Acc = Bias;
+					int wla = gap_mulsN(wl-1, InvDw, Prec) + 1; // wla = (wl-1)/Dw+1
+					int Wl_min = wla, Fh_max = MinCond(hba, Fh);
+					for (unsigned int i=0; i<Fh_max; i++) 
+						for (unsigned int j=Wl_min; j<Fw; j++) Acc += In[(h*StrideY-PadTOrg+i*Dh)*W + (w*StrideX-PadLOrg+j*Dw)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wl -= StrideX;
+				}
+				hb -= StrideY;
+			}
+		}
+		if (PadR) { /* Bottom Right corner */
+			int hb = H - (Hi_L+StrideY) + TFh/2;
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int wr = W - (Wi_L+StrideX) + TFw/2;
+				int hba = gap_mulsN(hb-1, InvDh, Prec) + 1; // hba = (hb-1)/Dh+1
+				for (unsigned int w=Wo_L; w<Wo; w++) {
+					int Acc = Bias;
+					int wra = gap_mulsN(wr-1, InvDw, Prec) + 1; // wra = (wr-1)/Dw+1
+					int Wr_max = MinCond(wra, Fw), Fh_max = MinCond(hba, Fh);
+					for (unsigned int i=0; i<Fh_max; i++) 
+						for (unsigned int j=0; j<Wr_max; j++) Acc += In[(h*StrideY-PadTOrg+i*Dh)*W + (w*StrideX-PadLOrg+j*Dw)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wr -= StrideX;
+				}
+				hb -= StrideY;
+			}
+		}
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv3x1BorderStrideNx1_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad,
+	v4s PadOrg,
+	int Bias
+	)
+
+{
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+
+	if (PadL) KerConv2x1from3x1StrideNx1_V_SQ8(In, W, PadTOrg, Wo, Ho, Ho_F, Ho_L, Bias, Out, Filter, 0);
+	if (PadR) KerConv2x1from3x1StrideNx1_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadTOrg, Wo, Ho, Ho_F, Ho_L, Bias, Out+Wo-1, Filter, 1);
+}
+
+static void __attribute__ ((noinline)) KerConv1x3BorderStride1xN_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad,
+	v4s PadOrg,
+	int Bias
+	)
+
+{
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+
+	if (PadT) KerConv1x2from1x3Stride1xN_H_SQ8(In, W, PadLOrg, Wo, Wo_F, Wo_L, Bias, Out+Wo_F, Filter, 0);
+	if (PadB) KerConv1x2from1x3Stride1xN_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Bias, Out+Ho_L*Wo+Wo_F, Filter, 1);
+}
+
+static void __attribute__ ((noinline)) KerConv3x3BorderStride1_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	v4s PadOrg,
+	int Bias
+	)
+
+{
+	int Fh=3, Fw=3, Stride=1;
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+
+	if (PadL) KerConv2x3from3x3Stride1_V_SQ8(In, W, PadTOrg, Wo, Ho, Ho_F, Ho_L, Bias, Out, Filter, 0);
+	if (PadR) KerConv2x3from3x3Stride1_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadTOrg, Wo, Ho, Ho_F, Ho_L, Bias, Out+Wo-1, Filter, 1);
+	if (PadT) KerConv3x2from3x3Stride1_H_SQ8(In, W, PadLOrg, Wo, Wo_F, Wo_L, Bias, Out+Wo_F, Filter, 0);
+	if (PadB) KerConv3x2from3x3Stride1_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Bias, Out+Ho_L*Wo+Wo_F, Filter, 1);
+}
+
+static void __attribute__ ((noinline)) KerConv3x3BorderStride2_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	v4s PadOrg,
+	int Bias
+	)
+
+{
+	int Fh=3, Fw=3, Stride=2;
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+
+	if (PadL) KerConv2x3from3x3Stride2_V_SQ8(In, W, PadTOrg, Wo, Ho, Ho_F, Ho_L, Bias, Out, Filter, 0);
+	if (PadR) KerConv2x3from3x3Stride2_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadTOrg, Wo, Ho, Ho_F, Ho_L, Bias, Out+Wo-1, Filter, 1);
+	if (PadT) KerConv3x2from3x3Stride2_H_SQ8(In, W, PadLOrg, Wo, Wo_F, Wo_L, Bias, Out+Wo_F, Filter, 0);
+	if (PadB) KerConv3x2from3x3Stride2_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Bias, Out+Ho_L*Wo+Wo_F, Filter, 1);
+}
+
+static void __attribute__ ((noinline)) KerConv3x3BorderStrideS_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad,
+	v4s PadOrg,
+	int Bias
+	)
+
+{
+	/* Stride is > 2 */
+	int Fh=3, Fw=3;
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+
+	if (PadL) KerConv2x3from3x3StrideS_V_SQ8(In, W, PadTOrg, Wo, Ho, Ho_F, Ho_L, Stride, Bias, Out, Filter, 0);
+	if (PadR) KerConv2x3from3x3StrideS_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadTOrg, Wo, Ho, Ho_F, Ho_L, Stride, Bias, Out+Wo-1, Filter, 1);
+	if (PadT) KerConv3x2from3x3StrideS_H_SQ8(In, W, PadLOrg, Wo, Wo_F, Wo_L, Stride, Bias, Out+Wo_F, Filter, 0);
+	if (PadB) KerConv3x2from3x3StrideS_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Stride, Bias, Out+Ho_L*Wo+Wo_F, Filter, 1);
+}
+
+static void __attribute__ ((noinline)) KerConv5x1BorderStrideNx1_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad,
+	v4s PadOrg,
+	int Bias
+	)
+
+{
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+
+	if (PadL) {
+		if (Wo_F==2) {
+			KerConv4x1from5x1StrideNx1_V_SQ8(In, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Bias, Out, Filter, 2);
+			KerConv4x1from5x1StrideNx1_V_SQ8(In, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Bias, Out+1, Filter, 1);
+		} else KerConv4x1from5x1StrideNx1_V_SQ8(In, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Bias, Out, Filter, PadL);
+	}
+	if (PadR) {
+		if ((Wo-Wo_L)==2) {
+			KerConv4x1from5x1StrideNx1_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Bias, Out+Wo-2, Filter, 3);
+			KerConv4x1from5x1StrideNx1_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Bias, Out+Wo-1, Filter, 4);
+		} else if (Wo==1) KerConv4x1from5x1StrideNx1_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Bias, Out+Wo-1, Filter, 5);
+		else KerConv4x1from5x1StrideNx1_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Bias, Out+Wo-1, Filter, PadR+2);
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv1x5BorderStride1xN_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad,
+	v4s PadOrg,
+	int Bias
+	)
+
+{
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+
+	if (PadT) {
+		if (Ho_F==2) { // Happens only if stride = 1
+			KerConv1x4from1x5Stride1xN_H_SQ8(In, W, PadLOrg, Wo, Wo_F, Wo_L, Bias, Out+Wo_F, Filter, 2);
+			KerConv1x4from1x5Stride1xN_H_SQ8(In, W, PadLOrg, Wo, Wo_F, Wo_L, Bias, Out+Wo_F+Wo, Filter, 1);
+		} else KerConv1x4from1x5Stride1xN_H_SQ8(In, W, PadLOrg, Wo, Wo_F, Wo_L, Bias, Out+Wo_F, Filter, PadT);
+	}
+	if (PadB) {
+		if ((Ho-Ho_L)==2) { // Happens only if stride == 1
+			KerConv1x4from1x5Stride1xN_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Bias, Out+Ho_L*Wo+Wo_F, Filter, 3);
+			KerConv1x4from1x5Stride1xN_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Bias, Out+(Ho_L+1)*Wo+Wo_F, Filter, 4);
+		} else if (Ho==1) KerConv1x4from1x5Stride1xN_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Bias, Out+Ho_L*Wo+Wo_F, Filter, 5);
+		else KerConv1x4from1x5Stride1xN_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Bias, Out+Ho_L*Wo+Wo_F, Filter, PadB+2);
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv5x5BorderStride1_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	v4s PadOrg,
+	int Bias
+	)
+
+{
+	/* With stride=1 we are sure that padding will be 2, 2 for a given dim */
+	int Fh=5, Fw=5, Stride=1;
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+
+	if (PadL==2) {
+		KerConv4x5from5x5Stride1_V_SQ8(In, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Bias, Out, Filter, 2);
+		KerConv4x5from5x5Stride1_V_SQ8(In, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Bias, Out+1, Filter, 1);
+	} else if (PadL==1) KerConv4x5from5x5Stride1_V_SQ8(In, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Bias, Out, Filter, 1);
+	if (PadR==2) {
+		if (Wo==1) KerConv4x5from5x5Stride1_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Bias, Out+Wo-1, Filter, 5);
+		else {
+			KerConv4x5from5x5Stride1_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Bias, Out+Wo-2, Filter, 3);
+			KerConv4x5from5x5Stride1_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Bias, Out+Wo-1, Filter, 4);
+		}
+	} else if (PadR==1) KerConv4x5from5x5Stride1_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Bias, Out+Wo-1, Filter, 3);
+	if (PadT==2) {
+		KerConv5x4from5x5Stride1_H_SQ8(In, W, PadLOrg, Wo, Wo_F, Wo_L, Bias, Out+Wo_F, Filter, 2);
+		KerConv5x4from5x5Stride1_H_SQ8(In, W, PadLOrg, Wo, Wo_F, Wo_L, Bias, Out+Wo_F+Wo, Filter, 1);
+	} else if (PadT==1) KerConv5x4from5x5Stride1_H_SQ8(In, W, PadLOrg, Wo, Wo_F, Wo_L, Bias, Out+Wo_F, Filter, 1);
+	if (PadB==2) {
+		if (Ho==1) KerConv5x4from5x5Stride1_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Bias, Out+(Ho_L)*Wo+Wo_F, Filter, 5);
+		else {
+			KerConv5x4from5x5Stride1_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Bias, Out+Ho_L*Wo+Wo_F, Filter, 3);
+			KerConv5x4from5x5Stride1_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Bias, Out+(Ho_L+1)*Wo+Wo_F, Filter, 4);
+		}
+	} else if (PadB==1) KerConv5x4from5x5Stride1_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Bias, Out+Ho_L*Wo+Wo_F, Filter, 3);
+}
+
+static void __attribute__ ((noinline)) KerConv5x5BorderStride2_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	v4s PadOrg,
+	int Bias
+	)
+
+{
+	/* Max padding is 4, distributed Pad/2, Pad-Pad/2 or Pad-Pad/2, Pad, with stride 2 each padded area cannot produce more than 1 outputput  */
+	int Fh=5, Fw=5, Stride=2;
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+
+	if (PadL) KerConv4x5from5x5Stride2_V_SQ8(In, W, H, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Bias, Out, Filter, PadL);
+	if (PadR) KerConv4x5from5x5Stride2_V_SQ8(In+Wo_L*Stride-PadLOrg, W, H, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Bias, Out+Wo-1, Filter, PadR+2);
+
+	if (PadT) KerConv5x4from5x5Stride2_H_SQ8(In, W, H, PadLOrg, PadTOrg, Wo, Wo_F, Wo_L, Bias, Out+Wo_F, Filter, PadT);
+	if (PadB) KerConv5x4from5x5Stride2_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, H, PadLOrg, PadTOrg, Wo, Wo_F, Wo_L, Bias, Out+Ho_L*Wo+Wo_F, Filter, PadB+2);
+}
+
+static void __attribute__ ((noinline)) KerConv5x5BorderStrideS_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad,
+	v4s PadOrg,
+	int Bias
+	)
+
+{
+	/* Stride is assumed to be >2 since we have specialized variants therefore no more than 1 output can be created in each padded area */
+	int Fh=5, Fw=5;
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+
+	if (PadL) KerConv4x5from5x5StrideS_V_SQ8(In, W, H, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Stride, Bias, Out, Filter, PadL);
+	if (PadR) KerConv4x5from5x5StrideS_V_SQ8(In+Wo_L*Stride-PadLOrg, W, H, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Stride, Bias, Out+Wo-1, Filter, PadR+2);
+
+	if (PadT) KerConv5x4from5x5StrideS_H_SQ8(In, W, H, PadLOrg, PadTOrg, Wo, Wo_F, Wo_L, Stride, Bias, Out+Wo_F, Filter, PadT);
+	if (PadB) KerConv5x4from5x5StrideS_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, H, PadLOrg, PadTOrg, Wo, Wo_F, Wo_L, Stride, Bias, Out+Ho_L*Wo+Wo_F, Filter, PadB+2);
+}
+
+/* Convolution, body processing (covers both padded and non padded variants)
+
+	Input feature maps, Output feature maps and filter on bytes
+
+		KerConv1x1Stride1_Body_SQ8		1x1 convolution, stride 1
+		KerConv1x1Stride2_Body_SQ8		1x1 convolution, stride 2
+		KerConv1x1StrideS_Body_SQ8		1x1 convolution, stride S
+
+		KerConv3x1Stride1x1_Body_SQ8		3x1 convolution, stride 1x1
+		KerConv3x1Stride2x1_Body_SQ8		3x1 convolution, stride 2x1
+		KerConv1x3Stride1x1_Body_SQ8		1x3 convolution, stride 1x1
+		KerConv1x3Stride1x2_Body_SQ8		1x3 convolution, stride 1x2
+		KerConv3x3Stride1_Body_SQ8		3x3 convolution, stride 1
+		KerConv3x3Stride2_Body_SQ8		3x3 convolution, stride 2
+		KerConv3x3StrideS_Body_SQ8		3x3 convolution, stride S
+
+		KerConv5x1Stride1x1_Body_SQ8		5x1 convolution, stride 1x1
+		KerConv5x1Stride2x1_Body_SQ8		5x1 convolution, stride 2x1
+		KerConv1x5Stride1x1_Body_SQ8		1x5 convolution, stride 1x1
+		KerConv1x5Stride1x2_Body_SQ8		1x5 convolution, stride 1x2
+		KerConv5x5Stride1_Body_SQ8		5x5 convolution, stride 1
+		KerConv5x5Stride2_Body_SQ8		5x5 convolution, stride 2
+		KerConv5x5StrideS_Body_SQ8		5x5 convolution, stride S
+		KerConv7x7StrideS_Body_SQ8		7x7 convolution, stride S
+
+		KerConvNxNStrideS_Body_SQ8		NxN convolution, stride S
+		KerConvNxMStrideSxSy_Body_SQ8		NxM convolution, stride Sx, Sy
+		KerConvNxMDxDyStrideSxSy_Body_SQ8	NxM convolution, dilation Dx,Dy, stride Sx, Sy
+
+*/
+
+static void __attribute__ ((noinline)) KerConv1x1Stride1_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	int Bias
+	)
+
+{
+	int Stride = 1;
+        int PadL = Pad[0], PadT = Pad[2];
+
+        int C0 = Filter[0];
+        int IterW = Wo_L-Wo_F;
+        for (unsigned int h=Ho_F; h<Ho_L; h++) {
+                int *LineOut = (int *) (&Out[Wo*h+Wo_F]);
+                signed char *PtI = In + (h*Stride-PadT)*W + (Wo_F*Stride-PadL);
+                for (unsigned int w=0; w<(IterW/2); w++) {
+                        LineOut[2*w] = PtI[2*w]*C0+Bias; LineOut[2*w+1] = PtI[2*w+1]*C0+Bias;
+                }
+                if (IterW&0x1) Out[Wo*h+Wo_L-1] = Bias + PtI[IterW-1]*C0;
+        }
+}
+
+static void __attribute__ ((noinline)) KerConv1x1Stride2_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	int Bias
+	)
+
+{
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+
+	int Stride = 2;
+	int C0 = Filter[0];
+	int Fw = 1, Fh = 1;
+	int *PtO = Out+Wo*Ho_F+Wo_F;
+	signed char *PtC = Filter;
+	for (unsigned int h=Ho_F; h<Ho_L; h++) {
+		signed char *PtI = In + (h*Stride-PadT)*W + (Wo_F*Stride-PadL);
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			int Acc = Bias;
+			int I = *PtI; PtI+=Stride;
+			Acc += I*C0;
+			*PtO = Acc; PtO++;
+		}
+		PtO = PtO + (Wo-Wo_L)+Wo_F;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv1x1StrideS_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad,
+	int Bias
+	)
+
+{
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+	int C0 = Filter[0];
+	int Fw = 1, Fh = 1;
+	int *PtO = Out+Wo*Ho_F+Wo_F;
+	signed char *PtC = Filter;
+	for (unsigned int h=Ho_F; h<Ho_L; h++) {
+		signed char *PtI = In + (h*Stride-PadT)*W + (Wo_F*Stride-PadL);
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			int Acc = Bias;
+			int I = *PtI; PtI+=Stride;
+			Acc += I*C0;
+			*PtO = Acc; PtO++;
+		}
+		PtO = PtO + (Wo-Wo_L)+Wo_F;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv3x1Stride1x1_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	int Bias
+	)
+
+{
+	v4s C0 = *((v4s *) &Filter[0]);
+	v4s V0;
+	unsigned short int StrideX = 1;
+	unsigned short int StrideY = 1;
+	unsigned short int PadL = Pad[0], PadT = 0;
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+	C0[3]=0;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		v4s *PtI = (v4s *) (In + (Ho_F*StrideY-PadT)*W + (w*StrideX-PadL));
+		int *PtO = PtO1;
+		V0 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int Acc = Bias;
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = Acc;
+			V0 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+			*PtO = Acc; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv3x1Stride2x1_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	int Bias
+	)
+
+{
+	v4s C0 = *((v4s *) &Filter[0]);
+	v4s V0;
+	unsigned short int StrideX = 2;
+	unsigned short int StrideY = 1;
+	unsigned short int PadL = Pad[0], PadT = 0;
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+	C0[3]=0;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		v4s *PtI = (v4s *) (In + (Ho_F*StrideY-PadT)*W + (w*StrideX-PadL));
+		int *PtO = PtO1;
+		V0 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int Acc = Bias;
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = Acc;
+			V0 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+			*PtO = Acc; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv1x3Stride1x1_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	int Bias
+	)
+
+{
+	v4s C0 = *((v4s *) &Filter[0]);
+	v4s V0;
+	v4s Mask = (v4s) {1,2,4,0};
+	unsigned short int StrideX = 1;
+	unsigned short int StrideY = 1;
+	unsigned short int PadL = 0, PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+	C0[3]=0;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		signed char *PtI = (In + (Ho_F*StrideY-PadT)*W + (w*StrideX-PadL));
+		int *PtO = PtO1;
+		V0[1] = *PtI; PtI = ((signed char *)PtI+W);
+		V0[2] = *PtI; PtI = ((signed char *)PtI+W);
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int Acc = Bias;
+			int X0 = *PtI; PtI = ((signed char *)PtI+W);
+			V0 = __builtin_shuffle(V0, (v4s) X0, Mask);
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = Acc;
+			*PtO = Acc; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv1x3Stride1x2_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	int Bias
+	)
+
+{
+	v4s C0 = *((v4s *) &Filter[0]);
+	v4s V0;
+	v4s Mask = (v4s) {2,4,5,0};
+	unsigned short int StrideX = 1;
+	unsigned short int StrideY = 2;
+	unsigned short int PadL = 0, PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+	C0[3]=0;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		signed char *PtI = (In + (Ho_F*StrideY-PadT)*W + (w*StrideX-PadL));
+		int *PtO = PtO1;
+		V0[2] = *PtI; PtI = ((signed char *)PtI+W);
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int Acc = Bias;
+			unsigned int X0 = *(unsigned char *) PtI; PtI = ((signed char *)PtI+W);
+			unsigned int X1 = *(unsigned char *) PtI; PtI = ((signed char *)PtI+W);
+			X0 = X0 | (X1<<8);
+			V0 = __builtin_shuffle(V0, (v4s) X0, Mask);
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = Acc;
+			*PtO = Acc; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv3x3Stride1_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	int Bias
+	)
+
+{
+	v4s C0 = *((v4s *) &Filter[0]), C1 = *((v4s *) &Filter[3]), C2 = *((v4s *) &Filter[6]);
+	v4s V0, V1, V2;
+	unsigned short int StrideX = 1;
+	unsigned short int StrideY = 1;
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+	C0[3]=0; C1[3]=0; C2[3]=0;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		v4s *PtI = (v4s *) (In + (Ho_F*StrideY-PadT)*W + (w*StrideX-PadL));
+		int *PtO = PtO1;
+		V0 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+		V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int Acc = Bias;
+			V2 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc);
+			Acc = Acc;
+			V0 = V1; V1 = V2;
+			*PtO = Acc; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv3x3Stride2_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	int Bias
+	)
+
+{
+	v4s C0 = *((v4s *) &Filter[0]), C1 = *((v4s *) &Filter[3]), C2 = *((v4s *) &Filter[6]);
+	v4s V0, V1, V2;
+	unsigned short int Stride = 2;
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+	C0[3]=0; C1[3]=0; C2[3]=0;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		v4s *PtI = (v4s *) (In + (Ho_F*Stride-PadT)*W + (w*Stride-PadL));
+		int *PtO = PtO1;
+		V0 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int Acc = Bias;
+			V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+			V2 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc);
+			Acc = Acc;
+			V0 = V2;
+			*PtO = Acc; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv3x3StrideS_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad,
+	int Bias
+	)
+
+{
+	v4s C0 = *((v4s *) &Filter[0]), C1 = *((v4s *) &Filter[3]), C2 = *((v4s *) &Filter[6]);
+	v4s V0, V1, V2;
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+	C0[3]=0; C1[3]=0; C2[3]=0;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		v4s *PtI = (v4s *) (In + (Ho_F*Stride-PadT)*W + (w*Stride-PadL));
+		int *PtO = PtO1;
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int Acc = Bias;
+			V0 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+			V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+			V2 = *PtI; PtI = (v4s*) ((signed char *)PtI+(Stride-2)*W);
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc);
+			Acc = Acc;
+			*PtO = Acc; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv5x1Stride1x1_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	int Bias
+	)
+{
+	v4s C0  = *((v4s *) &Filter[0]);
+	signed char C1 = Filter[4];
+	v4s V0;
+	int StrideX = 1;
+	int StrideY = 1;
+	int PadL = Pad[0], PadT = 0;
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+	v4s Mask = (v4s) {1,2,3,4};
+
+       	for (int h=Ho_F; h<Ho_L; h++) {
+		signed char *PtI = (In + (h*StrideY-PadT)*W + (Wo_F*StrideX-PadL));
+		int *PtO = PtO1;
+		v4s V0 = ((v4s *)PtI)[0];
+		int x0 = PtI[4];
+		PtI += 5;
+       		for (int w=Wo_F; w<Wo_L; w++) {
+			int S = Bias;
+			S = gap_sumdotp4(V0,  C0,  S); S += x0*C1;
+			V0 = __builtin_shuffle(V0, (v4s) x0, Mask); x0 = *PtI; PtI++;
+			*PtO = S; PtO++;
+		}
+		PtO1+=Wo;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv5x1Stride2x1_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	int Bias
+	)
+{
+	v4s C0  = *((v4s *) &Filter[0]);
+	signed char C1 = Filter[4];
+	v4s V0;
+
+	unsigned short int StrideX = 2;
+	unsigned short int StrideY = 1;
+	unsigned short int PadL = Pad[0], PadT = 0;
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		v4s *PtI = (v4s *) (In + (Ho_F*StrideY-PadT)*W + (w*StrideX-PadL));
+		int *PtO = PtO1;
+		int x0;
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int S = Bias;
+			V0 = *PtI++; x0 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+			S = gap_sumdotp4(V0,  C0,  S); S += x0*C1;
+			*PtO = S; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv1x5Stride1x1_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	int Bias
+	)
+{
+	v4s C0  = *((v4s *) &Filter[0]);
+	signed char C1 = Filter[4];
+	v4s Mask = (v4s) {1,2,3,4};
+	v4s V0;
+	signed char V1;
+
+	unsigned short int StrideX = 1;
+	unsigned short int StrideY = 1;
+	unsigned short int PadL = 0, PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		signed char *PtI = (In + (Ho_F*StrideY-PadT)*W + (w*StrideX-PadL));
+		int *PtO = PtO1;
+		int x0,x1,x2;
+		x0 = *PtI; PtI = PtI+W;
+		x1 = *PtI; PtI = PtI+W;
+		x2 = *PtI; PtI = PtI+W;
+		V0 = gap_pack4(0,x0,x1,x2);
+		V1 = *PtI; PtI = PtI+W;
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int S = Bias;
+			V0 = __builtin_shuffle(V0, (v4s)((int) V1), Mask);
+			V1 = (signed char)(*PtI); PtI = PtI+W;
+			S = gap_sumdotp4(V0,  C0,  S); S += V1*C1;
+			*PtO = S; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv1x5Stride1x2_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	int Bias
+	)
+{
+	v4s C0  = *((v4s *) &Filter[0]);
+	signed char C1 = Filter[4];
+	v4s Mask = (v4s) {2,3,4,5};
+	v4s V0, V1;
+
+	unsigned short int StrideX = 1;
+	unsigned short int StrideY = 2;
+	unsigned short int PadL = 0, PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		signed char *PtI = (In + (Ho_F*StrideY-PadT)*W + (w*StrideX-PadL));
+		int *PtO = PtO1;
+		int x0,x1;
+		x0 = *PtI; PtI = PtI+W;
+		x1 = *PtI; PtI = PtI+W;
+		V0 = gap_pack4(0,0,x0,x1);
+		V1 = (v4s) ((int) (*PtI)); PtI = PtI+W;
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int S = Bias;
+			x0 = *PtI; PtI = PtI+W;
+			V1[1] = x0; V0 = __builtin_shuffle(V0, (v4s)((int) V1), Mask);
+			x1 = (*PtI); PtI = PtI+W; V1 = (v4s)((int)x1);
+			S = gap_sumdotp4(V0,  C0,  S); S += x1*C1;
+			*PtO = S; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv5x5Stride1_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	int Bias
+	)
+
+{
+	v4s C0  = *((v4s *) &Filter[0]),
+	    C1  = *((v4s *) &Filter[5]),
+	    C2  = *((v4s *) &Filter[10]),
+	    C3  = *((v4s *) &Filter[15]),
+	    C4  = *((v4s *) &Filter[20]),
+	    C5 = gap_pack4(Filter[4], Filter[9], Filter[14], Filter[19]),
+	    C6 = (v4s)(int)(*((unsigned char *) &Filter[24]));
+
+	v4s V0, V1, V2, V3, V4, V5, V6;
+	v4s Mask  = {1,2,3,4};
+
+	unsigned short int Stride = 1;
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		v4s *PtI = (v4s *) (In + (Ho_F*Stride-PadT)*W + (w*Stride-PadL));
+		int *PtO = PtO1;
+		int x0,x1,x2,x3;
+		V0 = *PtI++; x0 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+		V1 = *PtI++; x1 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+		V2 = *PtI++; x2 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+		V3 = *PtI++; x3 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+		V5 = gap_pack4(x0,x1,x2,x3);
+
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int S = Bias;
+			V4 = *PtI++; V6 = (v4s) (int) (*((signed char *) PtI)); PtI = (v4s*) ((signed char *)PtI+W-4);
+			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
+			S = gap_sumdotp4(V2,  C2,  S); S = gap_sumdotp4(V3,  C3,  S);
+			S = gap_sumdotp4(V4,  C4,  S); S = gap_sumdotp4(V5,  C5,  S); S = gap_sumdotp4(V6,  C6,  S);
+			V0 = V1; V1 = V2; V2 = V3; V3 = V4;
+			V5 = __builtin_shuffle(V5, V6, Mask);
+			*PtO = S; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv5x5Stride2_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	int Bias
+	)
+
+{
+	v4s C0  = *((v4s *) &Filter[0]),
+	    C1  = *((v4s *) &Filter[5]),
+	    C2  = *((v4s *) &Filter[10]),
+	    C3  = *((v4s *) &Filter[15]),
+	    C4  = *((v4s *) &Filter[20]),
+	    C5 = gap_pack4(Filter[4], Filter[9], Filter[14], Filter[19]),
+	    C6 = (v4s)(int)(*((unsigned char *) &Filter[24]));
+
+	v4s V0, V1, V2, V3, V4, V5, V6;
+	v4s Mask  = {2,3,4,4};
+
+	unsigned short int Stride = 2;
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		v4s *PtI = (v4s *) (In + (Ho_F*Stride-PadT)*W + (w*Stride-PadL));
+		int *PtO = PtO1;
+		int x0,x1,x2,x3;
+		V0 = *PtI++; x0 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+		V1 = *PtI++; x1 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+		V2 = *PtI++; x2 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+		V5 = gap_pack4(x0,x1,x2,0);
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int S = Bias;
+			V3 = *PtI++; V5[3] = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+			V4 = *PtI++; V6 = (v4s) (int) (*((signed char *) PtI)); PtI = (v4s*) ((signed char *)PtI+W-4);
+			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
+			S = gap_sumdotp4(V2,  C2,  S); S = gap_sumdotp4(V3,  C3,  S);
+			S = gap_sumdotp4(V4,  C4,  S); S = gap_sumdotp4(V5,  C5,  S); S = gap_sumdotp4(V6,  C6,  S);
+			V0 = V2; V1 = V3; V2 = V4;
+			V5 = __builtin_shuffle(V5, V6, Mask);
+			*PtO = S; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv5x5StrideS_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad,
+	int Bias
+	)
+
+{
+	v4s C0  = *((v4s *) &Filter[0]),
+	    C1  = *((v4s *) &Filter[5]),
+	    C2  = *((v4s *) &Filter[10]),
+	    C3  = *((v4s *) &Filter[15]),
+	    C4  = *((v4s *) &Filter[20]),
+	    C5 = gap_pack4(Filter[4], Filter[9], Filter[14], Filter[19]),
+	    C6 = (v4s)(int)(*((unsigned char *) &Filter[24]));
+
+	v4s V0, V1, V2, V3, V4, V5, V6;
+	v4s Mask  = {2,3,4,4};
+
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		v4s *PtI = (v4s *) (In + (Ho_F*Stride-PadT)*W + (w*Stride-PadL));
+		int *PtO = PtO1;
+		int x0,x1,x2,x3;
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int S = Bias;
+			V0 = *PtI++; x0 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+			V1 = *PtI++; x1 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+			V2 = *PtI++; x2 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+			V3 = *PtI++; x3 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4); V5 = gap_pack4(x0,x1,x2,x3);
+			V4 = *PtI++; V6 = (v4s) (int) (*((signed char *) PtI)); PtI = (v4s*) ((signed char *)PtI+(Stride-4)*W-4);
+			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
+			S = gap_sumdotp4(V2,  C2,  S); S = gap_sumdotp4(V3,  C3,  S);
+			S = gap_sumdotp4(V4,  C4,  S); S = gap_sumdotp4(V5,  C5,  S); S = gap_sumdotp4(V6,  C6,  S);
+			// V5 = __builtin_shuffle(V5, V6, Mask);
+			*PtO = S; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv7x7StrideS_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad,
+	int Bias
+	)
+
+{
+	v4s C0, C1;
+	v4s V0, V1;
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+	int Off = (6 - Stride)*W;
+
+	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		v4s *__restrict__ PtI = (v4s *) (In + (Ho_F*Stride-PadT)*W + (w*Stride-PadL));
+		int *__restrict__ PtO = PtO1;
+		v4s *__restrict__ PtC = (v4s *) Filter;
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int S = Bias;
+			V0 = *PtI++; V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W-4); C0 = *PtC++; C1 = *PtC; PtC = (v4s *) ((signed char *)PtC+3); C1[3] = 0;
+			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
+			V0 = *PtI++; V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W-4); C0 = *PtC++; C1 = *PtC; PtC = (v4s *) ((signed char *)PtC+3); C1[3] = 0;
+			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
+			V0 = *PtI++; V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W-4); C0 = *PtC++; C1 = *PtC; PtC = (v4s *) ((signed char *)PtC+3); C1[3] = 0;
+			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
+			V0 = *PtI++; V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W-4); C0 = *PtC++; C1 = *PtC; PtC = (v4s *) ((signed char *)PtC+3); C1[3] = 0;
+			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
+			V0 = *PtI++; V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W-4); C0 = *PtC++; C1 = *PtC; PtC = (v4s *) ((signed char *)PtC+3); C1[3] = 0;
+			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
+			V0 = *PtI++; V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W-4); C0 = *PtC++; C1 = *PtC; PtC = (v4s *) ((signed char *)PtC+3); C1[3] = 0;
+			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
+			V0 = *PtI++; V1 = *PtI; PtI = (v4s*) ((signed char *)PtI-Off-4); C0 = *PtC++; C1 = *PtC; PtC = (v4s *) ((signed char *)PtC+3-49); C1[3] = 0;
+			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
+			*PtO = S; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConvNxNStrideS_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int Fw,
+	int Fh,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad,
+	int Bias
+	)
+{
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+
+	int *PtO = Out+Wo*Ho_F+Wo_F;
+	signed char *PtC = Filter;
+	for (unsigned int h=Ho_F; h<Ho_L; h++) {
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			int Acc = Bias;
+			for (unsigned int i=0; i<Fh; i++) {
+				for (unsigned int j=0; j<Fw; j++) Acc += In[(h*Stride-PadT+i)*W + (w*Stride-PadL+j)]*Filter[Fw*i+j];
+			}
+			*PtO = Acc; PtO++;
+		}
+		PtO = PtO + (Wo-Wo_L)+Wo_F;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConvNxMStrideSxSy_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int Fw,
+	int Fh,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int StrideX,
+	int StrideY,
+	v4s Pad,
+	int Bias
+	)
+{
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+
+	int *PtO = Out+Wo*Ho_F+Wo_F;
+	signed char *PtC = Filter;
+	for (unsigned int h=Ho_F; h<Ho_L; h++) {
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			int Acc = Bias;
+			for (unsigned int i=0; i<Fh; i++) {
+				for (unsigned int j=0; j<Fw; j++) Acc += In[(h*StrideY-PadT+i)*W + (w*StrideX-PadL+j)]*Filter[Fw*i+j];
+			}
+			*PtO = Acc; PtO++;
+		}
+		PtO = PtO + (Wo-Wo_L)+Wo_F;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConvNxMDxDyStrideSxSy_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int Fw,
+	int Fh,
+	int Dw,
+	int Dh,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int StrideX,
+	int StrideY,
+	v4s Pad,
+	int Bias
+	)
+{
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+
+	int *PtO = Out+Wo*Ho_F+Wo_F;
+	signed char *PtC = Filter;
+	for (unsigned int h=Ho_F; h<Ho_L; h++) {
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			int Acc = Bias;
+			for (unsigned int i=0; i<Fh; i++) {
+				for (unsigned int j=0; j<Fw; j++) Acc += In[(h*StrideY-PadT+i*Dh)*W + (w*StrideX-PadL+j*Dw)]*Filter[Fw*i+j];
+			}
+			*PtO = Acc; PtO++;
+		}
+		PtO = PtO + (Wo-Wo_L)+Wo_F;
+	}
+}
+
+/*
+	Optionally 0 padded convolutions.
+
+	Input, output features and filters are bytes (_SQ8) Dim=1,3,5,N, Stride=1,2,S
+
+	Output feature maps are evaluated in parallel, one per core
+
+	Argument data type: KerConv_SQ8_T
+	Bias 8b: B8, 16b: B16, 32b: B32
+
+	KerParConvDW1x1Stride1_SQ8
+	KerParConvDW1x1Stride2_SQ8
+	KerParConvDW1x1StrideS_SQ8
+
+	KerParConvDW3x1Stride1x1_SQ8
+		|------	KerConv3x1Stride1x1_Body_SQ8
+		|------	KerConv3x1StrideNx1_Border_SQ8
+	KerParConvDW3x1Stride2x1_SQ8
+		|------	KerConv3x1Stride2x1_Body_SQ8
+		|------	KerConv3x1StrideNx1_Border_SQ8
+	KerParConvDW1x3Stride1x1_SQ8
+		|------	KerConv1x3Stride1x1_Body_SQ8
+		|------	KerConv1x3Stride1xN_Border_SQ8
+	KerParConvDW1x3Stride1x2_SQ8
+		|------	KerConv1x3Stride1x2_Body_SQ8
+		|------	KerConv1x3Stride1xN_Border_SQ8
+	KerParConvDW3x3Stride1_SQ8
+		|------	KerConv3x3Stride1_Body_SQ8
+		|------	KerConv3x3Stride1_Border_SQ8
+	KerParConvDW3x3Stride2_SQ8
+		|------	KerConv3x3Stride2_Body_SQ8
+		|------	KerConv3x3Stride2_Border_SQ8
+	KerParConvDW3x3StrideS_SQ8
+		|------	KerConv3x3StrideS_Body_SQ8
+		|------	KerConv3x3StrideS_Border_SQ8
+
+	KerParConvDW5x1Stride1x1_SQ8
+		|------	KerConv5x1Stride1x1_Body_SQ8
+		|------	KerConv5x1StrideNx1_Border_SQ8
+	KerParConvDW5x1Stride2x1_SQ8
+		|------	KerConv5x1Stride2x1_Body_SQ8
+		|------	KerConv5x1StrideNx1_Border_SQ8
+	KerParConvDW1x5Stride1x1_SQ8
+		|------	KerConv1x5Stride1x1_Body_SQ8
+		|------	KerConv1x5Stride1xN_Border_SQ8
+	KerParConvDW1x5Stride1x2_SQ8
+		|------	KerConv1x5Stride1x2_Body_SQ8
+		|------	KerConv1x5Stride1xN_Border_SQ8
+	KerParConvDW5x5Stride1_SQ8
+		|------	KerConv5x5Stride1_Body_SQ8
+		|------	KerConv5x5Stride1_Border_SQ8
+	KerParConvDW5x5Stride2_SQ8
+		|------	KerConv5x5Stride2_Body_SQ8
+		|------	KerConv5x5Stride2_Border_SQ8
+	KerParConvDW5x5StrideS_SQ8
+		|------	KerConv5x5StrideS_Body_SQ8
+		|------	KerConvNxNStrideS_Border_SQ8
+	KerParConvDW7x7StrideS_SQ8
+		|------	KerConv7x7StrideS_Body_SQ8
+		|------	KerConvNxNStrideS_Border_SQ8
+
+	KerParConvDWNxNStrideS_SQ8
+		|------	KerConvNxNStrideS_Body_SQ8
+		|------	KerConvNxNStrideS_Border_SQ8
+
+	KerParConvDWNxMStrideSxSy_SQ8
+		|------	KerConvNxMStrideSxSy_Body_SQ8
+		|------	KerConvNxMStrideSxSy_Border_SQ8
+
+	KerParConvDWNxMDxDyStrideSxSy_SQ8
+		|------	KerConvNxMDxDyStrideSxSy_Body_SQ8
+		|------	KerConvNxMDxDyStrideSxSy_Border_SQ8
+*/
+
+/* 8 bits Bias */
+void KerParConvDW1x1Stride1B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	signed char * __restrict__ Bias_SQ8 = (signed char * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias_SQ8[of], NormBias);
+		KerConv1x1Stride1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW1x1Stride2B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	signed char * __restrict__ Bias_SQ8 = (signed char * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias_SQ8[of], NormBias);
+		KerConv1x1Stride2_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW1x1StrideSB8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	signed char * __restrict__ Bias_SQ8 = (signed char * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias_SQ8[of], NormBias);
+		KerConv1x1StrideS_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW3x1Stride1x1B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=3, FSy=1, Sx=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	signed char * __restrict__ Bias_SQ8 = (signed char * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias_SQ8[of], NormBias);
+		KerConv3x1Stride1x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv3x1BorderStrideNx1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 1, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW3x1Stride2x1B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=3, FSy=1, Sx=2, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	signed char * __restrict__ Bias_SQ8 = (signed char * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias_SQ8[of], NormBias);
+		KerConv3x1Stride2x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv3x1BorderStrideNx1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 2, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW1x3Stride1x1B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, FSy=3, Sx=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	signed char * __restrict__ Bias_SQ8 = (signed char * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias_SQ8[of], NormBias);
+		KerConv1x3Stride1x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv1x3BorderStride1xN_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 1, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW1x3Stride1x2B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, FSy=3, Sx=1, Sy=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	signed char * __restrict__ Bias_SQ8 = (signed char * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias_SQ8[of], NormBias);
+		KerConv1x3Stride1x2_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv1x3BorderStride1xN_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 2, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW3x3Stride1B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	signed char * __restrict__ Bias_SQ8 = (signed char * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias_SQ8[of], NormBias);
+		KerConv3x3Stride1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv3x3BorderStride1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW3x3Stride2B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	signed char * __restrict__ Bias_SQ8 = (signed char * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias_SQ8[of], NormBias);
+		KerConv3x3Stride2_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv3x3BorderStride2_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW3x3StrideSB8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	signed char * __restrict__ Bias_SQ8 = (signed char * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias_SQ8[of], NormBias);
+		KerConv3x3StrideS_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, B);
+		if ((int)PadIn) KerConv3x3BorderStrideS_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW5x1Stride1x1B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=5, FSy=1, Sx=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	signed char * __restrict__ Bias_SQ8 = (signed char * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias_SQ8[of], NormBias);
+		KerConv5x1Stride1x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv5x1BorderStrideNx1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 1, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW5x1Stride2x1B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=5, FSy=1, Sx=2, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	signed char * __restrict__ Bias_SQ8 = (signed char * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias_SQ8[of], NormBias);
+		KerConv5x1Stride2x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv5x1BorderStrideNx1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 2, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW1x5Stride1x1B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, FSy=5, Sx=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	signed char * __restrict__ Bias_SQ8 = (signed char * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias_SQ8[of], NormBias);
+		KerConv1x5Stride1x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv1x5BorderStride1xN_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 1, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW1x5Stride1x2B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, FSy=5, Sx=1, Sy=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	signed char * __restrict__ Bias_SQ8 = (signed char * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias_SQ8[of], NormBias);
+		KerConv1x5Stride1x2_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv1x5BorderStride1xN_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 2, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW5x5Stride1B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	signed char * __restrict__ Bias_SQ8 = (signed char * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias_SQ8[of], NormBias);
+		KerConv5x5Stride1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv5x5BorderStride1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW5x5Stride2B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	signed char * __restrict__ Bias_SQ8 = (signed char * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias_SQ8[of], NormBias);
+		KerConv5x5Stride2_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv5x5BorderStride2_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW5x5StrideSB8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	signed char * __restrict__ Bias_SQ8 = (signed char * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias_SQ8[of], NormBias);
+		KerConv5x5StrideS_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, B);
+		if ((int)PadIn) KerConv5x5BorderStrideS_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW7x7StrideSB8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=7, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	signed char * __restrict__ Bias_SQ8 = (signed char * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias_SQ8[of], NormBias);
+		KerConv7x7StrideS_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, B);
+		if ((int)PadIn) KerConvNxNStrideS_Border_SQ8(in, out, filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDWNxNStrideSB8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=Arg->N, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	signed char * __restrict__ Bias_SQ8 = (signed char * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias_SQ8[of], NormBias);
+		KerConvNxNStrideS_Body_SQ8(in, out, filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, B);
+		if ((int)PadIn) KerConvNxNStrideS_Border_SQ8(in, out, filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDWNxMStrideSxSyB8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=Arg->N, Sx=Arg->S;
+	unsigned int FSy=Arg->Ny, Sy=Arg->Sy;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	signed char * __restrict__ Bias_SQ8 = (signed char * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias_SQ8[of], NormBias);
+		KerConvNxMStrideSxSy_Body_SQ8(in, out, filter, FSx, FSy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, B);
+		if ((int)PadIn) KerConvNxMStrideSxSy_Border_SQ8(in, out, filter, FSx, FSy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDWNxMDxDyStrideSxSyB8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=Arg->N, Sx=Arg->S;
+	unsigned int FSy=Arg->Ny, Sy=Arg->Sy;
+	int Dx=Arg->D, Dy=Arg->Dy;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	signed char * __restrict__ Bias_SQ8 = (signed char * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-(Dx*(FSx-1)+1)+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput((Dx*(FSx-1)+1), PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, (Dx*(FSx-1)+1), PadIn[0], Sx));
+	int Ho = (Arg->UsedH-(Dy*(FSy-1)+1)+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput((Dy*(FSy-1)+1), PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, (Dy*(FSy-1)+1), PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias_SQ8[of], NormBias);
+		KerConvNxMDxDyStrideSxSy_Body_SQ8(in, out, filter, FSx, FSy, Dx, Dy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, B);
+		if ((int)PadIn) KerConvNxMDxDyStrideSxSy_Border_SQ8(in, out, filter, FSx, FSy, Dx, Dy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+/* 16 bits Bias */
+
+void KerParConvDW1x1Stride1B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	short int * __restrict__ Bias = (short int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv1x1Stride1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW1x1Stride2B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	short int * __restrict__ Bias = (short int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv1x1Stride2_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW1x1StrideSB16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	short int * __restrict__ Bias = (short int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv1x1StrideS_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW3x1Stride1x1B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=3, FSy=1, Sx=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	short int * __restrict__ Bias = (short int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv3x1Stride1x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv3x1BorderStrideNx1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 1, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW3x1Stride2x1B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=3, FSy=1, Sx=2, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	short int * __restrict__ Bias = (short int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv3x1Stride2x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv3x1BorderStrideNx1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 2, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW1x3Stride1x1B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, FSy=3, Sx=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	short int * __restrict__ Bias = (short int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv1x3Stride1x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv1x3BorderStride1xN_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 1, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW1x3Stride1x2B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, FSy=3, Sx=1, Sy=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	short int * __restrict__ Bias = (short int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv1x3Stride1x2_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv1x3BorderStride1xN_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 2, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW3x3Stride1B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	short int * __restrict__ Bias = (short int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv3x3Stride1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv3x3BorderStride1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW3x3Stride2B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	short int * __restrict__ Bias = (short int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv3x3Stride2_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv3x3BorderStride2_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW3x3StrideSB16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	short int * __restrict__ Bias = (short int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv3x3StrideS_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, B);
+		if ((int)PadIn) KerConv3x3BorderStrideS_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW5x1Stride1x1B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=5, FSy=1, Sx=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	short int * __restrict__ Bias = (short int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv5x1Stride1x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv5x1BorderStrideNx1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 1, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW5x1Stride2x1B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=5, FSy=1, Sx=2, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	short int * __restrict__ Bias = (short int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv5x1Stride2x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv5x1BorderStrideNx1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 2, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW1x5Stride1x1B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, FSy=5, Sx=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	short int * __restrict__ Bias = (short int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv1x5Stride1x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv1x5BorderStride1xN_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 1, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW1x5Stride1x2B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, FSy=5, Sx=1, Sy=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	short int * __restrict__ Bias = (short int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv1x5Stride1x2_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv1x5BorderStride1xN_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 2, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW5x5Stride1B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	short int * __restrict__ Bias = (short int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv5x5Stride1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv5x5BorderStride1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW5x5Stride2B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	short int * __restrict__ Bias = (short int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv5x5Stride2_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv5x5BorderStride2_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW5x5StrideSB16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	short int * __restrict__ Bias = (short int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv5x5StrideS_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, B);
+		if ((int)PadIn) KerConv5x5BorderStrideS_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW7x7StrideSB16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=7, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	short int * __restrict__ Bias = (short int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv7x7StrideS_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, B);
+		if ((int)PadIn) KerConvNxNStrideS_Border_SQ8(in, out, filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDWNxNStrideSB16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=Arg->N, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	short int * __restrict__ Bias = (short int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConvNxNStrideS_Body_SQ8(in, out, filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, B);
+		if ((int)PadIn) KerConvNxNStrideS_Border_SQ8(in, out, filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDWNxMStrideSxSyB16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=Arg->N, Sx=Arg->S;
+	unsigned int FSy=Arg->Ny, Sy=Arg->Sy;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	short int * __restrict__ Bias = (short int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConvNxMStrideSxSy_Body_SQ8(in, out, filter, FSx, FSy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, B);
+		if ((int)PadIn) KerConvNxMStrideSxSy_Border_SQ8(in, out, filter, FSx, FSy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDWNxMDxDyStrideSxSyB16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=Arg->N, Sx=Arg->S;
+	unsigned int FSy=Arg->Ny, Sy=Arg->Sy;
+	int Dx=Arg->D, Dy=Arg->Dy;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	short int * __restrict__ Bias = (short int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-(Dx*(FSx-1)+1)+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput((Dx*(FSx-1)+1), PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, (Dx*(FSx-1)+1), PadIn[0], Sx));
+	int Ho = (Arg->UsedH-(Dy*(FSy-1)+1)+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput((Dy*(FSy-1)+1), PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, (Dy*(FSy-1)+1), PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConvNxMDxDyStrideSxSy_Body_SQ8(in, out, filter, FSx, FSy, Dx, Dy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, B);
+		if ((int)PadIn) KerConvNxMDxDyStrideSxSy_Border_SQ8(in, out, filter, FSx, FSy, Dx, Dy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+
+/* 32 bits Bias */
+
+void KerParConvDW1x1Stride1B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv1x1Stride1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW1x1Stride2B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv1x1Stride2_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW1x1StrideSB32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv1x1StrideS_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW3x1Stride1x1B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=3, FSy=1, Sx=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv3x1Stride1x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv3x1BorderStrideNx1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 1, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW3x1Stride2x1B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=3, FSy=1, Sx=2, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv3x1Stride2x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv3x1BorderStrideNx1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 2, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW1x3Stride1x1B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, FSy=3, Sx=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv1x3Stride1x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv1x3BorderStride1xN_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 1, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW1x3Stride1x2B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, FSy=3, Sx=1, Sy=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv1x3Stride1x2_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv1x3BorderStride1xN_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 2, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW3x3Stride1B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv3x3Stride1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv3x3BorderStride1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW3x3Stride2B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv3x3Stride2_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv3x3BorderStride2_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW3x3StrideSB32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv3x3StrideS_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, B);
+		if ((int)PadIn) KerConv3x3BorderStrideS_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW5x1Stride1x1B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=5, FSy=1, Sx=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv5x1Stride1x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv5x1BorderStrideNx1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 1, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW5x1Stride2x1B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=5, FSy=1, Sx=2, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv5x1Stride2x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv5x1BorderStrideNx1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 2, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW1x5Stride1x1B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, FSy=5, Sx=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv1x5Stride1x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv1x5BorderStride1xN_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 1, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW1x5Stride1x2B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, FSy=5, Sx=1, Sy=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv1x5Stride1x2_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv1x5BorderStride1xN_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 2, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW5x5Stride1B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv5x5Stride1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv5x5BorderStride1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW5x5Stride2B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv5x5Stride2_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, B);
+		if ((int)PadIn) KerConv5x5BorderStride2_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW5x5StrideSB32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv5x5StrideS_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, B);
+		if ((int)PadIn) KerConv5x5BorderStrideS_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDW7x7StrideSB32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=7, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConv7x7StrideS_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, B);
+		if ((int)PadIn) KerConvNxNStrideS_Border_SQ8(in, out, filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDWNxNStrideSB32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=Arg->N, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FS*FS*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConvNxNStrideS_Body_SQ8(in, out, filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, B);
+		if ((int)PadIn) KerConvNxNStrideS_Border_SQ8(in, out, filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDWNxMStrideSxSyB32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=Arg->N, Sx=Arg->S;
+	unsigned int FSy=Arg->Ny, Sy=Arg->Sy;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConvNxMStrideSxSy_Body_SQ8(in, out, filter, FSx, FSy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, B);
+		if ((int)PadIn) KerConvNxMStrideSxSy_Border_SQ8(in, out, filter, FSx, FSy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConvDWNxMDxDyStrideSxSyB32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=Arg->N, Sx=Arg->S;
+	unsigned int FSy=Arg->Ny, Sy=Arg->Sy;
+	int Dx=Arg->D, Dy=Arg->Dy;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Bias = (int * __restrict__) Arg->Bias;
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-(Dx*(FSx-1)+1)+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput((Dx*(FSx-1)+1), PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, (Dx*(FSx-1)+1), PadIn[0], Sx));
+	int Ho = (Arg->UsedH-(Dy*(FSy-1)+1)+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput((Dy*(FSy-1)+1), PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, (Dy*(FSy-1)+1), PadIn[2], Sy));
+
+       	for (unsigned int of=First; of<Last; of++) {
+		signed char *in = In+W*H*of, *filter = Filter+FSx*FSy*of; int *out = Out+Wo*Ho*of;
+		int B = AT_LSHIFT(Bias[of], NormBias);
+		KerConvNxMDxDyStrideSxSy_Body_SQ8(in, out, filter, FSx, FSy, Dx, Dy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, B);
+		if ((int)PadIn) KerConvNxMDxDyStrideSxSy_Border_SQ8(in, out, filter, FSx, FSy, Dx, Dy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, PadIn, B);
+	}
+	gap_waitbarrier(0);
+}
+
+/*
+	Optionally 0 padded convolutions.
+
+	Input, output features and filters are bytes (_SQ8) Dim=1,3,5,N, Stride=1,2,S
+
+	A single feature map is evaluated in parallel on all cores
+
+	Argument data type: KerConv_SQ8_T
+
+	KerConvDW1x1Stride1_SQ8
+	KerConvDW1x1Stride2_SQ8
+	KerConvDW1x1StrideS_SQ8
+
+	KerConvDW3x1Stride1x1_SQ8
+		|------	KerConv3x1Stride1x1_Body_SQ8
+		|------	KerConv3x1StrideNx1_Border_SQ8
+	KerConvDW3x1Stride2x1_SQ8
+		|------	KerConv3x1Stride2x1_Body_SQ8
+		|------	KerConv3x1StrideNx1_Border_SQ8
+	KerConvDW1x3Stride1x1_SQ8
+		|------	KerConv1x3Stride1x1_Body_SQ8
+		|------	KerConv1x3Stride1xN_Border_SQ8
+	KerConvDW1x3Stride1x2_SQ8
+		|------	KerConv1x3Stride1x2_Body_SQ8
+		|------	KerConv1x3Stride1xN_Border_SQ8
+	KerConvDW3x3Stride1_SQ8
+		|------	KerConv3x3Stride1_Body_SQ8
+		|------	KerConv3x3Stride1_Border_SQ8
+	KerConvDW3x3Stride2_SQ8
+		|------	KerConv3x3Stride2_Body_SQ8
+		|------	KerConv3x3Stride2_Border_SQ8
+	KerConvDW3x3StrideS_SQ8
+		|------	KerConv3x3StrideS_Body_SQ8
+		|------	KerConv3x3StrideS_Border_SQ8
+
+	KerConvDW5x1Stride1x1_SQ8
+		|------	KerConv5x1Stride1x1_Body_SQ8
+		|------	KerConv5x1StrideNx1_Border_SQ8
+	KerConvDW5x1Stride2x1_SQ8
+		|------	KerConv5x1Stride2x1_Body_SQ8
+		|------	KerConv5x1StrideNx1_Border_SQ8
+	KerConvDW1x5Stride1x1_SQ8
+		|------	KerConv1x5Stride1x1_Body_SQ8
+		|------	KerConv1x5Stride1xN_Border_SQ8
+	KerConvDW1x5Stride1x2_SQ8
+		|------	KerConv1x5Stride1x2_Body_SQ8
+		|------	KerConv1x5Stride1xN_Border_SQ8
+	KerConvDW5x5Stride1_SQ8
+		|------	KerConv5x5Stride1_Body_SQ8
+		|------	KerConv5x5Stride1_Border_SQ8
+	KerConvDW5x5Stride2_SQ8
+		|------	KerConv5x5Stride2_Body_SQ8
+		|------	KerConv5x5Stride2_Border_SQ8
+	KerConvDW5x5StrideS_SQ8
+		|------	KerConv5x5StrideS_Body_SQ8
+		|------	KerConv5x5StrideS_Border_SQ8
+	KerConvDW7x7StrideS_SQ8
+		|------	KerConv7x7StrideS_Body_SQ8
+		|------	KerConv7x7StrideS_Border_SQ8
+
+	KerConvDWNxNStrideS_SQ8
+		|------	KerConvNxNStrideS_Body_SQ8
+		|------	KerConvNxNStrideS_Border_SQ8
+
+	KerConvDWNxMStrideSxSy_SQ8
+		|------	KerConvNxMStrideSxSy_Body_SQ8
+		|------	KerConvNxMStrideSxSy_Border_SQ8
+
+	KerConvDWNxMDxDyStrideSxSy_SQ8
+		|------	KerConvNxMDxDyStrideSxSy_Body_SQ8
+		|------	KerConvNxMDxDyStrideSxSy_Border_SQ8
+*/
+
+/* 8 Bits Bias */
+void KerConvDW1x1Stride1B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((signed char *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) KerConv1x1Stride1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+	gap_waitbarrier(0);
+}
+
+void KerConvDW1x1Stride2B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((signed char *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) KerConv1x1Stride2_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+	gap_waitbarrier(0);
+}
+
+void KerConvDW1x1StrideSB8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((signed char *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) KerConv1x1StrideS_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadOrg, B);
+	gap_waitbarrier(0);
+}
+
+void KerConvDW3x1Stride1x1B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=3, Sx=1;
+	unsigned int FSy=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((signed char *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv3x1Stride1x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv3x1BorderStrideNx1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW3x1Stride2x1B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=3, Sx=2;
+	unsigned int FSy=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((signed char *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv3x1Stride2x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv3x1BorderStrideNx1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW1x3Stride1x1B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, Sx=1;
+	unsigned int FSy=3, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((signed char *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv1x3Stride1x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv1x3BorderStride1xN_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sy, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW1x3Stride1x2B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, Sx=1;
+	unsigned int FSy=3, Sy=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((signed char *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv1x3Stride1x2_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv1x3BorderStride1xN_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sy, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW3x3Stride1B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((signed char *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv3x3Stride1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv3x3BorderStride1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW3x3Stride2B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((signed char *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv3x3Stride2_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv3x3BorderStride2_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW3x3StrideSB8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((signed char *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv3x3StrideS_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadOrg, B);
+		if ((int)PadIn) KerConv3x3BorderStrideS_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW5x1Stride1x1B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=5, Sx=1;
+	unsigned int FSy=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((signed char *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv5x1Stride1x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv5x1BorderStrideNx1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW5x1Stride2x1B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=5, Sx=2;
+	unsigned int FSy=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((signed char *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv5x1Stride2x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv5x1BorderStrideNx1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW1x5Stride1x1B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, Sx=1;
+	unsigned int FSy=5, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((signed char *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv1x5Stride1x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv1x5BorderStride1xN_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sy, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW1x5Stride1x2B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, Sx=1;
+	unsigned int FSy=5, Sy=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((signed char *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv1x5Stride1x2_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv1x5BorderStride1xN_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sy, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW5x5Stride1B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((signed char *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv5x5Stride1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv5x5BorderStride1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW5x5Stride2B8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((signed char *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv5x5Stride2_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv5x5BorderStride2_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW5x5StrideSB8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((signed char *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv5x5StrideS_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadOrg, B);
+		if ((int)PadIn) KerConv5x5BorderStrideS_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW7x7StrideSB8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=7, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((signed char *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv7x7StrideS_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadOrg, B);
+		if ((int)PadIn) KerConvNxNStrideS_Border_SQ8(In, Out, Filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDWNxNStrideSB8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=Arg->N, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((signed char *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConvNxNStrideS_Body_SQ8(In, Out, Filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadOrg, B);
+		if ((int)PadIn) KerConvNxNStrideS_Border_SQ8(In, Out, Filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDWNxMStrideSxSyB8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=Arg->N, Sx=Arg->S;
+	unsigned int FSy=Arg->Ny, Sy=Arg->Sy;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((signed char *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConvNxMStrideSxSy_Body_SQ8(In, Out, Filter, FSx, FSy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadOrg, B);
+		if ((int)PadIn) KerConvNxMStrideSxSy_Border_SQ8(In, Out, Filter, FSx, FSy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDWNxMDxDyStrideSxSyB8_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=Arg->N, Sx=Arg->S;
+	unsigned int FSy=Arg->Ny, Sy=Arg->Sy;
+	int Dx=Arg->D, Dy=Arg->Dy;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((signed char *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-(Dx*(FSx-1)+1)+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput((Dx*(FSx-1)+1), PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, (Dx*(FSx-1)+1), PadIn[0], Sx));
+	int Ho = (Arg->UsedH-(Dy*(FSy-1)+1)+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput((Dy*(FSy-1)+1), PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, (Dy*(FSy-1)+1), PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConvNxMDxDyStrideSxSy_Body_SQ8(In, Out, Filter, FSx, FSy, Dx, Dy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadOrg, B);
+		if ((int)PadIn) KerConvNxMDxDyStrideSxSy_Border_SQ8(In, Out, Filter, FSx, FSy, Dx, Dy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+/* 16 Bits Bias */
+void KerConvDW1x1Stride1B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((short int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) KerConv1x1Stride1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+	gap_waitbarrier(0);
+}
+
+void KerConvDW1x1Stride2B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((short int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) KerConv1x1Stride2_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+	gap_waitbarrier(0);
+}
+
+void KerConvDW1x1StrideSB16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((short int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) KerConv1x1StrideS_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadOrg, B);
+	gap_waitbarrier(0);
+}
+
+void KerConvDW3x1Stride1x1B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=3, Sx=1;
+	unsigned int FSy=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((short int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv3x1Stride1x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv3x1BorderStrideNx1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW3x1Stride2x1B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=3, Sx=2;
+	unsigned int FSy=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((short int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv3x1Stride2x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv3x1BorderStrideNx1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW1x3Stride1x1B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, Sx=1;
+	unsigned int FSy=3, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((short int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv1x3Stride1x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv1x3BorderStride1xN_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sy, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW1x3Stride1x2B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, Sx=1;
+	unsigned int FSy=3, Sy=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((short int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv1x3Stride1x2_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv1x3BorderStride1xN_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sy, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW3x3Stride1B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((short int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv3x3Stride1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv3x3BorderStride1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW3x3Stride2B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((short int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv3x3Stride2_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv3x3BorderStride2_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW3x3StrideSB16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((short int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv3x3StrideS_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadOrg, B);
+		if ((int)PadIn) KerConv3x3BorderStrideS_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW5x1Stride1x1B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=5, Sx=1;
+	unsigned int FSy=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((short int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv5x1Stride1x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv5x1BorderStrideNx1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW5x1Stride2x1B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=5, Sx=2;
+	unsigned int FSy=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((short int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv5x1Stride2x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv5x1BorderStrideNx1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW1x5Stride1x1B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, Sx=1;
+	unsigned int FSy=5, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((short int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv1x5Stride1x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv1x5BorderStride1xN_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sy, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW1x5Stride1x2B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, Sx=1;
+	unsigned int FSy=5, Sy=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((short int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv1x5Stride1x2_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv1x5BorderStride1xN_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sy, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW5x5Stride1B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((short int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv5x5Stride1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv5x5BorderStride1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW5x5Stride2B16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((short int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv5x5Stride2_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv5x5BorderStride2_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW5x5StrideSB16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((short int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv5x5StrideS_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadOrg, B);
+		if ((int)PadIn) KerConv5x5BorderStrideS_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW7x7StrideSB16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=7, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((short int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv7x7StrideS_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadOrg, B);
+		if ((int)PadIn) KerConvNxNStrideS_Border_SQ8(In, Out, Filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDWNxNStrideSB16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=Arg->N, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((short int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConvNxNStrideS_Body_SQ8(In, Out, Filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadOrg, B);
+		if ((int)PadIn) KerConvNxNStrideS_Border_SQ8(In, Out, Filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDWNxMStrideSxSyB16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=Arg->N, Sx=Arg->S;
+	unsigned int FSy=Arg->Ny, Sy=Arg->Sy;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((short int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConvNxMStrideSxSy_Body_SQ8(In, Out, Filter, FSx, FSy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadOrg, B);
+		if ((int)PadIn) KerConvNxMStrideSxSy_Border_SQ8(In, Out, Filter, FSx, FSy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDWNxMDxDyStrideSxSyB16_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=Arg->N, Sx=Arg->S;
+	unsigned int FSy=Arg->Ny, Sy=Arg->Sy;
+	int Dx=Arg->D, Dy=Arg->Dy;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((short int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-(Dx*(FSx-1)+1)+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput((Dx*(FSx-1)+1), PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, (Dx*(FSx-1)+1), PadIn[0], Sx));
+	int Ho = (Arg->UsedH-(Dy*(FSy-1)+1)+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput((Dy*(FSy-1)+1), PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, (Dy*(FSy-1)+1), PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConvNxMDxDyStrideSxSy_Body_SQ8(In, Out, Filter, FSx, FSy, Dx, Dy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadOrg, B);
+		if ((int)PadIn) KerConvNxMDxDyStrideSxSy_Border_SQ8(In, Out, Filter, FSx, FSy, Dx, Dy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+/* 32 Bits Bias */
+void KerConvDW1x1Stride1B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) KerConv1x1Stride1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+	gap_waitbarrier(0);
+}
+
+void KerConvDW1x1Stride2B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) KerConv1x1Stride2_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+	gap_waitbarrier(0);
+}
+
+void KerConvDW1x1StrideSB32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) KerConv1x1StrideS_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadOrg, B);
+	gap_waitbarrier(0);
+}
+
+void KerConvDW3x1Stride1x1B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=3, Sx=1;
+	unsigned int FSy=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv3x1Stride1x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv3x1BorderStrideNx1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW3x1Stride2x1B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=3, Sx=2;
+	unsigned int FSy=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv3x1Stride2x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv3x1BorderStrideNx1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW1x3Stride1x1B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, Sx=1;
+	unsigned int FSy=3, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv1x3Stride1x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv1x3BorderStride1xN_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sy, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW1x3Stride1x2B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, Sx=1;
+	unsigned int FSy=3, Sy=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv1x3Stride1x2_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv1x3BorderStride1xN_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sy, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW3x3Stride1B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv3x3Stride1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv3x3BorderStride1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW3x3Stride2B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv3x3Stride2_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv3x3BorderStride2_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW3x3StrideSB32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv3x3StrideS_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadOrg, B);
+		if ((int)PadIn) KerConv3x3BorderStrideS_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW5x1Stride1x1B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=5, Sx=1;
+	unsigned int FSy=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv5x1Stride1x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv5x1BorderStrideNx1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW5x1Stride2x1B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=5, Sx=2;
+	unsigned int FSy=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv5x1Stride2x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv5x1BorderStrideNx1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW1x5Stride1x1B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, Sx=1;
+	unsigned int FSy=5, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv1x5Stride1x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv1x5BorderStride1xN_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sy, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW1x5Stride1x2B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, Sx=1;
+	unsigned int FSy=5, Sy=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv1x5Stride1x2_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv1x5BorderStride1xN_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sy, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW5x5Stride1B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv5x5Stride1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv5x5BorderStride1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW5x5Stride2B32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv5x5Stride2_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg, B);
+		if ((int)PadIn) KerConv5x5BorderStride2_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW5x5StrideSB32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv5x5StrideS_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadOrg, B);
+		if ((int)PadIn) KerConv5x5BorderStrideS_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDW7x7StrideSB32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=7, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv7x7StrideS_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadOrg, B);
+		if ((int)PadIn) KerConvNxNStrideS_Border_SQ8(In, Out, Filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDWNxNStrideSB32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=Arg->N, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConvNxNStrideS_Body_SQ8(In, Out, Filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadOrg, B);
+		if ((int)PadIn) KerConvNxNStrideS_Border_SQ8(In, Out, Filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDWNxMStrideSxSyB32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=Arg->N, Sx=Arg->S;
+	unsigned int FSy=Arg->Ny, Sy=Arg->Sy;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConvNxMStrideSxSy_Body_SQ8(In, Out, Filter, FSx, FSy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadOrg, B);
+		if ((int)PadIn) KerConvNxMStrideSxSy_Border_SQ8(In, Out, Filter, FSx, FSy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvDWNxMDxDyStrideSxSyB32_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=Arg->N, Sx=Arg->S;
+	unsigned int FSy=Arg->Ny, Sy=Arg->Sy;
+	int Dx=Arg->D, Dy=Arg->Dy;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	unsigned int NormBias = Arg->NormBias;
+	int B = AT_LSHIFT(((int *__restrict__) Arg->Bias)[0], NormBias);
+	int * __restrict__ Out = (int * __restrict__) Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-(Dx*(FSx-1)+1)+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput((Dx*(FSx-1)+1), PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, (Dx*(FSx-1)+1), PadIn[0], Sx));
+	int Ho = (Arg->UsedH-(Dy*(FSy-1)+1)+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput((Dy*(FSy-1)+1), PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, (Dy*(FSy-1)+1), PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConvNxMDxDyStrideSxSy_Body_SQ8(In, Out, Filter, FSx, FSy, Dx, Dy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadOrg, B);
+		if ((int)PadIn) KerConvNxMDxDyStrideSxSy_Border_SQ8(In, Out, Filter, FSx, FSy, Dx, Dy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, PadOrg, B);
+	}
+	gap_waitbarrier(0);
+}
diff --git a/tools/autotiler_v3/generators/CNN/CNN_Conv_SQ8.c b/tools/autotiler_v3/generators/CNN/CNN_Conv_SQ8.c
new file mode 100644
index 000000000..f0c3030fd
--- /dev/null
+++ b/tools/autotiler_v3/generators/CNN/CNN_Conv_SQ8.c
@@ -0,0 +1,4443 @@
+#include "Gap.h"
+#include "CNN_BasicKernels_SQ8.h"
+
+static int CoreCountDynamic = 1;
+static int ActiveCore = gap_ncore();
+
+static inline unsigned int __attribute__((always_inline)) ChunkSize(unsigned int X)
+
+{
+	unsigned int NCore;
+	unsigned int Log2Core;
+	unsigned int Chunk;
+
+	if (CoreCountDynamic) NCore = ActiveCore; else NCore = gap_ncore();
+	Log2Core = gap_fl1(NCore);
+	Chunk = (X>>Log2Core) + ((X&(NCore-1))!=0);
+	return Chunk;
+}
+
+static int FirstDefinedOutput(unsigned int F, unsigned int Pad, unsigned int Stride)
+
+{
+	// k*S - (F-1)/2 >=0 => k >= (((F-1)/2) + S-1)/S
+
+	return ((Pad+Stride-1)/Stride);
+}
+
+static int LastDefinedOutput(unsigned int DimIn, unsigned int F, unsigned int PadL, unsigned int Stride)
+
+{
+	// k*S + ((F-1)/2 - PadL + F/2) < Dim  => k < (Dim-((F-1)/2 - PadL + (F/2)) + S-1)/S
+
+	return ((DimIn - ((F-1)/2 - PadL + (F/2)) + Stride-1)/Stride);
+}
+
+static int __attribute__ ((always_inline)) MinCond(int a, int b)
+
+{
+#ifdef DIM_ALWAYS_GREATER_THAN_FILTER
+	return a;
+#else
+	return Max(0, Min(a, b));
+#endif
+}
+
+/* Padded Convolution Border processing
+
+	Zero padding support. Implementation is based on partial convolutions derived from the original filter
+
+	Input feature maps, Output feature maps and filter on bytes
+
+		KerConv3x1BorderStrideNx1_SQ8
+			|------ KerConv2x1from3x1StrideNx1_V_SQ8 3x1 convolution, stride Nx1, Left and right 0 padded stripes processing.
+
+		KerConv1x3BorderStride1xN_SQ8
+			|------ KerConv1x2from1x3Stride1xN_H_SQ8 1x3 convolution, stride 1xN, Left and right 0 padded stripes processing.
+
+		KerConv3x3BorderStride1_SQ8
+			|------	KerConv2x3from3x3Stride1_V_SQ8	3x3 convolution, stride 1, Left and right 0 padded stripes processing. 
+			|------	KerConv3x2from3x3Stride1_H_SQ8	3x3 convolution, stride 1, Top and bottom 0 padded stripes processing.
+
+		KerConv3x3BorderStride2_SQ8
+			|------	KerConv2x3from3x3Stride2_V_SQ8	3x3 convolution, stride 2, Left and right 0 padded stripes processing.
+			|------	KerConv3x2from3x3Stride2_H_SQ8	3x3 convolution, stride 2, Top and bottom 0 padded stripes processing.
+
+		KerConv3x3BorderStrideS_SQ8
+			|------	KerConv2x3from3x3StrideS_V_SQ8	3x3 convolution, stride S, Left and right 0 padded stripes processing.
+			|------	KerConv3x2from3x3StrideS_H_SQ8	3x3 convolution, stride S, Top and bottom 0 padded stripes processing.
+
+		KerConv5x1BorderStrideNx1_SQ8
+			|------ KerConv4x1from5x1StrideNx1_V_SQ8 5x1 convolution, stride Nx1, Left and right 0 padded stripes processing.
+
+		KerConv1x5BorderStride1xN_SQ8
+			|------ KerConv1x4from1x5Stride1xN_H_SQ8 1x5 convolution, stride 1xN, Left and right 0 padded stripes processing.
+
+		KerConv5x5BorderStride1_SQ8
+			|------	KerConv4x5from5x5Stride1_V_SQ8	5x5 convolution, stride 1, Left and right 0 padded stripes processing.
+			|------	KerConv5x4from5x5Stride1_H_SQ8	5x5 convolution, stride 1, Top and bottom 0 padded stripes processing.
+
+		KerConv5x5BorderStride2_SQ8
+			|------	KerConv4x5from5x5Stride2_V_SQ8	5x5 convolution, stride 2, Left and right 0 padded stripes processing.
+			|------	KerConv5x4from5x5Stride2_H_SQ8	5x5 convolution, stride 2, Top and bottom 0 padded stripes processing.
+
+		KerConv5x5BorderStrideS_SQ8
+			|------	KerConv4x5from5x5StrideS_V_SQ8	5x5 convolution, stride S, Left and right 0 padded stripes processing.
+			|------	KerConv5x4from5x5StrideS_H_SQ8	5x5 convolution, stride S, Top and bottom 0 padded stripes processing.
+
+		KerConvNxNStrideS_Border_fp		NxN convolution, stride S, Left, Right, Top and Bottom borders
+
+		KerConvNxMStrideSxSy_Border_fp		NxM convolution, stride Sx,Sy, Left, Right, Top and Bottom borders
+
+		KerConvNxMDxDyStrideSxSy_Border_fp	NxM convolution, dilation Dx,Dy, stride Sx,Sy, Left, Right, Top and Bottom borders
+
+
+
+
+	Input feature maps, Output feature maps and filter on half words
+
+		KerConv3x1BorderStrideNx1_fp
+			|------ KerConv2x1from3x1StrideNx1_V_fp 3x1 convolution, stride Nx1, Left and right 0 padded stripes processing.
+
+		KerConv1x3BorderStride1xN_fp
+			|------ KerConv1x2from1x3Stride1xN_H_fp 1x3 convolution, stride 1xN, Left and right 0 padded stripes processing.
+
+		KerConv3x3BorderStride1_fp
+			|------	KerConv2x3from3x3Stride1_V_fp	3x3 convolution, stride 1, Left and right 0 padded stripes processing. 
+			|------	KerConv3x2from3x3Stride1_H_fp	3x3 convolution, stride 1, Top and bottom 0 padded stripes processing.
+
+		KerConv3x3BorderStride2_fp
+			|------	KerConv2x3from3x3Stride2_V_fp	3x3 convolution, stride 2, Left and right 0 padded stripes processing.
+			|------	KerConv3x2from3x3Stride2_H_fp	3x3 convolution, stride 2, Top and bottom 0 padded stripes processing.
+
+		KerConv3x3BorderStrideS_fp
+			|------	KerConv2x3from3x3StrideS_V_fp	3x3 convolution, stride S, Left and right 0 padded stripes processing.
+			|------	KerConv3x2from3x3StrideS_H_fp	3x3 convolution, stride S, Top and bottom 0 padded stripes processing.
+
+		KerConv5x1BorderStrideNx1_fp
+			|------ KerConv4x1from5x1StrideNx1_V_fp 5x1 convolution, stride Nx1, Left and right 0 padded stripes processing.
+
+		KerConv1x5BorderStride1xN_fp
+			|------ KerConv1x4from1x5Stride1xN_H_fp 1x5 convolution, stride 1xN, Left and right 0 padded stripes processing.
+
+		KerConv5x5BorderStride1_fp
+			|------	KerConv4x5from5x5Stride1_V_fp	5x5 convolution, stride 1, Left and right 0 padded stripes processing.
+			|------	KerConv5x4from5x5Stride1_H_fp	5x5 convolution, stride 1, Top and bottom 0 padded stripes processing.
+
+		KerConv5x5BorderStride2_fp
+			|------	KerConv4x5from5x5Stride2_V_fp	5x5 convolution, stride 2, Left and right 0 padded stripes processing.
+			|------	KerConv5x4from5x5Stride2_H_fp	5x5 convolution, stride 2, Top and bottom 0 padded stripes processing.
+
+		KerConv5x5BorderStrideS_fp
+			|------	KerConv4x5from5x5StrideS_V_fp	5x5 convolution, stride S, Left and right 0 padded stripes processing.
+			|------	KerConv5x4from5x5StrideS_H_fp	5x5 convolution, stride S, Top and bottom 0 padded stripes processing.
+
+		KerConvNxNStrideS_Border_SQ8		NxN convolution, stride S, Left, Right, Top and Bottom borders
+
+		KerConvNxMStrideSxSy_Border_SQ8	NxM convolution, stride Sx,Sy, Left, Right, Top and Bottom borders
+
+		KerConvNxMDxDyStrideSxSy_Border_SQ8	NxM convolution, dilation Dx,Dy, stride Sx,Sy, Left, Right, Top and Bottom borders
+*/
+
+static void __attribute__ ((noinline)) KerConv2x1from3x1StrideNx1_V_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadTOrg,
+	int Wo, int Ho, int Ho_F, int Ho_L,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+{
+	int V0,V1;
+	int C0,C1;
+	signed char *PtIn;
+	int *PtOut;
+
+	if (FilterConf) { /* Right Side */
+		C0 = Filter[0]; C1 = Filter[1];
+	} else { /* Left Side */
+		C0 = Filter[1]; C1 = Filter[2];
+	}
+	PtIn = In + (Ho_F*1-PadTOrg)*W; PtOut = Out+Ho_F*Wo;
+	for (unsigned int i=Ho_F; i<Ho_L; i++) {
+		int Acc = *PtOut;
+		V0 = *PtIn; V1 = *(PtIn+1); PtIn += W;
+		Acc += V0*C0; Acc += V1*C1;
+		*PtOut =  Acc; PtOut+=Wo;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv1x2from1x3Stride1xN_H_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadL,
+	int Wo, int Wo_F, int Wo_L,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+{
+	int V0,V1;
+	int C0,C1;
+	signed char *PtIn = In+Wo_F*1-PadL;
+	int *PtOut = Out;
+
+	if (FilterConf) { /* Bottom Side */
+		C0 = Filter[0]; C1 = Filter[1];
+	} else { /* Top Side */
+		C0 = Filter[1]; C1 = Filter[2];
+	}
+	for (unsigned int i=Wo_F; i<Wo_L; i++) {
+		int Acc = *PtOut;
+		V0 = *(PtIn+0*W+0); V1 = *(PtIn+1*W+0); PtIn++;
+		Acc += V0*C0; Acc += V1*C1;
+		*PtOut = Acc; PtOut++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv2x3from3x3Stride1_V_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadTOrg,
+	int Wo, int Ho, int Ho_F, int Ho_L,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+{
+	v4s V0, V1, V2;
+	v4s C0, C1, C2;
+	signed char *PtIn;
+	int *PtOut;
+	int Bottom = Ho-Ho_L;
+
+	if (FilterConf) {
+		C0 = (v4s) (int) *((unsigned short *) (Filter + 0*3+0)); C1 = (v4s) (int) *((unsigned short *) (Filter + 1*3+0)); C2 = (v4s) (int) *((unsigned short *) (Filter + 2*3+0));
+	} else {
+		C0 = (v4s) (int) *((unsigned short *) (Filter + 0*3+1)); C1 = (v4s) (int) *((unsigned short *) (Filter + 1*3+1)); C2 = (v4s) (int) *((unsigned short *) (Filter + 2*3+1));
+	}
+	if (Ho_F==1) {
+		PtIn = In; PtOut = Out; Ho_F = 0;
+		V0 = (v4s){0,0,0,0};
+		V1 = *((v4s *) PtIn); PtIn += W;
+	} else  { // == 0
+		PtIn = In + (Ho_F*1-PadTOrg)*W; PtOut = Out+Ho_F*Wo;
+		V0 = *((v4s *) PtIn); PtIn += W;
+		V1 = *((v4s *) PtIn); PtIn += W;
+	}
+	for (unsigned int i=Ho_F; i<Ho_L; i++) {
+		int Acc = *PtOut;
+		V2 = *((v4s *) PtIn); PtIn += W;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc);
+		*PtOut =  Acc; PtOut+=Wo;
+		V0 = V1; V1 = V2;
+	}
+	if (Bottom) {
+		int Acc = *PtOut;
+		PtIn -= 2*W;
+		V0 = *((v4s *) PtIn); PtIn += W;
+		V1 = *((v4s *) PtIn);;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		*PtOut =  Acc;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv2x3from3x3Stride1_V_2Out_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadTOrg,
+	int Wo, int Ho, int Ho_F, int Ho_L,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	unsigned int NextFilter,
+	int FilterConf
+	)
+{
+	v4s V0, V1, V2;
+	v4s C00, C01, C02, C10, C11, C12;
+	signed char *PtIn;
+	int *PtOut0, *PtOut1;
+	int Bottom = Ho-Ho_L;
+
+	if (FilterConf) {
+		C00 = (v4s) (int) *((unsigned short *) (Filter + 0*3+0)); C01 = (v4s) (int) *((unsigned short *) (Filter + 1*3+0)); C02 = (v4s) (int) *((unsigned short *) (Filter + 2*3+0));
+		Filter += NextFilter;
+		C10 = (v4s) (int) *((unsigned short *) (Filter + 0*3+0)); C11 = (v4s) (int) *((unsigned short *) (Filter + 1*3+0)); C12 = (v4s) (int) *((unsigned short *) (Filter + 2*3+0));
+	} else {
+		C00 = (v4s) (int) *((unsigned short *) (Filter + 0*3+1)); C01 = (v4s) (int) *((unsigned short *) (Filter + 1*3+1)); C02 = (v4s) (int) *((unsigned short *) (Filter + 2*3+1));
+		Filter += NextFilter;
+		C10 = (v4s) (int) *((unsigned short *) (Filter + 0*3+1)); C11 = (v4s) (int) *((unsigned short *) (Filter + 1*3+1)); C12 = (v4s) (int) *((unsigned short *) (Filter + 2*3+1));
+	}
+	if (Ho_F==1) {
+		PtIn = In; PtOut0 = Out; Ho_F = 0;
+		V0 = (v4s){0,0,0,0};
+		V1 = *((v4s *) PtIn); PtIn += W;
+	} else  { // == 0
+		PtIn = In + (Ho_F*1-PadTOrg)*W; PtOut0 = Out+Ho_F*Wo;
+		V0 = *((v4s *) PtIn); PtIn += W;
+		V1 = *((v4s *) PtIn); PtIn += W;
+	}
+	PtOut1 = PtOut0+Wo*Ho;
+	for (unsigned int i=Ho_F; i<Ho_L; i++) {
+		int Acc0 = *PtOut0, Acc1 = *PtOut1;
+		V2 = *((v4s *) PtIn); PtIn += W;
+		Acc0 = gap_sumdotp4(V0, C00, Acc0); Acc0 = gap_sumdotp4(V1, C01, Acc0); Acc0 = gap_sumdotp4(V2, C02, Acc0);
+		Acc1 = gap_sumdotp4(V0, C10, Acc1); Acc1 = gap_sumdotp4(V1, C11, Acc1); Acc1 = gap_sumdotp4(V2, C12, Acc1);
+		*PtOut0 =  Acc0; PtOut0+=Wo;
+		*PtOut1 =  Acc1; PtOut1+=Wo;
+		V0 = V1; V1 = V2;
+	}
+	if (Bottom) {
+		int Acc0 = *PtOut0, Acc1 = *PtOut1;
+		PtIn -= 2*W;
+		V0 = *((v4s *) PtIn); PtIn += W;
+		V1 = *((v4s *) PtIn);
+		Acc0 = gap_sumdotp4(V0, C00, Acc0); Acc0 = gap_sumdotp4(V1, C01, Acc0);
+		Acc1 = gap_sumdotp4(V0, C10, Acc1); Acc1 = gap_sumdotp4(V1, C11, Acc1);
+		*PtOut0 =  Acc0;
+		*PtOut1 =  Acc1;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv2x3from3x3Stride2_V_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadTOrg,
+	int Wo, int Ho, int Ho_F, int Ho_L,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+{
+	v4s V0, V1, V2;
+	v4s C0, C1, C2;
+	signed char *PtIn;
+	int *PtOut = Out;
+	int Bottom = Ho-Ho_L;
+
+	if (FilterConf) {
+		C0 = (v4s) (int) *((unsigned short *) (Filter + 0*3+0)); C1 = (v4s) (int) *((unsigned short *) (Filter + 1*3+0)); C2 = (v4s) (int) *((unsigned short *) (Filter + 2*3+0));
+	} else {
+		C0 = (v4s) (int) *((unsigned short *) (Filter + 0*3+1)); C1 = (v4s) (int) *((unsigned short *) (Filter + 1*3+1)); C2 = (v4s) (int) *((unsigned short *) (Filter + 2*3+1));
+	}
+	if (Ho_F==1) {
+		PtIn = In; PtOut = Out; Ho_F = 0;
+		V0 = (v4s){0,0,0,0};
+	} else  { // == 0
+		PtIn = In + (Ho_F*2-PadTOrg)*W; PtOut = Out+Ho_F*Wo;
+		V0 = *((v4s *) PtIn); PtIn += W;
+	}
+	for (unsigned int i=Ho_F; i<Ho_L; i++) {
+		int Acc = *PtOut;
+		V1 = *((v4s *) PtIn); PtIn += W; V2 = *((v4s *) PtIn); PtIn += W;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc);
+		*PtOut =  Acc; PtOut+=Wo;
+		V0 = V2;
+	}
+	if (Bottom) {
+		int Acc = *PtOut;
+		PtIn -= W;
+		V0 = *((v4s *) PtIn); PtIn += W;
+		V1 = *((v4s *) PtIn);;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		*PtOut =  Acc;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv2x3from3x3StrideS_V_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadTOrg,
+	int Wo, int Ho, int Ho_F, int Ho_L,
+	int Stride,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+{
+	v4s V0, V1, V2;
+	v4s C0, C1, C2;
+	signed char *PtIn;
+	int *PtOut;
+	int Bottom = Ho-Ho_L;
+
+	if (FilterConf) {
+		C0 = (v4s) (int) *((unsigned short *) (Filter + 0*3+0)); C1 = (v4s) (int) *((unsigned short *) (Filter + 1*3+0)); C2 = (v4s) (int) *((unsigned short *) (Filter + 2*3+0));
+	} else {
+		C0 = (v4s) (int) *((unsigned short *) (Filter + 0*3+1)); C1 = (v4s) (int) *((unsigned short *) (Filter + 1*3+1)); C2 = (v4s) (int) *((unsigned short *) (Filter + 2*3+1));
+	}
+	if (Ho_F==1) {
+		PtIn = In; PtOut = Out; Ho_F = 0;
+		V0 = (v4s){0,0,0,0};
+	} else  { // == 0
+		PtIn = In + (Ho_F*Stride-PadTOrg)*W; PtOut = Out+Ho_F*Wo;
+		V0 = *((v4s *) PtIn); PtIn += W;
+	}
+	for (unsigned int i=Ho_F; i<Ho_L; i++) {
+		int Acc = *PtOut;
+		V1 = *((v4s *) PtIn); PtIn += W; V2 = *((v4s *) PtIn); PtIn += (Stride-2)*W;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc);
+		*PtOut =  Acc; PtOut+=Wo;
+		V0 = *((v4s *) PtIn); PtIn += W;
+	}
+	if (Bottom) {
+		int Acc = *PtOut;
+		PtIn -= W;
+		V0 = *((v4s *) PtIn); PtIn += W;
+		V1 = *((v4s *) PtIn);;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		*PtOut =  Acc;
+	}
+}
+
+
+static void __attribute__ ((noinline)) KerConv3x2from3x3Stride1_H_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadL,
+	int Wo, int Wo_F, int Wo_L,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+
+{
+	v4s V0, V1;
+	v4s C0, C1;
+	signed char *PtIn = In+Wo_F*1-PadL;
+	int *PtOut = Out;
+
+	if (FilterConf) {
+		C0 = *((v4s *) &Filter[0*3+0]); C1 = *((v4s *) &Filter[1*3+0]); C0[3] = 0; C1[3] = 0;
+	} else {
+		C0 = *((v4s *) &Filter[1*3+0]); C1 = *((v4s *) &Filter[2*3+0]); C0[3] = 0; C1[3] = 0;
+	}
+	for (unsigned int i=Wo_F; i<Wo_L; i++) {
+		int Acc = *PtOut;
+		V0 = *((v4s *) (PtIn+0*W+0)); V1 = *((v4s *) (PtIn+1*W+0)); PtIn++;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		*PtOut = Acc; PtOut++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv3x2from3x3Stride1_H_2Out_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadL,
+	int Wo, int Ho, int Wo_F, int Wo_L,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	unsigned int NextFilter,
+	int FilterConf
+	)
+
+{
+	v4s V0, V1;
+	v4s C00, C01, C10, C11;
+	signed char *PtIn = In+Wo_F*1-PadL;
+	int *PtOut0 = Out, *PtOut1 = PtOut0 + Wo*Ho;
+
+	if (FilterConf) {
+		C00 = *((v4s *) &Filter[0*3+0]); C01 = *((v4s *) &Filter[1*3+0]); C00[3] = 0; C01[3] = 0;
+		Filter += NextFilter;
+		C10 = *((v4s *) &Filter[0*3+0]); C11 = *((v4s *) &Filter[1*3+0]); C10[3] = 0; C11[3] = 0;
+	} else {
+		C00 = *((v4s *) &Filter[1*3+0]); C01 = *((v4s *) &Filter[2*3+0]); C00[3] = 0; C01[3] = 0;
+		Filter += NextFilter;
+		C10 = *((v4s *) &Filter[1*3+0]); C11 = *((v4s *) &Filter[2*3+0]); C10[3] = 0; C11[3] = 0;
+	}
+	for (unsigned int i=Wo_F; i<Wo_L; i++) {
+		int Acc0 = *PtOut0, Acc1 = *PtOut1;
+		V0 = *((v4s *) (PtIn+0*W+0)); V1 = *((v4s *) (PtIn+1*W+0)); PtIn++;
+		Acc0 = gap_sumdotp4(V0, C00, Acc0); Acc0 = gap_sumdotp4(V1, C01, Acc0);
+		Acc1 = gap_sumdotp4(V0, C10, Acc1); Acc1 = gap_sumdotp4(V1, C11, Acc1);
+		*PtOut0 = Acc0; PtOut0++;
+		*PtOut1 = Acc1; PtOut1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv3x2from3x3Stride2_H_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadL,
+	int Wo, int Wo_F, int Wo_L,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+
+{
+	v4s V0, V1;
+	v4s C0, C1;
+	signed char *PtIn = In+Wo_F*2-PadL;
+	int *PtOut = Out;
+
+	if (FilterConf) {
+		C0 = *((v4s *) &Filter[0*3+0]); C1 = *((v4s *) &Filter[1*3+0]); C0[3] = 0; C1[3] = 0;
+	} else {
+		C0 = *((v4s *) &Filter[1*3+0]); C1 = *((v4s *) &Filter[2*3+0]); C0[3] = 0; C1[3] = 0;
+	}
+	for (unsigned int i=Wo_F; i<Wo_L; i++) {
+		int Acc = *PtOut;
+		V0 = *((v4s *) (PtIn+0*W+0)); V1 = *((v4s *) (PtIn+1*W+0)); PtIn+=2;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		*PtOut = Acc; PtOut++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv3x2from3x3StrideS_H_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadL,
+	int Wo, int Wo_F, int Wo_L,
+	int Stride,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+
+{
+	v4s V0, V1;
+	v4s C0, C1;
+	signed char *PtIn = In+Wo_F*Stride-PadL;
+	int *PtOut = Out;
+
+	if (FilterConf) {
+		C0 = *((v4s *) &Filter[0*3+0]); C1 = *((v4s *) &Filter[1*3+0]); C0[3] = 0; C1[3] = 0;
+	} else {
+		C0 = *((v4s *) &Filter[1*3+0]); C1 = *((v4s *) &Filter[2*3+0]); C0[3] = 0; C1[3] = 0;
+	}
+	for (unsigned int i=Wo_F; i<Wo_L; i++) {
+		int Acc = *PtOut;
+		V0 = *((v4s *) (PtIn+0*W+0)); V1 = *((v4s *) (PtIn+1*W+0)); PtIn+=Stride;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc);
+		*PtOut = Acc; PtOut++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv4x1from5x1StrideNx1_V_SQ8(
+	signed char * __restrict__ In,
+	int W, v4s PadOrg, v4s Pad,
+	int Wo, int Ho, int Ho_F, int Ho_L,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+
+{
+	v4s V0;
+	v4s C0;
+	signed char *PtIn;
+	int *PtOut;
+
+	switch (FilterConf) {
+		case 2: // [0..4 x 0] => [2..4 x 0] => PadL==2
+			C0 = *((v4s*) (Filter + 0*5+2)); C0[3] = 0;
+			break;
+		case 1: // [0..4 x 0] => [1..4 x 0] => PadL==1
+			C0 = *((v4s*) (Filter + 0*5+1));
+			break;
+		case 3: // [0..4 x 0] => [0..3 x 0] => PadR==1
+			C0 = *((v4s*) (Filter + 0*5+0));
+			break;
+		case 4: // [0..4 x 0] => [0..2 x 0] => PadR==2
+			C0 = *((v4s*) (Filter + 0*5+0)); C0 = (v4s)(((int)C0)<<8);
+			break;
+                case 5: // [0..4 x 0] => [0..2 x 0] PadR==2, Wo==1
+                        C0 = *((v4s*) (Filter + 0*5+0)); C0[3] = 0;
+                        break;
+	}
+	PtIn = In + (Ho_F*1-PadOrg[2])*W; PtOut = Out+Ho_F*Wo;
+	V0 = * (v4s *) PtIn; PtIn += W;
+	for (unsigned int i=Ho_F; i<Ho_L; i++) {
+		int Acc = *PtOut;
+		Acc = gap_sumdotp4(V0, C0, Acc);
+		V0 = * (v4s *) PtIn; PtIn += W;
+		*PtOut =  Acc; PtOut+=Wo;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv1x4from1x5Stride1xN_H_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadL,
+	int Wo, int Wo_F, int Wo_L,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+
+{
+	v4s V0;
+	v4s C0;
+	int x0,x1,x2,x3;
+	signed char *PtIn = In+Wo_F*1-PadL;
+	int *PtOut = Out;
+
+	switch (FilterConf) {
+		case 2: // PadT==2
+			C0 = *((v4s *) &Filter[2]);  C0[3] = 0;
+			break;
+		case 1: // PadT==1
+			C0 = *((v4s *) &Filter[1]);
+			break;
+		case 3: // PadB == 1
+			C0 = *((v4s *) &Filter[0]);
+			break;
+		case 4: // PadB == 2
+			C0 = *((v4s *) &Filter[0]); C0 = (v4s)((int)C0<<8);
+			break;
+                case 5: // PadB == 2, Ho == 1
+                        C0 = *((v4s *) &Filter[0]);  C0[3] = 0;
+                        break;
+	}
+	x0 = *(PtIn+0*W+0); x1 = *(PtIn+1*W+0); x2 = *(PtIn+2*W+0); x3 = *(PtIn+3*W+0); V0 = gap_pack4(x0,x1,x2,x3); PtIn++;
+	for (unsigned int i=Wo_F; i<Wo_L; i++) {
+		int Acc = *PtOut;
+		Acc = gap_sumdotp4(V0, C0, Acc);
+		x0 = *(PtIn+0*W+0); x1 = *(PtIn+1*W+0); x2 = *(PtIn+2*W+0); x3 = *(PtIn+3*W+0); V0 = gap_pack4(x0,x1,x2,x3); PtIn++;
+		*PtOut = Acc; PtOut++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv4x5from5x5Stride1_V_SQ8(
+	signed char * __restrict__ In,
+	int W, v4s PadOrg, v4s Pad,
+	int Wo, int Ho, int Ho_F, int Ho_L,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+{
+	v4s V0, V1, V2, V3, V4;
+	v4s C0, C1, C2, C3, C4;
+	signed char *PtIn;
+	int *PtOut;
+	int Bottom, PadT = Pad[2], PadTOrg = PadOrg[2], PadB = Pad[3];
+
+	switch (FilterConf) {
+		case 2: // [0..4 x 0..4] => [2..4 x 0..4] PadL == 2
+			C0 = *((v4s*) (Filter + 0*5+2)); C0[3] = 0;
+			C1 = *((v4s*) (Filter + 1*5+2)); C1[3] = 0;
+			C2 = *((v4s*) (Filter + 2*5+2)); C2[3] = 0;
+			C3 = *((v4s*) (Filter + 3*5+2)); C3[3] = 0;
+			C4 = *((v4s*) (Filter + 4*5+2)); C4[3] = 0;
+			break;
+		case 1: // [0..4 x 0..4] => [1..4 x 0..4] PadL == 1
+			C0 = *((v4s*) (Filter + 0*5+1));
+			C1 = *((v4s*) (Filter + 1*5+1));
+			C2 = *((v4s*) (Filter + 2*5+1));
+			C3 = *((v4s*) (Filter + 3*5+1));
+			C4 = *((v4s*) (Filter + 4*5+1));
+			break;
+		case 3: // [0..4 x 0..4] => [0..3 x 0..4] PadR == 1
+			C0 = *((v4s*) (Filter + 0*5+0));
+			C1 = *((v4s*) (Filter + 1*5+0));
+			C2 = *((v4s*) (Filter + 2*5+0));
+			C3 = *((v4s*) (Filter + 3*5+0));
+			C4 = *((v4s*) (Filter + 4*5+0));
+			break;
+		case 4: // [0..4 x 0..4] => [0..2 x 0..4] PadR == 2
+			C0 = *((v4s*) (Filter + 0*5+0)); C0 = (v4s)(((int)C0)<<8);
+			C1 = *((v4s*) (Filter + 1*5+0)); C1 = (v4s)(((int)C1)<<8);
+			C2 = *((v4s*) (Filter + 2*5+0)); C2 = (v4s)(((int)C2)<<8);
+			C3 = *((v4s*) (Filter + 3*5+0)); C3 = (v4s)(((int)C3)<<8);
+			C4 = *((v4s*) (Filter + 4*5+0)); C4 = (v4s)(((int)C4)<<8);
+			break;
+                case 5: // [0..4 x 0..4] => [0..2 x 0..4] PadR == 2, Wo==1
+                        C0 = *((v4s*) (Filter + 0*5+0)); C0[3] = 0;
+                        C1 = *((v4s*) (Filter + 1*5+0)); C1[3] = 0;
+                        C2 = *((v4s*) (Filter + 2*5+0)); C2[3] = 0;
+                        C3 = *((v4s*) (Filter + 3*5+0)); C3[3] = 0;
+                        C4 = *((v4s*) (Filter + 4*5+0)); C4[3] = 0;
+                        break;
+	}
+	if (PadT==2) {
+		PtIn = In; Ho_F = 0;
+		V0 = (v4s){0,0,0,0}; V1 = (v4s){0,0,0,0};
+	} else if (PadT) { // == 1
+		PtIn = In; Ho_F = 0;
+		V0 = (v4s){0,0,0,0};
+		V1 = *((v4s *) PtIn); PtIn += W;
+	} else { // Ho_F==0
+		PtIn = In + (Ho_F*1-PadTOrg)*W;
+		V0 = *((v4s *) PtIn); PtIn += W;
+		V1 = *((v4s *) PtIn); PtIn += W;
+	}
+	V2 = *((v4s *) PtIn); PtIn += W;
+        if (Ho==1) {
+                int Acc = *PtOut; Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc); *PtOut = Acc;
+                return;
+        }
+	V3 = *((v4s *) PtIn); PtIn += W;
+	PtOut = Out+Ho_F*Wo;
+	for (unsigned int i=Ho_F; i<Ho_L; i++) {
+		int Acc = *PtOut;
+		V4 = *((v4s *) PtIn); PtIn += W;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc); Acc = gap_sumdotp4(V3, C3, Acc); Acc = gap_sumdotp4(V4, C4, Acc);
+		*PtOut = Acc; PtOut+=Wo;
+		V0 = V1; V1 = V2; V2 = V3; V3 = V4;
+	}
+	if (PadB) {
+		int Acc = *PtOut;
+		PtIn -= 4*W;
+		V0 = *((v4s *) PtIn); PtIn += W; V1 = *((v4s *) PtIn); PtIn += W; V2 = *((v4s *) PtIn); PtIn += W; V3 = *((v4s *) PtIn); PtIn += W;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc); Acc = gap_sumdotp4(V3, C3, Acc);
+		*PtOut = Acc; PtOut+=Wo;
+		if (PadB==2) {
+			Acc = *PtOut;
+			V0 = V1; V1 = V2; V2 = V3;
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc);
+			*PtOut =  Acc;
+		}
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv4x5from5x5Stride2_V_SQ8(
+	signed char * __restrict__ In,
+	int W, int H, v4s PadOrg, v4s Pad,
+	int Wo, int Ho, int Ho_F, int Ho_L,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+{
+	v4s V0, V1, V2, V3, V4;
+	v4s C0, C1, C2, C3, C4;
+	signed char *PtIn;
+	int *PtOut;
+	int PadL = PadOrg[0], PadT = Pad[2], PadTOrg = PadOrg[2], PadB = Pad[3];
+	switch (FilterConf) {
+		case 2: // [0..4 x 0..4] => [2..4 x 0..4] PadL == 2
+			C0 = *((v4s*) (Filter + 0*5+2)); C0[3] = 0;
+			C1 = *((v4s*) (Filter + 1*5+2)); C1[3] = 0;
+			C2 = *((v4s*) (Filter + 2*5+2)); C2[3] = 0;
+			C3 = *((v4s*) (Filter + 3*5+2)); C3[3] = 0;
+			C4 = *((v4s*) (Filter + 4*5+2)); C4[3] = 0;
+			break;
+		case 1: // [0..4 x 0..4] => [1..4 x 0..4] PadL==1
+			C0 = *((v4s*) (Filter + 0*5+1));
+			C1 = *((v4s*) (Filter + 1*5+1));
+			C2 = *((v4s*) (Filter + 2*5+1));
+			C3 = *((v4s*) (Filter + 3*5+1));
+			C4 = *((v4s*) (Filter + 4*5+1));
+			break;
+		case 3: // [0..4 x 0..4] => [0..3 x 0..4] PadR==1
+			C0 = *((v4s*) (Filter + 0*5+0));
+			C1 = *((v4s*) (Filter + 1*5+0));
+			C2 = *((v4s*) (Filter + 2*5+0));
+			C3 = *((v4s*) (Filter + 3*5+0));
+			C4 = *((v4s*) (Filter + 4*5+0));
+			break;
+		case 4: // [0..4 x 0..4] => [0..2 x 0..4] PadR==2
+			C0 = *((v4s*) (Filter + 0*5+0)); C0[3] = 0;
+			C1 = *((v4s*) (Filter + 1*5+0)); C1[3] = 0;
+			C2 = *((v4s*) (Filter + 2*5+0)); C2[3] = 0;
+			C3 = *((v4s*) (Filter + 3*5+0)); C3[3] = 0;
+			C4 = *((v4s*) (Filter + 4*5+0)); C4[3] = 0;
+			break;
+	}
+	if (PadT==2) {
+		PtIn = In; Ho_F = 0;
+		V0 = (v4s){0,0,0,0}; V1 = (v4s){0,0,0,0};
+	} else if (PadT) { // == 1
+		PtIn = In; Ho_F = 0;
+		V0 = (v4s){0,0,0,0}; V1 = *((v4s *) PtIn); PtIn += W;
+	} else {
+		PtIn = In + (Ho_F*2-PadTOrg)*W;
+		V0 = *((v4s *) PtIn); PtIn += W;
+		V1 = *((v4s *) PtIn); PtIn += W;
+	}
+	PtOut = Out+Ho_F*Wo;
+	V2 = *((v4s *) PtIn); PtIn += W;
+	for (unsigned int i=Ho_F; i<Ho_L; i++) {
+		int Acc = *PtOut;
+		V3 = *((v4s *) PtIn); PtIn += W; V4 = *((v4s *) PtIn); PtIn += W;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc); Acc = gap_sumdotp4(V3, C3, Acc); Acc = gap_sumdotp4(V4, C4, Acc);
+		*PtOut = Acc; PtOut+=Wo;
+		V0 = V2; V1 = V3; V2 = V4;
+	}
+	if (PadB) {
+		int Acc = *PtOut;
+		PtIn -= 3*W;
+		V0 = *((v4s *) PtIn); PtIn += W; V1 = *((v4s *) PtIn); PtIn += W; V2 = *((v4s *) PtIn); PtIn += W;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc);
+		if (PadB==1) {
+			V3 = *((v4s *) PtIn); Acc = gap_sumdotp4(V3, C3, Acc);
+		}
+		*PtOut = Acc;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv4x5from5x5StrideS_V_SQ8(
+	signed char * __restrict__ In,
+	int W, int H, v4s PadOrg, v4s Pad,
+	int Wo, int Ho, int Ho_F, int Ho_L,
+	int Stride, 
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+{
+	v4s V0, V1, V2, V3, V4;
+	v4s C0, C1, C2, C3, C4;
+	signed char *PtIn;
+	int *PtOut;
+	int PadL = PadOrg[0], PadT = Pad[2], PadTOrg = PadOrg[2], PadB = Pad[3];
+
+	switch (FilterConf) {
+		case 2: // [0..4 x 0..4] => [2..4 x 0..4] PadL==2
+			C0 = *((v4s*) (Filter + 0*5+2)); C0[3] = 0;
+			C1 = *((v4s*) (Filter + 1*5+2)); C1[3] = 0;
+			C2 = *((v4s*) (Filter + 2*5+2)); C2[3] = 0;
+			C3 = *((v4s*) (Filter + 3*5+2)); C3[3] = 0;
+			C4 = *((v4s*) (Filter + 4*5+2)); C4[3] = 0;
+			break;
+		case 1: // [0..4 x 0..4] => [1..4 x 0..4] PadL==1
+			C0 = *((v4s*) (Filter + 0*5+1));
+			C1 = *((v4s*) (Filter + 1*5+1));
+			C2 = *((v4s*) (Filter + 2*5+1));
+			C3 = *((v4s*) (Filter + 3*5+1));
+			C4 = *((v4s*) (Filter + 4*5+1));
+			break;
+		case 3: // [0..4 x 0..4] => [0..3 x 0..4] PadR==1
+			C0 = *((v4s*) (Filter + 0*5+0));
+			C1 = *((v4s*) (Filter + 1*5+0));
+			C2 = *((v4s*) (Filter + 2*5+0));
+			C3 = *((v4s*) (Filter + 3*5+0));
+			C4 = *((v4s*) (Filter + 4*5+0));
+			break;
+		case 4: // [0..4 x 0..4] => [0..2 x 0..4] PadR==2
+			C0 = *((v4s*) (Filter + 0*5+0)); C0[3] = 0;
+			C1 = *((v4s*) (Filter + 1*5+0)); C1[3] = 0;
+			C2 = *((v4s*) (Filter + 2*5+0)); C2[3] = 0;
+			C3 = *((v4s*) (Filter + 3*5+0)); C3[3] = 0;
+			C4 = *((v4s*) (Filter + 4*5+0)); C4[3] = 0;
+			break;
+	}
+	if (PadT==2) {
+		PtIn = In; Ho_F = 0;
+		V0 = (v4s){0,0,0,0}; V1 = (v4s){0,0,0,0};
+	} else if (PadT) { // == 1
+		PtIn = In; Ho_F = 0;
+		V0 = (v4s){0,0,0,0}; V1 = *((v4s *) PtIn); PtIn += W;
+	} else {
+		PtIn = In + (Ho_F*Stride-PadTOrg)*W; PtOut = Out+Ho_F*Wo;
+		V0 = *((v4s *) PtIn); PtIn += W;
+		V1 = *((v4s *) PtIn); PtIn += W;
+	}
+	PtOut = Out+Ho_F*Wo;
+
+	for (unsigned int i=Ho_F; i<Ho_L; i++) {
+		int Acc = *PtOut;
+		V2 = *((v4s *) PtIn); PtIn += W; V3 = *((v4s *) PtIn); PtIn += W; V4 = *((v4s *) PtIn); PtIn += (Stride-4)*W;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc); Acc = gap_sumdotp4(V3, C3, Acc); Acc = gap_sumdotp4(V4, C4, Acc);
+		*PtOut = Acc; PtOut+=Wo;
+		V0 = *((v4s *) PtIn); PtIn += W; V1 = *((v4s *) PtIn); PtIn += W;
+	}
+	if (PadB) {
+		int Acc = *PtOut;
+		PtIn -= 2*W;
+		V0 = *((v4s *) PtIn); PtIn += W; V1 = *((v4s *) PtIn); PtIn += W; V2 = *((v4s *) PtIn); PtIn += W;
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc);
+		if (PadB==1) {
+			V3 = *((v4s *) PtIn); Acc = gap_sumdotp4(V3, C3, Acc);
+		}
+		*PtOut = Acc;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv5x4from5x5Stride1_H_SQ8(
+	signed char * __restrict__ In,
+	int W, int PadL,
+	int Wo, int Wo_F, int Wo_L,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+
+{
+	v4s V0, V1, V2, V3, V4;
+	v4s C0, C1, C2, C3, C4;
+
+	signed char *PtIn = In+Wo_F*1-PadL;
+	int *PtOut = Out;
+
+	switch (FilterConf) {
+		case 2:
+			C0 = *((v4s *) &Filter[2*5+0]); 
+			C1 = *((v4s *) &Filter[3*5+0]);
+			C2 = *((v4s *) &Filter[4*5+0]);
+			C3 = (v4s){0,0,0,0}; C4 = (v4s){Filter[2*5+4], Filter[3*5+4], Filter[4*5+4], 0};
+			break;
+		case 1:
+			C0 = *((v4s *) &Filter[1*5+0]);
+			C1 = *((v4s *) &Filter[2*5+0]);
+			C2 = *((v4s *) &Filter[3*5+0]);
+			C3 = *((v4s *) &Filter[4*5+0]); C4 = (v4s){Filter[1*5+4], Filter[2*5+4], Filter[3*5+4], Filter[4*5+4]};
+			break;
+		case 3:
+			C0 = *((v4s *) &Filter[0*5+0]);
+			C1 = *((v4s *) &Filter[1*5+0]);
+			C2 = *((v4s *) &Filter[2*5+0]);
+			C3 = *((v4s *) &Filter[3*5+0]); C4 = (v4s){Filter[0*5+4], Filter[1*5+4], Filter[2*5+4], Filter[3*5+4]};
+			break;
+		case 4:
+			C0 = (v4s){0,0,0,0};
+			C1 = *((v4s *) &Filter[0*5+0]);
+			C2 = *((v4s *) &Filter[1*5+0]);
+			C3 = *((v4s *) &Filter[2*5+0]); C4 = (v4s){0, Filter[0*5+4], Filter[1*5+4], Filter[2*5+4]};
+			break;
+                case 5: // PadB == 2, Ho == 1
+                        C0 = *((v4s *) &Filter[0*5+0]);
+                        C1 = *((v4s *) &Filter[1*5+0]);
+                        C2 = *((v4s *) &Filter[2*5+0]);
+                        C3 = (v4s){0,0,0,0}; C4 = (v4s){Filter[0*5+4], Filter[1*5+4], Filter[2*5+4], 0};
+                        break;
+	}
+	V0 = *((v4s *) (PtIn+0*W+0)); V1 = *((v4s *) (PtIn+1*W+0)); V2 = *((v4s *) (PtIn+2*W+0)); V3 = *((v4s *) (PtIn+3*W+0)); PtIn += 4;
+	for (unsigned int i=Wo_F; i<Wo_L; i++) {
+		int x0, x1, x2, x3;
+		int Acc = *PtOut;
+		x0 = PtIn[0*W]; x1 = PtIn[1*W]; x2 = PtIn[2*W]; x3 = PtIn[3*W]; PtIn++;
+		V4 = gap_pack4(x0,x1,x2,x3);
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc); Acc = gap_sumdotp4(V3, C3, Acc); Acc = gap_sumdotp4(V4, C4, Acc);
+		*PtOut = Acc; PtOut++;
+		V0 = __builtin_shuffle(V0, (v4s)(int)V4, (v4s){1,2,3,4});
+		V1 = __builtin_shuffle(V1, (v4s)(int)V4, (v4s){1,2,3,5});
+		V2 = __builtin_shuffle(V2, (v4s)(int)V4, (v4s){1,2,3,6});
+		V3 = __builtin_shuffle(V3, (v4s)(int)V4, (v4s){1,2,3,7});
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv5x4from5x5Stride2_H_SQ8(
+	signed char * __restrict__ In,
+	int W, int H, int PadL, int PadT,
+	int Wo, int Wo_F, int Wo_L,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+
+{
+	v4s V0, V1, V2, V3, V4;
+	v4s C0, C1, C2, C3, C4;
+
+	signed char *PtIn = In+Wo_F*2-PadL;
+	int *PtOut = Out;
+
+	switch (FilterConf) {
+		case 2: // PadT==2
+			C0 = *((v4s *) &Filter[2*5+0]);
+			C1 = *((v4s *) &Filter[3*5+0]);
+			C2 = *((v4s *) &Filter[4*5+0]);
+			C3 = (v4s){0,0,0,0}; C4 = (v4s){Filter[2*5+4], Filter[3*5+4], Filter[4*5+4], 0};
+			break;
+		case 1: // PadT==1
+			C0 = *((v4s *) &Filter[1*5+0]);
+			C1 = *((v4s *) &Filter[2*5+0]);
+			C2 = *((v4s *) &Filter[3*5+0]);
+			C3 = *((v4s *) &Filter[4*5+0]); C4 = (v4s){Filter[1*5+4], Filter[2*5+4], Filter[3*5+4], Filter[4*5+4]};
+			break;
+		case 3: // PadB==1
+			C0 = *((v4s *) &Filter[0*5+0]);
+			C1 = *((v4s *) &Filter[1*5+0]);
+			C2 = *((v4s *) &Filter[2*5+0]);
+			C3 = *((v4s *) &Filter[3*5+0]); C4 = (v4s){Filter[0*5+4], Filter[1*5+4], Filter[2*5+4], Filter[3*5+4]};
+			break;
+		case 4: // PadB==2
+			C0 = *((v4s *) &Filter[0*5+0]);
+			C1 = *((v4s *) &Filter[1*5+0]);
+			C2 = *((v4s *) &Filter[2*5+0]);
+			C3 = (v4s){0,0,0,0}; C4 = (v4s){Filter[0*5+4], Filter[1*5+4], Filter[2*5+4], 0};
+			break;
+	}
+	for (unsigned int i=Wo_F; i<Wo_L; i++) {
+		int x0, x1, x2, x3;
+		int Acc = *PtOut;
+		V0 = *((v4s *) (PtIn+0*W+0)); V1 = *((v4s *) (PtIn+1*W+0)); V2 = *((v4s *) (PtIn+2*W+0)); V3 = *((v4s *) (PtIn+3*W+0)); PtIn += 4;
+		x0 = PtIn[0*W]; x1 = PtIn[1*W]; x2 = PtIn[2*W]; x3 = PtIn[3*W]; PtIn+=(2-4);
+		V4 = gap_pack4(x0,x1,x2,x3);
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc); Acc = gap_sumdotp4(V3, C3, Acc); Acc = gap_sumdotp4(V4, C4, Acc);
+		*PtOut = Acc; PtOut++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv5x4from5x5StrideS_H_SQ8(
+	signed char * __restrict__ In,
+	int W, int H, int PadL, int PadT,
+	int Wo, int Wo_F, int Wo_L,
+	unsigned int Stride,
+	int * __restrict__ Out,
+	signed char * __restrict__ Filter,
+	int FilterConf
+	)
+
+{
+	v4s V0, V1, V2, V3, V4;
+	v4s C0, C1, C2, C3, C4;
+
+	signed char *PtIn = In+Wo_F*Stride-PadL;
+	int *PtOut = Out;
+
+	switch (FilterConf) {
+		case 2: // PadT==2
+			C0 = *((v4s *) &Filter[2*5+0]);
+			C1 = *((v4s *) &Filter[3*5+0]);
+			C2 = *((v4s *) &Filter[4*5+0]);
+			C3 = (v4s){0,0,0,0}; C4 = (v4s){Filter[2*5+4], Filter[3*5+4], Filter[4*5+4], 0};
+			break;
+		case 1: // PadT==1
+			C0 = *((v4s *) &Filter[1*5+0]);
+			C1 = *((v4s *) &Filter[2*5+0]);
+			C2 = *((v4s *) &Filter[3*5+0]);
+			C3 = *((v4s *) &Filter[4*5+0]); C4 = (v4s){Filter[1*5+4], Filter[2*5+4], Filter[3*5+4], Filter[4*5+4]};
+			break;
+		case 3: // PadB==1
+			C0 = *((v4s *) &Filter[0*5+0]);
+			C1 = *((v4s *) &Filter[1*5+0]);
+			C2 = *((v4s *) &Filter[2*5+0]);
+			C3 = *((v4s *) &Filter[3*5+0]); C4 = (v4s){Filter[0*5+4], Filter[1*5+4], Filter[2*5+4], Filter[3*5+4]};
+			break;
+		case 4: // PadB==2
+			C0 = *((v4s *) &Filter[0*5+0]);
+			C1 = *((v4s *) &Filter[1*5+0]);
+			C2 = *((v4s *) &Filter[2*5+0]);
+			C3 = (v4s){0,0,0,0};
+			C4 = (v4s){Filter[0*5+4], Filter[1*5+4], Filter[2*5+4], 0};
+			break;
+	}
+	for (unsigned int i=Wo_F; i<Wo_L; i++) {
+		int x0, x1, x2, x3;
+		int Acc = *PtOut;
+		V0 = *((v4s *) (PtIn+0*W+0)); V1 = *((v4s *) (PtIn+1*W+0)); V2 = *((v4s *) (PtIn+2*W+0)); V3 = *((v4s *) (PtIn+3*W+0)); PtIn += 4;
+		x0 = PtIn[0*W]; x1 = PtIn[1*W]; x2 = PtIn[2*W]; x3 = PtIn[3*W]; PtIn+=((int)Stride-4);
+		V4 = gap_pack4(x0,x1,x2,x3);
+		Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc); Acc = gap_sumdotp4(V3, C3, Acc); Acc = gap_sumdotp4(V4, C4, Acc);
+		*PtOut = Acc; PtOut++;
+	}
+}
+
+void __attribute__ ((noinline)) KerConvNxNStrideS_Border_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int Fw,
+	int Fh,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad,
+	v4s PadOrg
+	)
+
+{
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadROrg = PadOrg[1], PadBOrg = PadOrg[3];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+	int Hi_F = (Fh-1)/2 - PadTOrg;
+	int Hi_L = Hi_F + (Ho_L-1)*Stride;	// iff Hi_L>Hi_F
+	int Wi_F = (Fw-1)/2 - PadLOrg;
+	int Wi_L = Wi_F + (Wo_L-1)*Stride;	// iff Wi_L>Wi_F
+
+	if (PadT) { /* Top */
+		int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+	       	for (unsigned int h=0; h<Ho_F; h++) {
+			int Fh_min = ht, Fh_max = MinCond(Fh, hb); // ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+			for (unsigned int w=Wo_F; w<Wo_L; w++) {
+				int Acc = Out[Wo*h+w];
+				for (unsigned int i=Fh_min; i<Fh_max; i++) 
+					for (unsigned int j=0; j<Fw; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			ht -= Stride; hb -= Stride;
+		}
+	}
+	if (PadB) { /* Bottom */
+		int ht = 0, hb = H - (Hi_L+Stride) + Fh/2;
+	       	for (unsigned int h=Ho_L; h<Ho; h++) {
+			int Fh_min = ht, Fh_max = MinCond(hb, Fh); // ht Can't be > F by definition of Ho_L so we can remove and use ht only
+			for (unsigned int w=Wo_F; w<Wo_L; w++) {
+				int Acc = Out[Wo*h+w];
+				for (unsigned int i=Fh_min; i<Fh_max; i++) 
+					for (unsigned int j=0; j<Fw; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			hb -= Stride;
+		}
+	}
+	if (PadL) { /* Left */
+		int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+	       	for (unsigned int w=0; w<Wo_F; w++) {
+			int Wh_min = wl, Wh_max = MinCond(Fw, wr); // wh Can't be < 0 by definition of Wo_F so we can remove and use wl only
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+				int Acc = Out[Wo*h+w];
+				for (unsigned int i=0; i<Fh; i++) 
+					for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			wl -= Stride; wr -= Stride;
+		}
+	}
+	if (PadR) { /* Right */
+		int wl = 0, wr = W - (Wi_L+Stride) + Fw/2;
+	       	for (unsigned int w=Wo_L; w<Wo; w++) {
+			int Wh_min = wl, Wh_max = MinCond(wr, Fw); // ht Can't be > F by definition of Ho_L so we can remove and use ht only
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+		       		int Acc = Out[Wo*h+w];
+				for (unsigned int i=0; i<Fh; i++) 
+					for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			wr -= Stride;
+		}
+	}
+	if (PadT) {
+		if (PadL) { /* Upper left corner */
+			int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+				for (unsigned int w=0; w<Wo_F; w++) {
+					int Acc = Out[Wo*h+w];
+					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only. ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(Fw, wr), Fh_min = ht, Fh_max = MinCond(Fh, hb);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wl -= Stride; wr -= Stride;
+				}
+				ht -= Stride; hb -= Stride;
+			}
+		}
+		if (PadR) { /* Upper right corner */
+			int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int wl = 0, wr = W - (Wi_L+Stride) + Fw/2;
+				for (unsigned int w=Wo_L; w<Wo; w++) {
+					int Acc = Out[Wo*h+w];
+					// ht Can't be > F by definition of Ho_L so we can remove and use ht only. ht Can't be > F by definition of Ho_L so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(wr, Fw), Fh_min = ht, Fh_max = MinCond(Fh, hb);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wr -= Stride;
+				}
+				ht -= Stride; hb -= Stride;
+			}
+		}
+	}
+	if (PadB) {
+		if (PadL) { /* Bottom Left corner */
+			int ht = 0, hb = H - (Hi_L+Stride) + Fh/2;
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+				for (unsigned int w=0; w<Wo_F; w++) {
+					int Acc = Out[Wo*h+w];
+ 					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only.  ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(Fw, wr), Fh_min = ht, Fh_max = MinCond(hb, Fh);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wl -= Stride; wr -= Stride;
+				}
+				hb -= Stride;
+			}
+		}
+		if (PadR) { /* Bottom Right corner */
+			int ht = 0, hb = H - (Hi_L+Stride) + Fh/2;
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int wl = 0, wr = W - (Wi_L+Stride) + Fw/2;
+				for (unsigned int w=Wo_L; w<Wo; w++) {
+					int Acc = Out[Wo*h+w];
+ 					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only.  ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(wr, Fw), Fh_min = ht, Fh_max = MinCond(hb, Fh);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wr -= Stride;
+				}
+				hb -= Stride;
+			}
+		}
+	}
+}
+
+void __attribute__ ((noinline)) KerConvNxMStrideSxSy_Border_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int Fw,
+	int Fh,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int StrideX,
+	int StrideY,
+	v4s Pad,
+	v4s PadOrg
+	)
+
+{
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadROrg = PadOrg[1], PadBOrg = PadOrg[3];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+	int Hi_F = (Fh-1)/2 - PadTOrg;
+	int Hi_L = Hi_F + (Ho_L-1)*StrideY;	// iff Hi_L>Hi_F
+	int Wi_F = (Fw-1)/2 - PadLOrg;
+	int Wi_L = Wi_F + (Wo_L-1)*StrideX;	// iff Wi_L>Wi_F
+
+	if (PadT) { /* Top */
+		int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+	       	for (unsigned int h=0; h<Ho_F; h++) {
+			int Fh_min = ht, Fh_max = MinCond(Fh, hb); // ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+			for (unsigned int w=Wo_F; w<Wo_L; w++) {
+				int Acc = Out[Wo*h+w];
+				for (unsigned int i=Fh_min; i<Fh_max; i++) 
+					for (unsigned int j=0; j<Fw; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			ht -= StrideY; hb -= StrideY;
+		}
+	}
+	if (PadB) { /* Bottom */
+		int ht = 0, hb = H - (Hi_L+StrideY) + Fh/2;
+	       	for (unsigned int h=Ho_L; h<Ho; h++) {
+			int Fh_min = ht, Fh_max = MinCond(hb, Fh); // ht Can't be > F by definition of Ho_L so we can remove and use ht only
+			for (unsigned int w=Wo_F; w<Wo_L; w++) {
+				int Acc = Out[Wo*h+w];
+				for (unsigned int i=Fh_min; i<Fh_max; i++) 
+					for (unsigned int j=0; j<Fw; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			hb -= StrideY;
+		}
+	}
+	if (PadL) { /* Left */
+		int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+	       	for (unsigned int w=0; w<Wo_F; w++) {
+			int Wh_min = wl, Wh_max = MinCond(Fw, wr); // wh Can't be < 0 by definition of Wo_F so we can remove and use wl only
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+				int Acc = Out[Wo*h+w];
+				for (unsigned int i=0; i<Fh; i++) 
+					for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			wl -= StrideX; wr -= StrideX;
+		}
+	}
+	if (PadR) { /* Right */
+		int wl = 0, wr = W - (Wi_L+StrideX) + Fw/2;
+	       	for (unsigned int w=Wo_L; w<Wo; w++) {
+			int Wh_min = wl, Wh_max = MinCond(wr, Fw); // ht Can't be > F by definition of Ho_L so we can remove and use ht only
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+		       		int Acc = Out[Wo*h+w];
+				for (unsigned int i=0; i<Fh; i++) 
+					for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			wr -= StrideX;
+		}
+	}
+	if (PadT) {
+		if (PadL) { /* Upper left corner */
+			int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+				for (unsigned int w=0; w<Wo_F; w++) {
+					int Acc = Out[Wo*h+w];
+					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only. ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(Fw, wr), Fh_min = ht, Fh_max = MinCond(Fh, hb);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wl -= StrideX; wr -= StrideX;
+				}
+				ht -= StrideY; hb -= StrideY;
+			}
+		}
+		if (PadR) { /* Upper right corner */
+			int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int wl = 0, wr = W - (Wi_L+StrideX) + Fw/2;
+				for (unsigned int w=Wo_L; w<Wo; w++) {
+					int Acc = Out[Wo*h+w];
+					// ht Can't be > F by definition of Ho_L so we can remove and use ht only. ht Can't be > F by definition of Ho_L so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(wr, Fw), Fh_min = ht, Fh_max = MinCond(Fh, hb);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wr -= StrideX;
+				}
+				ht -= StrideY; hb -= StrideY;
+			}
+		}
+	}
+	if (PadB) {
+		if (PadL) { /* Bottom Left corner */
+			int ht = 0, hb = H - (Hi_L+StrideY) + Fh/2;
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+				for (unsigned int w=0; w<Wo_F; w++) {
+					int Acc = Out[Wo*h+w];
+ 					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only.  ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(Fw, wr), Fh_min = ht, Fh_max = MinCond(hb, Fh);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wl -= StrideX; wr -= StrideX;
+				}
+				hb -= StrideY;
+			}
+		}
+		if (PadR) { /* Bottom Right corner */
+			int ht = 0, hb = H - (Hi_L+StrideY) + Fh/2;
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int wl = 0, wr = W - (Wi_L+StrideX) + Fw/2;
+				for (unsigned int w=Wo_L; w<Wo; w++) {
+					int Acc = Out[Wo*h+w];
+ 					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only.  ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(wr, Fw), Fh_min = ht, Fh_max = MinCond(hb, Fh);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wr -= StrideX;
+				}
+				hb -= StrideY;
+			}
+		}
+	}
+}
+
+void __attribute__ ((noinline)) KerConvNxMDxDyStrideSxSy_Border_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int Fw,
+	int Fh,
+	int Dw,
+	int Dh,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int StrideX,
+	int StrideY,
+	v4s Pad,
+	v4s PadOrg
+	)
+
+{
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadROrg = PadOrg[1], PadBOrg = PadOrg[3];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+	int TFw = Dw*(Fw-1)+1, TFh = Dh*(Fh-1)+1;
+	int Hi_F = (TFh-1)/2 - PadTOrg;
+	int Hi_L = Hi_F + (Ho_L-1)*StrideY;     // iff Hi_L>Hi_F
+	int Wi_F = (TFw-1)/2 - PadLOrg;
+	int Wi_L = Wi_F + (Wo_L-1)*StrideX;     // iff Wi_L>Wi_F
+	int Prec=10;
+	int InvDh = ((1<<Prec)+Dh-1)/Dh;
+	int InvDw = ((1<<Prec)+Dw-1)/Dw;
+
+	/*
+	Here we assume that for a given filter output we don't have padding on both side of the input.
+	Thanks to this assumption we can simplify a bit where filter starts and stops in the input.
+	Either starts at 0 if (right or bottom) and stops at a place function of the padding or
+	stops at Fw/Fh if (left or bottom) and starts  a place function of the padding
+	*/
+	if (PadT) { /* Top */
+		int ht = PadTOrg;
+		for (unsigned int h=0; h<Ho_F; h++) {
+			int hta = gap_mulsN(ht-1, InvDh, Prec) + 1; // hta = (ht-1)/Dh+1
+			int Fh_min = hta;
+			for (unsigned int w=Wo_F; w<Wo_L; w++) {
+				int Acc = Out[Wo*h+w];
+				for (unsigned int i=Fh_min; i<Fh; i++)
+					for (unsigned int j=0; j<Fw; j++) Acc += In[(h*StrideY-PadTOrg+i*Dh)*W + (w*StrideX-PadLOrg+j*Dw)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			ht -= StrideY;
+		}
+	}
+	if (PadB) { /* Bottom */
+		int hb = H - (Hi_L+StrideY) + TFh/2;
+		for (unsigned int h=Ho_L; h<Ho; h++) {
+			int hba = gap_mulsN(hb-1, InvDh, Prec) + 1; // hba = (hb-1)/Dh+1
+			int Fh_max = MinCond(hba, Fh);
+			for (unsigned int w=Wo_F; w<Wo_L; w++) {
+				int Acc = Out[Wo*h+w];
+				for (unsigned int i=0; i<Fh_max; i++)
+					for (unsigned int j=0; j<Fw; j++) Acc += In[(h*StrideY-PadTOrg+i*Dh)*W + (w*StrideX-PadLOrg+j*Dw)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			hb -= StrideY;
+		}
+	}
+	if (PadL) { /* Left */
+		int wl = PadLOrg;
+		for (unsigned int w=0; w<Wo_F; w++) {
+			int wla = gap_mulsN(wl-1, InvDw, Prec) + 1; // wla = (wl-1)/Dw+1
+			int Wl_min = wla;
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+				int Acc = Out[Wo*h+w];
+				for (unsigned int i=0; i<Fh; i++)
+					for (unsigned int j=Wl_min; j<Fw; j++) Acc += In[(h*StrideY-PadTOrg+i*Dh)*W + (w*StrideX-PadLOrg+j*Dw)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			wl -= StrideX;
+		}
+	}
+	if (PadR) { /* Right */
+		int wr = W - (Wi_L+StrideX) + TFw/2;
+		for (unsigned int w=Wo_L; w<Wo; w++) {
+			int wra = gap_mulsN(wr-1, InvDw, Prec) + 1; // wra = (wr-1)/Dw+1
+			int Wr_max = MinCond(wra, Fw); // ht Can't be > F by definition of Ho_L so we can remove and use ht only
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+				int Acc = Out[Wo*h+w];
+				for (unsigned int i=0; i<Fh; i++)
+					for (unsigned int j=0; j<Wr_max; j++) Acc += In[(h*StrideY-PadTOrg+i*Dh)*W + (w*StrideX-PadLOrg+j*Dw)]*Filter[Fw*i+j];
+				Out[Wo*h+w] = Acc;
+			}
+			wr -= StrideX;
+		}
+	}
+	if (PadT) {
+		if (PadL) { /* Upper left corner */
+			int ht = PadTOrg;
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int wl = PadLOrg;
+				int hta = gap_mulsN(ht-1, InvDh, Prec) + 1; // hta = (ht-1)/Dh+1
+				for (unsigned int w=0; w<Wo_F; w++) {
+					int Acc = Out[Wo*h+w];
+					int wla = gap_mulsN(wl-1, InvDw, Prec) + 1; // wla = (wl-1)/Dw+1
+					int Wl_min = wla, Fh_min = hta;
+					for (unsigned int i=Fh_min; i<Fh; i++)
+						for (unsigned int j=Wl_min; j<Fw; j++) Acc += In[(h*StrideY-PadTOrg+i*Dh)*W + (w*StrideX-PadLOrg+j*Dw)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wl -= StrideX;
+				}
+				ht -= StrideY;
+			}
+		}
+		if (PadR) { /* Upper right corner */
+			int ht = PadTOrg;
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int wr = W - (Wi_L+StrideX) + TFw/2;
+				int hta = gap_mulsN(ht-1, InvDh, Prec) + 1; // hta = (ht-1)/Dh+1
+				for (unsigned int w=Wo_L; w<Wo; w++) {
+					int Acc = Out[Wo*h+w];
+					int wra = gap_mulsN(wr-1, InvDw, Prec) + 1; // wra = (wr-1)/Dw+1
+					int Wr_max = MinCond(wra, Fw), Fh_min = hta;
+					for (unsigned int i=Fh_min; i<Fh; i++)
+						for (unsigned int j=0; j<Wr_max; j++) Acc += In[(h*StrideY-PadTOrg+i*Dh)*W + (w*StrideX-PadLOrg+j*Dw)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wr -= StrideX;
+				}
+				ht -= StrideY;
+			}
+		}
+	}
+	if (PadB) {
+		if (PadL) { /* Bottom Left corner */
+			int hb = H - (Hi_L+StrideY) + TFh/2;
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int wl = PadLOrg;
+				int hba = gap_mulsN(hb-1, InvDh, Prec) + 1; // hba = (hb-1)/Dh+1
+				for (unsigned int w=0; w<Wo_F; w++) {
+					int Acc = Out[Wo*h+w];
+					int wla = gap_mulsN(wl-1, InvDw, Prec) + 1; // wla = (wl-1)/Dw+1
+					int Wl_min = wla, Fh_max = MinCond(hba, Fh);
+					for (unsigned int i=0; i<Fh_max; i++)
+						for (unsigned int j=Wl_min; j<Fw; j++) Acc += In[(h*StrideY-PadTOrg+i*Dh)*W + (w*StrideX-PadLOrg+j*Dw)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wl -= StrideX;
+				}
+				hb -= StrideY;
+			}
+		}
+		if (PadR) { /* Bottom Right corner */
+			int hb = H - (Hi_L+StrideY) + TFh/2;
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int wr = W - (Wi_L+StrideX) + TFw/2;
+				int hba = gap_mulsN(hb-1, InvDh, Prec) + 1; // hba = (hb-1)/Dh+1
+				for (unsigned int w=Wo_L; w<Wo; w++) {
+					int Acc = Out[Wo*h+w];
+					int wra = gap_mulsN(wr-1, InvDw, Prec) + 1; // wra = (wr-1)/Dw+1
+					int Wr_max = MinCond(wra, Fw), Fh_max = MinCond(hba, Fh);
+					for (unsigned int i=0; i<Fh_max; i++)
+						for (unsigned int j=0; j<Wr_max; j++) Acc += In[(h*StrideY-PadTOrg+i*Dh)*W + (w*StrideX-PadLOrg+j*Dw)]*Filter[Fw*i+j];
+					Out[Wo*h+w] = Acc;
+					wr -= StrideX;
+				}
+				hb -= StrideY;
+			}
+		}
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv3x1BorderStrideNx1_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad,
+	v4s PadOrg
+	)
+
+{
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+
+	if (PadL) KerConv2x1from3x1StrideNx1_V_SQ8(In, W, PadTOrg, Wo, Ho, Ho_F, Ho_L, Out, Filter, 0);
+	if (PadR) KerConv2x1from3x1StrideNx1_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadTOrg, Wo, Ho, Ho_F, Ho_L, Out+Wo-1, Filter, 1);
+}
+
+static void __attribute__ ((noinline)) KerConv1x3BorderStride1xN_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad,
+	v4s PadOrg
+	)
+
+{
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+
+	if (PadT) KerConv1x2from1x3Stride1xN_H_SQ8(In, W, PadLOrg, Wo, Wo_F, Wo_L, Out+Wo_F, Filter, 0);
+	if (PadB) KerConv1x2from1x3Stride1xN_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Out+Ho_L*Wo+Wo_F, Filter, 1);
+}
+
+static void __attribute__ ((noinline)) KerConv3x3BorderStride1_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	v4s PadOrg
+	)
+
+{
+	int Fh=3, Fw=3, Stride=1;
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+
+	if (PadL) KerConv2x3from3x3Stride1_V_SQ8(In, W, PadTOrg, Wo, Ho, Ho_F, Ho_L, Out, Filter, 0);
+	if (PadR) KerConv2x3from3x3Stride1_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadTOrg, Wo, Ho, Ho_F, Ho_L, Out+Wo-1, Filter, 1);
+	if (PadT) KerConv3x2from3x3Stride1_H_SQ8(In, W, PadLOrg, Wo, Wo_F, Wo_L, Out+Wo_F, Filter, 0);
+	if (PadB) KerConv3x2from3x3Stride1_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Out+Ho_L*Wo+Wo_F, Filter, 1);
+}
+
+static void __attribute__ ((noinline)) KerConv3x3BorderStride1_2Out_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	unsigned int NextFilter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	v4s PadOrg
+	)
+
+{
+	int Fh=3, Fw=3, Stride=1;
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+
+	if (PadL) KerConv2x3from3x3Stride1_V_2Out_SQ8(In, W, PadTOrg, Wo, Ho, Ho_F, Ho_L, Out, Filter, NextFilter, 0);
+	if (PadR) KerConv2x3from3x3Stride1_V_2Out_SQ8(In+Wo_L*Stride-PadLOrg, W, PadTOrg, Wo, Ho, Ho_F, Ho_L, Out+Wo-1, Filter, NextFilter, 1);
+	if (PadT) KerConv3x2from3x3Stride1_H_2Out_SQ8(In, W, PadLOrg, Wo, Ho, Wo_F, Wo_L, Out+Wo_F, Filter, NextFilter, 0);
+	if (PadB) KerConv3x2from3x3Stride1_H_2Out_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Ho, Wo_F, Wo_L, Out+Ho_L*Wo+Wo_F, Filter, NextFilter, 1);
+}
+
+static void __attribute__ ((noinline)) KerConv3x3BorderStride2_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	v4s PadOrg
+	)
+
+{
+	int Fh=3, Fw=3, Stride=2;
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+
+	if (PadL) KerConv2x3from3x3Stride2_V_SQ8(In, W, PadTOrg, Wo, Ho, Ho_F, Ho_L, Out, Filter, 0);
+	if (PadR) KerConv2x3from3x3Stride2_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadTOrg, Wo, Ho, Ho_F, Ho_L, Out+Wo-1, Filter, 1);
+	if (PadT) KerConv3x2from3x3Stride2_H_SQ8(In, W, PadLOrg, Wo, Wo_F, Wo_L, Out+Wo_F, Filter, 0);
+	if (PadB) KerConv3x2from3x3Stride2_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Out+Ho_L*Wo+Wo_F, Filter, 1);
+}
+
+static void __attribute__ ((noinline)) KerConv3x3BorderStrideS_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad,
+	v4s PadOrg
+	)
+
+{
+	int Fh=3, Fw=3;
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+
+	if (PadL) KerConv2x3from3x3StrideS_V_SQ8(In, W, PadTOrg, Wo, Ho, Ho_F, Ho_L, Stride, Out, Filter, 0);
+	if (PadR) KerConv2x3from3x3StrideS_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadTOrg, Wo, Ho, Ho_F, Ho_L, Stride, Out+Wo-1, Filter, 1);
+	if (PadT) KerConv3x2from3x3StrideS_H_SQ8(In, W, PadLOrg, Wo, Wo_F, Wo_L, Stride, Out+Wo_F, Filter, 0);
+	if (PadB) KerConv3x2from3x3StrideS_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Stride, Out+Ho_L*Wo+Wo_F, Filter, 1);
+}
+
+static void __attribute__ ((noinline)) KerConv5x1BorderStrideNx1_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad,
+	v4s PadOrg
+	)
+
+{
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+	if (PadL) {
+		if (Wo_F==2) {
+			KerConv4x1from5x1StrideNx1_V_SQ8(In, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Out, Filter, 2);
+			KerConv4x1from5x1StrideNx1_V_SQ8(In, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Out+1, Filter, 1);
+		} else KerConv4x1from5x1StrideNx1_V_SQ8(In, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Out, Filter, PadL);
+	}
+	if (PadR) {
+		if ((Wo-Wo_L)==2) {
+			KerConv4x1from5x1StrideNx1_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Out+Wo-2, Filter, 3);
+			KerConv4x1from5x1StrideNx1_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Out+Wo-1, Filter, 4);
+		} else if (Wo==1) KerConv4x1from5x1StrideNx1_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Out+Wo-1, Filter, 5);
+		else KerConv4x1from5x1StrideNx1_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Out+Wo-1, Filter, PadR+2);
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv1x5BorderStride1xN_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad,
+	v4s PadOrg
+	)
+
+{
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+
+	if (PadT) {
+		if (Ho_F==2) { // Happens only if stride = 1
+			KerConv1x4from1x5Stride1xN_H_SQ8(In, W, PadLOrg, Wo, Wo_F, Wo_L, Out+Wo_F, Filter, 2);
+			KerConv1x4from1x5Stride1xN_H_SQ8(In, W, PadLOrg, Wo, Wo_F, Wo_L, Out+Wo_F+Wo, Filter, 1);
+		} else KerConv1x4from1x5Stride1xN_H_SQ8(In, W, PadLOrg, Wo, Wo_F, Wo_L, Out+Wo_F, Filter, PadT);
+	}
+	if (PadB) {
+		if ((Ho-Ho_L)==2) { // Happens only if stride == 1
+			KerConv1x4from1x5Stride1xN_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Out+Ho_L*Wo+Wo_F, Filter, 3);
+			KerConv1x4from1x5Stride1xN_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Out+(Ho_L+1)*Wo+Wo_F, Filter, 4);
+		} else if (Ho==1) KerConv1x4from1x5Stride1xN_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Out+Ho_L*Wo+Wo_F, Filter, 5);
+		else KerConv1x4from1x5Stride1xN_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Out+Ho_L*Wo+Wo_F, Filter, PadB+2);
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv5x5BorderStride1_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	v4s PadOrg
+	)
+
+{
+	int Fh=5, Fw=5, Stride=1;
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+
+	if (PadL==2) {
+		KerConv4x5from5x5Stride1_V_SQ8(In, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Out, Filter, 2);
+		KerConv4x5from5x5Stride1_V_SQ8(In, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Out+1, Filter, 1);
+	} else if (PadL==1) KerConv4x5from5x5Stride1_V_SQ8(In, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Out, Filter, 1);
+	if (PadR==2) {
+		if (Wo==1) KerConv4x5from5x5Stride1_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Out+Wo-1, Filter, 5);
+		else {
+			KerConv4x5from5x5Stride1_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Out+Wo-2, Filter, 3);
+			KerConv4x5from5x5Stride1_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Out+Wo-1, Filter, 4);
+		}
+	} else if (PadR==1) KerConv4x5from5x5Stride1_V_SQ8(In+Wo_L*Stride-PadLOrg, W, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Out+Wo-1, Filter, 3);
+	if (PadT==2) {
+		KerConv5x4from5x5Stride1_H_SQ8(In, W, PadLOrg, Wo, Wo_F, Wo_L, Out+Wo_F, Filter, 2);
+		KerConv5x4from5x5Stride1_H_SQ8(In, W, PadLOrg, Wo, Wo_F, Wo_L, Out+Wo_F+Wo, Filter, 1);
+	} else if (PadT==1) KerConv5x4from5x5Stride1_H_SQ8(In, W, PadLOrg, Wo, Wo_F, Wo_L, Out+Wo_F, Filter, 1);
+	if (PadB==2) {
+		if (Ho==1) KerConv5x4from5x5Stride1_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Out+(Ho_L)*Wo+Wo_F, Filter, 5);
+		else {
+			KerConv5x4from5x5Stride1_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Out+Ho_L*Wo+Wo_F, Filter, 3);
+			KerConv5x4from5x5Stride1_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Out+(Ho_L+1)*Wo+Wo_F, Filter, 4);
+		}
+	} else if (PadB==1) KerConv5x4from5x5Stride1_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, PadLOrg, Wo, Wo_F, Wo_L, Out+Ho_L*Wo+Wo_F, Filter, 3);
+}
+
+static void __attribute__ ((noinline)) KerConv5x5BorderStride2_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad,
+	v4s PadOrg
+	)
+
+{
+	int Fh=5, Fw=5, Stride=2;
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+
+	if (PadL) KerConv4x5from5x5Stride2_V_SQ8(In, W, H, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Out, Filter, PadL);
+	if (PadR) KerConv4x5from5x5Stride2_V_SQ8(In+Wo_L*Stride-PadLOrg, W, H, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Out+Wo-1, Filter, PadR+2);
+
+	if (PadT) KerConv5x4from5x5Stride2_H_SQ8(In, W, H, PadLOrg, PadTOrg, Wo, Wo_F, Wo_L, Out+Wo_F, Filter, PadT);
+	if (PadB) KerConv5x4from5x5Stride2_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, H, PadLOrg, PadTOrg, Wo, Wo_F, Wo_L, Out+Ho_L*Wo+Wo_F, Filter, PadB+2);
+}
+
+static void __attribute__ ((noinline)) KerConv5x5BorderStrideS_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad,
+	v4s PadOrg
+	)
+
+{
+	int Fh=5, Fw=5;
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadL = Pad[0], PadR = Pad[1], PadT = Pad[2], PadB = Pad[3];
+
+	if (PadL) KerConv4x5from5x5StrideS_V_SQ8(In, W, H, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Stride, Out, Filter, PadL);
+	if (PadR) KerConv4x5from5x5StrideS_V_SQ8(In+Wo_L*Stride-PadLOrg, W, H, PadOrg, Pad, Wo, Ho, Ho_F, Ho_L, Stride, Out+Wo-1, Filter, PadR+2);
+
+	if (PadT) KerConv5x4from5x5StrideS_H_SQ8(In, W, H, PadLOrg, PadTOrg, Wo, Wo_F, Wo_L, Stride, Out+Wo_F, Filter, PadT);
+	if (PadB) KerConv5x4from5x5StrideS_H_SQ8(In+(Ho_L*Stride-PadTOrg)*W, W, H, PadLOrg, PadTOrg, Wo, Wo_F, Wo_L, Stride, Out+Ho_L*Wo+Wo_F, Filter, PadB+2);
+}
+
+/* Convolution, body processing (covers both padded and non padded variants)
+
+	Input feature maps, Output feature maps and filter on bytes
+
+		KerConv1x1Stride1_Body_SQ8		1x1 convolution, stride 1
+		KerConv1x1Stride2_Body_SQ8		1x1 convolution, stride 2
+		KerConv1x1StrideS_Body_SQ8		1x1 convolution, stride S
+
+		KerConv3x1Stride1x1_Body_SQ8		3x1 convolution, stride 1x1
+		KerConv3x1Stride2x1_Body_SQ8		3x1 convolution, stride 2x1
+		KerConv1x3Stride1x1_Body_SQ8		1x3 convolution, stride 1x1
+		KerConv1x3Stride1x2_Body_SQ8		1x3 convolution, stride 1x2
+		KerConv3x3Stride1_Body_SQ8		3x3 convolution, stride 1
+		KerConv3x3Stride2_Body_SQ8		3x3 convolution, stride 2
+		KerConv3x3StrideS_Body_SQ8		3x3 convolution, stride S
+
+		KerConv5x1Stride1x1_Body_SQ8		5x1 convolution, stride 1x1
+		KerConv5x1Stride2x1_Body_SQ8		5x1 convolution, stride 2x1
+		KerConv1x5Stride1x1_Body_SQ8		1x5 convolution, stride 1x1
+		KerConv1x5Stride1x2_Body_SQ8		1x5 convolution, stride 1x2
+		KerConv5x5Stride1_Body_SQ8		5x5 convolution, stride 1
+		KerConv5x5Stride2_Body_SQ8		5x5 convolution, stride 2
+		KerConv5x5StrideS_Body_SQ8		5x5 convolution, stride S
+		KerConv7x7StrideS_Body_SQ8		7x7 convolution, stride S
+
+		KerConvNxNStrideS_Body_SQ8		NxN convolution, stride S
+		KerConvNxMStrideSxSy_Body_SQ8	NxM convolution, stride Sx, Sy
+
+		KerConvNxMDxDyStrideSxSy_Body_SQ8	NxM convolution, dilation Dx,Dy, stride Sx, Sy
+*/
+
+static void __attribute__ ((noinline)) KerConv1x1Stride1_Body_4In_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad
+	)
+
+{
+	unsigned short int Stride = 1;
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+
+	v4s C = *((v4s *) Filter);
+	int IterW = Wo_L-Wo_F;
+	for (unsigned int h=Ho_F; h<Ho_L; h++) {
+		int *LineOut = (&Out[Wo*h+Wo_F]);
+		signed char *LineIn = (In + (h*Stride-PadT)*W + (Wo_F*Stride-PadL));
+		for (unsigned int w=0; w<IterW; w++) {
+			int O = LineOut[w];
+			v4s V = gap_pack4(LineIn[w*Stride], LineIn[w*Stride+1*W*H], LineIn[w*Stride+2*W*H], LineIn[w*Stride+3*W*H]);
+			O = gap_sumdotp4(V, C, O);
+			LineOut[w] = O;
+		}
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv1x1Stride2_Body_4In_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad
+	)
+
+{
+	unsigned short int Stride = 2;
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+
+	v4s C = *((v4s *) Filter);
+	int IterW = Wo_L-Wo_F;
+	for (unsigned int h=Ho_F; h<Ho_L; h++) {
+		int *LineOut = (&Out[Wo*h+Wo_F]);
+		signed char *LineIn = (In + (h*Stride-PadT)*W + (Wo_F*Stride-PadL));
+		for (unsigned int w=0; w<IterW; w++) {
+			int O = LineOut[w];
+			v4s V = gap_pack4(LineIn[w*Stride], LineIn[w*Stride+1*W*H], LineIn[w*Stride+2*W*H], LineIn[w*Stride+3*W*H]);
+			O = gap_sumdotp4(V, C, O);
+			LineOut[w] = O;
+		}
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv1x1Stride1_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad
+	)
+
+{
+        int Stride = 1;
+        int PadL = Pad[0], PadT = Pad[2];
+
+        int C0 = Filter[0];
+        int IterW = Wo_L-Wo_F;
+        for (unsigned int h=Ho_F; h<Ho_L; h++) {
+                int *LineOut = (int *) (&Out[Wo*h+Wo_F]);
+                signed char *PtI = In + (h*Stride-PadT)*W + (Wo_F*Stride-PadL);
+                for (unsigned int w=0; w<(IterW/2); w++) {
+                        int O0 = LineOut[2*w], O1 = LineOut[2*w+1];
+                        O0 += PtI[2*w]*C0; O1 += PtI[2*w+1]*C0;
+                        LineOut[2*w] = O0; LineOut[2*w+1] = O1;
+                }
+                if (IterW&0x1) Out[Wo*h+Wo_L-1] = Out[Wo*h+Wo_L-1] + PtI[IterW-1]*C0;
+        }
+}
+
+static void __attribute__ ((noinline)) KerConv1x1Stride2_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad
+	)
+
+{
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+
+	int Stride = 2;
+	int C0 = Filter[0];
+	int Fw = 1, Fh = 1;
+	int *PtO = Out+Wo*Ho_F+Wo_F;
+	signed char *PtC = Filter;
+	for (unsigned int h=Ho_F; h<Ho_L; h++) {
+		signed char *PtI = In + (h*Stride-PadT)*W + (Wo_F*Stride-PadL);
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			int Acc = *PtO;
+			int I = *PtI; PtI+=Stride;
+			Acc += I*C0;
+			*PtO = Acc; PtO++;
+		}
+		PtO = PtO + (Wo-Wo_L)+Wo_F;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv1x1StrideS_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad
+	)
+
+{
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+	int C0 = Filter[0];
+	int Fw = 1, Fh = 1;
+	int *PtO = Out+Wo*Ho_F+Wo_F;
+	signed char *PtC = Filter;
+	for (unsigned int h=Ho_F; h<Ho_L; h++) {
+		signed char *PtI = In + (h*Stride-PadT)*W + (Wo_F*Stride-PadL);
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			int Acc = *PtO;
+			int I = *PtI; PtI+=Stride;
+			Acc += I*C0;
+			*PtO = Acc; PtO++;
+		}
+		PtO = PtO + (Wo-Wo_L)+Wo_F;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv3x1Stride1x1_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad
+	)
+
+{
+	v4s C0 = *((v4s *) &Filter[0]);
+	v4s V0;
+	unsigned short int StrideX = 1;
+	unsigned short int StrideY = 1;
+	unsigned short int PadL = Pad[0], PadT = 0;
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+	C0[3]=0;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		v4s *PtI = (v4s *) (In + (Ho_F*StrideY-PadT)*W + (w*StrideX-PadL));
+		int *PtO = PtO1;
+		V0 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int Acc = *PtO;
+			Acc = gap_sumdotp4(V0, C0, Acc);
+			V0 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+			*PtO = Acc; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv3x1Stride2x1_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad
+	)
+
+{
+	v4s C0 = *((v4s *) &Filter[0]);
+	v4s V0;
+	unsigned short int StrideX = 2;
+	unsigned short int StrideY = 1;
+	unsigned short int PadL = Pad[0], PadT = 0;
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+	C0[3]=0;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		v4s *PtI = (v4s *) (In + (Ho_F*StrideY-PadT)*W + (w*StrideX-PadL));
+		int *PtO = PtO1;
+		V0 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int Acc = *PtO;
+			Acc = gap_sumdotp4(V0, C0, Acc);
+			V0 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+			*PtO = Acc; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv1x3Stride1x1_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad
+	)
+
+{
+	v4s C0 = *((v4s *) &Filter[0]);
+	v4s V0;
+	v4s Mask = (v4s) {1,2,4,0};
+	unsigned short int StrideX = 1;
+	unsigned short int StrideY = 1;
+	unsigned short int PadL = 0, PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+	C0[3]=0;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		signed char *PtI = (In + (Ho_F*StrideY-PadT)*W + (w*StrideX-PadL));
+		int *PtO = PtO1;
+		V0[1] = *PtI; PtI = ((signed char *)PtI+W);
+		V0[2] = *PtI; PtI = ((signed char *)PtI+W);
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int Acc = *PtO;
+			int X0 = *PtI; PtI = ((signed char *)PtI+W);
+			V0 = __builtin_shuffle(V0, (v4s) X0, Mask);
+			Acc = gap_sumdotp4(V0, C0, Acc);
+			*PtO = Acc; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv1x3Stride1x2_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad
+	)
+
+{
+	v4s C0 = *((v4s *) &Filter[0]);
+	v4s V0;
+	v4s Mask = (v4s) {2,4,5,0};
+	unsigned short int StrideX = 1;
+	unsigned short int StrideY = 2;
+	unsigned short int PadL = 0, PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+	C0[3]=0;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		signed char *PtI = (In + (Ho_F*StrideY-PadT)*W + (w*StrideX-PadL));
+		int *PtO = PtO1;
+		V0[2] = *PtI; PtI = ((signed char *)PtI+W);
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int Acc = *PtO;
+			unsigned int X0 = *(unsigned char *) PtI; PtI = ((signed char *)PtI+W);
+			unsigned int X1 = *(unsigned char *) PtI; PtI = ((signed char *)PtI+W);
+			X0 = X0 | (X1<<8);
+			V0 = __builtin_shuffle(V0, (v4s) X0, Mask);
+			Acc = gap_sumdotp4(V0, C0, Acc);
+			*PtO = Acc; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv3x3Stride1_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad
+	)
+
+{
+	v4s C0 = *((v4s *) &Filter[0]), C1 = *((v4s *) &Filter[3]), C2 = *((v4s *) &Filter[6]);
+	v4s V0, V1, V2;
+	unsigned short int StrideX = 1;
+	unsigned short int StrideY = 1;
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+	C0[3]=0; C1[3]=0; C2[3]=0;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		v4s *PtI = (v4s *) (In + (Ho_F*StrideY-PadT)*W + (w*StrideX-PadL));
+		int *PtO = PtO1;
+		V0 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+		V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int Acc = *PtO;
+			V2 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc);
+			V0 = V1; V1 = V2;
+			*PtO = Acc; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv3x3Stride1_Body_2Out_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	unsigned int NextFilter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad
+	)
+
+{
+	v4s C00 = *((v4s *) &Filter[0]), C01 = *((v4s *) &Filter[3]), C02 = *((v4s *) &Filter[6]);
+	v4s C10 = *((v4s *) &Filter[NextFilter+0]), C11 = *((v4s *) &Filter[NextFilter+3]), C12 = *((v4s *) &Filter[NextFilter+6]);
+	v4s V0, V1, V2;
+	unsigned short int StrideX = 1;
+	unsigned short int StrideY = 1;
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+	int *PtO0 = Out+Wo*Ho_F+Wo_F, *PtO1 = PtO0 + Wo*Ho;
+	C00[3]=0; C01[3]=0; C02[3]=0;
+	C10[3]=0; C11[3]=0; C12[3]=0;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		v4s *PtI = (v4s *) (In + (Ho_F*StrideY-PadT)*W + (w*StrideX-PadL));
+		int *PtO_0 = PtO0, *PtO_1 = PtO1;
+		V0 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+		V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int Acc0 = *PtO_0, Acc1 = *PtO_1;
+			V2 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+			Acc0 = gap_sumdotp4(V0, C00, Acc0); Acc0 = gap_sumdotp4(V1, C01, Acc0); Acc0 = gap_sumdotp4(V2, C02, Acc0);
+			Acc1 = gap_sumdotp4(V0, C10, Acc1); Acc1 = gap_sumdotp4(V1, C11, Acc1); Acc1 = gap_sumdotp4(V2, C12, Acc1);
+			V0 = V1; V1 = V2;
+			*PtO_0 = Acc0; PtO_0+=Wo;
+			*PtO_1 = Acc1; PtO_1+=Wo;
+		}
+		PtO0++; PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv3x3Stride2_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad
+	)
+
+{
+	v4s C0 = *((v4s *) &Filter[0]), C1 = *((v4s *) &Filter[3]), C2 = *((v4s *) &Filter[6]);
+	v4s V0, V1, V2;
+	unsigned short int Stride = 2;
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+	C0[3]=0; C1[3]=0; C2[3]=0;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		v4s *PtI = (v4s *) (In + (Ho_F*Stride-PadT)*W + (w*Stride-PadL));
+		int *PtO = PtO1;
+		V0 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int Acc = *PtO;
+			V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+			V2 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc);
+			V0 = V2;
+			*PtO = Acc; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv3x3StrideS_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad
+	)
+
+{
+	v4s C0 = *((v4s *) &Filter[0]), C1 = *((v4s *) &Filter[3]), C2 = *((v4s *) &Filter[6]);
+	v4s V0, V1, V2;
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+	C0[3]=0; C1[3]=0; C2[3]=0;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		v4s *PtI = (v4s *) (In + (Ho_F*Stride-PadT)*W + (w*Stride-PadL));
+		int *PtO = PtO1;
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int Acc = *PtO;
+			V0 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+			V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W);
+			V2 = *PtI; PtI = (v4s*) ((signed char *)PtI+(Stride-2)*W);
+			Acc = gap_sumdotp4(V0, C0, Acc); Acc = gap_sumdotp4(V1, C1, Acc); Acc = gap_sumdotp4(V2, C2, Acc);
+			*PtO = Acc; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv5x1Stride1x1_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad
+	)
+{
+	v4s C0  = *((v4s *) &Filter[0]);
+	signed char C1 = Filter[4];
+	v4s V0;
+	int StrideX = 1;
+	int StrideY = 1;
+	int PadL = Pad[0], PadT = 0;
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+	v4s Mask = (v4s) {1,2,3,4};
+
+	for (int h=Ho_F; h<Ho_L; h++) {
+		signed char *PtI = (In + (h*StrideY-PadT)*W + (Wo_F*StrideX-PadL));
+		int *PtO = PtO1;
+		v4s V0 = ((v4s *)PtI)[0];
+		int x0 = PtI[4];
+		PtI += 5;
+		for (int w=Wo_F; w<Wo_L; w++) {
+			int S = *PtO;
+			S = gap_sumdotp4(V0,  C0,  S); S += x0*C1;
+			V0 = __builtin_shuffle(V0, (v4s) x0, Mask); x0 = *PtI; PtI++;
+			*PtO = S; PtO++;
+		}
+		PtO1+=Wo;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv5x1Stride2x1_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad
+	)
+{
+	v4s C0  = *((v4s *) &Filter[0]);
+	signed char C1 = Filter[4];
+	v4s V0;
+	int StrideX = 2;
+	int StrideY = 1;
+	int PadL = Pad[0], PadT = 0;
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+
+       	for (int w=Wo_F; w<Wo_L; w++) {
+		v4s *PtI = (v4s *) (In + (Ho_F*StrideY-PadT)*W + (w*StrideX-PadL));
+		int *PtO = PtO1;
+		int x0;
+		for (int h=Ho_F; h<Ho_L; h++) {
+			int S = *PtO;
+			V0 = *PtI++; x0 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+			S = gap_sumdotp4(V0,  C0,  S); S += x0*C1;
+			*PtO = S; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv1x5Stride1x1_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad
+	)
+{
+	v4s C0  = *((v4s *) &Filter[0]);
+	signed char C1 = Filter[4];
+	v4s Mask = (v4s) {1,2,3,4};
+	v4s V0;
+	signed char V1;
+
+	unsigned short int StrideX = 1;
+	unsigned short int StrideY = 1;
+	unsigned short int PadL = 0, PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		signed char *PtI = (In + (Ho_F*StrideY-PadT)*W + (w*StrideX-PadL));
+		int *PtO = PtO1;
+		int x0,x1,x2;
+		x0 = *PtI; PtI = PtI+W;
+		x1 = *PtI; PtI = PtI+W;
+		x2 = *PtI; PtI = PtI+W;
+		V0 = gap_pack4(0,x0,x1,x2);
+		V1 = *PtI; PtI = PtI+W;
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int S = *PtO;
+			V0 = __builtin_shuffle(V0, (v4s)((int) V1), Mask);
+			V1 = (signed char)(*PtI); PtI = PtI+W;
+			S = gap_sumdotp4(V0,  C0,  S); S += V1*C1;
+			*PtO = S; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv1x5Stride1x2_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad
+	)
+{
+	v4s C0  = *((v4s *) &Filter[0]);
+	signed char C1 = Filter[4];
+	v4s Mask = (v4s) {2,3,4,5};
+	v4s V0, V1;
+
+	unsigned short int StrideX = 1;
+	unsigned short int StrideY = 2;
+	unsigned short int PadL = 0, PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		signed char *PtI = (In + (Ho_F*StrideY-PadT)*W + (w*StrideX-PadL));
+		int *PtO = PtO1;
+		int x0,x1;
+		x0 = *PtI; PtI = PtI+W;
+		x1 = *PtI; PtI = PtI+W;
+		V0 = gap_pack4(0,0,x0,x1);
+		V1 = (v4s) ((int) (*PtI)); PtI = PtI+W;
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int S = *PtO;
+			x0 = *PtI; PtI = PtI+W;
+			V1[1] = x0; V0 = __builtin_shuffle(V0, (v4s)((int) V1), Mask);
+			x1 = (*PtI); PtI = PtI+W; V1 = (v4s)((int)x1);
+			S = gap_sumdotp4(V0,  C0,  S); S += x1*C1;
+			*PtO = S; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv5x5Stride1_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad
+	)
+
+{
+	v4s C0  = *((v4s *) &Filter[0]),
+	    C1  = *((v4s *) &Filter[5]),
+	    C2  = *((v4s *) &Filter[10]),
+	    C3  = *((v4s *) &Filter[15]),
+	    C4  = *((v4s *) &Filter[20]),
+	    C5 = gap_pack4(Filter[4], Filter[9], Filter[14], Filter[19]),
+	    C6 = (v4s)(int)(*((unsigned char *) &Filter[24]));
+
+	v4s V0, V1, V2, V3, V4, V5, V6;
+	v4s Mask  = {1,2,3,4};
+
+	unsigned short int Stride = 1;
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		v4s *PtI = (v4s *) (In + (Ho_F*Stride-PadT)*W + (w*Stride-PadL));
+		int *PtO = PtO1;
+		int x0,x1,x2,x3;
+		V0 = *PtI++; x0 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+		V1 = *PtI++; x1 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+		V2 = *PtI++; x2 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+		V3 = *PtI++; x3 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+		V5 = gap_pack4(x0,x1,x2,x3);
+
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int S = *PtO;
+			V4 = *PtI++; V6 = (v4s) (int) (*((signed char *) PtI)); PtI = (v4s*) ((signed char *)PtI+W-4);
+			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
+			S = gap_sumdotp4(V2,  C2,  S); S = gap_sumdotp4(V3,  C3,  S);
+			S = gap_sumdotp4(V4,  C4,  S); S = gap_sumdotp4(V5,  C5,  S); S = gap_sumdotp4(V6,  C6,  S);
+			V0 = V1; V1 = V2; V2 = V3; V3 = V4;
+			V5 = __builtin_shuffle(V5, V6, Mask);
+			*PtO = S; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv5x5Stride2_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s Pad
+	)
+
+{
+	v4s C0  = *((v4s *) &Filter[0]),
+	    C1  = *((v4s *) &Filter[5]),
+	    C2  = *((v4s *) &Filter[10]),
+	    C3  = *((v4s *) &Filter[15]),
+	    C4  = *((v4s *) &Filter[20]),
+	    C5 = gap_pack4(Filter[4], Filter[9], Filter[14], Filter[19]),
+	    C6 = (v4s)(int)(*((unsigned char *) &Filter[24]));
+
+	v4s V0, V1, V2, V3, V4, V5, V6;
+	v4s Mask  = {2,3,4,4};
+
+	unsigned short int Stride = 2;
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		v4s *PtI = (v4s *) (In + (Ho_F*Stride-PadT)*W + (w*Stride-PadL));
+		int *PtO = PtO1;
+		int x0,x1,x2,x3;
+		V0 = *PtI++; x0 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+		V1 = *PtI++; x1 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+		V2 = *PtI++; x2 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+		V5 = gap_pack4(x0,x1,x2,0);
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int S = *PtO;
+			V3 = *PtI++; V5[3] = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+			V4 = *PtI++; V6 = (v4s) (int) (*((signed char *) PtI)); PtI = (v4s*) ((signed char *)PtI+W-4);
+			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
+			S = gap_sumdotp4(V2,  C2,  S); S = gap_sumdotp4(V3,  C3,  S);
+			S = gap_sumdotp4(V4,  C4,  S); S = gap_sumdotp4(V5,  C5,  S); S = gap_sumdotp4(V6,  C6,  S);
+			V0 = V2; V1 = V3; V2 = V4;
+			V5 = __builtin_shuffle(V5, V6, Mask);
+			*PtO = S; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv5x5StrideS_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad
+	)
+
+{
+	v4s C0  = *((v4s *) &Filter[0]),
+	    C1  = *((v4s *) &Filter[5]),
+	    C2  = *((v4s *) &Filter[10]),
+	    C3  = *((v4s *) &Filter[15]),
+	    C4  = *((v4s *) &Filter[20]),
+	    C5 = gap_pack4(Filter[4], Filter[9], Filter[14], Filter[19]),
+	    C6 = (v4s)(int)(*((unsigned char *) &Filter[24]));
+
+	v4s V0, V1, V2, V3, V4, V5, V6;
+	v4s Mask  = {2,3,4,4};
+
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+
+       	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		v4s *PtI = (v4s *) (In + (Ho_F*Stride-PadT)*W + (w*Stride-PadL));
+		int *PtO = PtO1;
+		int x0,x1,x2,x3;
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int S = *PtO;
+			V0 = *PtI++; x0 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+			V1 = *PtI++; x1 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+			V2 = *PtI++; x2 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4);
+			V3 = *PtI++; x3 = *((signed char *) PtI); PtI = (v4s*) ((signed char *)PtI+W-4); V5 = gap_pack4(x0,x1,x2,x3);
+			V4 = *PtI++; V6 = (v4s) (int) (*((signed char *) PtI)); PtI = (v4s*) ((signed char *)PtI+(Stride-4)*W-4);
+			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
+			S = gap_sumdotp4(V2,  C2,  S); S = gap_sumdotp4(V3,  C3,  S);
+			S = gap_sumdotp4(V4,  C4,  S); S = gap_sumdotp4(V5,  C5,  S); S = gap_sumdotp4(V6,  C6,  S);
+			*PtO = S; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConv7x7StrideS_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad
+	)
+
+{
+	v4s C0, C1;
+	v4s V0, V1;
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+	int *PtO1 = Out+Wo*Ho_F+Wo_F;
+	int Off = (6 - Stride)*W;
+
+	for (unsigned int w=Wo_F; w<Wo_L; w++) {
+		v4s *__restrict__ PtI = (v4s *) (In + (Ho_F*Stride-PadT)*W + (w*Stride-PadL));
+		int *__restrict__ PtO = PtO1;
+		v4s *__restrict__ PtC = (v4s *) Filter;
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int S = *PtO;
+			V0 = *PtI++; V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W-4); C0 = *PtC++; C1 = *PtC; PtC = (v4s *) ((signed char *)PtC+3); C1[3] = 0;
+			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
+			V0 = *PtI++; V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W-4); C0 = *PtC++; C1 = *PtC; PtC = (v4s *) ((signed char *)PtC+3); C1[3] = 0;
+			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
+			V0 = *PtI++; V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W-4); C0 = *PtC++; C1 = *PtC; PtC = (v4s *) ((signed char *)PtC+3); C1[3] = 0;
+			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
+			V0 = *PtI++; V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W-4); C0 = *PtC++; C1 = *PtC; PtC = (v4s *) ((signed char *)PtC+3); C1[3] = 0;
+			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
+			V0 = *PtI++; V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W-4); C0 = *PtC++; C1 = *PtC; PtC = (v4s *) ((signed char *)PtC+3); C1[3] = 0;
+			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
+			V0 = *PtI++; V1 = *PtI; PtI = (v4s*) ((signed char *)PtI+W-4); C0 = *PtC++; C1 = *PtC; PtC = (v4s *) ((signed char *)PtC+3); C1[3] = 0;
+			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
+			V0 = *PtI++; V1 = *PtI; PtI = (v4s*) ((signed char *)PtI-Off-4); C0 = *PtC++; C1 = *PtC; PtC = (v4s *) ((signed char *)PtC+3-49); C1[3] = 0;
+			S = gap_sumdotp4(V0,  C0,  S); S = gap_sumdotp4(V1,  C1,  S);
+			*PtO = S; PtO+=Wo;
+		}
+		PtO1++;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConvNxNStrideS_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int Fw,
+	int Fh,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride,
+	v4s Pad
+	)
+{
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+
+	int *PtO = Out+Wo*Ho_F+Wo_F;
+	signed char *PtC = Filter;
+	for (unsigned int h=Ho_F; h<Ho_L; h++) {
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			int Acc = *PtO;
+			for (unsigned int i=0; i<Fh; i++) {
+				for (unsigned int j=0; j<Fw; j++) Acc += In[(h*Stride-PadT+i)*W + (w*Stride-PadL+j)]*Filter[Fw*i+j];
+			}
+			*PtO = Acc; PtO++;
+		}
+		PtO = PtO + (Wo-Wo_L)+Wo_F;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConvNxMStrideSxSy_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int Fw,
+	int Fh,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int StrideX,
+	int StrideY,
+	v4s Pad
+	)
+{
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+
+	int *PtO = Out+Wo*Ho_F+Wo_F;
+	signed char *PtC = Filter;
+	for (unsigned int h=Ho_F; h<Ho_L; h++) {
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			int Acc = *PtO;
+			for (unsigned int i=0; i<Fh; i++) {
+				for (unsigned int j=0; j<Fw; j++) Acc += In[(h*StrideY-PadT+i)*W + (w*StrideX-PadL+j)]*Filter[Fw*i+j];
+			}
+			*PtO = Acc; PtO++;
+		}
+		PtO = PtO + (Wo-Wo_L)+Wo_F;
+	}
+}
+
+static void __attribute__ ((noinline)) KerConvNxMDxDyStrideSxSy_Body_SQ8(
+	signed char *__restrict__ In,
+	int *__restrict__ Out,
+	signed char *__restrict__ Filter,
+	int Fw,
+	int Fh,
+	int Dw,
+	int Dh,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int StrideX,
+	int StrideY,
+	v4s Pad
+	)
+{
+	unsigned short int PadL = Pad[0], PadT = Pad[2];
+
+	int *PtO = Out+Wo*Ho_F+Wo_F;
+	signed char *PtC = Filter;
+	for (unsigned int h=Ho_F; h<Ho_L; h++) {
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			int Acc = *PtO;
+			for (unsigned int i=0; i<Fh; i++) {
+				for (unsigned int j=0; j<Fw; j++) Acc += In[(h*StrideY-PadT+i*Dh)*W + (w*StrideX-PadL+j*Dw)]*Filter[Fw*i+j];
+			}
+			*PtO = Acc; PtO++;
+		}
+		PtO = PtO + (Wo-Wo_L)+Wo_F;
+	}
+}
+
+/*
+	Optionally 0 padded convolutions.
+
+	Input, output features and filters are bytes (_SQ8) Dim=1,3,5,N, Stride=1,2,S
+
+	Output feature maps are evaluated in parallel, one per core
+
+	Argument data type: KerConv_SQ8
+
+	KerParConv1x1Stride1_SQ8
+	KerParConv1x1Stride2_SQ8
+	KerParConv1x1StrideS_SQ8
+
+	KerParConv3x1Stride1x1_SQ8
+		|------	KerConv3x1Stride1x1_Body_SQ8
+		|------	KerConv3x1StrideNx1_Border_SQ8
+	KerParConv3x1Stride2x1_SQ8
+		|------	KerConv3x1Stride2x1_Body_SQ8
+		|------	KerConv3x1StrideNx1_Border_SQ8
+	KerParConv1x3Stride1x1_SQ8
+		|------	KerConv1x3Stride1x1_Body_SQ8
+		|------	KerConv1x3Stride1xN_Border_SQ8
+	KerParConv1x3Stride1x2_SQ8
+		|------	KerConv1x3Stride1x2_Body_SQ8
+		|------	KerConv1x3Stride1xN_Border_SQ8
+	KerParConv3x3Stride1_SQ8
+		|------	KerConv3x3Stride1_Body_SQ8
+		|------	KerConv3x3Stride1_Border_SQ8
+	KerParConv3x3Stride2_SQ8
+		|------	KerConv3x3Stride2_Body_SQ8
+		|------	KerConv3x3Stride2_Border_SQ8
+	KerParConv3x3StrideS_SQ8
+		|------	KerConv3x3StrideS_Body_SQ8
+		|------	KerConv3x3StrideS_Border_SQ8
+
+	KerParConv5x1Stride1x1_SQ8
+		|------	KerConv5x1Stride1x1_Body_SQ8
+		|------	KerConv5x1StrideNx1_Border_SQ8
+	KerParConv5x1Stride2x1_SQ8
+		|------	KerConv5x1Stride2x1_Body_SQ8
+		|------	KerConv5x1StrideNx1_Border_SQ8
+	KerParConv1x5Stride1x1_SQ8
+		|------	KerConv1x5Stride1x1_Body_SQ8
+		|------	KerConv1x5Stride1xN_Border_SQ8
+	KerParConv1x5Stride1x2_SQ8
+		|------	KerConv1x5Stride1x2_Body_SQ8
+		|------	KerConv1x5Stride1xN_Border_SQ8
+	KerParConv5x5Stride1_SQ8
+		|------	KerConv5x5Stride1_Body_SQ8
+		|------	KerConv5x5Stride1_Border_SQ8
+	KerParConv5x5Stride2_SQ8
+		|------	KerConv5x5Stride2_Body_SQ8
+		|------	KerConv5x5Stride2_Border_SQ8
+	KerParConv5x5StrideS_SQ8
+		|------	KerConv5x5StrideS_Body_SQ8
+		|------	KerConv5x5StrideS_Border_SQ8
+	KerParConv7x7StrideS_SQ8
+		|------	KerConv7x7StrideS_Body_SQ8
+		|------	KerConvNxNStrideS_Border_SQ8
+
+	KerParConvNxNStrideS_SQ8
+		|------	KerConvNxNStrideS_Body_SQ8
+		|------	KerConvNxNStrideS_Border_SQ8
+
+	KerParConvNxMStrideSxSy_SQ8
+		|------	KerConvNxMStrideSxSy_Body_SQ8
+		|------	KerConvNxMStrideSxSy_Border_SQ8
+
+	KerParConvNxMDxDyStrideSxSy_SQ8
+		|------	KerConvNxMDxDyStrideSxSy_Body_SQ8
+		|------	KerConvNxMDxDyStrideSxSy_Border_SQ8
+*/
+
+void KerParConv1x1Stride1_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	int TotalInFeatures = Arg->TotalInFeatures;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	unsigned int InFeatures = Arg->InFeatures;
+		
+	for (unsigned int of=First; of<Last; of++) {
+		for (unsigned int If=0; If<(InFeatures/4); If++) {
+			signed char *in = In+W*H*4*If, *filter = Filter+FS*FS*(TotalInFeatures*of + 4*If);
+			int *out = Out+Wo*Ho*(of);
+			KerConv1x1Stride1_Body_4In_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn);
+		}
+		if (InFeatures&0x3) {
+			for (unsigned int If=4*(InFeatures/4); If<InFeatures; If++) {
+				signed char *in = In+W*H*If, *filter = Filter+FS*FS*(TotalInFeatures*of + If);
+				int *out = Out+Wo*Ho*(of);
+				KerConv1x1Stride1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn);
+			}
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConv1x1Stride2_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	int TotalInFeatures = Arg->TotalInFeatures;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	unsigned int InFeatures = Arg->InFeatures;
+		
+	for (unsigned int of=First; of<Last; of++) {
+		for (unsigned int If=0; If<(InFeatures/4); If++) {
+			signed char *in = In+W*H*4*If, *filter = Filter+FS*FS*(TotalInFeatures*of + 4*If);
+			int *out = Out+Wo*Ho*(of);
+			KerConv1x1Stride2_Body_4In_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn);
+		}
+		if (InFeatures&0x3) {
+			for (unsigned int If=4*(InFeatures/4); If<InFeatures; If++) {
+				signed char *in = In+W*H*If, *filter = Filter+FS*FS*(TotalInFeatures*of + If);
+				int *out = Out+Wo*Ho*(of);
+				KerConv1x1Stride2_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn);
+			}
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConv1x1StrideS_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	int TotalInFeatures = Arg->TotalInFeatures;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	unsigned int InFeatures = Arg->InFeatures;
+		
+	for (unsigned int of=First; of<Last; of++) 
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FS*FS*(TotalInFeatures*of + If);
+			int *out = Out+Wo*Ho*(of);
+			KerConv1x1StrideS_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn);
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParConv3x1Stride1x1_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=3, FSy=1, Sx=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	int TotalInFeatures = Arg->TotalInFeatures;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+	unsigned int InFeatures = Arg->InFeatures;
+		
+	for (unsigned int of=First; of<Last; of++) 
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FSx*FSy*(TotalInFeatures*of + If);
+			int *out = Out+Wo*Ho*(of);
+			KerConv3x1Stride1x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn);
+			if ((int)PadIn) KerConv3x1BorderStrideNx1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 1, PadIn, PadIn);
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParConv3x1Stride2x1_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=3, FSy=1, Sx=2, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	int TotalInFeatures = Arg->TotalInFeatures;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+	unsigned int InFeatures = Arg->InFeatures;
+		
+	for (unsigned int of=First; of<Last; of++) 
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FSx*FSy*(TotalInFeatures*of + If);
+			int *out = Out+Wo*Ho*(of);
+			KerConv3x1Stride2x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn);
+			if ((int)PadIn) KerConv3x1BorderStrideNx1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 2, PadIn, PadIn);
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParConv1x3Stride1x1_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, FSy=3, Sx=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	int TotalInFeatures = Arg->TotalInFeatures;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+	unsigned int InFeatures = Arg->InFeatures;
+		
+	for (unsigned int of=First; of<Last; of++) 
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FSx*FSy*(TotalInFeatures*of + If);
+			int *out = Out+Wo*Ho*(of);
+			KerConv1x3Stride1x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn);
+			if ((int)PadIn) KerConv1x3BorderStride1xN_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 1, PadIn, PadIn);
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParConv1x3Stride1x2_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, FSy=3, Sx=1, Sy=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	int TotalInFeatures = Arg->TotalInFeatures;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+	unsigned int InFeatures = Arg->InFeatures;
+		
+	for (unsigned int of=First; of<Last; of++) 
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FSx*FSy*(TotalInFeatures*of + If);
+			int *out = Out+Wo*Ho*(of);
+			KerConv1x3Stride1x2_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn);
+			if ((int)PadIn) KerConv1x3BorderStride1xN_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 2, PadIn, PadIn);
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParConv3x3Stride1_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	int TotalInFeatures = Arg->TotalInFeatures;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	unsigned int InFeatures = Arg->InFeatures;
+	unsigned int Iter = Max(0, Last-First);
+	for (unsigned int i=0; i<Iter/2; i++) {
+		unsigned int of = First + 2*i;
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FS*FS*(TotalInFeatures*of + If);
+			int *out = Out+Wo*Ho*(of);
+			KerConv3x3Stride1_Body_2Out_SQ8(in, out, filter, TotalInFeatures*FS*FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn);
+			if ((int)PadIn) KerConv3x3BorderStride1_2Out_SQ8(in, out, filter, TotalInFeatures*FS*FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn);
+		}
+	}
+	if (Iter&0x1) {
+		unsigned int of = Last-1;
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FS*FS*(TotalInFeatures*of + If);
+			int *out = Out+Wo*Ho*(of);
+			KerConv3x3Stride1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn);
+			if ((int)PadIn) KerConv3x3BorderStride1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn);
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParConv3x3Stride2_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	int TotalInFeatures = Arg->TotalInFeatures;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	unsigned int InFeatures = Arg->InFeatures;
+	for (unsigned int of=First; of<Last; of++) 
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FS*FS*(TotalInFeatures*of + If);
+			int *out = Out+Wo*Ho*(of);
+			KerConv3x3Stride2_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn);
+			if ((int)PadIn) KerConv3x3BorderStride2_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn);
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParConv3x3StrideS_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	int TotalInFeatures = Arg->TotalInFeatures;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	unsigned int InFeatures = Arg->InFeatures;
+		
+	for (unsigned int of=First; of<Last; of++) 
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FS*FS*(TotalInFeatures*of + If);
+			int *out = Out+Wo*Ho*(of);
+			KerConv3x3StrideS_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn);
+			if ((int)PadIn) KerConv3x3BorderStrideS_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadIn);
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParConv5x1Stride1x1_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=5, FSy=1, Sx=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	int TotalInFeatures = Arg->TotalInFeatures;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+	unsigned int InFeatures = Arg->InFeatures;
+		
+	for (unsigned int of=First; of<Last; of++) 
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FSx*FSy*(TotalInFeatures*of + If);
+			int *out = Out+Wo*Ho*(of);
+			KerConv5x1Stride1x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn);
+			if ((int)PadIn) KerConv5x1BorderStrideNx1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 1, PadIn, PadIn);
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParConv5x1Stride2x1_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=5, FSy=1, Sx=2, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	int TotalInFeatures = Arg->TotalInFeatures;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+	unsigned int InFeatures = Arg->InFeatures;
+		
+	for (unsigned int of=First; of<Last; of++) 
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FSx*FSy*(TotalInFeatures*of + If);
+			int *out = Out+Wo*Ho*(of);
+			KerConv5x1Stride2x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn);
+			if ((int)PadIn) KerConv5x1BorderStrideNx1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 2, PadIn, PadIn);
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParConv1x5Stride1x1_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, FSy=5, Sx=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	int TotalInFeatures = Arg->TotalInFeatures;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+	unsigned int InFeatures = Arg->InFeatures;
+		
+	for (unsigned int of=First; of<Last; of++) 
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FSx*FSy*(TotalInFeatures*of + If);
+			int *out = Out+Wo*Ho*(of);
+			KerConv1x5Stride1x1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn);
+			if ((int)PadIn) KerConv1x5BorderStride1xN_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 1, PadIn, PadIn);
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParConv1x5Stride1x2_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, FSy=5, Sx=1, Sy=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	int TotalInFeatures = Arg->TotalInFeatures;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+	unsigned int InFeatures = Arg->InFeatures;
+		
+	for (unsigned int of=First; of<Last; of++) 
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FSx*FSy*(TotalInFeatures*of + If);
+			int *out = Out+Wo*Ho*(of);
+			KerConv1x5Stride1x2_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn);
+			if ((int)PadIn) KerConv1x5BorderStride1xN_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, 2, PadIn, PadIn);
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParConv5x5Stride1_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	int TotalInFeatures = Arg->TotalInFeatures;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	unsigned int InFeatures = Arg->InFeatures;
+		
+	for (unsigned int of=First; of<Last; of++) 
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FS*FS*(TotalInFeatures*of + If);
+			int *out = Out+Wo*Ho*(of);
+			KerConv5x5Stride1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn);
+			if ((int)PadIn) KerConv5x5BorderStride1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn);
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParConv5x5Stride2_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	int TotalInFeatures = Arg->TotalInFeatures;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	unsigned int InFeatures = Arg->InFeatures;
+		
+	for (unsigned int of=First; of<Last; of++) 
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FS*FS*(TotalInFeatures*of + If);
+			int *out = Out+Wo*Ho*(of);
+			KerConv5x5Stride2_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn);
+			if ((int)PadIn) KerConv5x5BorderStride2_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn);
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParConv5x5StrideS_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	int TotalInFeatures = Arg->TotalInFeatures;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	unsigned int InFeatures = Arg->InFeatures;
+		
+	for (unsigned int of=First; of<Last; of++) 
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FS*FS*(TotalInFeatures*of + If);
+			int *out = Out+Wo*Ho*(of);
+			KerConv5x5StrideS_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn);
+			if ((int)PadIn) KerConv5x5BorderStrideS_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadIn);
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParConv7x7StrideS_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=7, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	int TotalInFeatures = Arg->TotalInFeatures;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	unsigned int InFeatures = Arg->InFeatures;
+		
+	for (unsigned int of=First; of<Last; of++) 
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FS*FS*(TotalInFeatures*of + If);
+			int *out = Out+Wo*Ho*(of);
+			KerConv7x7StrideS_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn);
+			if ((int)PadIn) KerConvNxNStrideS_Border_SQ8(in, out, filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadIn);
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParConvNxNStrideS_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=Arg->N, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	int TotalInFeatures = Arg->TotalInFeatures;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	unsigned int InFeatures = Arg->InFeatures;
+		
+	for (unsigned int of=First; of<Last; of++) 
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FS*FS*(TotalInFeatures*of + If);
+			int *out = Out+Wo*Ho*(of);
+			KerConvNxNStrideS_Body_SQ8(in, out, filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn);
+			if ((int)PadIn) KerConvNxNStrideS_Border_SQ8(in, out, filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadIn);
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParConvNxMStrideSxSy_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=Arg->N, Sx=Arg->S;
+	unsigned int FSy=Arg->Ny, Sy=Arg->Sy;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	int TotalInFeatures = Arg->TotalInFeatures;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+	unsigned int InFeatures = Arg->InFeatures;
+		
+	for (unsigned int of=First; of<Last; of++) 
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FSx*FSy*(TotalInFeatures*of + If);
+			int *out = Out+Wo*Ho*(of);
+			KerConvNxMStrideSxSy_Body_SQ8(in, out, filter, FSx, FSy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn);
+			if ((int)PadIn) KerConvNxMStrideSxSy_Border_SQ8(in, out, filter, FSx, FSy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, PadIn);
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParConvNxMDxDyStrideSxSy_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=Arg->N, Sx=Arg->S;
+	unsigned int FSy=Arg->Ny, Sy=Arg->Sy;
+	int Dx=Arg->D, Dy=Arg->Dy;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	int TotalInFeatures = Arg->TotalInFeatures;
+	unsigned int OutFeatures = Arg->OutFeatures;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(OutFeatures);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, OutFeatures);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-(Dx*(FSx-1)+1)+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput((Dx*(FSx-1)+1), PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, (Dx*(FSx-1)+1), PadIn[0], Sx));
+	int Ho = (Arg->UsedH-(Dy*(FSy-1)+1)+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput((Dy*(FSy-1)+1), PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, (Dy*(FSy-1)+1), PadIn[2], Sy));
+
+	unsigned int InFeatures = Arg->InFeatures;
+
+	for (unsigned int of=First; of<Last; of++)
+		for (unsigned int If=0; If<InFeatures; If++) {
+			signed char *in = In+W*H*If, *filter = Filter+FSx*FSy*(TotalInFeatures*of  + If);
+			int *out = Out+Wo*Ho*(of);
+			KerConvNxMDxDyStrideSxSy_Body_SQ8(in, out, filter, FSx, FSy, Dx, Dy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn);
+			if ((int)PadIn) KerConvNxMDxDyStrideSxSy_Border_SQ8(in, out, filter, FSx, FSy, Dx, Dy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, PadIn);
+		}
+	gap_waitbarrier(0);
+}
+
+/*
+	Optionally 0 padded convolutions.
+
+	Input, output features and filters are bytes (_SQ8) Dim=1,3,5,N, Stride=1,2,S
+
+	A single feature map is evaluated in parallel on all cores
+
+	Argument data type: KerConv_SQ8
+
+	KerConv1x1Stride1_SQ8
+	KerConv1x1Stride2_SQ8
+	KerConv1x1StrideS_SQ8
+
+	KerConv3x1Stride1x1_SQ8
+		|------	KerConv3x1Stride1x1_Body_SQ8
+		|------	KerConv3x1StrideNx1_Border_SQ8
+	KerConv3x1Stride2x1_SQ8
+		|------	KerConv3x1Stride2x1_Body_SQ8
+		|------	KerConv3x1StrideNx1_Border_SQ8
+	KerConv1x3Stride1x1_SQ8
+		|------	KerConv1x3Stride1x1_Body_SQ8
+		|------	KerConv1x3Stride1xN_Border_SQ8
+	KerConv1x3Stride1x2_SQ8
+		|------	KerConv1x3Stride1x2_Body_SQ8
+		|------	KerConv1x3Stride1xN_Border_SQ8
+	KerConv3x3Stride1_SQ8
+		|------	KerConv3x3Stride1_Body_SQ8
+		|------	KerConv3x3Stride1_Border_SQ8
+	KerConv3x3Stride2_SQ8
+		|------	KerConv3x3Stride2_Body_SQ8
+		|------	KerConv3x3Stride2_Border_SQ8
+	KerConv3x3StrideS_SQ8
+		|------	KerConv3x3StrideS_Body_SQ8
+		|------	KerConv3x3StrideS_Border_SQ8
+
+	KerConv5x1Stride1x1_SQ8
+		|------	KerConv5x1Stride1x1_Body_SQ8
+		|------	KerConv5x1StrideNx1_Border_SQ8
+	KerConv5x1Stride2x1_SQ8
+		|------	KerConv5x1Stride2x1_Body_SQ8
+		|------	KerConv5x1StrideNx1_Border_SQ8
+	KerConv1x5Stride1x1_SQ8
+		|------	KerConv1x5Stride1x1_Body_SQ8
+		|------	KerConv1x5Stride1xN_Border_SQ8
+	KerConv1x5Stride1x2_SQ8
+		|------	KerConv1x5Stride1x2_Body_SQ8
+		|------	KerConv1x5Stride1xN_Border_SQ8
+	KerConv5x5Stride1_SQ8
+		|------	KerConv5x5Stride1_Body_SQ8
+		|------	KerConv5x5Stride1_Border_SQ8
+	KerConv5x5Stride2_SQ8
+		|------	KerConv5x5Stride2_Body_SQ8
+		|------	KerConv5x5Stride2_Border_SQ8
+	KerConv5x5StrideS_SQ8
+		|------	KerConv5x5StrideS_Body_SQ8
+		|------	KerConv5x5StrideS_Border_SQ8
+	KerConv7x7StrideS_SQ8
+		|------	KerConv7x7StrideS_Body_SQ8
+		|------	KerConvNxNStrideS_Border_SQ8
+
+	KerConvNxNStrideS_SQ8
+		|------	KerConvNxNStrideS_Body_SQ8
+		|------	KerConvNxNStrideS_Border_SQ8
+
+	KerConvNxMStrideSxSy_SQ8
+		|------	KerConvNxMStrideSxSy_Body_SQ8
+		|------	KerConvNxMStrideSxSy_Border_SQ8
+
+	KerConvNxMDxDyStrideSxSy_SQ8
+		|------	KerConvNxMDxDyStrideSxSy_Body_SQ8
+		|------	KerConvNxMDxDyStrideSxSy_Border_SQ8
+*/
+
+void KerConv1x1Stride1_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) KerConv1x1Stride1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg);
+	gap_waitbarrier(0);
+}
+
+void KerConv1x1Stride2_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) KerConv1x1Stride2_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg);
+	gap_waitbarrier(0);
+}
+
+void KerConv1x1StrideS_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=1, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) KerConv1x1StrideS_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadOrg);
+	gap_waitbarrier(0);
+}
+
+void KerConv3x1Stride1x1_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=3, Sx=1;
+	unsigned int FSy=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv3x1Stride1x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg);
+		if ((int)PadIn) KerConv3x1BorderStrideNx1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, PadIn, PadOrg);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConv3x1Stride2x1_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=3, Sx=2;
+	unsigned int FSy=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv3x1Stride2x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg);
+		if ((int)PadIn) KerConv3x1BorderStrideNx1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, PadIn, PadOrg);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConv1x3Stride1x1_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, Sx=1;
+	unsigned int FSy=3, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv1x3Stride1x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg);
+		if ((int)PadIn) KerConv1x3BorderStride1xN_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sy, PadIn, PadOrg);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConv1x3Stride1x2_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, Sx=1;
+	unsigned int FSy=3, Sy=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv1x3Stride1x2_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg);
+		if ((int)PadIn) KerConv1x3BorderStride1xN_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sy, PadIn, PadOrg);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConv3x3Stride1_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+#ifdef ALT
+		unsigned int TotalInFeatures = Arg->TotalInFeatures, InFeatures = Arg->InFeatures, OutFeatures = Arg->OutFeatures;
+		for (unsigned int of=0; of<OutFeatures; of++)
+			for (unsigned int If=0; If<InFeatures; If++) {
+				signed char *in = In+W*H*If, *filter = Filter+FS*FS*(TotalInFeatures*of  + If);
+				int *out = Out+Wo*Ho*(of);
+				KerConv3x3Stride1_Body_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg);
+				if ((int)PadIn) KerConv3x3BorderStride1_SQ8(in, out, filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadOrg);
+			}
+#else
+		KerConv3x3Stride1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg);
+		if ((int)PadIn) KerConv3x3BorderStride1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadOrg);
+#endif
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConv3x3Stride2_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv3x3Stride2_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg);
+		if ((int)PadIn) KerConv3x3BorderStride2_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadOrg);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConv3x3StrideS_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=3, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv3x3StrideS_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadOrg);
+		if ((int)PadIn) KerConv3x3BorderStrideS_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadOrg);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConv5x1Stride1x1_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=5, Sx=1;
+	unsigned int FSy=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv5x1Stride1x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg);
+		if ((int)PadIn) KerConv5x1BorderStrideNx1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, PadIn, PadOrg);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConv5x1Stride2x1_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=5, Sx=2;
+	unsigned int FSy=1, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv5x1Stride2x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg);
+		if ((int)PadIn) KerConv5x1BorderStrideNx1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, PadIn, PadOrg);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConv1x5Stride1x1_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, Sx=1;
+	unsigned int FSy=5, Sy=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv1x5Stride1x1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg);
+		if ((int)PadIn) KerConv1x5BorderStride1xN_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sy, PadIn, PadOrg);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConv1x5Stride1x2_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=1, Sx=1;
+	unsigned int FSy=5, Sy=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv1x5Stride1x2_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg);
+		if ((int)PadIn) KerConv1x5BorderStride1xN_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sy, PadIn, PadOrg);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConv5x5Stride1_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=1;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv5x5Stride1_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg);
+		if ((int)PadIn) KerConv5x5BorderStride1_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadOrg);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConv5x5Stride2_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv5x5Stride2_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadOrg);
+		if ((int)PadIn) KerConv5x5BorderStride2_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadOrg);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConv5x5StrideS_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=5, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv5x5StrideS_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadOrg);
+		if ((int)PadIn) KerConv5x5BorderStrideS_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadOrg);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConv7x7StrideS_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=7, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConv7x7StrideS_Body_SQ8(In, Out, Filter, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadOrg);
+		if ((int)PadIn) KerConvNxNStrideS_Border_SQ8(In, Out, Filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadOrg);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvNxNStrideS_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FS=Arg->N, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConvNxNStrideS_Body_SQ8(In, Out, Filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadOrg);
+		if ((int)PadIn) KerConvNxNStrideS_Border_SQ8(In, Out, Filter, FS, FS, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S, PadIn, PadOrg);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvNxMStrideSxSy_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=Arg->N, Sx=Arg->S;
+	unsigned int FSy=Arg->Ny, Sy=Arg->Sy;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConvNxMStrideSxSy_Body_SQ8(In, Out, Filter, FSx, FSy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadOrg);
+		if ((int)PadIn) KerConvNxMStrideSxSy_Border_SQ8(In, Out, Filter, FSx, FSy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, PadOrg);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerConvNxMDxDyStrideSxSy_SQ8(KerConv_SQ8_T *Arg)
+
+{
+	unsigned int FSx=Arg->N, Sx=Arg->S;
+	unsigned int FSy=Arg->Ny, Sy=Arg->Sy;
+	int Dx=Arg->D, Dy=Arg->Dy;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	signed char * __restrict__ Filter = Arg->Filter;
+	int * __restrict__ Out = Arg->Out;
+	v4s PadIn = Arg->Pad;
+	int Wo = (Arg->UsedW-(Dx*(FSx-1)+1)+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput((Dx*(FSx-1)+1), PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, (Dx*(FSx-1)+1), PadIn[0], Sx));
+	int Ho = (Arg->UsedH-(Dy*(FSy-1)+1)+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput((Dy*(FSy-1)+1), PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, (Dy*(FSy-1)+1), PadIn[2], Sy));
+	unsigned int CoreId = gap_coreid();
+	v4s PadOrg = PadIn;
+	unsigned int Chunk, First, Last;
+
+	if (Arg->Orientation) { // Horizontal
+		Chunk = ChunkSize(Wo); First = Chunk*CoreId; Last = Min(First+Chunk, Wo);
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		Wo_F = Max(First, Wo_F); Wo_L = Min(Last, Wo_L);
+	} else {
+		Chunk = ChunkSize(Ho); First = Chunk*CoreId; Last = Min(First+Chunk, Ho);
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		Ho_F = Max(First, Ho_F); Ho_L = Min(Last, Ho_L);
+	}
+	if (First<Last) {
+		KerConvNxMDxDyStrideSxSy_Body_SQ8(In, Out, Filter, FSx, FSy, Dx, Dy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadOrg);
+		if ((int)PadIn) KerConvNxMDxDyStrideSxSy_Border_SQ8(In, Out, Filter, FSx, FSy, Dx, Dy, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy, PadIn, PadOrg);
+	}
+	gap_waitbarrier(0);
+}
+
diff --git a/tools/autotiler_v3/generators/CNN/CNN_Generator_Util.c b/tools/autotiler_v3/generators/CNN/CNN_Generator_Util.c
new file mode 100644
index 000000000..e297ad697
--- /dev/null
+++ b/tools/autotiler_v3/generators/CNN/CNN_Generator_Util.c
@@ -0,0 +1,204 @@
+#include <stdint.h>
+#include <stdio.h>
+#include "AutoTilerLib.h"
+#include "CNN_Generators.h"
+#include "CNN_Generator_Util.h"
+#include "Gap.h"
+
+int CNN_EncodePoolOperation(KernelOper_T PoolOper, KernelOper_T ReLUOper)
+
+{
+	int Pool=0;
+	int ReLU = (ReLUOper==KOP_RELU)?1:0;
+
+	switch (PoolOper) {
+		case KOP_GLOBAL_MAXPOOL:
+		case KOP_MAXPOOL: Pool = 0; break;
+		case KOP_GLOBAL_AVGPOOL:
+		case KOP_AVGPOOL: Pool = 1; break;
+	}
+	return ((Pool<<1)|ReLU);
+}
+
+int CNN_EncodeActivation(KernelOper_T Oper)
+
+{
+	switch (Oper) {
+		case KOP_RELU: return 1;
+		case KOP_RELUN: return 2;
+		case KOP_HSIGMOID: return 3;
+		case KOP_HSWISH: return 4;
+		case KOP_LEAKYRELU: return 5;
+		default: return 0;
+	}
+}
+
+int CNN_Gcd(int a, int b)
+
+{
+	int x, y, z;
+
+	x = Abs (a); y = Abs (b);
+	while (x > 0) {
+		z = y % x; y = x; x = z;
+	}
+	return y;
+}
+
+int CNN_Scm(int a, int b)
+
+{
+        return ((a*b)/CNN_Gcd(a,b));
+}
+
+int CNN_UsedInputDimension(int Dim, int F, int S, int D, int Pad)
+
+{
+	/* Dim: input dimension, F: Filter dim, S: Stride, D: Dilation, Pad: pad values (sum of both sides) */
+	return ((Dim-1)*S+(D*(F-1)+1)-Pad);
+}
+
+int CNN_TotalPaddingValue(int Dim, int F, int S, int D)
+
+{
+	/* F: Filter dim, S: Stride, D: Dilation */
+	return ((Dim%S) == 0)?Max((D*(F-1)+1)-S, 0):Max((D*(F-1)+1) - (Dim%S), 0);
+}
+
+v4s CNN_EdgePaddingValue(AT_PadType PadType, int Padw, int Padh)
+
+{
+	v4s Pad;
+        switch (PadType) {
+		case PAD_LEFT: Pad = (v4s) {Padw, 0, Padh, 0}; break;
+		case PAD_RIGHT: Pad = (v4s) {0, Padw, 0, Padh}; break;
+		case PAD_BALANCED_LEFT: Pad = (v4s) {Padw-Padw/2, Padw/2, Padh-Padh/2, Padh/2}; break;
+		case PAD_BALANCED_RIGHT: Pad = (v4s) {Padw/2, Padw-Padw/2, Padh/2, Padh-Padh/2}; break;
+		default: GenTilingError("CNN_EdgePaddingValue: unknown padding method %d", PadType);
+        }
+	return Pad;
+}
+
+void CNN_LayerOutputDim(int Width, int Height,
+			KernelOper_T ConvOper, int Fcx, int Fcy, int Dcx, int Dcy, int Scx, int Scy, int ConvPad,
+			KernelOper_T PoolOper, int Fpx, int Fpy, int Dpx, int Dpy, int Spx, int Spy, int PoolPad,
+			int *Wc, int *Hc, int *Wo, int *Ho,
+			int *Pcw, int *Pch, int *Ppw, int *Pph)
+
+{
+	/* Convolution: Fc = Filter dim, Sc = Stride, Dc = Dilation
+	   Pooling    : Fp = Filter dim, Sp = Stride, Dp = Dilation
+	   3 different configurations:
+	   	Convolution then Pooling
+	   	Convolution
+	   	Pooling
+	   Wc, Hc  : convolution output dimension if present, otherwise returns Width, Eight
+	   Wo, Ho  : If conv then pool output dimension after conv and pooling, if pool only pool out dim, if conv only conv out dim
+	   Pcw, Pch: Horizontal and vertical padding for convolution
+	   Ppw, Pph: Horizontal and vertical padding for pooling
+	*/
+        int PadCw=0, PadCh=0;
+        int PadPw=0, PadPh=0;
+
+	if (ConvOper==KOP_NONE) {
+		Fcx=1; Dcx=1; Scx=1; Fcy=1; Dcy=1; Scy=1;
+	}
+	if (PoolOper==KOP_NONE) {
+		Fpx=1; Dpx=1; Spx=1; Fpy=1; Dpy=1; Spy=1;
+	}
+        if (ConvOper!=KOP_NONE && ConvPad) {
+		PadCw = CNN_TotalPaddingValue(Width, Fcx, Scx, Dcx); PadCh = CNN_TotalPaddingValue(Height, Fcy, Scy, Dcy);
+        }
+	int ConvW = (Width  - (Dcx*(Fcx-1)+1) + PadCw)/Scx + 1;
+	int ConvH = (Height - (Dcy*(Fcy-1)+1) + PadCh)/Scy + 1;
+
+	if (Wc) *Wc = ConvW; else ConvW = Width;
+	if (Hc) *Hc = ConvH; else ConvH = Height;
+
+        if (PoolOper!=KOP_NONE && PoolPad) {
+		PadPw = CNN_TotalPaddingValue(ConvW, Fpx, Spx, Dpx); PadPh = CNN_TotalPaddingValue(ConvH, Fpy, Spy, Dpy);
+        }
+
+        if (Wo) *Wo = (ConvW - (Dpx*(Fpx-1)+1) + PadPw)/Spx + 1;
+	if (Ho) *Ho = (ConvH - (Dpy*(Fpy-1)+1) + PadPh)/Spy + 1;
+	if (Pcw) *Pcw = PadCw;
+	if (Pch) *Pch = PadCh;
+	if (Ppw) *Ppw = PadPw;
+	if (Pph) *Pph = PadPh;
+}
+
+void CNN_TileOverlap(Tile_Orientation_T TileOrientation,
+			int Fcx, int Fcy, int Dcx, int Dcy, int Scx, int Scy,
+			int Fpx, int Fpy, int Dpx, int Dpy, int Spx, int Spy,
+			int *OverlapC, int *OverlapP)
+
+{
+	/* Convolution: Fc = Filter dim, Sc = Stride, Dc = Dilation
+	   Pooling    : Fp = Filter dim, Sp = Stride, Dp = Dilation
+	   3 different configurations:
+	   	Convolution then Pooling
+	   	Convolution
+	   	Pooling
+	*/
+	if (OverlapC == 0) {
+		Fcx = Scx = Dcx = 1; Fcy = Scy = Dcy = 1;
+	}
+	if (OverlapP == 0) {
+		Fpx = Spx = Dpx = 1; Fpy = Spy = Dpy = 1;
+	}
+	int OverlapCx = (Dcx*(Fcx-1)+1) + Scx*((Dpx*(Fpx-1)+1)-Spx-1);
+	int OverlapCy = (Dcy*(Fcy-1)+1)+ Scy*((Dpy*(Fpy-1)+1)-Spy-1);
+	int OverlapPx = (Dpx*(Fpx-1)+1)-Spx;
+	int OverlapPy = (Dpy*(Fpy-1)+1)-Spy;
+
+	if (OverlapC) *OverlapC = (TileOrientation==TILE_HOR)?OverlapCy:OverlapCx;
+	if (OverlapP) *OverlapP = (TileOrientation==TILE_HOR)?OverlapPy:OverlapPx;
+
+
+}
+
+int CNN_CheckIfRepresentable(int Value, int Nbits)
+
+{
+	return ((Abs(Value)&((1<<Nbits)-1)) == Value);
+}
+
+int CNN_SetUpperLowerBounds(KernelOper_T ReLUOper, int DataSize, int DoReLU, int *LB, int *UB, int ReluN, int Precision)
+
+{
+	if (DataSize==4) {
+		if (DoReLU) {
+			if (ReLUOper == KOP_RELU) {
+				*LB = 0; *UB = 0x7fffffff;
+			} else if (ReLUOper == KOP_RELUN) {
+				*LB = 0; *UB = ReluN<<Precision;
+				if (!CNN_CheckIfRepresentable(*UB, 31)) return 1;
+			}
+		} else {
+			*LB = 0x80000000; *UB = 0x7fffffff;
+		}
+	} else if (DataSize==2) {
+		if (DoReLU) {
+			if (ReLUOper == KOP_RELU) {
+				*LB = 0; *UB = 32767;
+			} else if (ReLUOper == KOP_RELUN) {
+				*LB = 0; *UB = ReluN<<Precision;
+				if (!CNN_CheckIfRepresentable(*UB, 15)) return 1;
+			}
+		} else {
+			*LB = -32768; *UB = 32767;
+		}
+	} else if (DataSize==1) {
+		if (DoReLU) {
+			if (ReLUOper == KOP_RELU) {
+				*LB = 0; *UB = 127;
+			} else if (ReLUOper == KOP_RELUN) {
+				*LB = 0; *UB = ReluN<<Precision;
+				if (!CNN_CheckIfRepresentable(*UB, 7)) return 1;
+			}
+		} else {
+			*LB = -128; *UB = 127;
+		}
+	}
+	return 0;
+}
diff --git a/tools/autotiler_v3/generators/CNN/CNN_Generator_Util.h b/tools/autotiler_v3/generators/CNN/CNN_Generator_Util.h
new file mode 100644
index 000000000..b68e678bd
--- /dev/null
+++ b/tools/autotiler_v3/generators/CNN/CNN_Generator_Util.h
@@ -0,0 +1,46 @@
+#ifndef __CNN_GENERATOR_UTIL_H__
+#define __CNN_GENERATOR_UTIL_H__
+
+#include "AutoTilerLib.h"
+#include "Gap.h"
+
+#define MaxS(a, b) (((int)(a)>(int)(b))?(a):(b))
+#define Max(a, b) (((a)>(b))?(a):(b))
+#define Min(a, b) (((a)<(b))?(a):(b))
+#define Abs(x) (((x)<0)?-(x):(x))
+
+#define D0	KER_ITER_D0
+#define D1	KER_ITER_D1
+#define D2	KER_ITER_D2
+#define D3	KER_ITER_D3
+#define T0	KER_ITER_TILE0
+#define T1	KER_ITER_TILE1
+#define T2	KER_ITER_TILE2
+
+#define MAXDPPREC
+
+#ifdef MAXDPPREC
+#define DP_fps_S 4
+#else
+#define DP_fps_S 2
+#endif
+
+int CNN_EncodePoolOperation(KernelOper_T PoolOper, KernelOper_T ReLUOper);
+int CNN_EncodeActivation(KernelOper_T Oper);
+int CNN_Gcd(int a, int b);
+int CNN_Scm(int a, int b);
+int CNN_UsedInputDimension(int Dim, int F, int S, int D, int Pad);
+int CNN_TotalPaddingValue(int Dim, int F, int S, int D);
+v4s CNN_EdgePaddingValue(AT_PadType PadType, int Padw, int Padh);
+void CNN_LayerOutputDim(int Width, int Height,
+			KernelOper_T ConvOper, int Fcx, int Fcy, int Dcx, int Dcy, int Scx, int Scy, int ConvPad,
+			KernelOper_T PoolOper, int Fpx, int Fpy, int Dpx, int Dpy, int Spx, int Spy, int PoolPad,
+			int *Wc, int *Hc, int *Wo, int *Ho,
+			int *Pcw, int *Pch, int *Ppw, int *Pph);
+void CNN_TileOverlap(Tile_Orientation_T TileOrientation,
+			int Fcx, int Fcy, int Dcx, int Dcy, int Scx, int Scy,
+			int Fpx, int Fpy, int Dpx, int Dpy, int Spx, int Spy,
+			int *OverlapC, int *OverlapP);
+int CNN_CheckIfRepresentable(int Value, int Nbits);
+int CNN_SetUpperLowerBounds(KernelOper_T ReLUOper, int DataSize, int DoReLU, int *LB, int *UB, int ReluN, int Precision);
+#endif
diff --git a/tools/autotiler_v3/generators/CNN/CNN_Generators.c b/tools/autotiler_v3/generators/CNN/CNN_Generators.c
index 30a3f0643..0665c8456 100644
--- a/tools/autotiler_v3/generators/CNN/CNN_Generators.c
+++ b/tools/autotiler_v3/generators/CNN/CNN_Generators.c
@@ -2,8 +2,10 @@
 #include <stdio.h>
 #include "AutoTilerLib.h"
 #include "CNN_Generators.h"
+#include "CNN_Generator_Util.h"
 #include "Gap.h"
 
+#ifdef OLD
 #define MaxS(a, b) (((int)(a)>(int)(b))?(a):(b))
 #define Max(a, b) (((a)>(b))?(a):(b))
 #define Min(a, b) (((a)<(b))?(a):(b))
@@ -24,6 +26,7 @@
 #else
 #define DP_fps_S 2
 #endif
+#endif
 
 void LoadCNNLibrary()
 
@@ -632,6 +635,21 @@ void LoadCNNLibrary()
 			TCArg("int", "UB")
 			)
 	);
+	LibKernelTemplate("KerLinearLayerReLU_fps_fps_fpd_T",
+                  CArgs(11,
+			TCArg("signed char * __restrict__", "In"),
+			TCArg("unsigned short int", "InSize"),
+			TCArg("unsigned short int", "TotalInSize"),
+			TCArg("unsigned short int", "OutSize"),
+			TCArg("signed char * __restrict__", "Filter"),
+			TCArg("signed char * __restrict__", "Bias"),
+			TCArg("int * __restrict__", "Out"),
+			TCArg("unsigned char", "Norm"),
+			TCArg("signed char", "NormBias"),
+			TCArg("int", "LB"),
+			TCArg("int", "UB")
+			)
+	);
 	LibKernelTemplate("KerLinearLayerReLU_fp_fp_fpd_T",
                   CArgs(11,
 			TCArg("short int * __restrict__", "In"),
@@ -844,15 +862,12 @@ void LoadCNNLibrary()
 
 	/* Linear Rectification (ReLU) */
         LibKernel("KerParReLU_fp", CALL_PARALLEL, 0, "KerReLUPool_fp_T",			CNN_Match(CNN_OperList(2, KOP_RELU, KOP_RELUN), 0, 1, CNN_Type(2,0,0,0,2), 0,0,0,0,0,0));
-        LibKernel("KerParReLUN_Vector_fp", CALL_PARALLEL, 0, "KerReLUPool_fp_T",		CNN_Match(CNN_OperList(1, KOP_RELUN_VECTOR), 0, 1, CNN_Type(2,0,0,0,2), 0,0,0,0,0,0));
         LibKernel("KerParHswish_fp", CALL_PARALLEL, 0, "KerReLUPool_fp_T",			CNN_Match(CNN_OperList(1, KOP_HSWISH), 0, 1, CNN_Type(2,0,0,0,2), 0,0,0,0,0,0));
         LibKernel("KerParHsigmoid_fp", CALL_PARALLEL, 0, "KerReLUPool_fp_T",			CNN_Match(CNN_OperList(1, KOP_HSIGMOID), 0, 1, CNN_Type(2,0,0,0,2), 0,0,0,0,0,0));
 
 	/* Linear layer followed by an optional activation, don't use when partial evaluation of the output is needed */
 	LibKernel("KerParLinearLayerReLU_fp", CALL_PARALLEL, 0, "KerLinearLayerReLU_fp_T", 	CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), 1,
 													  CNN_Type(2,2,2,0,2), 0,0,0,0,0,0));
-	LibKernel("KerParLinearLayerReLUN_Vector_fp", CALL_PARALLEL, 0, "KerLinearLayerReLU_fp_T",CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(1, KOP_RELUN_VECTOR), 1,
-													  CNN_Type(2,2,2,0,2), 0,0,0,0,0,0));
 	LibKernel("KerParLinearLayerHswish_fp", CALL_PARALLEL, 0, "KerLinearLayerReLU_fp_T", 	CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(1, KOP_HSWISH), 1,
 													  CNN_Type(2,2,2,0,2), 0,0,0,0,0,0));
 	LibKernel("KerParLinearLayerHsigmoid_fp", CALL_PARALLEL, 0, "KerLinearLayerReLU_fp_T", 	CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(1, KOP_HSIGMOID), 1,
@@ -869,84 +884,48 @@ void LoadCNNLibrary()
 	/* Matrix scaling, one scalar per channel */
 	LibKernel("KerParMatScaleVector_fp", CALL_PARALLEL, 0, "KerMatScale_fp_T",		CNN_Match(CNN_OperList(1, KOP_MATSCALE_VECTOR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(2,2,0,0,2), 0,0,0,0,0,0));
-	LibKernel("KerParMatScaleVector_ReLUN_Vector_fp", CALL_PARALLEL, 0, "KerMatScale_fp_T",	CNN_Match(CNN_OperList(1, KOP_MATSCALE_VECTOR), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(2,2,0,0,2), 0,0,0,0,0,0));
 	/* Matrix scaling, single scalar for all channels */
 	LibKernel("KerParMatScaleScalar_fp", CALL_PARALLEL, 0, "KerMatScale_fp_T",		CNN_Match(CNN_OperList(1, KOP_MATSCALE_SCALAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(2,0,2,0,2), 0,0,0,0,0,0));
-	LibKernel("KerParMatScaleScalar_ReLUN_Vector_fp", CALL_PARALLEL, 0, "KerMatScale_fp_T",	CNN_Match(CNN_OperList(1, KOP_MATSCALE_SCALAR), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(2,0,2,0,2), 0,0,0,0,0,0));
 	/* Matrix scaling, single scalar for all channels then one scalar per channel */
 	LibKernel("KerParMatScaleVectorScalar_fp", CALL_PARALLEL, 0, "KerMatScale_fp_T",	CNN_Match(CNN_OperList(1, KOP_MATSCALE_VECTOR_SCALAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(2,2,2,0,2), 0,0,0,0,0,0));
-	LibKernel("KerParMatScaleVectorScalar_ReLUN_Vector_fp", CALL_PARALLEL, 0, "KerMatScale_fp_T",CNN_Match(CNN_OperList(1, KOP_MATSCALE_VECTOR_SCALAR), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(2,2,2,0,2), 0,0,0,0,0,0));
 
 	/* Matrix multiplication */
 	LibKernel("KerParMatMul_fp", CALL_PARALLEL, 0, "KerMatMul_fp_T",			CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(2,2,2,0,2), 0,0,0,0,1,1));
-	LibKernel("KerParMatMul_ReLUN_Vector_fp", CALL_PARALLEL, 0, "KerMatMul_fp_T",		CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(2,2,2,0,2), 0,0,0,0,1,1));
 	LibKernel("KerParMatMulSxSy_fp", CALL_PARALLEL, 0, "KerMatMul_fp_T",			CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(2,2,2,0,2), 0,0,0,0,-1,-1));
-	LibKernel("KerParMatMulSxSy_ReLUN_Vector_fp", CALL_PARALLEL, 0, "KerMatMul_fp_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(2,2,2,0,2), 0,0,0,0,-1,-1));
 	LibKernel("KerParMatMul_fpd_fp", CALL_PARALLEL, 0, "KerMatMul_fpd_fp_T",		CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(2,2,4,0,2), 0,0,0,0,1,1));
-	LibKernel("KerParMatMul_ReLUN_Vector_fpd_fp", CALL_PARALLEL, 0, "KerMatMul_fpd_fp_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(2,2,4,0,2), 0,0,0,0,1,1));
 	LibKernel("KerParMatMulSxSy_fpd_fp", CALL_PARALLEL, 0, "KerMatMul_fpd_fp_T",		CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(2,2,4,0,2), 0,0,0,0,-1,-1));
-	LibKernel("KerParMatMulSxSy_ReLUN_Vector_fpd_fp", CALL_PARALLEL, 0, "KerMatMul_fpd_fp_T",CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(2,2,4,0,2), 0,0,0,0,-1,-1));
 	LibKernel("KerParMatMulSmallFeat_fp", CALL_PARALLEL, 0, "KerMatMul_fp_T",		CNN_Match(CNN_OperList(1, KOP_MATMUL_SM1), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(2,2,2,0,2), 0,0,0,0,1,1));
-	LibKernel("KerParMatMulSmallFeat_ReLUN_Vector_fp", CALL_PARALLEL, 0, "KerMatMul_fp_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SM1), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(2,2,2,0,2), 0,0,0,0,1,1));
 
 	/* Matrix multiplication, output scaled, single scalar for all channels */
 	LibKernel("KerParMatMulScaleScalar_fp", CALL_PARALLEL, 0, "KerMatMul_fp_T",		CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SCALAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(2,2,2,2,2), 0,0,0,0,1,1));
-	LibKernel("KerParMatMulScaleScalar_ReLUN_Vector_fp", CALL_PARALLEL, 0, "KerMatMul_fp_T",CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SCALAR), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(2,2,2,2,2), 0,0,0,0,1,1));
 	LibKernel("KerParMatMulScaleScalarSxSy_fp", CALL_PARALLEL, 0, "KerMatMul_fp_T",		CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SCALAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(2,2,2,2,2), 0,0,0,0,-1,-1));
-	LibKernel("KerParMatMulScaleScalarSxSy_ReLUN_Vector_fp", CALL_PARALLEL, 0, "KerMatMul_fp_T",CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SCALAR), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(2,2,2,2,2), 0,0,0,0,-1,-1));
 	LibKernel("KerParMatMulScaleScalar_fpd_fp", CALL_PARALLEL, 0, "KerMatMul_fpd_fp_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SCALAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(2,2,4,4,2), 0,0,0,0,1,1));
-	LibKernel("KerParMatMulScaleScalar_ReLUN_Vector_fpd_fp", CALL_PARALLEL, 0, "KerMatMul_fpd_fp_T",CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SCALAR), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(2,2,4,4,2), 0,0,0,0,1,1));
 	LibKernel("KerParMatMulScaleScalarSxSy_fpd_fp", CALL_PARALLEL, 0, "KerMatMul_fpd_fp_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SCALAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(2,2,4,4,2), 0,0,0,0,-1,-1));
-	LibKernel("KerParMatMulScaleScalarSxSy_ReLUN_Vector_fpd_fp", CALL_PARALLEL, 0, "KerMatMul_fpd_fp_T",CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SCALAR), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(2,2,4,4,2), 0,0,0,0,-1,-1));
 	LibKernel("KerParMatMulScaleScalarSmallFeat_fp", CALL_PARALLEL, 0, "KerMatMul_fp_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SCALAR_SM1), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(2,2,2,2,2), 0,0,0,0,1,1));
-	LibKernel("KerParMatMulScaleScalarSmallFeat_ReLUN_Vector_fp", CALL_PARALLEL, 0, "KerMatMul_fp_T",CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SCALAR_SM1), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(2,2,2,2,2), 0,0,0,0,1,1));
 
 	/* Matrix multiplication, output scaled, one scalar per channel */
 	LibKernel("KerParMatMulScale_fp", CALL_PARALLEL, 0, "KerMatMul_fp_T",			CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(2,2,2,2,2), 0,0,0,0,1,1));
-	LibKernel("KerParMatMulScale_ReLUN_Vector_fp", CALL_PARALLEL, 0, "KerMatMul_fp_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(2,2,2,2,2), 0,0,0,0,1,1));
 	LibKernel("KerParMatMulScaleSxSy_fp", CALL_PARALLEL, 0, "KerMatMul_fp_T",		CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(2,2,2,2,2), 0,0,0,0,-1,-1));
-	LibKernel("KerParMatMulScaleSxSy_ReLUN_Vector_fp", CALL_PARALLEL, 0, "KerMatMul_fp_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(2,2,2,2,2), 0,0,0,0,-1,-1));
 	LibKernel("KerParMatMulScale_fpd_fp", CALL_PARALLEL, 0, "KerMatMul_fpd_fp_T",		CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(2,2,4,4,2), 0,0,0,0,1,1));
-	LibKernel("KerParMatMulScale_ReLUN_Vector_fpd_fp", CALL_PARALLEL, 0, "KerMatMul_fpd_fp_T",CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(2,2,4,4,2), 0,0,0,0,1,1));
 	LibKernel("KerParMatMulScaleSxSy_fpd_fp", CALL_PARALLEL, 0, "KerMatMul_fpd_fp_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(2,2,4,4,2), 0,0,0,0,-1,-1));
-	LibKernel("KerParMatMulScaleSxSy_ReLUN_Vector_fpd_fp", CALL_PARALLEL, 0, "KerMatMul_fpd_fp_T",CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(2,2,4,4,2), 0,0,0,0,-1,-1));
 	LibKernel("KerParMatMulScaleSmallFeat_fp", CALL_PARALLEL, 0, "KerMatMul_fp_T",		CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SM1), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(2,2,2,2,2), 0,0,0,0,1,1));
-	LibKernel("KerParMatMulScaleSmallFeat_ReLUN_Vector_fp", CALL_PARALLEL, 0, "KerMatMul_fp_T",CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SM1), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(2,2,2,2,2), 0,0,0,0,1,1));
 
 	/* Matrix multiplication with H Swish reduction */
 	LibKernel("KerParMatMulHswish_fp", CALL_PARALLEL, 0, "KerMatMul_fp_T",			CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_HSWISH),
@@ -1121,20 +1100,17 @@ void LoadCNNLibrary()
 
 	/* Linear Rectification (ReLU) */
         LibKernel("KerReLU_fp", CALL_PARALLEL, 0, "KerReLUPool_fp_T",				CNN_Match(CNN_OperList(2, KOP_RELU, KOP_RELUN), 0, 0, CNN_Type(2,0,0,0,2), 0,0,0,0,0,0));
-        LibKernel("KerReLU_ReLUN_Vector_fp", CALL_PARALLEL, 0, "KerReLUPool_fp_T",		CNN_Match(CNN_OperList(1, KOP_RELUN_VECTOR), 0, 0, CNN_Type(2,0,0,0,2), 0,0,0,0,0,0));
 
 	/* Linear layer followed by an optional activation */
 	LibKernel("KerLinearLayerReLU_fp", CALL_PARALLEL, 0, "KerLinearLayerReLU_fp_T", 	CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), 0,
 													  CNN_Type(2,2,2,0,2), 0,0,0,0,0,0));
-	LibKernel("KerLinearLayerReLUN_Vector_fp", CALL_PARALLEL, 0, "KerLinearLayerReLU_fp_T",	CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(1, KOP_RELUN_VECTOR), 0,
-													  CNN_Type(2,2,2,0,2), 0,0,0,0,0,0));
 
 	/* Full precision Linear layer */
 	LibKernel("KerDPLinearLayer_fp", CALL_PARALLEL, 0, "KerDPLinearLayer_fp_T", 		CNN_Match(CNN_OperList(1, KOP_LINEAR_DP), 0, 0, CNN_Type(2,2,0,0,4), 0,0,0,0,0,0));
 	LibKernel("KerDPLinearLayer_fp_fps", CALL_PARALLEL, 0, "KerDPLinearLayer_fp_fps_T", 	CNN_Match(CNN_OperList(1, KOP_LINEAR_DP), 0, 0, CNN_Type(2,1,0,0,4), 0,0,0,0,0,0));
 	LibKernel("KerDPLinearLayerReduct_fp", CALL_SEQUENTIAL_STRUCT, 0, "KerDPLinearLayerReduct_fp_T",
 												CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_LINEAR),
-													  CNN_OperList(7, KOP_NONE, KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSIGMOID, KOP_HSWISH, KOP_LEAKYRELU),
+													  CNN_OperList(6, KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSIGMOID, KOP_HSWISH, KOP_LEAKYRELU),
 													  0, CNN_Type(4,2,0,0,2), 0,0,0,0,0,0));
 
 	/****************************************************************************************************************/
@@ -1337,7 +1313,6 @@ void LoadCNNLibrary()
 
 	/* Linear Rectification (ReLU) */
         LibKernel("KerParReLU_fps", CALL_PARALLEL, 0, "KerReLUPool_fps_T",			CNN_Match(CNN_OperList(2, KOP_RELU, KOP_RELUN), 0, 1, CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
-        LibKernel("KerParReLUN_Vector_fps", CALL_PARALLEL, 0, "KerReLUPool_fps_T",		CNN_Match(CNN_OperList(1, KOP_RELUN_VECTOR), 0, 1, CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
         LibKernel("KerParHswish_fps", CALL_PARALLEL, 0, "KerReLUPool_fps_T",			CNN_Match(CNN_OperList(1, KOP_HSWISH), 0, 1, CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
         LibKernel("KerParHsigmoid_fps", CALL_PARALLEL, 0, "KerReLUPool_fps_T",			CNN_Match(CNN_OperList(1, KOP_HSIGMOID), 0, 1, CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
 
@@ -1363,84 +1338,48 @@ void LoadCNNLibrary()
 	/* Matrix scaling, one scalar per channel */
 	LibKernel("KerParMatScaleVector_fps", CALL_PARALLEL, 0, "KerMatScale_fps_T",		CNN_Match(CNN_OperList(1, KOP_MATSCALE_VECTOR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(1,1,0,0,1), 0,0,0,0,0,0));
-	LibKernel("KerParMatScaleVector_ReLUN_Vector_fps", CALL_PARALLEL, 0, "KerMatScale_fps_T",CNN_Match(CNN_OperList(1, KOP_MATSCALE_VECTOR), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(1,1,0,0,1), 0,0,0,0,0,0));
 	/* Matrix scaling, single scalar for all channels */
 	LibKernel("KerParMatScaleScalar_fps", CALL_PARALLEL, 0, "KerMatScale_fps_T",		CNN_Match(CNN_OperList(1, KOP_MATSCALE_SCALAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(1,0,1,0,1), 0,0,0,0,0,0));
-	LibKernel("KerParMatScaleScalar_ReLUN_Vector_fps", CALL_PARALLEL, 0, "KerMatScale_fps_T",CNN_Match(CNN_OperList(1, KOP_MATSCALE_SCALAR), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(1,0,1,0,1), 0,0,0,0,0,0));
 	/* Matrix scaling, single scalar for all channels then one scalar per channel */
 	LibKernel("KerParMatScaleVectorScalar_fps", CALL_PARALLEL, 0, "KerMatScale_fps_T",	CNN_Match(CNN_OperList(1, KOP_MATSCALE_VECTOR_SCALAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(1,1,1,0,1), 0,0,0,0,0,0));
-	LibKernel("KerParMatScaleVectorScalar_ReLUN_Vector_fps", CALL_PARALLEL, 0, "KerMatScale_fps_T",CNN_Match(CNN_OperList(1, KOP_MATSCALE_VECTOR_SCALAR), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(1,1,1,0,1), 0,0,0,0,0,0));
 
 	/* Matrix multiplication */
 	LibKernel("KerParMatMul_fps", CALL_PARALLEL, 0, "KerMatMul_fps_T",			CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(1,1,1,0,1), 0,0,0,0,1,1));
-	LibKernel("KerParMatMul_ReLUN_Vector_fps", CALL_PARALLEL, 0, "KerMatMul_fps_T",		CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(1,1,1,0,1), 0,0,0,0,1,1));
 	LibKernel("KerParMatMulSxSy_fps", CALL_PARALLEL, 0, "KerMatMul_fps_T",			CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(1,1,1,0,1), 0,0,0,0,-1,-1));
-	LibKernel("KerParMatMulSxSy_ReLUN_Vector_fps", CALL_PARALLEL, 0, "KerMatMul_fps_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(1,1,1,0,1), 0,0,0,0,-1,-1));
 	LibKernel("KerParMatMul_fp_fps", CALL_PARALLEL, 0, "KerMatMul_fp_fps_T",		CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(1,1,2,0,1), 0,0,0,0,1,1));
-	LibKernel("KerParMatMul_ReLUN_Vector_fp_fps", CALL_PARALLEL, 0, "KerMatMul_fp_fps_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(1,1,2,0,1), 0,0,0,0,1,1));
 	LibKernel("KerParMatMulSxSy_fp_fps", CALL_PARALLEL, 0, "KerMatMul_fp_fps_T",		CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(1,1,2,0,1), 0,0,0,0,-1,-1));
-	LibKernel("KerParMatMulSxSy_ReLUN_Vector_fp_fps", CALL_PARALLEL, 0, "KerMatMul_fp_fps_T",CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(1,1,2,0,1), 0,0,0,0,-1,-1));
 	LibKernel("KerParMatMulSmallFeat_fps", CALL_PARALLEL, 0, "KerMatMul_fps_T",		CNN_Match(CNN_OperList(1, KOP_MATMUL_SM1), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(1,1,1,0,1), 0,0,0,0,1,1));
-	LibKernel("KerParMatMulSmallFeat_ReLUN_Vector_fps", CALL_PARALLEL, 0, "KerMatMul_fps_T",CNN_Match(CNN_OperList(1, KOP_MATMUL_SM1), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(1,1,1,0,1), 0,0,0,0,1,1));
 
 	/* Matrix multiplication, output scaled, single scalar for all channels */
 	LibKernel("KerParMatMulScaleScalar_fps", CALL_PARALLEL, 0, "KerMatMul_fps_T",		CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SCALAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(1,1,1,1,1), 0,0,0,0,1,1));
-	LibKernel("KerParMatMulScaleScalar_ReLUN_Vector_fps", CALL_PARALLEL, 0, "KerMatMul_fps_T",CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SCALAR), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(1,1,1,1,1), 0,0,0,0,1,1));
 	LibKernel("KerParMatMulScaleScalarSxSy_fps", CALL_PARALLEL, 0, "KerMatMul_fps_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SCALAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(1,1,1,1,1), 0,0,0,0,-1,-1));
-	LibKernel("KerParMatMulScaleScalarSxSy_ReLUN_Vector_fps", CALL_PARALLEL, 0, "KerMatMul_fps_T",CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SCALAR), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(1,1,1,1,1), 0,0,0,0,-1,-1));
 	LibKernel("KerParMatMulScaleScalar_fp_fps", CALL_PARALLEL, 0, "KerMatMul_fp_fps_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SCALAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(1,1,2,2,1), 0,0,0,0,1,1));
-	LibKernel("KerParMatMulScaleScalar_ReLUN_Vector_fp_fps", CALL_PARALLEL, 0, "KerMatMul_fp_fps_T",CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SCALAR), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(1,1,2,2,1), 0,0,0,0,1,1));
 	LibKernel("KerParMatMulScaleScalarSxSy_fp_fps", CALL_PARALLEL, 0, "KerMatMul_fp_fps_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SCALAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(1,1,2,2,1), 0,0,0,0,-1,-1));
-	LibKernel("KerParMatMulScaleScalarSxSy_ReLUN_Vector_fp_fps", CALL_PARALLEL, 0, "KerMatMul_fp_fps_T",CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SCALAR), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(1,1,2,2,1), 0,0,0,0,-1,-1));
 	LibKernel("KerParMatMulScaleScalarSmallFeat_fps", CALL_PARALLEL, 0, "KerMatMul_fps_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SCALAR_SM1), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(1,1,1,1,1), 0,0,0,0,1,1));
-	LibKernel("KerParMatMulScaleScalarSmallFeat_ReLUN_Vector_fps", CALL_PARALLEL, 0, "KerMatMul_fps_T",CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SCALAR_SM1), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(1,1,1,1,1), 0,0,0,0,1,1));
 
 	/* Matrix multiplication, output scaled, one scalar per channel */
 	LibKernel("KerParMatMulScale_fps", CALL_PARALLEL, 0, "KerMatMul_fps_T",			CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(1,1,1,1,1), 0,0,0,0,1,1));
-	LibKernel("KerParMatMulScale_ReLUN_Vector_fps", CALL_PARALLEL, 0, "KerMatMul_fps_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(1,1,1,1,1), 0,0,0,0,1,1));
 	LibKernel("KerParMatMulScaleSxSy_fps", CALL_PARALLEL, 0, "KerMatMul_fps_T",		CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(1,1,1,1,1), 0,0,0,0,-1,-1));
-	LibKernel("KerParMatMulScaleSxSy_ReLUN_Vector_fps", CALL_PARALLEL, 0, "KerMatMul_fps_T",CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(1,1,1,1,1), 0,0,0,0,-1,-1));
 	LibKernel("KerParMatMulScale_fp_fps", CALL_PARALLEL, 0, "KerMatMul_fp_fps_T",		CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(1,1,2,2,1), 0,0,0,0,1,1));
-	LibKernel("KerParMatMulScale_ReLUN_Vector_fp_fps", CALL_PARALLEL, 0, "KerMatMul_fp_fps_T",CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(1,1,2,2,1), 0,0,0,0,1,1));
 	LibKernel("KerParMatMulScaleSxSy_fp_fps", CALL_PARALLEL, 0, "KerMatMul_fp_fps_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(1,1,2,2,1), 0,0,0,0,-1,-1));
-	LibKernel("KerParMatMulScaleSxSy_ReLUN_Vector_fp_fps", CALL_PARALLEL, 0, "KerMatMul_fp_fps_T",CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(1,1,2,2,1), 0,0,0,0,-1,-1));
 	LibKernel("KerParMatMulScaleSmallFeat_fps", CALL_PARALLEL, 0, "KerMatMul_fps_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SM1), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE),
 													  1, CNN_Type(1,1,1,1,1), 0,0,0,0,1,1));
-	LibKernel("KerParMatMulScaleSmallFeat_ReLUN_Vector_fps", CALL_PARALLEL, 0, "KerMatMul_fps_T",CNN_Match(CNN_OperList(1, KOP_MATMUL_SCALE_SM1), CNN_OperList(1, KOP_RELUN_VECTOR),
-													  1, CNN_Type(1,1,1,1,1), 0,0,0,0,1,1));
 
 	/* Matrix multiplication with H Swish reduction */
 	LibKernel("KerParMatMulHswish_fps", CALL_PARALLEL, 0, "KerMatMul_fps_T",		CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_HSWISH),
@@ -1613,19 +1552,16 @@ void LoadCNNLibrary()
 
 	/* Linear Rectification (ReLU) */
         LibKernel("KerReLU_fps", CALL_PARALLEL, 0, "KerReLUPool_fps_T",				CNN_Match(CNN_OperList(2, KOP_RELU, KOP_RELUN), 0, 0, CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
-        LibKernel("KerReLUN_Vector_fps", CALL_PARALLEL, 0, "KerReLUPool_fps_T",			CNN_Match(CNN_OperList(1, KOP_RELUN_VECTOR), 0, 0, CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
 
 	/* Linear layer followed by an optional activation */
 	LibKernel("KerLinearLayerReLU_fps", CALL_PARALLEL, 0, "KerLinearLayerReLU_fps_T", 	CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), 0,
 													  CNN_Type(1,1,1,0,1), 0,0,0,0,0,0));
-	LibKernel("KerLinearLayerReLUN_Vector_fps", CALL_PARALLEL, 0, "KerLinearLayerReLU_fps_T",CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(1, KOP_RELUN_VECTOR), 0,
-													  CNN_Type(1,1,1,0,1), 0,0,0,0,0,0));
 
 	/* Full precision Linear Layer followed by a reduction */
 	LibKernel("KerDPLinearLayer_fps", CALL_PARALLEL, 0, "KerDPLinearLayer_fps_T", 		CNN_Match(CNN_OperList(1, KOP_LINEAR_DP), 0, 0, CNN_Type(1,1,0,0,4), 0,0,0,0,0,0));
 	LibKernel("KerDPLinearLayerReduct_fps", CALL_SEQUENTIAL_STRUCT, 0, "KerDPLinearLayerReduct_fps_T",
 												CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_LINEAR),
-													  CNN_OperList(7, KOP_NONE, KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSIGMOID, KOP_HSWISH, KOP_LEAKYRELU),
+													  CNN_OperList(6, KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSIGMOID, KOP_HSWISH, KOP_LEAKYRELU),
 													  0, CNN_Type(4,1,0,0,1), 0,0,0,0,0,0));
 
 
@@ -1638,30 +1574,18 @@ void LoadCNNLibrary()
 
 	LibKernel("KerDP_fp", CALL_PARALLEL, 0, "KerDP_fp_T",
 		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT),    CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), -1, CNN_Type(4,0,0,0,2), 0,0,0,0,0,0));
-	LibKernel("KerDP_ReLUN_Vector_fp", CALL_PARALLEL, 0, "KerDP_fp_T",
-		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT),    CNN_OperList(1, KOP_RELUN_VECTOR), -1, CNN_Type(4,0,0,0,2), 0,0,0,0,0,0));
 	LibKernel("KerDP_IO_fp", CALL_PARALLEL, 0, "KerDP_fp_T",
 		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), -1, CNN_Type(4,0,0,0,2), 0,0,0,0,0,0));
-	LibKernel("KerDP_IO_ReLUN_Vector_fp", CALL_PARALLEL, 0, "KerDP_fp_T",
-		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO), CNN_OperList(1, KOP_RELUN_VECTOR), -1, CNN_Type(4,0,0,0,2), 0,0,0,0,0,0));
 
 	LibKernel("KerDPMulBiasScalar_fp", CALL_PARALLEL, 0, "KerDP_fp_T",
 		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_MULBIAS_SCALAR),    CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), -1, CNN_Type(4,0,2,0,2), 0,0,0,0,0,0));
-	LibKernel("KerDPMulBiasScalar_ReLUN_Vector_fp", CALL_PARALLEL, 0, "KerDP_fp_T",
-		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_MULBIAS_SCALAR),    CNN_OperList(1, KOP_RELUN_VECTOR), -1, CNN_Type(4,0,2,0,2), 0,0,0,0,0,0));
 	LibKernel("KerDPMulBiasScalar_IO_fp", CALL_PARALLEL, 0, "KerDP_fp_T",
 		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO_MULBIAS_SCALAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), -1, CNN_Type(4,0,2,0,2), 0,0,0,0,0,0));
-	LibKernel("KerDPMulBiasScalar_IO_ReLUN_Vector_fp", CALL_PARALLEL, 0, "KerDP_fp_T",
-		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO_MULBIAS_SCALAR), CNN_OperList(1, KOP_RELUN_VECTOR), -1, CNN_Type(4,0,2,0,2), 0,0,0,0,0,0));
 
 	LibKernel("KerDPMulBias_fp", CALL_PARALLEL, 0, "KerDP_fp_T",
 		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_MULBIAS),    CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), -1, CNN_Type(4,0,2,0,2), 0,0,0,0,0,0));
-	LibKernel("KerDPMulBias_ReLUN_Vector_fp", CALL_PARALLEL, 0, "KerDP_fp_T",
-		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_MULBIAS),    CNN_OperList(1, KOP_RELUN_VECTOR), -1, CNN_Type(4,0,2,0,2), 0,0,0,0,0,0));
 	LibKernel("KerDPMulBias_IO_fp", CALL_PARALLEL, 0, "KerDP_fp_T",
 		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO_MULBIAS), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), -1, CNN_Type(4,0,2,0,2), 0,0,0,0,0,0));
-	LibKernel("KerDPMulBias_IO_ReLUN_Vector_fp", CALL_PARALLEL, 0, "KerDP_fp_T",
-		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO_MULBIAS), CNN_OperList(1, KOP_RELUN_VECTOR), -1, CNN_Type(4,0,2,0,2), 0,0,0,0,0,0));
 
 	LibKernel("KerDP_hswish_fp", CALL_PARALLEL, 0, "KerDP_fp_T",
 		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT),    CNN_OperList(1, KOP_HSWISH), -1, CNN_Type(4,0,0,0,2), 0,0,0,0,0,0));
@@ -1684,31 +1608,19 @@ void LoadCNNLibrary()
 
 	LibKernel("KerDP_fps", CALL_PARALLEL, 0, "KerDP_fps_T",
 		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT),    CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), -1, CNN_Type(DP_fps_S,0,0,0,1), 0,0,0,0,0,0));
-	LibKernel("KerDP_ReLUN_Vector_fps", CALL_PARALLEL, 0, "KerDP_fps_T",
-		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT),    CNN_OperList(1, KOP_RELUN_VECTOR), -1, CNN_Type(DP_fps_S,0,0,0,1), 0,0,0,0,0,0));
 
 	LibKernel("KerDP_IO_fps", CALL_PARALLEL, 0, "KerDP_fps_T",
 		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), -1, CNN_Type(DP_fps_S,0,0,0,1), 0,0,0,0,0,0));
-	LibKernel("KerDP_IO_ReLUN_Vector_fps", CALL_PARALLEL, 0, "KerDP_fps_T",
-		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO), CNN_OperList(1, KOP_RELUN_VECTOR), -1, CNN_Type(DP_fps_S,0,0,0,1), 0,0,0,0,0,0));
 
 	LibKernel("KerDPMulBiasScalar_fps", CALL_PARALLEL, 0, "KerDP_fps_T",
 		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_MULBIAS_SCALAR),    CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), -1, CNN_Type(DP_fps_S,0,1,0,1), 0,0,0,0,0,0));
-	LibKernel("KerDPMulBiasScalar_ReLUN_Vector_fps", CALL_PARALLEL, 0, "KerDP_fps_T",
-		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_MULBIAS_SCALAR),    CNN_OperList(1, KOP_RELUN_VECTOR), -1, CNN_Type(DP_fps_S,0,1,0,1), 0,0,0,0,0,0));
 	LibKernel("KerDPMulBiasScalar_IO_fps", CALL_PARALLEL, 0, "KerDP_fps_T",
 		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO_MULBIAS_SCALAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), -1, CNN_Type(DP_fps_S,0,1,0,1), 0,0,0,0,0,0));
-	LibKernel("KerDPMulBiasScalar_IO_ReLUN_Vector_fps", CALL_PARALLEL, 0, "KerDP_fps_T",
-		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO_MULBIAS_SCALAR), CNN_OperList(1, KOP_RELUN_VECTOR), -1, CNN_Type(DP_fps_S,0,1,0,1), 0,0,0,0,0,0));
 
 	LibKernel("KerDPMulBias_fps", CALL_PARALLEL, 0, "KerDP_fps_T",
 		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_MULBIAS),    CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), -1, CNN_Type(DP_fps_S,0,1,0,1), 0,0,0,0,0,0));
-	LibKernel("KerDPMulBias_ReLUN_Vector_fps", CALL_PARALLEL, 0, "KerDP_fps_T",
-		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_MULBIAS),    CNN_OperList(1, KOP_RELUN_VECTOR), -1, CNN_Type(DP_fps_S,0,1,0,1), 0,0,0,0,0,0));
 	LibKernel("KerDPMulBias_IO_fps", CALL_PARALLEL, 0, "KerDP_fps_T",
 		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO_MULBIAS), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), -1, CNN_Type(DP_fps_S,0,1,0,1), 0,0,0,0,0,0));
-	LibKernel("KerDPMulBias_IO_ReLUN_Vector_fps", CALL_PARALLEL, 0, "KerDP_fps_T",
-		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO_MULBIAS), CNN_OperList(1, KOP_RELUN_VECTOR), -1, CNN_Type(DP_fps_S,0,1,0,1), 0,0,0,0,0,0));
 
 	LibKernel("KerDP_hswish_fps", CALL_PARALLEL, 0, "KerDP_fps_T",
 		  CNN_Match(CNN_OperList(1, KOP_DP_REDUCT),    CNN_OperList(1, KOP_HSWISH), -1, CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
@@ -1737,16 +1649,12 @@ void LoadCNNLibrary()
 	/* Linear layer followed by an optional ReLU */
 	LibKernel("KerParLinearLayerReLU_fps_fps_fp",CALL_PARALLEL, 0, "KerLinearLayerReLU_fps_fps_fp_T",CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), 1,
 														   CNN_Type(1,1,2,0,2), 0,0,0,0,0,0));
-	LibKernel("KerParLinearLayerReLUN_Vector_fps_fps_fp",CALL_PARALLEL, 0, "KerLinearLayerReLU_fps_fps_fp_T",CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(1, KOP_RELUN_VECTOR), 1,
-														   CNN_Type(1,1,2,0,2), 0,0,0,0,0,0));
+	LibKernel("KerParLinearLayerReLU_fps_fps_fpd",CALL_PARALLEL, 0, "KerLinearLayerReLU_fps_fps_fpd_T",CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), 1,
+														   CNN_Type(1,1,1,0,4), 0,0,0,0,0,0));
 	LibKernel("KerParLinearLayerReLU_fp_fps_fp", CALL_PARALLEL, 0, "KerLinearLayerReLU_fp_fps_fp_T", CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), 1,
 														   CNN_Type(2,1,2,0,2), 0,0,0,0,0,0));
-	LibKernel("KerParLinearLayerReLUN_Vector_fp_fps_fp", CALL_PARALLEL, 0, "KerLinearLayerReLU_fp_fps_fp_T", CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(1, KOP_RELUN_VECTOR), 1,
-														   CNN_Type(2,1,2,0,2), 0,0,0,0,0,0));
 	LibKernel("KerParLinearLayerReLU_fp_fp_fpd", CALL_PARALLEL, 0, "KerLinearLayerReLU_fp_fp_fpd_T", CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), 1,
 														   CNN_Type(2,2,2,0,4), 0,0,0,0,0,0));
-	LibKernel("KerParLinearLayerReLUN_Vector_fp_fp_fpd", CALL_PARALLEL, 0, "KerLinearLayerReLU_fp_fp_fpd_T", CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(1, KOP_RELUN_VECTOR), 1,
-														   CNN_Type(2,2,2,0,4), 0,0,0,0,0,0));
 
 
 	/****************************************************************************************************************/
@@ -1761,21 +1669,15 @@ void LoadCNNLibrary()
 	/* Linear layer followed by an optional ReLU */
 	LibKernel("KerLinearLayerReLU_fp_fps_fp", CALL_PARALLEL, 0, "KerLinearLayerReLU_fp_fps_fp_T", CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), 0,
 														CNN_Type(2,1,2,0,2), 0,0,0,0,0,0));
-	LibKernel("KerLinearLayerReLUN_Vector_fp_fps_fp", CALL_PARALLEL, 0, "KerLinearLayerReLU_fp_fps_fp_T", CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(1, KOP_RELUN_VECTOR), 0,
-														CNN_Type(2,1,2,0,2), 0,0,0,0,0,0));
 
 	LibKernel("KerLinearLayerReLU_fps_fps_fp", CALL_PARALLEL, 0, "KerLinearLayerReLU_fps_fps_fp_T", CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), 0,
 														  CNN_Type(1,1,2,0,2), 0,0,0,0,0,0));
-	LibKernel("KerLinearLayerReLUN_Vector_fps_fps_fp", CALL_PARALLEL, 0, "KerLinearLayerReLU_fps_fps_fp_T", CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(1, KOP_RELUN_VECTOR), 0,
-														  CNN_Type(1,1,2,0,2), 0,0,0,0,0,0));
 
 	LibKernel("KerLinearLayerReLU_fp_fp_fpd", CALL_PARALLEL, 0, "KerLinearLayerReLU_fp_fp_fpd_T", CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(3, KOP_RELU, KOP_RELUN, KOP_NONE), 0,
 														CNN_Type(2,2,2,0,4), 0,0,0,0,0,0));
-	LibKernel("KerLinearLayerReLUN_Vector_fp_fp_fpd", CALL_PARALLEL, 0, "KerLinearLayerReLU_fp_fp_fpd_T", CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(1, KOP_RELUN_VECTOR), 0,
-														CNN_Type(2,2,2,0,4), 0,0,0,0,0,0));
 }
-
-static int EncodePoolOperation(KernelOper_T PoolOper, KernelOper_T ReLUOper)
+#ifdef OLD
+static int CNN_EncodePoolOperation(KernelOper_T PoolOper, KernelOper_T ReLUOper)
 
 {
 	int Pool=0;
@@ -1790,21 +1692,20 @@ static int EncodePoolOperation(KernelOper_T PoolOper, KernelOper_T ReLUOper)
 	return ((Pool<<1)|ReLU);
 }
 
-static int EncodeActivation(KernelOper_T Oper)
+static int CNN_EncodeActivation(KernelOper_T Oper)
 
 {
 	switch (Oper) {
 		case KOP_RELU: return 1;
 		case KOP_RELUN: return 2;
-		case KOP_RELUN_VECTOR: return 3;
-		case KOP_HSIGMOID: return 4;
-		case KOP_HSWISH: return 5;
-		case KOP_LEAKYRELU: return 6;
+		case KOP_HSIGMOID: return 3;
+		case KOP_HSWISH: return 4;
+		case KOP_LEAKYRELU: return 5;
 		default: return 0;
 	}
 }
 
-static int Gcd(int a, int b)
+static int CNN_Gcd(int a, int b)
 
 {
 	int x, y, z;
@@ -1816,27 +1717,27 @@ static int Gcd(int a, int b)
 	return y;
 }
 
-static int Scm(int a, int b)
+static int CNN_Scm(int a, int b)
 
 {
-        return ((a*b)/Gcd(a,b));
+        return ((a*b)/CNN_Gcd(a,b));
 }
 
-static int UsedInputDimension(int Dim, int F, int S, int D, int PadL, int PadR)
+static int CNN_UsedInputDimension(int Dim, int F, int S, int D, int Pad)
 
 {
-	/* Dim: input dimension, F: Filter dim, S: Stride, D: Dilation, PadL,PadR: pad values on both sides */
-	return ((Dim-1)*S+(D*(F-1)+1)-PadL-PadR);
+	/* Dim: input dimension, F: Filter dim, S: Stride, D: Dilation, Pad: pad values (sum of both sides) */
+	return ((Dim-1)*S+(D*(F-1)+1)-Pad);
 }
 
-static int TotalPaddingValue(int Dim, int F, int S, int D)
+static int CNN_TotalPaddingValue(int Dim, int F, int S, int D)
 
 {
 	/* F: Filter dim, S: Stride, D: Dilation */
 	return ((Dim%S) == 0)?Max((D*(F-1)+1)-S, 0):Max((D*(F-1)+1) - (Dim%S), 0);
 }
 
-static v4s EdgePaddingValue(AT_PadType PadType, int Padw, int Padh)
+static v4s CNN_EdgePaddingValue(AT_PadType PadType, int Padw, int Padh)
 
 {
 	v4s Pad;
@@ -1845,15 +1746,16 @@ static v4s EdgePaddingValue(AT_PadType PadType, int Padw, int Padh)
 		case PAD_RIGHT: Pad = (v4s) {0, Padw, 0, Padh}; break;
 		case PAD_BALANCED_LEFT: Pad = (v4s) {Padw-Padw/2, Padw/2, Padh-Padh/2, Padh/2}; break;
 		case PAD_BALANCED_RIGHT: Pad = (v4s) {Padw/2, Padw-Padw/2, Padh/2, Padh-Padh/2}; break;
-		default: GenTilingError("EdgePaddingValue: unknown padding method %d", PadType);
+		default: GenTilingError("CNN_EdgePaddingValue: unknown padding method %d", PadType);
         }
 	return Pad;
 }
 
-static void ConvOutDim(	int Width, int Height,
+static void CNN_LayerOutputDim(	int Width, int Height,
 			KernelOper_T ConvOper, int Fcx, int Fcy, int Dcx, int Dcy, int Scx, int Scy, int ConvPad,
 			KernelOper_T PoolOper, int Fpx, int Fpy, int Dpx, int Dpy, int Spx, int Spy, int PoolPad,
-			int *Wc, int *Hc, int *Wo, int *Ho)
+			int *Wc, int *Hc, int *Wo, int *Ho,
+			int *Pcw, int *Pch, int *Ppw, int *Pph)
 
 {
 	/* Convolution: Fc = Filter dim, Sc = Stride, Dc = Dilation
@@ -1862,8 +1764,10 @@ static void ConvOutDim(	int Width, int Height,
 	   	Convolution then Pooling
 	   	Convolution
 	   	Pooling
-	   Wc, Hc: convolution output dimension if present, otherwise returns Width, Eight
-	   Wo, Ho: If conv then pool output dimension after conv and pooling, if pool only pool out dim, if conv only conv out dim
+	   Wc, Hc  : convolution output dimension if present, otherwise returns Width, Eight
+	   Wo, Ho  : If conv then pool output dimension after conv and pooling, if pool only pool out dim, if conv only conv out dim
+	   Pcw, Pch: Horizontal and vertical padding for convolution
+	   Ppw, Pph: Horizontal and vertical padding for pooling
 	*/
         int PadCw=0, PadCh=0;
         int PadPw=0, PadPh=0;
@@ -1875,7 +1779,7 @@ static void ConvOutDim(	int Width, int Height,
 		Fpx=1; Dpx=1; Spx=1; Fpy=1; Dpy=1; Spy=1;
 	}
         if (ConvOper!=KOP_NONE && ConvPad) {
-		PadCw = TotalPaddingValue(Width, Fcx, Scx, Dcx); PadCh = TotalPaddingValue(Height, Fcy, Scy, Dcy);
+		PadCw = CNN_TotalPaddingValue(Width, Fcx, Scx, Dcx); PadCh = CNN_TotalPaddingValue(Height, Fcy, Scy, Dcy);
         }
 	int ConvW = (Width  - (Dcx*(Fcx-1)+1) + PadCw)/Scx + 1;
 	int ConvH = (Height - (Dcy*(Fcy-1)+1) + PadCh)/Scy + 1;
@@ -1884,14 +1788,18 @@ static void ConvOutDim(	int Width, int Height,
 	if (Hc) *Hc = ConvH; else ConvH = Height;
 
         if (PoolOper!=KOP_NONE && PoolPad) {
-		PadPw = TotalPaddingValue(ConvW, Fpx, Spx, Dpx); PadPh = TotalPaddingValue(ConvH, Fpy, Spy, Dpy);
+		PadPw = CNN_TotalPaddingValue(ConvW, Fpx, Spx, Dpx); PadPh = CNN_TotalPaddingValue(ConvH, Fpy, Spy, Dpy);
         }
 
         if (Wo) *Wo = (ConvW - (Dpx*(Fpx-1)+1) + PadPw)/Spx + 1;
 	if (Ho) *Ho = (ConvH - (Dpy*(Fpy-1)+1) + PadPh)/Spy + 1;
+	if (Pcw) *Pcw = PadCw;
+	if (Pch) *Pch = PadCh;
+	if (Ppw) *Ppw = PadPw;
+	if (Pph) *Pph = PadPh;
 }
 
-static int TileOverlap(Tile_Orientation_T TileOrientation,
+static void CNN_TileOverlap(Tile_Orientation_T TileOrientation,
 			int Fcx, int Fcy, int Dcx, int Dcy, int Scx, int Scy,
 			int Fpx, int Fpy, int Dpx, int Dpy, int Spx, int Spy,
 			int *OverlapC, int *OverlapP
@@ -1922,13 +1830,13 @@ static int TileOverlap(Tile_Orientation_T TileOrientation,
 
 }
 
-static int CheckIfRepresentable(int Value, int Nbits)
+static int CNN_CheckIfRepresentable(int Value, int Nbits)
 
 {
 	return ((Abs(Value)&((1<<Nbits)-1)) == Value);
 }
 
-static int SetUpperLowerBounds(KernelOper_T ReLUOper, int DataSize, int DoReLU, int *LB, int *UB, int ReluN, int Precision)
+static int CNN_SetUpperLowerBounds(KernelOper_T ReLUOper, int DataSize, int DoReLU, int *LB, int *UB, int ReluN, int Precision)
 
 {
 	if (DataSize==4) {
@@ -1937,9 +1845,7 @@ static int SetUpperLowerBounds(KernelOper_T ReLUOper, int DataSize, int DoReLU,
 				*LB = 0; *UB = 0x7fffffff;
 			} else if (ReLUOper == KOP_RELUN) {
 				*LB = 0; *UB = ReluN<<Precision;
-				if (!CheckIfRepresentable(*UB, 31)) return 1;
-			} else if (ReLUOper == KOP_RELUN_VECTOR) {
-				*LB = 0;
+				if (!CNN_CheckIfRepresentable(*UB, 31)) return 1;
 			}
 		} else {
 			*LB = 0x80000000; *UB = 0x7fffffff;
@@ -1950,9 +1856,7 @@ static int SetUpperLowerBounds(KernelOper_T ReLUOper, int DataSize, int DoReLU,
 				*LB = 0; *UB = 32767;
 			} else if (ReLUOper == KOP_RELUN) {
 				*LB = 0; *UB = ReluN<<Precision;
-				if (!CheckIfRepresentable(*UB, 15)) return 1;
-			} else if (ReLUOper == KOP_RELUN_VECTOR) {
-				*LB = 0;
+				if (!CNN_CheckIfRepresentable(*UB, 15)) return 1;
 			}
 		} else {
 			*LB = -32768; *UB = 32767;
@@ -1963,9 +1867,7 @@ static int SetUpperLowerBounds(KernelOper_T ReLUOper, int DataSize, int DoReLU,
 				*LB = 0; *UB = 127;
 			} else if (ReLUOper == KOP_RELUN) {
 				*LB = 0; *UB = ReluN<<Precision;
-				if (!CheckIfRepresentable(*UB, 7)) return 1;
-			} else if (ReLUOper == KOP_RELUN_VECTOR) {
-				*LB = 0;
+				if (!CNN_CheckIfRepresentable(*UB, 7)) return 1;
 			}
 		} else {
 			*LB = -128; *UB = 127;
@@ -1973,7 +1875,7 @@ static int SetUpperLowerBounds(KernelOper_T ReLUOper, int DataSize, int DoReLU,
 	}
 	return 0;
 }
-
+#endif
 
 /*********************************************************************************************************************************************************************
  	Generator for Convolutions, followed by an optional pooling (Max or Average), followed by an optional linear rectification (ReLU).
@@ -2021,7 +1923,7 @@ static int SetUpperLowerBounds(KernelOper_T ReLUOper, int DataSize, int DoReLU,
 		Spy:		Pooling filter stride y dimension
 		PoolPad:	0: No padding, 1: Zero padding
 
-		ReLUOper:	Optional activation function: KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+		ReLUOper:	Optional activation function: KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
 
 		Signature:	Name(In, Filter, Bias, Out)
 				Name(In, Filter, Bias, ReLUN, Out)
@@ -2107,7 +2009,7 @@ int CNN_ConvolutionPoolReLU(
 	int OverlapC = (TileOrientation==TILE_HOR)?OverlapCy:OverlapCx;
         int OverlapPx = (Dpx*(Fpx-1)+1)-Spx, OverlapPy = (Dpy*(Fpy-1)+1)-Spy;
 	int OverlapP = (TileOrientation==TILE_HOR)?OverlapPy:OverlapPx;
-	int TileCons = (TileOrientation==TILE_HOR)?Scm(Scy, Spy):Scm(Scx, Spx);
+	int TileCons = (TileOrientation==TILE_HOR)?CNN_Scm(Scy, Spy):CNN_Scm(Scx, Spx);
 	int Wo, Ho, Wc, Hc;
         int PadCw=0, PadCh=0;
         int PadPw=0, PadPh=0;
@@ -2206,7 +2108,7 @@ int CNN_ConvolutionPoolReLU(
 		default: InTileCons = 1;
 	}
 	/* Set Lower/Upper bounds for convolution output */
-	if (SetUpperLowerBounds(ReLUOper, Out_DataSize, (ConvDoReLU||PoolDoReLU), &OutLB, &OutUB, ReluN, Out_Q))
+	if (CNN_SetUpperLowerBounds(ReLUOper, Out_DataSize, (ConvDoReLU||PoolDoReLU), &OutLB, &OutUB, ReluN, Out_Q))
 		GenTilingError("CNN_ConvolutionPoolReLU %s, cannot represent saturation value with given out fixed point format %d", Name, Out_Q);
 
 	LayerOp += Wc*Hc*Fcx*Fcy*OutFeat;
@@ -2263,34 +2165,26 @@ int CNN_ConvolutionPoolReLU(
 	}
 
 	/* User kernel C arguments */
-	CKernel_Arg_T **KCArgs = AllocateCArgs(4+(ReLUOper==KOP_RELUN_VECTOR));
+	CKernel_Arg_T **KCArgs = AllocateCArgs(4);
 	int Ca=0;
 
 	KCArgs[Ca++] = TCArg(CNN_ArgDataType(In_DataSize,1,1),     "In");
 	KCArgs[Ca++] = TCArg(CNN_ArgDataType(Filter_DataSize,1,1), "Filter");
 	KCArgs[Ca++] = TCArg(CNN_ArgDataType(Bias_DataSize,1,1),   "Bias");
-	if (ReLUOper==KOP_RELUN_VECTOR)
-	KCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1),               "ReLUN");
        	KCArgs[Ca++] = TCArg(CNN_ArgDataType(Out_DataSize,1,1),    "Out");
 
 	/* Usre kernel kernel arguments */
-	Object_T **KArgs = AllocateKerArgs(4+(ReLUOper==KOP_RELUN_VECTOR)+(PoolOper||ConvDP));
+	Object_T **KArgs = AllocateKerArgs(4+(PoolOper||ConvDP));
 	int Ka=0;
 
 	KArgs[Ka++] = KerArgP("In",     KerArgSpace(2,D0,T0), O_IN|O_DB|InL3,             Width, Height, UsedWidth, UsedHeight, PadIncT, PadInc, In_DataSize, 	    OverlapC, 0, TileCons, "In");
 	if (DWConv) {
 	KArgs[Ka++] = KerArg ("Bias",   KerArgSpace(1,D0),    O_IN|O_DB|O_CONST|BiasL3,   1,     1,                       			  Bias_DataSize,           0, 0,        0, "Bias");
 	KArgs[Ka++] = KerArg ("Filter", KerArgSpace(1,D0),    O_IN|O_DB|O_CONST|FilterL3, 1,     1,                       			  Fcx*Fcy*Filter_DataSize, 0, 0,        0, "Filter");
-		if ((ReLUOper==KOP_RELUN_VECTOR)) {
-	KArgs[Ka++] = KerArg ("ReLUN",  KerArgSpace(1,D0),    O_IN|O_DB|O_CONST,          1,     1,                       			  1,                       0, 0,        0, "ReLUN");
-		}
        	KArgs[Ka++] = KerArg ("Out",    KerArgSpace(2,D0,T0), O_OUT|O_DB|OutL3,          Wo,    Ho,                      			  Out_DataSize,            0, 0,        0, "Out");
 	} else {
 	KArgs[Ka++] = KerArg ("Bias",   KerArgSpace(1,D1),    O_IN|O_DB|O_CONST|BiasL3,   1,     1,                       			  Bias_DataSize,           0, 0,        0, "Bias");
 	KArgs[Ka++] = KerArg ("Filter", KerArgSpace(2,D1,D0), O_IN|O_DB|O_CONST|FilterL3, 1,     1,                       			  Fcx*Fcy*Filter_DataSize, 0, 0,        0, "Filter");
-		if ((ReLUOper==KOP_RELUN_VECTOR)) {
-	KArgs[Ka++] = KerArg ("ReLUN",  KerArgSpace(1,D1),    O_IN|O_DB|O_CONST,          1,     1,                       			  1,                       0, 0,        0, "ReLUN");
-		}
        	KArgs[Ka++] = KerArg ("Out",    KerArgSpace(2,D1,T0), O_OUT|O_DB|OutL3,          Wo,    Ho,                      			  Out_DataSize,            0, 0,        0, "Out");
 	}
 	if (PoolOper||ConvDP) {
@@ -2374,9 +2268,7 @@ int CNN_ConvolutionPoolReLU(
 					Imm(OutLB),								/* Conv out lower bound, clip or relu */
 					(ReLUOper==KOP_HSWISH||ReLUOper==KOP_HSIGMOID)?
 					Imm(Out_Q):								/* Output fixed point format */
-					((ReLUOper==KOP_RELUN_VECTOR)?
-					K_Arg("ReLUN", KER_ARG_TILE):						/* ReLUN input tile */
-					Imm(OutUB)),								/* Conv out upper bound, clip or relu */
+					Imm(OutUB),								/* Conv out upper bound, clip or relu */
 					AT_IGNORE_ARG_BINDING							/* MulBias, not relevant here */
 				)
 			):AT_NO_CALL,
@@ -2403,9 +2295,7 @@ int CNN_ConvolutionPoolReLU(
 					Imm(OutLB),								/* Conv out lower bound, clip or relu */
 					(ReLUOper==KOP_HSWISH||ReLUOper==KOP_HSIGMOID)?
 					Imm(Out_Q):								/* Output fixed point format */
-					((ReLUOper==KOP_RELUN_VECTOR)?
-					K_Arg("ReLUN", KER_ARG_TILE):						/* ReLUN input tile */
-					Imm(OutUB))								/* Conv out upper bound, clip or relu */
+					Imm(OutUB)								/* Conv out upper bound, clip or relu */
 				)
 			):(PoolOper?										/* Need pooling */
 			Call(PoolKerName, DWConv?LOC_LOOP:LOC_D0_EPILOG,
@@ -2423,7 +2313,7 @@ int CNN_ConvolutionPoolReLU(
 					NeedFpx?Imm(Fpx):AT_IGNORE_ARG_BINDING,					/* Pooling Fx */
 					NeedSpx?Imm(Spx):AT_IGNORE_ARG_BINDING,					/* Pooling Stridex */
 					Imm((TileOrientation==TILE_HOR)?1:0),					/* Pooling Orientation */
-					Imm(EncodePoolOperation(PoolOper, ReLUOper)),				/* Pooling operation with optional ReLU */
+					Imm(CNN_EncodePoolOperation(PoolOper, ReLUOper)),			/* Pooling operation with optional ReLU */
 					NeedDpx?Imm(Dpx):AT_IGNORE_ARG_BINDING,					/* Pooling Dx */
 					NeedFpy?Imm(Fpy):AT_IGNORE_ARG_BINDING,					/* Pooling Fy */
 					NeedSpy?Imm(Spy):AT_IGNORE_ARG_BINDING,					/* Pooling Stridey */
@@ -2443,7 +2333,6 @@ int CNN_ConvolutionPoolReLU(
 		if (DWConv) AddKernelArgDim(Name, "Filter", 4, InFeat, Fcx, Fcy, Filter_DataSize);
 		else AddKernelArgDim(Name, "Filter", 5, OutFeat, InFeat, Fcx, Fcy, Filter_DataSize);
 		AddKernelArgDim(Name, "Bias", 2, OutFeat, Bias_DataSize);
-		if (ReLUOper==KOP_RELUN_VECTOR) AddKernelArgDim(Name, "ReLUN", 2, OutFeat, 1);
 		AddKernelArgDim(Name, "Out", 4, OutFeat, Ho, Wo, Out_DataSize);
 
 		AT_PrepareForTest(Name,
@@ -2506,7 +2395,7 @@ int CNN_ConvolutionPoolReLU(
 		Spy:		Pooling filter stride y dimension
 		PoolPad:	0: No padding, 1: Zero padding
 
-		ReLUOper:	Optional activation function: KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+		ReLUOper:	Optional activation function: KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
 
 		Signature:	Name(In, Filter, Bias, MulBias, Out)
 				Name(In, Filter, Bias, MulBias, ReLUN, Out)
@@ -2598,7 +2487,7 @@ int CNN_ConvolutionMulBiasPoolReLU(
 	int OverlapC = (TileOrientation==TILE_HOR)?OverlapCy:OverlapCx;
         int OverlapPx = (Dpx*(Fpx-1)+1)-Spx, OverlapPy = (Dpy*(Fpy-1)+1)-Spy;
 	int OverlapP = (TileOrientation==TILE_HOR)?OverlapPy:OverlapPx;
-	int TileCons = (TileOrientation==TILE_HOR)?Scm(Scy, Spy):Scm(Scx, Spx);
+	int TileCons = (TileOrientation==TILE_HOR)?CNN_Scm(Scy, Spy):CNN_Scm(Scx, Spx);
 	int Wo, Ho, Wc, Hc;
         int PadCw=0, PadCh=0;
         int PadPw=0, PadPh=0;
@@ -2698,7 +2587,7 @@ int CNN_ConvolutionMulBiasPoolReLU(
 		default: InTileCons = 1;
 	}
 	/* Set Lower/Upper bounds for convolution output */
-	if (SetUpperLowerBounds(ReLUOper, Out_DataSize, (ConvDoReLU||PoolDoReLU), &OutLB, &OutUB, ReluN, Out_Q))
+	if (CNN_SetUpperLowerBounds(ReLUOper, Out_DataSize, (ConvDoReLU||PoolDoReLU), &OutLB, &OutUB, ReluN, Out_Q))
 		GenTilingError("CNN_ConvolutionMulBiasPoolReLU %s, cannot represent saturation value with given out fixed point format %d", Name, Out_Q);
 
 	LayerOp += Wc*Hc*Fcx*Fcy*OutFeat;
@@ -2756,19 +2645,17 @@ int CNN_ConvolutionMulBiasPoolReLU(
 	}
 
 	/* User kernel C arguments */
-	CKernel_Arg_T **KCArgs = AllocateCArgs(5+(ReLUOper==KOP_RELUN_VECTOR));
+	CKernel_Arg_T **KCArgs = AllocateCArgs(5);
 	int Ca=0;
 
 	KCArgs[Ca++] = TCArg(CNN_ArgDataType(In_DataSize,1,1),     "In");
 	KCArgs[Ca++] = TCArg(CNN_ArgDataType(Filter_DataSize,1,1), "Filter");
 	KCArgs[Ca++] = TCArg(CNN_ArgDataType(Bias_DataSize,1,1),   "Bias");
 	KCArgs[Ca++] = TCArg(CNN_ArgDataType(MulBias_DataSize,1,1),"MulBias");
-	if (ReLUOper==KOP_RELUN_VECTOR)
-	KCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1),               "ReLUN");
        	KCArgs[Ca++] = TCArg(CNN_ArgDataType(Out_DataSize,1,1),    "Out");
 
 	/* User kernel kernel arguments */
-	Object_T **KArgs = AllocateKerArgs(5+(ReLUOper==KOP_RELUN_VECTOR)+(PoolOper||ConvDP));
+	Object_T **KArgs = AllocateKerArgs(5+(PoolOper||ConvDP));
 	int Ka=0;
 
 	KArgs[Ka++] = KerArgP("In",     KerArgSpace(2,D0,T0), O_IN|O_DB|InL3,             Width, Height, UsedWidth, UsedHeight, PadIncT, PadInc, In_DataSize, 	    OverlapC, 0, TileCons, "In");
@@ -2780,9 +2667,6 @@ int CNN_ConvolutionMulBiasPoolReLU(
 	KArgs[Ka++] = KerArg ("MulBias",KerArgSpace(1,D0),    O_IN|O_DB|O_CONST|MulBiasL3,1,     1,                       			  MulBias_DataSize,        0, 0,        0, "MulBias");
 		}
 	KArgs[Ka++] = KerArg ("Filter", KerArgSpace(1,D0),    O_IN|O_DB|O_CONST|FilterL3, 1,     1,                       			  Fcx*Fcy*Filter_DataSize, 0, 0,        0, "Filter");
-		if ((ReLUOper==KOP_RELUN_VECTOR)) {
-	KArgs[Ka++] = KerArg ("ReLUN",  KerArgSpace(1,D0),    O_IN|O_DB|O_CONST,          1,     1,                       			  1,                       0, 0,        0, "ReLUN");
-		}
        	KArgs[Ka++] = KerArg ("Out",    KerArgSpace(2,D0,T0), O_OUT|O_DB|OutL3,          Wo,    Ho,                      			  Out_DataSize,            0, 0,        0, "Out");
 	} else {
 	KArgs[Ka++] = KerArg ("Bias",   KerArgSpace(1,D1),    O_IN|O_DB|O_CONST|BiasL3,   1,     1,                       			  Bias_DataSize,           0, 0,        0, "Bias");
@@ -2792,9 +2676,6 @@ int CNN_ConvolutionMulBiasPoolReLU(
 	KArgs[Ka++] = KerArg ("MulBias",KerArgSpace(1,D1),    O_IN|O_DB|O_CONST|MulBiasL3,1,     1,                       			  MulBias_DataSize,        0, 0,        0, "MulBias");
 		}
 	KArgs[Ka++] = KerArg ("Filter", KerArgSpace(2,D1,D0), O_IN|O_DB|O_CONST|FilterL3, 1,     1,                       			  Fcx*Fcy*Filter_DataSize, 0, 0,        0, "Filter");
-		if ((ReLUOper==KOP_RELUN_VECTOR)) {
-	KArgs[Ka++] = KerArg ("ReLUN",  KerArgSpace(1,D1),    O_IN|O_DB|O_CONST,          1,     1,                       			  1,                       0, 0,        0, "ReLUN");
-		}
        	KArgs[Ka++] = KerArg ("Out",    KerArgSpace(2,D1,T0), O_OUT|O_DB|OutL3,          Wo,    Ho,                      			  Out_DataSize,            0, 0,        0, "Out");
 	}
 	if (PoolOper||ConvDP) {
@@ -2878,9 +2759,7 @@ int CNN_ConvolutionMulBiasPoolReLU(
 					Imm(OutLB),								/* Conv out lower bound, clip or relu */
 					(ReLUOper==KOP_HSWISH||ReLUOper==KOP_HSIGMOID)?
 					Imm(Out_Q):								/* Output fixed point format */
-					((ReLUOper==KOP_RELUN_VECTOR)?
-					K_Arg("ReLUN", KER_ARG_TILE):						/* ReLUN input tile */
-					Imm(OutUB)),								/* Conv out upper bound, clip or relu */
+					Imm(OutUB),								/* Conv out upper bound, clip or relu */
 					MulBiasScalar?C_ArgIndirect("MulBias", 0):K_Arg("MulBias", KER_ARG_TILE)/* Multiplicative Bias, either a tile or a scalar */
 					
 				)
@@ -2908,9 +2787,7 @@ int CNN_ConvolutionMulBiasPoolReLU(
 					Imm(OutLB),								/* Conv out lower bound, clip or relu */
 					(ReLUOper==KOP_HSWISH||ReLUOper==KOP_HSIGMOID)?
 					Imm(Out_Q):								/* Output fixed point format */
-					((ReLUOper==KOP_RELUN_VECTOR)?
-					K_Arg("ReLUN", KER_ARG_TILE):						/* ReLUN input tile */
-					Imm(OutUB))								/* Conv out upper bound, clip or relu */
+					Imm(OutUB)								/* Conv out upper bound, clip or relu */
 				)
 			):(PoolOper?										/* Need pooling */
 			Call(PoolKerName, DWConv?LOC_LOOP:LOC_D0_EPILOG,
@@ -2928,7 +2805,7 @@ int CNN_ConvolutionMulBiasPoolReLU(
 					NeedFpx?Imm(Fpx):AT_IGNORE_ARG_BINDING,					/* Pooling Fx */
 					NeedSpx?Imm(Spx):AT_IGNORE_ARG_BINDING,					/* Pooling Stridex */
 					Imm((TileOrientation==TILE_HOR)?1:0),					/* Pooling Orientation */
-					Imm(EncodePoolOperation(PoolOper, ReLUOper)),				/* Pooling operation with optional ReLU */
+					Imm(CNN_EncodePoolOperation(PoolOper, ReLUOper)),			/* Pooling operation with optional ReLU */
 					NeedDpx?Imm(Dpx):AT_IGNORE_ARG_BINDING,					/* Pooling Dx */
 					NeedFpy?Imm(Fpy):AT_IGNORE_ARG_BINDING,					/* Pooling Fy */
 					NeedSpy?Imm(Spy):AT_IGNORE_ARG_BINDING,					/* Pooling Stridey */
@@ -2948,7 +2825,6 @@ int CNN_ConvolutionMulBiasPoolReLU(
 		if (DWConv) AddKernelArgDim(Name, "Filter", 4, InFeat, Fcx, Fcy, Filter_DataSize); else AddKernelArgDim(Name, "Filter", 5, OutFeat, InFeat, Fcx, Fcy, Filter_DataSize);
 		AddKernelArgDim(Name, "Bias", 2, OutFeat, Bias_DataSize);
 		if (MulBiasScalar) AddKernelArgDim(Name, "MulBias", 2, 1, MulBias_DataSize); else AddKernelArgDim(Name, "MulBias", 2, OutFeat, MulBias_DataSize);
-		if (ReLUOper==KOP_RELUN_VECTOR) AddKernelArgDim(Name, "ReLUN", 2, OutFeat, 1);
 		AddKernelArgDim(Name, "Out", 4, OutFeat, Ho, Wo, Out_DataSize);
 
 		AT_PrepareForTest(Name,
@@ -3010,7 +2886,7 @@ int CNN_ConvolutionMulBiasPoolReLU(
 		Spy:		Pooling filter stride y dimension
 		PoolPad:	0: No padding, 1: Zero padding
 
-		ReLUOper:	Optional activation function: KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+		ReLUOper:	Optional activation function: KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
 
 		Signature:	Name(In, Filter, Bias, Out)
 				Name(In, Filter, Bias, ReLUN, Out)
@@ -3074,9 +2950,9 @@ int CNN_GroupedConvolutionPoolReLU(
 	int g, Wc, Hc, Wo, Ho;
 	int NGroups = InFeat/GroupIn;
 
-	ConvOutDim(Width, Height, ConvOper, Fcx, Fcy, Dcx, Dcy, Scx, Scy, ConvPad,
+	CNN_LayerOutputDim(Width, Height, ConvOper, Fcx, Fcy, Dcx, Dcy, Scx, Scy, ConvPad,
 		   		  PoolOper, Fpx, Fpy, Dpx, Dpy, Spx, Spy, PoolPad,
-				  &Wc, &Hc, &Wo, &Ho);
+				  &Wc, &Hc, &Wo, &Ho, 0, 0, 0, 0);
 
 	if ((InFeat%GroupIn)||(OutFeat%GroupOut)||((InFeat/GroupIn)!=(OutFeat/GroupOut)))
 		GenTilingError("CNN_GroupedConvolutionPoolReLU: %s cannot divide In(%d)/Out(%d) feature spaces with these group parameters: GroupIn %d, GroupOut: %d",
@@ -3093,22 +2969,18 @@ int CNN_GroupedConvolutionPoolReLU(
 			);
 	CloseKernelGroup();
 
-	CKernel_Arg_T **KCArgs = AllocateCArgs(4+(ReLUOper==KOP_RELUN_VECTOR));
+	CKernel_Arg_T **KCArgs = AllocateCArgs(4);
 	int Ca=0;
 	KCArgs[Ca++] = TCArg(CNN_ArgDataType(In_DataSize,1,1),     "In");
 	KCArgs[Ca++] = TCArg(CNN_ArgDataType(Filter_DataSize,1,1), "Filter");
 	KCArgs[Ca++] = TCArg(CNN_ArgDataType(Bias_DataSize,1,1),   "Bias");
-	if (ReLUOper==KOP_RELUN_VECTOR)
-	KCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1),               "ReLUN");
        	KCArgs[Ca++] = TCArg(CNN_ArgDataType(Out_DataSize,1,1),    "Out");
 
-	Object_T **KArgs = AllocateKerArgs(4+(ReLUOper==KOP_RELUN_VECTOR));
+	Object_T **KArgs = AllocateKerArgs(4);
 	int Ka=0;
 	KArgs[Ka++] = KerGroupArg("In",	    O_IN,  NGroups*GroupIn*Width*Height,     In_DataSize,     "In");
 	KArgs[Ka++] = KerGroupArg("Filter", O_IN,  NGroups*GroupIn*GroupOut*Fcx*Fcy, Filter_DataSize, "Filter");
 	KArgs[Ka++] = KerGroupArg("Bias",   O_IN,  NGroups*GroupOut,                 Bias_DataSize,   "Bias");
-	if (ReLUOper==KOP_RELUN_VECTOR)
-	KArgs[Ka++] = KerGroupArg("ReLUN",  O_IN,  NGroups*GroupOut,                 1,               "ReLUN");
 	KArgs[Ka++] = KerGroupArg("Out",    O_OUT, NGroups*GroupOut*Wo*Ho,           Out_DataSize,    "Out");
 
         UKGroup = UserKernelGroupK(Name,
@@ -3117,14 +2989,6 @@ int CNN_GroupedConvolutionPoolReLU(
 		0,
 		Calls(1,
 		      UserKernelCall(BodyName, LOC_GROUP,
-		      		(ReLUOper==KOP_RELUN_VECTOR)?
-				Bindings(5,
-					KG_ArgOper("In",     '*', GroupIn*Width*Height*In_DataSize),
-					KG_ArgOper("Filter", '*', GroupIn*GroupOut*Fcx*Fcy*Filter_DataSize),
-					KG_ArgOper("Bias",   '*', GroupOut*Bias_DataSize),
-					KG_ArgOper("ReLUN",  '*', GroupOut*1),
-					KG_ArgOper("Out",    '*', GroupOut*Wo*Ho*Out_DataSize)
-				):
 				Bindings(4,
 					KG_ArgOper("In",     '*', GroupIn*Width*Height*In_DataSize),
 					KG_ArgOper("Filter", '*', GroupIn*GroupOut*Fcx*Fcy*Filter_DataSize),
@@ -3191,7 +3055,7 @@ int CNN_GroupedConvolutionPoolReLU(
 		Spy:		Pooling filter stride y dimension
 		PoolPad:	0: No padding, 1: Zero padding
 
-		ReLUOper:	Optional activation function: KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+		ReLUOper:	Optional activation function: KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
 
 		Signature:	Name(In, Filter, Bias, MulBias, Out)
 				Name(In, Filter, Bias, MulBias, ReLUN, Out)
@@ -3263,9 +3127,9 @@ int CNN_GroupedConvolutionMulBiasPoolReLU(
 	if (Ctrl) {
 		if (Ctrl->MulBiasScalar != -1) MulBiasScalar = Ctrl->MulBiasScalar;
 	}
-	ConvOutDim(Width, Height, ConvOper, Fcx, Fcy, Dcx, Dcy, Scx, Scy, ConvPad,
+	CNN_LayerOutputDim(Width, Height, ConvOper, Fcx, Fcy, Dcx, Dcy, Scx, Scy, ConvPad,
 		   		  PoolOper, Fpx, Fpy, Dpx, Dpy, Spx, Spy, PoolPad,
-				  &Wc, &Hc, &Wo, &Ho);
+				  &Wc, &Hc, &Wo, &Ho, 0, 0, 0, 0);
 
 	if ((InFeat%GroupIn)||(OutFeat%GroupOut)||((InFeat/GroupIn)!=(OutFeat/GroupOut)))
 		GenTilingError("CNN_GroupedConvolutionPoolReLU: %s cannot divide In(%d)/Out(%d) feature spaces with these group parameters: GroupIn %d, GroupOut: %d",
@@ -3282,24 +3146,20 @@ int CNN_GroupedConvolutionMulBiasPoolReLU(
 			);
 	CloseKernelGroup();
 
-	CKernel_Arg_T **KCArgs = AllocateCArgs(5+(ReLUOper==KOP_RELUN_VECTOR));
+	CKernel_Arg_T **KCArgs = AllocateCArgs(5);
 	int Ca=0;
 	KCArgs[Ca++] = TCArg(CNN_ArgDataType(In_DataSize,1,1),     "In");
 	KCArgs[Ca++] = TCArg(CNN_ArgDataType(Filter_DataSize,1,1), "Filter");
 	KCArgs[Ca++] = TCArg(CNN_ArgDataType(Bias_DataSize,1,1),   "Bias");
 	KCArgs[Ca++] = TCArg(CNN_ArgDataType(MulBias_DataSize,1,1),"MulBias");
-	if (ReLUOper==KOP_RELUN_VECTOR)
-	KCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1),               "ReLUN");
        	KCArgs[Ca++] = TCArg(CNN_ArgDataType(Out_DataSize,1,1),    "Out");
 
-	Object_T **KArgs = AllocateKerArgs(5+(ReLUOper==KOP_RELUN_VECTOR));
+	Object_T **KArgs = AllocateKerArgs(5);
 	int Ka=0;
 	KArgs[Ka++] = KerGroupArg("In",	    O_IN,  NGroups*GroupIn*Width*Height,     In_DataSize,     "In");
 	KArgs[Ka++] = KerGroupArg("Filter", O_IN,  NGroups*GroupIn*GroupOut*Fcx*Fcy, Filter_DataSize, "Filter");
 	KArgs[Ka++] = KerGroupArg("Bias",   O_IN,  NGroups*GroupOut,                 Bias_DataSize,   "Bias");
 	KArgs[Ka++] = KerGroupArg("MulBias",O_IN,  MulBiasScalar?1:NGroups*GroupOut, MulBias_DataSize, "MulBias");
-	if (ReLUOper==KOP_RELUN_VECTOR)
-	KArgs[Ka++] = KerGroupArg("ReLUN",  O_IN,  NGroups*GroupOut,                 1,               "ReLUN");
 	KArgs[Ka++] = KerGroupArg("Out",    O_OUT, NGroups*GroupOut*Wo*Ho,           Out_DataSize,    "Out");
 
         UKGroup = UserKernelGroupK(Name,
@@ -3308,15 +3168,6 @@ int CNN_GroupedConvolutionMulBiasPoolReLU(
 		0,
 		Calls(1,
 		      UserKernelCall(BodyName, LOC_GROUP,
-		      		(ReLUOper==KOP_RELUN_VECTOR)?
-				Bindings(6,
-					KG_ArgOper("In",     '*', GroupIn*Width*Height*In_DataSize),
-					KG_ArgOper("Filter", '*', GroupIn*GroupOut*Fcx*Fcy*Filter_DataSize),
-					KG_ArgOper("Bias",   '*', GroupOut*Bias_DataSize),
-					KG_ArgOper("MulBias",'*', MulBiasScalar?1:GroupOut*Bias_DataSize),
-					KG_ArgOper("ReLUN",  '*', GroupOut*1),
-					KG_ArgOper("Out",    '*', GroupOut*Wo*Ho*Out_DataSize)
-				):
 				Bindings(5,
 					KG_ArgOper("In",     '*', GroupIn*Width*Height*In_DataSize),
 					KG_ArgOper("Filter", '*', GroupIn*GroupOut*Fcx*Fcy*Filter_DataSize),
@@ -3362,7 +3213,7 @@ int CNN_GroupedConvolutionMulBiasPoolReLU(
 		Spy:		Pooling stride, y dimension
 
 		ReLUOper:	Optional activation function: if (PoolOper!=KOP_NONE) KOP_RELU or KOP_NONE
-				else Optional activation function: KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+				else Optional activation function: KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
 
 		Signature:	Name(In, Out)
 				Name(In, ReLUN, Out)
@@ -3466,7 +3317,7 @@ int CNN_PoolReLU(
 	PadInp[1] = Max(0, PadInp[1]-(Width-UsedWidth)); PadInp[3] = Max(0, PadInp[3]-(Height-UsedHeight));
 
 	/* Set output Lower and Upper bounds */
-	if (SetUpperLowerBounds(ReLUOper, Out_DataSize, (ReLUOper==KOP_RELU || ReLUOper==KOP_RELUN || ReLUOper==KOP_RELUN_VECTOR), &OutLB, &OutUB, ReluN, Out_Q))
+	if (CNN_SetUpperLowerBounds(ReLUOper, Out_DataSize, (ReLUOper==KOP_RELU || ReLUOper==KOP_RELUN), &OutLB, &OutUB, ReluN, Out_Q))
 		GenTilingError("CNN_PoolReLU %s, cannot represent saturation value with given out fixed point format %d", Name, Out_Q);
 
 	if (PoolOper) LayerOp += OutFeat*Wo*Ho*Fpx*Fpy;
@@ -3486,18 +3337,14 @@ int CNN_PoolReLU(
 		printf("Nb Oper : %lld\n", LayerOp);
 	}
 
-	CKernel_Arg_T **KCArgs = AllocateCArgs(2+(ReLUOper==KOP_RELUN_VECTOR));
+	CKernel_Arg_T **KCArgs = AllocateCArgs(2);
 	int Ca=0;
 	KCArgs[Ca++] = TCArg(CNN_ArgDataType(In_DataSize,1,1),     "In");
-	if (ReLUOper==KOP_RELUN_VECTOR)
-	KCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1),               "ReLUN");
        	KCArgs[Ca++] = TCArg(CNN_ArgDataType(Out_DataSize,1,1),    "Out");
 
-	Object_T **KArgs = AllocateKerArgs(2+(ReLUOper==KOP_RELUN_VECTOR));
+	Object_T **KArgs = AllocateKerArgs(2);
 	int Ka=0;
 	KArgs[Ka++] = KerArgP("In",     KerArgSpace(2,D0,T0), OBJ_IN_DB|InL3,   Width, Height, UsedWidth, UsedHeight, PadInp,PadInp, In_DataSize,  OverlapP, 0, TileCons, "In");
-	if (ReLUOper==KOP_RELUN_VECTOR)
-	KArgs[Ka++] = KerArg ("ReLUN",  KerArgSpace(1,D0),    O_IN|O_DB|O_CONST,    1,      1,                       		     1,                   0, 0,        0, "ReLUN");
 	KArgs[Ka++] = KerArg ("Out",    KerArgSpace(2,D0,T0), OBJ_OUT_DB|OutL3,    Wo,     Ho,                   		     Out_DataSize,        0, 0,        0, "Out");
 
         Kernel_T *Kernel = UserKernel(Name,
@@ -3523,7 +3370,7 @@ int CNN_PoolReLU(
 					NeedFpx?Imm(Fpx):AT_IGNORE_ARG_BINDING,			/* Pooling Fx */
 					NeedSpx?Imm(Spx):AT_IGNORE_ARG_BINDING,			/* Pooling Stridex */
 					Imm((TileOrientation==TILE_HOR)?1:0),			/* Pooling Orientation */
-					Imm(EncodePoolOperation(PoolOper, ReLUOper)),		/* Pooling operation with optional ReLU */
+					Imm(CNN_EncodePoolOperation(PoolOper, ReLUOper)),	/* Pooling operation with optional ReLU */
 					NeedDpx?Imm(Dpx):AT_IGNORE_ARG_BINDING,			/* Pooling Dx */
 					NeedFpy?Imm(Fpy):AT_IGNORE_ARG_BINDING,			/* Pooling Fy */
 					NeedSpy?Imm(Spy):AT_IGNORE_ARG_BINDING,			/* Pooling Stridey */
@@ -3555,9 +3402,7 @@ int CNN_PoolReLU(
 					Imm(OutLB),						/* Activation lower bound, clip or relu */
 					(ReLUOper==KOP_HSWISH||ReLUOper==KOP_HSIGMOID)?
 					Imm(Out_Q):						/* Use UB to pass Norm */
-					((ReLUOper==KOP_RELUN_VECTOR)?
-					K_Arg("ReLUN", KER_ARG_TILE):				/* ReLUN input tile */
-					Imm(OutUB))						/* Activation upper bound, clip or relu */
+					Imm(OutUB)						/* Activation upper bound, clip or relu */
 				)
 			)
                      ),
@@ -3568,7 +3413,6 @@ int CNN_PoolReLU(
 		AddKernelInfos(Name, AT_KERINFO_BANDWIDTH, LayerBandwidth, 0);
 
 		AddKernelArgDim(Name, "In", 4, InFeat, Height, Width, In_DataSize);
-		if (ReLUOper==KOP_RELUN_VECTOR) AddKernelArgDim(Name, "ReLUN", 2, OutFeat, 1);
 		AddKernelArgDim(Name, "Out", 4, OutFeat, Ho, Wo, Out_DataSize);
 
 		AT_PrepareForTest(Name,
@@ -3799,7 +3643,7 @@ int CNN_GlobalPool(
 		OutDim:		Number of outputs
 
 		LinearOper	Should always be KOP_LINEAR
-		ReLUOper	Optional activation function: KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+		ReLUOper	Optional activation function: KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
 
 		Signature:	Name(In, Filter, Bias, Out)
 				Name(In, Filter, Bias, ReLUN, Out)
@@ -3862,7 +3706,7 @@ int CNN_LinearReLU(
 	if (LinearKerName==0) GenTilingError("CNN_LinearReLU Kernel: %s, Can't find a matching %s basic kernel", Name, ReLUOper?"with linear rectification":"");
 
 	/* Set output Lower and Upper bounds */
-	if (SetUpperLowerBounds(ReLUOper, Out_DataSize, (ReLUOper==KOP_RELU || ReLUOper==KOP_RELUN || ReLUOper==KOP_RELUN_VECTOR), &OutLB, &OutUB, ReluN, Out_Q))
+	if (CNN_SetUpperLowerBounds(ReLUOper, Out_DataSize, (ReLUOper==KOP_RELU || ReLUOper==KOP_RELUN), &OutLB, &OutUB, ReluN, Out_Q))
 		GenTilingError("CNN_LinearReLU %s, cannot represent saturation value with given out fixed point format %d", Name, Out_Q);
 
 	LayerOp += InDim*OutDim;
@@ -3878,24 +3722,20 @@ int CNN_LinearReLU(
 	}
 	Kernel_T *Kernel;
 
-	CKernel_Arg_T **KCArgs = AllocateCArgs(4+(ReLUOper==KOP_RELUN_VECTOR));
+	CKernel_Arg_T **KCArgs = AllocateCArgs(4);
 	int Ca=0;
 	KCArgs[Ca++] = TCArg(CNN_ArgDataType(In_DataSize,1,1),     "In");
 	KCArgs[Ca++] = TCArg(CNN_ArgDataType(Filter_DataSize,1,1), "Filter");
 	KCArgs[Ca++] = TCArg(CNN_ArgDataType(Bias_DataSize,1,1),   "Bias");
-	if (ReLUOper==KOP_RELUN_VECTOR)
-	KCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1),               "ReLUN");
        	KCArgs[Ca++] = TCArg(CNN_ArgDataType(Out_DataSize,1,1),    "Out");
 
 	AT_SetKernelCtrl(AT_KERNEL_NOSOLUTION_ERROR, AT_OPT_OFF);
 
-	Object_T **KArgs = AllocateKerArgs(4+(ReLUOper==KOP_RELUN_VECTOR));
+	Object_T **KArgs = AllocateKerArgs(4);
 	int Ka=0;
 	KArgs[Ka++] = KerArg("In",      KerArgSpace(1,T0), O_IN|O_BUFF|O_NTILED|InL3,  1, 1,      InDim*In_DataSize,     0, 0, 0, "In");
 	KArgs[Ka++] = KerArg("Filter",  KerArgSpace(1,D0), OBJ_IN_DB|O_CONST|FilterL3, 1, 1,      InDim*Filter_DataSize, 0, 0, 0, "Filter");
 	KArgs[Ka++] = KerArg("Bias",    KerArgSpace(1,D0), OBJ_IN_DB|O_CONST|BiasL3,   1, 1,      Bias_DataSize,         0, 0, 0, "Bias");
-	if (ReLUOper==KOP_RELUN_VECTOR)
-	KArgs[Ka++] = KerArg("ReLUN",   KerArgSpace(1,D0), OBJ_IN_DB|O_CONST,          1, 1,      1,                     0, 0, 0, "ReLUN");
 	KArgs[Ka++] = KerArg("Out",     KerArgSpace(1,D0), OBJ_OUT_DB|OutL3,           1, 1,      Out_DataSize,          0, 0, 0, "Out");
 
         Kernel = UserKernel(Name,
@@ -3917,9 +3757,7 @@ int CNN_LinearReLU(
 					Imm(OutLB),						/* Conv out lower bound, clip or relu */
 					(ReLUOper==KOP_HSWISH||ReLUOper==KOP_HSIGMOID)?
 					Imm(Out_Q):						/* Output format */
-					((ReLUOper==KOP_RELUN_VECTOR)?
-					K_Arg("ReLUN", KER_ARG_TILE):				/* ReLUN input tile */
-					Imm(OutUB))						/* Activation upper bound, clip or relu */
+					Imm(OutUB)						/* Activation upper bound, clip or relu */
 				)
 			)
 		),
@@ -3938,13 +3776,11 @@ int CNN_LinearReLU(
 		if (LinearKerName==0 || ReductKerName==0) GenTilingError("CNN_LinearReLU Kernel: %s, Can't find a matching %s basic kernel", Name, ReLUOper?"with linear rectification":"");
 
 		/* First try with Input as a buffer in */
-		Object_T **KArgs = AllocateKerArgs(5+(ReLUOper==KOP_RELUN_VECTOR));
+		Object_T **KArgs = AllocateKerArgs(5);
 		int Ka=0;
 		KArgs[Ka++] = KerArg("In",      KerArgSpace(1,T0), OBJ_BUFFER_IN|InL3,            1, InDim,  In_DataSize,     0, 0, 0, "In");
 		KArgs[Ka++] = KerArg("Filter",  KerArgSpace(2,D0,T0), OBJ_IN_DB|O_CONST|FilterL3, 1, InDim,  Filter_DataSize, 0, 0, 0, "Filter");
 		KArgs[Ka++] = KerArg("Bias",    KerArgSpace(1,D0), OBJ_BUFFER_IN|O_CONST|BiasL3,  1, 1,      Bias_DataSize,   0, 0, 0, "Bias");
-		if (ReLUOper==KOP_RELUN_VECTOR)
-		KArgs[Ka++] = KerArg("ReLUN",   KerArgSpace(1,D0), OBJ_IN_DB|O_CONST,             1, 1,      1,               0, 0, 0, "ReLUN");
 		KArgs[Ka++] = KerArg("Out",     KerArgSpace(1,D0), OBJ_BUFFER_OUT|OutL3,          1, 1,      Out_DataSize,    0, 0, 0, "Out");
 		KArgs[Ka++] = KerArg("Reduct",  KerArgSpace(1,T0), O_BUFF|O_NTILED,               8, 1,      4,               0, 0, 0, 0);
 
@@ -3953,16 +3789,16 @@ int CNN_LinearReLU(
 	                TileOrientation,
                 	KCArgs,
 	                Calls(2,
-				Call(LinearKerName, LOC_INNER_LOOP,
+				Call(LinearKerName, LOC_LOOP,
 					Bindings(5,
 						K_Arg("In", KER_ARG_TILE),				/* Input tile */
 						K_Arg("Filter", KER_ARG_TILE),				/* Filter tile */
 						K_Arg("Reduct", KER_ARG_TILE),				/* Output tile */
-						K_Arg("In", KER_ARG_TILE_H),				/* Input tile size */
+						K_Arg("Filter", KER_ARG_TILE_H),			/* Input tile size */
 						Ker_IteratorIndex(T0)					/* Which tile index */
 					)
 				),
-				Call(ReductKerName, LOC_INNER_LOOP_EPILOG,
+				Call(ReductKerName, LOC_LOOP_EPILOG,
 					Bindings(8,
 						K_Arg("Reduct", KER_ARG_TILE),				/* Input tile */
 						K_Arg("Bias", KER_ARG_TILE),				/* Filter tile */
@@ -3970,13 +3806,11 @@ int CNN_LinearReLU(
 						Imm(OutLB),						/* LB */
 						(ReLUOper==KOP_HSWISH||ReLUOper==KOP_HSIGMOID)?
 						Imm(Out_Q):						/* Output fixed point format */
-						((ReLUOper==KOP_RELUN_VECTOR)?
-						K_Arg("ReLUN", KER_ARG_TILE):				/* ReLUN input tile */
-						Imm(OutUB)),						/* Activation upper bound, clip or relu */
+						Imm(OutUB),						/* Activation upper bound, clip or relu */
 						Imm(Filter_Q+In_Q-Out_Q),				/* Normalization factor to be used for sum of product */
 						Imm(Filter_Q+In_Q-Bias_Q),				/* Normalization factor to be used to adjust bias */
 						Imm(Out_Q),						/* Output fixed point format */
-						Imm(EncodeActivation(ReLUOper))				/* Oper, unused here */
+						Imm(CNN_EncodeActivation(ReLUOper))			/* Oper, unused here */
 					)
 				)
 			),
@@ -3986,13 +3820,11 @@ int CNN_LinearReLU(
 		AT_SetKernelCtrl(AT_KERNEL_NOSOLUTION_ERROR, AT_OPT_ON);
 		if (Log && (Kernel==0)) printf("Feature parallel with in buffered failed, switching to non buffered in form\n");
 		if (Kernel==0) {
-			Object_T **KArgs = AllocateKerArgs(5+(ReLUOper==KOP_RELUN_VECTOR));
+			Object_T **KArgs = AllocateKerArgs(5);
 			int Ka=0;
 			KArgs[Ka++] = KerArg("In",      KerArgSpace(1,T0), OBJ_IN_DB|InL3,                1, InDim,  In_DataSize,     0, 0, 0, "In");
 			KArgs[Ka++] = KerArg("Filter",  KerArgSpace(2,D0,T0), OBJ_IN_DB|O_CONST|FilterL3, 1, InDim,  Filter_DataSize, 0, 0, 0, "Filter");
 			KArgs[Ka++] = KerArg("Bias",    KerArgSpace(1,D0), OBJ_BUFFER_IN|O_CONST|BiasL3,  1, 1,      Bias_DataSize,   0, 0, 0, "Bias");
-			if (ReLUOper==KOP_RELUN_VECTOR)
-			KArgs[Ka++] = KerArg("ReLUN",   KerArgSpace(1,D0), OBJ_IN_DB|O_CONST,             1, 1,      1,               0, 0, 0, "ReLUN");
 			KArgs[Ka++] = KerArg("Out",     KerArgSpace(1,D0), OBJ_BUFFER_OUT|OutL3,          1, 1,      Out_DataSize,    0, 0, 0, "Out");
 			KArgs[Ka++] = KerArg("Reduct",  KerArgSpace(1,T0), O_BUFF|O_NTILED,               8, 1,      4,               0, 0, 0, 0);
 
@@ -4001,16 +3833,16 @@ int CNN_LinearReLU(
 		                TileOrientation,
 	                	KCArgs,
 		                Calls(2,
-					Call(LinearKerName, LOC_INNER_LOOP,
+					Call(LinearKerName, LOC_LOOP,
 						Bindings(5,
 							K_Arg("In", KER_ARG_TILE),				/* Input tile */
 							K_Arg("Filter", KER_ARG_TILE),				/* Filter tile */
 							K_Arg("Reduct", KER_ARG_TILE),				/* Output tile */
-							K_Arg("In", KER_ARG_TILE_H),				/* Input tile size */
+							K_Arg("Filter", KER_ARG_TILE_H),			/* Input tile size */
 							Ker_IteratorIndex(T0)					/* Which tile index */
 						)
 					),
-					Call(ReductKerName, LOC_INNER_LOOP_EPILOG,
+					Call(ReductKerName, LOC_LOOP_EPILOG,
 						Bindings(8,
 							K_Arg("Reduct", KER_ARG_TILE),				/* Input tile */
 							K_Arg("Bias", KER_ARG_TILE),				/* Filter tile */
@@ -4018,12 +3850,10 @@ int CNN_LinearReLU(
 							Imm(OutLB),						/* LB */
 							(ReLUOper==KOP_HSWISH||ReLUOper==KOP_HSIGMOID)?
 							Imm(Out_Q):						/* Output fixed point format */
-							((ReLUOper==KOP_RELUN_VECTOR)?
-							K_Arg("ReLUN", KER_ARG_TILE):				/* ReLUN input tile */
-							Imm(OutUB)),						/* Activation upper bound, clip or relu */
+							Imm(OutUB),						/* Activation upper bound, clip or relu */
 							Imm(Filter_Q+In_Q-Out_Q),				/* Normalization factor to be used for sum of product */
 							Imm(Filter_Q+In_Q-Bias_Q),				/* Normalization factor to be used to adjust bias */
-							Imm(EncodeActivation(ReLUOper))				/* Oper, unused here */
+							Imm(CNN_EncodeActivation(ReLUOper))			/* Oper, unused here */
 						)
 					)
 				),
@@ -4039,7 +3869,6 @@ int CNN_LinearReLU(
 		AddKernelArgDim(Name, "In", 2, InDim, In_DataSize);
 		AddKernelArgDim(Name, "Filter", 3, OutDim, InDim, Filter_DataSize);
 		AddKernelArgDim(Name, "Bias", 2, OutDim, Bias_DataSize);
-		if (ReLUOper==KOP_RELUN_VECTOR) AddKernelArgDim(Name, "ReLUN", 2, OutDim, 1);
 		AddKernelArgDim(Name, "Out", 2, OutDim, Out_DataSize);
 
 		AT_PrepareForTest(Name,
@@ -4100,7 +3929,7 @@ int CNN_SoftMax(
 	int Out_InL3,
 
 	int Dim,
-        KernelOper_T SoftMaxOper
+    KernelOper_T SoftMaxOper
 	)
 
 {
@@ -4129,7 +3958,7 @@ int CNN_SoftMax(
                       TCArg(CNN_ArgDataType(Out_DataSize,1,1), "Out")
                      ),
                 Calls(1,
-			Call(SoftMaxKerName, LOC_INNER_LOOP,
+			Call(SoftMaxKerName, LOC_LOOP,
 				Bindings(4,
 					K_Arg("In", KER_ARG_TILE),	/* Input tile */
 					K_Arg("In", KER_ARG_TILE_H),	/* Number of inputs */
@@ -4189,6 +4018,7 @@ int CNN_SoftMax(
 		Height:		Height of a given feature
 
 		AddMatOper:	Should always be KOP_MATADD
+		ReLUOper	Optional activation function: KOP_RELU or KOP_NONE for no activation
 
 		Signature:	Name(In1, In2, Out)
 
@@ -4196,6 +4026,8 @@ int CNN_SoftMax(
 	
 *********************************************************************************************************************************************************************/
 
+
+//This is just a wrapper for the old generator
 int CNN_MatAdd(
 	char *Name,
 
@@ -4218,7 +4050,42 @@ int CNN_MatAdd(
 	int Width,
 	int Height,
 
-        KernelOper_T AddMatOper
+	KernelOper_T AddMatOper){
+
+	KernelOper_T ReLUOper = KOP_NONE;
+	
+	return CNN_MatAddRelu(Name, Ctrl,
+ 		In1_DataSize, In2_DataSize, Out_DataSize,
+ 		In1_Q,        In2_Q,        Out_Q,
+ 		In1_InL3,     In2_InL3,     Out_InL3,
+ 		InFeat, OutFeat, Width, Height,
+ 		AddMatOper,ReLUOper);
+}
+
+int CNN_MatAddRelu(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int In1_DataSize,
+	int In2_DataSize,
+	int Out_DataSize,
+
+	int In1_Q,
+	int In2_Q,
+	int Out_Q,
+
+	int In1_InL3,
+	int In2_InL3,
+	int Out_InL3,
+
+	int InFeat,
+	int OutFeat,
+	int Width,
+	int Height,
+
+	KernelOper_T AddMatOper,
+	KernelOper_T ReLUOper
 )
 
 {
@@ -4234,13 +4101,14 @@ int CNN_MatAdd(
 	unsigned long long int LayerOp = 0;
 	unsigned long long int LayerBandwidth = 0;
 	int OutLB, OutUB;
-	KernelOper_T KernelOper = CNN_CompositeKernel(AddMatOper, KOP_NONE, KOP_NONE);
+	KernelOper_T KernelOper = CNN_CompositeKernel(AddMatOper, ReLUOper, KOP_NONE);
 
-	char *MatAddKerName = CNN_FindMatchingKernel(AddMatOper, KOP_NONE, ParFeat, In1_DataSize, In2_DataSize, 0, 0, Out_DataSize, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
+	char *MatAddKerName = CNN_FindMatchingKernel(AddMatOper, ReLUOper, ParFeat, In1_DataSize, In2_DataSize, 0, 0, Out_DataSize, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
 
 	if (MatAddKerName==0) GenTilingError("CNN_MatAdd Kernel: %s, Can't find a matching basic kernel", Name);
+	
 
-	SetUpperLowerBounds(KOP_NONE, Out_DataSize, 0, &OutLB, &OutUB, 0, Out_Q);
+	CNN_SetUpperLowerBounds(KOP_NONE, Out_DataSize, 0, &OutLB, &OutUB, 0, Out_Q);
 
 	LayerOp += OutFeat * Width * Height;
 	LayerBandwidth += Width*Height*In1_DataSize*InFeat;
@@ -4256,7 +4124,7 @@ int CNN_MatAdd(
                       TCArg(CNN_ArgDataType(Out_DataSize,1,1), "Out")
                      ),
                 Calls(1,
-			Call(MatAddKerName, LOC_INNER_LOOP,
+			Call(MatAddKerName, LOC_LOOP,
 				Bindings(11,
 					K_Arg("In1", KER_ARG_TILE),			/* First input tile */
 					K_Arg("In2", KER_ARG_TILE),			/* Second input tile */
@@ -4378,7 +4246,7 @@ int CNN_MatAddDynAdjust(
 	if ((In2_Q<0) || (In2_Q>(In2_DataSize*8 - 1))) GenTilingError("CNN_MatAddDynAdjust Kernel: %s, Incorrect quantization value for In2 %d", Name, In2_Q);
 	if ((Out_Q<0) || (Out_Q>(Out_DataSize*8 - 1))) GenTilingError("CNN_MatAddDynAdjust Kernel: %s, Incorrect quantization value for Out %d", Name, Out_Q);
 
-	SetUpperLowerBounds(KOP_NONE, Out_DataSize, 0, &OutLB, &OutUB, 0, Out_Q);
+	CNN_SetUpperLowerBounds(KOP_NONE, Out_DataSize, 0, &OutLB, &OutUB, 0, Out_Q);
 
 	LayerOp += OutFeat * Width * Height;
 	LayerBandwidth += Width*Height*In1_DataSize*InFeat;
@@ -4394,7 +4262,7 @@ int CNN_MatAddDynAdjust(
                       TCArg(CNN_ArgDataType(Out_DataSize,1,1), "Out")
                      ),
                 Calls(1,
-			Call(MatAddKerName, LOC_INNER_LOOP,
+			Call(MatAddKerName, LOC_LOOP,
 				Bindings(11,
 					K_Arg("In1", KER_ARG_TILE),			/* First input tile */
 					K_Arg("In2", KER_ARG_TILE),			/* Second input tile */
@@ -4466,7 +4334,7 @@ int CNN_MatAddDynAdjust(
 		Height:		Height of a given feature
 
 		ScaleOper:	Should always be KOP_MATSCALE_VECTOR, KOP_MATSCALE_SCALAR or KOP_MATSCALE_VECTOR_SCALAR
-		ReLUOper:	Optional activation, should be KOP_NONE, KOP_RELU, KOP_RELUN or KOP_RELUN_VECTOR
+		ReLUOper:	Optional activation, should be KOP_NONE, KOP_RELU, KOP_RELUN
 
 		Signature:	Name(In, Scalar, Out)
 				Name(In, Scalar, Out, ReLUN)
@@ -4541,7 +4409,7 @@ int CNN_MatScale(
 	char *MatScaleKerName = CNN_FindMatchingKernel(ScaleOper, ReLUOper, ParFeat, In_DataSize, Vector_DataSize, Scalar_DataSize, 0, Out_DataSize, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
 
 	if (MatScaleKerName==0) GenTilingError("CNN_MatScale Kernel: %s, Can't find a matching basic kernel", Name);
-	SetUpperLowerBounds(ReLUOper, Out_DataSize, (ReLUOper!=KOP_NONE), &OutLB, &OutUB, 0, Out_Q);
+	CNN_SetUpperLowerBounds(ReLUOper, Out_DataSize, (ReLUOper!=KOP_NONE), &OutLB, &OutUB, 0, Out_Q);
 
 	LayerOp += OutFeat * Width * Height;
 
@@ -4557,47 +4425,35 @@ int CNN_MatScale(
 
 	switch (ScaleOper) {
 		case KOP_MATSCALE_VECTOR:
-			KerCArgs = AllocateCArgs(3+(ReLUOper==KOP_RELUN_VECTOR));
+			KerCArgs = AllocateCArgs(3);
                 	KerCArgs[Ca++] = TCArg(CNN_ArgDataType(In_DataSize,1,1),     "In");
 			KerCArgs[Ca++] = TCArg(CNN_ArgDataType(Vector_DataSize,1,1), "Vector");
-			if (ReLUOper==KOP_RELUN_VECTOR)
-			KerCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1),               "ReLUN");
                       	KerCArgs[Ca++] = TCArg(CNN_ArgDataType(Out_DataSize,1,1),    "Out");
-			KArgs = AllocateKerArgs(3+(ReLUOper==KOP_RELUN_VECTOR));
+			KArgs = AllocateKerArgs(3);
                         KArgs[Ka++] = KerArg("In",     KerArgSpace(2,D0,T0), O_IN|O_DB|InL3,             1, 1, Width*Height*In_DataSize,  0, 0, 0, "In");
                         KArgs[Ka++] = KerArg("Vector", KerArgSpace(1,D0), O_IN|O_DB|VectorL3,            1, 1, Vector_DataSize,           0, 0, 0, "Vector");
-			if (ReLUOper==KOP_RELUN_VECTOR)
-			KArgs[Ka++] = KerArg("ReLUN",  KerArgSpace(1,D0), OBJ_IN_DB|O_CONST,             1, 1, 1,                         0, 0, 0, "ReLUN");
                         KArgs[Ka++] = KerArg("Out",    KerArgSpace(2,D0,T0), O_OUT|O_DB|VectorL3,        1, 1, Width*Height*Out_DataSize, 0, 0, 0, "Out");
 			break;
 		case KOP_MATSCALE_SCALAR:
-			KerCArgs = AllocateCArgs(3+(ReLUOper==KOP_RELUN_VECTOR));
+			KerCArgs = AllocateCArgs(3);
                 	KerCArgs[Ca++] = TCArg(CNN_ArgDataType(In_DataSize,1,1),     "In");
 			KerCArgs[Ca++] = TCArg(CNN_ArgDataType(Scalar_DataSize,1,1), "Scalar");
-			if (ReLUOper==KOP_RELUN_VECTOR)
-			KerCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1),               "ReLUN");
                       	KerCArgs[Ca++] = TCArg(CNN_ArgDataType(Out_DataSize,1,1),    "Out");
-			KArgs = AllocateKerArgs(3+(ReLUOper==KOP_RELUN_VECTOR));
+			KArgs = AllocateKerArgs(3);
                         KArgs[Ka++] = KerArg("In",     KerArgSpace(2,D0,T0), O_IN|O_DB|InL3,             1, 1, Width*Height*In_DataSize,  0, 0, 0, "In");
                         KArgs[Ka++] = KerArg("Scalar", KerArgSpace(1,T0), O_IN|O_BUFF|O_NTILED|VectorL3, 1, 1, Scalar_DataSize,           0, 0, 0, "Scalar");
-			if (ReLUOper==KOP_RELUN_VECTOR)
-			KArgs[Ka++] = KerArg("ReLUN",  KerArgSpace(1,D0), OBJ_IN_DB|O_CONST,             1, 1, 1,                         0, 0, 0, "ReLUN");
                         KArgs[Ka++] = KerArg("Out",    KerArgSpace(2,D0,T0), O_OUT|O_DB|VectorL3,        1, 1, Width*Height*Out_DataSize, 0, 0, 0, "Out");
 			break;
 		case KOP_MATSCALE_VECTOR_SCALAR:
-			KerCArgs = AllocateCArgs(4+(ReLUOper==KOP_RELUN_VECTOR));
+			KerCArgs = AllocateCArgs(4);
                 	KerCArgs[Ca++] = TCArg(CNN_ArgDataType(In_DataSize,1,1),     "In");
 			KerCArgs[Ca++] = TCArg(CNN_ArgDataType(Vector_DataSize,1,1), "Vector");
 			KerCArgs[Ca++] = TCArg(CNN_ArgDataType(Scalar_DataSize,1,1), "Scalar");
-			if (ReLUOper==KOP_RELUN_VECTOR)
-			KerCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1),               "ReLUN");
                       	KerCArgs[Ca++] = TCArg(CNN_ArgDataType(Out_DataSize,1,1),    "Out");
-			KArgs = AllocateKerArgs(4+(ReLUOper==KOP_RELUN_VECTOR));
+			KArgs = AllocateKerArgs(4);
                         KArgs[Ka++] = KerArg("In",     KerArgSpace(2,D0,T0), O_IN|O_DB|InL3,             1, 1, Width*Height*In_DataSize,  0, 0, 0, "In");
                         KArgs[Ka++] = KerArg("Vector", KerArgSpace(1,D0), O_IN|O_DB|VectorL3,            1, 1, Vector_DataSize,           0, 0, 0, "Vector");
                         KArgs[Ka++] = KerArg("Scalar", KerArgSpace(1,T0), O_IN|O_BUFF|O_NTILED|VectorL3, 1, 1, Scalar_DataSize,           0, 0, 0, "Scalar");
-			if (ReLUOper==KOP_RELUN_VECTOR)
-			KArgs[Ka++] = KerArg("ReLUN",  KerArgSpace(1,D0), OBJ_IN_DB|O_CONST,             1, 1, 1,                         0, 0, 0, "ReLUN");
                         KArgs[Ka++] = KerArg("Out",    KerArgSpace(2,D0,T0), O_OUT|O_DB|VectorL3,        1, 1, Width*Height*Out_DataSize, 0, 0, 0, "Out");
 			break;
 	}
@@ -4608,7 +4464,7 @@ int CNN_MatScale(
                 TileOrientation,
 		KerCArgs,
                 Calls(1,
-			Call(MatScaleKerName, LOC_INNER_LOOP,
+			Call(MatScaleKerName, LOC_LOOP,
 				Bindings(11,
 					K_Arg("In", KER_ARG_TILE),			/* First input tile */
 					(ScaleOper==KOP_MATSCALE_VECTOR||ScaleOper==KOP_MATSCALE_VECTOR_SCALAR)?
@@ -4619,9 +4475,7 @@ int CNN_MatScale(
 					Imm(Height),					/* Input tile height */
 					K_ArgPar("In", KER_ARG_PARTILE_SIZE, D0),	/* Number of Matrices involved */
 					Imm(OutLB),					/* Out lower bound */
-					((ReLUOper==KOP_RELUN_VECTOR)?
-					K_Arg("ReLUN", KER_ARG_TILE):			/* ReLUN input tile */
-					Imm(OutUB)),					/* Activation upper bound, clip or relu */
+					Imm(OutUB),					/* Activation upper bound, clip or relu */
 					(ScaleOper==KOP_MATSCALE_SCALAR||ScaleOper==KOP_MATSCALE_VECTOR_SCALAR)?
 					K_Arg("Scalar", KER_ARG_TILE):			/* Scalar Scale input tile */
 					AT_IGNORE_ARG_BINDING,				/* Scale Scalar, not relevant here */
@@ -4640,28 +4494,22 @@ int CNN_MatScale(
 		Ka=0;
 		switch (ScaleOper) {
 			case KOP_MATSCALE_VECTOR:
-				KArgs = AllocateKerArgs(3+(ReLUOper==KOP_RELUN_VECTOR));
+				KArgs = AllocateKerArgs(3);
                         	KArgs[Ka++] = KerArg("In",     KerArgSpace(2,D0,T0), O_IN|O_DB|InL3,             Width, Height, In_DataSize,     0, 0, 0, "In");
                         	KArgs[Ka++] = KerArg("Vector", KerArgSpace(1,D0), O_IN|O_DB|VectorL3,                1,      1, Vector_DataSize, 0, 0, 0, "Vector");
-				if (ReLUOper==KOP_RELUN_VECTOR)
-				KArgs[Ka++] = KerArg("ReLUN",  KerArgSpace(1,D0), OBJ_IN_DB|O_CONST,             1, 1, 1,                        0, 0, 0, "ReLUN");
                         	KArgs[Ka++] = KerArg("Out",    KerArgSpace(2,D0,T0), O_OUT|O_DB|VectorL3,        Width, Height, Out_DataSize,    0, 0, 0, "Out");
 				break;
 			case KOP_MATSCALE_SCALAR:
-				KArgs = AllocateKerArgs(3+(ReLUOper==KOP_RELUN_VECTOR));
+				KArgs = AllocateKerArgs(3);
                         	KArgs[Ka++] = KerArg("In",     KerArgSpace(2,D0,T0), O_IN|O_DB|InL3,             Width, Height, In_DataSize,     0, 0, 0, "In");
                         	KArgs[Ka++] = KerArg("Scalar", KerArgSpace(1,T0), O_IN|O_BUFF|O_NTILED|VectorL3,     1,      1, Scalar_DataSize, 0, 0, 0, "Scalar");
-				if (ReLUOper==KOP_RELUN_VECTOR)
-				KArgs[Ka++] = KerArg("ReLUN",  KerArgSpace(1,D0), OBJ_IN_DB|O_CONST,             1, 1, 1,                        0, 0, 0, "ReLUN");
                         	KArgs[Ka++] = KerArg("Out",    KerArgSpace(2,D0,T0), O_OUT|O_DB|VectorL3,        Width, Height, Out_DataSize,    0, 0, 0, "Out");
 				break;
 			case KOP_MATSCALE_VECTOR_SCALAR:
-				KArgs = AllocateKerArgs(4+(ReLUOper==KOP_RELUN_VECTOR));
+				KArgs = AllocateKerArgs(4);
                         	KArgs[Ka++] = KerArg("In",     KerArgSpace(2,D0,T0), O_IN|O_DB|InL3,             Width, Height, In_DataSize,     0, 0, 0, "In");
                         	KArgs[Ka++] = KerArg("Vector", KerArgSpace(1,D0), O_IN|O_DB|VectorL3,                1,      1, Vector_DataSize, 0, 0, 0, "Vector");
                         	KArgs[Ka++] = KerArg("Scalar", KerArgSpace(1,T0), O_IN|O_BUFF|O_NTILED|VectorL3,     1,      1, Scalar_DataSize, 0, 0, 0, "Scalar");
-				if (ReLUOper==KOP_RELUN_VECTOR)
-				KArgs[Ka++] = KerArg("ReLUN",  KerArgSpace(1,D0), OBJ_IN_DB|O_CONST,             1, 1, 1,                        0, 0, 0, "ReLUN");
                         	KArgs[Ka++] = KerArg("Out",    KerArgSpace(2,D0,T0), O_OUT|O_DB|VectorL3,        Width, Height, Out_DataSize,    0, 0, 0, "Out");
 				break;
 		}
@@ -4670,7 +4518,7 @@ int CNN_MatScale(
 	                TileOrientation,
 			KerCArgs,
 	                Calls(1,
-				Call(MatScaleKerName, LOC_INNER_LOOP,
+				Call(MatScaleKerName, LOC_LOOP,
 					Bindings(11,
 						K_Arg("In", KER_ARG_TILE),			/* First input tile */
 						(ScaleOper==KOP_MATSCALE_VECTOR||ScaleOper==KOP_MATSCALE_VECTOR_SCALAR)?
@@ -4681,9 +4529,7 @@ int CNN_MatScale(
 						K_Arg("In", KER_ARG_TILE_H),			/* Input tile height */
 						K_ArgPar("In", KER_ARG_PARTILE_SIZE, D0),	/* Number of Matrices involved */
 						Imm(OutLB),					/* Out lower bound */
-						((ReLUOper==KOP_RELUN_VECTOR)?
-						K_Arg("ReLUN", KER_ARG_TILE):			/* ReLUN input tile */
-						Imm(OutUB)),					/* Activation upper bound, clip or relu */
+						Imm(OutUB),					/* Activation upper bound, clip or relu */
 						(ScaleOper==KOP_MATSCALE_SCALAR||ScaleOper==KOP_MATSCALE_VECTOR_SCALAR)?
 						K_Arg("Scalar", KER_ARG_TILE):			/* Scalar Scale input tile */
 						AT_IGNORE_ARG_BINDING,				/* Scalar Scale, not relevant here */
@@ -4704,7 +4550,6 @@ int CNN_MatScale(
 		AddKernelArgDim(Name, "In", 4, InFeat, Height, Width, In_DataSize);
 		if (ScaleOper==KOP_MATSCALE_VECTOR || ScaleOper==KOP_MATSCALE_VECTOR_SCALAR) AddKernelArgDim(Name, "Vector", 2, InFeat, Vector_DataSize);
 		if (ScaleOper==KOP_MATSCALE_SCALAR || ScaleOper==KOP_MATSCALE_VECTOR_SCALAR) AddKernelArgDim(Name, "Scalar", 2, 1, Scalar_DataSize);
-		if (ReLUOper==KOP_RELUN_VECTOR) AddKernelArgDim(Name, "ReLUN", 2, OutFeat, 1);
 		AddKernelArgDim(Name, "Out", 4, OutFeat, Height, Width, Out_DataSize);
 
 		AT_PrepareForTest(Name,
@@ -4761,7 +4606,7 @@ int CNN_MatScale(
 		ReLU_UpperBound	In case ReLUOper!=KOP_NONE Upper bound to be used for activation
 
 		MatMulOper:	Should always be KOP_MATMUL
-		ReLUOper:	Optionnal Activation (KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU)
+		ReLUOper:	Optionnal Activation (KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU)
 
 		Signature:	Name(In2, In1, Bias, Out)
 				Name(In2, In1, Bias, ReLUN, Out)
@@ -4820,16 +4665,15 @@ int CNN_MatMul(
         int LineO = LineM1, ColO = ColM2;
 	int OutLB, OutUB, ReluN = 6;
 	int ConsT0 = Scx;
-	int MultiLineBuff = 0;
-	int Nbuff = MultiLineBuff?4:1;
+	int Nbuff;
 
 	if (Ctrl) {
 		if (Ctrl->ReluN != -1) ReluN = Ctrl->ReluN;
 	}
 	if (!(MatMulOper == KOP_MATMUL)) GenTilingError("CNN_MatMul Kernel: %s, MatMulOper should be KOP_MATMUL", Name);
 
-	if (!(ReLUOper == KOP_NONE || ReLUOper == KOP_RELU || ReLUOper == KOP_RELUN || ReLUOper==KOP_RELUN_VECTOR || ReLUOper == KOP_HSWISH || ReLUOper == KOP_HSIGMOID || ReLUOper == KOP_LEAKYRELU))
-		GenTilingError("CNN_MatMul Kernel: %s, ReLUOper should be KOP_NONE, KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID or KOP_LEAKYRELU", Name);
+	if (!(ReLUOper == KOP_NONE || ReLUOper == KOP_RELU || ReLUOper == KOP_RELUN || ReLUOper == KOP_HSWISH || ReLUOper == KOP_HSIGMOID || ReLUOper == KOP_LEAKYRELU))
+		GenTilingError("CNN_MatMul Kernel: %s, ReLUOper should be KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID or KOP_LEAKYRELU", Name);
 
 	KernelOper_T KernelOper = CNN_CompositeKernel(MatMulOper, ReLUOper, KOP_NONE);
 	if (ColM1 != LineM2) GenTilingError("CNN_MatMul: %s, Incorrect input matrices dimensions for a matrix multiplication: [%d x %d]*[%d x %d] %s", Name, LineM1, ColM1, LineM2, ColM2);
@@ -4842,6 +4686,8 @@ int CNN_MatMul(
 
 	if (MatMulKerName==0) GenTilingError("CNN_MatMul Kernel: %s, Can't find a matching basic kernel", Name);
 
+	if (In1_DataSize==1 && In2_DataSize==1 && Scx==1 && Scy==1) Nbuff = 4; else Nbuff = 1;
+
 	ColO = ((Width+Scx-1)/Scx) * ((Height+Scy-1)/Scy);
 	LayerOp += ColM1*ColO*LineM1;
 	LayerBandwidth += LineM1*(ColM1*ColM2*(In1_DataSize+In2_DataSize));
@@ -4855,9 +4701,9 @@ int CNN_MatMul(
 	} else if (Out_DataSize==2) {
 		OutLB = -32768; OutUB = 32767;
 	} else GenTilingError("CNN_MatMul Kernel: %s, Unsupported Data Type Size for Output", Name);
-	if (ReLUOper==KOP_RELU || ReLUOper==KOP_RELUN || ReLUOper==KOP_RELUN_VECTOR) {
+	if (ReLUOper==KOP_RELU || ReLUOper==KOP_RELUN) {
 		if (ReLU_LowerBound==0 && ReLU_UpperBound==0) {
-			if (SetUpperLowerBounds(ReLUOper, Out_DataSize, 1, &OutLB, &OutUB, ReluN, Out_Q))
+			if (CNN_SetUpperLowerBounds(ReLUOper, Out_DataSize, 1, &OutLB, &OutUB, ReluN, Out_Q))
 				GenTilingError("CNN_MatMul %s, cannot represent saturation value with given out fixed point format %d", Name, Out_Q);
 		} else {
 			if (ReLU_LowerBound) OutLB = ReLU_LowerBound; else OutLB = 0;
@@ -4878,15 +4724,14 @@ int CNN_MatMul(
 	Kernel_T *Kernel = UserKernel(Name,
 		KernelIterSpace(2, IterTiledSpace(T1), IterTiledSpace(T0)),
                 TILE_HOR,
-                CArgs(5,
+                CArgs(4,
                       TCArg(CNN_ArgDataType(In2_DataSize,1,1),  "In2"),
                       TCArg(CNN_ArgDataType(In1_DataSize,1,1),  "In1"),
                       TCArg(CNN_ArgDataType(Bias_DataSize,1,1), "Bias"),
-		      (ReLUOper==KOP_RELUN_VECTOR)?TCArg(CNN_ArgDataType(1,1,1), "ReLUN"):AT_NO_C_ARG,
                       TCArg(CNN_ArgDataType(Out_DataSize,1,1),  "Out")
                 ),
 		Calls(1,
-			Call(MatMulKerName, LOC_INNER_LOOP,
+			Call(MatMulKerName, LOC_LOOP,
 				Bindings(21,
 					K_Arg("In1",  KER_ARG_TILE), K_Arg("In1",  KER_ARG_TILE_W), K_Arg("In1",  KER_ARG_TILE_H),
 					K_Arg("In2",  KER_ARG_TILE), K_Arg("In2",  KER_ARG_TILE_W),
@@ -4896,9 +4741,7 @@ int CNN_MatMul(
 					Imm(OutLB),
 					(ReLUOper==KOP_HSWISH||ReLUOper==KOP_HSIGMOID)?
 					Imm(Out_Q):						/* Output fixed point format */
-					((ReLUOper==KOP_RELUN_VECTOR)?
-					K_Arg("ReLUN", KER_ARG_TILE):				/* ReLUN input tile */
-					Imm(OutUB)),						/* Activation upper bound, clip or relu */
+					Imm(OutUB),						/* Activation upper bound, clip or relu */
 					Imm(In1_Q+In2_Q-Out_Q),					/* Out fixed point adjust */
 					Imm(In1_Q+In2_Q-Bias_Q),				/* Bias fixed point adjust */
 					AT_IGNORE_ARG_BINDING,					/* MulBias fixed point format, unused */
@@ -4911,22 +4754,18 @@ int CNN_MatMul(
 			)
 		),
 		ColFirst?
-		KerArgs(6,
+		KerArgs(5,
 			KerArg("KerBuff",KerArgSpace(1, T1), O_BUFF|O_NTILED,    Nbuff*ColM1,  1,      In2_DataSize,  0, 0,                                                0, 0),
 			KerArg("In1",    KerArgSpace(1, T0), O_IN|O_DB|O_CONST|In1L3,  ColM1,  LineM1, In1_DataSize,  0, OBJ_CONSTRAINTS_PAD_REM,                          8, "In1"),
 			KerArg("In2",    KerArgSpace(1, T1), O_IN|O_DB|In2L3,          ColM2,  LineM2, In2_DataSize,  0, OBJ_CONSTRAINTS_TILE_VER|OBJ_CONSTRAINTS_PAD_REM, ConsT0, "In2"),
 			KerArg("Bias",   KerArgSpace(1, T0), O_IN|O_DB|O_CONST|BiasL3,     1,  LineO,  Bias_DataSize, 0, OBJ_CONSTRAINTS_PAD_REM,                          0, "Bias"),
-		        (ReLUOper==KOP_RELUN_VECTOR)?
-			KerArg("ReLUN",  KerArgSpace(1, T0), O_IN|O_DB|O_CONST,            1,  LineO,  1,             0, OBJ_CONSTRAINTS_PAD_REM,                          0, "ReLUN"):AT_NO_KER_ARG,
 			KerArg("Out",    KerArgSpace(1, T1), O_OUT|O_DB|OutL3,          ColO,  LineO,  Out_DataSize,  0, OBJ_CONSTRAINTS_TILE_VER|OBJ_CONSTRAINTS_PAD_REM,                          0, "Out")
 		):
-		KerArgs(6,
+		KerArgs(5,
 			KerArg("KerBuff",KerArgSpace(1, T0), O_BUFF|O_NTILED,    Nbuff*ColM1,  1,      In2_DataSize,  0, 0,                                                0, 0),
 			KerArg("In1",    KerArgSpace(1, T1), O_IN|O_DB|O_CONST|In1L3,  ColM1,  LineM1, In1_DataSize,  0, OBJ_CONSTRAINTS_PAD_REM,                          8, "In1"),
 			KerArg("In2",    KerArgSpace(1, T0), O_IN|O_DB|In2L3,          ColM2,  LineM2, In2_DataSize,  0, OBJ_CONSTRAINTS_TILE_VER|OBJ_CONSTRAINTS_PAD_REM, ConsT0, "In2"),
 			KerArg("Bias",   KerArgSpace(1, T1), O_IN|O_DB|O_CONST|BiasL3,     1,  LineO,  Bias_DataSize, 0, OBJ_CONSTRAINTS_PAD_REM,                          0, "Bias"),
-		        (ReLUOper==KOP_RELUN_VECTOR)?
-			KerArg("ReLUN",  KerArgSpace(1, T1), O_IN|O_DB|O_CONST,            1,  LineO,  1,             0, OBJ_CONSTRAINTS_PAD_REM,                          0, "ReLUN"):AT_NO_KER_ARG,
 			KerArg("Out",    KerArgSpace(1, T1), O_OUT|O_DB|OutL3,          ColO,  LineO,  Out_DataSize,  0, OBJ_CONSTRAINTS_PAD_REM,                          0, "Out")
 		)
 	);
@@ -4937,7 +4776,6 @@ int CNN_MatMul(
 		AddKernelArgDim(Name, "In1", 3, LineM1, ColM1, In1_DataSize);
 		AddKernelArgDim(Name, "In2", 4, LineM2, Height, Width, In2_DataSize);
 		AddKernelArgDim(Name, "Bias", 2, LineO, Bias_DataSize);
-		if (ReLUOper==KOP_RELUN_VECTOR) AddKernelArgDim(Name, "ReLUN", 2, LineO, 1);
 		AddKernelArgDim(Name, "Out", 3, LineO, ColO, Out_DataSize);
 
 		AT_PrepareForTest(Name,
@@ -4995,7 +4833,7 @@ int CNN_MatMul(
 		ReLU_UpperBound	In case ReLUOper!=KOP_NONE Upper bound to be used for activation
 
         	MatMulOper	Should always be KOP_MATMUL
-        	ReLUOper	Optionnal Activation (KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU)
+        	ReLUOper	Optionnal Activation (KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU)
 
 		Signature:	Name(In2, In1, Bias, Out)
 				Name(In2, In1, Bias, ReLUN, Out)
@@ -5061,7 +4899,7 @@ int CNN_MatMulSmallM1(
 	}
 	if (!(MatMulOper == KOP_MATMUL_SM1)) GenTilingError("CNN_MatMulSmallM1 Kernel: %s, MatMulOper should be KOP_MATMUL_SM1", Name);
 
-	if (!(ReLUOper == KOP_NONE || ReLUOper == KOP_RELU || ReLUOper == KOP_RELUN || ReLUOper==KOP_RELUN_VECTOR || ReLUOper == KOP_HSWISH || ReLUOper == KOP_HSIGMOID || ReLUOper == KOP_LEAKYRELU))
+	if (!(ReLUOper == KOP_NONE || ReLUOper == KOP_RELU || ReLUOper == KOP_RELUN || ReLUOper == KOP_HSWISH || ReLUOper == KOP_HSIGMOID || ReLUOper == KOP_LEAKYRELU))
 		GenTilingError("CNN_MatMulSmallM1 Kernel: %s, ReLUOper should be KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID or KOP_RELUN", Name);
 
 	KernelOper_T KernelOper = CNN_CompositeKernel(MatMulOper, ReLUOper, KOP_NONE);
@@ -5088,9 +4926,9 @@ int CNN_MatMulSmallM1(
 	} else if (Out_DataSize==2) {
 		OutLB = -32768; OutUB = 32767;
 	} else GenTilingError("CNN_MatMulSmallM1 Kernel: %s, Unsupported Data Type Size for Output", Name);
-	if (ReLUOper==KOP_RELU || ReLUOper==KOP_RELUN || ReLUOper==KOP_RELUN_VECTOR) {
+	if (ReLUOper==KOP_RELU || ReLUOper==KOP_RELUN) {
 		if (ReLU_LowerBound==0 && ReLU_UpperBound==0) {
-			if (SetUpperLowerBounds(ReLUOper, Out_DataSize, 1, &OutLB, &OutUB, ReluN, Out_Q))
+			if (CNN_SetUpperLowerBounds(ReLUOper, Out_DataSize, 1, &OutLB, &OutUB, ReluN, Out_Q))
 				GenTilingError("CNN_MatMulSmallM1 %s, cannot represent saturation value with given out fixed point format %d", Name, Out_Q);
 		} else {
 			if (ReLU_LowerBound) OutLB = ReLU_LowerBound; else OutLB = 0;
@@ -5111,15 +4949,14 @@ int CNN_MatMulSmallM1(
 	Kernel_T *Kernel = UserKernel(Name,
 		KernelIterSpace(1, IterTiledSpace(T0)),
                 TILE_VER,
-                CArgs(5,
+                CArgs(4,
                       TCArg(CNN_ArgDataType(In2_DataSize,1,1),  "In2"),
                       TCArg(CNN_ArgDataType(In1_DataSize,1,1),  "In1"),
                       TCArg(CNN_ArgDataType(Bias_DataSize,1,1), "Bias"),
-		      (ReLUOper==KOP_RELUN_VECTOR)?TCArg(CNN_ArgDataType(1,1,1), "ReLUN"):AT_NO_C_ARG,
                       TCArg(CNN_ArgDataType(Out_DataSize,1,1),  "Out")
                 ),
 		Calls(2,
-			Call(MatTransKerName, LOC_INNER_LOOP,
+			Call(MatTransKerName, LOC_LOOP,
 				Bindings(7,
 					K_Arg("In2", KER_ARG_TILE),			/* Input tile */
 					K_Arg("TransIn2", KER_ARG_TILE),		/* Transposed input tile */
@@ -5130,7 +4967,7 @@ int CNN_MatMulSmallM1(
 					NeedScy?Imm(Scy):AT_IGNORE_ARG_BINDING
 				)
 			),
-			Call(MatMulKerName, LOC_INNER_LOOP,
+			Call(MatMulKerName, LOC_LOOP,
 				Bindings(21,
 					K_Arg("In1",  KER_ARG_TILE), Imm(ColM1), Imm(LineM1),
 					K_Arg("TransIn2",  KER_ARG_TILE), K_Arg("TransIn2",  KER_ARG_TILE_W),
@@ -5140,9 +4977,7 @@ int CNN_MatMulSmallM1(
 					Imm(OutLB),
 					(ReLUOper==KOP_HSWISH||ReLUOper==KOP_HSIGMOID)?
 					Imm(Out_Q):						/* Output fixed point format */
-					((ReLUOper==KOP_RELUN_VECTOR)?
-					K_Arg("ReLUN", KER_ARG_TILE):				/* ReLUN input tile */
-					Imm(OutUB)),						/* Activation upper bound, clip or relu */
+					Imm(OutUB),						/* Activation upper bound, clip or relu */
 					Imm(In1_Q+In2_Q-Out_Q),					/* Out fixed point format */
 					Imm(In1_Q+In2_Q-Bias_Q),				/* Bias fixed point format */
 					AT_IGNORE_ARG_BINDING,					/* MulBias fixed point format, unused */
@@ -5154,13 +4989,12 @@ int CNN_MatMulSmallM1(
 				)
 			)
 		),
-		KerArgs(6,
+		KerArgs(5,
 			KerArg("In1",      KerArgSpace(1, T0), O_IN|O_BUFF|O_NTILED|O_CONST|In1L3,  ColM1, LineM1, In1_DataSize,  0, 0, 0, "In1"),
 			KerArg("In2",      KerArgSpace(1, T0), O_IN|O_DB|In2L3,                     ColM2, LineM2, In2_DataSize,  0, 0, TileCons, "In2"),
 			KerArg("TransIn2", KerArgSpace(1, T0), O_BUFF|O_ONETILE,                     ColO, LineM2, In2_DataSize,  0, 0, 0,  ""),
+			// KerArg("TransIn2", KerArgSpace(1, T0), O_BUFF|O_ONETILE,                    ColM2, LineM2, In2_DataSize,  0, 0, 0,  ""),
 			KerArg("Bias",     KerArgSpace(1, T0), O_BUFF|O_IN|O_NTILED|O_CONST|BiasL3,     1, LineM1, Bias_DataSize, 0, 0, 0, "Bias"),
-		        (ReLUOper==KOP_RELUN_VECTOR)?
-			KerArg("ReLUN",    KerArgSpace(1, T0), O_IN|O_DB|O_CONST,                       1,  LineO,  1,            0, 0, 0, "ReLUN"):AT_NO_KER_ARG,
 			KerArg("Out",      KerArgSpace(1, T0), O_OUT|O_DB|OutL3,                     ColO, LineM1, Out_DataSize,  0, 0, 0, "Out")
 		)
 	);
@@ -5171,7 +5005,6 @@ int CNN_MatMulSmallM1(
 		AddKernelArgDim(Name, "In1", 3, LineM1, ColM1, In1_DataSize);
 		AddKernelArgDim(Name, "In2", 4, LineM2, Height, Width, In2_DataSize);
 		AddKernelArgDim(Name, "Bias", 2, LineO, Bias_DataSize);
-		if (ReLUOper==KOP_RELUN_VECTOR) AddKernelArgDim(Name, "ReLUN", 2, LineO, 1);
 		AddKernelArgDim(Name, "Out", 3, LineO, ColO, Out_DataSize);
 
 		AT_PrepareForTest(Name,
@@ -5231,7 +5064,7 @@ int CNN_MatMulSmallM1(
 		ReLU_UpperBound	In case ReLUOper!=KOP_NONE Upper bound to be used for activation
 
         	MatMulOper	Should always be KOP_MATMUL_SCALE or KOP_MATMUL_SCALE_SCALAR
-        	ReLUOper	Optionnal Activation (KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU)
+        	ReLUOper	Optionnal Activation (KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU)
 
 		Signature:	Name(In2, In1, Bias, MulBias, Out)
 				Name(In2, In1, Bias, MulBias, ReLUN, Out)
@@ -5295,13 +5128,14 @@ int CNN_MatMulScale(
 	int OutLB, OutUB, ReluN = 6;
 	int ConsT0 = Scx;
 	int MulBiasScalar = (MatMulOper==KOP_MATMUL_SCALE_SCALAR);
+	int Nbuff;
 
 	if (Ctrl) {
 		if (Ctrl->ReluN != -1) ReluN = Ctrl->ReluN;
 	}
 	if (!(MatMulOper == KOP_MATMUL_SCALE || MatMulOper == KOP_MATMUL_SCALE_SCALAR))
 		GenTilingError("CNN_MatMulScale Kernel: %s, MatMulOper should be KOP_MATMUL_SCALE or KOP_MATMUL_SCALE_SCALAR", Name);
-	if (!(ReLUOper == KOP_NONE || ReLUOper == KOP_RELU || ReLUOper == KOP_RELUN || ReLUOper==KOP_RELUN_VECTOR || ReLUOper == KOP_HSWISH || ReLUOper == KOP_HSIGMOID || ReLUOper == KOP_LEAKYRELU))
+	if (!(ReLUOper == KOP_NONE || ReLUOper == KOP_RELU || ReLUOper == KOP_RELUN || ReLUOper == KOP_HSWISH || ReLUOper == KOP_HSIGMOID || ReLUOper == KOP_LEAKYRELU))
 		GenTilingError("CNN_MatMulScale Kernel: %s, ReLUOper should be KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID or KOP_LEAKYRELU", Name);
 
 	KernelOper_T KernelOper = CNN_CompositeKernel(MatMulOper, ReLUOper, KOP_NONE);
@@ -5315,6 +5149,8 @@ int CNN_MatMulScale(
 
 	if (MatMulKerName==0) GenTilingError("CNN_MatMulScale Kernel: %s, Can't find a matching basic kernel", Name);
 
+	if (In1_DataSize==1 && In2_DataSize==1 && Scx==1 && Scy==1) Nbuff = 4; else Nbuff = 1;
+
 	ColO = ((Width+Scx-1)/Scx) * ((Height+Scy-1)/Scy);
 	LayerOp += ColM1*ColO*LineM1;
 
@@ -5330,9 +5166,9 @@ int CNN_MatMulScale(
 	} else if (Out_DataSize==2) {
 		OutLB = -32768; OutUB = 32767;
 	} else GenTilingError("CNN_MatMulScale Kernel: %s, Unsupported Data Type Size for Output", Name);
-	if (ReLUOper==KOP_RELU || ReLUOper==KOP_RELUN || ReLUOper==KOP_RELUN_VECTOR) {
+	if (ReLUOper==KOP_RELU || ReLUOper==KOP_RELUN) {
 		if (ReLU_LowerBound==0 && ReLU_UpperBound==0) {
-			if (SetUpperLowerBounds(ReLUOper, Out_DataSize, 1, &OutLB, &OutUB, ReluN, Out_Q))
+			if (CNN_SetUpperLowerBounds(ReLUOper, Out_DataSize, 1, &OutLB, &OutUB, ReluN, Out_Q))
 				GenTilingError("CNN_MatMulScale %s, cannot represent saturation value with given out fixed point format %d", Name, Out_Q);
 		} else {
 			if (ReLU_LowerBound) OutLB = ReLU_LowerBound; else OutLB = 0;
@@ -5352,16 +5188,15 @@ int CNN_MatMulScale(
 	Kernel_T *Kernel = UserKernel(Name,
 		KernelIterSpace(2, IterTiledSpace(T1), IterTiledSpace(T0)),
                 TILE_HOR,
-                CArgs(6,
+                CArgs(5,
                       TCArg(CNN_ArgDataType(In2_DataSize,1,1),  "In2"),
                       TCArg(CNN_ArgDataType(In1_DataSize,1,1),  "In1"),
                       TCArg(CNN_ArgDataType(Bias_DataSize,1,1), "Bias"),
                       TCArg(CNN_ArgDataType(MulBias_DataSize,1,1), "MulBias"),
-		      (ReLUOper==KOP_RELUN_VECTOR)?TCArg(CNN_ArgDataType(1,1,1), "ReLUN"):AT_NO_C_ARG,
                       TCArg(CNN_ArgDataType(Out_DataSize,1,1),  "Out")
                 ),
 		Calls(1,
-			Call(MatMulKerName, LOC_INNER_LOOP,
+			Call(MatMulKerName, LOC_LOOP,
 				Bindings(21,
 					K_Arg("In1",  KER_ARG_TILE), K_Arg("In1",  KER_ARG_TILE_W), K_Arg("In1",  KER_ARG_TILE_H),
 					K_Arg("In2",  KER_ARG_TILE), K_Arg("In2",  KER_ARG_TILE_W),
@@ -5371,9 +5206,7 @@ int CNN_MatMulScale(
 					Imm(OutLB),
 					(ReLUOper==KOP_HSWISH||ReLUOper==KOP_HSIGMOID)?
 					Imm(Out_Q):						/* Output fixed point format */
-					((ReLUOper==KOP_RELUN_VECTOR)?
-					K_Arg("ReLUN", KER_ARG_TILE):				/* ReLUN input tile */
-					Imm(OutUB)),						/* Activation upper bound, clip or relu */
+					Imm(OutUB),						/* Activation upper bound, clip or relu */
 					Imm(In1_Q+In2_Q-Out_Q),					/* Fixed point adjust for output */
 					Imm(In1_Q+In2_Q-Bias_Q),				/* Fixed point adjust for bias */
 					Imm(MulBias_Q),						/* Fixed point format for multiplicative bias */
@@ -5386,28 +5219,24 @@ int CNN_MatMulScale(
 			)
 		),
 		ColFirst?
-		KerArgs(7,
-			KerArg("KerBuff", KerArgSpace(1, T1), O_BUFF|O_NTILED,             ColM1,  1,      In2_DataSize,     0, 0,                                                0, 0),
+		KerArgs(6,
+			KerArg("KerBuff", KerArgSpace(1, T1), O_BUFF|O_NTILED,       Nbuff*ColM1,  1,      In2_DataSize,     0, 0,                                                0, 0),
 			KerArg("In1",     KerArgSpace(1, T0), O_IN|O_DB|O_CONST|In1L3,     ColM1,  LineM1, In1_DataSize,     0, OBJ_CONSTRAINTS_PAD_REM,                          8, "In1"),
 			KerArg("In2",     KerArgSpace(1, T1), O_IN|O_DB|In2L3,             ColM2,  LineM2, In2_DataSize,     0, OBJ_CONSTRAINTS_TILE_VER|OBJ_CONSTRAINTS_PAD_REM, ConsT0, "In2"),
 			KerArg("Bias",    KerArgSpace(1, T0), O_IN|O_DB|O_CONST|BiasL3,        1,  LineO,  Bias_DataSize,    0, OBJ_CONSTRAINTS_PAD_REM,                          0, "Bias"),
 			MulBiasScalar?
 			KerArg("MulBias", KerArgSpace(1, T0), O_IN|O_BUFF|O_NTILED|O_CONST|MulBiasL3,     1,  1,      MulBias_DataSize, 0, 0,                                                0, "MulBias"):
 			KerArg("MulBias", KerArgSpace(1, T0), O_IN|O_DB|O_CONST|MulBiasL3,     1,  LineO,  MulBias_DataSize, 0, OBJ_CONSTRAINTS_PAD_REM,                          0, "MulBias"),
-		        (ReLUOper==KOP_RELUN_VECTOR)?
-			KerArg("ReLUN",   KerArgSpace(1, T0), O_IN|O_DB|O_CONST,               1,  LineO,  1,                0, OBJ_CONSTRAINTS_PAD_REM,                          0, "ReLUN"):AT_NO_KER_ARG,
 			KerArg("Out",     KerArgSpace(1, T1), O_OUT|O_DB|OutL3,             ColO,  LineO,  Out_DataSize,     0, OBJ_CONSTRAINTS_TILE_VER|OBJ_CONSTRAINTS_PAD_REM, 0, "Out")
 		):
-		KerArgs(7,
-			KerArg("KerBuff", KerArgSpace(1, T0), O_BUFF|O_NTILED,             ColM1,  1,      In2_DataSize,     0, 0,                                                0, 0),
+		KerArgs(6,
+			KerArg("KerBuff", KerArgSpace(1, T0), O_BUFF|O_NTILED,       Nbuff*ColM1,  1,      In2_DataSize,     0, 0,                                                0, 0),
 			KerArg("In1",     KerArgSpace(1, T1), O_IN|O_DB|O_CONST|In1L3,     ColM1,  LineM1, In1_DataSize,     0, OBJ_CONSTRAINTS_PAD_REM,                          8, "In1"),
 			KerArg("In2",     KerArgSpace(1, T0), O_IN|O_DB|In2L3,             ColM2,  LineM2, In2_DataSize,     0, OBJ_CONSTRAINTS_TILE_VER|OBJ_CONSTRAINTS_PAD_REM, ConsT0, "In2"),
 			KerArg("Bias",    KerArgSpace(1, T1), O_IN|O_DB|O_CONST|BiasL3,        1,  LineO,  Bias_DataSize,    0, OBJ_CONSTRAINTS_PAD_REM,                          0, "Bias"),
 			MulBiasScalar?
 			KerArg("MulBias", KerArgSpace(1, T0), O_IN|O_BUFF|O_NTILED|O_CONST|MulBiasL3,     1,  1,      MulBias_DataSize, 0, 0,                                                0, "MulBias"):
 			KerArg("MulBias", KerArgSpace(1, T1), O_IN|O_DB|O_CONST|MulBiasL3,     1,  LineO,  MulBias_DataSize, 0, OBJ_CONSTRAINTS_PAD_REM,                          0, "MulBias"),
-		        (ReLUOper==KOP_RELUN_VECTOR)?
-			KerArg("ReLUN",   KerArgSpace(1, T1), O_IN|O_DB|O_CONST,               1,  LineO,  1,                0, OBJ_CONSTRAINTS_PAD_REM,                          0, "ReLUN"):AT_NO_KER_ARG,
 			KerArg("Out",     KerArgSpace(1, T1), O_OUT|O_DB|OutL3,            ColO,   LineO,  Out_DataSize,     0, OBJ_CONSTRAINTS_PAD_REM,                          0, "Out")
 		)
 	);
@@ -5419,7 +5248,6 @@ int CNN_MatMulScale(
 		AddKernelArgDim(Name, "In2", 4, LineM2, Height, Width, In2_DataSize);
 		AddKernelArgDim(Name, "Bias", 2, LineO, Bias_DataSize);
 		if (MulBiasScalar) AddKernelArgDim(Name, "MulBias", 2, 1, MulBias_DataSize); else AddKernelArgDim(Name, "MulBias", 2, LineO, MulBias_DataSize);
-		if (ReLUOper==KOP_RELUN_VECTOR) AddKernelArgDim(Name, "ReLUN", 2, LineO, 1);
 		AddKernelArgDim(Name, "Out", 3, LineO, ColO, Out_DataSize);
 
 		AT_PrepareForTest(Name,
@@ -5480,7 +5308,7 @@ int CNN_MatMulScale(
 		ReLU_UpperBound	In case ReLUOper!=KOP_NONE Upper bound to be used for activation
 
         	MatMulOper	Should always be KOP_MATMUL_SCALE_SM1 or KOP_MATMUL_SCALE_SCALAR_SM1
-        	ReLUOper	Optionnal Activation (KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU)
+        	ReLUOper	Optionnal Activation (KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU)
 
 		Signature:	Name(In2, In1, Bias, MulBias, Out)
 				Name(In2, In1, Bias, MulBias, ReLUN, Out)
@@ -5552,7 +5380,7 @@ int CNN_MatMulScaleSmallM1(
 	if (!(MatMulOper == KOP_MATMUL_SCALE_SM1 || MatMulOper==KOP_MATMUL_SCALE_SCALAR_SM1))
 		GenTilingError("CNN_MatMulScaleSmallM1 Kernel: %s, MatMulOper should be KOP_MATMUL_SCALE_SM1 or KOP_MATMUL_SCALE_SCALAR_SM1", Name);
 
-	if (!(ReLUOper == KOP_NONE || ReLUOper == KOP_RELU || ReLUOper == KOP_RELUN || ReLUOper==KOP_RELUN_VECTOR || ReLUOper == KOP_HSWISH || ReLUOper == KOP_HSIGMOID || ReLUOper == KOP_LEAKYRELU))
+	if (!(ReLUOper == KOP_NONE || ReLUOper == KOP_RELU || ReLUOper == KOP_RELUN || ReLUOper == KOP_HSWISH || ReLUOper == KOP_HSIGMOID || ReLUOper == KOP_LEAKYRELU))
 		GenTilingError("CNN_MatMulScaleSmallM1 Kernel: %s, ReLUOper should be KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU or KOP_RELUN", Name);
 
 	KernelOper_T KernelOper = CNN_CompositeKernel(MatMulOper, ReLUOper, KOP_NONE);
@@ -5581,9 +5409,9 @@ int CNN_MatMulScaleSmallM1(
 	} else if (Out_DataSize==2) {
 		OutLB = -32768; OutUB = 32767;
 	} else GenTilingError("CNN_MatMulScaleSmallM1 Kernel: %s, Unsupported Data Type Size for Output", Name);
-	if (ReLUOper==KOP_RELU || ReLUOper==KOP_RELUN || ReLUOper==KOP_RELUN_VECTOR) {
+	if (ReLUOper==KOP_RELU || ReLUOper==KOP_RELUN) {
 		if (ReLU_LowerBound==0 && ReLU_UpperBound==0) {
-			if (SetUpperLowerBounds(ReLUOper, Out_DataSize, 1, &OutLB, &OutUB, ReluN, Out_Q))
+			if (CNN_SetUpperLowerBounds(ReLUOper, Out_DataSize, 1, &OutLB, &OutUB, ReluN, Out_Q))
 				GenTilingError("CNN_MatMulScaleSmallM1 %s, cannot represent saturation value with given out fixed point format %d", Name, Out_Q);
 		} else {
 			if (ReLU_LowerBound) OutLB = ReLU_LowerBound; else OutLB = 0;
@@ -5604,16 +5432,15 @@ int CNN_MatMulScaleSmallM1(
 	Kernel_T *Kernel = UserKernel(Name,
 		KernelIterSpace(1, IterTiledSpace(T0)),
                 TILE_VER,
-                CArgs(6,
+                CArgs(5,
                       TCArg(CNN_ArgDataType(In2_DataSize,1,1),  "In2"),
                       TCArg(CNN_ArgDataType(In1_DataSize,1,1),  "In1"),
                       TCArg(CNN_ArgDataType(Bias_DataSize,1,1), "Bias"),
                       TCArg(CNN_ArgDataType(MulBias_DataSize,1,1), "MulBias"),
-		      (ReLUOper==KOP_RELUN_VECTOR)?TCArg(CNN_ArgDataType(1,1,1), "ReLUN"):AT_NO_C_ARG,
                       TCArg(CNN_ArgDataType(Out_DataSize,1,1),  "Out")
                 ),
 		Calls(2,
-			Call(MatTransKerName, LOC_INNER_LOOP,
+			Call(MatTransKerName, LOC_LOOP,
 				Bindings(7,
 					K_Arg("In2", KER_ARG_TILE),			/* Input tile */
 					K_Arg("TransIn2", KER_ARG_TILE),		/* Transposed input tile */
@@ -5624,7 +5451,7 @@ int CNN_MatMulScaleSmallM1(
 					NeedScy?Imm(Scy):AT_IGNORE_ARG_BINDING		/* Stride y if != 1 */
 				)
 			),
-			Call(MatMulKerName, LOC_INNER_LOOP,
+			Call(MatMulKerName, LOC_LOOP,
 				Bindings(21,
 					K_Arg("In1",  KER_ARG_TILE), Imm(ColM1), Imm(LineM1),
 					K_Arg("TransIn2",  KER_ARG_TILE), K_Arg("TransIn2",  KER_ARG_TILE_W),
@@ -5634,9 +5461,7 @@ int CNN_MatMulScaleSmallM1(
 					Imm(OutLB),					/* Output lower bound */
 					(ReLUOper==KOP_HSWISH||ReLUOper==KOP_HSIGMOID)?
 					Imm(Out_Q):					/* Output fixed point format */
-					((ReLUOper==KOP_RELUN_VECTOR)?
-					K_Arg("ReLUN", KER_ARG_TILE):			/* ReLUN input tile */
-					Imm(OutUB)),					/* Activation upper bound, clip or relu */
+					Imm(OutUB),					/* Activation upper bound, clip or relu */
 					Imm(In1_Q+In2_Q-Out_Q),				/* Out fixed point adjust format */
 					Imm(In1_Q+In2_Q-Bias_Q),			/* Bias fixed point adjust format */
 					Imm(MulBias_Q),					/* MulBias fixed point format */
@@ -5648,7 +5473,7 @@ int CNN_MatMulScaleSmallM1(
 				)
 			)
 		),
-		KerArgs(7,
+		KerArgs(6,
 			KerArg("In1",      KerArgSpace(1, T0), O_IN|O_BUFF|O_NTILED|O_CONST|In1L3,     ColM1, LineM1, In1_DataSize,     0, 0, 0, "In1"),
 			KerArg("In2",      KerArgSpace(1, T0), O_IN|O_DB|In2L3,                        ColM2, LineM2, In2_DataSize,     0, 0, TileCons, "In2"),
 			KerArg("TransIn2", KerArgSpace(1, T0), O_BUFF|O_ONETILE,                        ColO, LineM2, In2_DataSize,     0, 0, 0,  ""),
@@ -5656,8 +5481,6 @@ int CNN_MatMulScaleSmallM1(
 			MulBiasScalar?
                         KerArg("MulBias",  KerArgSpace(1, T0), O_IN|O_BUFF|O_NTILED|O_CONST|MulBiasL3,     1,      1, MulBias_DataSize, 0, 0, 0, "MulBias"):
                         KerArg("MulBias",  KerArgSpace(1, T0), O_IN|O_BUFF|O_NTILED|O_CONST|MulBiasL3,     1, LineM1, MulBias_DataSize, 0, 0, 0, "MulBias"),
-		        (ReLUOper==KOP_RELUN_VECTOR)?
-			KerArg("ReLUN",    KerArgSpace(1, T0), O_IN|O_DB|O_CONST,                          1,  LineO, 1,                0, 0, 0, "ReLUN"):AT_NO_KER_ARG,
 			KerArg("Out",      KerArgSpace(1, T0), O_OUT|O_DB|OutL3,                        ColO, LineM1, Out_DataSize,     0, 0, 0, "Out")
 		)
 	);
@@ -5669,7 +5492,6 @@ int CNN_MatMulScaleSmallM1(
 		AddKernelArgDim(Name, "In2", 4, LineM2, Height, Width, In2_DataSize);
 		AddKernelArgDim(Name, "Bias", 2, LineO, Bias_DataSize);
 		if (MulBiasScalar) AddKernelArgDim(Name, "MulBias", 2, 1, MulBias_DataSize); else AddKernelArgDim(Name, "MulBias", 2, LineO, MulBias_DataSize);
-		if (ReLUOper==KOP_RELUN_VECTOR) AddKernelArgDim(Name, "ReLUN", 2, LineO, 1);
 		AddKernelArgDim(Name, "Out", 3, LineO, ColO, Out_DataSize);
 
 		AT_PrepareForTest(Name,
@@ -5774,7 +5596,7 @@ int CNN_MatTranspose(
                       		TCArg(CNN_ArgDataType(Out_DataSize,1,1), "Out")
                 	),
 			Calls(1,
-				Call(MatTransKerName, LOC_INNER_LOOP,
+				Call(MatTransKerName, LOC_LOOP,
 					Bindings(7,
 						K_Arg("In", KER_ARG_TILE),			/* Input tile */
 						K_Arg("Out", KER_ARG_TILE),			/* Output tile */
@@ -5895,7 +5717,7 @@ int CNN_3DTensorPermute(
 	        	TILE_VER,
                 	CArgs(2, TCArg(CNN_ArgDataType(In_DataSize,1,1),  "In"), TCArg(CNN_ArgDataType(Out_DataSize,1,1), "Out")),
 			Calls(1,
-				Call(MatPermKerName, LOC_INNER_LOOP,
+				Call(MatPermKerName, LOC_LOOP,
 					Bindings(7,
 						K_Arg("In", KER_ARG_TILE),	/* Input tile */
 						K_Arg("Out", KER_ARG_TILE),	/* Output tile */
diff --git a/tools/autotiler_v3/generators/CNN/CNN_Generators.h b/tools/autotiler_v3/generators/CNN/CNN_Generators.h
index d2978da54..eff92b6e0 100644
--- a/tools/autotiler_v3/generators/CNN/CNN_Generators.h
+++ b/tools/autotiler_v3/generators/CNN/CNN_Generators.h
@@ -73,7 +73,7 @@ extern void LoadCNNLibrary();
  \param    Spy:            Pooling filter stride y dimension
  \param    PoolPad:        0: No padding, 1: Zero padding
 
- \param    ReLUOper:       Optional activation function: KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+ \param    ReLUOper:       Optional activation function: KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
 
  \param    Signature:      Name(In, Filter, Bias, Out)
  \param                    Name(In, Filter, Bias, ReLUN, Out)
@@ -176,7 +176,7 @@ extern int CNN_ConvolutionPoolReLU(
  \param    Spy:            Pooling filter stride y dimension
  \param    PoolPad:        0: No padding, 1: Zero padding
 
- \param    ReLUOper:       Optional activation function: KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+ \param    ReLUOper:       Optional activation function: KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
 
  \param    Signature:      Name(In, Filter, Bias, MulBias, Out)
  \param                    Name(In, Filter, Bias, MulBias, ReLUN, Out)
@@ -281,7 +281,7 @@ extern int CNN_ConvolutionMulBiasPoolReLU(
  \param    Spy:            Pooling filter stride y dimension
  \param    PoolPad:        0: No padding, 1: Zero padding
 
- \param    ReLUOper:       Optional activation function: KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+ \param    ReLUOper:       Optional activation function: KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
 
  \param    Signature:      Name(In, Filter, Bias, Out)
  \param                    Name(In, Filter, Bias, ReLUN, Out)
@@ -389,7 +389,7 @@ extern int CNN_GroupedConvolutionPoolReLU(
  \param    Spy:            Pooling filter stride y dimension
  \param    PoolPad:        0: No padding, 1: Zero padding
 
- \param    ReLUOper:       Optional activation function: KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+ \param    ReLUOper:       Optional activation function: KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
 
  \param    Signature:      Name(In, Filter, Bias, MulBias, Out)
  \param                    Name(In, Filter, Bias, MulBias, ReLUN, Out)
@@ -485,9 +485,9 @@ extern int CNN_GroupedConvolutionMulBiasPoolReLU(
 
   \param     PoolPad:        0: No padding, 1: Zero padding
   \param     ReLUOper:       Optional activation function: if (PoolOper!=KOP_NONE) KOP_RELU or KOP_NONE
-  \param                     else Optional activation function: KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+  \param                     else Optional activation function: KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
 
-  \param     ReLUOper:       Optional activation function: KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+  \param     ReLUOper:       Optional activation function: KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
 
   \param     Signature:      Name(In, Out)
   \param                     Name(In, ReLUN, Out)
@@ -608,7 +608,7 @@ extern int CNN_GlobalPool(
     \param    OutDim:         Number of outputs
 
     \param    LinearOper:     Should always be KOP_LINEAR
-    \param    ReLUOper:       Optional activation function: KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+    \param    ReLUOper:       Optional activation function: KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
 
     \param    Signature:      Name(In, Filter, Bias, Out)
     \param                    Name(In, Filter, Bias, ReLUN, Out)
@@ -717,28 +717,54 @@ extern int CNN_SoftMax(
 */
 
 extern int CNN_MatAdd(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int In1_DataSize,
+	int In2_DataSize,
+	int Out_DataSize,
+
+	int In1_Q,
+	int In2_Q,
+	int Out_Q,
+
+	int In1_InL3,
+	int In2_InL3,
+	int Out_InL3,
+
+	int InFeat,
+	int OutFeat,
+	int Width,
+	int Height,
+
+	KernelOper_T AddMatOper);
+
+
+extern int CNN_MatAddRelu(
         char *Name,
 
 	CNN_GenControl_T *Ctrl,
 
-        int In1_DataSize,
-        int In2_DataSize,
-        int Out_DataSize,
+    int In1_DataSize,
+    int In2_DataSize,
+    int Out_DataSize,
 
 	int In1_Q,
 	int In2_Q,
 	int Out_Q,
 
-        int In1_InL3,
-        int In2_InL3,
-        int Out_InL3,
+    int In1_InL3,
+    int In2_InL3,
+    int Out_InL3,
 
-        int InFeat,
-        int OutFeat,
-        int Width,
-        int Height,
+    int InFeat,
+    int OutFeat,
+    int Width,
+    int Height,
 
-        KernelOper_T AddMatOper
+    KernelOper_T AddMatOper,
+	KernelOper_T ReLUOper
 	);
 
 /** \brief CNN_MatAddDynAdjust
@@ -832,7 +858,7 @@ extern int CNN_MatAddDynAdjust(
     \param    Height:         Height of a given feature
 
     \param    ScaleOper       Should always be KOP_MATSCALE_VECTOR, KOP_MATSCALE_SCALAR or KOP_MATSCALE_VECTOR_SCALAR
-    \param    ReLUOper        Optional activation, should be KOP_NONE, KOP_RELU, KOP_RELUN or KOP_RELUN_VECTOR
+    \param    ReLUOper        Optional activation, should be KOP_NONE, KOP_RELU, KOP_RELUN
 
     \param    Signature:      Name(In, Scalar, Out)
     \param                    Name(In, Scalar, Out, ReLUN)
@@ -915,7 +941,7 @@ extern int CNN_MatScale(
     \param    ReLU_UpperBound In case ReLUOper!=KOP_NONE Upper bound to be used for activation
 
     \param    MatMulOper:     Should always be KOP_MATMUL
-    \param    ReLUOper:	      Optionnal Activation (KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU)
+    \param    ReLUOper:	      Optionnal Activation (KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU)
 
     \param    Signature:      Name(In2, In1, Bias, Out)
     \param                    Name(In2, In1, Bias, ReLUN, Out)
@@ -1001,7 +1027,7 @@ extern int CNN_MatMul(
     \param    ReLU_UpperBound In case ReLUOper!=KOP_NONE Upper bound to be used for activation
 
     \param    MatMulOper:     Should always be KOP_MATMUL
-    \param    ReLUOper:	      Optionnal Activation (KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU)
+    \param    ReLUOper:	      Optionnal Activation (KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU)
 
     \param    Signature:      Name(In2, In1, Bias, Out)
     \param                    Name(In2, In1, Bias, ReLUN, Out)
@@ -1091,7 +1117,7 @@ extern int CNN_MatMulSmallM1(
     \param    ReLU_UpperBound In case ReLUOper!=KOP_NONE Upper bound to be used for activation
 
     \param    MatMulOper      Should always be KOP_MATMUL_SCALE_SCALAR or KOP_MATMUL_SCALE_SCALAR
-    \param    ReLUOper        Optionnal Activation (KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU)
+    \param    ReLUOper        Optionnal Activation (KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU)
 
     \param    Signature:      Name(In2, In1, Bias, Out)
     \param                    Name(In2, In1, Bias, ReLUN, Out)
@@ -1184,7 +1210,7 @@ extern int CNN_MatMulScale(
     \param    ReLU_UpperBound In case ReLUOper!=KOP_NONE Upper bound to be used for activation
 
     \param    MatMulOper      Should always be KOP_MATMUL_SCALE_SCALAR or KOP_MATMUL_SCALE_SCALAR
-    \param    ReLUOper        Optionnal Activation (KOP_RELU, KOP_RELUN, KOP_RELUN_VECTOR, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU)
+    \param    ReLUOper        Optionnal Activation (KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU)
 
     \param    Signature:      Name(In2, In1, Bias, Out)
     \param                    Name(In2, In1, Bias, ReLUN, Out)
@@ -1321,5 +1347,39 @@ int CNN_3DTensorPermute(
  	KernelOper_T MatPermOper
 );
 
+int CNN_ConvNxN_HWCE(
+        char *Name,
+        CNN_GenControl_T *Ctrl,
+
+        int In_DataSize,
+        int Filter_DataSize,
+        int Bias_DataSize,
+        int Out_DataSize,
+
+        int In_Q,
+        int Filter_Q,
+        int Bias_Q,
+        int Out_Q,
+
+        int In_InL3,
+        int Filter_InL3,
+        int Bias_InL3,
+        int Out_InL3,
+
+        int InFeat,
+        int OutFeat,
+        int Width,
+        int Height,
+
+        KernelOper_T ConvOper,
+        int Fcx,
+        int Fcy,
+        int Dcx,
+        int Dcy,
+        int Scx,
+        int Scy,
+        int ConvPad
+        );
+
 /** @} */
 #endif
diff --git a/tools/autotiler_v3/generators/CNN/CNN_Generators_SQ8.c b/tools/autotiler_v3/generators/CNN/CNN_Generators_SQ8.c
new file mode 100644
index 000000000..e8d414c78
--- /dev/null
+++ b/tools/autotiler_v3/generators/CNN/CNN_Generators_SQ8.c
@@ -0,0 +1,3056 @@
+#include <stdint.h>
+#include <stdio.h>
+#include "AutoTilerLib.h"
+#include "CNN_Generators_SQ8.h"
+#include "CNN_Generator_Util.h"
+#include "Gap.h"
+
+#define MaxS(a, b) (((int)(a)>(int)(b))?(a):(b))
+#define Max(a, b) (((a)>(b))?(a):(b))
+#define Min(a, b) (((a)<(b))?(a):(b))
+#define Abs(x) (((x)<0)?-(x):(x))
+
+#define D0	KER_ITER_D0
+#define D1	KER_ITER_D1
+#define D2	KER_ITER_D2
+#define D3	KER_ITER_D3
+#define T0	KER_ITER_TILE0
+#define T1	KER_ITER_TILE1
+#define T2	KER_ITER_TILE2
+
+#define AT_INF_BIASL_SM         0
+#define AT_INF_ACTSCALE         0
+#define AT_INF_ACTSCALEN        1
+#define AT_INF_A0               2
+#define AT_INF_B0               3
+#define AT_INF_C0               4
+
+#define AT_INF_BIASN            5
+#define AT_INF_IN1SCALE         5
+#define AT_INF_SCALEN           5
+
+#define AT_INF_IN1SCALEN        6
+#define AT_INF_OUTSCALE         7
+#define AT_INF_OUTSCALEN        8
+
+#define AT_INF_DIM              9
+
+void LoadCNN_SQ8_Library()
+
+{
+	LibKernelTemplate("KerSetBias_SQ8_T",
+                  CArgs(6,
+			TCArg("int * __restrict__", "Out"),
+			TCArg("unsigned short int", "W"),
+			TCArg("unsigned short int", "H"),
+			TCArg("unsigned short int", "Feat"),
+			TCArg("void * __restrict__", "Bias"),
+			TCArg("unsigned char", "NormBias")
+			)
+	);
+	LibKernelTemplate("KerConv_SQ8_T",
+                  CArgs(20,
+			TCArg("signed char * __restrict__", "In"),
+			TCArg("unsigned short int", "W"),
+			TCArg("unsigned short int", "UsedW"),
+			TCArg("unsigned short int", "H"),
+			TCArg("unsigned short int", "UsedH"),
+			TCArg("unsigned short int", "InFeatures"),
+			TCArg("unsigned short int", "OutFeatures"),
+			TCArg("unsigned short int", "TotalInFeatures"),
+			TCArg("signed char * __restrict__", "Filter"),
+			TCArg("signed char * __restrict__", "Bias"),
+			TCArg("int * __restrict__", "Out"),
+			TCArg("v4s", "Pad"),
+			TCArg("unsigned char", "NormBias"),
+			TCArg("unsigned char", "Orientation"),
+                        TCArg("unsigned char", "N"),
+                        TCArg("unsigned char", "S"),
+                        TCArg("unsigned char", "D"),
+                        TCArg("unsigned char", "Ny"),
+                        TCArg("unsigned char", "Sy"),
+                        TCArg("unsigned char", "Dy")
+			)
+	);
+	LibKernelTemplate("KerConvLinReduct_SQ8_T",
+                  CArgs(8,
+			TCArg("int *__restrict__", "In"),
+			TCArg("void *__restrict__", "Out"),
+			TCArg("unsigned short int", "Feat"),
+			TCArg("unsigned short int", "W"),
+			TCArg("unsigned short int", "H"),
+			TCArg("unsigned char *__restrict__", "Scale"),
+			TCArg("unsigned char *__restrict__", "ScaleN"),
+			TCArg("signed char *__restrict__", "Infos")
+			)
+	);
+	LibKernelTemplate("KerActivation_SQ8_T",
+                  CArgs(6,
+			TCArg("signed char *__restrict__", "In"),
+			TCArg("signed char *__restrict__", "Out"),
+			TCArg("unsigned short int", "Feat"),
+			TCArg("unsigned short int", "W"),
+			TCArg("unsigned short int", "H"),
+			TCArg("signed char *__restrict__", "Infos")
+		       )
+	);
+	LibKernelTemplate("KerPool_SQ8_T",
+                  CArgs(18,
+			TCArg("signed char * __restrict__", "In"),
+			TCArg("unsigned short int", "W"),
+			TCArg("unsigned short int", "UsedW"),
+			TCArg("unsigned short int", "H"),
+			TCArg("unsigned short int", "UsedH"),
+			TCArg("unsigned short int", "Feat"),
+			TCArg("signed char * __restrict__", "Out"),
+			TCArg("v4s", "Pad"),
+			TCArg("unsigned char", "FS"),
+			TCArg("unsigned char", "S"),
+                        TCArg("unsigned char", "D"),
+                        TCArg("unsigned char", "FSy"),
+                        TCArg("unsigned char", "Sy"),
+                        TCArg("unsigned char", "Dy"),
+			TCArg("unsigned char", "PoolMax"),
+			TCArg("unsigned char", "Orientation"),
+			TCArg("unsigned char", "DoScale"),
+			TCArg("signed char * __restrict__", "Infos")
+			)
+	);
+	LibKernelTemplate("KerGlobalPool_SQ8_T",
+                  CArgs(8,
+			TCArg("void * __restrict__", "In"),
+			TCArg("unsigned short int", "W"),
+			TCArg("unsigned short int", "H"),
+			TCArg("unsigned short int", "Feat"),
+			TCArg("unsigned short int", "TileIndex"),
+			TCArg("int * __restrict__", "Out"),
+			TCArg("unsigned char", "DoScale"),
+			TCArg("void * __restrict__", "Infos")
+			)
+	);
+	LibKernelTemplate("KerLinear_SQ8_T",
+                  CArgs(10,
+			TCArg("signed char * __restrict__", "In"),
+			TCArg("signed char * __restrict__", "Weights"),
+			TCArg("void * __restrict__", "Bias"),
+			TCArg("void * __restrict__", "Out"),
+			TCArg("unsigned short int", "InDim"),
+			TCArg("unsigned short int", "TotalInDim"),
+			TCArg("unsigned short int", "OutDim"),
+			TCArg("unsigned char *__restrict__", "Scale"),
+			TCArg("unsigned char *__restrict__", "ScaleN"),
+			TCArg("signed char *__restrict__", "Infos")
+			)
+	);
+	LibKernelTemplate("KerMat3_SQ8_T",
+                  CArgs(8,
+			TCArg("signed char *__restrict__", "In1"),
+			TCArg("signed char *__restrict__", "In2"),
+			TCArg("signed char *__restrict__", "Out"),
+			TCArg("unsigned short int", "Feat"),
+			TCArg("unsigned short int", "W"),
+			TCArg("unsigned short int", "H"),
+			TCArg("unsigned char", "DoScale"),
+			TCArg("signed char *__restrict__", "Infos")
+			)
+	);
+	LibKernelTemplate("KerMatMul_SQ8_T",
+                  CArgs(19,
+			TCArg("signed char * __restrict__", "In1"),
+			TCArg("unsigned short int", "W_In1"),
+			TCArg("unsigned short int", "H_In1"),
+			TCArg("signed char * __restrict__", "In2"),
+			TCArg("unsigned short int", "W_In2"),
+			TCArg("void * __restrict__", "Bias"),
+			TCArg("unsigned char * __restrict__", "Scale"),
+			TCArg("unsigned char * __restrict__", "ScaleN"),
+			TCArg("signed char * __restrict__", "Out"),
+			TCArg("unsigned short int", "W_Out"),
+			TCArg("unsigned short int", "OutFirstCol"),
+			TCArg("signed char * __restrict__", "BufferColIn2"),
+			TCArg("unsigned char", "NormBias"),
+			TCArg("unsigned char", "ColFirst"),
+			TCArg("unsigned char", "Sx"),
+			TCArg("unsigned char", "Sy"),
+			TCArg("unsigned short int", "W"),
+			TCArg("unsigned short int", "H"),
+			TCArg("signed char *__restrict__", "Infos")
+			)
+	);
+	LibKernelTemplate("KerMatTranspose_fps_T",
+                  CArgs(7,
+			TCArg("signed char *__restrict__", "In"),
+			TCArg("signed char *__restrict__", "Out"),
+			TCArg("unsigned short int", "Feat"),
+			TCArg("unsigned short int", "W"),
+			TCArg("unsigned short int", "H"),
+			TCArg("unsigned char", "Sx"),
+			TCArg("unsigned char", "Sy")
+			)
+	);
+	LibKernelTemplate("KerSoftMax_SQ8_T",
+                  CArgs(5,
+			TCArg("signed char *__restrict__", "In"),
+			TCArg("unsigned short int", "N"),
+			TCArg("unsigned short int", "Norm"),
+			TCArg("short int *__restrict__", "Out"),
+			TCArg("signed char *__restrict__", "Infos")
+			)
+	);
+
+	/****************************************************************************************************************/
+	/* Kernels for features and coefficients on 8 bits. Kernels for multiple output features evaluated in parallel  */
+	/****************************************************************************************************************/
+
+	/* Bias setting */
+        LibKernel("KerParSetBiasB8_SQ8", CALL_PARALLEL, 0, "KerSetBias_SQ8_T",			CNN_Match(CNN_OperList(1, KOP_SETBIAS), 0, 1, CNN_Type(1,0,0,0,4), 0,0,0,0,0,0));
+        LibKernel("KerParSetBiasB16_SQ8", CALL_PARALLEL, 0, "KerSetBias_SQ8_T", 		CNN_Match(CNN_OperList(1, KOP_SETBIAS), 0, 1, CNN_Type(2,0,0,0,4), 0,0,0,0,0,0));
+        LibKernel("KerParSetBiasB32_SQ8", CALL_PARALLEL, 0, "KerSetBias_SQ8_T", 		CNN_Match(CNN_OperList(1, KOP_SETBIAS), 0, 1, CNN_Type(4,0,0,0,4), 0,0,0,0,0,0));
+
+	/* Convolutions with 32b output, Bias set before */
+        LibKernel("KerParConv1x1Stride1_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 1, CNN_Type(1,1,1,0,4), 1,1,1,1,1,1));
+        LibKernel("KerParConv1x1Stride2_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 1, CNN_Type(1,1,1,0,4), 1,1,1,1,2,2));
+        LibKernel("KerParConv1x1StrideS_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 1, CNN_Type(1,1,1,0,4), 1,1,1,1,-1,-2));
+
+        LibKernel("KerParConv3x1Stride1x1_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 1, CNN_Type(1,1,1,0,4), 3,1,1,1,1,1));
+        LibKernel("KerParConv3x1Stride2x1_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 1, CNN_Type(1,1,1,0,4), 3,1,1,1,2,1));
+        LibKernel("KerParConv1x3Stride1x1_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 1, CNN_Type(1,1,1,0,4), 1,3,1,1,1,1));
+        LibKernel("KerParConv1x3Stride1x2_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 1, CNN_Type(1,1,1,0,4), 1,3,1,1,1,2));
+
+        LibKernel("KerParConv3x3Stride1_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 1, CNN_Type(1,1,1,0,4), 3,3,1,1,1,1));
+        LibKernel("KerParConv3x3Stride2_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 1, CNN_Type(1,1,1,0,4), 3,3,1,1,2,2));
+        LibKernel("KerParConv3x3StrideS_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 1, CNN_Type(1,1,1,0,4), 3,3,1,1,-1,-2));
+
+        LibKernel("KerParConv5x1Stride1x1_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 1, CNN_Type(1,1,1,0,4), 5,1,1,1,1,1));
+        LibKernel("KerParConv5x1Stride2x1_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 1, CNN_Type(1,1,1,0,4), 5,1,1,1,2,1));
+        LibKernel("KerParConv1x5Stride1x1_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 1, CNN_Type(1,1,1,0,4), 1,5,1,1,1,1));
+        LibKernel("KerParConv1x5Stride1x2_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 1, CNN_Type(1,1,1,0,4), 1,5,1,1,1,2));
+
+        LibKernel("KerParConv5x5Stride1_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 1, CNN_Type(1,1,1,0,4), 5,5,1,1,1,1));
+        LibKernel("KerParConv5x5Stride2_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 1, CNN_Type(1,1,1,0,4), 5,5,1,1,2,2));
+        LibKernel("KerParConv5x5StrideS_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 1, CNN_Type(1,1,1,0,4), 5,5,1,1,-1,-2));
+        LibKernel("KerParConv7x7StrideS_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 1, CNN_Type(1,1,1,0,4), 7,7,1,1,-1,-2));
+
+        LibKernel("KerParConvNxNStrideS_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 1, CNN_Type(1,1,1,0,4), -1,-2,1,1,-1,-2));
+        LibKernel("KerParConvNxMStrideSxSy_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 1, CNN_Type(1,1,1,0,4), -1,-1,1,1,-1,-1));
+
+        LibKernel("KerParConvNxMDxDyStrideSxSy_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 1, CNN_Type(1,1,1,0,4), -1,-1,-1,-1,-1,-1));
+
+	/* Depth Wise Convolutions, 8b bias, 32b output */
+        LibKernel("KerParConvDW1x1Stride1B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T", 		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,1,0,4), 1,1,1,1,1,1));
+        LibKernel("KerParConvDW1x1Stride2B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,1,0,4), 1,1,1,1,2,2));
+        LibKernel("KerParConvDW1x1StrideSB8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,1,0,4), 1,1,1,1,-1,-2));
+
+        LibKernel("KerParConvDW3x1Stride1x1B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,1,0,4), 3,1,1,1,1,1));
+        LibKernel("KerParConvDW3x1Stride2x1B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,1,0,4), 3,1,1,1,2,1));
+        LibKernel("KerParConvDW1x3Stride1x1B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,1,0,4), 1,3,1,1,1,1));
+        LibKernel("KerParConvDW1x3Stride1x2B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,1,0,4), 1,3,1,1,1,2));
+
+        LibKernel("KerParConvDW3x3Stride1B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,1,0,4), 3,3,1,1,1,1));
+        LibKernel("KerParConvDW3x3Stride2B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,1,0,4), 3,3,1,1,2,2));
+        LibKernel("KerParConvDW3x3StrideSB8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,1,0,4), 3,3,1,1,-1,-2));
+
+        LibKernel("KerParConvDW5x1Stride1x1B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,1,0,4), 5,1,1,1,1,1));
+        LibKernel("KerParConvDW5x1Stride2x1B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,1,0,4), 5,1,1,1,2,1));
+        LibKernel("KerParConvDW1x5Stride1x1B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,1,0,4), 1,5,1,1,1,1));
+        LibKernel("KerParConvDW1x5Stride1x2B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,1,0,4), 1,5,1,1,1,2));
+
+        LibKernel("KerParConvDW5x5Stride1B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,1,0,4), 5,5,1,1,1,1));
+        LibKernel("KerParConvDW5x5Stride2B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,1,0,4), 5,5,1,1,2,2));
+        LibKernel("KerParConvDW5x5StrideSB8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,1,0,4), 5,5,1,1,-1,-2));
+
+        LibKernel("KerParConvDW7x7StrideSB8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,1,0,4), 7,7,1,1,-1,-2));
+
+        LibKernel("KerParConvDWNxNStrideSB8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,1,0,4), -1,-2,1,1,-1,-2));
+        LibKernel("KerParConvDWNxMStrideSxSyB8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,1,0,4), -1,-1,1,1,-1,-1));
+
+        LibKernel("KerParConvDWNxMDxDyStrideSxSyB8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,1,0,4), -1,-1,-1,-1,-1,-1));
+
+	/* Depth Wise Convolutions, 16b bias, 32b output */
+        LibKernel("KerParConvDW1x1Stride1B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T", 		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,2,0,4), 1,1,1,1,1,1));
+        LibKernel("KerParConvDW1x1Stride2B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,2,0,4), 1,1,1,1,2,2));
+        LibKernel("KerParConvDW1x1StrideSB16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,2,0,4), 1,1,1,1,-1,-2));
+
+        LibKernel("KerParConvDW3x1Stride1x1B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,2,0,4), 3,1,1,1,1,1));
+        LibKernel("KerParConvDW3x1Stride2x1B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,2,0,4), 3,1,1,1,2,1));
+        LibKernel("KerParConvDW1x3Stride1x1B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,2,0,4), 1,3,1,1,1,1));
+        LibKernel("KerParConvDW1x3Stride1x2B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,2,0,4), 1,3,1,1,1,2));
+
+        LibKernel("KerParConvDW3x3Stride1B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,2,0,4), 3,3,1,1,1,1));
+        LibKernel("KerParConvDW3x3Stride2B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,2,0,4), 3,3,1,1,2,2));
+        LibKernel("KerParConvDW3x3StrideSB16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,2,0,4), 3,3,1,1,-1,-2));
+
+        LibKernel("KerParConvDW5x1Stride1x1B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,2,0,4), 5,1,1,1,1,1));
+        LibKernel("KerParConvDW5x1Stride2x1B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,2,0,4), 5,1,1,1,2,1));
+        LibKernel("KerParConvDW1x5Stride1x1B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,2,0,4), 1,5,1,1,1,1));
+        LibKernel("KerParConvDW1x5Stride1x2B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,2,0,4), 1,5,1,1,1,2));
+
+        LibKernel("KerParConvDW5x5Stride1B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,2,0,4), 5,5,1,1,1,1));
+        LibKernel("KerParConvDW5x5Stride2B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,2,0,4), 5,5,1,1,2,2));
+        LibKernel("KerParConvDW5x5StrideSB16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,2,0,4), 5,5,1,1,-1,-2));
+
+        LibKernel("KerParConvDW7x7StrideSB16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,2,0,4), 7,7,1,1,-1,-2));
+
+        LibKernel("KerParConvDWNxNStrideSB16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,2,0,4), -1,-2,1,1,-1,-2));
+        LibKernel("KerParConvDWNxMStrideSxSyB16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,2,0,4), -1,-1,1,1,-1,-1));
+
+        LibKernel("KerParConvDWNxMDxDyStrideSxSyB16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,2,0,4), -1,-1,-1,-1,-1,-1));
+
+	/* Depth Wise Convolutions, 32b bias, 32b output */
+        LibKernel("KerParConvDW1x1Stride1B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T", 		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,4,0,4), 1,1,1,1,1,1));
+        LibKernel("KerParConvDW1x1Stride2B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,4,0,4), 1,1,1,1,2,2));
+        LibKernel("KerParConvDW1x1StrideSB32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,4,0,4), 1,1,1,1,-1,-2));
+
+        LibKernel("KerParConvDW3x1Stride1x1B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,4,0,4), 3,1,1,1,1,1));
+        LibKernel("KerParConvDW3x1Stride2x1B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,4,0,4), 3,1,1,1,2,1));
+        LibKernel("KerParConvDW1x3Stride1x1B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,4,0,4), 1,3,1,1,1,1));
+        LibKernel("KerParConvDW1x3Stride1x2B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,4,0,4), 1,3,1,1,1,2));
+
+        LibKernel("KerParConvDW3x3Stride1B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,4,0,4), 3,3,1,1,1,1));
+        LibKernel("KerParConvDW3x3Stride2B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,4,0,4), 3,3,1,1,2,2));
+        LibKernel("KerParConvDW3x3StrideSB32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,4,0,4), 3,3,1,1,-1,-2));
+
+        LibKernel("KerParConvDW5x1Stride1x1B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,4,0,4), 5,1,1,1,1,1));
+        LibKernel("KerParConvDW5x1Stride2x1B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,4,0,4), 5,1,1,1,2,1));
+        LibKernel("KerParConvDW1x5Stride1x1B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,4,0,4), 1,5,1,1,1,1));
+        LibKernel("KerParConvDW1x5Stride1x2B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,4,0,4), 1,5,1,1,1,2));
+
+        LibKernel("KerParConvDW5x5Stride1B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,4,0,4), 5,5,1,1,1,1));
+        LibKernel("KerParConvDW5x5Stride2B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,4,0,4), 5,5,1,1,2,2));
+        LibKernel("KerParConvDW5x5StrideSB32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,4,0,4), 5,5,1,1,-1,-2));
+
+        LibKernel("KerParConvDW7x7StrideSB32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,4,0,4), 7,7,1,1,-1,-2));
+
+        LibKernel("KerParConvDWNxNStrideSB32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,4,0,4), -1,-2,1,1,-1,-2));
+        LibKernel("KerParConvDWNxMStrideSxSyB32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,4,0,4), -1,-1,1,1,-1,-1));
+
+        LibKernel("KerParConvDWNxMDxDyStrideSxSyB32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 1, CNN_Type(1,1,4,0,4), -1,-1,-1,-1,-1,-1));
+
+	/* Linear layer, 32b output with bias set before and scaling/activation done after */
+	LibKernel("KerParLinearLayer_SQ8", CALL_PARALLEL, 0, "KerLinear_SQ8_T", 		CNN_Match(CNN_OperList(1, KOP_LINEAR), 0, 1, CNN_Type(1,1,0,0,4), 0,0,0,0,0,0));
+
+	/* Linear layer, 8b output with bias and scaling/activation (ReLU, ReLUN) done in a single shot */
+	LibKernel("KerParLinearLayerFullFeatB8_SQ8", CALL_PARALLEL, 0, "KerLinear_SQ8_T", 	CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(1, KOP_NONE), 1, CNN_Type(1,1,1,0,1), 0,0,0,0,0,0));
+	LibKernel("KerParLinearLayerFullFeatB8_ReLU_SQ8", CALL_PARALLEL, 0, "KerLinear_SQ8_T", 	CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(1, KOP_RELU), 1, CNN_Type(1,1,1,0,1), 0,0,0,0,0,0));
+	LibKernel("KerParLinearLayerFullFeatB8_ReLUN_SQ8", CALL_PARALLEL, 0, "KerLinear_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(1, KOP_RELUN), 1, CNN_Type(1,1,1,0,1), 0,0,0,0,0,0));
+
+	LibKernel("KerParLinearLayerFullFeatB16_SQ8", CALL_PARALLEL, 0, "KerLinear_SQ8_T", 	CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(1, KOP_NONE), 1, CNN_Type(1,1,2,0,1), 0,0,0,0,0,0));
+	LibKernel("KerParLinearLayerFullFeatB16_ReLU_SQ8", CALL_PARALLEL, 0, "KerLinear_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(1, KOP_RELU), 1, CNN_Type(1,1,2,0,1), 0,0,0,0,0,0));
+	LibKernel("KerParLinearLayerFullFeatB16_ReLUN_SQ8", CALL_PARALLEL, 0, "KerLinear_SQ8_T",CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(1, KOP_RELUN), 1, CNN_Type(1,1,2,0,1), 0,0,0,0,0,0));
+
+	LibKernel("KerParLinearLayerFullFeatB32_SQ8", CALL_PARALLEL, 0, "KerLinear_SQ8_T", 	CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(1, KOP_NONE), 1, CNN_Type(1,1,4,0,1), 0,0,0,0,0,0));
+	LibKernel("KerParLinearLayerFullFeatB32_ReLU_SQ8", CALL_PARALLEL, 0, "KerLinear_SQ8_T", CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(1, KOP_RELU), 1, CNN_Type(1,1,4,0,1), 0,0,0,0,0,0));
+	LibKernel("KerParLinearLayerFullFeatB32_ReLUN_SQ8", CALL_PARALLEL, 0, "KerLinear_SQ8_T",CNN_Match(CNN_OperList(1, KOP_LINEAR), CNN_OperList(1, KOP_RELUN), 1, CNN_Type(1,1,4,0,1), 0,0,0,0,0,0));
+
+	/* Convolution or Linear output reduction with per channel scaling and optional activation. Out != In and In Place (IO)  */
+	LibKernel("KerParReduct_CC_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_DP_REDUCT), CNN_OperList(1, KOP_NONE), 1,
+													  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerParReduct_CC_ReLU_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_DP_REDUCT), CNN_OperList(1, KOP_RELU), 1,
+													  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerParReduct_CC_ReLUN_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_DP_REDUCT), CNN_OperList(1, KOP_RELUN), 1,
+													  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerParReduct_CC_HSigmoid_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_DP_REDUCT), CNN_OperList(1, KOP_HSIGMOID), 1,
+													  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerParReduct_CC_HSwish_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_DP_REDUCT), CNN_OperList(1, KOP_HSWISH), 1,
+													  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerParReduct_CC_LeakyReLU_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_DP_REDUCT), CNN_OperList(1, KOP_LEAKYRELU), 1,
+													  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+
+	LibKernel("KerParReductIO_CC_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO), CNN_OperList(1, KOP_NONE), 1,
+													  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerParReductIO_CC_ReLU_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO), CNN_OperList(1, KOP_RELU), 1,
+													  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerParReductIO_CC_ReLUN_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO), CNN_OperList(1, KOP_RELUN), 1,
+													  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerParReductIO_CC_HSigmoid_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO), CNN_OperList(1, KOP_HSIGMOID), 1,
+													  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerParReductIO_CC_HSwish_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO), CNN_OperList(1, KOP_HSWISH), 1,
+													  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerParReductIO_CC_LeakyReLU_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO), CNN_OperList(1, KOP_LEAKYRELU), 1,
+													  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+
+	/* Activation wth tensor centric scaling */
+        LibKernel("KerPar_ReLU_SQ8", CALL_PARALLEL, 0, "KerActivation_SQ8_T",			CNN_Match(CNN_OperList(1, KOP_RELU), 0, 1, CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
+        LibKernel("KerPar_ReLUN_SQ8", CALL_PARALLEL, 0, "KerActivation_SQ8_T",			CNN_Match(CNN_OperList(1, KOP_RELUN), 0, 1, CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
+        LibKernel("KerPar_HSigmoid_SQ8", CALL_PARALLEL, 0, "KerActivation_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_HSIGMOID), 0, 1, CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
+        LibKernel("KerPar_HSwish_SQ8", CALL_PARALLEL, 0, "KerActivation_SQ8_T",			CNN_Match(CNN_OperList(1, KOP_HSWISH), 0, 1, CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
+        LibKernel("KerPar_LeakyReLU_SQ8", CALL_PARALLEL, 0, "KerActivation_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_LEAKYRELU), 0, 1, CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
+
+	/* Pooling (Max or Avg) with tensor centric scaling and optional ReLU or ReLUN activation */
+        LibKernel("KerParPool2x2Stride2_SQ8", CALL_PARALLEL, 0, "KerPool_SQ8_T",		CNN_Match(CNN_OperList(2, KOP_MAXPOOL, KOP_AVGPOOL), CNN_OperList(1, KOP_NONE), 1,
+													  CNN_Type(1,0,0,0,1), 2,2,1,1,2,2));
+        LibKernel("KerParPool2x2Stride2_ReLU_SQ8", CALL_PARALLEL, 0, "KerPool_SQ8_T",		CNN_Match(CNN_OperList(2, KOP_MAXPOOL, KOP_AVGPOOL), CNN_OperList(1, KOP_RELU), 1,
+													  CNN_Type(1,0,0,0,1), 2,2,1,1,2,2));
+        LibKernel("KerParPool2x2Stride2_ReLUN_SQ8", CALL_PARALLEL, 0, "KerPool_SQ8_T",		CNN_Match(CNN_OperList(2, KOP_MAXPOOL, KOP_AVGPOOL), CNN_OperList(1, KOP_RELUN), 1,
+													  CNN_Type(1,0,0,0,1), 2,2,1,1,2,2));
+
+        LibKernel("KerParPoolNxNStrideS_SQ8", CALL_PARALLEL, 0, "KerPool_SQ8_T",		CNN_Match(CNN_OperList(2, KOP_MAXPOOL, KOP_AVGPOOL), CNN_OperList(1, KOP_NONE), 1,
+													  CNN_Type(1,0,0,0,1), -1,-2,1,1,-1,-2));
+        LibKernel("KerParPoolNxNStrideS_ReLU_SQ8", CALL_PARALLEL, 0, "KerPool_SQ8_T",		CNN_Match(CNN_OperList(2, KOP_MAXPOOL, KOP_AVGPOOL), CNN_OperList(1, KOP_RELU), 1,
+													  CNN_Type(1,0,0,0,1), -1,-2,1,1,-1,-2));
+        LibKernel("KerParPoolNxNStrideS_ReLUN_SQ8", CALL_PARALLEL, 0, "KerPool_SQ8_T",		CNN_Match(CNN_OperList(2, KOP_MAXPOOL, KOP_AVGPOOL), CNN_OperList(1, KOP_RELUN), 1,
+													  CNN_Type(1,0,0,0,1), -1,-2,1,1,-1,-2));
+
+        LibKernel("KerParPoolNxMStrideSxSy_SQ8", CALL_PARALLEL, 0, "KerPool_SQ8_T",		CNN_Match(CNN_OperList(2, KOP_MAXPOOL, KOP_AVGPOOL), CNN_OperList(1, KOP_NONE), 1,
+													  CNN_Type(1,0,0,0,1), -1,-1,1,1,-1,-1));
+        LibKernel("KerParPoolNxMStrideSxSy_ReLU_SQ8", CALL_PARALLEL, 0, "KerPool_SQ8_T",	CNN_Match(CNN_OperList(2, KOP_MAXPOOL, KOP_AVGPOOL), CNN_OperList(1, KOP_RELU), 1,
+													  CNN_Type(1,0,0,0,1), -1,-1,1,1,-1,-1));
+        LibKernel("KerParPoolNxMStrideSxSy_ReLUN_SQ8", CALL_PARALLEL, 0, "KerPool_SQ8_T",	CNN_Match(CNN_OperList(2, KOP_MAXPOOL, KOP_AVGPOOL), CNN_OperList(1, KOP_RELUN), 1,
+													  CNN_Type(1,0,0,0,1), -1,-1,1,1,-1,-1));
+
+	/* Global Pooling (Max or Avg) with tensor centric scaling and optional ReLU or ReLUN activation */
+        LibKernel("KerParGlobalMaxPoolFullFeat_SQ8", CALL_PARALLEL, 0, "KerGlobalPool_SQ8_T", 	CNN_Match(CNN_OperList(1, KOP_GLOBAL_MAXPOOL), CNN_OperList(1, KOP_NONE), 1,
+													  CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
+        LibKernel("KerParGlobalMaxPoolFullFeat_ReLU_SQ8", CALL_PARALLEL, 0, "KerGlobalPool_SQ8_T", CNN_Match(CNN_OperList(1, KOP_GLOBAL_MAXPOOL), CNN_OperList(1, KOP_RELU), 1,
+													  CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
+        LibKernel("KerParGlobalMaxPoolFullFeat_ReLUN_SQ8", CALL_PARALLEL, 0, "KerGlobalPool_SQ8_T", CNN_Match(CNN_OperList(1, KOP_GLOBAL_MAXPOOL), CNN_OperList(1, KOP_RELUN), 1,
+													  CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
+
+        LibKernel("KerParGlobalMaxPool_SQ8", CALL_PARALLEL, 0, "KerGlobalPool_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_GLOBAL_MAXPOOL), CNN_OperList(1, KOP_NONE), 1,
+													  CNN_Type(1,0,0,0,4), 0,0,0,0,0,0));
+        LibKernel("KerParGlobalMaxPool_Reduct_SQ8", CALL_PARALLEL, 0, "KerGlobalPool_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_GLOBAL_MAXPOOL_REDUCT), CNN_OperList(1, KOP_NONE), 1,
+													  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+        LibKernel("KerParGlobalMaxPool_Reduct_ReLU_SQ8", CALL_PARALLEL, 0, "KerGlobalPool_SQ8_T",CNN_Match(CNN_OperList(1, KOP_GLOBAL_MAXPOOL_REDUCT), CNN_OperList(1, KOP_RELU), 1,
+													  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+        LibKernel("KerParGlobalMaxPool_Reduct_ReLUN_SQ8", CALL_PARALLEL, 0, "KerGlobalPool_SQ8_T",CNN_Match(CNN_OperList(1, KOP_GLOBAL_MAXPOOL_REDUCT), CNN_OperList(1, KOP_RELUN), 1,
+													  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+
+        LibKernel("KerParGlobalAvgPoolFullFeat_SQ8", CALL_PARALLEL, 0, "KerGlobalPool_SQ8_T", 	CNN_Match(CNN_OperList(1, KOP_GLOBAL_AVGPOOL), CNN_OperList(1, KOP_NONE), 1,
+													  CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
+        LibKernel("KerParGlobalAvgPoolFullFeat_ReLU_SQ8", CALL_PARALLEL, 0, "KerGlobalPool_SQ8_T", CNN_Match(CNN_OperList(1, KOP_GLOBAL_AVGPOOL), CNN_OperList(1, KOP_RELU), 1,
+													  CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
+        LibKernel("KerParGlobalAvgPoolFullFeat_ReLUN_SQ8", CALL_PARALLEL, 0, "KerGlobalPool_SQ8_T", CNN_Match(CNN_OperList(1, KOP_GLOBAL_AVGPOOL), CNN_OperList(1, KOP_RELUN), 1,
+													  CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
+
+        LibKernel("KerParGlobalAvgPool_SQ8", CALL_PARALLEL, 0, "KerGlobalPool_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_GLOBAL_AVGPOOL), CNN_OperList(1, KOP_NONE), 1,
+													  CNN_Type(1,0,0,0,4), 0,0,0,0,0,0));
+        LibKernel("KerParGlobalAvgPool_Reduct_SQ8", CALL_PARALLEL, 0, "KerGlobalPool_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_GLOBAL_AVGPOOL_REDUCT), CNN_OperList(1, KOP_NONE), 1,
+													  CNN_Type(1,0,0,0,4), 0,0,0,0,0,0));
+        LibKernel("KerParGlobalAvgPool_Reduct_ReLU_SQ8", CALL_PARALLEL, 0, "KerGlobalPool_SQ8_T",CNN_Match(CNN_OperList(1, KOP_GLOBAL_AVGPOOL_REDUCT), CNN_OperList(1, KOP_RELU), 1,
+													  CNN_Type(1,0,0,0,4), 0,0,0,0,0,0));
+        LibKernel("KerParGlobalAvgPool_Reduct_ReLUN_SQ8", CALL_PARALLEL, 0, "KerGlobalPool_SQ8_T",CNN_Match(CNN_OperList(1, KOP_GLOBAL_AVGPOOL_REDUCT), CNN_OperList(1, KOP_RELUN), 1,
+													  CNN_Type(1,0,0,0,4), 0,0,0,0,0,0));
+
+	/* Matrix Algebra */
+
+	/* Matrix Addition with tensor centric scaling and optional activation */
+	LibKernel("KerParMatAdd_SQ8", CALL_PARALLEL, 0, "KerMat3_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_MATADD), CNN_OperList(1, KOP_NONE), 1, CNN_Type(1,1,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerParMatAdd_ReLU_SQ8", CALL_PARALLEL, 0, "KerMat3_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_MATADD), CNN_OperList(1, KOP_RELU), 1, CNN_Type(1,1,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerParMatAdd_ReLUN_SQ8", CALL_PARALLEL, 0, "KerMat3_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_MATADD), CNN_OperList(1, KOP_RELUN), 1, CNN_Type(1,1,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerParMatAdd_HSigmoid_SQ8", CALL_PARALLEL, 0, "KerMat3_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATADD), CNN_OperList(1, KOP_HSIGMOID), 1, CNN_Type(1,1,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerParMatAdd_HSwish_SQ8", CALL_PARALLEL, 0, "KerMat3_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_MATADD), CNN_OperList(1, KOP_HSWISH), 1, CNN_Type(1,1,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerParMatAdd_LeakyReLU_SQ8", CALL_PARALLEL, 0, "KerMat3_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATADD), CNN_OperList(1, KOP_LEAKYRELU), 1, CNN_Type(1,1,0,0,1), 0,0,0,0,0,0));
+
+	/* Matrix Multiplication for 1x1 convolutions with channel scaling and optional ReLU or ReLUN activation */
+	/* 8b Bias */
+	LibKernel("KerParMatMulB8_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_NONE), 1, CNN_Type(1,1,1,0,1), 0,0,0,0,1,1));
+	LibKernel("KerParMatMulB8_ReLU_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_RELU), 1, CNN_Type(1,1,1,0,1), 0,0,0,0,1,1));
+	LibKernel("KerParMatMulB8_ReLUN_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_RELUN), 1, CNN_Type(1,1,1,0,1), 0,0,0,0,1,1));
+
+	LibKernel("KerParMatMuSxSylB8_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_NONE), 1, CNN_Type(1,1,1,0,1), 0,0,0,0,-1,-1));
+	LibKernel("KerParMatMulSxSyB8_ReLU_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_RELU), 1, CNN_Type(1,1,1,0,1), 0,0,0,0,-1,-1));
+	LibKernel("KerParMatMulSxSyB8_ReLUN_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_RELUN), 1, CNN_Type(1,1,1,0,1), 0,0,0,0,-1,-1));
+
+	/* 16b Bias */
+	LibKernel("KerParMatMulB16_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_NONE), 1, CNN_Type(1,1,2,0,1), 0,0,0,0,1,1));
+	LibKernel("KerParMatMulB16_ReLU_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_RELU), 1, CNN_Type(1,1,2,0,1), 0,0,0,0,1,1));
+	LibKernel("KerParMatMulB16_ReLUN_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_RELUN), 1, CNN_Type(1,1,2,0,1), 0,0,0,0,1,1));
+
+	LibKernel("KerParMatMuSxSylB16_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_NONE), 1, CNN_Type(1,1,2,0,1), 0,0,0,0,-1,-1));
+	LibKernel("KerParMatMulSxSyB16_ReLU_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_RELU), 1, CNN_Type(1,1,2,0,1), 0,0,0,0,-1,-1));
+	LibKernel("KerParMatMulSxSyB16_ReLUN_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_RELUN), 1, CNN_Type(1,1,2,0,1), 0,0,0,0,-1,-1));
+
+	/* 32b Bias */
+	LibKernel("KerParMatMulB32_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_NONE), 1, CNN_Type(1,1,4,0,1), 0,0,0,0,1,1));
+	LibKernel("KerParMatMulB32_ReLU_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_RELU), 1, CNN_Type(1,1,4,0,1), 0,0,0,0,1,1));
+	LibKernel("KerParMatMulB32_ReLUN_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_RELUN), 1, CNN_Type(1,1,4,0,1), 0,0,0,0,1,1));
+
+	LibKernel("KerParMatMuSxSylB32_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_NONE), 1, CNN_Type(1,1,4,0,1), 0,0,0,0,-1,-1));
+	LibKernel("KerParMatMulSxSyB32_ReLU_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_RELU), 1, CNN_Type(1,1,4,0,1), 0,0,0,0,-1,-1));
+	LibKernel("KerParMatMulSxSyB32_ReLUN_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL), CNN_OperList(1, KOP_RELUN), 1, CNN_Type(1,1,4,0,1), 0,0,0,0,-1,-1));
+
+	/* Matrix Multiplication for 1x1 convolutions with channel scaling and optional ReLU or ReLUN activation, optimized form when In1 fits entirely into shared L1 */
+	/* 8b Bias */
+	LibKernel("KerParMatMulB8_SF_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_MATMUL_SM1), CNN_OperList(1, KOP_NONE), 1, CNN_Type(1,1,1,0,1), 0,0,0,0,1,1));
+	LibKernel("KerParMatMulB8_ReLU_SF_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SM1), CNN_OperList(1, KOP_RELU), 1, CNN_Type(1,1,1,0,1), 0,0,0,0,1,1));
+	LibKernel("KerParMatMulB8_ReLUN_SF_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SM1), CNN_OperList(1, KOP_RELUN), 1, CNN_Type(1,1,1,0,1), 0,0,0,0,1,1));
+
+	/* 16b Bias */
+	LibKernel("KerParMatMulB16_SF_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SM1), CNN_OperList(1, KOP_NONE), 1, CNN_Type(1,1,2,0,1), 0,0,0,0,1,1));
+	LibKernel("KerParMatMulB16_ReLU_SF_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SM1), CNN_OperList(1, KOP_RELU), 1, CNN_Type(1,1,2,0,1), 0,0,0,0,1,1));
+	LibKernel("KerParMatMulB16_ReLUN_SF_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SM1), CNN_OperList(1, KOP_RELUN), 1, CNN_Type(1,1,2,0,1), 0,0,0,0,1,1));
+
+	/* 32b Bias */
+	LibKernel("KerParMatMulB32_SF_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SM1), CNN_OperList(1, KOP_NONE), 1, CNN_Type(1,1,4,0,1), 0,0,0,0,1,1));
+	LibKernel("KerParMatMulB32_ReLU_SF_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SM1), CNN_OperList(1, KOP_RELU), 1, CNN_Type(1,1,4,0,1), 0,0,0,0,1,1));
+	LibKernel("KerParMatMulB32_ReLUN_SF_SQ8", CALL_PARALLEL, 0, "KerMatMul_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATMUL_SM1), CNN_OperList(1, KOP_RELUN), 1, CNN_Type(1,1,4,0,1), 0,0,0,0,1,1));
+
+
+	/* Matrix by vector multiplication with tensor centric scaling and optional activation */
+	LibKernel("KerParMatVectMul_SQ8", CALL_PARALLEL, 0, "KerMat3_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_MATVECTMUL), CNN_OperList(1, KOP_NONE), 1, CNN_Type(1,1,1,0,1), 0,0,0,0,1,1));
+	LibKernel("KerParMatVectMul_ReLU_SQ8", CALL_PARALLEL, 0, "KerMat3_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATVECTMUL), CNN_OperList(1, KOP_RELU), 1, CNN_Type(1,1,1,0,1), 0,0,0,0,1,1));
+	LibKernel("KerParMatVectMul_ReLUN_SQ8", CALL_PARALLEL, 0, "KerMat3_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATVECTMUL), CNN_OperList(1, KOP_RELUN), 1, CNN_Type(1,1,1,0,1), 0,0,0,0,1,1));
+	LibKernel("KerParMatVectMul_HSigmoid_SQ8", CALL_PARALLEL, 0, "KerMat3_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATVECTMUL), CNN_OperList(1, KOP_HSIGMOID), 1, CNN_Type(1,1,1,0,1), 0,0,0,0,1,1));
+	LibKernel("KerParMatVectMul_HSwish_SQ8", CALL_PARALLEL, 0, "KerMat3_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATVECTMUL), CNN_OperList(1, KOP_HSWISH), 1, CNN_Type(1,1,1,0,1), 0,0,0,0,1,1));
+	LibKernel("KerParMatVectMul_LeakyReLU_SQ8", CALL_PARALLEL, 0, "KerMat3_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_MATVECTMUL), CNN_OperList(1, KOP_LEAKYRELU), 1, CNN_Type(1,1,1,0,1), 0,0,0,0,1,1));
+
+	/* Matrix Transposition, no scaling */
+	LibKernel("CNN_ParTranspose_fps", CALL_PARALLEL, 0, "KerMatTranspose_fps_T",	CNN_Match(CNN_OperList(1, KOP_MATTRANSP), 0, 1, CNN_Type(1,0,0,0,1), 0,0,0,0,1,1));
+	LibKernel("CNN_ParTransposeSxSy_fps", CALL_PARALLEL, 0, "KerMatTranspose_fps_T",CNN_Match(CNN_OperList(1, KOP_MATTRANSP), 0, 1, CNN_Type(1,0,0,0,1), 0,0,0,0,-1,-1));
+	LibKernel("CNN_Transpose_fps", CALL_PARALLEL, 0, "KerMatTranspose_fps_T",	CNN_Match(CNN_OperList(1, KOP_MATTRANSP), 0, 0, CNN_Type(1,0,0,0,1), 0,0,0,0,1,1));
+	LibKernel("CNN_TransposeSxSy_fps", CALL_PARALLEL, 0, "KerMatTranspose_fps_T",	CNN_Match(CNN_OperList(1, KOP_MATTRANSP), 0, 0, CNN_Type(1,0,0,0,1), 0,0,0,0,-1,-1));
+
+	/* Tensor Permutation, no scaling */
+	LibKernel("CNN_MatPermCHW2CWH_fps", CALL_PARALLEL, 0, "KerMatTranspose_fps_T",	CNN_Match(CNN_OperList(1, KOP_MATPERM_CHW2CWH), 0, 1, CNN_Type(1,0,0,0,1), 0,0,0,0,1,1));
+	LibKernel("CNN_MatPermCHW2HWC_fps", CALL_PARALLEL, 0, "KerMatTranspose_fps_T",	CNN_Match(CNN_OperList(1, KOP_MATPERM_CHW2HWC), 0, 1, CNN_Type(1,0,0,0,1), 0,0,0,0,1,1));
+	LibKernel("CNN_MatPermCHW2WHC_fps", CALL_PARALLEL, 0, "KerMatTranspose_fps_T",	CNN_Match(CNN_OperList(1, KOP_MATPERM_CHW2WHC), 0, 1, CNN_Type(1,0,0,0,1), 0,0,0,0,1,1));
+	LibKernel("CNN_MatPermCHW2WCH_fps", CALL_PARALLEL, 0, "KerMatTranspose_fps_T",	CNN_Match(CNN_OperList(1, KOP_MATPERM_CHW2WCH), 0, 1, CNN_Type(1,0,0,0,1), 0,0,0,0,1,1));
+	LibKernel("CNN_MatPermCHW2HCW_fps", CALL_PARALLEL, 0, "KerMatTranspose_fps_T",	CNN_Match(CNN_OperList(1, KOP_MATPERM_CHW2HCW), 0, 1, CNN_Type(1,0,0,0,1), 0,0,0,0,1,1));
+
+	/* SoftMax, pre scaling */
+	LibKernel("KerParSoftMax_SQ8", CALL_PARALLEL, 0, "KerSoftMax_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_SOFTMAX), 0, -1, CNN_Type(1,0,0,0,2), 0,0,0,0,0,0));
+
+
+
+	/****************************************************************************************************************/
+	/* Kernels for features and coefficients on 8 bits. Kernels for a single feature evaluated in parallel          */
+	/****************************************************************************************************************/
+
+	/* Bias setting */
+        LibKernel("KerSetBiasB8_SQ8", CALL_PARALLEL, 0, "KerSetBias_SQ8_T", 		CNN_Match(CNN_OperList(1, KOP_SETBIAS), 0, 0, CNN_Type(1,0,0,0,4), 0,0,0,0,0,0));
+        LibKernel("KerSetBiasB16_SQ8", CALL_PARALLEL, 0, "KerSetBias_SQ8_T", 		CNN_Match(CNN_OperList(1, KOP_SETBIAS), 0, 0, CNN_Type(2,0,0,0,4), 0,0,0,0,0,0));
+        LibKernel("KerSetBiasB32_SQ8", CALL_PARALLEL, 0, "KerSetBias_SQ8_T", 		CNN_Match(CNN_OperList(1, KOP_SETBIAS), 0, 0, CNN_Type(4,0,0,0,4), 0,0,0,0,0,0));
+
+	/* Convolutions with 32b output */
+        LibKernel("KerConv1x1Stride1_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 0, CNN_Type(1,1,1,0,4), 1,1,1,1,1,1));
+        LibKernel("KerConv1x1Stride2_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 0, CNN_Type(1,1,1,0,4), 1,1,1,1,2,2));
+        LibKernel("KerConv1x1StrideS_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 0, CNN_Type(1,1,1,0,4), 1,1,1,1,-1,-2));
+
+        LibKernel("KerConv3x1Stride1x1_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 0, CNN_Type(1,1,1,0,4), 3,1,1,1,1,1));
+        LibKernel("KerConv3x1Stride2x1_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 0, CNN_Type(1,1,1,0,4), 3,1,1,1,2,1));
+        LibKernel("KerConv1x3Stride1x1_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 0, CNN_Type(1,1,1,0,4), 1,3,1,1,1,1));
+        LibKernel("KerConv1x3Stride1x2_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 0, CNN_Type(1,1,1,0,4), 1,3,1,1,1,2));
+
+        LibKernel("KerConv3x3Stride1_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 0, CNN_Type(1,1,1,0,4), 3,3,1,1,1,1));
+        LibKernel("KerConv3x3Stride2_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 0, CNN_Type(1,1,1,0,4), 3,3,1,1,2,2));
+        LibKernel("KerConv3x3StrideS_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 0, CNN_Type(1,1,1,0,4), 3,3,1,1,-1,-2));
+
+        LibKernel("KerConv5x1Stride1x1_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 0, CNN_Type(1,1,1,0,4), 5,1,1,1,1,1));
+        LibKernel("KerConv5x1Stride2x1_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 0, CNN_Type(1,1,1,0,4), 5,1,1,1,2,1));
+        LibKernel("KerConv1x5Stride1x1_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 0, CNN_Type(1,1,1,0,4), 1,5,1,1,1,1));
+        LibKernel("KerConv1x5Stride1x2_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 0, CNN_Type(1,1,1,0,4), 1,5,1,1,1,2));
+
+        LibKernel("KerConv5x5Stride1_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 0, CNN_Type(1,1,1,0,4), 5,5,1,1,1,1));
+        LibKernel("KerConv5x5Stride2_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 0, CNN_Type(1,1,1,0,4), 5,5,1,1,2,2));
+        LibKernel("KerConv5x5StrideS_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 0, CNN_Type(1,1,1,0,4), 5,5,1,1,-1,-2));
+
+        LibKernel("KerConv7x7StrideS_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 0, CNN_Type(1,1,1,0,4), 7,7,1,1,-1,-2));
+
+        LibKernel("KerConvNxNStrideS_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_CONV), 0, 0, CNN_Type(1,1,1,0,4), -1,-2,1,1,-1,-2));
+        LibKernel("KerConvNxMStrideSxSy_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV), 0, 0, CNN_Type(1,1,1,0,4), -1,-1,1,1,-1,-1));
+
+        LibKernel("KerConvNxMDxDyStrideSxSy_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV), 0, 0, CNN_Type(1,1,1,0,4), -1,-1,-1,-1,-1,-1));
+
+	/* Depth Wise Convolutions, 8b bias, 32b output */
+        LibKernel("KerConvDW1x1Stride1B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T", 	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,1,0,4), 1,1,1,1,1,1));
+        LibKernel("KerConvDW1x1Stride2B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,1,0,4), 1,1,1,1,2,2));
+        LibKernel("KerConvDW1x1StrideSB8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,1,0,4), 1,1,1,1,-1,-2));
+
+        LibKernel("KerConvDW3x1Stride1x1B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,1,0,4), 3,1,1,1,1,1));
+        LibKernel("KerConvDW3x1Stride2x1B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,1,0,4), 3,1,1,1,2,1));
+        LibKernel("KerConvDW1x3Stride1x1B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,1,0,4), 1,3,1,1,1,1));
+        LibKernel("KerConvDW1x3Stride1x2B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,1,0,4), 1,3,1,1,1,2));
+
+        LibKernel("KerConvDW3x3Stride1B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,1,0,4), 3,3,1,1,1,1));
+        LibKernel("KerConvDW3x3Stride2B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,1,0,4), 3,3,1,1,2,2));
+        LibKernel("KerConvDW3x3StrideSB8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,1,0,4), 3,3,1,1,-1,-2));
+
+        LibKernel("KerConvDW5x1Stride1x1B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,1,0,4), 5,1,1,1,1,1));
+        LibKernel("KerConvDW5x1Stride2x1B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,1,0,4), 5,1,1,1,2,1));
+        LibKernel("KerConvDW1x5Stride1x1B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,1,0,4), 1,5,1,1,1,1));
+        LibKernel("KerConvDW1x5Stride1x2B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,1,0,4), 1,5,1,1,1,2));
+
+        LibKernel("KerConvDW5x5Stride1B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,1,0,4), 5,5,1,1,1,1));
+        LibKernel("KerConvDW5x5Stride2B8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,1,0,4), 5,5,1,1,2,2));
+        LibKernel("KerConvDW5x5StrideSB8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,1,0,4), 5,5,1,1,-1,-2));
+
+        LibKernel("KerConvDW7x7StrideSB8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,1,0,4), 7,7,1,1,-1,-2));
+
+        LibKernel("KerConvDWNxNStrideSB8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,1,0,4), -1,-2,1,1,-1,-2));
+        LibKernel("KerConvDWNxMStrideSxSyB8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,1,0,4), -1,-1,1,1,-1,-1));
+
+        LibKernel("KerConvDWNxMDxDyStrideSxSyB8_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,1,0,4), -1,-1,-1,-1,-1,-1));
+
+	/* Depth Wise Convolutions, 16b bias, 32b output */
+        LibKernel("KerConvDW1x1Stride1B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T", 	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,2,0,4), 1,1,1,1,1,1));
+        LibKernel("KerConvDW1x1Stride2B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,2,0,4), 1,1,1,1,2,2));
+        LibKernel("KerConvDW1x1StrideSB16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,2,0,4), 1,1,1,1,-1,-2));
+
+        LibKernel("KerConvDW3x1Stride1x1B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,2,0,4), 3,1,1,1,1,1));
+        LibKernel("KerConvDW3x1Stride2x1B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,2,0,4), 3,1,1,1,2,1));
+        LibKernel("KerConvDW1x3Stride1x1B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,2,0,4), 1,3,1,1,1,1));
+        LibKernel("KerConvDW1x3Stride1x2B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,2,0,4), 1,3,1,1,1,2));
+
+        LibKernel("KerConvDW3x3Stride1B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,2,0,4), 3,3,1,1,1,1));
+        LibKernel("KerConvDW3x3Stride2B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,2,0,4), 3,3,1,1,2,2));
+        LibKernel("KerConvDW3x3StrideSB16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,2,0,4), 3,3,1,1,-1,-2));
+
+        LibKernel("KerConvDW5x1Stride1x1B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,2,0,4), 5,1,1,1,1,1));
+        LibKernel("KerConvDW5x1Stride2x1B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,2,0,4), 5,1,1,1,2,1));
+        LibKernel("KerConvDW1x5Stride1x1B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,2,0,4), 1,5,1,1,1,1));
+        LibKernel("KerConvDW1x5Stride1x2B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,2,0,4), 1,5,1,1,1,2));
+
+        LibKernel("KerConvDW5x5Stride1B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,2,0,4), 5,5,1,1,1,1));
+        LibKernel("KerConvDW5x5Stride2B16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,2,0,4), 5,5,1,1,2,2));
+        LibKernel("KerConvDW5x5StrideSB16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,2,0,4), 5,5,1,1,-1,-2));
+
+        LibKernel("KerConvDW7x7StrideSB16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,2,0,4), 7,7,1,1,-1,-2));
+
+        LibKernel("KerConvDWNxNStrideSB16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,2,0,4), -1,-2,1,1,-1,-2));
+        LibKernel("KerConvDWNxMStrideSxSyB16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,2,0,4), -1,-1,1,1,-1,-1));
+
+        LibKernel("KerConvDWNxMDxDyStrideSxSyB16_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,2,0,4), -1,-1,-1,-1,-1,-1));
+
+	/* Depth Wise Convolutions, 32b bias, 32b output */
+        LibKernel("KerConvDW1x1Stride1B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T", 	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,4,0,4), 1,1,1,1,1,1));
+        LibKernel("KerConvDW1x1Stride2B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,4,0,4), 1,1,1,1,2,2));
+        LibKernel("KerConvDW1x1StrideSB32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,4,0,4), 1,1,1,1,-1,-2));
+
+        LibKernel("KerConvDW3x1Stride1x1B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,4,0,4), 3,1,1,1,1,1));
+        LibKernel("KerConvDW3x1Stride2x1B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,4,0,4), 3,1,1,1,2,1));
+        LibKernel("KerConvDW1x3Stride1x1B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,4,0,4), 1,3,1,1,1,1));
+        LibKernel("KerConvDW1x3Stride1x2B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,4,0,4), 1,3,1,1,1,2));
+
+        LibKernel("KerConvDW3x3Stride1B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,4,0,4), 3,3,1,1,1,1));
+        LibKernel("KerConvDW3x3Stride2B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,4,0,4), 3,3,1,1,2,2));
+        LibKernel("KerConvDW3x3StrideSB32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,4,0,4), 3,3,1,1,-1,-2));
+
+        LibKernel("KerConvDW5x1Stride1x1B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,4,0,4), 5,1,1,1,1,1));
+        LibKernel("KerConvDW5x1Stride2x1B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,4,0,4), 5,1,1,1,2,1));
+        LibKernel("KerConvDW1x5Stride1x1B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,4,0,4), 1,5,1,1,1,1));
+        LibKernel("KerConvDW1x5Stride1x2B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,4,0,4), 1,5,1,1,1,2));
+
+        LibKernel("KerConvDW5x5Stride1B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,4,0,4), 5,5,1,1,1,1));
+        LibKernel("KerConvDW5x5Stride2B32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,4,0,4), 5,5,1,1,2,2));
+        LibKernel("KerConvDW5x5StrideSB32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,4,0,4), 5,5,1,1,-1,-2));
+
+        LibKernel("KerConvDW7x7StrideSB32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,4,0,4), 7,7,1,1,-1,-2));
+
+        LibKernel("KerConvDWNxNStrideSB32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,4,0,4), -1,-2,1,1,-1,-2));
+        LibKernel("KerConvDWNxMStrideSxSyB32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,4,0,4), -1,-1,1,1,-1,-1));
+
+        LibKernel("KerConvDWNxMDxDyStrideSxSyB32_SQ8", CALL_PARALLEL, 0, "KerConv_SQ8_T",CNN_Match(CNN_OperList(1, KOP_CONV_DW), 0, 0, CNN_Type(1,1,4,0,4), -1,-1,-1,-1,-1,-1));
+
+	/* Convolution, Linear output reduction with per channel scaling and optional activation. Out != In and In Place (IO)  */
+	LibKernel("KerReduct_CC_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_DP_REDUCT), CNN_OperList(1, KOP_NONE), 0,
+												  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerReduct_CC_ReLU_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_DP_REDUCT), CNN_OperList(1, KOP_RELU), 0,
+												  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerReduct_CC_ReLUN_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_DP_REDUCT), CNN_OperList(1, KOP_RELUN), 0,
+												  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerReduct_CC_HSigmoid_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",CNN_Match(CNN_OperList(1, KOP_DP_REDUCT), CNN_OperList(1, KOP_HSIGMOID), 0,
+												  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerReduct_CC_HSwish_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",CNN_Match(CNN_OperList(1, KOP_DP_REDUCT), CNN_OperList(1, KOP_HSWISH), 0,
+												  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerReduct_CC_LeakyReLU_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",CNN_Match(CNN_OperList(1, KOP_DP_REDUCT), CNN_OperList(1, KOP_LEAKYRELU), 0,
+												  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+
+	LibKernel("KerReductIO_CC_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",	CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO), CNN_OperList(1, KOP_NONE), 0,
+												  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerReductIO_CC_ReLU_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO), CNN_OperList(1, KOP_RELU), 0,
+												  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerReductIO_CC_ReLUN_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO), CNN_OperList(1, KOP_RELUN), 0,
+												  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerReductIO_CC_HSigmoid_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO), CNN_OperList(1, KOP_HSIGMOID), 0,
+												  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerReductIO_CC_HSwish_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO), CNN_OperList(1, KOP_HSWISH), 0,
+												  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+	LibKernel("KerReductIO_CC_LeakyReLU_SQ8", CALL_PARALLEL, 0, "KerConvLinReduct_SQ8_T",CNN_Match(CNN_OperList(1, KOP_DP_REDUCT_IO), CNN_OperList(1, KOP_LEAKYRELU), 0,
+												  CNN_Type(4,0,0,0,1), 0,0,0,0,0,0));
+
+	/* Activations with tensor centric scaling */
+        LibKernel("Ker_ReLU_SQ8", CALL_PARALLEL, 0, "KerActivation_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_RELU), 0, 0, CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
+        LibKernel("Ker_ReLUN_SQ8", CALL_PARALLEL, 0, "KerActivation_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_RELUN), 0, 0, CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
+        LibKernel("Ker_HSigmoid_SQ8", CALL_PARALLEL, 0, "KerActivation_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_HSIGMOID), 0, 0, CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
+        LibKernel("Ker_HSwish_SQ8", CALL_PARALLEL, 0, "KerActivation_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_HSWISH), 0, 0, CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
+        LibKernel("Ker_LeakyReLU_SQ8", CALL_PARALLEL, 0, "KerActivation_SQ8_T",		CNN_Match(CNN_OperList(1, KOP_LEAKYRELU), 0, 0, CNN_Type(1,0,0,0,1), 0,0,0,0,0,0));
+
+
+	/* Pooling (Max or Avg) with tensor centric scaling and optional ReLU or ReLUN activation */
+        LibKernel("KerPool2x2Stride2_SQ8", CALL_PARALLEL, 0, "KerPool_SQ8_T",		CNN_Match(CNN_OperList(2, KOP_MAXPOOL, KOP_AVGPOOL), CNN_OperList(1, KOP_NONE), 0,
+												  CNN_Type(1,0,0,0,1), 2,2,1,1,2,2));
+        LibKernel("KerPool2x2Stride2_ReLU_SQ8", CALL_PARALLEL, 0, "KerPool_SQ8_T",	CNN_Match(CNN_OperList(2, KOP_MAXPOOL, KOP_AVGPOOL), CNN_OperList(1, KOP_RELU), 0,
+												  CNN_Type(1,0,0,0,1), 2,2,1,1,2,2));
+        LibKernel("KerPool2x2Stride2_ReLUN_SQ8", CALL_PARALLEL, 0, "KerPool_SQ8_T",	CNN_Match(CNN_OperList(2, KOP_MAXPOOL, KOP_AVGPOOL), CNN_OperList(1, KOP_RELUN), 0,
+												  CNN_Type(1,0,0,0,1), 2,2,1,1,2,2));
+
+        LibKernel("KerPoolNxNStrideS_SQ8", CALL_PARALLEL, 0, "KerPool_SQ8_T",		CNN_Match(CNN_OperList(2, KOP_MAXPOOL, KOP_AVGPOOL), CNN_OperList(1, KOP_NONE), 0,
+												  CNN_Type(1,0,0,0,1), -1,-2,1,1,-1,-2));
+        LibKernel("KerPoolNxNStrideS_ReLU_SQ8", CALL_PARALLEL, 0, "KerPool_SQ8_T",	CNN_Match(CNN_OperList(2, KOP_MAXPOOL, KOP_AVGPOOL), CNN_OperList(1, KOP_RELU), 0,
+												  CNN_Type(1,0,0,0,1), -1,-2,1,1,-1,-2));
+        LibKernel("KerPoolNxNStrideS_ReLUN_SQ8", CALL_PARALLEL, 0, "KerPool_SQ8_T",	CNN_Match(CNN_OperList(2, KOP_MAXPOOL, KOP_AVGPOOL), CNN_OperList(1, KOP_RELUN), 0,
+												  CNN_Type(1,0,0,0,1), -1,-2,1,1,-1,-2));
+
+        LibKernel("KerPoolNxMStrideSxSy_SQ8", CALL_PARALLEL, 0, "KerPool_SQ8_T",	CNN_Match(CNN_OperList(2, KOP_MAXPOOL, KOP_AVGPOOL), CNN_OperList(1, KOP_NONE), 0,
+												  CNN_Type(1,0,0,0,1), -1,-1,1,1,-1,-1));
+        LibKernel("KerPoolNxMStrideSxSy_ReLU_SQ8", CALL_PARALLEL, 0, "KerPool_SQ8_T",	CNN_Match(CNN_OperList(2, KOP_MAXPOOL, KOP_AVGPOOL), CNN_OperList(1, KOP_RELU), 0,
+												  CNN_Type(1,0,0,0,1), -1,-1,1,1,-1,-1));
+        LibKernel("KerPoolNxMStrideSxSy_ReLUN_SQ8", CALL_PARALLEL, 0, "KerPool_SQ8_T",	CNN_Match(CNN_OperList(2, KOP_MAXPOOL, KOP_AVGPOOL), CNN_OperList(1, KOP_RELUN), 0,
+												  CNN_Type(1,0,0,0,1), -1,-1,1,1,-1,-1));
+}
+
+/*********************************************************************************************************************************************************************
+ 	Generator for Convolutions with channel centric scaling, followed by an optional pooling (Max or Average),
+	followed by an optional Activation.
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (TileOrientation, Parallel Features, Use HWCE), Def=(TILE_HOR, 1, 0)
+
+		Bias_DataSize:	1: byte, 2: half word, 4: word
+		Scale_DataSize:	1: byte, 2: half word, 4: word
+
+		InFeat:		Number of input feature's maps
+		OutFeat:	Number of output feature's maps
+		Width:		Number of columns of a given feature map
+		Height:		Number of lines of a given feature map
+
+		ConvOper:	Type of convolution, Regular convolution: KOP_CONV, KOP_CONV_DP, Depth wise convolution: KOP_CONV_DW
+		Fcx:		Convolution filter x dimension
+		Fcy:		Convolution filter y dimension
+		Dcx:		Convolution filter dilation factor, x dimension
+		Dcy:		Convolution filter dilation factor, y dimension
+		Scx:		Convolution filter stride x dimension
+		Scy:		Convolution filter stride y dimension
+		ConvPad:	0: No padding, 1: Zero padding
+
+		PoolOper:	Type of Pooling, KOP_NONE, Max Pooling: KOP_MAXPOOL, Average Pooling: KOP_AVGPOOL
+		Fpx:		Pooling filter x dimension
+		Fpy:		Pooling filter y dimension
+		Dpx:		Pooling filter dilation factor, x dimension
+		Dpy:		Pooling filter dilation factor, y dimension
+		Spx:		Pooling filter stride x dimension
+		Spy:		Pooling filter stride y dimension
+		PoolPad:	0: No padding, 1: Zero padding
+
+		ActOper:	Optional activation function: KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+
+		Signature:	Name(In, Filter, Bias, Out, Scale, ScaleN, Infos)
+
+	CNN_ConvolutionPoolAct_SQ8
+	
+*********************************************************************************************************************************************************************/
+
+int CNN_ConvolutionPoolAct_SQ8(
+	char         *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int Bias_DataSize,
+	int Scale_DataSize,
+
+       	int InFeat,
+       	int OutFeat,
+       	int Width,
+       	int Height,
+
+	KernelOper_T ConvOper,
+       	int Fcx,
+       	int Fcy,
+	int Dcx,
+	int Dcy,
+	int Scx,
+	int Scy,
+	int ConvPad,
+
+	KernelOper_T PoolOper,
+	int Fpx,
+	int Fpy,
+	int Dpx,
+	int Dpy,
+	int Spx,
+	int Spy,
+	int PoolPad,
+
+	KernelOper_T ActOper
+	)
+
+{
+	if (ConvOper==KOP_NONE) {
+		if (PoolOper!=KOP_NONE)
+			return CNN_PoolAct_SQ8(Name, Ctrl, InFeat, Width, Height, PoolOper, Fpx, Fpy, Dpx, Dpy, Spx, Spy, PoolPad, ActOper);
+		else if (ActOper!=KOP_NONE)
+			return CNN_Act_SQ8(Name, Ctrl, InFeat, Width, Height, ActOper);
+		else GenTilingError("CNN_ConvolutionPoolAct_SQ8 Kernel: %s, All requested operations are KOP_NONE", Name);
+	}
+
+	int ParFeat = 1; 
+	Tile_Orientation_T TileOrientation = TILE_HOR;
+	AT_PadType PadType = PAD_BALANCED_LEFT;
+	if (PoolOper==KOP_NONE) {
+		Fpx=1; Dpx=1; Spx=1; Fpy=1; Dpy=1; Spy=1;
+	}
+	if (Ctrl) {
+		if (Ctrl->TileOrientation != -1) TileOrientation = (Ctrl->TileOrientation==0)?TILE_HOR:TILE_VER;
+		if (Ctrl->ParallelFeatures != -1) ParFeat = Ctrl->ParallelFeatures;
+		if (Ctrl->PadType != -1) PadType = Ctrl->PadType;
+	}
+	int OverlapC, OverlapP;
+	int TileCons;
+	int Wo, Ho, Wc, Hc;
+        int PadCw=0, PadCh=0, PadPw=0, PadPh=0;
+        v4s PadInp  = (v4s){0,0,0,0}, PadInc  = (v4s){0,0,0,0}, PadIncT = (v4s){0,0,0,0};
+	char *ConvKerName=0, *PoolKerName=0, *ActKerName=0, *SetBiasKerName=0, *DPReductionKerName=0;
+	int DWConv=(ConvOper==KOP_CONV_DW);
+	int NeedFcx, NeedFcy, NeedDcx, NeedDcy, NeedScx, NeedScy, NeedFpx, NeedFpy, NeedDpx, NeedDpy, NeedSpx, NeedSpy;
+	int Os=(DWConv?D0:D1);
+	int UsedWidth, UsedHeight, UsedWc, UsedHc;
+	int InTileCons = 4;
+	int StandAloneAct = (ActOper!=KOP_NONE);
+	unsigned long long int LayerOp = 0;
+	unsigned long long int LayerBandwidth = 0;
+	int Log=1;
+
+	if (!(ConvOper == KOP_NONE || ConvOper == KOP_CONV || ConvOper == KOP_CONV_DW))
+		GenTilingError("CNN_ConvolutionPoolAct_SQ8 Kernel: %s, ConvOper, expecting KOP_NONE, KOP_CONV or KOP_CONV_DW", Name);
+	if (!(PoolOper == KOP_NONE || PoolOper == KOP_MAXPOOL || PoolOper == KOP_AVGPOOL))
+		GenTilingError("CNN_ConvolutionPoolAct_SQ8 Kernel: %s, PoolOper, expecting KOP_NONE, KOP_MAXPOOL or KOP_AVGPOOL", Name);
+	if (!(ActOper == KOP_NONE || ActOper == KOP_RELU || ActOper == KOP_RELUN || ActOper == KOP_HSIGMOID || ActOper == KOP_HSWISH || ActOper == KOP_LEAKYRELU))
+		GenTilingError("CNN_ConvolutionPoolAct_SQ8 Kernel: %s, ActOper, expecting KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSIGMOID, KOP_HSWISH or KOP_LEAKYRELU", Name);
+
+	if (DWConv && (InFeat != OutFeat)) GenTilingError("CNN_ConvolutionPoolAct_SQ8 Kernel: %s, Depth wise convolution requested with InFeat:%d != OutFeat:%d", Name, InFeat, OutFeat);
+
+	CNN_LayerOutputDim(Width, Height, ConvOper, Fcx, Fcy, Dcx, Dcy, Scx, Scy, ConvPad, PoolOper, Fpx, Fpy, Dpx, Dpy, Spx, Spy, PoolPad,
+			   &Wc, &Hc, &Wo, &Ho, &PadCw, &PadCh, &PadPw, &PadPh);
+	PadInc = CNN_EdgePaddingValue(PadType, PadCw, PadCh);
+	PadInp = CNN_EdgePaddingValue(PadType, PadPw, PadPh);
+        /* Pad value for tiling, need to accrue phantom values created for Pool padding */
+        PadIncT = (v4s) {PadInp[0]*Scx+PadInc[0], PadInp[1]*Scx+PadInc[1], PadInp[2]*Scy+PadInc[2], PadInp[3]*Scy+PadInc[3]};
+
+	CNN_TileOverlap(TileOrientation, Fcx, Fcy, Dcx, Dcy, Scx, Scy, Fpx, Fpy, Dpx, Dpy, Spx, Spy, &OverlapC, &OverlapP);
+	UsedWc = CNN_UsedInputDimension(Wo, Fpx, Spx, Dpx, PadPw);
+	UsedHc = CNN_UsedInputDimension(Ho, Fpy, Spy, Dpy, PadPh);
+	UsedWidth  = CNN_UsedInputDimension(UsedWc, Fcx, Scx, Dcx, PadCw);
+	UsedHeight = CNN_UsedInputDimension(UsedHc, Fcy, Scy, Dcy, PadCh);
+	TileCons = (TileOrientation==TILE_HOR)?CNN_Scm(Scy, Spy):CNN_Scm(Scx, Spx);
+
+	/* Re evaluate now that we know exactly what is used */
+	PadInc[1] = Max(0, PadInc[1]-(Width-UsedWidth)); PadInc[3] = Max(0, PadInc[3]-(Height-UsedHeight));
+	PadInp[1] = Max(0, PadInp[1]-(Wc-UsedWc)); PadInp[3] = Max(0, PadInp[3]-(Hc-UsedHc));
+        PadIncT = (v4s) {PadInp[0]*Scx+PadInc[0], PadInp[1]*Scx+PadInc[1], PadInp[2]*Scy+PadInc[2], PadInp[3]*Scy+PadInc[3]};
+	UsedWc = (Wo-1)*Spx+(Dpx*(Fpx-1)+1)-PadInp[0]-PadInp[1]; UsedHc = (Ho-1)*Spy+(Dpy*(Fpy-1)+1)-PadInp[2]-PadInp[3];
+	UsedWidth  = (UsedWc-1)*Scx+(Dcx*(Fcx-1)+1) -PadInc[0]-PadInc[1]; UsedHeight = (UsedHc-1)*Scy+(Dcy*(Fcy-1)+1)-PadInc[2]-PadInc[3];
+	Wc = UsedWc; Hc = UsedHc;
+
+	/* Layer number of operations and memory bandwidth requirements */
+	LayerOp += Wc*Hc*Fcx*Fcy*OutFeat;
+	if (!DWConv) LayerOp *= InFeat;
+	if (PoolOper) LayerOp += OutFeat*Wo*Ho*Fpx*Fpy;
+	if (ActOper) LayerOp += OutFeat*Wo*Ho;
+	LayerBandwidth += Width*Height*1*InFeat*(DWConv?1:OutFeat);
+	LayerBandwidth += Wo*Ho*1*OutFeat;
+	LayerBandwidth += Fcx*Fcy*1*InFeat*(DWConv?1:OutFeat);
+	LayerBandwidth += Bias_DataSize*OutFeat;
+
+	/* Basic Kernel Matching */
+	if (!DWConv) {
+		SetBiasKerName = CNN_FindMatchingKernel(KOP_SETBIAS, KOP_NONE, ParFeat, Bias_DataSize, 0, 0, 0, 4, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
+		if (SetBiasKerName==0) GenTilingError("CNN_ConvolutionPoolAct_SQ8 Kernel: %s, Can't find a matching Set Bias basic kernel", Name);
+	}
+
+	ConvKerName = CNN_FindMatchingKernel(ConvOper, KOP_NONE, ParFeat, 1, 1, DWConv?Bias_DataSize:0, 0, 4, Fcx, Fcy, Dcx, Dcy, Scx, Scy,
+					     &NeedFcx, &NeedFcy, &NeedDcx, &NeedDcy, &NeedScx, &NeedScy, 0);
+	if (ConvKerName==0) GenTilingError("CNN_ConvolutionPoolAct_SQ8 Kernel: %s, Can't find a matching Convolution basic kernel", Name);
+
+	if (PoolOper != KOP_NONE) {
+		DPReductionKerName = CNN_FindMatchingKernel(KOP_DP_REDUCT_IO, KOP_NONE, ParFeat, 4, 0, 0, 0, 1, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
+		if (DPReductionKerName==0) GenTilingError("CNN_ConvolutionPoolAct_SQ8 Kernel: %s, Can't find a matching Reduction basic kernel", Name);
+	} else {
+		DPReductionKerName = CNN_FindMatchingKernel(KOP_DP_REDUCT, ActOper, ParFeat, 4, 0, 0, 0, 1, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
+		if (DPReductionKerName==0)
+			DPReductionKerName = CNN_FindMatchingKernel(KOP_DP_REDUCT, KOP_NONE, ParFeat, 4, 0, 0, 0, 1, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
+		else if (ActOper) StandAloneAct = 0;
+		if (DPReductionKerName==0) GenTilingError("CNN_ConvolutionPoolAct_SQ8 Kernel: %s, Can't find a matching Reduction basic kernel", Name);
+	}
+
+	if (PoolOper!=KOP_NONE) {
+		PoolKerName = CNN_FindMatchingKernel(PoolOper, ActOper, ParFeat, 1, 0, 0, 0, 1, Fpx, Fpy, Dpx, Dpy, Spx, Spy,
+						     &NeedFpx, &NeedFpy, &NeedDpx, &NeedDpy, &NeedSpx, &NeedSpy, 0);
+		if (PoolKerName==0) 
+			PoolKerName = CNN_FindMatchingKernel(PoolOper, KOP_NONE, ParFeat, 1, 0, 0, 0, 1, Fpx, Fpy, Dpx, Dpy, Spx, Spy,
+							     &NeedFpx, &NeedFpy, &NeedDpx, &NeedDpy, &NeedSpx, &NeedSpy, 0);
+		else if (ActOper) StandAloneAct = 0;
+		if (PoolKerName==0) GenTilingError("CNN_ConvolutionPoolAct_SQ8 Kernel: %s, Can't find a matching Pooling %s basic kernel", Name, ActOper?"with linear rectification":"");
+	}
+	if (ActOper && StandAloneAct) {
+		ActKerName = CNN_FindMatchingKernel(ActOper, KOP_NONE, ParFeat, 1, 0, 0, 0, 1, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
+		if (ActKerName==0) GenTilingError("CNN_ConvolutionPoolAct_SQ8 Kernel: %s, Can't find a matching Activation basic kernel", Name);
+	}
+
+	if (Log) {
+		printf("InFeat: %d, OutFeat: %d\n", InFeat, OutFeat);
+        	printf("Conv => W:  %d, Pad:[%d,%d] PadT:[%d,%d] => Wc: %d, Filter:[%d,%d]\n", Width,  PadInc[0], PadInc[1], PadIncT[0], PadIncT[1], Wc, Fcx, Fcy);
+        	printf("     => H:  %d, Pad:[%d,%d] PadT:[%d,%d] => Hc: %d\n", Height, PadInc[2], PadInc[3], PadIncT[2], PadIncT[3], Hc);
+        	printf("Pool => Wc: %d, Pad:[%d,%d] => Wo: %d, Filter:[%d,%d]\n", Wc, PadInp[0], PadInp[1], Wo, Fpx, Fpy);
+        	printf("     => Hc: %d, Pad:[%d,%d] => Ho: %d\n", Hc, PadInp[2], PadInp[3], Ho);
+        	printf("OverlapC: %d\n", OverlapC);
+        	printf("OverlapP: %d\n", OverlapP);
+        	printf("TileCons: %d\n", TileCons);
+		printf("UsedIn  : [%d x %d]\n", UsedWidth, UsedHeight);
+		printf("UsedC   : [%d x %d]\n", UsedWc, UsedHc);
+		if (SetBiasKerName) printf("%20s: %s\n", "SetBiasKerName", SetBiasKerName);
+		if (ConvKerName) printf("%20s: %s\n", "ConvKerName", ConvKerName);
+		if (DPReductionKerName) printf("%20s: %s\n", "DPReductionKerName", DPReductionKerName);
+		if (PoolKerName) printf("%20s: %s\n", "PoolKerName", PoolKerName);
+		if (ActKerName) printf("%20s: %s\n", "ActKerName", ActKerName);
+		printf("Nb Oper : %lld\n", LayerOp);
+		
+	}
+	if (Ctrl && (Ctrl->EnableIm2Col==1) && (ConvOper==KOP_CONV) && (PoolOper==KOP_NONE) && (Fcx==1) && (Fcy==1) && (Dcx==1) && (Dcy==1)) {
+		AT_SetKernelCtrl(AT_KERNEL_NOSOLUTION_ERROR, AT_OPT_OFF);
+		// if ((InFeat+OutFeat)<80) {
+		if ((InFeat+OutFeat)<100) {
+			if (Log) printf("Mapping this convolution to matrix multiplication with small first operand\n");
+			int Ok = CNN_MatMulSmallM1Act_SQ8(Name, 0, Bias_DataSize, Scale_DataSize, InFeat, OutFeat, Width*Height, InFeat, Width, Height, Scx, Scy, KOP_MATMUL_SM1, ActOper);
+			if (!Ok&&Log) printf("Mapping this convolution to matrix multiplication with small first operand FAILED, trying with standard mult implementation\n");
+			if (Ok) return Ok;
+		}
+		if (Log) printf("Mapping this convolution to matrix multiplication\n");
+		int Ok = CNN_MatMulAct_SQ8(Name, 0, Bias_DataSize, Scale_DataSize, InFeat, OutFeat, Width*Height, InFeat, Width, Height, Scx, Scy, KOP_MATMUL, ActOper);
+		AT_SetKernelCtrl(AT_KERNEL_NOSOLUTION_ERROR, AT_OPT_ON);
+		if (Ok) return Ok;
+		if (Log) printf("Mapping this convolution to matrix multiplication FAILED, reverting to standard implementation\n");
+	}
+
+	/* User kernel C arguments */
+	CKernel_Arg_T **KCArgs = AllocateCArgs(7);
+	int Ca=0;
+
+	KCArgs[Ca++] = TCArg(CNN_ArgDataType(1,            1,1),     "In");
+	KCArgs[Ca++] = TCArg(CNN_ArgDataType(1,            1,1), "Filter");
+	KCArgs[Ca++] = TCArg(CNN_ArgDataType(Bias_DataSize,1,1),   "Bias");
+       	KCArgs[Ca++] = TCArg(CNN_ArgDataType(1,            1,1),    "Out");
+       	KCArgs[Ca++] = TCArg(CNN_ArgDataTypeUns(1,         1,1),  "Scale");
+       	KCArgs[Ca++] = TCArg(CNN_ArgDataTypeUns(1,         1,1), "ScaleN");
+       	KCArgs[Ca++] = TCArg(CNN_ArgDataType(1,            1,1),  "Infos");
+
+	/* User kernel kernel arguments */
+	Object_T **KArgs = AllocateKerArgs(8);
+	int Ka=0;
+
+	KArgs[Ka++] = KerArgP("In",     KerArgSpace(2,D0,T0), O_IN|O_DB,     Width, Height, UsedWidth, UsedHeight, PadIncT, PadInc, 1,      OverlapC, 0, TileCons, "In");
+	KArgs[Ka++] = KerArg ("Bias",   KerArgSpace(1,Os),    O_IN|O_DB|O_CONST,  1,     1,                      		    Bias_DataSize, 0, 0,        0, "Bias");
+	KArgs[Ka++] = KerArg ("Scale",  KerArgSpace(1,Os),    O_IN|O_DB|O_CONST,  1,     1,                       		    1,             0, 0,        0, "Scale");
+	KArgs[Ka++] = KerArg ("ScaleN", KerArgSpace(1,Os),    O_IN|O_DB|O_CONST,  1,     1,                       		    1,             0, 0,        0, "ScaleN");
+	if (DWConv)
+	KArgs[Ka++] = KerArg ("Filter", KerArgSpace(1,Os),    O_IN|O_DB|O_CONST,  1,     1,                       		    Fcx*Fcy,       0, 0,        0, "Filter");
+	else
+	KArgs[Ka++] = KerArg ("Filter", KerArgSpace(2,Os,D0), O_IN|O_DB|O_CONST,  1,     1,                       		    Fcx*Fcy,       0, 0,        0, "Filter");
+       	KArgs[Ka++] = KerArg ("Out",    KerArgSpace(2,Os,T0), O_OUT|O_DB,        Wo,    Ho,                      		    1,             0, 0,        0, "Out");
+	if (ParFeat)
+	KArgs[Ka++] = KerArgP("ConvOut",KerArgSpace(2,Os,T0), O_BUFF|O_ONETILE,  Wc,    Hc,  UsedWc, UsedHc, PadInp, PadInp,        4,      OverlapP, 0,        0, "");
+	else
+	KArgs[Ka++] = KerArgP("ConvOut",KerArgSpace(1,T0),    O_BUFF|O_ONETILE,  Wc,    Hc,  UsedWc, UsedHc, PadInp, PadInp,        4,      OverlapP, 0,        0, "");
+
+	KArgs[Ka++] = KerArg ("Infos",  KerArgSpace(1,T0), O_IN|O_BUFF|O_NTILED|O_CONST,  AT_INF_DIM,    1,  		            1,      	   0, 0,        0, "Infos");
+
+        Kernel_T *Kernel = UserKernel(Name,
+		ParFeat?
+		(DWConv?
+		KernelIterSpace(2, IterParSpace(D0, InFeat, 8), IterTiledSpace(T0)):
+		KernelIterSpace(3, IterParSpace(D1, OutFeat, 8), IterTiledSpace(T0), IterParSpace(D0, InFeat, InTileCons))):
+		(DWConv?
+		KernelIterSpace(2, IterFixedSpace(D0, InFeat), IterTiledSpace(T0)):
+		KernelIterSpace(3, IterFixedSpace(D1, OutFeat), IterTiledSpace(T0), IterFixedSpace(D0, InFeat))),
+                TileOrientation,
+		KCArgs,
+                Calls(5,
+			(SetBiasKerName==0)?AT_NO_CALL:
+                        Call(SetBiasKerName, LOC_D0_PROLOG,
+                                Bindings(6,
+					K_Arg("ConvOut", KER_ARG_TILE),						/* SetBias output tile */
+					K_Arg("ConvOut", KER_ARG_TILE_W),					/* SetBias output tile width */
+                                        K_Arg("ConvOut", KER_ARG_TILE_H),					/* SetBias output tile height */
+					ParFeat?K_ArgPar("ConvOut", KER_ARG_PARTILE_SIZE, Os):Imm(1),		/* Number of output features in this tile */
+					K_Arg("Bias", KER_ARG_TILE),						/* SetBias Bias tile */
+					K_TileOper("Infos", "char *", '@', AT_INF_BIASN) 			/* Bias Norm */
+					)),
+                        Call(ConvKerName, DWConv?LOC_LOOP:LOC_D0,
+                                Bindings(20, 
+					K_Arg("In", KER_ARG_TILE),						/* Conv input tile */
+					K_Arg("In", KER_ARG_TILE_W),						/* Conv input tile width */
+					K_Arg("In", KER_ARG_TILE_USEDW),					/* Conv input tile width, used part of it */
+					K_Arg("In", KER_ARG_TILE_H),						/* Conv input tile height */
+					K_Arg("In", KER_ARG_TILE_USEDH),					/* Conv input tile height, used part of it */
+					K_ArgPar("Filter", KER_ARG_PARTILE_SIZE, D0),				/* Number of input features in this tile */
+					ParFeat?K_ArgPar("ConvOut", KER_ARG_PARTILE_SIZE, Os):Imm(1),		/* Number of output features in this tile */
+					K_ArgPar("Filter", KER_ARG_LOADEDPARTILE_SIZE, D0),			/* Total number of input features currently in L1 memory, argument promotion */
+					K_Arg("Filter", KER_ARG_TILE),						/* Conv filter */
+					DWConv?K_Arg("Bias", KER_ARG_TILE):AT_IGNORE_ARG_BINDING,		/* Conv Bias when depth wise conv*/
+					K_Arg("ConvOut", KER_ARG_TILE),						/* Conv output */
+					K_Arg("In", KER_ARG_TILE_PAD),						/* Conv Padding */
+					DWConv?K_TileOper("Infos", "char *", '@', AT_INF_BIASN):AT_IGNORE_ARG_BINDING,	/* NormBias is depth wise conv */
+					ParFeat?AT_IGNORE_ARG_BINDING:Imm((TileOrientation==TILE_HOR)?1:0),	/* Orientation when feature parallel */
+					NeedFcx?Imm(Fcx):AT_IGNORE_ARG_BINDING,					/* Conv Fx */
+					NeedScx?Imm(Scx):AT_IGNORE_ARG_BINDING,					/* Conv Stridex */
+					NeedDcx?Imm(Dcx):AT_IGNORE_ARG_BINDING,					/* Conv Dx */
+					NeedFcy?Imm(Fcy):AT_IGNORE_ARG_BINDING,					/* Conv Fy */
+					NeedScy?Imm(Scy):AT_IGNORE_ARG_BINDING,					/* Conv Stridey */
+					NeedDcy?Imm(Dcy):AT_IGNORE_ARG_BINDING					/* Conv Dy */
+					)
+			),
+			Call(DPReductionKerName, DWConv?LOC_LOOP:LOC_D0_EPILOG,					/* DP Reduction also take care of optional activation */
+				Bindings(8,
+					K_Arg("ConvOut", KER_ARG_TILE),						/* Double precision input tile */
+					K_Arg(PoolOper?"ConvOut":"Out", KER_ARG_TILE),				/* Single precision output tile, warning use IO kernel when In=Out */
+					ParFeat?K_ArgPar("ConvOut", KER_ARG_PARTILE_SIZE, Os):Imm(1),		/* Input tile Number of features */
+					K_Arg("ConvOut", KER_ARG_TILE_W),					/* Input tile width */
+					K_Arg("ConvOut", KER_ARG_TILE_H),					/* Input tile height */
+					K_Arg("Scale", KER_ARG_TILE),						/* Per channel scale tile */
+					K_Arg("ScaleN", KER_ARG_TILE),						/* Per channel scale normalization tile */
+					K_Arg("Infos", KER_ARG_TILE)						/* Infos */
+				)
+			),
+			(PoolKerName==0)?AT_NO_CALL:
+			Call(PoolKerName, DWConv?LOC_LOOP:LOC_D0_EPILOG,
+				Bindings(18,
+					K_Arg("ConvOut", KER_ARG_TILE),						/* Pooling input tile */
+					K_Arg("ConvOut", KER_ARG_TILE_W),					/* Pooling input tile width */
+					K_Arg("ConvOut", KER_ARG_TILE_USEDW),					/* Pooling input tile width, used part of it */
+					K_Arg("ConvOut", KER_ARG_TILE_H),					/* Pooling input tile height */
+					K_Arg("ConvOut", KER_ARG_TILE_USEDH),					/* Pooling input tile height, used part of it */
+					ParFeat?K_ArgPar("ConvOut", KER_ARG_PARTILE_SIZE, Os):Imm(1),		/* Number of output features in this tile */
+					K_Arg("Out", KER_ARG_TILE),						/* Pooling output tile */
+					K_Arg("ConvOut", KER_ARG_TILE_PAD),					/* Pooling Pad */
+					NeedFpx?Imm(Fpx):AT_IGNORE_ARG_BINDING,					/* Pooling Fx */
+					NeedSpx?Imm(Spx):AT_IGNORE_ARG_BINDING,					/* Pooling Stridex */
+					NeedDpx?Imm(Dpx):AT_IGNORE_ARG_BINDING,					/* Pooling Dx */
+					NeedFpy?Imm(Fpy):AT_IGNORE_ARG_BINDING,					/* Pooling Fy */
+					NeedSpy?Imm(Spy):AT_IGNORE_ARG_BINDING,					/* Pooling Stridey */
+					NeedDpy?Imm(Dpy):AT_IGNORE_ARG_BINDING,					/* Pooling Dy */
+					Imm((PoolOper==KOP_MAXPOOL)?1:0),					/* PoolMax or PoolAverage */
+					ParFeat?AT_IGNORE_ARG_BINDING:Imm((TileOrientation==TILE_HOR)?1:0),	/* Pooling Orientation when feature parallel */
+					Imm((ActOper==KOP_NONE)),						/* Scaling when no activation */
+					K_Arg("Infos", KER_ARG_TILE)						/* Infos */
+				)
+			),
+			(ActKerName==0)?AT_NO_CALL:
+			Call(ActKerName, DWConv?LOC_LOOP:LOC_D0_EPILOG,
+				Bindings(6,
+					K_Arg("Out", KER_ARG_TILE),						/* Input tile */
+					K_Arg("Out", KER_ARG_TILE),						/* Output tile */
+					ParFeat?K_ArgPar("Out", KER_ARG_PARTILE_SIZE, Os):Imm(1),		/* Number of features in this tile */
+					K_Arg("Out", KER_ARG_TILE_W),						/* Tile width */
+					K_Arg("Out", KER_ARG_TILE_H),						/* Tile height */
+					K_Arg("Infos", KER_ARG_TILE)						/* Infos */
+				)
+			)
+                     ),
+		KArgs
+        );
+	if (Kernel) {
+		AddKernelInfos(Name, AT_KERINFO_OPER, LayerOp, 0);
+		AddKernelInfos(Name, AT_KERINFO_BANDWIDTH, LayerBandwidth, 0);
+
+		AddKernelArgDim(Name, "In", 4, InFeat, Height, Width, 1);
+		if (DWConv) AddKernelArgDim(Name, "Filter", 4, InFeat, Fcx, Fcy, 1);
+		else AddKernelArgDim(Name, "Filter", 5, OutFeat, InFeat, Fcx, Fcy, 1);
+		AddKernelArgDim(Name, "Bias", 2, OutFeat, Bias_DataSize);
+		AddKernelArgDim(Name, "Out", 4, OutFeat, Ho, Wo, 1);
+		AddKernelArgDim(Name, "Scale", 2, OutFeat, 1);
+		AddKernelArgDim(Name, "ScaleN", 2, OutFeat, 1);
+		AddKernelArgDim(Name, "Infos", 2, AT_INF_DIM, 1);
+
+		if (Ctrl && (Ctrl->In_L3)) SetKerArgInL3(Name, "In");
+		if (Ctrl && (Ctrl->Filter_L3)) SetKerArgInL3(Name, "Filter");
+		if (Ctrl && (Ctrl->Bias_L3)) SetKerArgInL3(Name, "Bias");
+		if (Ctrl && (Ctrl->Out_L3)) SetKerArgInL3(Name, "Out");
+		if (Ctrl && (Ctrl->Scale_L3)) SetKerArgInL3(Name, "Scale");
+		if (Ctrl && (Ctrl->ScaleN_L3)) SetKerArgInL3(Name, "ScaleN");
+
+		AT_PrepareForTest_SQ8(Name, InFeat, OutFeat, Width, Height, Bias_DataSize,
+				      ConvOper, Fcx, Fcy, Dcx, Dcy, Scx, Scy, PadInc,
+				      PoolOper, Fpx, Fpy, Dpx, Dpy, Spx, Spy, PadInp,
+				      ActOper);
+	}
+	return (Kernel!=0);
+}
+
+/*********************************************************************************************************************************************************************
+ 	Generator for Grouped Convolutions with channel centric scaling, followed by an optional pooling (Max or Average),
+	followed by an optional activation.
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (TileOrientation, Parallel Features, Use double precision convolution, Use HWCE), Def=(TILE_HOR, 1, 0, 0)
+
+		GroupIn:	Size of the group for input features
+		GroupOut:	Size of the group for output features
+
+		Bias_DataSize:	1: byte, 2: half word, 4: word
+		Scale_DataSize:	1: byte, 2: half word, 4: word
+
+		InFeat:		Number of input feature's maps
+		OutFeat:	Number of output feature's maps
+		Width:		Number of columns of a given feature map
+		Height:		Number of lines of a given feature map
+
+		ConvOper:	Type of convolution, Regular convolution: KOP_CONV
+		Fcx:		Convolution filter x dimension
+		Fcy:		Convolution filter y dimension
+		Dcx:		Convolution filter dilation factor, x dimension
+		Dcy:		Convolution filter dilation factor, y dimension
+		Scx:		Convolution filter stride x dimension
+		Scy:		Convolution filter stride y dimension
+		ConvPad:	0: No padding, 1: Zero padding
+
+		PoolOper:	Type of Pooling, KOP_NONE, Max Pooling: KOP_MAXPOOL, Average Pooling: KOP_AVGPOOL
+		Fpx:		Pooling filter x dimension
+		Fpy:		Pooling filter y dimension
+		Dpx:		Pooling filter dilation factor, x dimension
+		Dpy:		Pooling filter dilation factor, y dimension
+		Spx:		Pooling filter stride x dimension
+		Spy:		Pooling filter stride y dimension
+		PoolPad:	0: No padding, 1: Zero padding
+
+		ActOper:	Optional activation function: KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+
+		Signature:	Name(In, Filter, Bias, Out, Scale, ScaleN, Infos)
+
+	CNN_GroupedConvolutionPoolAct_SQ8
+	
+*********************************************************************************************************************************************************************/
+
+int CNN_GroupedConvolutionPoolAct_SQ8(
+	char         *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int GroupIn,
+	int GroupOut,
+
+	int Bias_DataSize,
+	int Scale_DataSize,
+
+	int InFeat,
+	int OutFeat,
+       	int Width,
+       	int Height,
+
+	KernelOper_T ConvOper,
+       	int Fcx,
+       	int Fcy,
+	int Dcx,
+	int Dcy,
+	int Scx,
+	int Scy,
+	int ConvPad,
+
+	KernelOper_T PoolOper,
+	int Fpx,
+	int Fpy,
+	int Dpx,
+	int Dpy,
+	int Spx,
+	int Spy,
+	int PoolPad,
+
+	KernelOper_T ActOper
+	)
+
+{
+	char *BodyName = AppendNames(Name, "Body");
+	KernelGroup_T *UKGroup;
+	int g, Wc, Hc, Wo, Ho;
+	int NGroups = InFeat/GroupIn;
+
+	if (!(ConvOper == KOP_CONV))
+		GenTilingError("CNN_GroupedConvolutionPoolAct_SQ8: Kernel: %s, ConvOper, expecting KOP_NONE, KOP_CONV or KOP_CONV_DW", Name);
+	if (!(PoolOper == KOP_NONE || PoolOper == KOP_MAXPOOL || PoolOper == KOP_AVGPOOL))
+		GenTilingError("CNN_GroupedConvolutionPoolAct_SQ8: Kernel: %s, PoolOper, expecting KOP_NONE, KOP_MAXPOOL or KOP_AVGPOOL", Name);
+	if (!(ActOper == KOP_NONE || ActOper == KOP_RELU || ActOper == KOP_RELUN || ActOper == KOP_HSIGMOID || ActOper == KOP_HSWISH || ActOper == KOP_LEAKYRELU))
+		GenTilingError("CNN_GroupedConvolutionPoolAct_SQ8: Kernel: %s, ActOper, expecting KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSIGMOID, KOP_HSWISH or KOP_LEAKYRELU", Name);
+
+	CNN_LayerOutputDim(Width, Height, ConvOper, Fcx, Fcy, Dcx, Dcy, Scx, Scy, ConvPad, PoolOper, Fpx, Fpy, Dpx, Dpy, Spx, Spy, PoolPad, &Wc, &Hc, &Wo, &Ho, 0, 0, 0, 0);
+
+	if ((InFeat%GroupIn)||(OutFeat%GroupOut)||((InFeat/GroupIn)!=(OutFeat/GroupOut)))
+		GenTilingError("CNN_GroupedConvolutionPoolAct_SQ8: %s cannot divide In(%d)/Out(%d) feature spaces with these group parameters: GroupIn %d, GroupOut: %d",
+				Name, InFeat, OutFeat, GroupIn, GroupOut);
+
+	OpenKernelGroup(Name);
+	CNN_ConvolutionPoolAct_SQ8(BodyName, Ctrl,
+				   Bias_DataSize, Scale_DataSize,
+                        	   GroupIn, GroupOut, Width, Height,
+				   ConvOper, Fcx, Fcy, Dcx, Dcy, Scx, Scy, ConvPad,
+				   PoolOper, Fpx, Fpy, Dpx, Dpy, Spx, Spy, PoolPad,
+				   ActOper
+			);
+	CloseKernelGroup();
+
+	CKernel_Arg_T **KCArgs = AllocateCArgs(7);
+	int Ca=0;
+	KCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1),                 "In");
+	KCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1),             "Filter");
+	KCArgs[Ca++] = TCArg(CNN_ArgDataType(Bias_DataSize,1,1),   "Bias");
+       	KCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1),                "Out");
+       	KCArgs[Ca++] = TCArg(CNN_ArgDataTypeUns(1,         1,1),  "Scale");
+       	KCArgs[Ca++] = TCArg(CNN_ArgDataTypeUns(1,         1,1), "ScaleN");
+       	KCArgs[Ca++] = TCArg(CNN_ArgDataType(1,            1,1),  "Infos");
+
+	Object_T **KArgs = AllocateKerArgs(7);
+	int Ka=0;
+	KArgs[Ka++] = KerGroupArg("In",	    O_IN,  NGroups*GroupIn*Width*Height,     1,               "In");
+	KArgs[Ka++] = KerGroupArg("Filter", O_IN,  NGroups*GroupIn*GroupOut*Fcx*Fcy, 1,           "Filter");
+	KArgs[Ka++] = KerGroupArg("Bias",   O_IN,  NGroups*GroupOut,                 Bias_DataSize, "Bias");
+	KArgs[Ka++] = KerGroupArg("Out",    O_OUT, NGroups*GroupOut*Wo*Ho,           1,              "Out");
+	KArgs[Ka++] = KerGroupArg("Scale",  O_IN,  NGroups*GroupOut,                 1,            "Scale");
+	KArgs[Ka++] = KerGroupArg("ScaleN", O_IN,  NGroups*GroupOut,                 1,           "ScaleN");
+	KArgs[Ka++] = KerGroupArg("Infos",  O_IN,  AT_INF_DIM,                 	     1,            "Infos");
+
+        UKGroup = UserKernelGroupK(Name,
+		NGroups,
+		KCArgs,
+		0,
+		Calls(1,
+		      UserKernelCall(BodyName, LOC_GROUP,
+				Bindings(7,
+					KG_ArgOper("In",     '*', GroupIn*Width*Height),
+					KG_ArgOper("Filter", '*', GroupIn*GroupOut*Fcx*Fcy),
+					KG_ArgOper("Bias",   '*', GroupOut*Bias_DataSize),
+					KG_ArgOper("Out",    '*', GroupOut*Wo*Ho),
+					KG_ArgOper("Scale",  '*', GroupOut),
+					KG_ArgOper("ScaleN", '*', GroupOut),
+					KG_ArgOper("Infos",  '+', 0)
+
+				)
+			)
+		),
+                KArgs
+	);
+	return (UKGroup!=0);
+}
+
+/*********************************************************************************************************************************************************************
+ 	Generator for Pooling (Max or Average) with tensor centric scaling followed by an optional activation
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (TileOrientation, Parallel Features), Def=(TILE_HOR, 1)
+
+		Feat:		Number of feature's maps
+		Width:		Number of columns of a given feature map
+		Height:		Number of lines of a given feature map
+
+		PoolOper:	KOP_MAXPOOL or KOP_AVGPOOL
+		Fpx:		Size of the pooling filter, x dimension
+		Fpy:		Size of the pooling filter, y dimension
+		Dpx:		Dilation factor, x dimension
+		Dpy:		Dilation factor, y dimension
+		Spx:		Pooling stride, x dimension
+		Spy:		Pooling stride, y dimension
+
+		ActOper:	Optional activation function: KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+
+		Signature:	Name(In, Out, Infos)
+
+	CNN_PoolAct_SQ8
+		
+*********************************************************************************************************************************************************************/
+
+int CNN_PoolAct_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+       	int Feat,
+       	int Width,
+       	int Height,
+
+	KernelOper_T PoolOper,
+	int Fpx,
+	int Fpy,
+	int Dpx,
+	int Dpy,
+	int Spx,
+	int Spy,
+	int PoolPad,
+
+	KernelOper_T ActOper
+	)
+
+{
+	if (PoolOper==KOP_NONE && ActOper!=KOP_NONE) return CNN_Act_SQ8(Name, Ctrl, Feat, Width, Height, ActOper);
+
+	Tile_Orientation_T TileOrientation = TILE_HOR;
+	int ParFeat = 1;
+	AT_PadType PadType = PAD_BALANCED_LEFT;
+	if (Ctrl) {
+		if (Ctrl->TileOrientation != -1) TileOrientation = (Ctrl->TileOrientation==0)?TILE_HOR:TILE_VER;
+		if (Ctrl->ParallelFeatures != -1) ParFeat = Ctrl->ParallelFeatures;
+		if (Ctrl->PadType != -1) PadType = Ctrl->PadType;
+	}
+	int TileCons, NeedFpx=0, NeedFpy=0, NeedDpx=0, NeedDpy=0, NeedSpx=0, NeedSpy=0, OverlapP;
+	int Wo, Ho;
+	int UsedWidth, UsedHeight;
+	int PadPw=0, PadPh=0;
+	v4s PadInp = (v4s){0,0,0,0};
+	char *PoolKerName=0, *ActKerName=0;
+	unsigned long long int LayerOp = 0;
+	unsigned long long int LayerBandwidth = 0;
+	int StandAloneAct = (ActOper!=KOP_NONE);
+	int Log=1;
+
+	if (!(PoolOper == KOP_MAXPOOL || PoolOper == KOP_AVGPOOL))
+		GenTilingError("CNN_Pool_SQ8 Kernel: %s, PoolOper, expecting KOP_MAXPOOL or KOP_AVGPOOL", Name);
+	if (!(ActOper == KOP_NONE || ActOper == KOP_RELU || ActOper == KOP_RELUN || ActOper == KOP_HSIGMOID || ActOper == KOP_HSWISH || ActOper == KOP_LEAKYRELU))
+		GenTilingError("CNN_Pool_SQ8 Kernel: %s, ActOper, expecting KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSIGMOID, KOP_HSWISH or KOP_LEAKYRELU", Name);
+
+	/* Set Kernel characteristics */
+	CNN_LayerOutputDim(Width, Height, KOP_NONE, 1, 1, 1, 1, 1, 1, 1, PoolOper, Fpx, Fpy, Dpx, Dpy, Spx, Spy, PoolPad, 0, 0, &Wo, &Ho, 0, 0, &PadPw, &PadPh);
+	PadInp = CNN_EdgePaddingValue(PadType, PadPw, PadPh);
+	CNN_TileOverlap(TileOrientation, 1, 1, 1, 1, 1, 1, Fpx, Fpy, Dpx, Dpy, Spx, Spy, 0, &OverlapP);
+	UsedWidth  = CNN_UsedInputDimension(Wo, Fpx, Spx, Dpx, PadPw);
+        UsedHeight = CNN_UsedInputDimension(Ho, Fpy, Spy, Dpy, PadPh);
+	TileCons = (TileOrientation==TILE_HOR)?(Spy):(Spx);
+	/* Re evaluate truly used width/height and update padding accordingly */
+	PadInp[1] = Max(0, PadInp[1]-(Width-UsedWidth)); PadInp[3] = Max(0, PadInp[3]-(Height-UsedHeight));
+
+
+
+	PoolKerName = CNN_FindMatchingKernel(PoolOper, ActOper, ParFeat, 1, 0, 0, 0, 1, Fpx, Fpy, Dpx, Dpy, Spx, Spy, &NeedFpx, &NeedFpy, &NeedDpx, &NeedDpy, &NeedSpx, &NeedSpy, 0);
+	if (PoolKerName==0) PoolKerName = CNN_FindMatchingKernel(PoolOper, KOP_NONE, ParFeat, 1, 0, 0, 0, 1, Fpx, Fpy, Dpx, Dpy, Spx, Spy, &NeedFpx, &NeedFpy, &NeedDpx, &NeedDpy, &NeedSpx, &NeedSpy, 0);
+	else if (ActOper) StandAloneAct = 0;
+	if (PoolKerName==0) GenTilingError("CNN_Pool_SQ8 Kernel: %s, Can't find a matching Pooling basic kernel", Name);
+
+	if (ActOper && StandAloneAct) {
+		ActKerName = CNN_FindMatchingKernel(ActOper, KOP_NONE, ParFeat, 1, 0, 0, 0, 1, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
+		if (ActKerName==0) GenTilingError("CNN_Pool_SQ8 Kernel: %s, Can't find a matching Activation basic kernel", Name);
+	}
+
+	if (PoolOper) LayerOp += Feat*Wo*Ho*Fpx*Fpy;
+	if (ActOper) LayerOp += Feat*Wo*Ho;
+
+	LayerBandwidth += Width*Height*1*Feat;
+	LayerBandwidth += Wo*Ho*1*Feat;
+
+	if (Log) {
+        	printf("Pool => W: %d, Pad:[%d,%d] => Wo: %d\n", Width,  PadInp[0], PadInp[1], Wo);
+        	printf("     => H: %d, Pad:[%d,%d] => Ho: %d\n", Height, PadInp[2], PadInp[3], Ho);
+        	printf("OverlapP: %d\n", OverlapP);
+        	printf("TileCons: %d\n", TileCons);
+		printf("UsedIn  : [%d x %d]\n", UsedWidth, UsedHeight);
+		if (PoolKerName) printf("%20s: %s\n", "PoolKerName", PoolKerName);
+		if (ActKerName) printf("%20s: %s\n", "ActKerName", ActKerName);
+		printf("Nb Oper : %lld\n", LayerOp);
+	}
+
+	CKernel_Arg_T **KCArgs = AllocateCArgs(3);
+	int Ca=0;
+	KCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1),     "In");
+       	KCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1),    "Out");
+       	KCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1),  "Infos");
+
+	Object_T **KArgs = AllocateKerArgs(3);
+	int Ka=0;
+	KArgs[Ka++] = KerArgP("In",     KerArgSpace(2,D0,T0), OBJ_IN_DB,   Width, Height, UsedWidth, UsedHeight, PadInp,PadInp, 1, OverlapP, 0, TileCons, "In");
+	KArgs[Ka++] = KerArg ("Out",    KerArgSpace(2,D0,T0), OBJ_OUT_DB,     Wo,     Ho,                   		        1,        0, 0,        0, "Out");
+	KArgs[Ka++] = KerArg ("Infos",  KerArgSpace(1,T0),    O_IN|O_BUFF|O_NTILED|O_CONST,  AT_INF_DIM,   1,  	                1,        0, 0,        0, "Infos");
+
+        Kernel_T *Kernel = UserKernel(Name,
+		ParFeat?
+		KernelIterSpace(2, IterParSpace(D0, Feat, 8), IterTiledSpace(T0)):
+		KernelIterSpace(2, IterFixedSpace(D0, Feat), IterTiledSpace(T0)),
+                TileOrientation,
+                KCArgs,
+                Calls(2,
+			Call(PoolKerName, LOC_LOOP,
+				Bindings(18,
+					K_Arg("In", KER_ARG_TILE),
+					K_Arg("In", KER_ARG_TILE_W),
+					K_Arg("In", KER_ARG_TILE_USEDW),
+					K_Arg("In", KER_ARG_TILE_H),
+					K_Arg("In", KER_ARG_TILE_USEDH),
+					ParFeat?K_ArgPar("Out", KER_ARG_PARTILE_SIZE, D0):Imm(1),	/* Number of features in this tile */
+					K_Arg("Out", KER_ARG_TILE),
+					K_Arg("In", KER_ARG_TILE_PAD),
+					NeedFpx?Imm(Fpx):AT_IGNORE_ARG_BINDING,				/* Pooling Fx */
+					NeedSpx?Imm(Spx):AT_IGNORE_ARG_BINDING,				/* Pooling Stridex */
+					NeedDpx?Imm(Dpx):AT_IGNORE_ARG_BINDING,				/* Pooling Dx */
+					NeedFpy?Imm(Fpy):AT_IGNORE_ARG_BINDING,				/* Pooling Fy */
+					NeedSpy?Imm(Spy):AT_IGNORE_ARG_BINDING,				/* Pooling Stridey */
+					NeedDpy?Imm(Dpy):AT_IGNORE_ARG_BINDING,				/* Pooling Dy */
+					Imm((PoolOper==KOP_MAXPOOL)?1:0),				/* PoolMax or PoolAvg */
+					Imm((TileOrientation==TILE_HOR)?1:0),				/* Pooling Orientation when feature parallel */
+					Imm((ActOper==KOP_NONE)),					/* Scaling when no activation */
+					K_Arg("Infos", KER_ARG_TILE)					/* Infos */
+				)
+			),
+			(ActKerName==0)?AT_NO_CALL:
+			Call(ActKerName, LOC_LOOP,
+				Bindings(6,
+					K_Arg("Out", KER_ARG_TILE),					/* Input tile */
+					K_Arg("Out", KER_ARG_TILE),					/* Output tile */
+					ParFeat?K_ArgPar("Out", KER_ARG_PARTILE_SIZE, D0):Imm(1),	/* Number of features in this tile */
+					K_Arg("Out", KER_ARG_TILE_W),					/* Tile width */
+					K_Arg("Out", KER_ARG_TILE_H),					/* Tile height */
+					K_Arg("Infos", KER_ARG_TILE)					/* Infos */
+				)
+			)
+                     ),
+                KArgs
+        );
+	if (Kernel) {
+		AddKernelInfos(Name, AT_KERINFO_OPER, LayerOp, 0);
+		AddKernelInfos(Name, AT_KERINFO_BANDWIDTH, LayerBandwidth, 0);
+
+		AddKernelArgDim(Name, "In", 4, Feat, Height, Width, 1);
+		AddKernelArgDim(Name, "Out", 4, Feat, Ho, Wo, 1);
+		AddKernelArgDim(Name, "Infos", 2, AT_INF_DIM, 1);
+
+		AT_PrepareForTest_SQ8(Name, Feat, Feat, Width, Height, 1, PoolOper, Fpx, Fpy, Dpx, Dpy, Spx, Spy, PadInp, 0, 0,0,0,0,0,0,(v4s) 0, ActOper);
+	}
+	return (Kernel!=0);
+}
+
+
+/*********************************************************************************************************************************************************************
+ 	Generator for Activation with tensor centric scaling
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (TileOrientation, Parallel Features), Def=(TILE_HOR, 1)
+
+		Feat:		Number of feature's maps
+		Width:		Number of columns of a given feature map
+		Height:		Number of lines of a given feature map
+
+		ActOper:	KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+
+		Signature:	Name(In, Out, Infos)
+
+	CNN_Act_SQ8
+		
+*********************************************************************************************************************************************************************/
+
+int CNN_Act_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+       	int Feat,
+       	int Width,
+       	int Height,
+
+	KernelOper_T ActOper
+	)
+
+{
+	Tile_Orientation_T TileOrientation = TILE_HOR;
+	int ParFeat = 1;
+	if (Ctrl) {
+		if (Ctrl->TileOrientation != -1) TileOrientation = (Ctrl->TileOrientation==0)?TILE_HOR:TILE_VER;
+		if (Ctrl->ParallelFeatures != -1) ParFeat = Ctrl->ParallelFeatures;
+	}
+	int TileCons = 0;
+	char *ActKerName=0;
+	unsigned long long int LayerOp = 0;
+	unsigned long long int LayerBandwidth = 0;
+	int StandAloneAct = (ActOper!=KOP_NONE);
+	int Log=1;
+
+	if (!(ActOper == KOP_RELU || ActOper == KOP_RELUN || ActOper == KOP_HSIGMOID || ActOper == KOP_HSWISH || ActOper == KOP_LEAKYRELU))
+		GenTilingError("CNN_Act_SQ8 Kernel: %s, ActOper, expecting KOP_RELU, KOP_RELUN, KOP_HSIGMOID, KOP_HSWISH or KOP_LEAKYRELU", Name);
+
+	ActKerName = CNN_FindMatchingKernel(ActOper, KOP_NONE, ParFeat, 1, 0, 0, 0, 1, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
+	if (ActKerName==0) GenTilingError("CNN_Act_SQ8 Kernel: %s, Can't find a matching Activation basic kernel", Name);
+
+	LayerOp += Feat*Width*Height;
+
+	LayerBandwidth += Width*Height*1*Feat;
+	LayerBandwidth += Width*Height*1*Feat;
+
+	if (Log) {
+        	printf("Act  => W: %d, Wo: %d\n", Width,  Width);
+        	printf("     => H: %d, Ho: %d\n", Height, Height);
+		printf("%20s: %s\n", "ActKerName", ActKerName);
+		printf("Nb Oper : %lld\n", LayerOp);
+	}
+
+        Kernel_T *Kernel = UserKernel(Name,
+		ParFeat?
+		KernelIterSpace(2, IterParSpace(D0, Feat, 8), IterTiledSpace(T0)):
+		KernelIterSpace(2, IterFixedSpace(D0, Feat), IterTiledSpace(T0)),
+                TileOrientation,
+                CArgs(3,
+                      TCArg(CNN_ArgDataType(1,1,1), "In"),
+                      TCArg(CNN_ArgDataType(1,1,1), "Out"),
+                      TCArg(CNN_ArgDataType(1,1,1), "Infos")
+                ),
+                Calls(1,
+			Call(ActKerName, LOC_LOOP,
+				Bindings(6,
+					K_Arg("In",  KER_ARG_TILE),					/* Input tile */
+					K_Arg("Out", KER_ARG_TILE),					/* Output tile */
+					ParFeat?K_ArgPar("In", KER_ARG_PARTILE_SIZE, D0):Imm(1),	/* Number of features in this tile */
+					K_Arg("In", KER_ARG_TILE_W),					/* Tile width */
+					K_Arg("In", KER_ARG_TILE_H),					/* Tile height */
+					K_Arg("Infos", KER_ARG_TILE)					/* Infos */
+				)
+			)
+                     ),
+                KerArgs(3,
+			KerArg("In",     KerArgSpace(2,D0,T0), OBJ_IN_DB,                         Width, Height, 1, 0, 0, 0, "In"),
+			KerArg("Out",    KerArgSpace(2,D0,T0), OBJ_OUT_DB,                        Width, Height, 1, 0, 0, 0, "Out"),
+			KerArg("Infos",  KerArgSpace(1,T0),    O_IN|O_BUFF|O_NTILED|O_CONST, AT_INF_DIM,      1, 1, 0, 0, 0, "Infos")
+		)
+        );
+	if (Kernel) {
+		AddKernelInfos(Name, AT_KERINFO_OPER, LayerOp, 0);
+		AddKernelInfos(Name, AT_KERINFO_BANDWIDTH, LayerBandwidth, 0);
+
+		AddKernelArgDim(Name, "In", 4, Feat, Height, Width, 1);
+		AddKernelArgDim(Name, "Out", 4, Feat, Height, Width, 1);
+		AddKernelArgDim(Name, "Infos", 2, AT_INF_DIM, 1);
+
+		AT_PrepareForTest_SQ8(Name, Feat,Feat,Width,Height, 1, ActOper, 0,0,0,0,0,0,(v4s) 0, 0, 0,0,0,0,0,0,(v4s) 0, KOP_NONE);
+	}
+	return (Kernel!=0);
+}
+
+/*********************************************************************************************************************************************************************
+ 	Generator for Global Pooling (Max or Average) with tensor centric scaling and optional activation
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (TileOrientation, Parallel Features), Def=(TILE_HOR, 1)
+
+		Feat:		Number of feature's maps
+		Width:		Number of columns of a given feature map
+		Height:		Number of lines of a given feature map
+
+		PoolOper:	KOP_GLOBAL_MAXPOOL or KOP_GLOBAL_AVGPOOL
+
+		ActOper:	Optional activation function: KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+
+		Signature:	Name(In, Out, Infos)
+
+
+	CNN_GlobalPoolAct_SQ8
+		
+*********************************************************************************************************************************************************************/
+
+int CNN_GlobalPoolAct_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+       	int Feat,
+       	int Width,
+       	int Height,
+
+	KernelOper_T PoolOper,
+	KernelOper_T ActOper
+	)
+
+{
+	Tile_Orientation_T TileOrientation = TILE_HOR;
+	int ParFeat = 1;
+	int Wo, Ho;
+	char *PoolKerName=0, *ActKerName=0;
+	unsigned long long int LayerOp = 0;
+	unsigned long long int LayerBandwidth = 0;
+	int StandAloneAct = (ActOper!=0);
+	int Log=1;
+
+	if (!(PoolOper == KOP_GLOBAL_MAXPOOL || PoolOper == KOP_GLOBAL_AVGPOOL))
+		GenTilingError("CNN_GlobalPoolAct_SQ8 Kernel: %s, PoolOper should be KOP_GLOBAL_MAXPOOL or KOP_GLOBAL_AVGPOOL", Name);
+	if (!(ActOper == KOP_NONE || ActOper == KOP_RELU || ActOper == KOP_RELUN || ActOper == KOP_HSIGMOID || ActOper == KOP_HSWISH || ActOper == KOP_LEAKYRELU))
+		GenTilingError("CNN_GlobalPoolAct_SQ8 Kernel: %s, ActOper, expecting KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSIGMOID, KOP_HSWISH or KOP_LEAKYRELU", Name);
+
+	PoolKerName = CNN_FindMatchingKernel(PoolOper, ActOper, ParFeat, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0);
+	if (PoolKerName) StandAloneAct = 0;
+	else if (StandAloneAct) PoolKerName = CNN_FindMatchingKernel(PoolOper, KOP_NONE, ParFeat, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0);
+	if (PoolKerName==0) GenTilingError("CNN_GlobalPoolAct_SQ8 Kernel: %s, Can't find a matching Pooling basic kernel", Name);
+
+	if (StandAloneAct) {
+	       	ActKerName = CNN_FindMatchingKernel(ActOper, KOP_NONE, ParFeat, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0);
+		if (ActKerName==0) GenTilingError("CNN_GlobalPoolAct_SQ8 Kernel: %s, Can't find a matching Activation basic kernel", Name);
+	}
+
+        Wo = 1; Ho = 1;
+
+
+	if (PoolOper) LayerOp += Feat*Wo*Ho*Width*Height;
+	LayerBandwidth += Width*Height*1*Feat;
+	LayerBandwidth += Wo*Ho*1*Feat;
+
+	if (Log) {
+        	printf("Global Pool => W: %d => Wo: %d\n", Width,  Wo);
+        	printf("            => H: %d => Ho: %d\n", Height, Ho);
+        	printf("            => Feat: %d\n", Feat);
+		if (PoolKerName)      printf("%20s: %s\n", "PoolKerName", PoolKerName);
+		if (ActKerName)       printf("%20s: %s\n", "ActKerName", ActKerName);
+		printf("Nb Oper : %lld\n", LayerOp);
+	}
+
+        Kernel_T *Kernel;
+	AT_SetKernelCtrl(AT_KERNEL_NOSOLUTION_ERROR, AT_OPT_OFF);
+	/* First try moving entire features only */
+       	Kernel = UserKernel(Name,
+		KernelIterSpace(1, IterTiledSpace(T0)),
+                TileOrientation,
+                CArgs(3,
+                      TCArg(CNN_ArgDataType(1,1,1), "In"),
+                      TCArg(CNN_ArgDataType(1,1,1), "Out"),
+                      TCArg(CNN_ArgDataType(1,1,1), "Infos")
+                     ),
+                Calls(2,
+			Call(PoolKerName, LOC_LOOP,
+				Bindings(8,
+					K_Arg("In", KER_ARG_TILE),				/* In tile */
+					Imm(Width),						/* In tile width */
+					Imm(Height),						/* In Tile Height */
+					K_Arg("Out", KER_ARG_TILE_H),				/* Number of output features in this tile */
+					AT_IGNORE_ARG_BINDING,					/* In Tile Index, ignored here */
+					K_Arg("Out", KER_ARG_TILE),				/* Output tile */
+					Imm((ActOper==KOP_NONE)),				/* Scaling when no activation */
+					K_Arg("Infos", KER_ARG_TILE)				/* Infos */
+				)
+		 	),
+			(ActKerName==0)?AT_NO_CALL:
+			Call(ActKerName, LOC_LOOP,
+				Bindings(6,
+					K_Arg("Out", KER_ARG_TILE),				/* Input tile */
+					K_Arg("Out", KER_ARG_TILE),				/* Output tile */
+					K_Arg("Out", KER_ARG_TILE_H),				/* Number of features in this tile */
+					Imm(1),							/* Tile width */
+					Imm(1),							/* Tile height */
+					K_Arg("Infos", KER_ARG_TILE)				/* Infos */
+				)
+		 	)
+                ),
+                KerArgs(3,
+			KerArg("In",     KerArgSpace(1,T0), OBJ_IN_DB,                    Width*Height, Feat, 1, 0, 0, 8, "In"),
+                        KerArg("Out",    KerArgSpace(1,T0), OBJ_OUT_DB,                              1, Feat, 1, 0, 0, 0, "Out"),
+			KerArg("Infos",  KerArgSpace(1,T0), O_IN|O_BUFF|O_NTILED|O_CONST,   AT_INF_DIM,    1, 1, 0, 0, 0, "Infos")
+		)
+        );
+	AT_SetKernelCtrl(AT_KERNEL_NOSOLUTION_ERROR, AT_OPT_ON);
+	if (Kernel == 0) {
+		char *PoolKerName=0, *PoolReductKerName=0, *ActKerName=0;
+		int StandAloneAct = (ActOper!=KOP_NONE);
+		KernelOper_T ReductOper = (PoolOper==KOP_GLOBAL_MAXPOOL)?KOP_GLOBAL_MAXPOOL_REDUCT:KOP_GLOBAL_AVGPOOL_REDUCT;
+
+		PoolKerName = CNN_FindMatchingKernel(PoolOper, KOP_NONE, ParFeat, 1, 0, 0, 0, 4, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0);
+		if (PoolKerName==0)       GenTilingError("CNN_GlobalPoolAct_SQ8 Kernel: %s, Can't find a matching global pooling basic kernel", Name);
+
+		PoolReductKerName = CNN_FindMatchingKernel(ReductOper, ActOper, ParFeat, 4, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0);
+		if (PoolReductKerName) StandAloneAct = 0;
+		else if (StandAloneAct) PoolReductKerName = CNN_FindMatchingKernel(ReductOper, KOP_NONE, ParFeat, 4, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0);
+		if (PoolReductKerName==0) GenTilingError("CNN_GlobalPoolAct_SQ8 Kernel: %s, Can't find a matching reduction basic kernel", Name);
+
+		if (StandAloneAct) {
+			ActKerName = CNN_FindMatchingKernel(ActOper, KOP_NONE, ParFeat, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0);
+			if (ActKerName==0) GenTilingError("CNN_GlobalPoolAct_SQ8 Kernel: %s, Can't find a matching activation basic kernel", Name);
+		}
+		if (Log) {
+        		printf("Global Pool DP => W: %d => Wo: %d\n", Width,  Wo);
+        		printf("               => H: %d => Ho: %d\n", Height, Ho);
+        		printf("               => Feat: %d\n", Feat);
+			if (PoolKerName)       printf("%20s: %s\n", "PoolKerName", PoolKerName);
+			if (PoolReductKerName) printf("%20s: %s\n", "PoolReductKerName", PoolReductKerName);
+			if (ActKerName)        printf("%20s: %s\n", "ActKerName", ActKerName);
+			printf("Nb Oper : %lld\n", LayerOp);
+		}
+       		Kernel = UserKernel(Name,
+			KernelIterSpace(2, IterParSpace(D0, Feat, 8), IterTiledSpace(T0)),
+                	TileOrientation,
+                	CArgs(3,
+                      		TCArg(CNN_ArgDataType(1,1,1), "In"),
+                      		TCArg(CNN_ArgDataType(1,1,1), "Out"),
+                      		TCArg(CNN_ArgDataType(1,1,1), "Infos")
+                     	),
+	                Calls(3,
+				Call(PoolKerName, LOC_LOOP,
+					Bindings(8,
+						K_Arg("In", KER_ARG_TILE),				/* In tile */
+						K_Arg("In", KER_ARG_TILE_W),				/* In tile width */
+						K_Arg("In", KER_ARG_TILE_H),				/* In Tile Height */
+						K_ArgPar("In", KER_ARG_PARTILE_SIZE, D0),		/* Number of output features in this tile */
+						K_Arg("In", KER_ARG_TILEINDEX),				/* In Tile Index */
+						K_Arg("DPOut", KER_ARG_TILE),				/* Output tile */
+						AT_IGNORE_ARG_BINDING,					/* Scaling when no activation, not needed here */
+						AT_IGNORE_ARG_BINDING					/* Infos, not needed here */
+					)
+				),
+				Call(PoolReductKerName, LOC_LOOP_EPILOG,
+					Bindings(8,
+						K_Arg("DPOut", KER_ARG_TILE),				/* In tile */
+						K_Arg("In", KER_ARG_TILE_W),				/* In tile width */
+						K_Arg("In", KER_ARG_TILE_H),				/* In Tile Height */
+						K_ArgPar("In", KER_ARG_PARTILE_SIZE, D0),		/* Number of output features in this tile */
+						AT_IGNORE_ARG_BINDING,					/* In Tile Index, not needed here */
+						K_Arg("Out", KER_ARG_TILE),				/* Output tile */
+						Imm((ActOper==KOP_NONE)),				/* Scaling when no activation */
+						K_Arg("Infos", KER_ARG_TILE)				/* Infos */
+					)
+				),
+				(ActKerName==0)?AT_NO_CALL:
+				Call(ActKerName, LOC_LOOP_EPILOG,
+					Bindings(6,
+						K_Arg("Out", KER_ARG_TILE),				/* Input tile */
+						K_Arg("Out", KER_ARG_TILE),				/* Output tile */
+						K_ArgPar("Out", KER_ARG_PARTILE_SIZE, D0),		/* Number of features in this tile */
+						Imm(1),							/* Tile width */
+						Imm(1),							/* Tile height */
+						K_Arg("Infos", KER_ARG_TILE)				/* Infos */
+					)
+				)
+	                ),
+	                KerArgs(4,
+				KerArg("In",     KerArgSpace(2,D0,T0), OBJ_IN_DB,                        Width, Height, 1, 0, 0, 0, "In"),
+				KerArg("DPOut",  KerArgSpace(1,D0),    O_BUFF,                                1,      1, 4, 0, 0, 0,  ""),
+	                        KerArg("Out",    KerArgSpace(1,D0),    OBJ_OUT_DB,                            1,      1, 1, 0, 0, 0, "Out"),
+				KerArg("Infos",  KerArgSpace(1,T0),    O_IN|O_BUFF|O_NTILED|O_CONST, AT_INF_DIM,      1, 1, 0, 0, 0, "Infos")
+			)
+		);
+	}
+	if (Kernel) {
+		AddKernelInfos(Name, AT_KERINFO_OPER, LayerOp, 0);
+		AddKernelInfos(Name, AT_KERINFO_BANDWIDTH, LayerBandwidth, 0);
+
+		AddKernelArgDim(Name, "In", 4, Feat, Height, Width, 1);
+		AddKernelArgDim(Name, "Out", 4, Feat, 1, 1, 1);
+		AddKernelArgDim(Name, "Infos", 2, AT_INF_DIM, 1);
+
+		AT_PrepareForTest_SQ8(Name, Feat,Feat,Width,Height, 1, PoolOper, 0,0,0,0,0,0, (v4s)0, 0, 0,0,0,0,0,0,(v4s) 0, ActOper);
+	}
+	return (Kernel!=0);
+}
+
+
+/*********************************************************************************************************************************************************************
+ 	Generator for Linear layers followed wth channel centric scaling followed by an optional activation
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (TileOrientation, Parallel Features), Def=(TILE_HOR, 0)
+
+		Bias_DataSize:	1: byte, 2: half word, 4: word
+		Scale_DataSize:	1: byte, 2: half word, 4: word
+
+		InDim:		Number of inputs
+		OutDim:		Number of outputs
+
+		LinearOper	KOP_LINEAR
+		ActOper		Optional activation function: KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+
+		Signature:	Name(In, Filter, Bias, Out, Scale, ScaleN, Infos)
+
+	CNN_LinearAct_SQ8
+	
+*********************************************************************************************************************************************************************/
+
+int CNN_LinearAct_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int Bias_DataSize,
+	int Scale_DataSize,
+
+	int InDim,
+	int OutDim,
+
+	KernelOper_T LinearOper,
+	KernelOper_T ActOper
+	)
+
+{
+	int Log = 1;
+	int Iter;
+	Tile_Orientation_T TileOrientation = TILE_HOR;
+	int ParFeat = 1;
+	int StandAloneAct = (ActOper!=KOP_NONE);
+	if (Ctrl) {
+		if (Ctrl->TileOrientation != -1) TileOrientation = (Ctrl->TileOrientation==0)?TILE_HOR:TILE_VER;
+		if (Ctrl->ParallelFeatures != -1) ParFeat = Ctrl->ParallelFeatures;
+	}
+	char *LinearKerName=0, *ActKerName=0;
+	unsigned long long int LayerOp = 0;
+	unsigned long long int LayerBandwidth = 0;
+
+	/* First try to map on Linear Kernel without reduction, for that In and one full line of Weights must fit into L1 */
+	if (LinearOper != KOP_LINEAR) GenTilingError("CNN_LinearAct_SQ8 Kernel: %s, only KOP_LINEAR should be used as LinearOper argument", Name);
+
+	LinearKerName = CNN_FindMatchingKernel(LinearOper, ActOper, ParFeat, 1, 1, Bias_DataSize, 0, 1, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
+	if (LinearKerName) StandAloneAct = 0;
+	else if (StandAloneAct) LinearKerName = CNN_FindMatchingKernel(LinearOper, KOP_NONE, ParFeat, 1, 1, Bias_DataSize, 0, 1, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
+	if (LinearKerName==0) GenTilingError("CNN_LinearAct_SQ8 Kernel: %s, Can't find a matching Linear basic kernel", Name);
+
+	if (StandAloneAct) {
+		ActKerName = CNN_FindMatchingKernel(ActOper, KOP_NONE, ParFeat, 1, 1, Bias_DataSize, 0, 1, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
+		if (ActKerName==0) GenTilingError("CNN_LinearAct_SQ8 Kernel: %s, Can't find a matching Activation basic kernel", Name);
+	}
+
+	LayerOp += InDim*OutDim;
+	if (ActOper) LayerOp += OutDim;
+	LayerBandwidth += InDim*OutDim*1;
+	LayerBandwidth += OutDim*1;
+	LayerBandwidth += InDim*OutDim*1;
+	LayerBandwidth += Bias_DataSize*OutDim;
+
+	if (Log) {
+		printf("Linear Layer %s, %s: InDim: %d, OutDim: %d, Activation: %s\n", Name, CNN_KernelOperImage(LinearOper), InDim, OutDim, CNN_KernelOperImage(ActOper));
+		if (LinearKerName) printf("Linear Kernel: %s\n", LinearKerName);
+		if (ActKerName)    printf("Act Kernel: %s\n", ActKerName);
+	}
+	Kernel_T *Kernel;
+
+	CKernel_Arg_T **KCArgs = AllocateCArgs(7);
+	int Ca=0;
+	KCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1),                "In");
+	KCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1),            "Filter");
+	KCArgs[Ca++] = TCArg(CNN_ArgDataType(Bias_DataSize,1,1),  "Bias");
+       	KCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1),               "Out");
+       	KCArgs[Ca++] = TCArg(CNN_ArgDataTypeUns(1,1,1),          "Scale");
+       	KCArgs[Ca++] = TCArg(CNN_ArgDataTypeUns(1,1,1),         "ScaleN");
+       	KCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1),             "Infos");
+
+	AT_SetKernelCtrl(AT_KERNEL_NOSOLUTION_ERROR, AT_OPT_OFF);
+
+	Object_T **KArgs = AllocateKerArgs(7);
+	int Ka=0;
+	KArgs[Ka++] = KerArg("In",      KerArgSpace(1,T0), O_IN|O_BUFF|O_NTILED, 1, 1,  InDim*1,       0, 0, 0, "In");
+	KArgs[Ka++] = KerArg("Filter",  KerArgSpace(1,D0), OBJ_IN_DB|O_CONST,    1, 1,  InDim*1,       0, 0, 0, "Filter");
+	KArgs[Ka++] = KerArg("Bias",    KerArgSpace(1,D0), OBJ_IN_DB|O_CONST,    1, 1,  Bias_DataSize, 0, 0, 0, "Bias");
+	KArgs[Ka++] = KerArg("Out",     KerArgSpace(1,D0), OBJ_OUT_DB,           1, 1,  1,             0, 0, 0, "Out");
+	KArgs[Ka++] = KerArg("Scale",   KerArgSpace(1,D0), OBJ_IN_DB|O_CONST,    1, 1,  1,             0, 0, 0, "Scale");
+	KArgs[Ka++] = KerArg("ScaleN",  KerArgSpace(1,D0), OBJ_IN_DB|O_CONST,    1, 1,  1,             0, 0, 0, "ScaleN");
+	KArgs[Ka++] = KerArg("Infos",   KerArgSpace(1,T0), O_IN|O_BUFF|O_NTILED, 1, 1,  AT_INF_DIM*1,  0, 0, 0, "Infos");
+
+        Kernel = UserKernel(Name,
+		KernelIterSpace(2, IterParSpace(D0, OutDim, 8), IterTiledSpace(T0)),
+                TileOrientation,
+                KCArgs,
+                Calls(2,
+			Call(LinearKerName, LOC_LOOP,
+				Bindings(10,
+					K_Arg("In", KER_ARG_TILE),				/* Input tile */
+					K_Arg("Filter", KER_ARG_TILE),				/* Filter tile */
+					K_Arg("Bias", KER_ARG_TILE),				/* Bias tile */
+					K_Arg("Out", KER_ARG_TILE),				/* Output tile */
+					Imm(InDim),						/* Input tile size */
+					Imm(InDim),						/* Total Input tile size */
+					K_ArgPar("Out", KER_ARG_PARTILE_SIZE, D0),		/* Output tile size */
+					K_Arg("Scale", KER_ARG_TILE),				/* Scale tile */
+					K_Arg("ScaleN", KER_ARG_TILE),				/* Norm Scale tile */
+					K_Arg("Infos", KER_ARG_TILE)				/* Infos */
+				)
+			),
+			(ActKerName==0)?AT_NO_CALL:
+			Call(ActKerName, LOC_LOOP_EPILOG,
+				Bindings(6,
+					K_Arg("Out", KER_ARG_TILE),				/* Input tile */
+					K_Arg("Out", KER_ARG_TILE),				/* Output tile */
+					K_ArgPar("Out", KER_ARG_PARTILE_SIZE, D0),		/* Number of features in this tile */
+					Imm(1),							/* Tile width */
+					Imm(1),							/* Tile height */
+					K_Arg("Infos", KER_ARG_TILE)				/* Infos */
+				)
+			)
+		),
+                KArgs
+	);
+	AT_SetKernelCtrl(AT_KERNEL_NOSOLUTION_ERROR, AT_OPT_ON);
+	if (Kernel==0) {
+		char *SetBiasKerName=0, *LinearKerName=0, *ReductKerName=0;
+
+		SetBiasKerName = CNN_FindMatchingKernel(KOP_SETBIAS, KOP_NONE, ParFeat, Bias_DataSize, 0, 0, 0, 4, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
+		if (SetBiasKerName==0) GenTilingError("CNN_LinearAct_SQ8 Kernel: %s, Can't find a matching Set Bias basic kernel", Name);
+
+		LinearKerName = CNN_FindMatchingKernel(KOP_LINEAR, KOP_NONE, ParFeat, 1, 1, 0, 0, 4, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
+		if (LinearKerName==0) GenTilingError("CNN_LinearAct_SQ8 Kernel: %s, Can't find a matching Linear basic kernel", Name);
+
+		ReductKerName = CNN_FindMatchingKernel(KOP_DP_REDUCT, ActOper, ParFeat, 4, 0, 0, 0, 1, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
+		if (ReductKerName==0) GenTilingError("CNN_LinearAct_SQ8 Kernel: %s, Can't find a matching Reduction basic kernel", Name);
+	
+		if (Log) {
+			printf("Linear Layer %s, %s: InDim: %d, OutDim: %d, Activation: %s, output parallel failed, switching to feature parallel form\n",
+				Name, CNN_KernelOperImage(LinearOper), InDim, OutDim, CNN_KernelOperImage(ActOper));
+			if (SetBiasKerName) printf("SetBias Kernel: %s\n", SetBiasKerName);
+			if (LinearKerName)  printf("Linear Kernel   : %s\n", LinearKerName);
+			if (ReductKerName)  printf("Reduction Kernel: %s\n", ReductKerName);
+		}
+
+		Object_T **KArgs = AllocateKerArgs(8);
+		int Ka=0;
+		KArgs[Ka++] = KerArg("In",     KerArgSpace(1,T0),    OBJ_IN_DB,            1, InDim,  1,             0, 0, 0, "In");
+		KArgs[Ka++] = KerArg("Filter", KerArgSpace(2,D0,T0), OBJ_IN_DB|O_CONST,    1, InDim,  1,             0, 0, 0, "Filter");
+		KArgs[Ka++] = KerArg("Bias",   KerArgSpace(1,D0),    OBJ_IN_DB|O_CONST,    1, 1,      Bias_DataSize, 0, 0, 0, "Bias");
+		KArgs[Ka++] = KerArg("LinOut", KerArgSpace(1,D0),    O_BUFF|O_ONETILE,     1, 1,      4,             0, 0, 0, "");
+		KArgs[Ka++] = KerArg("Out",    KerArgSpace(1,D0),    OBJ_OUT_DB,           1, 1,      1,             0, 0, 0, "Out");
+		KArgs[Ka++] = KerArg("Scale",  KerArgSpace(1,D0),    OBJ_IN_DB|O_CONST,    1, 1,      1,             0, 0, 0, "Scale");
+		KArgs[Ka++] = KerArg("ScaleN", KerArgSpace(1,D0),    OBJ_IN_DB|O_CONST,    1, 1,      1,             0, 0, 0, "ScaleN");
+		KArgs[Ka++] = KerArg("Infos",  KerArgSpace(1,T0),    O_IN|O_BUFF|O_NTILED, 1, 1,      AT_INF_DIM*1,  0, 0, 0, "Infos");
+
+	        Kernel = UserKernel(Name,
+			KernelIterSpace(2, IterParSpace(D0, OutDim, 8), IterTiledSpace(T0)),
+			// KernelIterSpace(2, IterFixedSpace(D0, OutDim), IterTiledSpace(T0)),
+	                TileOrientation,
+                	KCArgs,
+	                Calls(3,
+                        	Call(SetBiasKerName, LOC_LOOP_PROLOG,
+                                	Bindings(6,
+						K_Arg("LinOut", KER_ARG_TILE),			/* SetBias output tile */
+						Imm(1),						/* SetBias output tile width */
+						Imm(1),						/* SetBias output tile height */
+						K_ArgPar("LinOut", KER_ARG_PARTILE_SIZE, D0),	/* Number of output features in this tile */
+						K_Arg("Bias", KER_ARG_TILE),			/* SetBias Bias tile */
+						K_TileOper("Infos", "char *", '@', AT_INF_BIASN)		/* Bias Norm */
+						)
+				),
+				Call(LinearKerName, LOC_LOOP,
+					Bindings(10,
+						K_Arg("In", KER_ARG_TILE),			/* Input tile */
+						K_Arg("Filter", KER_ARG_TILE),			/* Filter tile */
+						AT_IGNORE_ARG_BINDING,				/* Bias tile, ignored */
+						K_Arg("LinOut", KER_ARG_TILE),			/* Output tile */
+						K_Arg("In", KER_ARG_TILE_H),			/* Input tile height, number of in elements */
+						K_Arg("In", KER_ARG_TILE_H),			/* Total Input tile height, number of in elements */
+						K_ArgPar("Out", KER_ARG_PARTILE_SIZE, D0),	/* Output tile size, number of out elements */
+						AT_IGNORE_ARG_BINDING,				/* Scale tile, ignored here */
+						AT_IGNORE_ARG_BINDING,				/* Norm Scale tile, ignored here */
+						K_Arg("Infos", KER_ARG_TILE)			/* Infos */
+					)
+				),
+				Call(ReductKerName, LOC_LOOP_EPILOG,				/* Reduction also take care of optional activation */
+					Bindings(8,
+						K_Arg("LinOut", KER_ARG_TILE),			/* Double precision input tile */
+						K_Arg("Out", KER_ARG_TILE),			/* Single precision output tile */
+						K_ArgPar("Out", KER_ARG_PARTILE_SIZE, D0),	/* Input tile Number of features */
+						Imm(1),						/* Input tile width */
+						Imm(1),						/* Input tile height */
+						K_Arg("Scale", KER_ARG_TILE),			/* Per channel scale tile */
+						K_Arg("ScaleN", KER_ARG_TILE),			/* Per channel scale normalization tile */
+						K_Arg("Infos", KER_ARG_TILE)			/* Infos */
+					)
+				)
+			),
+	                KArgs
+		);
+	}
+
+	if (Kernel) {
+		AddKernelInfos(Name, AT_KERINFO_OPER, LayerOp, 0);
+		AddKernelInfos(Name, AT_KERINFO_BANDWIDTH, LayerBandwidth, 0);
+
+		AddKernelArgDim(Name, "In", 2, InDim, 1);
+		AddKernelArgDim(Name, "Filter", 3, OutDim, InDim, 1);
+		AddKernelArgDim(Name, "Bias", 2, OutDim, Bias_DataSize);
+		AddKernelArgDim(Name, "Out", 2, OutDim, 1);
+		AddKernelArgDim(Name, "Scale", 2, OutDim, 1);
+		AddKernelArgDim(Name, "ScaleN", 2, OutDim, 1);
+		AddKernelArgDim(Name, "Infos", 2, AT_INF_DIM, 1);
+
+		AT_PrepareForTest_SQ8(Name, InDim,OutDim,1,1, Bias_DataSize, LinearOper, 0,0,0,0,0,0,(v4s)0, 0, 0,0,0,0,0,0,(v4s)0, ActOper);
+	}
+	return (Kernel!=0);
+}
+
+/*********************************************************************************************************************************************************************
+ 	Generator for SoftMax layers 
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (TileOrientation), Def=(TILE_HOR)
+
+		Dim:		Number of inputs
+
+		SoftMaxOper:	Should always be KOP_SOFTMAX
+
+		Signature:	Name(In, Out, Infos)
+
+	CNN_SoftMax
+                Input and output are assumed to fit within given shared L1 memory. Dim is partitionned into subsets of inputs and each subset is given to
+                a different code. By definition Output contains value is the [0.0 .. 1.0] range with sum(Output)=1.0. Results are always represented in Q15
+*********************************************************************************************************************************************************************/
+
+int CNN_SoftMax_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int Dim,
+
+        KernelOper_T SoftMaxOper
+	)
+
+{
+	Tile_Orientation_T TileOrientation = TILE_HOR;
+	int ParFeat = 0;
+	if (Ctrl) {
+		if (Ctrl->TileOrientation != -1) TileOrientation = (Ctrl->TileOrientation==0)?TILE_HOR:TILE_VER;
+		if (Ctrl->ParallelFeatures != -1) ParFeat = Ctrl->ParallelFeatures;
+	}
+	unsigned long long int LayerOp = 0;
+	unsigned long long int LayerBandwidth = 0;
+	char *SoftMaxKerName = CNN_FindMatchingKernel(SoftMaxOper, KOP_NONE, ParFeat, 1, 0, 0, 0, 2, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
+
+	if (SoftMaxKerName==0) GenTilingError("CNN_SoftMax_SQ8 Kernel: %s, Can't find a matching basic kernel, warning 16 bits output only, Q15 output", Name);
+
+	LayerOp += Dim;
+	LayerBandwidth += Dim*1 + Dim*2;
+        Kernel_T *Kernel = UserKernel(Name,
+		KernelIterSpace(1, IterTiledSpace(T0)),
+                TileOrientation,
+                CArgs(3,
+                      TCArg(CNN_ArgDataType(1,1,1), "In"),
+                      TCArg(CNN_ArgDataType(2,1,1), "Out"),
+                      TCArg(CNN_ArgDataType(1,1,1), "Infos")
+                     ),
+                Calls(1,
+			Call(SoftMaxKerName, LOC_LOOP,
+				Bindings(5,
+					K_Arg("In", KER_ARG_TILE),				/* Input tile */
+					K_Arg("In", KER_ARG_TILE_H),				/* Number of inputs */
+					K_TileOper("Infos", "char *", '@', AT_INF_BIASL_SM),	/* Input left Norm factor */
+					K_Arg("Out", KER_ARG_TILE),				/* Output tile */
+					K_Arg("Infos", KER_ARG_TILE)				/* Infos */
+				)
+			)
+		),
+                KerArgs(3,
+                        KerArg("In",    KerArgSpace(1,T0), OBJ_BUFFER_IN,                1,          Dim, 1, 0, 0, 8, "In"),
+                        KerArg("Out",   KerArgSpace(1,T0), OBJ_BUFFER_OUT,               1,          Dim, 2, 0, 0, 0, "Out"),
+			KerArg("Infos", KerArgSpace(1,T0), O_IN|O_BUFF|O_NTILED|O_CONST, AT_INF_DIM, 1,   1, 0, 0, 0, "Infos")
+		)
+	);
+	if (Kernel) {
+		AddKernelInfos(Name, AT_KERINFO_OPER, LayerOp, 0);
+		AddKernelInfos(Name, AT_KERINFO_BANDWIDTH, LayerBandwidth, 0);
+
+		AddKernelArgDim(Name, "In", 2, Dim, 1);
+		AddKernelArgDim(Name, "Out", 2, Dim, 2);
+		AddKernelArgDim(Name, "Infos", 2, AT_INF_DIM, 1);
+
+		AT_PrepareForTest_SQ8(Name, Dim,Dim,1,1, 1, SoftMaxOper, 0,0,0,0,0,0,(v4s)0, 0, 0,0,0,0,0,0,(v4s)0, 0);
+	}
+	return (Kernel!=0);
+}
+
+
+/*********************************************************************************************************************************************************************
+ 	Generator for Matrix Addition layers with input scale adjustment (tensor centric), output scaling (tensor centric) and optional activation
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (TileOrientation, Parallel Features), Def=(TILE_HOR, 1)
+
+		Feat:		Number of features
+		Width:		Width of a given feature
+		Height:		Height of a given feature
+
+		AddMatOper:	Should always be KOP_MATADD
+		ActOper:	Optional activation
+
+		Signature:	Name(In1, In2, Out, Infos)
+
+	CNN_MatAddAct_SQ8
+	
+*********************************************************************************************************************************************************************/
+
+int CNN_MatAddAct_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int Feat,
+	int Width,
+	int Height,
+
+        KernelOper_T AddMatOper,
+        KernelOper_T ActOper
+)
+
+{
+	Tile_Orientation_T TileOrientation = TILE_HOR;
+	int ParFeat = 1;
+	if (Ctrl) {
+		if (Ctrl->TileOrientation != -1) TileOrientation = (Ctrl->TileOrientation==0)?TILE_HOR:TILE_VER;
+		if (Ctrl->ParallelFeatures != -1) ParFeat = Ctrl->ParallelFeatures;
+	}
+	unsigned long long int LayerOp = 0;
+	unsigned long long int LayerBandwidth = 0;
+	int StandAloneAct = (ActOper!=KOP_NONE);
+	char *MatAddKerName=0, *ActKerName=0;
+
+	MatAddKerName = CNN_FindMatchingKernel(AddMatOper, ActOper, ParFeat, 1, 1, 0, 0, 1, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
+	if (MatAddKerName) StandAloneAct = 0;
+	else MatAddKerName = CNN_FindMatchingKernel(AddMatOper, KOP_NONE, ParFeat, 1, 1, 0, 0, 1, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
+	if (MatAddKerName==0) GenTilingError("CNN_MatAddAct_SQ8 Kernel: %s, Can't find a matching basic kernel for MatAdd", Name);
+
+	if (StandAloneAct) {
+		ActKerName = CNN_FindMatchingKernel(ActOper, KOP_NONE, ParFeat, 1, 1, 0, 0, 1, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
+		if (ActKerName==0) GenTilingError("CNN_MatAddAct_SQ8 Kernel: %s, Can't find a matching basic kerne for Activationl", Name);
+	}
+
+	LayerOp += Feat * Width * Height;
+	LayerBandwidth += Width*Height*1*Feat;
+	LayerBandwidth += Width*Height*1*Feat;
+	LayerBandwidth += Width*Height*1*Feat;
+
+        Kernel_T *Kernel = UserKernel(Name,
+		KernelIterSpace(2, IterParSpace(D0, Feat, 8), IterTiledSpace(T0)),
+                TileOrientation,
+                CArgs(4,
+                      TCArg(CNN_ArgDataType(1,1,1), "In1"),
+                      TCArg(CNN_ArgDataType(1,1,1), "In2"),
+                      TCArg(CNN_ArgDataType(1,1,1), "Out"),
+                      TCArg(CNN_ArgDataType(1,1,1), "Infos")
+                     ),
+                Calls(2,
+			Call(MatAddKerName, LOC_LOOP,
+				Bindings(8,
+					K_Arg("In1", KER_ARG_TILE),			/* First input tile */
+					K_Arg("In2", KER_ARG_TILE),			/* Second input tile */
+					K_Arg("Out", KER_ARG_TILE),			/* Output tile */
+					K_ArgPar("In1", KER_ARG_PARTILE_SIZE, D0),	/* Number of Matrices involved */
+					K_Arg("In1", KER_ARG_TILE_W),			/* Input tile width */
+					K_Arg("In1", KER_ARG_TILE_H),			/* Input tile height */
+					Imm((ActOper==KOP_NONE)),			/* Scaling when no activation */
+					K_Arg("Infos", KER_ARG_TILE)			/* Infos */
+				)
+			),
+			(ActKerName==0)?AT_NO_CALL:
+			Call(ActKerName, LOC_LOOP,
+				Bindings(6,
+					K_Arg("Out", KER_ARG_TILE),			/* Input tile */
+					K_Arg("Out", KER_ARG_TILE),			/* Output tile */
+					K_ArgPar("Out", KER_ARG_PARTILE_SIZE, D0),	/* Number of features in this tile */
+					K_Arg("Out", KER_ARG_TILE_W),			/* Input tile width */
+					K_Arg("Out", KER_ARG_TILE_H),			/* Input tile height */
+					K_Arg("Infos", KER_ARG_TILE)			/* Infos */
+				)
+			)
+		),
+                KerArgs(4,
+                        KerArg("In1",    KerArgSpace(2,D0,T0), O_IN|O_DB,            Width, Height,  1,             0, 0, 0, "In1"),
+                        KerArg("In2",    KerArgSpace(2,D0,T0), O_IN|O_DB,            Width, Height,  1,             0, 0, 0, "In2"),
+                        KerArg("Out",    KerArgSpace(2,D0,T0), O_OUT|O_DB,           Width, Height,  1,             0, 0, 0, "Out"),
+			KerArg("Infos",  KerArgSpace(1,T0),    O_IN|O_BUFF|O_NTILED,      1,     1,  AT_INF_DIM*1,  0, 0, 0, "Infos")
+		)
+	);
+	if (Kernel) {
+		AddKernelInfos(Name, AT_KERINFO_OPER, LayerOp, 0);
+		AddKernelInfos(Name, AT_KERINFO_BANDWIDTH, LayerBandwidth, 0);
+
+		AddKernelArgDim(Name, "In1", 4, Feat,  Height, Width, 1);
+		AddKernelArgDim(Name, "In2", 4, Feat,  Height, Width, 1);
+		AddKernelArgDim(Name, "Out", 4, Feat, Height, Width, 1);
+		AddKernelArgDim(Name, "Infos", 2, AT_INF_DIM, 1);
+
+		AT_PrepareForTest_SQ8(Name, Feat,Feat,Width,Height, 1, AddMatOper, 0,0,0,0,0,0,(v4s)0, 0, 0,0,0,0,0,0,(v4s)0, ActOper);
+	}
+	return (Kernel!=0);
+}
+
+/*********************************************************************************************************************************************************************
+ 	Generator for Tensor [CxHxW] by Vector [C] product with tensor centric scaling and optional Activation
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (TileOrientation, Parallel Features), Def=(TILE_HOR, 1)
+
+		InFeat:		Number of input features
+		Width:		Width of a In1
+		Height:		Height of a In1
+
+		MatOper:	KOP_MATVECTMUL
+		ActOper:	Optional activation function: KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+
+		Signature:	Name(In1, In2, Out, Infos)
+
+	CNN_TensorVectMultAct_SQ8
+	
+*********************************************************************************************************************************************************************/
+
+int CNN_TensorVectMultAct_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int Feat,
+	int Width,
+	int Height,
+
+        KernelOper_T MatOper,
+        KernelOper_T ActOper
+)
+
+{
+	Tile_Orientation_T TileOrientation = TILE_HOR;
+	int ParFeat = 1;
+	if (Ctrl) {
+		if (Ctrl->TileOrientation != -1) TileOrientation = (Ctrl->TileOrientation==0)?TILE_HOR:TILE_VER;
+		if (Ctrl->ParallelFeatures != -1) ParFeat = Ctrl->ParallelFeatures;
+	}
+	unsigned long long int LayerOp = 0;
+	unsigned long long int LayerBandwidth = 0;
+	char *MatOperKerName=0, *ActKerName=0;
+	int StandAloneAct=(ActOper!=KOP_NONE);
+
+	MatOperKerName = CNN_FindMatchingKernel(MatOper, ActOper, ParFeat, 1, 1, 1, 0, 1, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
+	if (MatOperKerName) StandAloneAct=0;
+	else if (StandAloneAct) MatOperKerName = CNN_FindMatchingKernel(MatOper, KOP_NONE, ParFeat, 1, 1, 1, 0, 1, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
+	if (MatOperKerName==0) GenTilingError("CNN_TensorVectMultAct_SQ8 Kernel: %s, Can't find a matching basic kernel for MatVectMult", Name);
+	if (StandAloneAct) {
+		ActKerName = CNN_FindMatchingKernel(ActOper, KOP_NONE, ParFeat, 1, 1, 1, 0, 1, 0,0,0,0,0,0, 0,0,0,0,0,0, 0);
+		if (ActKerName==0) GenTilingError("CNN_TensorVectMultAct_SQ8 Kernel: %s, Can't find a matching basic kernel for Activation", Name);
+	}
+
+
+	LayerOp += Feat * Width * Height;
+
+	LayerBandwidth += Width*Height*1*Feat;
+	LayerBandwidth += 1*Feat;
+	LayerBandwidth += Width*Height*1*Feat;
+
+        Kernel_T *Kernel;
+	CKernel_Arg_T **KerCArgs;
+	int Ca=0;
+	Object_T **KArgs;
+	int Ka=0;
+
+	KerCArgs = AllocateCArgs(4);
+	KerCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1), "In1");
+	KerCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1), "In2");
+	KerCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1), "Out");
+	KerCArgs[Ca++] = TCArg(CNN_ArgDataType(1,1,1), "Infos");
+
+	KArgs = AllocateKerArgs(4);
+	KArgs[Ka++] = KerArg("In1",   KerArgSpace(2,D0,T0), O_IN|O_DB,            1, 1, Width*Height*1,  0, 0, 0, "In1");
+	KArgs[Ka++] = KerArg("In2",   KerArgSpace(1,D0),    O_IN|O_DB,            1, 1, 1,               0, 0, 0, "In2");
+	KArgs[Ka++] = KerArg("Out",   KerArgSpace(2,D0,T0), O_OUT|O_DB,           1, 1, Width*Height*1,  0, 0, 0, "Out");
+	KArgs[Ka++] = KerArg("Infos", KerArgSpace(1,T0),    O_IN|O_BUFF|O_NTILED, 1, 1, AT_INF_DIM*1,    0, 0, 0, "Infos");
+
+
+        AT_SetKernelCtrl(AT_KERNEL_NOSOLUTION_ERROR, AT_OPT_OFF);
+	/* First try with entire feature in L1 */
+       	Kernel= UserKernel(Name,
+		KernelIterSpace(2, IterParSpace(D0, Feat, 8), IterTiledSpace(T0)),
+                TileOrientation,
+		KerCArgs,
+                Calls(2,
+			Call(MatOperKerName, LOC_LOOP,
+				Bindings(8,
+					K_Arg("In1", KER_ARG_TILE),			/* First input tile */
+					K_Arg("In2", KER_ARG_TILE),			/* Second input tile */
+					K_Arg("Out", KER_ARG_TILE),			/* Output tile */
+					K_ArgPar("In1", KER_ARG_PARTILE_SIZE, D0),	/* Number of Matrices involved */
+					Imm(Width), 					/* Input tile width */
+					Imm(Height),					/* Input tile height */
+					Imm((ActOper==KOP_NONE)),			/* Scaling when no activation */
+					K_Arg("Infos", KER_ARG_TILE)			/* Infos */
+				)
+			),
+			(ActKerName==0)?AT_NO_CALL:
+			Call(ActKerName, LOC_LOOP,
+				Bindings(6,
+					K_Arg("Out", KER_ARG_TILE),			/* Input tile */
+					K_Arg("Out", KER_ARG_TILE),			/* Output tile */
+					K_ArgPar("Out", KER_ARG_PARTILE_SIZE, D0),	/* Number of features in this tile */
+					Imm(Width), 					/* Input tile width */
+					Imm(Height),					/* Input tile height */
+					K_Arg("Infos", KER_ARG_TILE)			/* Infos */
+				)
+			)
+		),
+		KArgs
+	);
+	AT_SetKernelCtrl(AT_KERNEL_NOSOLUTION_ERROR, AT_OPT_ON);
+
+	if (Kernel == 0) {
+		Ka=0;
+		KArgs[Ka++] = KerArg("In1",   KerArgSpace(2,D0,T0), O_IN|O_DB,           Width, Height, 1,            0, 0, 0, "In1");
+		KArgs[Ka++] = KerArg("In2",   KerArgSpace(1,D0),    O_IN|O_DB,               1,      1, 1,            0, 0, 0, "In2");
+		KArgs[Ka++] = KerArg("Out",   KerArgSpace(2,D0,T0), O_OUT|O_DB,          Width, Height, 1,            0, 0, 0, "Out");
+		KArgs[Ka++] = KerArg("Infos", KerArgSpace(1,T0),    O_IN|O_BUFF|O_NTILED,    1,      1, AT_INF_DIM*1, 0, 0, 0, "Infos");
+
+	       	Kernel= UserKernel(Name,
+			KernelIterSpace(2, IterParSpace(D0, Feat, 8), IterTiledSpace(T0)),
+	                TileOrientation,
+			KerCArgs,
+	                Calls(2,
+				Call(MatOperKerName, LOC_LOOP,
+					Bindings(8,
+						K_Arg("In1", KER_ARG_TILE),			/* First input tile */
+						K_Arg("In2", KER_ARG_TILE),			/* Second input tile */
+						K_Arg("Out", KER_ARG_TILE),			/* Output tile */
+						K_ArgPar("In1", KER_ARG_PARTILE_SIZE, D0),	/* Number of Matrices involved */
+						K_Arg("In1", KER_ARG_TILE_W),			/* Input tile width */
+						K_Arg("In1", KER_ARG_TILE_H),			/* Input tile height */
+						Imm((ActOper==KOP_NONE)),			/* Scaling when no activation */
+						K_Arg("Infos", KER_ARG_TILE)			/* Infos */
+					)
+				),
+				(ActKerName==0)?AT_NO_CALL:
+				Call(ActKerName, LOC_LOOP,
+					Bindings(6,
+						K_Arg("Out", KER_ARG_TILE),			/* Input tile */
+						K_Arg("Out", KER_ARG_TILE),			/* Output tile */
+						K_ArgPar("Out", KER_ARG_PARTILE_SIZE, D0),	/* Number of features in this tile */
+						K_Arg("Out", KER_ARG_TILE_W),			/* Input tile width */
+						K_Arg("Out", KER_ARG_TILE_H),			/* Input tile height */
+						K_Arg("Infos", KER_ARG_TILE)			/* Infos */
+					)
+				)
+			),
+			KArgs
+		);
+	}
+	if (Kernel) {
+		AddKernelInfos(Name, AT_KERINFO_OPER, LayerOp, 0);
+		AddKernelInfos(Name, AT_KERINFO_BANDWIDTH, LayerBandwidth, 0);
+
+		AddKernelArgDim(Name, "In1",   4, Feat, Height, Width, 1);
+		AddKernelArgDim(Name, "In2",   2, Feat, 1);
+		AddKernelArgDim(Name, "Out",   4, Feat, Height, Width, 1);
+		AddKernelArgDim(Name, "Infos", 2, AT_INF_DIM, 1);
+
+		AT_PrepareForTest_SQ8(Name, Feat,Feat,Width,Height, 1, MatOper, 0,0,0,0,0,0,(v4s)0, 0, 0,0,0,0,0,0,(v4s)0, ActOper);
+	}
+	return (Kernel!=0);
+}
+
+/*********************************************************************************************************************************************************************
+ 	Generator for Matrix Multiplication layers with channel centric scaling followed by an optional Activation.
+
+	Can be used for 1x1 convolutions with Filters in In1 [OutFeat x InFeat] and Features in In2 [InFeat x W*H]
+	When non unit strides are used they apply to In2, produced output is [OutFeat x Floor((W+Scx-1)/Scx)*Floor((H+Scy-1)/Scy)]
+	Bias [OutFeat x 1] is added to each individual features
+	Line x Col sum of products are evaluated on 32 bits therefore, when used for 1x1 convolution, this generator is equivalent to KOP_CONV_DP
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options
+
+		Bias_DataSize:	1: byte, 2: half word,
+		Scale_DataSize:	1: byte, 2: half word, 4: word
+
+		ColM1:		Number of colums for matrix In1, for 1x1 convolution this is InFeat
+		LineM1:		Number of lines for matrix In1, for 1x1 convolution this is OutFeat
+		ColM2:		Number of colums for matrix In2, for 1x1 convolution this is W*H
+		LineM2:		Number of lines for matrix In2, for 1x1 convolution this is InFeat
+
+		Width		For 1x1 convolution, width of an input feature map
+		Height		For 1x1 convolution, height of an input feature map
+		Scx:		stride x dimension for In2
+		Scy:		stride y dimension for In2
+
+		MatMulOper:	Should always be KOP_MATMUL
+
+		ActOper:	Optionnal Activation (KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU)
+
+		Signature:	Name(In2, In1, Bias, Out, Scale, ScaleN, Infos)
+
+	CNN_MatMulAct_SQ8
+	
+*********************************************************************************************************************************************************************/
+
+int CNN_MatMulAct_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int Bias_DataSize,
+	int Scale_DataSize,
+
+	int ColM1,
+	int LineM1,
+	int ColM2,
+	int LineM2,
+
+	int Width,
+	int Height,
+	int Scx,
+	int Scy,
+
+        KernelOper_T MatMulOper,
+        KernelOper_T ActOper
+	)
+
+{
+	int Log = 1;
+	Tile_Orientation_T TileOrientation = TILE_HOR;
+	int NeedScx, NeedScy;
+	unsigned long long int LayerOp = 0;
+	unsigned long long int LayerBandwidth = 0;
+        int LineO = LineM1, ColO = ColM2;
+	int ConsT0 = Scx;
+	int Nbuff;
+	int ColFirst = ((LineM1*ColM1)<(LineM2*ColM2));
+	char *MatMulKerName=0, *ActKerName=0;
+	int StandAloneAct = (ActOper!=KOP_NONE);
+
+	if (!(MatMulOper == KOP_MATMUL)) GenTilingError("CNN_MatMulAct_SQ8 Kernel: %s, MatMulOper should be KOP_MATMUL", Name);
+
+	if (!(ActOper == KOP_NONE || ActOper == KOP_RELU || ActOper == KOP_RELUN || ActOper == KOP_HSIGMOID || ActOper == KOP_HSWISH || ActOper == KOP_LEAKYRELU))
+		GenTilingError("CNN_MatMulAct_SQ8 Kernel: %s, ActOper, expecting KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSIGMOID, KOP_HSWISH or KOP_LEAKYRELU", Name);
+
+	if (ColM1 != LineM2) GenTilingError("CNN_MatMulAct_SQ8: %s, Incorrect input matrices dimensions for a matrix multiplication: [%d x %d]*[%d x %d] %s", Name, LineM1, ColM1, LineM2, ColM2);
+	if (Width==0||Height==0) {
+		Width = ColM2; Height=1; Scx = 1; Scy = 1;
+	}
+	if ((Width*Height) != ColM2) GenTilingError("CNN_MatMulAct_SQ8: %s, ColM2: %d should always be equal to Width: %d * Height: %d", Name, ColM2, Width, Height);
+	if (Scx==1 && Scy==1) Nbuff = 4; else Nbuff = 1;
+
+	MatMulKerName = CNN_FindMatchingKernel(MatMulOper, ActOper, 1, 1, 1, Bias_DataSize, 0, 1, 0,0,0,0,Scx,Scy, 0,0,0,0, &NeedScx, &NeedScy, 0);
+	if (MatMulKerName) StandAloneAct = 0;
+	else MatMulKerName = CNN_FindMatchingKernel(MatMulOper, KOP_NONE, 1, 1, 1, Bias_DataSize, 0, 1, 0,0,0,0,Scx,Scy, 0,0,0,0, &NeedScx, &NeedScy, 0);
+	if (MatMulKerName==0) GenTilingError("CNN_MatMulAct_SQ8 Kernel: %s, Can't find a matching basic kernel for MatMul", Name);
+
+	if (StandAloneAct) {
+		ActKerName = CNN_FindMatchingKernel(ActOper, KOP_NONE, 0, 0, 0, 0, 0, 1, 0,0,0,0,0,0, 0,0,0,0, 0, 0, 0);
+		if (ActKerName==0) GenTilingError("CNN_MatMulAct_SQ8 Kernel: %s, Can't find a matching basic kernel for Activation", Name);
+	}
+
+	ColO = ((Width+Scx-1)/Scx) * ((Height+Scy-1)/Scy);
+	LayerOp += ColM1*ColO*LineM1;
+	LayerBandwidth += LineM1*(ColM1*ColM2*(1+1));
+	LayerBandwidth += LineM1*ColM2*1;
+	LayerBandwidth += LineM1*Bias_DataSize;
+
+	if (Scy!=1) ConsT0 = Width*Scy; else ConsT0 = 4;
+	
+	if (Log) {
+		printf("CNN_MatMul_SQ8: %s\n", Name);
+		printf("In1  => W: %4d, H: %4d\n", ColM1, LineM1);
+		printf("In2  => W: %4d, H: %4d, w: %4d, h: %4d, Sx: %1d, Sy: %1d\n", ColM2, LineM2, Width, Height, Scx, Scy);
+		printf("Out  => W: %4d, H: %4d => %s\n", ColO, LineO, ColFirst?"Column first":"Line First");
+		if (MatMulKerName) printf("%20s: %s\n", "MatMulKerName", MatMulKerName);
+		if (ActKerName)    printf("%20s: %s\n", "ActKerName", ActKerName);
+		// printf("Nb Oper : %lld\n", LayerOp);
+	}
+
+	Kernel_T *Kernel;
+
+	/* First try buffering small objects */
+	Kernel = UserKernel(Name,
+		KernelIterSpace(2, IterTiledSpace(T1), IterTiledSpace(T0)),
+                TILE_HOR,
+                CArgs(7,
+                      TCArg(CNN_ArgDataType(1,1,1),  "In2"),
+                      TCArg(CNN_ArgDataType(1,1,1),  "In1"),
+                      TCArg(CNN_ArgDataType(Bias_DataSize,1,1), "Bias"),
+                      TCArg(CNN_ArgDataType(1,1,1),  "Out"),
+                      TCArg(CNN_ArgDataTypeUns(1,1,1),"Scale"),
+                      TCArg(CNN_ArgDataTypeUns(1,1,1),"ScaleN"),
+                      TCArg(CNN_ArgDataType(1,1,1),  "Infos")
+                ),
+		Calls(2,
+			Call(MatMulKerName, LOC_LOOP,
+				Bindings(19,
+					K_Arg("In1",  KER_ARG_TILE), K_Arg("In1",  KER_ARG_TILE_W), K_Arg("In1",  KER_ARG_TILE_H),
+					K_Arg("In2",  KER_ARG_TILE), K_Arg("In2",  KER_ARG_TILE_W),
+					K_Arg("Bias", KER_ARG_TILE),
+					K_Arg("Scale", KER_ARG_TILE), K_Arg("ScaleN", KER_ARG_TILE),
+					K_Arg("Out", KER_ARG_TILE),  K_Arg("Out", KER_ARG_TILE_W), K_Arg(ColFirst?"In1":"In2",  KER_ARG_TILE_BASE),
+					K_Arg("KerBuff", KER_ARG_TILE),
+					K_TileOper("Infos", "char *", '@', AT_INF_BIASN),
+					Imm(ColFirst),
+					NeedScx?Imm(Scx):AT_IGNORE_ARG_BINDING,
+					NeedScy?Imm(Scy):AT_IGNORE_ARG_BINDING,
+					(NeedScx||NeedScy)?Imm(Width):AT_IGNORE_ARG_BINDING,
+					(NeedScx||NeedScy)?Imm(Height):AT_IGNORE_ARG_BINDING,
+					K_Arg("Infos", KER_ARG_TILE)
+				)
+			),
+			(ActKerName==0)?AT_NO_CALL:
+			Call(ActKerName, LOC_LOOP,
+				Bindings(6,					/* Uses feature par form with W: Out.W, H: Out.H given the fact that H is feat and W is w*h */
+					K_Arg("Out", KER_ARG_TILE),		/* Input tile */
+					K_Arg("Out", KER_ARG_TILE),		/* Output tile */
+					Imm(1),					/* Input of features in this tile */
+					K_Arg("Out", KER_ARG_TILE_W),		/* Input tile width */
+					K_Arg("Out", KER_ARG_TILE_H),		/* Input tile height */
+					K_Arg("Infos", KER_ARG_TILE)		/* Infos */
+				)
+			)
+		),
+		ColFirst?
+		KerArgs(8,
+			KerArg("KerBuff",KerArgSpace(1, T1), O_BUFF|O_NTILED, Nbuff*ColM1,  1,      1,             0, 0,                                                0, 0),
+			KerArg("In1",    KerArgSpace(1, T0), O_IN|O_DB|O_CONST,     ColM1,  LineM1, 1,             0, OBJ_CONSTRAINTS_PAD_REM,                          8, "In1"),
+			KerArg("In2",    KerArgSpace(1, T1), O_IN|O_DB,             ColM2,  LineM2, 1,             0, OBJ_CONSTRAINTS_TILE_VER|OBJ_CONSTRAINTS_PAD_REM, ConsT0, "In2"),
+			KerArg("Bias",   KerArgSpace(1, T0), O_BUFF|O_IN|O_CONST,       1,  LineO,  Bias_DataSize, 0, OBJ_CONSTRAINTS_PAD_REM,                          0, "Bias"),
+			KerArg("Out",    KerArgSpace(1, T1), O_OUT|O_DB,             ColO,  LineO,  1,             0, OBJ_CONSTRAINTS_TILE_VER|OBJ_CONSTRAINTS_PAD_REM, 0, "Out"),
+			KerArg("Scale",  KerArgSpace(1, T0), O_BUFF|O_IN|O_CONST,        1, LineO,  1,             0, 0,                                                0, "Scale"),
+			KerArg("ScaleN", KerArgSpace(1, T0), O_BUFF|O_IN|O_CONST,        1, LineO,  1,             0, 0,                                                0, "ScaleN"),
+			KerArg("Infos",  KerArgSpace(1, T1), O_IN|O_BUFF|O_NTILED,       1,     1,  AT_INF_DIM*1,  0, 0,                                                0, "Infos")
+		):
+		KerArgs(8,
+			KerArg("KerBuff",KerArgSpace(1, T0), O_BUFF|O_NTILED, Nbuff*ColM1,  1,      1,             0, 0,                                                0, 0),
+			KerArg("In1",    KerArgSpace(1, T1), O_IN|O_DB|O_CONST,     ColM1,  LineM1, 1,             0, OBJ_CONSTRAINTS_PAD_REM,                          8, "In1"),
+			KerArg("In2",    KerArgSpace(1, T0), O_IN|O_DB,             ColM2,  LineM2, 1,             0, OBJ_CONSTRAINTS_TILE_VER|OBJ_CONSTRAINTS_PAD_REM, ConsT0, "In2"),
+			KerArg("Bias",   KerArgSpace(1, T1), O_BUFF|O_IN|O_CONST,       1,  LineO,  Bias_DataSize, 0, OBJ_CONSTRAINTS_PAD_REM,                          0, "Bias"),
+			KerArg("Out",    KerArgSpace(1, T1), O_OUT|O_DB,             ColO,  LineO,  1,             0, OBJ_CONSTRAINTS_PAD_REM,                          0, "Out"),
+			KerArg("Scale",  KerArgSpace(1, T1), O_BUFF|O_IN|O_CONST,        1, LineO,  1,             0, 0,                                                0, "Scale"),
+			KerArg("ScaleN", KerArgSpace(1, T1), O_BUFF|O_IN|O_CONST,        1, LineO,  1,             0, 0,                                                0, "ScaleN"),
+			KerArg("Infos",  KerArgSpace(1, T0), O_IN|O_BUFF|O_NTILED,       1,     1,  AT_INF_DIM*1,  0, 0,                                                0, "Infos")
+		)
+	);
+	/* If no soultion found roll back to tiled approach for small objects */
+	if (Kernel==0) 
+	Kernel = UserKernel(Name,
+		KernelIterSpace(2, IterTiledSpace(T1), IterTiledSpace(T0)),
+                TILE_HOR,
+                CArgs(7,
+                      TCArg(CNN_ArgDataType(1,1,1),  "In2"),
+                      TCArg(CNN_ArgDataType(1,1,1),  "In1"),
+                      TCArg(CNN_ArgDataType(Bias_DataSize,1,1), "Bias"),
+                      TCArg(CNN_ArgDataType(1,1,1),  "Out"),
+                      TCArg(CNN_ArgDataTypeUns(1,1,1),"Scale"),
+                      TCArg(CNN_ArgDataTypeUns(1,1,1),"ScaleN"),
+                      TCArg(CNN_ArgDataType(1,1,1),  "Infos")
+                ),
+		Calls(2,
+			Call(MatMulKerName, LOC_LOOP,
+				Bindings(19,
+					K_Arg("In1",  KER_ARG_TILE), K_Arg("In1",  KER_ARG_TILE_W), K_Arg("In1",  KER_ARG_TILE_H),
+					K_Arg("In2",  KER_ARG_TILE), K_Arg("In2",  KER_ARG_TILE_W),
+					K_Arg("Bias", KER_ARG_TILE),
+					K_Arg("Scale", KER_ARG_TILE), K_Arg("ScaleN", KER_ARG_TILE),
+					K_Arg("Out", KER_ARG_TILE),  K_Arg("Out", KER_ARG_TILE_W), K_Arg(ColFirst?"In1":"In2",  KER_ARG_TILE_BASE),
+					K_Arg("KerBuff", KER_ARG_TILE),
+					K_TileOper("Infos", "char *", '@', AT_INF_BIASN),
+					Imm(ColFirst),
+					NeedScx?Imm(Scx):AT_IGNORE_ARG_BINDING,
+					NeedScy?Imm(Scy):AT_IGNORE_ARG_BINDING,
+					(NeedScx||NeedScy)?Imm(Width):AT_IGNORE_ARG_BINDING,
+					(NeedScx||NeedScy)?Imm(Height):AT_IGNORE_ARG_BINDING,
+					K_Arg("Infos", KER_ARG_TILE)
+				)
+			),
+			(ActKerName==0)?AT_NO_CALL:
+			Call(ActKerName, LOC_LOOP,
+				Bindings(6,					/* Uses feature par form with W: Out.W, H: Out.H given the fact that H is feat and W is w*h */
+					K_Arg("Out", KER_ARG_TILE),		/* Input tile */
+					K_Arg("Out", KER_ARG_TILE),		/* Output tile */
+					Imm(1),					/* Input of features in this tile */
+					K_Arg("Out", KER_ARG_TILE_W),		/* Input tile width */
+					K_Arg("Out", KER_ARG_TILE_H),		/* Input tile height */
+					K_Arg("Infos", KER_ARG_TILE)		/* Infos */
+				)
+			)
+		),
+		ColFirst?
+		KerArgs(8,
+			KerArg("KerBuff",KerArgSpace(1, T1), O_BUFF|O_NTILED, Nbuff*ColM1,  1,      1,             0, 0,                                                0, 0),
+			KerArg("In1",    KerArgSpace(1, T0), O_IN|O_DB|O_CONST,     ColM1,  LineM1, 1,             0, OBJ_CONSTRAINTS_PAD_REM,                          8, "In1"),
+			KerArg("In2",    KerArgSpace(1, T1), O_IN|O_DB,             ColM2,  LineM2, 1,             0, OBJ_CONSTRAINTS_TILE_VER|OBJ_CONSTRAINTS_PAD_REM, ConsT0, "In2"),
+			KerArg("Bias",   KerArgSpace(1, T0), O_IN|O_DB|O_CONST,         1,  LineO,  Bias_DataSize, 0, OBJ_CONSTRAINTS_PAD_REM,                          0, "Bias"),
+			KerArg("Out",    KerArgSpace(1, T1), O_OUT|O_DB,             ColO,  LineO,  1,             0, OBJ_CONSTRAINTS_TILE_VER|OBJ_CONSTRAINTS_PAD_REM, 0, "Out"),
+			KerArg("Scale",  KerArgSpace(1, T0), OBJ_IN_DB|O_CONST,          1, LineO,  1,             0, 0,                                                0, "Scale"),
+			KerArg("ScaleN", KerArgSpace(1, T0), OBJ_IN_DB|O_CONST,          1, LineO,  1,             0, 0,                                                0, "ScaleN"),
+			KerArg("Infos",  KerArgSpace(1, T1), O_IN|O_BUFF|O_NTILED,       1,     1,  AT_INF_DIM*1,  0, 0,                                                0, "Infos")
+		):
+		KerArgs(8,
+			KerArg("KerBuff",KerArgSpace(1, T0), O_BUFF|O_NTILED, Nbuff*ColM1,  1,      1,             0, 0,                                                0, 0),
+			KerArg("In1",    KerArgSpace(1, T1), O_IN|O_DB|O_CONST,     ColM1,  LineM1, 1,             0, OBJ_CONSTRAINTS_PAD_REM,                          8, "In1"),
+			KerArg("In2",    KerArgSpace(1, T0), O_IN|O_DB,             ColM2,  LineM2, 1,             0, OBJ_CONSTRAINTS_TILE_VER|OBJ_CONSTRAINTS_PAD_REM, ConsT0, "In2"),
+			KerArg("Bias",   KerArgSpace(1, T1), O_IN|O_DB|O_CONST,         1,  LineO,  Bias_DataSize, 0, OBJ_CONSTRAINTS_PAD_REM,                          0, "Bias"),
+			KerArg("Out",    KerArgSpace(1, T1), O_OUT|O_DB,             ColO,  LineO,  1,             0, OBJ_CONSTRAINTS_PAD_REM,                          0, "Out"),
+			KerArg("Scale",  KerArgSpace(1, T1), OBJ_IN_DB|O_CONST,          1, LineO,  1,             0, 0,                                                0, "Scale"),
+			KerArg("ScaleN", KerArgSpace(1, T1), OBJ_IN_DB|O_CONST,          1, LineO,  1,             0, 0,                                                0, "ScaleN"),
+			KerArg("Infos",  KerArgSpace(1, T0), O_IN|O_BUFF|O_NTILED,       1,     1,  AT_INF_DIM*1,  0, 0,                                                0, "Infos")
+		)
+	);
+	if (Kernel) {
+		AddKernelInfos(Name, AT_KERINFO_OPER, LayerOp, 0);
+		AddKernelInfos(Name, AT_KERINFO_BANDWIDTH, LayerBandwidth, 0);
+
+		AddKernelArgDim(Name, "In1", 3, LineM1, ColM1, 1);
+		AddKernelArgDim(Name, "In2", 4, LineM2, Height, Width, 1);
+		AddKernelArgDim(Name, "Bias", 2, LineO, Bias_DataSize);
+		AddKernelArgDim(Name, "Out", 3, LineO, ColO, 1);
+		AddKernelArgDim(Name, "Scale", 2, LineO, 1);
+		AddKernelArgDim(Name, "ScaleN", 2, LineO, 1);
+		AddKernelArgDim(Name, "Infos", 2, AT_INF_DIM, 1);
+
+		AT_PrepareForTest_SQ8(Name, ColM1,LineM1,Width,Height, Bias_DataSize, MatMulOper, 1,1,1,1,Scx,Scy,(v4s)0, 0, 0,0,0,0,0,0,(v4s)0, ActOper);
+	}
+	return (Kernel!=0);
+}
+
+/*********************************************************************************************************************************************************************
+ 	Generator for Matrix Multiplication layers with channel centric scaling followed by an optional Activation.
+	Special form to handle small form factor In1 (InFeat x OutFeat)
+
+	Can be used for 1x1 convolutions with Filters in In1 [OutFeat x InFeat] and Features in In2 [InFeat x W*H]
+	When non unit strides are used they apply to In2, produced output is [OutFeat x Floor((W+Scx-1)/Scx)*Floor((H+Scy-1)/Scy)]
+	Bias [OutFeat x 1] is added to each individual features
+	Line x Col sum of products are evaluated on 32 bits therefore, when used for 1x1 convolution, this generator is equivalent to KOP_CONV_DP
+	This generator assumes that the whole In1 and Bias can be accomodated into shared L1. Expecting to be used for us to 32 InFeat x 32 OutFeat
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (ReluN), Def=(6)
+
+		Bias_DataSize:	1: byte, 2: half word,
+		Scale_DataSize:	1: byte, 2: half word, 4: word
+
+		ColM1:		Number of colums for matrix In1, for 1x1 convolution this is InFeat
+		LineM1:		Number of lines for matrix In1, for 1x1 convolution this is OutFeat
+		ColM2:		Number of colums for matrix In2, for 1x1 convolution this is W*H
+		LineM2:		Number of lines for matrix In2, for 1x1 convolution this is InFeat
+
+		Width		For 1x1 convolution, width of an input feature map
+		Height		For 1x1 convolution, height of an input feature map
+		Scx:		stride x dimension for In2
+		Scy:		stride y dimension for In2
+
+        	MatMulOper	Should always be KOP_MATMUL
+
+        	ActOper		Optionnal Activation (KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU)
+
+		Signature:	Name(In2, In1, Bias, Out, Scale, ScaleN, Infos)
+
+	CNN_MatMulSmallM1Act_SQ8
+	
+*********************************************************************************************************************************************************************/
+
+int CNN_MatMulSmallM1Act_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int Bias_DataSize,
+	int Scale_DataSize,
+
+	int ColM1,
+	int LineM1,
+	int ColM2,
+	int LineM2,
+
+	int Width,
+	int Height,
+	int Scx,
+	int Scy,
+
+        KernelOper_T MatMulOper,
+        KernelOper_T ActOper
+	)
+
+{
+	int Log = 1;
+	Tile_Orientation_T TileOrientation = TILE_VER;
+	int NeedScx, NeedScy;
+	unsigned long long int LayerOp = 0;
+	unsigned long long int LayerBandwidth = 0;
+        int LineO = LineM1, ColO = ColM2;
+	int OutLB, OutUB, ReluN = 6;
+	int ConsT0 = Scx;
+	int TileCons = 8;
+
+	char *MatMulKerName=0, *MatTransKerName=0, *ActKerName=0;
+	int StandAloneAct = (ActOper!=KOP_NONE);
+
+	if (!(MatMulOper == KOP_MATMUL_SM1)) GenTilingError("CNN_MatMulSmallM1Act_SQ8 Kernel: %s, MatMulOper should be KOP_MATMUL", Name);
+
+	if (!(ActOper == KOP_NONE || ActOper == KOP_RELU || ActOper == KOP_RELUN || ActOper == KOP_HSIGMOID || ActOper == KOP_HSWISH || ActOper == KOP_LEAKYRELU))
+		GenTilingError("CNN_MatMulSmallM1Act_SQ8 Kernel: %s, ActOper, expecting KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSIGMOID, KOP_HSWISH or KOP_LEAKYRELU", Name);
+
+	if (ColM1 != LineM2) GenTilingError("CNN_MatMulSmallM1Act_SQ8: %s, Incorrect input matrices dimensions for a matrix multiplication: [%d x %d]*[%d x %d] %s", Name, LineM1, ColM1, LineM2, ColM2);
+	if (Width==0||Height==0) {
+		Width = ColM2; Height=1; Scx = 1; Scy = 1;
+	} else if (Scy != 1) TileCons = Width*Scy;
+	if ((Width*Height) != ColM2) GenTilingError("CNN_MatMulSmallM1Act_SQ8: %s, ColM2: %d should always be equal to Width: %d * Height: %d", Name, ColM2, Width, Height);
+
+	MatMulKerName = CNN_FindMatchingKernel(MatMulOper, ActOper, 1, 1, 1, Bias_DataSize, 0, 1, 0,0,0,0,1,1, 0,0,0,0, &NeedScx, &NeedScy, 0);
+	if (MatMulKerName) StandAloneAct = 0;
+	else if (StandAloneAct) MatMulKerName = CNN_FindMatchingKernel(MatMulOper, KOP_NONE, 1, 1, 1, Bias_DataSize, 0, 1, 0,0,0,0,1,1, 0,0,0,0, &NeedScx, &NeedScy, 0);
+	if (MatMulKerName==0) GenTilingError("CNN_MatMulSmallM1Act_SQ8 Kernel: %s, Can't find a matrix multiplication matching basic kernel", Name);
+
+	if (StandAloneAct) {
+		ActKerName = CNN_FindMatchingKernel(ActOper, KOP_NONE, 0, 0, 0, 0, 0, 1, 0,0,0,0,0,0, 0,0,0,0, 0, 0, 0);
+		if (ActKerName==0) GenTilingError("CNN_MatMulSmallM1Act_SQ8 Kernel: %s, Can't find a matching basic kernel for Activation", Name);
+	}
+
+	MatTransKerName = CNN_FindMatchingKernel(KOP_MATTRANSP, KOP_NONE, 0, 1, 0, 0, 0, 1, 0,0,0,0,Scx,Scy, 0,0,0,0, &NeedScx, &NeedScy, 0);
+	if (MatTransKerName==0) GenTilingError("CNN_MatMulSmallM1Act_SQ8 Kernel: %s, Can't find a matrix transpose matching basic kernel", Name);
+
+	ColO = ((Width+Scx-1)/Scx) * ((Height+Scy-1)/Scy);
+	LayerOp += ColM1*ColO*LineM1;
+	LayerBandwidth += LineM1*(ColM1*ColM2*(1+1));
+	LayerBandwidth += LineM1*ColM2*1;
+	LayerBandwidth += LineM1*Bias_DataSize;
+
+	if (Log) {
+		printf("CNN_MatMulSmallM1_SQ8: %s\n", Name);
+		printf("In1  => W: %4d, H: %4d\n", ColM1, LineM1);
+		printf("In2  => W: %4d, H: %4d, w: %4d, h: %4d, Sx: %1d, Sy: %1d, TileCons: %d\n", ColM2, LineM2, Width, Height, Scx, Scy, TileCons);
+		printf("Out  => W: %4d, H: %4d\n", ColO, LineO);
+		if (MatMulKerName) printf("%20s: %s\n", "MatMulKerName", MatMulKerName);
+		if (MatTransKerName) printf("%20s: %s\n", "MatTransKerName", MatTransKerName);
+		if (ActKerName) printf("%20s: %s\n", "ActKerName", ActKerName);
+		printf("Act: %s\n", CNN_KernelOperImage(ActOper));
+		printf("Nb Oper : %lld\n", LayerOp);
+	}
+
+	Kernel_T *Kernel = UserKernel(Name,
+		KernelIterSpace(1, IterTiledSpace(T0)),
+                TILE_VER,
+                CArgs(7,
+                      TCArg(CNN_ArgDataType(1,1,1),  "In2"),
+                      TCArg(CNN_ArgDataType(1,1,1),  "In1"),
+                      TCArg(CNN_ArgDataType(Bias_DataSize,1,1), "Bias"),
+                      TCArg(CNN_ArgDataType(1,1,1),  "Out"),
+                      TCArg(CNN_ArgDataTypeUns(1,1,1),"Scale"),
+                      TCArg(CNN_ArgDataTypeUns(1,1,1),"ScaleN"),
+                      TCArg(CNN_ArgDataType(1,1,1),  "Infos")
+                ),
+		Calls(3,
+			Call(MatTransKerName, LOC_LOOP,
+				Bindings(7,
+					K_Arg("In2", KER_ARG_TILE),			/* Input tile */
+					K_Arg("TransIn2", KER_ARG_TILE),		/* Transposed input tile */
+					Imm(1),						/* A single matrix */
+					K_Arg("In2", KER_ARG_TILE_W),			/* Input tile width */
+					K_Arg("In2", KER_ARG_TILE_H),			/* Input tile height */
+					NeedScx?Imm(Scx):AT_IGNORE_ARG_BINDING,
+					NeedScy?Imm(Scy):AT_IGNORE_ARG_BINDING
+				)
+			),
+			Call(MatMulKerName, LOC_LOOP,
+				Bindings(19,
+					K_Arg("In1",  KER_ARG_TILE), Imm(ColM1), Imm(LineM1),
+					K_Arg("TransIn2",  KER_ARG_TILE), K_Arg("TransIn2",  KER_ARG_TILE_W),
+					K_Arg("Bias", KER_ARG_TILE),
+					K_Arg("Scale", KER_ARG_TILE), K_Arg("ScaleN", KER_ARG_TILE),
+					K_Arg("Out", KER_ARG_TILE), AT_IGNORE_ARG_BINDING, AT_IGNORE_ARG_BINDING,
+					AT_IGNORE_ARG_BINDING,
+					K_TileOper("Infos", "char *", '@', AT_INF_BIASN),
+					AT_IGNORE_ARG_BINDING,
+					AT_IGNORE_ARG_BINDING,
+					AT_IGNORE_ARG_BINDING,
+					AT_IGNORE_ARG_BINDING,
+					AT_IGNORE_ARG_BINDING,
+					K_Arg("Infos", KER_ARG_TILE)
+				)
+			),
+			(ActKerName==0)?AT_NO_CALL:
+			Call(ActKerName, LOC_LOOP,
+				Bindings(6,
+					K_Arg("Out", KER_ARG_TILE),		/* Input tile */
+					K_Arg("Out", KER_ARG_TILE),		/* Output tile */
+					Imm(1),					/* Number of features in this tile */
+					K_Arg("Out", KER_ARG_TILE_W),		/* Input tile width */
+					K_Arg("Out", KER_ARG_TILE_H),		/* Input tile height */
+					K_Arg("Infos", KER_ARG_TILE)		/* Infos */
+				)
+			)
+		),
+		KerArgs(8,
+			KerArg("In1",      KerArgSpace(1, T0), O_IN|O_BUFF|O_NTILED|O_CONST, ColM1, LineM1, 1,             0, 0, 0, "In1"),
+			KerArg("In2",      KerArgSpace(1, T0), O_IN|O_DB,                    ColM2, LineM2, 1,             0, 0, TileCons, "In2"),
+			// KerArg("TransIn2", KerArgSpace(1, T0), O_BUFF|O_ONETILE,             ColM2, LineM2, 1,             0, 0, 0,  ""),
+			KerArg("TransIn2", KerArgSpace(1, T0), O_BUFF|O_ONETILE,              ColO, LineM2, 1,             0, 0, 0,  ""),
+			KerArg("Bias",     KerArgSpace(1, T0), O_BUFF|O_IN|O_NTILED|O_CONST,     1, LineM1, Bias_DataSize, 0, 0, 0, "Bias"),
+			KerArg("Out",      KerArgSpace(1, T0), O_OUT|O_DB,                    ColO, LineM1, 1,             0, 0, 0, "Out"),
+			KerArg("Scale",    KerArgSpace(1, T0), O_BUFF|O_IN|O_NTILED|O_CONST,     1, LineM1, 1,             0, 0, 0, "Scale"),
+			KerArg("ScaleN",   KerArgSpace(1, T0), O_BUFF|O_IN|O_NTILED|O_CONST,     1, LineM1, 1,             0, 0, 0, "ScaleN"),
+			KerArg("Infos",    KerArgSpace(1, T0), O_IN|O_BUFF|O_NTILED,             1,      1, AT_INF_DIM*1,  0, 0, 0, "Infos")
+		)
+	);
+	if (Kernel) {
+		AddKernelInfos(Name, AT_KERINFO_OPER, LayerOp, 0);
+		AddKernelInfos(Name, AT_KERINFO_BANDWIDTH, LayerBandwidth, 0);
+
+		AddKernelArgDim(Name, "In1", 3, LineM1, ColM1, 1);
+		AddKernelArgDim(Name, "In2", 4, LineM2, Height, Width, 1);
+		AddKernelArgDim(Name, "Bias", 2, LineO, Bias_DataSize);
+		AddKernelArgDim(Name, "Out", 3, LineO, ColO, 1);
+		AddKernelArgDim(Name, "Scale", 2, LineO, 1);
+		AddKernelArgDim(Name, "ScaleN", 2, LineO, 1);
+		AddKernelArgDim(Name, "Infos", 2, AT_INF_DIM, 1);
+
+		AT_PrepareForTest_SQ8(Name, ColM1,LineM1,Width,Height, Bias_DataSize, MatMulOper, 1,1,1,1,Scx,Scy,(v4s)0, 0, 0,0,0,0,0,0,(v4s)0, ActOper);
+	}
+	return (Kernel!=0);
+
+}
+
+/*********************************************************************************************************************************************************************
+ 	Generator for Matrix Transposition
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (TileOrientation, Parallel Features), Def=(TILE_HOR, 1)
+
+		Feat		Number of matrices
+		Width		For 1x1 convolution, width of an input feature map
+		Height		For 1x1 convolution, height of an input feature map
+
+		MatTransOper	KOP_MATTRANSP
+
+		Signature:	Name(In, Out)
+
+	CNN_MatTranspose_SQ8
+	
+*********************************************************************************************************************************************************************/
+
+int CNN_MatTranspose_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int Feat,
+	int Width,
+	int Height,
+
+	KernelOper_T MatTransOper
+)
+
+{
+	int Log = 1;
+	Tile_Orientation_T TileOrientation = TILE_HOR;
+	unsigned int OutTileOrientation;
+	int ParFeat = 1;
+	if (Ctrl) {
+		if (Ctrl->TileOrientation != -1) TileOrientation = (Ctrl->TileOrientation==0)?TILE_HOR:TILE_VER;
+		if (Ctrl->ParallelFeatures != -1) ParFeat = Ctrl->ParallelFeatures;
+	}
+	unsigned long long int LayerOp = Width*Height*Feat;
+	unsigned long long int LayerBandwidth = 0;
+
+	if (!(MatTransOper == KOP_MATTRANSP)) GenTilingError("CNN_MatTranspose_SQ8 Kernel: %s, MatTransOper should be KOP_MATTRANSP", Name);
+
+	char *MatTransKerName = CNN_FindMatchingKernel(MatTransOper, KOP_NONE, ParFeat, 1, 0, 0, 0, 1, 0,0,0,0,0,0, 0,0,0,0, 0, 0, 0);
+	if (MatTransKerName==0) GenTilingError("CNN_MatTranspose_SQ8 Kernel: %s, Can't find a matching basic kernel for Matrix Transpose", Name);
+
+	if (TileOrientation==TILE_HOR) OutTileOrientation = OBJ_CONSTRAINTS_TILE_VER; else OutTileOrientation = OBJ_CONSTRAINTS_TILE_HOR;
+	LayerBandwidth += Width*Height*1;
+	LayerBandwidth += Width*Height*1;
+
+	if (Log) {
+		printf("CNN_MatTranspose: %s %s\n", Name, ParFeat?"Par Feat":"");
+		printf("In  => Feat: %4d, W: %4d, H: %4d\n", Feat, Width, Height);
+		printf("Out => Feat: %4d, W: %4d, H: %4d\n", Feat, Width, Height);
+		if (MatTransKerName) printf("%20s: %s\n", "MatTransKerName", MatTransKerName);
+		printf("Nb Oper : %lld\n", LayerOp);
+	}
+
+	Kernel_T *Kernel =
+		UserKernel(Name,
+			(ParFeat)?
+			KernelIterSpace(2, IterParSpace(D0, Feat, 8), IterTiledSpace(T0)):
+			KernelIterSpace(2, IterFixedSpace(D0, Feat), IterTiledSpace(T0)),
+	        	TileOrientation,
+                	CArgs(2,
+                      		TCArg(CNN_ArgDataType(1,1,1),  "In"),
+                      		TCArg(CNN_ArgDataType(1,1,1), "Out")
+                	),
+			Calls(1,
+				Call(MatTransKerName, LOC_LOOP,
+					Bindings(7,
+						K_Arg("In", KER_ARG_TILE),			/* Input tile */
+						K_Arg("Out", KER_ARG_TILE),			/* Output tile */
+						(ParFeat)?
+						K_ArgPar("In", KER_ARG_PARTILE_SIZE, D0):	/* Number of Matrices involved */
+						Imm(1),						/* A single matrix */
+						K_Arg("In", KER_ARG_TILE_W),			/* Input tile width */
+						K_Arg("In", KER_ARG_TILE_H),			/* Input tile height */
+						AT_IGNORE_ARG_BINDING,				/* StrideX */
+						AT_IGNORE_ARG_BINDING				/* StrideY */
+					)
+				)
+			),
+	                KerArgs(2,
+	                        KerArg("In",   KerArgSpace(2,D0,T0), O_IN|O_DB,  Width, Height, 1,  0, 0, 0, "In"),
+	                        KerArg("Out",  KerArgSpace(2,D0,T0), O_OUT|O_DB, Height, Width, 1, 0, OutTileOrientation, 0, "Out")
+			)
+		);
+	if (Kernel) {
+		AddKernelInfos(Name, AT_KERINFO_OPER, LayerOp, 0);
+		AddKernelInfos(Name, AT_KERINFO_BANDWIDTH, LayerBandwidth, 0);
+
+		AddKernelArgDim(Name, "In",  4, Feat, Height, Width, 1);
+		AddKernelArgDim(Name, "Out", 4, Feat, Width, Height, 1);
+		AT_PrepareForTest_SQ8(Name, Feat,Feat,Width,Height, 1, MatTransOper, 0,0,0,0,0,0,(v4s)0, 0, 0,0,0,0,0,0,(v4s)0, 0);
+	}
+	return (Kernel!=0);
+}
+
+/*********************************************************************************************************************************************************************
+ 	Generator for 3D Tensor permutations:  CHW => {CWH, HWC, WHC, WCH, HCW}
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (TileOrientation, Parallel Features), Def=(TILE_HOR, 1)
+
+		Feat		Number of channels of the tensor
+		Width		Tensor width
+		Height		Tensor height
+
+		MatPermOper	Permutation oper:  KOP_MATPERM_CHW2CWH, KOP_MATPERM_CHW2HWC, KOP_MATPERM_CHW2WHC, KOP_MATPERM_CHW2WCH, KOP_MATPERM_CHW2HCW
+
+		Signature:	Name(In, Out)
+
+	CNN_3DTensorPermute_SQ8
+	
+*********************************************************************************************************************************************************************/
+
+int CNN_3DTensorPermute_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int Feat,
+	int Width,
+	int Height,
+
+	KernelOper_T MatPermOper
+)
+
+{
+	int Log = 1;
+	int ParFeat = 1;
+	unsigned long long int LayerOp = Width*Height*Feat;
+	unsigned long long int LayerBandwidth = 0;
+
+	if (!(MatPermOper == KOP_MATPERM_CHW2CWH || MatPermOper == KOP_MATPERM_CHW2HWC || MatPermOper == KOP_MATPERM_CHW2WHC ||
+	      MatPermOper == KOP_MATPERM_CHW2WCH || MatPermOper == KOP_MATPERM_CHW2HCW))
+		GenTilingError("CNN_3DTensorPermute_SQ8 Kernel: %s, MatTransOper should be KOP_MATPERM_CHW2CWH, KOP_MATPERM_CHW2HWC, KOP_MATPERM_CHW2WHC, KOP_MATPERM_CHW2WCH or KOP_MATPERM_CHW2HCW", Name);
+	char *MatPermKerName = CNN_FindMatchingKernel(MatPermOper, KOP_NONE, ParFeat, 1, 0, 0, 0, 1, 0,0,0,0,0,0, 0,0,0,0, 0, 0, 0);
+	if (MatPermKerName==0) GenTilingError("CNN_3DTensorPermute_SQ8 Kernel: %s, Can't find a matching basic kernel for 3D Tensor Permutation", Name);
+
+	LayerBandwidth += Feat*Width*Height*1;
+	LayerBandwidth += Feat*Width*Height*1;
+	if (Log) {
+		printf("CNN_MatPermute: %s %s\n", Name, ParFeat?"Par Feat":"");
+		printf("In  => Feat: %4d, W: %4d, H: %4d\n", Feat, Width, Height);
+		printf("Out => Feat: %4d, W: %4d, H: %4d\n", Feat, Width, Height);
+		if (MatPermKerName) printf("%20s: %s\n", "MatPermKerName", MatPermKerName);
+		printf("Nb Oper : %lld\n", LayerOp);
+	}
+
+	Object_T **PKerArgs = AllocateKerArgs(2);
+	PKerArgs[0] = KerArg("In",   KerArgSpace(1,T0), O_IN|O_DB,  Width, Height*Feat, 1,  0, 0, 0, "In");
+	switch (MatPermOper) {
+		case KOP_MATPERM_CHW2CWH:
+			PKerArgs[1] = KerArg("Out",  KerArgSpace(1,T0), O_OUT|O_DB, Width*Height, Feat, 1, 0, OBJ_CONSTRAINTS_TILE_VER, 0, "Out");
+			break;
+		case KOP_MATPERM_CHW2HWC:
+			PKerArgs[1] = KerArg("Out",  KerArgSpace(1,T0), O_OUT|O_DB, Width*Feat, Height, 1, 0, OBJ_CONSTRAINTS_TILE_VER, 0, "Out");
+			break;
+		case KOP_MATPERM_CHW2WHC:
+			PKerArgs[1] = KerArg("Out",  KerArgSpace(1,T0), O_OUT|O_DB, Height*Feat, Width, 1, 0, OBJ_CONSTRAINTS_TILE_HOR, 0, "Out");
+			break;
+		case KOP_MATPERM_CHW2WCH:
+			PKerArgs[1] = KerArg("Out",  KerArgSpace(1,T0), O_OUT|O_DB, Height*Feat, Width, 1, 0, OBJ_CONSTRAINTS_TILE_HOR, 0, "Out");
+			break;
+		case KOP_MATPERM_CHW2HCW:
+			PKerArgs[1] = KerArg("Out",  KerArgSpace(1,T0), O_OUT|O_DB, Width, Height*Feat, 1, 0, OBJ_CONSTRAINTS_TILE_VER, 0, "Out");
+			break;
+	}
+	AT_SetKernelCtrl(AT_KERNEL_NOSOLUTION_ERROR, AT_OPT_OFF);
+	Kernel_T *Kernel = UserKernel(Name,
+			KernelIterSpace(1, IterTiledSpace(T0)),
+	        	TILE_VER,
+                	CArgs(2, TCArg(CNN_ArgDataType(1,1,1),  "In"), TCArg(CNN_ArgDataType(1,1,1), "Out")),
+			Calls(1,
+				Call(MatPermKerName, LOC_LOOP,
+					Bindings(7,
+						K_Arg("In", KER_ARG_TILE),	/* Input tile */
+						K_Arg("Out", KER_ARG_TILE),	/* Output tile */
+						Imm(Feat), 			/* Number of Channels */
+						K_Arg("In", KER_ARG_TILE_W),	/* Input tile width */
+						Imm(Height),			/* Input tile height */
+						AT_IGNORE_ARG_BINDING,		/* StrideX */
+						AT_IGNORE_ARG_BINDING		/* StrideY */
+					)
+				)
+			),
+			PKerArgs
+		);
+	AT_SetKernelCtrl(AT_KERNEL_NOSOLUTION_ERROR, AT_OPT_ON);
+	if (Kernel==0) {
+		printf("NEW SCHEME\n");
+		PKerArgs[0] = KerArg("In",   KerArgSpace(3,D2,D1,D0), O_IN|O_DB,  1, 1,  1,  0, 0, 0, "In");
+		switch (MatPermOper) {
+			case KOP_MATPERM_CHW2CWH:
+				PKerArgs[1] = KerArg("Out",  KerArgSpace(3,D2,D0,D1), O_OUT|O_DB, 1, 1,  1,  0, 0, 0, "Out");
+				break;
+			case KOP_MATPERM_CHW2HWC:
+				PKerArgs[1] = KerArg("Out",  KerArgSpace(3,D1,D0,D2), O_OUT|O_DB, 1, 1,  1,  0, 0, 0, "Out");
+				break;
+			case KOP_MATPERM_CHW2WHC:
+				PKerArgs[1] = KerArg("Out",  KerArgSpace(3,D0,D1,D2), O_OUT|O_DB, 1, 1,  1,  0, 0, 0, "Out");
+				break;
+			case KOP_MATPERM_CHW2WCH:
+				PKerArgs[1] = KerArg("Out",  KerArgSpace(3,D0,D2,D1), O_OUT|O_DB, 1, 1,  1,  0, 0, 0, "Out");
+				break;
+			case KOP_MATPERM_CHW2HCW:
+				PKerArgs[1] = KerArg("Out",  KerArgSpace(3,D1,D2,D0), O_OUT|O_DB, 1, 1,  1,  0, 0, 0, "Out");
+				break;
+		}
+		Kernel = UserKernel(Name,
+				KernelIterSpace(3, IterParSpace(D2, Feat, 1), IterParSpace(D1, Height, 1), IterParSpace(D0, Width, Width)),
+	        		TILE_HOR,
+                		CArgs(2, TCArg(CNN_ArgDataType(1,1,1),  "In"), TCArg(CNN_ArgDataType(1,1,1), "Out")),
+				Calls(1,
+					Call(MatPermKerName, LOC_LOOP,
+						Bindings(7,
+							K_Arg("In", KER_ARG_TILE),			/* Input tile */
+							K_Arg("Out", KER_ARG_TILE),			/* Output tile */
+							K_ArgPar("In", KER_ARG_PARTILE_SIZE, D2),	/* Number of Channels */
+							K_Arg("In", KER_ARG_TILE_W),			/* Input tile width */
+							K_Arg("In", KER_ARG_TILE_H),			/* Input tile height */
+							AT_IGNORE_ARG_BINDING,				/* StrideX */
+							AT_IGNORE_ARG_BINDING				/* StrideY */
+						)
+					)
+				),
+				PKerArgs
+		);
+	}
+	if (Kernel) {
+		AddKernelInfos(Name, AT_KERINFO_OPER, LayerOp, 0);
+		AddKernelInfos(Name, AT_KERINFO_BANDWIDTH, LayerBandwidth, 0);
+
+		AddKernelArgDim(Name, "In", 4, Feat, Height, Width, 1);
+		switch (MatPermOper) {
+			case KOP_MATPERM_CHW2CWH:
+				AddKernelArgDim(Name, "Out", 4, Feat, Width, Height, 1);
+				break;
+			case KOP_MATPERM_CHW2HWC:
+				AddKernelArgDim(Name, "Out", 4, Height, Width, Feat, 1);
+				break;
+			case KOP_MATPERM_CHW2WHC:
+				AddKernelArgDim(Name, "Out", 4, Width, Height, Feat, 1);
+				break;
+			case KOP_MATPERM_CHW2WCH:
+				AddKernelArgDim(Name, "Out", 4, Width, Feat, Height, 1);
+				break;
+			case KOP_MATPERM_CHW2HCW:
+				AddKernelArgDim(Name, "Out", 4, Height, Feat, Width, 1);
+				break;
+		}
+		AT_PrepareForTest_SQ8(Name, Feat,Feat,Width,Height, 1, MatPermOper, 0,0,0,0,0,0,(v4s)0, 0, 0,0,0,0,0,0,(v4s)0, 0);
+	}
+	return (Kernel!=0);
+}
diff --git a/tools/autotiler_v3/generators/CNN/CNN_Generators_SQ8.h b/tools/autotiler_v3/generators/CNN/CNN_Generators_SQ8.h
new file mode 100644
index 000000000..4bbba9eb5
--- /dev/null
+++ b/tools/autotiler_v3/generators/CNN/CNN_Generators_SQ8.h
@@ -0,0 +1,605 @@
+#ifndef __CNN_GENERATORS_SQ8_H__
+#define __CNN_GENERATORS_SQ8_H__
+#include <stdint.h>
+#include "AutoTilerLib.h"
+
+void LoadCNN_SQ8_Library();
+
+/*********************************************************************************************************************************************************************
+ 	Generator for Convolutions with channel centric scaling, followed by an optional pooling (Max or Average),
+	followed by an optional Activation.
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (TileOrientation, Parallel Features, Use HWCE), Def=(TILE_HOR, 1, 0)
+
+		Bias_DataSize:	1: byte, 2: half word, 4: word
+		Scale_DataSize:	1: byte, 2: half word, 4: word
+
+		InFeat:		Number of input feature's maps
+		OutFeat:	Number of output feature's maps
+		Width:		Number of columns of a given feature map
+		Height:		Number of lines of a given feature map
+
+		ConvOper:	Type of convolution, Regular convolution: KOP_CONV, Depth wise convolution: KOP_CONV_DW
+		Fcx:		Convolution filter x dimension
+		Fcy:		Convolution filter y dimension
+		Dcx:		Convolution filter dilation factor, x dimension
+		Dcy:		Convolution filter dilation factor, y dimension
+		Scx:		Convolution filter stride x dimension
+		Scy:		Convolution filter stride y dimension
+		ConvPad:	0: No padding, 1: Zero padding
+
+		PoolOper:	Type of Pooling, KOP_NONE, Max Pooling: KOP_MAXPOOL, Average Pooling: KOP_AVGPOOL
+		Fpx:		Pooling filter x dimension
+		Fpy:		Pooling filter y dimension
+		Dpx:		Pooling filter dilation factor, x dimension
+		Dpy:		Pooling filter dilation factor, y dimension
+		Spx:		Pooling filter stride x dimension
+		Spy:		Pooling filter stride y dimension
+		PoolPad:	0: No padding, 1: Zero padding
+
+		ActOper:	Optional activation function: KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+
+		Signature:	Name(In, Filter, Bias, Out, Scale, ScaleN, Infos)
+
+	CNN_ConvolutionPoolAct_SQ8
+	
+*********************************************************************************************************************************************************************/
+
+int CNN_ConvolutionPoolAct_SQ8(
+	char         *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int Bias_DataSize,
+	int Scale_DataSize,
+
+	int InFeat,
+	int OutFeat,
+	int Width,
+	int Height,
+
+	KernelOper_T ConvOper,
+	int Fcx,
+	int Fcy,
+	int Dcx,
+	int Dcy,
+	int Scx,
+	int Scy,
+	int ConvPad,
+
+	KernelOper_T PoolOper,
+	int Fpx,
+	int Fpy,
+	int Dpx,
+	int Dpy,
+	int Spx,
+	int Spy,
+	int PoolPad,
+
+	KernelOper_T ActOper
+	);
+
+/*********************************************************************************************************************************************************************
+ 	Generator for Grouped Convolutions with channel centric scaling, followed by an optional pooling (Max or Average),
+	followed by an optional activation.
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (TileOrientation, Parallel Features, Use double precision convolution, Use HWCE), Def=(TILE_HOR, 1, 0, 0)
+
+		GroupIn:	Size of the group for input features
+		GroupOut:	Size of the group for output features
+
+		Bias_DataSize:	1: byte, 2: half word, 4: word
+		Scale_DataSize:	1: byte, 2: half word, 4: word
+
+		InFeat:		Number of input feature's maps
+		OutFeat:	Number of output feature's maps
+		Width:		Number of columns of a given feature map
+		Height:		Number of lines of a given feature map
+
+		ConvOper:	Type of convolution, Regular convolution: KOP_CONV, DepthWise convolution: KOP_CONV_DW
+		Fcx:		Convolution filter x dimension
+		Fcy:		Convolution filter y dimension
+		Dcx:		Convolution filter dilation factor, x dimension
+		Dcy:		Convolution filter dilation factor, y dimension
+		Scx:		Convolution filter stride x dimension
+		Scy:		Convolution filter stride y dimension
+		ConvPad:	0: No padding, 1: Zero padding
+
+		PoolOper:	Type of Pooling, KOP_NONE, Max Pooling: KOP_MAXPOOL, Average Pooling: KOP_AVGPOOL
+		Fpx:		Pooling filter x dimension
+		Fpy:		Pooling filter y dimension
+		Dpx:		Pooling filter dilation factor, x dimension
+		Dpy:		Pooling filter dilation factor, y dimension
+		Spx:		Pooling filter stride x dimension
+		Spy:		Pooling filter stride y dimension
+		PoolPad:	0: No padding, 1: Zero padding
+
+		ActOper:	Optional activation function: KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+
+		Signature:	Name(In, Filter, Bias, Out, Scale, ScaleN, Infos)
+
+	CNN_GroupedConvolutionPoolAct_SQ8
+	
+*********************************************************************************************************************************************************************/
+
+int CNN_GroupedConvolutionPoolAct_SQ8(
+	char         *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int GroupIn,
+	int GroupOut,
+
+	int Bias_DataSize,
+	int Scale_DataSize,
+
+	int InFeat,
+	int OutFeat,
+	int Width,
+	int Height,
+
+	KernelOper_T ConvOper,
+       	int Fcx,
+       	int Fcy,
+	int Dcx,
+	int Dcy,
+	int Scx,
+	int Scy,
+	int ConvPad,
+
+	KernelOper_T PoolOper,
+	int Fpx,
+	int Fpy,
+	int Dpx,
+	int Dpy,
+	int Spx,
+	int Spy,
+	int PoolPad,
+
+	KernelOper_T ActOper
+	);
+
+/*********************************************************************************************************************************************************************
+ 	Generator for Pooling (Max or Average) with tensor centric scaling followed by an optional activation
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (TileOrientation, Parallel Features), Def=(TILE_HOR, 1)
+
+		Feat:		Number of feature's maps
+		Width:		Number of columns of a given feature map
+		Height:		Number of lines of a given feature map
+
+		PoolOper:	KOP_MAXPOOL or KOP_AVGPOOL
+		Fpx:		Size of the pooling filter, x dimension
+		Fpy:		Size of the pooling filter, y dimension
+		Dpx:		Dilation factor, x dimension
+		Dpy:		Dilation factor, y dimension
+		Spx:		Pooling stride, x dimension
+		Spy:		Pooling stride, y dimension
+
+		ActOper:	Optional activation function: KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+
+		Signature:	Name(In, Out, Infos)
+
+	CNN_PoolAct_SQ8
+		
+*********************************************************************************************************************************************************************/
+
+int CNN_PoolAct_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+       	int Feat,
+       	int Width,
+       	int Height,
+
+	KernelOper_T PoolOper,
+	int Fpx,
+	int Fpy,
+	int Dpx,
+	int Dpy,
+	int Spx,
+	int Spy,
+	int PoolPad,
+
+	KernelOper_T ActOper
+	);
+
+/*********************************************************************************************************************************************************************
+        Generator for Activation with tensor centric scaling
+
+        Template:
+                Name:           Name of the generated user kernel
+
+                Ctrl:           Overide generator default options (TileOrientation, Parallel Features), Def=(TILE_HOR, 1)
+
+                Feat:           Number of feature's maps
+                Width:          Number of columns of a given feature map
+                Height:         Number of lines of a given feature map
+
+                ActOper:        KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+
+                Signature:      Name(In, Out, Infos)
+
+        CNN_Act_SQ8
+
+*********************************************************************************************************************************************************************/
+
+int CNN_Act_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+       	int Feat,
+       	int Width,
+       	int Height,
+
+       	KernelOper_T ActOper
+       	);
+
+
+/*********************************************************************************************************************************************************************
+ 	Generator for Global Pooling (Max or Average) with tensor centric scaling and optional activation
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (TileOrientation, Parallel Features), Def=(TILE_HOR, 1)
+
+		Feat:		Number of feature's maps
+		Width:		Number of columns of a given feature map
+		Height:		Number of lines of a given feature map
+
+		PoolOper:	KOP_GLOBAL_MAXPOOL or KOP_GLOBAL_AVGPOOL
+
+		ActOper:	Optional activation function: KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+
+		Signature:	Name(In, Out, Infos)
+
+
+	CNN_GlobalPoolAct_SQ8
+		
+*********************************************************************************************************************************************************************/
+
+int CNN_GlobalPoolAct_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+       	int Feat,
+       	int Width,
+       	int Height,
+
+	KernelOper_T PoolOper,
+	KernelOper_T ActOper
+	);
+
+/*********************************************************************************************************************************************************************
+ 	Generator for Linear layers followed with channel centric scaling followed by an optional activation
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (TileOrientation, Parallel Features), Def=(TILE_HOR, 0)
+
+		Bias_DataSize:	1: byte, 2: half word, 4: word
+		Scale_DataSize:	1: byte, 2: half word, 4: word
+
+		InDim:		Number of inputs
+		OutDim:		Number of outputs
+
+		LinearOper	KOP_LINEAR
+
+		ActOper		Optional activation function: KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+
+		Signature:	Name(In, Filter, Bias, Out, Scale, ScaleN, Infos)
+
+	CNN_LinearAct_SQ8
+	
+*********************************************************************************************************************************************************************/
+
+int CNN_LinearAct_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int Bias_DataSize,
+	int Scale_DataSize,
+
+	int InDim,
+	int OutDim,
+
+	KernelOper_T LinearOper,
+	KernelOper_T ActOper
+	);
+
+/*********************************************************************************************************************************************************************
+ 	Generator for SoftMax layers, no scaling
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (TileOrientation), Def=(TILE_HOR)
+
+		Dim:		Number of inputs
+
+		SoftMaxOper:	Should always be KOP_SOFTMAX
+
+		Signature:	Name(In, Out, Infos)
+
+	CNN_SoftMax_SQ8
+                Input and output are assumed to fit within given shared L1 memory. Dim is partitionned into subsets of inputs and each subset is given to
+                a different code. By definition Output contains value is the [0.0 .. 1.0] range with sum(Output)=1.0. Results are always represented in Q15
+*********************************************************************************************************************************************************************/
+
+int CNN_SoftMax_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int Dim,
+
+        KernelOper_T SoftMaxOper
+	);
+
+/*********************************************************************************************************************************************************************
+ 	Generator for Matrix Addition layers with input scale adjustment (tensor centric), output scaling (tensor centric) and optional activation
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (TileOrientation, Parallel Features), Def=(TILE_HOR, 1)
+
+		Feat:		Number of features
+		Width:		Width of a given feature
+		Height:		Height of a given feature
+
+		AddMatOper:	Should always be KOP_MATADD
+		ActOper:	Optional activation
+
+		Signature:	Name(In1, In2, Out, Infos)
+
+	CNN_MatAddAct_SQ8
+	
+*********************************************************************************************************************************************************************/
+
+int CNN_MatAddAct_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int Feat,
+	int Width,
+	int Height,
+
+        KernelOper_T AddMatOper,
+        KernelOper_T ActOper
+	);
+
+/*********************************************************************************************************************************************************************
+ 	Generator for Tensor [CxHxW] by Vector [C] product with tensor centric scaling and optional Activation
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (TileOrientation, Parallel Features), Def=(TILE_HOR, 1)
+
+		InFeat:		Number of input features
+		Width:		Width of a In1
+		Height:		Height of a In1
+
+		MatOper:	KOP_MATVECTMUL
+
+		ActOper:	Optional activation function: KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU
+
+		Signature:	Name(In1, In2, Out, Infos)
+
+	CNN_TensorVectMultAct_SQ8
+	
+*********************************************************************************************************************************************************************/
+
+int CNN_TensorVectMultAct_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int Feat,
+	int Width,
+	int Height,
+
+        KernelOper_T MatOper,
+        KernelOper_T ActOper
+	);
+
+/*********************************************************************************************************************************************************************
+ 	Generator for Matrix Multiplication layers with channel centric scaling followed by an optional Activation.
+
+	Can be used for 1x1 convolutions with Filters in In1 [OutFeat x InFeat] and Features in In2 [InFeat x W*H]
+	When non unit strides are used they apply to In2, produced output is [OutFeat x Floor((W+Scx-1)/Scx)*Floor((H+Scy-1)/Scy)]
+	Bias [OutFeat x 1] is added to each individual features
+	Line x Col sum of products are evaluated on 32 bits therefore, when used for 1x1 convolution, this generator is equivalent to KOP_CONV_DP
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options
+
+		Bias_DataSize:	1: byte, 2: half word,
+		Scale_DataSize:	1: byte, 2: half word, 4: word
+
+		ColM1:		Number of colums for matrix In1, for 1x1 convolution this is InFeat
+		LineM1:		Number of lines for matrix In1, for 1x1 convolution this is OutFeat
+		ColM2:		Number of colums for matrix In2, for 1x1 convolution this is W*H
+		LineM2:		Number of lines for matrix In2, for 1x1 convolution this is InFeat
+
+		Width		For 1x1 convolution, width of an input feature map
+		Height		For 1x1 convolution, height of an input feature map
+		Scx:		stride x dimension for In2
+		Scy:		stride y dimension for In2
+
+		MatMulOper:	Should always be KOP_MATMUL
+
+		ActOper:	Optionnal Activation (KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU)
+
+		Signature:	Name(In2, In1, Bias, Out, Scale, ScaleN, Infos)
+
+	CNN_MatMulAct_SQ8
+	
+*********************************************************************************************************************************************************************/
+
+int CNN_MatMulAct_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int Bias_DataSize,
+	int Scale_DataSize,
+
+	int ColM1,
+	int LineM1,
+	int ColM2,
+	int LineM2,
+
+	int Width,
+	int Height,
+	int Scx,
+	int Scy,
+
+        KernelOper_T MatMulOper,
+        KernelOper_T ActOper
+	);
+
+/*********************************************************************************************************************************************************************
+ 	Generator for Matrix Multiplication layers with channel centric scaling followed by an optional Activation.
+	Special form to handle small form factor In1 (InFeat x OutFeat)
+
+	Can be used for 1x1 convolutions with Filters in In1 [OutFeat x InFeat] and Features in In2 [InFeat x W*H]
+	When non unit strides are used they apply to In2, produced output is [OutFeat x Floor((W+Scx-1)/Scx)*Floor((H+Scy-1)/Scy)]
+	Bias [OutFeat x 1] is added to each individual features
+	Line x Col sum of products are evaluated on 32 bits therefore, when used for 1x1 convolution, this generator is equivalent to KOP_CONV_DP
+	This generator assumes that the whole In1 and Bias can be accomodated into shared L1. Expecting to be used for us to 32 InFeat x 32 OutFeat
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options
+
+		Bias_DataSize:	1: byte, 2: half word,
+		Scale_DataSize:	1: byte, 2: half word, 4: word
+
+		ColM1:		Number of colums for matrix In1, for 1x1 convolution this is InFeat
+		LineM1:		Number of lines for matrix In1, for 1x1 convolution this is OutFeat
+		ColM2:		Number of colums for matrix In2, for 1x1 convolution this is W*H
+		LineM2:		Number of lines for matrix In2, for 1x1 convolution this is InFeat
+
+		Width		For 1x1 convolution, width of an input feature map
+		Height		For 1x1 convolution, height of an input feature map
+		Scx:		stride x dimension for In2
+		Scy:		stride y dimension for In2
+
+        	MatMulOper	Should always be KOP_MATMUL
+
+        	ActOper		Optionnal Activation (KOP_NONE, KOP_RELU, KOP_RELUN, KOP_HSWISH, KOP_HSIGMOID, KOP_LEAKYRELU)
+
+		Signature:	Name(In2, In1, Bias, Out, Scale, ScaleN, Infos)
+
+	CNN_MatMulSmallM1Act_SQ8
+	
+*********************************************************************************************************************************************************************/
+
+int CNN_MatMulSmallM1Act_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int Bias_DataSize,
+	int Scale_DataSize,
+
+	int ColM1,
+	int LineM1,
+	int ColM2,
+	int LineM2,
+
+	int Width,
+	int Height,
+	int Scx,
+	int Scy,
+
+        KernelOper_T MatMulOper,
+        KernelOper_T ActOper
+	);
+
+/*********************************************************************************************************************************************************************
+ 	Generator for Matrix Transposition, no scaling
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (TileOrientation, Parallel Features), Def=(TILE_HOR, 1)
+
+		Feat		Number of matrices
+		Width		For 1x1 convolution, width of an input feature map
+		Height		For 1x1 convolution, height of an input feature map
+
+		MatTransOper	KOP_MAT_TRANSPOSE
+
+		Signature:	Name(In, Out)
+
+	CNN_MatTranspose_SQ8
+	
+*********************************************************************************************************************************************************************/
+
+int CNN_MatTranspose_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int Feat,
+	int Width,
+	int Height,
+
+	KernelOper_T MatTransOper
+	);
+
+/*********************************************************************************************************************************************************************
+ 	Generator for 3D Tensor permutations:  CHW => {CWH, HWC, WHC, WCH, HCW}, no scaling
+
+	Template:
+		Name:		Name of the generated user kernel
+
+		Ctrl:		Overide generator default options (TileOrientation, Parallel Features), Def=(TILE_HOR, 1)
+
+		Feat		Number of channels of the tensor
+		Width		Tensor width
+		Height		Tensor height
+
+		MatPermOper	Permutation oper:  KOP_MATPERM_CHW2CWH, KOP_MATPERM_CHW2HWC, KOP_MATPERM_CHW2WHC, KOP_MATPERM_CHW2WCH, KOP_MATPERM_CHW2HCW
+
+		Signature:	Name(In, Out)
+
+	CNN_3DTensorPermute_SQ8
+	
+*********************************************************************************************************************************************************************/
+
+int CNN_3DTensorPermute_SQ8(
+	char *Name,
+
+	CNN_GenControl_T *Ctrl,
+
+	int Feat,
+	int Width,
+	int Height,
+
+	KernelOper_T MatPermOper
+	);
+
+#endif
diff --git a/tools/autotiler_v3/generators/CNN/CNN_MatAlgebra.c b/tools/autotiler_v3/generators/CNN/CNN_MatAlgebra.c
index fdd5de34f..fd93c6ce3 100644
--- a/tools/autotiler_v3/generators/CNN/CNN_MatAlgebra.c
+++ b/tools/autotiler_v3/generators/CNN/CNN_MatAlgebra.c
@@ -30,6 +30,70 @@ static inline unsigned int __attribute__((always_inline)) ChunkSize(unsigned int
 	return Chunk;
 }
 
+#if 0
+void KerParMatAddScaleScalar_fps(KerMatAddScale_fps_T *Arg)
+
+{
+	signed char * __restrict__ In1	= Arg->In1;
+	signed char * __restrict__ In2	= Arg->In2;
+	signed char * __restrict__ Out	= Arg->Out;
+	int MI1				= *Arg->MulBiasIn1;
+	int MOut			= *Arg->MulBiasOut;
+	int NormIn			= Arg->NormIn;
+	int NormOut			= Arg->NormOut;
+	int W				= Arg->W;
+	int H				= Arg->H;
+	int LB				= Arg->LB;
+	int UB				= Arg->UB;
+
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(Arg->N);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, Arg->N);
+	int i, j;
+
+	for (i=First; i<Last; i++) {
+		for (j=0; j<((W*H)/2); j++) {
+			O[2*j  ] = Min(Max((AT_NORM((AT_NORM(I1[2*j  ]*MI1, NormIn) + I2[2*j  ])*MO, NormOut), LB), UB));
+			O[2*j+1] = Min(Max((AT_NORM((AT_NORM(I1[2*j+1]*MI1, NormIn) + I2[2*j+1])*MO, NormOut), LB), UB));
+		}
+		O[W*H-1] = Min(Max((AT_NORM((AT_NORM(I1[W*H-1]*MI1, NormIn) + I2[W*H-1])*MO, NormOut), LB), UB));
+		I1 += W*H; I2 += W*H; O += W*H;
+	}
+}
+
+void KerParMatAddScale_fps(KerMatAddScale_fps_T *Arg)
+
+{
+	signed char * __restrict__ In1	= Arg->In1;
+	signed char * __restrict__ In2	= Arg->In2;
+	signed char * __restrict__ Out	= Arg->Out;
+	int pMI1			= *Arg->MulBiasIn1;
+	int pMOut			= *Arg->MulBiasOut;
+	int NormIn			= Arg->NormIn;
+	int NormOut			= Arg->NormOut;
+	int W				= Arg->W;
+	int H				= Arg->H;
+	int LB				= Arg->LB;
+	int UB				= Arg->UB;
+
+	unsigned int CoreId = gap_coreid();
+	unsigned int Chunk = ChunkSize(Arg->N);
+	unsigned int First = Chunk*CoreId;
+	unsigned int Last = Min(First+Chunk, Arg->N);
+	int i, j;
+
+	for (i=First; i<Last; i++) {
+		int MI1 = pMI1[i], MO = pMO[i];
+		for (j=0; j<((W*H)/2); j++) {
+			O[2*j  ] = Min(Max((AT_NORM((AT_NORM(I1[2*j  ]*MI1, NormIn) + I2[2*j  ])*MO, NormOut), LB), UB));
+			O[2*j+1] = Min(Max((AT_NORM((AT_NORM(I1[2*j+1]*MI1, NormIn) + I2[2*j+1])*MO, NormOut), LB), UB));
+		}
+		O[W*H-1] = Min(Max((AT_NORM((AT_NORM(I1[W*H-1]*MI1, NormIn) + I2[W*H-1])*MO, NormOut), LB), UB));
+		I1 += W*H; I2 += W*H; O += W*H;
+	}
+}
+#endif
 void KerParMatAdd_fp(KerMat3_fp_T *Arg)
 
 {
@@ -306,56 +370,6 @@ void KerParMatMul_fp(KerMatMul_fp_T *Arg)
 	}
 }
 
-void KerParMatMul_ReLUN_Vector_fp(KerMatMul_fp_T *Arg)
-
-{
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
-	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
-	short int *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-	unsigned int Line, Col, i;
-	v2s *VBuff = (v2s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
-
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		// for (Line=0; Line<H_In1; Line++) {
-		for (Line=First; Line<Last; Line++) {
-			v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
-			for (i=0; i<W_In1/4; i++) {
-				S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
-				S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-		       	Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(S, Norm), LB), UB);
-		}
-		gap_waitbarrier(0);
-	}
-}
-
 void KerParMatMulSxSy_fp(KerMatMul_fp_T *Arg)
 
 {
@@ -423,75 +437,6 @@ void KerParMatMulSxSy_fp(KerMatMul_fp_T *Arg)
 	}
 }
 
-void KerParMatMulSxSy_ReLUN_Vector_fp(KerMatMul_fp_T *Arg)
-
-{
-/*
-	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
-	In2 is  [InFeat][Width*Height]
-
-	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
-*/
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
-	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	int Pi = Arg->OutFirstCol;
-	short int *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int Wi = Arg->W, Hi = Arg->H;
-	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int LB = Arg->LB;
-	char *pUB = (char *)Arg->UB;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-
-	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
-	int Oo, OffLine;
-	int At, F=0, L = W_In2;
-
-	unsigned int Line, Col, i;
-	v2s *VBuff = (v2s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
-
-	At=0; OffLine=0; Oo=0;
-	if (ColFirst) OffLine=Pi; else Oo=Pi;
-	while (L>0) {
-	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
-	       	gap_waitbarrier(0);
-	       	for (Line=First; Line<Last; Line++) {
-		       	v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
-		       	for (i=0; i<W_In1/4; i++) {
-			       	S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
-			       	S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
-		       	}
-		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-	       		Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(S, Norm), LB), UB);
-	       	}
-		int nF = F+Sx;
-		if (nF<Wi) {
-			F = nF; At += Sx; L -= Sx; Oo++;
-		} else {
-			int d = Wi-F+(Sy-1)*Wi;
-			F = 0; L -= d; At += d; Oo++;
-		}
-	       	gap_waitbarrier(0);
-	}
-}
-
 void KerParMatMul_fpd_fp(KerMatMul_fpd_fp_T *Arg)
 
 {
@@ -540,56 +485,6 @@ void KerParMatMul_fpd_fp(KerMatMul_fpd_fp_T *Arg)
 	}
 }
 
-void KerParMatMul_ReLUN_Vector_fpd_fp(KerMatMul_fpd_fp_T *Arg)
-
-{
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
-	int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
-	short int *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-	unsigned int Line, Col, i;
-	v2s *VBuff = (v2s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
-
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		for (Line=First; Line<Last; Line++) {
-			v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
-			for (i=0; i<W_In1/4; i++) {
-				S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
-				S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-		       	Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(S, Norm), LB), UB);
-		}
-		gap_waitbarrier(0);
-	}
-}
-
 void KerParMatMulSxSy_fpd_fp(KerMatMul_fpd_fp_T *Arg)
 
 {
@@ -657,61 +552,182 @@ void KerParMatMulSxSy_fpd_fp(KerMatMul_fpd_fp_T *Arg)
        	}
 }
 
-void KerParMatMulSxSy_ReLUN_Vector_fpd_fp(KerMatMul_fpd_fp_T *Arg)
+void KerParMatMul_fps(KerMatMul_fps_T *Arg)
 
 {
-/*
-	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
-	In2 is  [InFeat][Width*Height]
+	/*
+	 	Column buffer has to be sized in order to be able to accomodate up to 4 columns of size H_In2
+	*/
+        signed char * __restrict__ In1 = Arg->In1;
+        unsigned int W_In1 = Arg->W_In1;
+        unsigned int H_In1 = Arg->H_In1;
+        signed char * __restrict__ In2 = Arg->In2;
+        unsigned int W_In2 = Arg->W_In2;
+        signed char * __restrict__ Bias = Arg->Bias;
+        signed char * __restrict__ Out = Arg->Out;
+        unsigned int W_Out = Arg->W_Out;
+        unsigned int OutFirstCol = Arg->OutFirstCol;
+        signed char * __restrict__ BufferColIn2 = Arg->BufferColIn2;
+        unsigned int Norm = Arg->Norm;
+        unsigned int NormBias = Arg->NormBias;
+        int LB = Arg->LB, UB = Arg->UB;
+        int ColFirst = Arg->ColFirst;
 
-	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
-*/
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
-	int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	int Pi = Arg->OutFirstCol;
-	short int *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int Wi = Arg->W, Hi = Arg->H;
-	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	int ColFirst = Arg->ColFirst;
+        unsigned int H_In2 = W_In1;
+        unsigned int H_Out = H_In1;
+        unsigned int Line, Col, i;
+        v4s * __restrict__ VBuff0 = (v4s *) BufferColIn2;
+        v4s * __restrict__ VBuff1 = (v4s *) (BufferColIn2+H_In2);
+        v4s * __restrict__ VBuff2 = (v4s *) (BufferColIn2+2*H_In2);
+        v4s * __restrict__ VBuff3 = (v4s *) (BufferColIn2+3*H_In2);
 
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
+        unsigned int CoreId = gap_coreid();
+        unsigned int ChunkCell = ChunkSize(H_In1);
+        unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+        unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
+        int OffLine = 0, OffCol = 0;
 
-	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
-	int Oo, OffLine;
+        if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
+        for (Col=0; Col<W_In2/4; Col++) {
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+4*Col+0];
+			int X1 = In2[i*W_In2+4*Col+1];
+			int X2 = In2[i*W_In2+4*Col+2];
+			int X3 = In2[i*W_In2+4*Col+3];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+4*Col+1];
+			BufferColIn2[i+2*H_In2] = X2; // In2[i*W_In2+4*Col+2];
+			BufferColIn2[i+3*H_In2] = X3; // In2[i*W_In2+4*Col+3];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0, S2=S0, S3=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                                S2 = gap_sumdotp4(V0, VBuff2[i], S2);
+                                S3 = gap_sumdotp4(V0, VBuff3[i], S3);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+				S2 += V0 * BufferColIn2[i+2*H_In2];
+				S3 += V0 * BufferColIn2[i+3*H_In2];
+			}
+			v4s R = gap_pack4(Min(Max(AT_NORM(S0, Norm), LB), UB), Min(Max(AT_NORM(S1, Norm), LB), UB), Min(Max(AT_NORM(S2, Norm), LB), UB), Min(Max(AT_NORM(S3, Norm), LB), UB));
+			*((v4s *) (Out+(Line+OffLine)*W_Out+4*Col+0+OffCol)) = R;
+                }
+                gap_waitbarrier(0);
+        }
+	if (W_In2&0x2) {
+		Col = W_In2/2 - 1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+2*Col+0];
+			int X1 = In2[i*W_In2+2*Col+1];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+2*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+2*Col+1];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+			}
+			Out[(Line+OffLine)*W_Out+2*Col+0+OffCol] = Min(Max(AT_NORM(S0, Norm), LB), UB);
+			Out[(Line+OffLine)*W_Out+2*Col+1+OffCol] = Min(Max(AT_NORM(S1, Norm), LB), UB);
+                }
+                gap_waitbarrier(0);
+	}
+	if (W_In2&0x1) {
+		Col = W_In2-1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+1*Col+0];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias);
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+			}
+			Out[(Line+OffLine)*W_Out+1*Col+0+OffCol] = Min(Max(AT_NORM(S0, Norm), LB), UB);
+                }
+                gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulSxSy_fps(KerMatMul_fps_T *Arg)
+
+{
+/*
+	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
+	In2 is  [InFeat][Width*Height]
+
+	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
+*/
+	signed char * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2;
+	signed char * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ Out = Arg->Out;
+	unsigned int W_Out = Arg->W_Out;
+	int Pi = Arg->OutFirstCol;
+	signed char *BufferColIn2 = Arg->BufferColIn2;
+	unsigned int Norm = Arg->Norm;
+	unsigned int NormBias = Arg->NormBias;
+	int Wi = Arg->W, Hi = Arg->H;
+	int Sx = Arg->Sx, Sy = Arg->Sy;
+	int LB = Arg->LB, UB = Arg->UB;
+	int ColFirst = Arg->ColFirst;
+
+	unsigned int H_In2 = W_In1;
+	unsigned int H_Out = H_In1;
+
+	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
+	int Oo, OffLine;
 	int At, F=0, L = W_In2;
 
 	unsigned int Line, Col, i;
-	v2s *VBuff = (v2s *) BufferColIn2;
+	v4s *VBuff = (v4s *) BufferColIn2;
 
 	unsigned int CoreId = gap_coreid();
 	unsigned int ChunkCell = ChunkSize(H_In1);
 	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
 	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
 
-	At=0; OffLine=0; Oo=0;
-	if (ColFirst) OffLine=Pi; else Oo=Pi;
+	At = 0; OffLine = 0; Oo = 0;
+	if (ColFirst) OffLine = Pi; else Oo = Pi;
+
 	while (L>0) {
 	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
 	       	gap_waitbarrier(0);
 	       	for (Line=First; Line<Last; Line++) {
-		       	v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
-		       	for (i=0; i<W_In1/4; i++) {
-			       	S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
-			       	S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
-		       	}
+		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+		       	int S = (Bias[Line]<<NormBias);
+		       	for (i=0; i<(W_In1/(4*2)); i++) {
+				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
+				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
+			}
+			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
 		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
 		   	Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(S, Norm), LB), UB);
 	       	}
@@ -723,18 +739,21 @@ void KerParMatMulSxSy_ReLUN_Vector_fpd_fp(KerMatMul_fpd_fp_T *Arg)
 			F = 0; L -= d; At += d; Oo++;
 		}
 	       	gap_waitbarrier(0);
-       	}
+	}
 }
 
-static void KerParMatMul_4Col_fps(KerMatMul_fps_T *Arg)
+void KerParMatMul_fp_fps(KerMatMul_fp_fps_T *Arg)
 
 {
+	/*
+	 	Column buffer has to be sized in order to be able to accomodate up to 4 columns of size H_In2
+	*/
         signed char * __restrict__ In1 = Arg->In1;
         unsigned int W_In1 = Arg->W_In1;
         unsigned int H_In1 = Arg->H_In1;
         signed char * __restrict__ In2 = Arg->In2;
         unsigned int W_In2 = Arg->W_In2;
-        signed char * __restrict__ Bias = Arg->Bias;
+	short int * __restrict__ Bias = Arg->Bias;
         signed char * __restrict__ Out = Arg->Out;
         unsigned int W_Out = Arg->W_Out;
         unsigned int OutFirstCol = Arg->OutFirstCol;
@@ -794,7 +813,7 @@ static void KerParMatMul_4Col_fps(KerMatMul_fps_T *Arg)
                 gap_waitbarrier(0);
         }
 	if (W_In2&0x2) {
-		Col = W_In2/4;
+		Col = W_In2/2 - 1;
                 for (i=F;i<L; i++) {
 			int X0 = In2[i*W_In2+2*Col+0];
 			int X1 = In2[i*W_In2+2*Col+1];
@@ -844,110 +863,7 @@ static void KerParMatMul_4Col_fps(KerMatMul_fps_T *Arg)
 	}
 }
 
-void KerParMatMul_fps(KerMatMul_fps_T *Arg)
-
-{
-	int OPT = 0;
-	if (OPT) {
-		KerParMatMul_4Col_fps(Arg);
-		return;
-	}
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int LB = Arg->LB, UB = Arg->UB;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
-
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		for (Line=First; Line<Last; Line++) {
-			v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-		       	Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(S, Norm), LB), UB);
-		}
-		gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMul_ReLUN_Vector_fps(KerMatMul_fps_T *Arg)
-
-{
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
-
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		for (Line=First; Line<Last; Line++) {
-			v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
-			for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-		       	Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(S, Norm), LB), UB);
-		}
-		gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulSxSy_fps(KerMatMul_fps_T *Arg)
+void KerParMatMulSxSy_fp_fps(KerMatMul_fp_fps_T *Arg)
 
 {
 /*
@@ -961,7 +877,7 @@ void KerParMatMulSxSy_fps(KerMatMul_fps_T *Arg)
 	unsigned int H_In1 = Arg->H_In1;
 	signed char * __restrict__ In2 = Arg->In2;
 	unsigned int W_In2 = Arg->W_In2;
-	signed char * __restrict__ Bias = Arg->Bias;
+	short int * __restrict__ Bias = Arg->Bias;
 	signed char * __restrict__ Out = Arg->Out;
 	unsigned int W_Out = Arg->W_Out;
 	int Pi = Arg->OutFirstCol;
@@ -988,9 +904,8 @@ void KerParMatMulSxSy_fps(KerMatMul_fps_T *Arg)
 	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
 	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
 
-	At = 0; OffLine = 0; Oo = 0;
-	if (ColFirst) OffLine = Pi; else Oo = Pi;
-
+	At=0; OffLine=0; Oo=0;
+	if (ColFirst) OffLine=Pi; else Oo=Pi;
 	while (L>0) {
 	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
 	       	gap_waitbarrier(0);
@@ -1003,7 +918,7 @@ void KerParMatMulSxSy_fps(KerMatMul_fps_T *Arg)
 			}
 			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
 		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-		   	Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(S, Norm), LB), UB);
+	       		Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(S, Norm), LB), UB);
 	       	}
 		int nF = F+Sx;
 		if (nF<Wi) {
@@ -1016,99 +931,82 @@ void KerParMatMulSxSy_fps(KerMatMul_fps_T *Arg)
 	}
 }
 
-void KerParMatMulSxSy_ReLUN_Vector_fps(KerMatMul_fps_T *Arg)
+/* Matrix multiplication with cliping/ChannelScale/Sigmoid/Swish */
+static inline int __attribute__((always_inline)) MatMulReduct_fp(int P, int C1, int C2, int M, int Norm, int LB, int UB, int Oper)
 
 {
-/*
-	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
-	In2 is  [InFeat][Width*Height]
-
-	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
-*/
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	int Pi = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int Wi = Arg->W, Hi = Arg->H;
-	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-
-	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
-	int Oo, OffLine;
-	int At, F=0, L = W_In2;
+	int Acc;
+	switch (Oper) {
+		case 0: /* Channel Scale */
+			Acc = Min(Max(AT_NORM(AT_NORM(P, Norm)*M, Norm), LB), UB);
+			break;
+		case 1: /* H Sigmoid */
+			/* C1 = (1<<(2*Norm))-1; C2 = (1<<Norm)-1; */
+			Acc = (P+C1)>>1;
+                        Acc = gap_max(0, gap_min(C2, AT_NORM(Acc, Norm)));
+			break;
+		case 2: /* H Swish */
+			/* C1 = 3<<(2*Norm); C2 = (1<<16)/6; 1/6 in Q16 */
+			Acc = AT_NORM(AT_NORM(AT_NORM(gap_min(gap_max(P + C1, 0), UB), Norm) * P, Norm) * C2, 16);
+			break;
+		default:
+			Acc = Min(Max(AT_NORM(P, Norm), LB), UB);
 
-	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
+	}
+	return Acc;
+}
 
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
+static inline int __attribute__((always_inline)) MatMulReduct_fps(int P, int C1, int C2, int M, int Norm, int LB, int UB, int Oper)
 
-	At = 0; OffLine = 0; Oo = 0;
-	if (ColFirst) OffLine = Pi; else Oo = Pi;
+{
+	int Acc;
+	switch (Oper) {
+		case 0: /* Channel Scale */
+			/* Norm = 2*Norm */
+			Acc = Min(Max(AT_NORM(P*M, Norm), LB), UB);
+			break;
+		case 1: /* H Sigmoid */
+			/* C1 = (1<<(2*Norm))-1; C2 = (1<<Norm)-1; */
+			Acc = (P+C1)>>1;
+                        Acc = gap_max(0, gap_min(C2, AT_NORM(Acc, Norm)));
+			break;
+		case 2: /* H Swish */
+			/* Norm = 2*Norm; C1 = 3<<(2*Norm); C2 = (1<<16)/6; 1/6 in Q16 */
+			Acc = AT_NORM(AT_NORM(gap_min(gap_max(P + C1, 0), UB) * P, Norm) * C2, 16);
+			break;
+		default:
+			Acc = Min(Max(AT_NORM(P, Norm), LB), UB);
 
-	while (L>0) {
-	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
-	       	gap_waitbarrier(0);
-	       	for (Line=First; Line<Last; Line++) {
-		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-		       	int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
-		       	for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
-		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-		   	Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(S, Norm), LB), UB);
-	       	}
-		int nF = F+Sx;
-		if (nF<Wi) {
-			F = nF; At += Sx; L -= Sx; Oo++;
-		} else {
-			int d = Wi-F+(Sy-1)*Wi;
-			F = 0; L -= d; At += d; Oo++;
-		}
-	       	gap_waitbarrier(0);
 	}
+	return Acc;
 }
 
-void KerParMatMul_fp_fps(KerMatMul_fp_fps_T *Arg)
+/* Matrix multiplication with output scaling by the same scalar for all channels */
+
+void KerParMatMulScaleScalar_fp(KerMatMul_fp_T *Arg)
 
 {
-	signed char * __restrict__ In1 = Arg->In1;
+	short int * __restrict__ In1 = Arg->In1;
 	unsigned int W_In1 = Arg->W_In1;
 	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
+	short int * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
 	short int * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
+	short int * __restrict__ Out = Arg->Out;
 	unsigned int W_Out = Arg->W_Out;
 	unsigned int OutFirstCol = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
+	short int *BufferColIn2 = Arg->BufferColIn2;
 	unsigned int Norm = Arg->Norm;
 	unsigned int NormBias = Arg->NormBias;
+	unsigned int NormMulBias = Arg->NormMulBias;
 	int LB = Arg->LB, UB = Arg->UB;
 	int ColFirst = Arg->ColFirst;
+	int M = *Arg->MulBias;
 
 	unsigned int H_In2 = W_In1;
 	unsigned int H_Out = H_In1;
 	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
+	v2s *VBuff = (v2s *) BufferColIn2;
 
 	unsigned int CoreId = gap_coreid();
 	unsigned int ChunkCell = ChunkSize(H_In1);
@@ -1120,44 +1018,114 @@ void KerParMatMul_fp_fps(KerMatMul_fp_fps_T *Arg)
 	for (Col=0; Col<W_In2; Col++) {
 		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
 		gap_waitbarrier(0);
+		// for (Line=0; Line<H_In1; Line++) {
 		for (Line=First; Line<Last; Line++) {
-			v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+			v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
 			int S = (Bias[Line]<<NormBias);
-			for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
+			for (i=0; i<W_In1/4; i++) {
+				S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
+				S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
 			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
 			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-		       	Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(S, Norm), LB), UB);
+			Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(AT_NORM(S, Norm)*M, NormMulBias), LB), UB);
 		}
 		gap_waitbarrier(0);
 	}
 }
 
-void KerParMatMul_ReLUN_Vector_fp_fps(KerMatMul_fp_fps_T *Arg)
+void KerParMatMulScaleScalarSxSy_fp(KerMatMul_fp_T *Arg)
 
 {
-	signed char * __restrict__ In1 = Arg->In1;
+/*
+	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
+	In2 is  [InFeat][Width*Height]
+
+	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
+*/
+	short int * __restrict__ In1 = Arg->In1;
 	unsigned int W_In1 = Arg->W_In1;
 	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
+	short int * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
 	short int * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
+	short int * __restrict__ Out = Arg->Out;
+	unsigned int W_Out = Arg->W_Out;
+	int Pi = Arg->OutFirstCol;
+	short int *BufferColIn2 = Arg->BufferColIn2;
+	unsigned int Norm = Arg->Norm;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int NormMulBias = Arg->NormMulBias;
+	int Wi = Arg->W, Hi = Arg->H;
+	int Sx = Arg->Sx, Sy = Arg->Sy;
+	int LB = Arg->LB, UB = Arg->UB;
+	int ColFirst = Arg->ColFirst;
+	int M = *Arg->MulBias;
+
+	unsigned int H_In2 = W_In1;
+	unsigned int H_Out = H_In1;
+
+	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
+	int Oo, OffLine;
+	int At, F=0, L = W_In2;
+
+	unsigned int Line, Col, i;
+	v2s *VBuff = (v2s *) BufferColIn2;
+
+	unsigned int CoreId = gap_coreid();
+	unsigned int ChunkCell = ChunkSize(H_In1);
+	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
+
+	At=0; OffLine=0; Oo=0;
+	if (ColFirst) OffLine=Pi; else Oo=Pi;
+	while (L>0) {
+	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
+	       	gap_waitbarrier(0);
+	       	for (Line=First; Line<Last; Line++) {
+		       	v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
+			int S = (Bias[Line]<<NormBias);
+		       	for (i=0; i<W_In1/4; i++) {
+			       	S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
+			       	S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
+		       	}
+		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
+			Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(AT_NORM(S, Norm)*M, NormMulBias), LB), UB);
+	       	}
+		int nF = F+Sx;
+		if (nF<Wi) {
+			F = nF; At += Sx; L -= Sx; Oo++;
+		} else {
+			int d = Wi-F+(Sy-1)*Wi;
+			F = 0; L -= d; At += d; Oo++;
+		}
+	       	gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulScaleScalar_fpd_fp(KerMatMul_fpd_fp_T *Arg)
+
+{
+	short int * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	short int * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
+	int * __restrict__ Bias = Arg->Bias;
+	short int * __restrict__ Out = Arg->Out;
 	unsigned int W_Out = Arg->W_Out;
 	unsigned int OutFirstCol = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
+	short int *BufferColIn2 = Arg->BufferColIn2;
 	unsigned int Norm = Arg->Norm;
 	unsigned int NormBias = Arg->NormBias;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
+	unsigned int NormMulBias = Arg->NormMulBias;
+	int LB = Arg->LB, UB = Arg->UB;
 	int ColFirst = Arg->ColFirst;
+	int M = *Arg->MulBias;
 
 	unsigned int H_In2 = W_In1;
 	unsigned int H_Out = H_In1;
 	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
+	v2s *VBuff = (v2s *) BufferColIn2;
 
 	unsigned int CoreId = gap_coreid();
 	unsigned int ChunkCell = ChunkSize(H_In1);
@@ -1166,26 +1134,25 @@ void KerParMatMul_ReLUN_Vector_fp_fps(KerMatMul_fp_fps_T *Arg)
 	int OffLine = 0, OffCol = 0;
 
 	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
+
 	for (Col=0; Col<W_In2; Col++) {
 		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
 		gap_waitbarrier(0);
 		for (Line=First; Line<Last; Line++) {
-			v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+			v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
 			int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
-			for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
+			for (i=0; i<W_In1/4; i++) {
+				S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
+				S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
 			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
 			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-		       	Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(S, Norm), LB), UB);
+			Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(AT_NORM(S, Norm)*M, NormMulBias), LB), UB);
 		}
 		gap_waitbarrier(0);
 	}
 }
 
-void KerParMatMulSxSy_fp_fps(KerMatMul_fp_fps_T *Arg)
+void KerParMatMulScaleScalarSxSy_fpd_fp(KerMatMul_fpd_fp_T *Arg)
 
 {
 /*
@@ -1194,22 +1161,24 @@ void KerParMatMulSxSy_fp_fps(KerMatMul_fp_fps_T *Arg)
 
 	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
 */
-	signed char * __restrict__ In1 = Arg->In1;
+	short int * __restrict__ In1 = Arg->In1;
 	unsigned int W_In1 = Arg->W_In1;
 	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	short int * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
+	short int * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
+	int * __restrict__ Bias = Arg->Bias;
+	short int * __restrict__ Out = Arg->Out;
 	unsigned int W_Out = Arg->W_Out;
 	int Pi = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
+	short int *BufferColIn2 = Arg->BufferColIn2;
 	unsigned int Norm = Arg->Norm;
 	unsigned int NormBias = Arg->NormBias;
+	unsigned int NormMulBias = Arg->NormMulBias;
 	int Wi = Arg->W, Hi = Arg->H;
 	int Sx = Arg->Sx, Sy = Arg->Sy;
 	int LB = Arg->LB, UB = Arg->UB;
 	int ColFirst = Arg->ColFirst;
+	int M = *Arg->MulBias;
 
 	unsigned int H_In2 = W_In1;
 	unsigned int H_Out = H_In1;
@@ -1219,7 +1188,7 @@ void KerParMatMulSxSy_fp_fps(KerMatMul_fp_fps_T *Arg)
 	int At, F=0, L = W_In2;
 
 	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
+	v2s *VBuff = (v2s *) BufferColIn2;
 
 	unsigned int CoreId = gap_coreid();
 	unsigned int ChunkCell = ChunkSize(H_In1);
@@ -1232,15 +1201,14 @@ void KerParMatMulSxSy_fp_fps(KerMatMul_fp_fps_T *Arg)
 	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
 	       	gap_waitbarrier(0);
 	       	for (Line=First; Line<Last; Line++) {
-		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-		       	int S = (Bias[Line]<<NormBias);
-		       	for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
+		       	v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
+			int S = (Bias[Line]<<NormBias);
+		       	for (i=0; i<W_In1/4; i++) {
+			       	S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
+			       	S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
+		       	}
 		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-	       		Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(S, Norm), LB), UB);
+			Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(AT_NORM(S, Norm)*M, NormMulBias), LB), UB);
 	       	}
 		int nF = F+Sx;
 		if (nF<Wi) {
@@ -1250,35 +1218,161 @@ void KerParMatMulSxSy_fp_fps(KerMatMul_fp_fps_T *Arg)
 			F = 0; L -= d; At += d; Oo++;
 		}
 	       	gap_waitbarrier(0);
-	}
+       	}
 }
 
-void KerParMatMulSxSy_ReLUN_Vector_fp_fps(KerMatMul_fp_fps_T *Arg)
+void KerParMatMulScaleScalar_fps(KerMatMul_fps_T *Arg)
 
 {
-/*
-	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
-	In2 is  [InFeat][Width*Height]
-
-	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
-*/
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
+	/*
+	 	Column buffer has to be sized in order to be able to accomodate up to 4 columns of size H_In2
+	*/
+        signed char * __restrict__ In1 = Arg->In1;
+        unsigned int W_In1 = Arg->W_In1;
+        unsigned int H_In1 = Arg->H_In1;
+        signed char * __restrict__ In2 = Arg->In2;
+        unsigned int W_In2 = Arg->W_In2;
+        signed char * __restrict__ Bias = Arg->Bias;
+        signed char * __restrict__ Out = Arg->Out;
+        unsigned int W_Out = Arg->W_Out;
+        unsigned int OutFirstCol = Arg->OutFirstCol;
+        signed char * __restrict__ BufferColIn2 = Arg->BufferColIn2;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int Norm = Arg->Norm+Arg->NormMulBias;
+        int LB = Arg->LB, UB = Arg->UB;
+        int ColFirst = Arg->ColFirst;
+	int M = *Arg->MulBias;
+
+        unsigned int H_In2 = W_In1;
+        unsigned int H_Out = H_In1;
+        unsigned int Line, Col, i;
+        v4s * __restrict__ VBuff0 = (v4s *) BufferColIn2;
+        v4s * __restrict__ VBuff1 = (v4s *) (BufferColIn2+H_In2);
+        v4s * __restrict__ VBuff2 = (v4s *) (BufferColIn2+2*H_In2);
+        v4s * __restrict__ VBuff3 = (v4s *) (BufferColIn2+3*H_In2);
+
+        unsigned int CoreId = gap_coreid();
+        unsigned int ChunkCell = ChunkSize(H_In1);
+        unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+        unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
+        int OffLine = 0, OffCol = 0;
+
+        if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
+        for (Col=0; Col<W_In2/4; Col++) {
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+4*Col+0];
+			int X1 = In2[i*W_In2+4*Col+1];
+			int X2 = In2[i*W_In2+4*Col+2];
+			int X3 = In2[i*W_In2+4*Col+3];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+4*Col+1];
+			BufferColIn2[i+2*H_In2] = X2; // In2[i*W_In2+4*Col+2];
+			BufferColIn2[i+3*H_In2] = X3; // In2[i*W_In2+4*Col+3];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0, S2=S0, S3=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                                S2 = gap_sumdotp4(V0, VBuff2[i], S2);
+                                S3 = gap_sumdotp4(V0, VBuff3[i], S3);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+				S2 += V0 * BufferColIn2[i+2*H_In2];
+				S3 += V0 * BufferColIn2[i+3*H_In2];
+			}
+			v4s R = gap_pack4(Min(Max(AT_NORM(S0*M, Norm), LB), UB), 
+					  Min(Max(AT_NORM(S1*M, Norm), LB), UB),
+					  Min(Max(AT_NORM(S2*M, Norm), LB), UB),
+					  Min(Max(AT_NORM(S3*M, Norm), LB), UB));
+			*((v4s *) (Out+(Line+OffLine)*W_Out+4*Col+0+OffCol)) = R;
+                }
+                gap_waitbarrier(0);
+        }
+	if (W_In2&0x2) {
+		Col = W_In2/2 - 1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+2*Col+0];
+			int X1 = In2[i*W_In2+2*Col+1];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+2*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+2*Col+1];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+			}
+			Out[(Line+OffLine)*W_Out+2*Col+0+OffCol] = Min(Max(AT_NORM(S0*M, Norm), LB), UB);
+			Out[(Line+OffLine)*W_Out+2*Col+1+OffCol] = Min(Max(AT_NORM(S1*M, Norm), LB), UB);
+                }
+                gap_waitbarrier(0);
+	}
+	if (W_In2&0x1) {
+		Col = W_In2-1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+1*Col+0];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias);
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+			}
+			Out[(Line+OffLine)*W_Out+1*Col+0+OffCol] = Min(Max(AT_NORM(S0*M, Norm), LB), UB);
+                }
+                gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulScaleScalarSxSy_fps(KerMatMul_fps_T *Arg)
+
+{
+/*
+	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
+	In2 is  [InFeat][Width*Height]
+
+	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
+*/
+	signed char * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
 	unsigned int H_In1 = Arg->H_In1;
 	signed char * __restrict__ In2 = Arg->In2;
 	unsigned int W_In2 = Arg->W_In2;
-	short int * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ Bias = Arg->Bias;
 	signed char * __restrict__ Out = Arg->Out;
 	unsigned int W_Out = Arg->W_Out;
 	int Pi = Arg->OutFirstCol;
 	signed char *BufferColIn2 = Arg->BufferColIn2;
 	unsigned int Norm = Arg->Norm;
 	unsigned int NormBias = Arg->NormBias;
+	unsigned int NormT = Arg->Norm+Arg->NormMulBias;
 	int Wi = Arg->W, Hi = Arg->H;
 	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
+	int LB = Arg->LB, UB = Arg->UB;
 	int ColFirst = Arg->ColFirst;
+	int M = *Arg->MulBias;
 
 	unsigned int H_In2 = W_In1;
 	unsigned int H_Out = H_In1;
@@ -1295,22 +1389,22 @@ void KerParMatMulSxSy_ReLUN_Vector_fp_fps(KerMatMul_fp_fps_T *Arg)
 	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
 	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
 
-	At=0; OffLine=0; Oo=0;
-	if (ColFirst) OffLine=Pi; else Oo=Pi;
+	At = 0; OffLine = 0; Oo = 0;
+	if (ColFirst) OffLine = Pi; else Oo = Pi;
+
 	while (L>0) {
 	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
 	       	gap_waitbarrier(0);
 	       	for (Line=First; Line<Last; Line++) {
 		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
 		       	int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
 		       	for (i=0; i<(W_In1/(4*2)); i++) {
 				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
 				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
 			}
 			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
 		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-	       		Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(S, Norm), LB), UB);
+		       	Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(S*M, NormT), LB), UB);
 	       	}
 		int nF = F+Sx;
 		if (nF<Wi) {
@@ -1323,161 +1417,132 @@ void KerParMatMulSxSy_ReLUN_Vector_fp_fps(KerMatMul_fp_fps_T *Arg)
 	}
 }
 
-/* Matrix multiplication with cliping/ChannelScale/Sigmoid/Swish */
-static inline int __attribute__((always_inline)) MatMulReduct_fp(int P, int C1, int C2, int M, int Norm, int LB, int UB, int Oper)
-
-{
-	int Acc;
-	switch (Oper) {
-		case 0: /* Channel Scale */
-			Acc = Min(Max(AT_NORM(AT_NORM(P, Norm)*M, Norm), LB), UB);
-			break;
-		case 1: /* H Sigmoid */
-			/* C1 = (1<<(2*Norm))-1; C2 = (1<<Norm)-1; */
-			Acc = (P+C1)>>1;
-                        Acc = gap_max(0, gap_min(C2, AT_NORM(Acc, Norm)));
-			break;
-		case 2: /* H Swish */
-			/* C1 = 3<<(2*Norm); C2 = (1<<16)/6; 1/6 in Q16 */
-			Acc = AT_NORM(AT_NORM(AT_NORM(gap_min(gap_max(P + C1, 0), UB), Norm) * P, Norm) * C2, 16);
-			break;
-		default:
-			Acc = Min(Max(AT_NORM(P, Norm), LB), UB);
-
-	}
-	return Acc;
-}
-
-static inline int __attribute__((always_inline)) MatMulReduct_fps(int P, int C1, int C2, int M, int Norm, int LB, int UB, int Oper)
-
-{
-	int Acc;
-	switch (Oper) {
-		case 0: /* Channel Scale */
-			/* Norm = 2*Norm */
-			Acc = Min(Max(AT_NORM(P*M, Norm), LB), UB);
-			break;
-		case 1: /* H Sigmoid */
-			/* C1 = (1<<(2*Norm))-1; C2 = (1<<Norm)-1; */
-			Acc = (P+C1)>>1;
-                        Acc = gap_max(0, gap_min(C2, AT_NORM(Acc, Norm)));
-			break;
-		case 2: /* H Swish */
-			/* Norm = 2*Norm; C1 = 3<<(2*Norm); C2 = (1<<16)/6; 1/6 in Q16 */
-			Acc = AT_NORM(AT_NORM(gap_min(gap_max(P + C1, 0), UB) * P, Norm) * C2, 16);
-			break;
-		default:
-			Acc = Min(Max(AT_NORM(P, Norm), LB), UB);
-
-	}
-	return Acc;
-}
-
-/* Matrix multiplication with output scaling by the same scalar for all channels */
-
-void KerParMatMulScaleScalar_fp(KerMatMul_fp_T *Arg)
+void KerParMatMulScaleScalar_fp_fps(KerMatMul_fp_fps_T *Arg)
 
 {
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
-	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
-	short int *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
+	/*
+	 	Column buffer has to be sized in order to be able to accomodate up to 4 columns of size H_In2
+	*/
+        signed char * __restrict__ In1 = Arg->In1;
+        unsigned int W_In1 = Arg->W_In1;
+        unsigned int H_In1 = Arg->H_In1;
+        signed char * __restrict__ In2 = Arg->In2;
+        unsigned int W_In2 = Arg->W_In2;
+        short int * __restrict__ Bias = Arg->Bias;
+        signed char * __restrict__ Out = Arg->Out;
+        unsigned int W_Out = Arg->W_Out;
+        unsigned int OutFirstCol = Arg->OutFirstCol;
+        signed char * __restrict__ BufferColIn2 = Arg->BufferColIn2;
 	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormMulBias = Arg->NormMulBias;
-	int LB = Arg->LB, UB = Arg->UB;
-	int ColFirst = Arg->ColFirst;
+	unsigned int Norm = Arg->Norm+Arg->NormMulBias;
+        int LB = Arg->LB, UB = Arg->UB;
+        int ColFirst = Arg->ColFirst;
 	int M = *Arg->MulBias;
 
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-	unsigned int Line, Col, i;
-	v2s *VBuff = (v2s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
-
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		// for (Line=0; Line<H_In1; Line++) {
-		for (Line=First; Line<Last; Line++) {
-			v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			for (i=0; i<W_In1/4; i++) {
-				S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
-				S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(AT_NORM(S, Norm)*M, NormMulBias), LB), UB);
-		}
-		gap_waitbarrier(0);
-	}
-}
+        unsigned int H_In2 = W_In1;
+        unsigned int H_Out = H_In1;
+        unsigned int Line, Col, i;
+        v4s * __restrict__ VBuff0 = (v4s *) BufferColIn2;
+        v4s * __restrict__ VBuff1 = (v4s *) (BufferColIn2+H_In2);
+        v4s * __restrict__ VBuff2 = (v4s *) (BufferColIn2+2*H_In2);
+        v4s * __restrict__ VBuff3 = (v4s *) (BufferColIn2+3*H_In2);
 
-void KerParMatMulScaleScalar_ReLUN_Vector_fp(KerMatMul_fp_T *Arg)
+        unsigned int CoreId = gap_coreid();
+        unsigned int ChunkCell = ChunkSize(H_In1);
+        unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+        unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
+        int OffLine = 0, OffCol = 0;
 
-{
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
-	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
-	short int *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormMulBias = Arg->NormMulBias;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	int ColFirst = Arg->ColFirst;
-	int M = *Arg->MulBias;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-	unsigned int Line, Col, i;
-	v2s *VBuff = (v2s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
-
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		// for (Line=0; Line<H_In1; Line++) {
-		for (Line=First; Line<Last; Line++) {
-			v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
-			for (i=0; i<W_In1/4; i++) {
-				S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
-				S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
+        if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
+        for (Col=0; Col<W_In2/4; Col++) {
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+4*Col+0];
+			int X1 = In2[i*W_In2+4*Col+1];
+			int X2 = In2[i*W_In2+4*Col+2];
+			int X3 = In2[i*W_In2+4*Col+3];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+4*Col+1];
+			BufferColIn2[i+2*H_In2] = X2; // In2[i*W_In2+4*Col+2];
+			BufferColIn2[i+3*H_In2] = X3; // In2[i*W_In2+4*Col+3];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0, S2=S0, S3=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                                S2 = gap_sumdotp4(V0, VBuff2[i], S2);
+                                S3 = gap_sumdotp4(V0, VBuff3[i], S3);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+				S2 += V0 * BufferColIn2[i+2*H_In2];
+				S3 += V0 * BufferColIn2[i+3*H_In2];
 			}
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(AT_NORM(S, Norm)*M, NormMulBias), LB), UB);
+			v4s R = gap_pack4(Min(Max(AT_NORM(S0*M, Norm), LB), UB), 
+					  Min(Max(AT_NORM(S1*M, Norm), LB), UB),
+					  Min(Max(AT_NORM(S2*M, Norm), LB), UB),
+					  Min(Max(AT_NORM(S3*M, Norm), LB), UB));
+			*((v4s *) (Out+(Line+OffLine)*W_Out+4*Col+0+OffCol)) = R;
+                }
+                gap_waitbarrier(0);
+        }
+	if (W_In2&0x2) {
+		Col = W_In2/2 - 1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+2*Col+0];
+			int X1 = In2[i*W_In2+2*Col+1];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+2*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+2*Col+1];
 		}
-		gap_waitbarrier(0);
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+			}
+			Out[(Line+OffLine)*W_Out+2*Col+0+OffCol] = Min(Max(AT_NORM(S0*M, Norm), LB), UB);
+			Out[(Line+OffLine)*W_Out+2*Col+1+OffCol] = Min(Max(AT_NORM(S1*M, Norm), LB), UB);
+                }
+                gap_waitbarrier(0);
+	}
+	if (W_In2&0x1) {
+		Col = W_In2-1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+1*Col+0];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias);
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+			}
+			Out[(Line+OffLine)*W_Out+1*Col+0+OffCol] = Min(Max(AT_NORM(S0*M, Norm), LB), UB);
+                }
+                gap_waitbarrier(0);
 	}
 }
 
-void KerParMatMulScaleScalarSxSy_fp(KerMatMul_fp_T *Arg)
+void KerParMatMulScaleScalarSxSy_fp_fps(KerMatMul_fp_fps_T *Arg)
 
 {
 /*
@@ -1486,19 +1551,19 @@ void KerParMatMulScaleScalarSxSy_fp(KerMatMul_fp_T *Arg)
 
 	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
 */
-	short int * __restrict__ In1 = Arg->In1;
+	signed char * __restrict__ In1 = Arg->In1;
 	unsigned int W_In1 = Arg->W_In1;
 	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2;
 	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ Out = Arg->Out;
+	signed char * __restrict__ Out = Arg->Out;
 	unsigned int W_Out = Arg->W_Out;
 	int Pi = Arg->OutFirstCol;
-	short int *BufferColIn2 = Arg->BufferColIn2;
+	signed char *BufferColIn2 = Arg->BufferColIn2;
 	unsigned int Norm = Arg->Norm;
 	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormMulBias = Arg->NormMulBias;
+	unsigned int NormT = Norm+Arg->NormMulBias;
 	int Wi = Arg->W, Hi = Arg->H;
 	int Sx = Arg->Sx, Sy = Arg->Sy;
 	int LB = Arg->LB, UB = Arg->UB;
@@ -1513,7 +1578,7 @@ void KerParMatMulScaleScalarSxSy_fp(KerMatMul_fp_T *Arg)
 	int At, F=0, L = W_In2;
 
 	unsigned int Line, Col, i;
-	v2s *VBuff = (v2s *) BufferColIn2;
+	v4s *VBuff = (v4s *) BufferColIn2;
 
 	unsigned int CoreId = gap_coreid();
 	unsigned int ChunkCell = ChunkSize(H_In1);
@@ -1526,14 +1591,15 @@ void KerParMatMulScaleScalarSxSy_fp(KerMatMul_fp_T *Arg)
 	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
 	       	gap_waitbarrier(0);
 	       	for (Line=First; Line<Last; Line++) {
-		       	v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-		       	for (i=0; i<W_In1/4; i++) {
-			       	S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
-			       	S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
-		       	}
+		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+		       	int S = (Bias[Line]<<NormBias);
+		       	for (i=0; i<(W_In1/(4*2)); i++) {
+				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
+				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
+			}
+			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
 		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(AT_NORM(S, Norm)*M, NormMulBias), LB), UB);
+		       	Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(S*M, NormT), LB), UB);
 	       	}
 		int nF = F+Sx;
 		if (nF<Wi) {
@@ -1546,7 +1612,60 @@ void KerParMatMulScaleScalarSxSy_fp(KerMatMul_fp_T *Arg)
 	}
 }
 
-void KerParMatMulScaleScalarSxSy_ReLUN_Vector_fp(KerMatMul_fp_T *Arg)
+/* Matrix multiplication with output scaling by scalar[Channel] for all channels */
+
+void KerParMatMulScale_fp(KerMatMul_fp_T *Arg)
+
+{
+	short int * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	short int * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
+	short int * __restrict__ Bias = Arg->Bias;
+	short int * __restrict__ MulBias = Arg->MulBias;
+	short int * __restrict__ Out = Arg->Out;
+	unsigned int W_Out = Arg->W_Out;
+	unsigned int OutFirstCol = Arg->OutFirstCol;
+	short int *BufferColIn2 = Arg->BufferColIn2;
+	unsigned int Norm = Arg->Norm;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int NormMulBias = Arg->NormMulBias;
+	int LB = Arg->LB, UB = Arg->UB;
+	int ColFirst = Arg->ColFirst;
+
+	unsigned int H_In2 = W_In1;
+	unsigned int H_Out = H_In1;
+	unsigned int Line, Col, i;
+	v2s *VBuff = (v2s *) BufferColIn2;
+
+	unsigned int CoreId = gap_coreid();
+	unsigned int ChunkCell = ChunkSize(H_In1);
+	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
+	int OffLine = 0, OffCol = 0;
+
+	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
+	for (Col=0; Col<W_In2; Col++) {
+		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
+		gap_waitbarrier(0);
+		// for (Line=0; Line<H_In1; Line++) {
+		for (Line=First; Line<Last; Line++) {
+			v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
+			int S = (Bias[Line]<<NormBias);
+			for (i=0; i<W_In1/4; i++) {
+				S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
+				S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
+			}
+			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
+			int M = MulBias[Line];
+			Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(AT_NORM(S, Norm)*M, NormMulBias), LB), UB);
+		}
+		gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulScaleSxSy_fp(KerMatMul_fp_T *Arg)
 
 {
 /*
@@ -1561,6 +1680,7 @@ void KerParMatMulScaleScalarSxSy_ReLUN_Vector_fp(KerMatMul_fp_T *Arg)
 	short int * __restrict__ In2 = Arg->In2;
 	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
 	short int * __restrict__ Bias = Arg->Bias;
+	short int * __restrict__ MulBias = Arg->MulBias;
 	short int * __restrict__ Out = Arg->Out;
 	unsigned int W_Out = Arg->W_Out;
 	int Pi = Arg->OutFirstCol;
@@ -1570,10 +1690,8 @@ void KerParMatMulScaleScalarSxSy_ReLUN_Vector_fp(KerMatMul_fp_T *Arg)
 	unsigned int NormMulBias = Arg->NormMulBias;
 	int Wi = Arg->W, Hi = Arg->H;
 	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
+	int LB = Arg->LB, UB = Arg->UB;
 	int ColFirst = Arg->ColFirst;
-	int M = *Arg->MulBias;
 
 	unsigned int H_In2 = W_In1;
 	unsigned int H_Out = H_In1;
@@ -1598,12 +1716,12 @@ void KerParMatMulScaleScalarSxSy_ReLUN_Vector_fp(KerMatMul_fp_T *Arg)
 	       	for (Line=First; Line<Last; Line++) {
 		       	v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
 			int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
 		       	for (i=0; i<W_In1/4; i++) {
 			       	S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
 			       	S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
 		       	}
 		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
+			int M = MulBias[Line];
 			Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(AT_NORM(S, Norm)*M, NormMulBias), LB), UB);
 	       	}
 		int nF = F+Sx;
@@ -1617,7 +1735,7 @@ void KerParMatMulScaleScalarSxSy_ReLUN_Vector_fp(KerMatMul_fp_T *Arg)
 	}
 }
 
-void KerParMatMulScaleScalar_fpd_fp(KerMatMul_fpd_fp_T *Arg)
+void KerParMatMulScale_fpd_fp(KerMatMul_fpd_fp_T *Arg)
 
 {
 	short int * __restrict__ In1 = Arg->In1;
@@ -1626,6 +1744,7 @@ void KerParMatMulScaleScalar_fpd_fp(KerMatMul_fpd_fp_T *Arg)
 	short int * __restrict__ In2 = Arg->In2;
 	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
 	int * __restrict__ Bias = Arg->Bias;
+	int * __restrict__ MulBias = Arg->MulBias;
 	short int * __restrict__ Out = Arg->Out;
 	unsigned int W_Out = Arg->W_Out;
 	unsigned int OutFirstCol = Arg->OutFirstCol;
@@ -1635,7 +1754,6 @@ void KerParMatMulScaleScalar_fpd_fp(KerMatMul_fpd_fp_T *Arg)
 	unsigned int NormMulBias = Arg->NormMulBias;
 	int LB = Arg->LB, UB = Arg->UB;
 	int ColFirst = Arg->ColFirst;
-	int M = *Arg->MulBias;
 
 	unsigned int H_In2 = W_In1;
 	unsigned int H_Out = H_In1;
@@ -1661,120 +1779,70 @@ void KerParMatMulScaleScalar_fpd_fp(KerMatMul_fpd_fp_T *Arg)
 				S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
 			}
 			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
+			int M = MulBias[Line];
 			Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(AT_NORM(S, Norm)*M, NormMulBias), LB), UB);
 		}
 		gap_waitbarrier(0);
 	}
 }
 
-void KerParMatMulScaleScalar_ReLUN_Vector_fpd_fp(KerMatMul_fpd_fp_T *Arg)
+void KerParMatMulScaleSxSy_fpd_fp(KerMatMul_fpd_fp_T *Arg)
 
 {
+/*
+	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
+	In2 is  [InFeat][Width*Height]
+
+	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
+*/
 	short int * __restrict__ In1 = Arg->In1;
 	unsigned int W_In1 = Arg->W_In1;
 	unsigned int H_In1 = Arg->H_In1;
 	short int * __restrict__ In2 = Arg->In2;
 	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
 	int * __restrict__ Bias = Arg->Bias;
+	int * __restrict__ MulBias = Arg->MulBias;
 	short int * __restrict__ Out = Arg->Out;
 	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
+	int Pi = Arg->OutFirstCol;
 	short int *BufferColIn2 = Arg->BufferColIn2;
 	unsigned int Norm = Arg->Norm;
 	unsigned int NormBias = Arg->NormBias;
 	unsigned int NormMulBias = Arg->NormMulBias;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
+	int Wi = Arg->W, Hi = Arg->H;
+	int Sx = Arg->Sx, Sy = Arg->Sy;
+	int LB = Arg->LB, UB = Arg->UB;
 	int ColFirst = Arg->ColFirst;
-	int M = *Arg->MulBias;
 
 	unsigned int H_In2 = W_In1;
 	unsigned int H_Out = H_In1;
+
+	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
+	int Oo, OffLine;
+	int At, F=0, L = W_In2;
+
 	unsigned int Line, Col, i;
 	v2s *VBuff = (v2s *) BufferColIn2;
 
 	unsigned int CoreId = gap_coreid();
 	unsigned int ChunkCell = ChunkSize(H_In1);
 	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
-
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
+	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
 
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		for (Line=First; Line<Last; Line++) {
-			v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
-			for (i=0; i<W_In1/4; i++) {
-				S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
-				S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(AT_NORM(S, Norm)*M, NormMulBias), LB), UB);
-		}
-		gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulScaleScalarSxSy_fpd_fp(KerMatMul_fpd_fp_T *Arg)
-
-{
-/*
-	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
-	In2 is  [InFeat][Width*Height]
-
-	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
-*/
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
-	int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	int Pi = Arg->OutFirstCol;
-	short int *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormMulBias = Arg->NormMulBias;
-	int Wi = Arg->W, Hi = Arg->H;
-	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int LB = Arg->LB, UB = Arg->UB;
-	int ColFirst = Arg->ColFirst;
-	int M = *Arg->MulBias;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-
-	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
-	int Oo, OffLine;
-	int At, F=0, L = W_In2;
-
-	unsigned int Line, Col, i;
-	v2s *VBuff = (v2s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
-
-	At=0; OffLine=0; Oo=0;
-	if (ColFirst) OffLine=Pi; else Oo=Pi;
-	while (L>0) {
-	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
-	       	gap_waitbarrier(0);
-	       	for (Line=First; Line<Last; Line++) {
-		       	v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
+	At=0; OffLine=0; Oo=0;
+	if (ColFirst) OffLine=Pi; else Oo=Pi;
+	while (L>0) {
+	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
+	       	gap_waitbarrier(0);
+	       	for (Line=First; Line<Last; Line++) {
+		       	v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
 			int S = (Bias[Line]<<NormBias);
 		       	for (i=0; i<W_In1/4; i++) {
 			       	S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
 			       	S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
 		       	}
 		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
+			int M = MulBias[Line];
 			Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(AT_NORM(S, Norm)*M, NormMulBias), LB), UB);
 	       	}
 		int nF = F+Sx;
@@ -1788,7 +1856,135 @@ void KerParMatMulScaleScalarSxSy_fpd_fp(KerMatMul_fpd_fp_T *Arg)
        	}
 }
 
-void KerParMatMulScaleScalarSxSy_ReLUN_Vector_fpd_fp(KerMatMul_fpd_fp_T *Arg)
+void KerParMatMulScale_fps(KerMatMul_fps_T *Arg)
+
+{
+	/*
+	 	Column buffer has to be sized in order to be able to accomodate up to 4 columns of size H_In2
+	*/
+        signed char * __restrict__ In1 = Arg->In1;
+        unsigned int W_In1 = Arg->W_In1;
+        unsigned int H_In1 = Arg->H_In1;
+        signed char * __restrict__ In2 = Arg->In2;
+        unsigned int W_In2 = Arg->W_In2;
+        signed char * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ MulBias = Arg->MulBias;
+        signed char * __restrict__ Out = Arg->Out;
+        unsigned int W_Out = Arg->W_Out;
+        unsigned int OutFirstCol = Arg->OutFirstCol;
+        signed char * __restrict__ BufferColIn2 = Arg->BufferColIn2;
+	unsigned int NormBias = Arg->NormBias;
+	unsigned int Norm = Arg->Norm+Arg->NormMulBias;
+        int LB = Arg->LB, UB = Arg->UB;
+        int ColFirst = Arg->ColFirst;
+
+        unsigned int H_In2 = W_In1;
+        unsigned int H_Out = H_In1;
+        unsigned int Line, Col, i;
+        v4s * __restrict__ VBuff0 = (v4s *) BufferColIn2;
+        v4s * __restrict__ VBuff1 = (v4s *) (BufferColIn2+H_In2);
+        v4s * __restrict__ VBuff2 = (v4s *) (BufferColIn2+2*H_In2);
+        v4s * __restrict__ VBuff3 = (v4s *) (BufferColIn2+3*H_In2);
+
+        unsigned int CoreId = gap_coreid();
+        unsigned int ChunkCell = ChunkSize(H_In1);
+        unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+        unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
+        int OffLine = 0, OffCol = 0;
+
+        if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
+        for (Col=0; Col<W_In2/4; Col++) {
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+4*Col+0];
+			int X1 = In2[i*W_In2+4*Col+1];
+			int X2 = In2[i*W_In2+4*Col+2];
+			int X3 = In2[i*W_In2+4*Col+3];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+4*Col+1];
+			BufferColIn2[i+2*H_In2] = X2; // In2[i*W_In2+4*Col+2];
+			BufferColIn2[i+3*H_In2] = X3; // In2[i*W_In2+4*Col+3];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0, S2=S0, S3=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                                S2 = gap_sumdotp4(V0, VBuff2[i], S2);
+                                S3 = gap_sumdotp4(V0, VBuff3[i], S3);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+				S2 += V0 * BufferColIn2[i+2*H_In2];
+				S3 += V0 * BufferColIn2[i+3*H_In2];
+			}
+			int M = MulBias[Line];
+			v4s R = gap_pack4(Min(Max(AT_NORM(S0*M, Norm), LB), UB), 
+					  Min(Max(AT_NORM(S1*M, Norm), LB), UB),
+					  Min(Max(AT_NORM(S2*M, Norm), LB), UB),
+					  Min(Max(AT_NORM(S3*M, Norm), LB), UB));
+			*((v4s *) (Out+(Line+OffLine)*W_Out+4*Col+0+OffCol)) = R;
+                }
+                gap_waitbarrier(0);
+        }
+	if (W_In2&0x2) {
+		Col = W_In2/2 - 1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+2*Col+0];
+			int X1 = In2[i*W_In2+2*Col+1];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+2*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+2*Col+1];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+			}
+			int M = MulBias[Line];
+			Out[(Line+OffLine)*W_Out+2*Col+0+OffCol] = Min(Max(AT_NORM(S0*M, Norm), LB), UB);
+			Out[(Line+OffLine)*W_Out+2*Col+1+OffCol] = Min(Max(AT_NORM(S1*M, Norm), LB), UB);
+                }
+                gap_waitbarrier(0);
+	}
+	if (W_In2&0x1) {
+		Col = W_In2-1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+1*Col+0];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias);
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+			}
+			int M = MulBias[Line];
+			Out[(Line+OffLine)*W_Out+1*Col+0+OffCol] = Min(Max(AT_NORM(S0*M, Norm), LB), UB);
+                }
+                gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulScaleSxSy_fps(KerMatMul_fps_T *Arg)
 
 {
 /*
@@ -1797,25 +1993,24 @@ void KerParMatMulScaleScalarSxSy_ReLUN_Vector_fpd_fp(KerMatMul_fpd_fp_T *Arg)
 
 	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
 */
-	short int * __restrict__ In1 = Arg->In1;
+	signed char * __restrict__ In1 = Arg->In1;
 	unsigned int W_In1 = Arg->W_In1;
 	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
-	int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ Out = Arg->Out;
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2;
+	signed char * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ MulBias = Arg->MulBias;
+	signed char * __restrict__ Out = Arg->Out;
 	unsigned int W_Out = Arg->W_Out;
 	int Pi = Arg->OutFirstCol;
-	short int *BufferColIn2 = Arg->BufferColIn2;
+	signed char *BufferColIn2 = Arg->BufferColIn2;
 	unsigned int Norm = Arg->Norm;
 	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormMulBias = Arg->NormMulBias;
+	unsigned int NormT = Norm+Arg->NormMulBias;
 	int Wi = Arg->W, Hi = Arg->H;
 	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
+	int LB = Arg->LB, UB = Arg->UB;
 	int ColFirst = Arg->ColFirst;
-	int M = *Arg->MulBias;
 
 	unsigned int H_In2 = W_In1;
 	unsigned int H_Out = H_In1;
@@ -1825,28 +2020,30 @@ void KerParMatMulScaleScalarSxSy_ReLUN_Vector_fpd_fp(KerMatMul_fpd_fp_T *Arg)
 	int At, F=0, L = W_In2;
 
 	unsigned int Line, Col, i;
-	v2s *VBuff = (v2s *) BufferColIn2;
+	v4s *VBuff = (v4s *) BufferColIn2;
 
 	unsigned int CoreId = gap_coreid();
 	unsigned int ChunkCell = ChunkSize(H_In1);
 	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
 	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
 
-	At=0; OffLine=0; Oo=0;
-	if (ColFirst) OffLine=Pi; else Oo=Pi;
+	At = 0; OffLine = 0; Oo = 0;
+	if (ColFirst) OffLine = Pi; else Oo = Pi;
+
 	while (L>0) {
 	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
 	       	gap_waitbarrier(0);
 	       	for (Line=First; Line<Last; Line++) {
-		       	v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
-		       	for (i=0; i<W_In1/4; i++) {
-			       	S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
-			       	S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
-		       	}
+		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+		       	int S = (Bias[Line]<<NormBias);
+		       	for (i=0; i<(W_In1/(4*2)); i++) {
+				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
+				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
+			}
+			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
 		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(AT_NORM(S, Norm)*M, NormMulBias), LB), UB);
+			int M = MulBias[Line];
+		       	Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(S*M, NormT), LB), UB);
 	       	}
 		int nF = F+Sx;
 		if (nF<Wi) {
@@ -1856,112 +2053,138 @@ void KerParMatMulScaleScalarSxSy_ReLUN_Vector_fpd_fp(KerMatMul_fpd_fp_T *Arg)
 			F = 0; L -= d; At += d; Oo++;
 		}
 	       	gap_waitbarrier(0);
-       	}
+	}
 }
 
-void KerParMatMulScaleScalar_fps(KerMatMul_fps_T *Arg)
+void KerParMatMulScale_fp_fps(KerMatMul_fp_fps_T *Arg)
 
 {
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
+	/*
+	 	Column buffer has to be sized in order to be able to accomodate up to 4 columns of size H_In2
+	*/
+        signed char * __restrict__ In1 = Arg->In1;
+        unsigned int W_In1 = Arg->W_In1;
+        unsigned int H_In1 = Arg->H_In1;
+        signed char * __restrict__ In2 = Arg->In2;
+        unsigned int W_In2 = Arg->W_In2;
+        short int * __restrict__ Bias = Arg->Bias;
+	short int * __restrict__ MulBias = Arg->MulBias;
+        signed char * __restrict__ Out = Arg->Out;
+        unsigned int W_Out = Arg->W_Out;
+        unsigned int OutFirstCol = Arg->OutFirstCol;
+        signed char * __restrict__ BufferColIn2 = Arg->BufferColIn2;
 	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormT = Arg->Norm+Arg->NormMulBias;
-	int LB = Arg->LB, UB = Arg->UB;
-	int ColFirst = Arg->ColFirst;
-	int M = *Arg->MulBias;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
+	unsigned int Norm = Arg->Norm+Arg->NormMulBias;
+        int LB = Arg->LB, UB = Arg->UB;
+        int ColFirst = Arg->ColFirst;
 
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
+        unsigned int H_In2 = W_In1;
+        unsigned int H_Out = H_In1;
+        unsigned int Line, Col, i;
+        v4s * __restrict__ VBuff0 = (v4s *) BufferColIn2;
+        v4s * __restrict__ VBuff1 = (v4s *) (BufferColIn2+H_In2);
+        v4s * __restrict__ VBuff2 = (v4s *) (BufferColIn2+2*H_In2);
+        v4s * __restrict__ VBuff3 = (v4s *) (BufferColIn2+3*H_In2);
 
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		for (Line=First; Line<Last; Line++) {
-			v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
+        unsigned int CoreId = gap_coreid();
+        unsigned int ChunkCell = ChunkSize(H_In1);
+        unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+        unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
+        int OffLine = 0, OffCol = 0;
+
+        if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
+        for (Col=0; Col<W_In2/4; Col++) {
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+4*Col+0];
+			int X1 = In2[i*W_In2+4*Col+1];
+			int X2 = In2[i*W_In2+4*Col+2];
+			int X3 = In2[i*W_In2+4*Col+3];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+4*Col+1];
+			BufferColIn2[i+2*H_In2] = X2; // In2[i*W_In2+4*Col+2];
+			BufferColIn2[i+3*H_In2] = X3; // In2[i*W_In2+4*Col+3];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0, S2=S0, S3=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                                S2 = gap_sumdotp4(V0, VBuff2[i], S2);
+                                S3 = gap_sumdotp4(V0, VBuff3[i], S3);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+				S2 += V0 * BufferColIn2[i+2*H_In2];
+				S3 += V0 * BufferColIn2[i+3*H_In2];
 			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-		       	Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(S*M, NormT), LB), UB);
+			int M = MulBias[Line];
+			v4s R = gap_pack4(Min(Max(AT_NORM(S0*M, Norm), LB), UB), 
+					  Min(Max(AT_NORM(S1*M, Norm), LB), UB),
+					  Min(Max(AT_NORM(S2*M, Norm), LB), UB),
+					  Min(Max(AT_NORM(S3*M, Norm), LB), UB));
+			*((v4s *) (Out+(Line+OffLine)*W_Out+4*Col+0+OffCol)) = R;
+                }
+                gap_waitbarrier(0);
+        }
+	if (W_In2&0x2) {
+		Col = W_In2/2 - 1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+2*Col+0];
+			int X1 = In2[i*W_In2+2*Col+1];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+2*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+2*Col+1];
 		}
-		gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulScaleScalar_ReLUN_Vector_fps(KerMatMul_fps_T *Arg)
-
-{
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormT = Arg->Norm+Arg->NormMulBias;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	int ColFirst = Arg->ColFirst;
-	int M = *Arg->MulBias;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
-
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		for (Line=First; Line<Last; Line++) {
-			v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
-			for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
 			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-		       	Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(S*M, NormT), LB), UB);
+			int M = MulBias[Line];
+			Out[(Line+OffLine)*W_Out+2*Col+0+OffCol] = Min(Max(AT_NORM(S0*M, Norm), LB), UB);
+			Out[(Line+OffLine)*W_Out+2*Col+1+OffCol] = Min(Max(AT_NORM(S1*M, Norm), LB), UB);
+                }
+                gap_waitbarrier(0);
+	}
+	if (W_In2&0x1) {
+		Col = W_In2-1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+1*Col+0];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
 		}
-		gap_waitbarrier(0);
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias);
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+			}
+			int M = MulBias[Line];
+			Out[(Line+OffLine)*W_Out+1*Col+0+OffCol] = Min(Max(AT_NORM(S0*M, Norm), LB), UB);
+                }
+                gap_waitbarrier(0);
 	}
 }
 
-void KerParMatMulScaleScalarSxSy_fps(KerMatMul_fps_T *Arg)
+void KerParMatMulScaleSxSy_fp_fps(KerMatMul_fp_fps_T *Arg)
 
 {
 /*
@@ -1975,19 +2198,19 @@ void KerParMatMulScaleScalarSxSy_fps(KerMatMul_fps_T *Arg)
 	unsigned int H_In1 = Arg->H_In1;
 	signed char * __restrict__ In2 = Arg->In2;
 	unsigned int W_In2 = Arg->W_In2;
-	signed char * __restrict__ Bias = Arg->Bias;
+	short int * __restrict__ Bias = Arg->Bias;
+	short int * __restrict__ MulBias = Arg->MulBias;
 	signed char * __restrict__ Out = Arg->Out;
 	unsigned int W_Out = Arg->W_Out;
 	int Pi = Arg->OutFirstCol;
 	signed char *BufferColIn2 = Arg->BufferColIn2;
 	unsigned int Norm = Arg->Norm;
 	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormT = Arg->Norm+Arg->NormMulBias;
+	unsigned int NormT = Norm+Arg->NormMulBias;
 	int Wi = Arg->W, Hi = Arg->H;
 	int Sx = Arg->Sx, Sy = Arg->Sy;
 	int LB = Arg->LB, UB = Arg->UB;
 	int ColFirst = Arg->ColFirst;
-	int M = *Arg->MulBias;
 
 	unsigned int H_In2 = W_In1;
 	unsigned int H_Out = H_In1;
@@ -2004,9 +2227,8 @@ void KerParMatMulScaleScalarSxSy_fps(KerMatMul_fps_T *Arg)
 	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
 	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
 
-	At = 0; OffLine = 0; Oo = 0;
-	if (ColFirst) OffLine = Pi; else Oo = Pi;
-
+	At=0; OffLine=0; Oo=0;
+	if (ColFirst) OffLine=Pi; else Oo=Pi;
 	while (L>0) {
 	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
 	       	gap_waitbarrier(0);
@@ -2019,6 +2241,7 @@ void KerParMatMulScaleScalarSxSy_fps(KerMatMul_fps_T *Arg)
 			}
 			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
 		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
+			int M = MulBias[Line];
 		       	Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(S*M, NormT), LB), UB);
 	       	}
 		int nF = F+Sx;
@@ -2032,7 +2255,60 @@ void KerParMatMulScaleScalarSxSy_fps(KerMatMul_fps_T *Arg)
 	}
 }
 
-void KerParMatMulScaleScalarSxSy_ReLUN_Vector_fps(KerMatMul_fps_T *Arg)
+/* Matrix multiply with h-sigmoid reduction */
+
+void KerParMatMulHsigmoid_fp(KerMatMul_fp_T *Arg)
+
+{
+	short int * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	short int * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
+	short int * __restrict__ Bias = Arg->Bias;
+	short int * __restrict__ Out = Arg->Out;
+	unsigned int W_Out = Arg->W_Out;
+	unsigned int OutFirstCol = Arg->OutFirstCol;
+	short int *BufferColIn2 = Arg->BufferColIn2;
+	unsigned int Norm = Arg->Norm;
+	unsigned int NormBias = Arg->NormBias;
+	int NormOut = Arg->UB;
+	int ColFirst = Arg->ColFirst;
+        int C1 = 3<<NormOut;
+        int C2 = (1<<15)/6; // 1/6 in Q15
+        int UB = 6<<NormOut;
+
+	unsigned int H_In2 = W_In1;
+	unsigned int H_Out = H_In1;
+	unsigned int Line, Col, i;
+	v2s *VBuff = (v2s *) BufferColIn2;
+
+	unsigned int CoreId = gap_coreid();
+	unsigned int ChunkCell = ChunkSize(H_In1);
+	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
+	int OffLine = 0, OffCol = 0;
+
+	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
+	for (Col=0; Col<W_In2; Col++) {
+		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
+		gap_waitbarrier(0);
+		// for (Line=0; Line<H_In1; Line++) {
+		for (Line=First; Line<Last; Line++) {
+			v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
+			int S = (Bias[Line]<<NormBias);
+			for (i=0; i<W_In1/4; i++) {
+				S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
+				S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
+			}
+			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
+			Out[(Line+OffLine)*W_Out+Col+OffCol] = AT_NORM(gap_max(0, gap_min(AT_NORM(S, Norm)+C1, UB))*C2, 15);
+		}
+		gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulHsigmoidSxSy_fp(KerMatMul_fp_T *Arg)
 
 {
 /*
@@ -2041,25 +2317,25 @@ void KerParMatMulScaleScalarSxSy_ReLUN_Vector_fps(KerMatMul_fps_T *Arg)
 
 	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
 */
-	signed char * __restrict__ In1 = Arg->In1;
+	short int * __restrict__ In1 = Arg->In1;
 	unsigned int W_In1 = Arg->W_In1;
 	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
+	short int * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
+	short int * __restrict__ Bias = Arg->Bias;
+	short int * __restrict__ Out = Arg->Out;
 	unsigned int W_Out = Arg->W_Out;
 	int Pi = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
+	short int *BufferColIn2 = Arg->BufferColIn2;
 	unsigned int Norm = Arg->Norm;
 	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormT = Arg->Norm+Arg->NormMulBias;
+	int NormOut = Arg->UB;
 	int Wi = Arg->W, Hi = Arg->H;
 	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
 	int ColFirst = Arg->ColFirst;
-	int M = *Arg->MulBias;
+        int C1 = 3<<NormOut;
+        int C2 = (1<<15)/6; // 1/6 in Q15
+        int UB = 6<<NormOut;
 
 	unsigned int H_In2 = W_In1;
 	unsigned int H_Out = H_In1;
@@ -2069,30 +2345,27 @@ void KerParMatMulScaleScalarSxSy_ReLUN_Vector_fps(KerMatMul_fps_T *Arg)
 	int At, F=0, L = W_In2;
 
 	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
+	v2s *VBuff = (v2s *) BufferColIn2;
 
 	unsigned int CoreId = gap_coreid();
 	unsigned int ChunkCell = ChunkSize(H_In1);
 	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
 	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
 
-	At = 0; OffLine = 0; Oo = 0;
-	if (ColFirst) OffLine = Pi; else Oo = Pi;
-
+	At=0; OffLine=0; Oo=0;
+	if (ColFirst) OffLine=Pi; else Oo=Pi;
 	while (L>0) {
 	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
 	       	gap_waitbarrier(0);
 	       	for (Line=First; Line<Last; Line++) {
-		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-		       	int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
-		       	for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
+		       	v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
+			int S = (Bias[Line]<<NormBias);
+		       	for (i=0; i<W_In1/4; i++) {
+			       	S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
+			       	S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
+		       	}
 		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-		       	Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(S*M, NormT), LB), UB);
+			Out[(Line+OffLine)*W_Out+Oo] = AT_NORM(gap_max(0, gap_min(AT_NORM(S, Norm)+C1, UB))*C2, 15);
 	       	}
 		int nF = F+Sx;
 		if (nF<Wi) {
@@ -2105,81 +2378,234 @@ void KerParMatMulScaleScalarSxSy_ReLUN_Vector_fps(KerMatMul_fps_T *Arg)
 	}
 }
 
-void KerParMatMulScaleScalar_fp_fps(KerMatMul_fp_fps_T *Arg)
+void KerParMatMulHsigmoid_fps(KerMatMul_fps_T *Arg)
+
+{
+	/*
+	 	Column buffer has to be sized in order to be able to accomodate up to 4 columns of size H_In2
+	*/
+        signed char * __restrict__ In1 = Arg->In1;
+        unsigned int W_In1 = Arg->W_In1;
+        unsigned int H_In1 = Arg->H_In1;
+        signed char * __restrict__ In2 = Arg->In2;
+        unsigned int W_In2 = Arg->W_In2;
+        signed char * __restrict__ Bias = Arg->Bias;
+        signed char * __restrict__ Out = Arg->Out;
+        unsigned int W_Out = Arg->W_Out;
+        unsigned int OutFirstCol = Arg->OutFirstCol;
+        signed char * __restrict__ BufferColIn2 = Arg->BufferColIn2;
+        unsigned int Norm = Arg->Norm;
+        unsigned int NormBias = Arg->NormBias;
+	int NormOut = Arg->UB;
+	int ColFirst = Arg->ColFirst;
+        int C1 = 3<<NormOut;
+        int C2 = (1<<15)/6; // 1/6 in Q15
+        int UB = 6<<NormOut, LB=0;
+
+        unsigned int H_In2 = W_In1;
+        unsigned int H_Out = H_In1;
+        unsigned int Line, Col, i;
+        v4s * __restrict__ VBuff0 = (v4s *) BufferColIn2;
+        v4s * __restrict__ VBuff1 = (v4s *) (BufferColIn2+H_In2);
+        v4s * __restrict__ VBuff2 = (v4s *) (BufferColIn2+2*H_In2);
+        v4s * __restrict__ VBuff3 = (v4s *) (BufferColIn2+3*H_In2);
+
+        unsigned int CoreId = gap_coreid();
+        unsigned int ChunkCell = ChunkSize(H_In1);
+        unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+        unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
+        int OffLine = 0, OffCol = 0;
+
+        if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
+        for (Col=0; Col<W_In2/4; Col++) {
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+4*Col+0];
+			int X1 = In2[i*W_In2+4*Col+1];
+			int X2 = In2[i*W_In2+4*Col+2];
+			int X3 = In2[i*W_In2+4*Col+3];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+4*Col+1];
+			BufferColIn2[i+2*H_In2] = X2; // In2[i*W_In2+4*Col+2];
+			BufferColIn2[i+3*H_In2] = X3; // In2[i*W_In2+4*Col+3];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0, S2=S0, S3=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                                S2 = gap_sumdotp4(V0, VBuff2[i], S2);
+                                S3 = gap_sumdotp4(V0, VBuff3[i], S3);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+				S2 += V0 * BufferColIn2[i+2*H_In2];
+				S3 += V0 * BufferColIn2[i+3*H_In2];
+			}
+			v4s R = gap_pack4(AT_NORM(gap_max(0, gap_min(AT_NORM(S0, Norm)+C1, UB))*C2, 15),
+					  AT_NORM(gap_max(0, gap_min(AT_NORM(S1, Norm)+C1, UB))*C2, 15),
+					  AT_NORM(gap_max(0, gap_min(AT_NORM(S2, Norm)+C1, UB))*C2, 15),
+					  AT_NORM(gap_max(0, gap_min(AT_NORM(S3, Norm)+C1, UB))*C2, 15));
+			*((v4s *) (Out+(Line+OffLine)*W_Out+4*Col+0+OffCol)) = R;
+                }
+                gap_waitbarrier(0);
+        }
+	if (W_In2&0x2) {
+		Col = W_In2/2 - 1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+2*Col+0];
+			int X1 = In2[i*W_In2+2*Col+1];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+2*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+2*Col+1];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+			}
+			Out[(Line+OffLine)*W_Out+2*Col+0+OffCol] = AT_NORM(gap_max(0, gap_min(AT_NORM(S0, Norm)+C1, UB))*C2, 15);
+			Out[(Line+OffLine)*W_Out+2*Col+1+OffCol] = AT_NORM(gap_max(0, gap_min(AT_NORM(S1, Norm)+C1, UB))*C2, 15);
+                }
+                gap_waitbarrier(0);
+	}
+	if (W_In2&0x1) {
+		Col = W_In2-1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+1*Col+0];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias);
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+			}
+			Out[(Line+OffLine)*W_Out+1*Col+0+OffCol] = AT_NORM(gap_max(0, gap_min(AT_NORM(S0, Norm)+C1, UB))*C2, 15);
+                }
+                gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulHsigmoidSxSy_fps(KerMatMul_fps_T *Arg)
 
 {
+/*
+	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
+	In2 is  [InFeat][Width*Height]
+
+	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
+*/
 	signed char * __restrict__ In1 = Arg->In1;
 	unsigned int W_In1 = Arg->W_In1;
 	unsigned int H_In1 = Arg->H_In1;
 	signed char * __restrict__ In2 = Arg->In2;
 	unsigned int W_In2 = Arg->W_In2;
-	short int * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ Bias = Arg->Bias;
 	signed char * __restrict__ Out = Arg->Out;
 	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
+	int Pi = Arg->OutFirstCol;
 	signed char *BufferColIn2 = Arg->BufferColIn2;
 	unsigned int Norm = Arg->Norm;
 	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormT = Norm+Arg->NormMulBias;
-	int LB = Arg->LB, UB = Arg->UB;
+	int NormOut = Arg->UB;
+	int Wi = Arg->W, Hi = Arg->H;
+	int Sx = Arg->Sx, Sy = Arg->Sy;
 	int ColFirst = Arg->ColFirst;
-	int M = *Arg->MulBias;
+        int C1 = 3<<NormOut;
+        int C2 = (1<<15)/6; // 1/6 in Q15
+        int UB = 6<<NormOut;
 
 	unsigned int H_In2 = W_In1;
 	unsigned int H_Out = H_In1;
+
+	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
+	int Oo, OffLine;
+	int At, F=0, L = W_In2;
+
 	unsigned int Line, Col, i;
 	v4s *VBuff = (v4s *) BufferColIn2;
 
 	unsigned int CoreId = gap_coreid();
 	unsigned int ChunkCell = ChunkSize(H_In1);
 	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
+	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
 
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		for (Line=First; Line<Last; Line++) {
-			v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			for (i=0; i<(W_In1/(4*2)); i++) {
+	At = 0; OffLine = 0; Oo = 0;
+	if (ColFirst) OffLine = Pi; else Oo = Pi;
+
+	while (L>0) {
+	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
+	       	gap_waitbarrier(0);
+	       	for (Line=First; Line<Last; Line++) {
+		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+		       	int S = (Bias[Line]<<NormBias);
+		       	for (i=0; i<(W_In1/(4*2)); i++) {
 				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
 				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
 			}
 			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-		       	Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(S*M, NormT), LB), UB);
+		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
+			Out[(Line+OffLine)*W_Out+Oo] = AT_NORM(gap_max(0, gap_min(AT_NORM(S, Norm)+C1, UB))*C2, 15);
+	       	}
+		int nF = F+Sx;
+		if (nF<Wi) {
+			F = nF; At += Sx; L -= Sx; Oo++;
+		} else {
+			int d = Wi-F+(Sy-1)*Wi;
+			F = 0; L -= d; At += d; Oo++;
 		}
-		gap_waitbarrier(0);
+	       	gap_waitbarrier(0);
 	}
 }
 
-void KerParMatMulScaleScalar_ReLUN_Vector_fp_fps(KerMatMul_fp_fps_T *Arg)
+
+/* Matrix multiply with h-swish reduction */
+
+void KerParMatMulHswish_fp(KerMatMul_fp_T *Arg)
 
 {
-	signed char * __restrict__ In1 = Arg->In1;
+	short int * __restrict__ In1 = Arg->In1;
 	unsigned int W_In1 = Arg->W_In1;
 	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
+	short int * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
 	short int * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
+	short int * __restrict__ Out = Arg->Out;
 	unsigned int W_Out = Arg->W_Out;
 	unsigned int OutFirstCol = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
+	short int *BufferColIn2 = Arg->BufferColIn2;
 	unsigned int Norm = Arg->Norm;
 	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormT = Norm+Arg->NormMulBias;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
+	int NormOut = Arg->UB;
 	int ColFirst = Arg->ColFirst;
-	int M = *Arg->MulBias;
+        int C1 = 3<<NormOut;
+        int C2 = (1<<15)/6; // 1/6 in Q15
+        int UB = 6<<NormOut;
+
 
 	unsigned int H_In2 = W_In1;
 	unsigned int H_Out = H_In1;
 	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
+	v2s *VBuff = (v2s *) BufferColIn2;
 
 	unsigned int CoreId = gap_coreid();
 	unsigned int ChunkCell = ChunkSize(H_In1);
@@ -2191,23 +2617,23 @@ void KerParMatMulScaleScalar_ReLUN_Vector_fp_fps(KerMatMul_fp_fps_T *Arg)
 	for (Col=0; Col<W_In2; Col++) {
 		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
 		gap_waitbarrier(0);
+		// for (Line=0; Line<H_In1; Line++) {
 		for (Line=First; Line<Last; Line++) {
-			v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+			v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
 			int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
-			for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
+			for (i=0; i<W_In1/4; i++) {
+				S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
+				S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
 			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
 			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-		       	Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(S*M, NormT), LB), UB);
+			S = AT_NORM(S, Norm);
+			Out[(Line+OffLine)*W_Out+Col+OffCol] = AT_NORM(AT_NORM(gap_min(gap_max(S + C1, 0), UB) * S, NormOut) * C2, 15);
 		}
 		gap_waitbarrier(0);
 	}
 }
 
-void KerParMatMulScaleScalarSxSy_fp_fps(KerMatMul_fp_fps_T *Arg)
+void KerParMatMulHswishSxSy_fp(KerMatMul_fp_T *Arg)
 
 {
 /*
@@ -2216,24 +2642,25 @@ void KerParMatMulScaleScalarSxSy_fp_fps(KerMatMul_fp_fps_T *Arg)
 
 	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
 */
-	signed char * __restrict__ In1 = Arg->In1;
+	short int * __restrict__ In1 = Arg->In1;
 	unsigned int W_In1 = Arg->W_In1;
 	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
+	short int * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
 	short int * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
+	short int * __restrict__ Out = Arg->Out;
 	unsigned int W_Out = Arg->W_Out;
 	int Pi = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
+	short int *BufferColIn2 = Arg->BufferColIn2;
 	unsigned int Norm = Arg->Norm;
 	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormT = Norm+Arg->NormMulBias;
+	int NormOut = Arg->UB;
 	int Wi = Arg->W, Hi = Arg->H;
 	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int LB = Arg->LB, UB = Arg->UB;
 	int ColFirst = Arg->ColFirst;
-	int M = *Arg->MulBias;
+        int C1 = 3<<NormOut;
+        int C2 = (1<<15)/6; // 1/6 in Q15
+        int UB = 6<<NormOut;
 
 	unsigned int H_In2 = W_In1;
 	unsigned int H_Out = H_In1;
@@ -2243,7 +2670,7 @@ void KerParMatMulScaleScalarSxSy_fp_fps(KerMatMul_fp_fps_T *Arg)
 	int At, F=0, L = W_In2;
 
 	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
+	v2s *VBuff = (v2s *) BufferColIn2;
 
 	unsigned int CoreId = gap_coreid();
 	unsigned int ChunkCell = ChunkSize(H_In1);
@@ -2256,15 +2683,15 @@ void KerParMatMulScaleScalarSxSy_fp_fps(KerMatMul_fp_fps_T *Arg)
 	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
 	       	gap_waitbarrier(0);
 	       	for (Line=First; Line<Last; Line++) {
-		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-		       	int S = (Bias[Line]<<NormBias);
-		       	for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
+		       	v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
+			int S = (Bias[Line]<<NormBias);
+		       	for (i=0; i<W_In1/4; i++) {
+			       	S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
+			       	S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
+		       	}
 		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-		       	Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(S*M, NormT), LB), UB);
+			S = AT_NORM(S, Norm);
+			Out[(Line+OffLine)*W_Out+Oo] = AT_NORM(AT_NORM(gap_min(gap_max(S + C1, 0), UB) * S, NormOut) * C2, 15);
 	       	}
 		int nF = F+Sx;
 		if (nF<Wi) {
@@ -2277,34 +2704,161 @@ void KerParMatMulScaleScalarSxSy_fp_fps(KerMatMul_fp_fps_T *Arg)
 	}
 }
 
-void KerParMatMulScaleScalarSxSy_ReLUN_Vector_fp_fps(KerMatMul_fp_fps_T *Arg)
+void KerParMatMulHswish_fps(KerMatMul_fps_T *Arg)
 
 {
-/*
-	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
-	In2 is  [InFeat][Width*Height]
-
-	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
-*/
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	short int * __restrict__ Bias = Arg->Bias;
+	/*
+	 	Column buffer has to be sized in order to be able to accomodate up to 4 columns of size H_In2
+	*/
+        signed char * __restrict__ In1 = Arg->In1;
+        unsigned int W_In1 = Arg->W_In1;
+        unsigned int H_In1 = Arg->H_In1;
+        signed char * __restrict__ In2 = Arg->In2;
+        unsigned int W_In2 = Arg->W_In2;
+        signed char * __restrict__ Bias = Arg->Bias;
+        signed char * __restrict__ Out = Arg->Out;
+        unsigned int W_Out = Arg->W_Out;
+        unsigned int OutFirstCol = Arg->OutFirstCol;
+        signed char * __restrict__ BufferColIn2 = Arg->BufferColIn2;
+        unsigned int Norm = Arg->Norm;
+        unsigned int NormBias = Arg->NormBias;
+	int NormOut = Arg->UB;
+	int ColFirst = Arg->ColFirst;
+        int C1 = 3<<NormOut;
+        int C2 = (1<<15)/6; // 1/6 in Q15
+        int UB = 6<<NormOut, LB=0;
+
+        unsigned int H_In2 = W_In1;
+        unsigned int H_Out = H_In1;
+        unsigned int Line, Col, i;
+        v4s * __restrict__ VBuff0 = (v4s *) BufferColIn2;
+        v4s * __restrict__ VBuff1 = (v4s *) (BufferColIn2+H_In2);
+        v4s * __restrict__ VBuff2 = (v4s *) (BufferColIn2+2*H_In2);
+        v4s * __restrict__ VBuff3 = (v4s *) (BufferColIn2+3*H_In2);
+
+        unsigned int CoreId = gap_coreid();
+        unsigned int ChunkCell = ChunkSize(H_In1);
+        unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+        unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
+        int OffLine = 0, OffCol = 0;
+
+        if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
+        for (Col=0; Col<W_In2/4; Col++) {
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+4*Col+0];
+			int X1 = In2[i*W_In2+4*Col+1];
+			int X2 = In2[i*W_In2+4*Col+2];
+			int X3 = In2[i*W_In2+4*Col+3];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+4*Col+1];
+			BufferColIn2[i+2*H_In2] = X2; // In2[i*W_In2+4*Col+2];
+			BufferColIn2[i+3*H_In2] = X3; // In2[i*W_In2+4*Col+3];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0, S2=S0, S3=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                                S2 = gap_sumdotp4(V0, VBuff2[i], S2);
+                                S3 = gap_sumdotp4(V0, VBuff3[i], S3);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+				S2 += V0 * BufferColIn2[i+2*H_In2];
+				S3 += V0 * BufferColIn2[i+3*H_In2];
+			}
+			v4s R = gap_pack4(AT_NORM(AT_NORM(gap_min(gap_max(S0 + C1, 0), UB) * S0, NormOut) * C2, 15),
+					  AT_NORM(AT_NORM(gap_min(gap_max(S1 + C1, 0), UB) * S1, NormOut) * C2, 15),
+					  AT_NORM(AT_NORM(gap_min(gap_max(S2 + C1, 0), UB) * S2, NormOut) * C2, 15),
+					  AT_NORM(AT_NORM(gap_min(gap_max(S3 + C1, 0), UB) * S3, NormOut) * C2, 15));
+			*((v4s *) (Out+(Line+OffLine)*W_Out+4*Col+0+OffCol)) = R;
+                }
+                gap_waitbarrier(0);
+        }
+	if (W_In2&0x2) {
+		Col = W_In2/2 - 1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+2*Col+0];
+			int X1 = In2[i*W_In2+2*Col+1];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+2*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+2*Col+1];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+			}
+			Out[(Line+OffLine)*W_Out+2*Col+0+OffCol] = AT_NORM(AT_NORM(gap_min(gap_max(S0 + C1, 0), UB) * S0, NormOut) * C2, 15);
+			Out[(Line+OffLine)*W_Out+2*Col+1+OffCol] = AT_NORM(AT_NORM(gap_min(gap_max(S1 + C1, 0), UB) * S0, NormOut) * C2, 15);
+                }
+                gap_waitbarrier(0);
+	}
+	if (W_In2&0x1) {
+		Col = W_In2-1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+1*Col+0];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias);
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+			}
+			Out[(Line+OffLine)*W_Out+1*Col+0+OffCol] = AT_NORM(AT_NORM(gap_min(gap_max(S0 + C1, 0), UB) * S0, NormOut) * C2, 15);
+                }
+                gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulHswishSxSy_fps(KerMatMul_fps_T *Arg)
+
+{
+/*
+	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
+	In2 is  [InFeat][Width*Height]
+
+	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
+*/
+	signed char * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2;
+	signed char * __restrict__ Bias = Arg->Bias;
 	signed char * __restrict__ Out = Arg->Out;
 	unsigned int W_Out = Arg->W_Out;
 	int Pi = Arg->OutFirstCol;
 	signed char *BufferColIn2 = Arg->BufferColIn2;
 	unsigned int Norm = Arg->Norm;
 	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormT = Norm+Arg->NormMulBias;
+	int NormOut = Arg->UB;
 	int Wi = Arg->W, Hi = Arg->H;
 	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
 	int ColFirst = Arg->ColFirst;
-	int M = *Arg->MulBias;
+        int C1 = 3<<NormOut;
+        int C2 = (1<<15)/6; // 1/6 in Q15
+        int UB = 6<<NormOut;
 
 	unsigned int H_In2 = W_In1;
 	unsigned int H_Out = H_In1;
@@ -2321,22 +2875,23 @@ void KerParMatMulScaleScalarSxSy_ReLUN_Vector_fp_fps(KerMatMul_fp_fps_T *Arg)
 	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
 	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
 
-	At=0; OffLine=0; Oo=0;
-	if (ColFirst) OffLine=Pi; else Oo=Pi;
+	At = 0; OffLine = 0; Oo = 0;
+	if (ColFirst) OffLine = Pi; else Oo = Pi;
+
 	while (L>0) {
 	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
 	       	gap_waitbarrier(0);
 	       	for (Line=First; Line<Last; Line++) {
 		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
 		       	int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
 		       	for (i=0; i<(W_In1/(4*2)); i++) {
 				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
 				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
 			}
 			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
 		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-		       	Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(S*M, NormT), LB), UB);
+			S = AT_NORM(S, Norm);
+		       	Out[(Line+OffLine)*W_Out+Oo] = AT_NORM(AT_NORM(gap_min(gap_max(S + C1, 0), UB) * S, NormOut) * C2, 15);
 	       	}
 		int nF = F+Sx;
 		if (nF<Wi) {
@@ -2349,60 +2904,10 @@ void KerParMatMulScaleScalarSxSy_ReLUN_Vector_fp_fps(KerMatMul_fp_fps_T *Arg)
 	}
 }
 
-/* Matrix multiplication with output scaling by scalar[Channel] for all channels */
-
-void KerParMatMulScale_fp(KerMatMul_fp_T *Arg)
-
-{
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
-	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ MulBias = Arg->MulBias;
-	short int * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
-	short int *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormMulBias = Arg->NormMulBias;
-	int LB = Arg->LB, UB = Arg->UB;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-	unsigned int Line, Col, i;
-	v2s *VBuff = (v2s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
 
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		// for (Line=0; Line<H_In1; Line++) {
-		for (Line=First; Line<Last; Line++) {
-			v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			for (i=0; i<W_In1/4; i++) {
-				S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
-				S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			int M = MulBias[Line];
-			Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(AT_NORM(S, Norm)*M, NormMulBias), LB), UB);
-		}
-		gap_waitbarrier(0);
-	}
-}
+/* Matrix multiply with Leaky ReLU reduction */
 
-void KerParMatMulScale_ReLUN_Vector_fp(KerMatMul_fp_T *Arg)
+void KerParMatMulLeakyrelu_fp(KerMatMul_fp_T *Arg)
 
 {
 	short int * __restrict__ In1 = Arg->In1;
@@ -2411,16 +2916,12 @@ void KerParMatMulScale_ReLUN_Vector_fp(KerMatMul_fp_T *Arg)
 	short int * __restrict__ In2 = Arg->In2;
 	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
 	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ MulBias = Arg->MulBias;
 	short int * __restrict__ Out = Arg->Out;
 	unsigned int W_Out = Arg->W_Out;
 	unsigned int OutFirstCol = Arg->OutFirstCol;
 	short int *BufferColIn2 = Arg->BufferColIn2;
 	unsigned int Norm = Arg->Norm;
 	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormMulBias = Arg->NormMulBias;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
 	int ColFirst = Arg->ColFirst;
 
 	unsigned int H_In2 = W_In1;
@@ -2438,24 +2939,27 @@ void KerParMatMulScale_ReLUN_Vector_fp(KerMatMul_fp_T *Arg)
 	for (Col=0; Col<W_In2; Col++) {
 		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
 		gap_waitbarrier(0);
-		// for (Line=0; Line<H_In1; Line++) {
 		for (Line=First; Line<Last; Line++) {
 			v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
 			int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
 			for (i=0; i<W_In1/4; i++) {
 				S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
 				S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
 			}
 			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			int M = MulBias[Line];
-			Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(AT_NORM(S, Norm)*M, NormMulBias), LB), UB);
+			{
+				int Input = AT_NORM(S, Norm);
+				int Neg = (Input<0), Pos = (Input>=0);
+				int Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT);
+				int Acc0 = gap_clip(Neg*Input1+Pos*Input, 15);
+		       		Out[(Line+OffLine)*W_Out+Col+OffCol] = Acc0;
+			}
 		}
 		gap_waitbarrier(0);
 	}
 }
 
-void KerParMatMulScaleSxSy_fp(KerMatMul_fp_T *Arg)
+void KerParMatMulLeakyreluSxSy_fp(KerMatMul_fp_T *Arg)
 
 {
 /*
@@ -2470,17 +2974,14 @@ void KerParMatMulScaleSxSy_fp(KerMatMul_fp_T *Arg)
 	short int * __restrict__ In2 = Arg->In2;
 	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
 	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ MulBias = Arg->MulBias;
 	short int * __restrict__ Out = Arg->Out;
 	unsigned int W_Out = Arg->W_Out;
 	int Pi = Arg->OutFirstCol;
 	short int *BufferColIn2 = Arg->BufferColIn2;
 	unsigned int Norm = Arg->Norm;
 	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormMulBias = Arg->NormMulBias;
 	int Wi = Arg->W, Hi = Arg->H;
 	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int LB = Arg->LB, UB = Arg->UB;
 	int ColFirst = Arg->ColFirst;
 
 	unsigned int H_In2 = W_In1;
@@ -2511,8 +3012,13 @@ void KerParMatMulScaleSxSy_fp(KerMatMul_fp_T *Arg)
 			       	S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
 		       	}
 		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			int M = MulBias[Line];
-			Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(AT_NORM(S, Norm)*M, NormMulBias), LB), UB);
+			{
+				int Input = AT_NORM(S, Norm);
+				int Neg = (Input<0), Pos = (Input>=0);
+				int Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT);
+				int Acc0 = gap_clip(Neg*Input1+Pos*Input, 15);
+				Out[(Line+OffLine)*W_Out+Oo] = Acc0;
+			}
 	       	}
 		int nF = F+Sx;
 		if (nF<Wi) {
@@ -2525,1862 +3031,224 @@ void KerParMatMulScaleSxSy_fp(KerMatMul_fp_T *Arg)
 	}
 }
 
-void KerParMatMulScaleSxSy_ReLUN_Vector_fp(KerMatMul_fp_T *Arg)
+void KerParMatMulLeakyrelu_fps(KerMatMul_fps_T *Arg)
 
 {
-/*
-	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
-	In2 is  [InFeat][Width*Height]
-
-	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
-*/
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
-	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ MulBias = Arg->MulBias;
-	short int * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	int Pi = Arg->OutFirstCol;
-	short int *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormMulBias = Arg->NormMulBias;
-	int Wi = Arg->W, Hi = Arg->H;
-	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-
-	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
-	int Oo, OffLine;
-	int At, F=0, L = W_In2;
-
-	unsigned int Line, Col, i;
-	v2s *VBuff = (v2s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
-
-	At=0; OffLine=0; Oo=0;
-	if (ColFirst) OffLine=Pi; else Oo=Pi;
-	while (L>0) {
-	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
-	       	gap_waitbarrier(0);
-	       	for (Line=First; Line<Last; Line++) {
-		       	v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
-		       	for (i=0; i<W_In1/4; i++) {
-			       	S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
-			       	S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
-		       	}
-		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			int M = MulBias[Line];
-			Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(AT_NORM(S, Norm)*M, NormMulBias), LB), UB);
-	       	}
-		int nF = F+Sx;
-		if (nF<Wi) {
-			F = nF; At += Sx; L -= Sx; Oo++;
-		} else {
-			int d = Wi-F+(Sy-1)*Wi;
-			F = 0; L -= d; At += d; Oo++;
-		}
-	       	gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulScale_fpd_fp(KerMatMul_fpd_fp_T *Arg)
-
-{
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
-	int * __restrict__ Bias = Arg->Bias;
-	int * __restrict__ MulBias = Arg->MulBias;
-	short int * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
-	short int *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormMulBias = Arg->NormMulBias;
-	int LB = Arg->LB, UB = Arg->UB;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-	unsigned int Line, Col, i;
-	v2s *VBuff = (v2s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
-
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		for (Line=First; Line<Last; Line++) {
-			v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			for (i=0; i<W_In1/4; i++) {
-				S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
-				S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			int M = MulBias[Line];
-			Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(AT_NORM(S, Norm)*M, NormMulBias), LB), UB);
-		}
-		gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulScale_ReLUN_Vector_fpd_fp(KerMatMul_fpd_fp_T *Arg)
-
-{
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
-	int * __restrict__ Bias = Arg->Bias;
-	int * __restrict__ MulBias = Arg->MulBias;
-	short int * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
-	short int *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormMulBias = Arg->NormMulBias;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-	unsigned int Line, Col, i;
-	v2s *VBuff = (v2s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
-
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		for (Line=First; Line<Last; Line++) {
-			v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
-			for (i=0; i<W_In1/4; i++) {
-				S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
-				S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			int M = MulBias[Line];
-			Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(AT_NORM(S, Norm)*M, NormMulBias), LB), UB);
-		}
-		gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulScaleSxSy_fpd_fp(KerMatMul_fpd_fp_T *Arg)
-
-{
-/*
-	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
-	In2 is  [InFeat][Width*Height]
-
-	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
-*/
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
-	int * __restrict__ Bias = Arg->Bias;
-	int * __restrict__ MulBias = Arg->MulBias;
-	short int * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	int Pi = Arg->OutFirstCol;
-	short int *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormMulBias = Arg->NormMulBias;
-	int Wi = Arg->W, Hi = Arg->H;
-	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int LB = Arg->LB, UB = Arg->UB;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-
-	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
-	int Oo, OffLine;
-	int At, F=0, L = W_In2;
-
-	unsigned int Line, Col, i;
-	v2s *VBuff = (v2s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
-
-	At=0; OffLine=0; Oo=0;
-	if (ColFirst) OffLine=Pi; else Oo=Pi;
-	while (L>0) {
-	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
-	       	gap_waitbarrier(0);
-	       	for (Line=First; Line<Last; Line++) {
-		       	v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-		       	for (i=0; i<W_In1/4; i++) {
-			       	S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
-			       	S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
-		       	}
-		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			int M = MulBias[Line];
-			Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(AT_NORM(S, Norm)*M, NormMulBias), LB), UB);
-	       	}
-		int nF = F+Sx;
-		if (nF<Wi) {
-			F = nF; At += Sx; L -= Sx; Oo++;
-		} else {
-			int d = Wi-F+(Sy-1)*Wi;
-			F = 0; L -= d; At += d; Oo++;
-		}
-	       	gap_waitbarrier(0);
-       	}
-}
-
-void KerParMatMulScaleSxSy_ReLUN_Vector_fpd_fp(KerMatMul_fpd_fp_T *Arg)
-
-{
-/*
-	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
-	In2 is  [InFeat][Width*Height]
-
-	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
-*/
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
-	int * __restrict__ Bias = Arg->Bias;
-	int * __restrict__ MulBias = Arg->MulBias;
-	short int * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	int Pi = Arg->OutFirstCol;
-	short int *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormMulBias = Arg->NormMulBias;
-	int Wi = Arg->W, Hi = Arg->H;
-	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-
-	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
-	int Oo, OffLine;
-	int At, F=0, L = W_In2;
-
-	unsigned int Line, Col, i;
-	v2s *VBuff = (v2s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
-
-	At=0; OffLine=0; Oo=0;
-	if (ColFirst) OffLine=Pi; else Oo=Pi;
-	while (L>0) {
-	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
-	       	gap_waitbarrier(0);
-	       	for (Line=First; Line<Last; Line++) {
-		       	v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
-		       	for (i=0; i<W_In1/4; i++) {
-			       	S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
-			       	S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
-		       	}
-		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			int M = MulBias[Line];
-			Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(AT_NORM(S, Norm)*M, NormMulBias), LB), UB);
-	       	}
-		int nF = F+Sx;
-		if (nF<Wi) {
-			F = nF; At += Sx; L -= Sx; Oo++;
-		} else {
-			int d = Wi-F+(Sy-1)*Wi;
-			F = 0; L -= d; At += d; Oo++;
-		}
-	       	gap_waitbarrier(0);
-       	}
-}
-
-void KerParMatMulScale_fps(KerMatMul_fps_T *Arg)
-
-{
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ MulBias = Arg->MulBias;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormT = Norm+Arg->NormMulBias;
-	int LB = Arg->LB, UB = Arg->UB;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
-
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		for (Line=First; Line<Last; Line++) {
-			v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			int M = MulBias[Line];
-		       	Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(S*M, NormT), LB), UB);
-		}
-		gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulScale_ReLUN_Vector_fps(KerMatMul_fps_T *Arg)
-
-{
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ MulBias = Arg->MulBias;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormT = Norm+Arg->NormMulBias;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
-
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		for (Line=First; Line<Last; Line++) {
-			v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
-			for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			int M = MulBias[Line];
-		       	Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(S*M, NormT), LB), UB);
-		}
-		gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulScaleSxSy_fps(KerMatMul_fps_T *Arg)
-
-{
-/*
-	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
-	In2 is  [InFeat][Width*Height]
-
-	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
-*/
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ MulBias = Arg->MulBias;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	int Pi = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormT = Norm+Arg->NormMulBias;
-	int Wi = Arg->W, Hi = Arg->H;
-	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int LB = Arg->LB, UB = Arg->UB;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-
-	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
-	int Oo, OffLine;
-	int At, F=0, L = W_In2;
-
-	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
-
-	At = 0; OffLine = 0; Oo = 0;
-	if (ColFirst) OffLine = Pi; else Oo = Pi;
-
-	while (L>0) {
-	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
-	       	gap_waitbarrier(0);
-	       	for (Line=First; Line<Last; Line++) {
-		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-		       	int S = (Bias[Line]<<NormBias);
-		       	for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
-		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			int M = MulBias[Line];
-		       	Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(S*M, NormT), LB), UB);
-	       	}
-		int nF = F+Sx;
-		if (nF<Wi) {
-			F = nF; At += Sx; L -= Sx; Oo++;
-		} else {
-			int d = Wi-F+(Sy-1)*Wi;
-			F = 0; L -= d; At += d; Oo++;
-		}
-	       	gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulScaleSxSy_ReLUN_Vector_fps(KerMatMul_fps_T *Arg)
-
-{
-/*
-	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
-	In2 is  [InFeat][Width*Height]
-
-	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
-*/
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ MulBias = Arg->MulBias;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	int Pi = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormT = Norm+Arg->NormMulBias;
-	int Wi = Arg->W, Hi = Arg->H;
-	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-
-	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
-	int Oo, OffLine;
-	int At, F=0, L = W_In2;
-
-	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
-
-	At = 0; OffLine = 0; Oo = 0;
-	if (ColFirst) OffLine = Pi; else Oo = Pi;
-
-	while (L>0) {
-	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
-	       	gap_waitbarrier(0);
-	       	for (Line=First; Line<Last; Line++) {
-		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-		       	int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
-		       	for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
-		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			int M = MulBias[Line];
-		       	Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(S*M, NormT), LB), UB);
-	       	}
-		int nF = F+Sx;
-		if (nF<Wi) {
-			F = nF; At += Sx; L -= Sx; Oo++;
-		} else {
-			int d = Wi-F+(Sy-1)*Wi;
-			F = 0; L -= d; At += d; Oo++;
-		}
-	       	gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulScale_fp_fps(KerMatMul_fp_fps_T *Arg)
-
-{
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ MulBias = Arg->MulBias;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormT = Norm+Arg->NormMulBias;
-	int LB = Arg->LB, UB = Arg->UB;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
-
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		for (Line=First; Line<Last; Line++) {
-			v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			int M = MulBias[Line];
-		       	Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(S*M, NormT), LB), UB);
-		}
-		gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulScale_ReLUN_Vector_fp_fps(KerMatMul_fp_fps_T *Arg)
-
-{
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ MulBias = Arg->MulBias;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormT = Norm+Arg->NormMulBias;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
-
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		for (Line=First; Line<Last; Line++) {
-			v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
-			for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			int M = MulBias[Line];
-		       	Out[(Line+OffLine)*W_Out+Col+OffCol] = Min(Max(AT_NORM(S*M, NormT), LB), UB);
-		}
-		gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulScaleSxSy_fp_fps(KerMatMul_fp_fps_T *Arg)
-
-{
-/*
-	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
-	In2 is  [InFeat][Width*Height]
-
-	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
-*/
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ MulBias = Arg->MulBias;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	int Pi = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormT = Norm+Arg->NormMulBias;
-	int Wi = Arg->W, Hi = Arg->H;
-	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int LB = Arg->LB, UB = Arg->UB;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-
-	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
-	int Oo, OffLine;
-	int At, F=0, L = W_In2;
-
-	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
-
-	At=0; OffLine=0; Oo=0;
-	if (ColFirst) OffLine=Pi; else Oo=Pi;
-	while (L>0) {
-	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
-	       	gap_waitbarrier(0);
-	       	for (Line=First; Line<Last; Line++) {
-		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-		       	int S = (Bias[Line]<<NormBias);
-		       	for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
-		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			int M = MulBias[Line];
-		       	Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(S*M, NormT), LB), UB);
-	       	}
-		int nF = F+Sx;
-		if (nF<Wi) {
-			F = nF; At += Sx; L -= Sx; Oo++;
-		} else {
-			int d = Wi-F+(Sy-1)*Wi;
-			F = 0; L -= d; At += d; Oo++;
-		}
-	       	gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulScaleSxSy_ReLUN_Vector_fp_fps(KerMatMul_fp_fps_T *Arg)
-
-{
-/*
-	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
-	In2 is  [InFeat][Width*Height]
-
-	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
-*/
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ MulBias = Arg->MulBias;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	int Pi = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int NormT = Norm+Arg->NormMulBias;
-	int Wi = Arg->W, Hi = Arg->H;
-	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-
-	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
-	int Oo, OffLine;
-	int At, F=0, L = W_In2;
-
-	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
-
-	At=0; OffLine=0; Oo=0;
-	if (ColFirst) OffLine=Pi; else Oo=Pi;
-	while (L>0) {
-	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
-	       	gap_waitbarrier(0);
-	       	for (Line=First; Line<Last; Line++) {
-		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-		       	int S = (Bias[Line]<<NormBias);
-			int UB = pUB[Line];
-		       	for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
-		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			int M = MulBias[Line];
-		       	Out[(Line+OffLine)*W_Out+Oo] = Min(Max(AT_NORM(S*M, NormT), LB), UB);
-	       	}
-		int nF = F+Sx;
-		if (nF<Wi) {
-			F = nF; At += Sx; L -= Sx; Oo++;
-		} else {
-			int d = Wi-F+(Sy-1)*Wi;
-			F = 0; L -= d; At += d; Oo++;
-		}
-	       	gap_waitbarrier(0);
-	}
-}
-
-/* Matrix multiply with h-sigmoid reduction */
-
-void KerParMatMulHsigmoid_fp(KerMatMul_fp_T *Arg)
-
-{
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
-	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
-	short int *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int NormOut = Arg->UB;
-	int ColFirst = Arg->ColFirst;
-        int C1 = 3<<NormOut;
-        int C2 = (1<<15)/6; // 1/6 in Q15
-        int UB = 6<<NormOut;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-	unsigned int Line, Col, i;
-	v2s *VBuff = (v2s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
-
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		// for (Line=0; Line<H_In1; Line++) {
-		for (Line=First; Line<Last; Line++) {
-			v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			for (i=0; i<W_In1/4; i++) {
-				S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
-				S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			Out[(Line+OffLine)*W_Out+Col+OffCol] = AT_NORM(gap_max(0, gap_min(AT_NORM(S, Norm)+C1, UB))*C2, 15);
-		}
-		gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulHsigmoidSxSy_fp(KerMatMul_fp_T *Arg)
-
-{
-/*
-	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
-	In2 is  [InFeat][Width*Height]
-
-	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
-*/
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
-	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	int Pi = Arg->OutFirstCol;
-	short int *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int NormOut = Arg->UB;
-	int Wi = Arg->W, Hi = Arg->H;
-	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int ColFirst = Arg->ColFirst;
-        int C1 = 3<<NormOut;
-        int C2 = (1<<15)/6; // 1/6 in Q15
-        int UB = 6<<NormOut;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-
-	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
-	int Oo, OffLine;
-	int At, F=0, L = W_In2;
-
-	unsigned int Line, Col, i;
-	v2s *VBuff = (v2s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
-
-	At=0; OffLine=0; Oo=0;
-	if (ColFirst) OffLine=Pi; else Oo=Pi;
-	while (L>0) {
-	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
-	       	gap_waitbarrier(0);
-	       	for (Line=First; Line<Last; Line++) {
-		       	v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-		       	for (i=0; i<W_In1/4; i++) {
-			       	S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
-			       	S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
-		       	}
-		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			Out[(Line+OffLine)*W_Out+Oo] = AT_NORM(gap_max(0, gap_min(AT_NORM(S, Norm)+C1, UB))*C2, 15);
-	       	}
-		int nF = F+Sx;
-		if (nF<Wi) {
-			F = nF; At += Sx; L -= Sx; Oo++;
-		} else {
-			int d = Wi-F+(Sy-1)*Wi;
-			F = 0; L -= d; At += d; Oo++;
-		}
-	       	gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulHsigmoid_fps(KerMatMul_fps_T *Arg)
-
-{
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int NormOut = Arg->UB;
-	int ColFirst = Arg->ColFirst;
-        int C1 = 3<<NormOut;
-        int C2 = (1<<15)/6; // 1/6 in Q15
-        int UB = 6<<NormOut;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
-
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		for (Line=First; Line<Last; Line++) {
-			v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			Out[(Line+OffLine)*W_Out+Col+OffCol] = AT_NORM(gap_max(0, gap_min(AT_NORM(S, Norm)+C1, UB))*C2, 15);
-		}
-		gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulHsigmoidSxSy_fps(KerMatMul_fps_T *Arg)
-
-{
-/*
-	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
-	In2 is  [InFeat][Width*Height]
-
-	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
-*/
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	int Pi = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int NormOut = Arg->UB;
-	int Wi = Arg->W, Hi = Arg->H;
-	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int ColFirst = Arg->ColFirst;
-        int C1 = 3<<NormOut;
-        int C2 = (1<<15)/6; // 1/6 in Q15
-        int UB = 6<<NormOut;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-
-	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
-	int Oo, OffLine;
-	int At, F=0, L = W_In2;
-
-	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
-
-	At = 0; OffLine = 0; Oo = 0;
-	if (ColFirst) OffLine = Pi; else Oo = Pi;
-
-	while (L>0) {
-	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
-	       	gap_waitbarrier(0);
-	       	for (Line=First; Line<Last; Line++) {
-		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-		       	int S = (Bias[Line]<<NormBias);
-		       	for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
-		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			Out[(Line+OffLine)*W_Out+Oo] = AT_NORM(gap_max(0, gap_min(AT_NORM(S, Norm)+C1, UB))*C2, 15);
-	       	}
-		int nF = F+Sx;
-		if (nF<Wi) {
-			F = nF; At += Sx; L -= Sx; Oo++;
-		} else {
-			int d = Wi-F+(Sy-1)*Wi;
-			F = 0; L -= d; At += d; Oo++;
-		}
-	       	gap_waitbarrier(0);
-	}
-}
-
-
-/* Matrix multiply with h-swish reduction */
-
-void KerParMatMulHswish_fp(KerMatMul_fp_T *Arg)
-
-{
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
-	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
-	short int *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int NormOut = Arg->UB;
-	int ColFirst = Arg->ColFirst;
-        int C1 = 3<<NormOut;
-        int C2 = (1<<15)/6; // 1/6 in Q15
-        int UB = 6<<NormOut;
-
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-	unsigned int Line, Col, i;
-	v2s *VBuff = (v2s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
-
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		// for (Line=0; Line<H_In1; Line++) {
-		for (Line=First; Line<Last; Line++) {
-			v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			for (i=0; i<W_In1/4; i++) {
-				S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
-				S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			S = AT_NORM(S, Norm);
-			Out[(Line+OffLine)*W_Out+Col+OffCol] = AT_NORM(AT_NORM(gap_min(gap_max(S + C1, 0), UB) * S, NormOut) * C2, 15);
-		}
-		gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulHswishSxSy_fp(KerMatMul_fp_T *Arg)
-
-{
-/*
-	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
-	In2 is  [InFeat][Width*Height]
-
-	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
-*/
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
-	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	int Pi = Arg->OutFirstCol;
-	short int *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int NormOut = Arg->UB;
-	int Wi = Arg->W, Hi = Arg->H;
-	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int ColFirst = Arg->ColFirst;
-        int C1 = 3<<NormOut;
-        int C2 = (1<<15)/6; // 1/6 in Q15
-        int UB = 6<<NormOut;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-
-	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
-	int Oo, OffLine;
-	int At, F=0, L = W_In2;
-
-	unsigned int Line, Col, i;
-	v2s *VBuff = (v2s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
-
-	At=0; OffLine=0; Oo=0;
-	if (ColFirst) OffLine=Pi; else Oo=Pi;
-	while (L>0) {
-	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
-	       	gap_waitbarrier(0);
-	       	for (Line=First; Line<Last; Line++) {
-		       	v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-		       	for (i=0; i<W_In1/4; i++) {
-			       	S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
-			       	S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
-		       	}
-		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			S = AT_NORM(S, Norm);
-			Out[(Line+OffLine)*W_Out+Oo] = AT_NORM(AT_NORM(gap_min(gap_max(S + C1, 0), UB) * S, NormOut) * C2, 15);
-	       	}
-		int nF = F+Sx;
-		if (nF<Wi) {
-			F = nF; At += Sx; L -= Sx; Oo++;
-		} else {
-			int d = Wi-F+(Sy-1)*Wi;
-			F = 0; L -= d; At += d; Oo++;
-		}
-	       	gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulHswish_fps(KerMatMul_fps_T *Arg)
-
-{
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int NormOut = Arg->UB;
-	int ColFirst = Arg->ColFirst;
-        int C1 = 3<<NormOut;
-        int C2 = (1<<15)/6; // 1/6 in Q15
-        int UB = 6<<NormOut;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
-
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		for (Line=First; Line<Last; Line++) {
-			v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			S = AT_NORM(S, Norm);
-			Out[(Line+OffLine)*W_Out+Col+OffCol] = AT_NORM(AT_NORM(gap_min(gap_max(S + C1, 0), UB) * S, NormOut) * C2, 15);
-		}
-		gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulHswishSxSy_fps(KerMatMul_fps_T *Arg)
-
-{
-/*
-	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
-	In2 is  [InFeat][Width*Height]
-
-	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
-*/
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	int Pi = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int NormOut = Arg->UB;
-	int Wi = Arg->W, Hi = Arg->H;
-	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int ColFirst = Arg->ColFirst;
-        int C1 = 3<<NormOut;
-        int C2 = (1<<15)/6; // 1/6 in Q15
-        int UB = 6<<NormOut;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-
-	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
-	int Oo, OffLine;
-	int At, F=0, L = W_In2;
-
-	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
-
-	At = 0; OffLine = 0; Oo = 0;
-	if (ColFirst) OffLine = Pi; else Oo = Pi;
-
-	while (L>0) {
-	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
-	       	gap_waitbarrier(0);
-	       	for (Line=First; Line<Last; Line++) {
-		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-		       	int S = (Bias[Line]<<NormBias);
-		       	for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
-		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			S = AT_NORM(S, Norm);
-		       	Out[(Line+OffLine)*W_Out+Oo] = AT_NORM(AT_NORM(gap_min(gap_max(S + C1, 0), UB) * S, NormOut) * C2, 15);
-	       	}
-		int nF = F+Sx;
-		if (nF<Wi) {
-			F = nF; At += Sx; L -= Sx; Oo++;
-		} else {
-			int d = Wi-F+(Sy-1)*Wi;
-			F = 0; L -= d; At += d; Oo++;
-		}
-	       	gap_waitbarrier(0);
-	}
-}
-
-
-/* Matrix multiply with Leaky ReLU reduction */
-
-void KerParMatMulLeakyrelu_fp(KerMatMul_fp_T *Arg)
-
-{
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
-	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
-	short int *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-	unsigned int Line, Col, i;
-	v2s *VBuff = (v2s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
-
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		for (Line=First; Line<Last; Line++) {
-			v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			for (i=0; i<W_In1/4; i++) {
-				S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
-				S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			{
-				int Input = AT_NORM(S, Norm);
-				int Neg = (Input<0), Pos = (Input>=0);
-				int Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT);
-				int Acc0 = gap_clip(Neg*Input1+Pos*Input, 15);
-		       		Out[(Line+OffLine)*W_Out+Col+OffCol] = Acc0;
-			}
-		}
-		gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulLeakyreluSxSy_fp(KerMatMul_fp_T *Arg)
-
-{
-/*
-	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
-	In2 is  [InFeat][Width*Height]
-
-	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
-*/
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2; 	/* H_In2 = W_In1 by construction */
-	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	int Pi = Arg->OutFirstCol;
-	short int *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int Wi = Arg->W, Hi = Arg->H;
-	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-
-	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
-	int Oo, OffLine;
-	int At, F=0, L = W_In2;
-
-	unsigned int Line, Col, i;
-	v2s *VBuff = (v2s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
-
-	At=0; OffLine=0; Oo=0;
-	if (ColFirst) OffLine=Pi; else Oo=Pi;
-	while (L>0) {
-	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
-	       	gap_waitbarrier(0);
-	       	for (Line=First; Line<Last; Line++) {
-		       	v2s *VIn1 = (v2s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-		       	for (i=0; i<W_In1/4; i++) {
-			       	S = gap_sumdotp2(VIn1[2*i  ], VBuff[2*i  ], S);
-			       	S = gap_sumdotp2(VIn1[2*i+1], VBuff[2*i+1], S);
-		       	}
-		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			{
-				int Input = AT_NORM(S, Norm);
-				int Neg = (Input<0), Pos = (Input>=0);
-				int Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT);
-				int Acc0 = gap_clip(Neg*Input1+Pos*Input, 15);
-				Out[(Line+OffLine)*W_Out+Oo] = Acc0;
-			}
-	       	}
-		int nF = F+Sx;
-		if (nF<Wi) {
-			F = nF; At += Sx; L -= Sx; Oo++;
-		} else {
-			int d = Wi-F+(Sy-1)*Wi;
-			F = 0; L -= d; At += d; Oo++;
-		}
-	       	gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulLeakyrelu_fps(KerMatMul_fps_T *Arg)
-
-{
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	unsigned int OutFirstCol = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
-	int OffLine = 0, OffCol = 0;
-
-	if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
-	for (Col=0; Col<W_In2; Col++) {
-		for (i=F;i<L; i++) BufferColIn2[i] = In2[i*W_In2+Col];
-		gap_waitbarrier(0);
-		for (Line=First; Line<Last; Line++) {
-			v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-			int S = (Bias[Line]<<NormBias);
-			for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
-			for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			{
-				int Input = AT_NORM(S, Norm);
-				int Neg = (Input<0), Pos = (Input>=0);
-				int Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT);
-				int Acc0 = gap_clip(Neg*Input1+Pos*Input, 7);
-		       		Out[(Line+OffLine)*W_Out+Col+OffCol] = Acc0;
-			}
-		}
-		gap_waitbarrier(0);
-	}
-}
-
-void KerParMatMulLeakyreluSxSy_fps(KerMatMul_fps_T *Arg)
-
-{
-/*
-	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
-	In2 is  [InFeat][Width*Height]
-
-	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
-*/
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int W_In2 = Arg->W_In2;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
-	unsigned int W_Out = Arg->W_Out;
-	int Pi = Arg->OutFirstCol;
-	signed char *BufferColIn2 = Arg->BufferColIn2;
-	unsigned int Norm = Arg->Norm;
-	unsigned int NormBias = Arg->NormBias;
-	int Wi = Arg->W, Hi = Arg->H;
-	int Sx = Arg->Sx, Sy = Arg->Sy;
-	int ColFirst = Arg->ColFirst;
-
-	unsigned int H_In2 = W_In1;
-	unsigned int H_Out = H_In1;
-
-	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
-	int Oo, OffLine;
-	int At, F=0, L = W_In2;
-
-	unsigned int Line, Col, i;
-	v4s *VBuff = (v4s *) BufferColIn2;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int ChunkCell = ChunkSize(H_In1);
-	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
-	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
-
-	At = 0; OffLine = 0; Oo = 0;
-	if (ColFirst) OffLine = Pi; else Oo = Pi;
-
-	while (L>0) {
-	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
-	       	gap_waitbarrier(0);
-	       	for (Line=First; Line<Last; Line++) {
-		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
-		       	int S = (Bias[Line]<<NormBias);
-		       	for (i=0; i<(W_In1/(4*2)); i++) {
-				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
-				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
-			}
-			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
-		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
-			{
-				int Input = AT_NORM(S, Norm);
-				int Neg = (Input<0), Pos = (Input>=0);
-				int Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT);
-				int Acc0 = gap_clip(Neg*Input1+Pos*Input, 7);
-		       		Out[(Line+OffLine)*W_Out+Oo] = Acc0;
-			}
-	       	}
-		int nF = F+Sx;
-		if (nF<Wi) {
-			F = nF; At += Sx; L -= Sx; Oo++;
-		} else {
-			int d = Wi-F+(Sy-1)*Wi;
-			F = 0; L -= d; At += d; Oo++;
-		}
-	       	gap_waitbarrier(0);
-	}
-}
-
-/* Matrix mult for small first matrix in the product, goal is to improve parallelism in this specific situation */
-
-/* In1 fits completly in shared L1, usually conv weights
-   In2 has been transposed before being used, usually conv Features
-   Parallelization scheme partition In2 along H_In2
-*/
+	/*
+	 	Column buffer has to be sized in order to be able to accomodate up to 4 columns of size H_In2
+	*/
+        signed char * __restrict__ In1 = Arg->In1;
+        unsigned int W_In1 = Arg->W_In1;
+        unsigned int H_In1 = Arg->H_In1;
+        signed char * __restrict__ In2 = Arg->In2;
+        unsigned int W_In2 = Arg->W_In2;
+        signed char * __restrict__ Bias = Arg->Bias;
+        signed char * __restrict__ Out = Arg->Out;
+        unsigned int W_Out = Arg->W_Out;
+        unsigned int OutFirstCol = Arg->OutFirstCol;
+        signed char * __restrict__ BufferColIn2 = Arg->BufferColIn2;
+        unsigned int Norm = Arg->Norm;
+        unsigned int NormBias = Arg->NormBias;
+	int ColFirst = Arg->ColFirst;
 
+        unsigned int H_In2 = W_In1;
+        unsigned int H_Out = H_In1;
+        unsigned int Line, Col, i;
+        v4s * __restrict__ VBuff0 = (v4s *) BufferColIn2;
+        v4s * __restrict__ VBuff1 = (v4s *) (BufferColIn2+H_In2);
+        v4s * __restrict__ VBuff2 = (v4s *) (BufferColIn2+2*H_In2);
+        v4s * __restrict__ VBuff3 = (v4s *) (BufferColIn2+3*H_In2);
 
-static void KerParMatMulSmallFeat_Bis_fps(KerMatMul_fps_T *Arg)
+        unsigned int CoreId = gap_coreid();
+        unsigned int ChunkCell = ChunkSize(H_In1);
+        unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+        unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
+        int OffLine = 0, OffCol = 0;
 
-{
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int H_In2 = Arg->W_In2;
-	unsigned int W_In2 = W_In1;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB, UB = Arg->UB;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int Norm = Arg->Norm;
-        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
-	// for (int l2=0; l2<H_In2; l2++) {
-	unsigned int Iter = Max(0, Last-First);
-	for (int i=0; i<Iter/4; i++) {
-		int l2 = 4*i+First;
-		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2);
-		v4s *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2);
-		v4s *pIn2_2 = (v4s *) (In2 + (l2+2)*W_In2);
-		v4s *pIn2_3 = (v4s *) (In2 + (l2+3)*W_In2);
-		for (int l1=0; l1<H_In1; l1++) {
-			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
-			int Acc0 = Bias[l1]<<NormBias, Acc1=Acc0, Acc2=Acc0, Acc3=Acc0;
-			for (int c=0; c<W_In1/4; c++) {
-				v4s C0 = pIn1[c];
-			       	v4s V0 = pIn2_0[c], V1 = pIn2_1[c], V2 = pIn2_2[c], V3 = pIn2_3[c];
-				Acc0 = gap_sumdotp4(C0, V0, Acc0);
-				Acc1 = gap_sumdotp4(C0, V1, Acc1);
-				Acc2 = gap_sumdotp4(C0, V2, Acc2);
-				Acc3 = gap_sumdotp4(C0, V3, Acc3);
-			}
-			for (int c=(W_In1/4)*4; c<W_In1; c++) {
-				int C0 = In1[l1*W_In1+c];
-				Acc0 += C0 * In2[(l2+0)*W_In2+c];
-				Acc1 += C0 * In2[(l2+1)*W_In2+c];
-				Acc2 += C0 * In2[(l2+2)*W_In2+c];
-				Acc3 += C0 * In2[(l2+3)*W_In2+c];
-			}
-			Out[l1*H_In2 + l2+0] = gap_min(UB, gap_max(AT_NORM(Acc0, Norm), LB));
-			Out[l1*H_In2 + l2+1] = gap_min(UB, gap_max(AT_NORM(Acc1, Norm), LB));
-			Out[l1*H_In2 + l2+2] = gap_min(UB, gap_max(AT_NORM(Acc2, Norm), LB));
-			Out[l1*H_In2 + l2+3] = gap_min(UB, gap_max(AT_NORM(Acc3, Norm), LB));
-		}
-	}
-	if (Iter&0x2) {
-		int l2 = (4*(Iter/4)) + First;
-		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2);
-		v4s *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2);
-		for (int l1=0; l1<H_In1; l1++) {
-			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
-			int Acc0 = Bias[l1]<<NormBias, Acc1=Acc0;
-			for (int c=0; c<W_In1/4; c++) {
-				v4s C0 = pIn1[c];
-			       	v4s V0 = pIn2_0[c], V1 = pIn2_1[c];
-				Acc0 = gap_sumdotp4(C0, V0, Acc0);
-				Acc1 = gap_sumdotp4(C0, V1, Acc1);
-			}
-			for (int c=(W_In1/4)*4; c<W_In1; c++) {
-				int C0 = In1[l1*W_In1+c];
-				Acc0 += C0 * In2[(l2+0)*W_In2+c];
-				Acc1 += C0 * In2[(l2+1)*W_In2+c];
-			}
-			Out[l1*H_In2 + l2+0] = gap_min(UB, gap_max(AT_NORM(Acc0, Norm), LB));
-			Out[l1*H_In2 + l2+1] = gap_min(UB, gap_max(AT_NORM(Acc1, Norm), LB));
+        if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
+        for (Col=0; Col<W_In2/4; Col++) {
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+4*Col+0];
+			int X1 = In2[i*W_In2+4*Col+1];
+			int X2 = In2[i*W_In2+4*Col+2];
+			int X3 = In2[i*W_In2+4*Col+3];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+4*Col+1];
+			BufferColIn2[i+2*H_In2] = X2; // In2[i*W_In2+4*Col+2];
+			BufferColIn2[i+3*H_In2] = X3; // In2[i*W_In2+4*Col+3];
 		}
-	}
-	if (Iter&0x1) {
-		int l2 = Last-1;
-		v4s *pIn2 = (v4s *) (In2 + (l2+0)*W_In2);
-		for (int l1=0; l1<H_In1; l1++) {
-			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
-			int Acc = Bias[l1]<<NormBias;
-			for (int c=0; c<W_In1/(4*2); c++) {
-				v4s C0 = pIn1[2*c], C1 = pIn1[2*c+1];
-			       	v4s V0 = pIn2[2*c], V1 = pIn2[2*c+1];
-				Acc = gap_sumdotp4(C0, V0, Acc);
-				Acc = gap_sumdotp4(C1, V1, Acc);
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0, S2=S0, S3=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                                S2 = gap_sumdotp4(V0, VBuff2[i], S2);
+                                S3 = gap_sumdotp4(V0, VBuff3[i], S3);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+				S2 += V0 * BufferColIn2[i+2*H_In2];
+				S3 += V0 * BufferColIn2[i+3*H_In2];
 			}
-			if (W_In1&0x4) Acc = gap_sumdotp4(pIn1[W_In1/4-1], pIn2[W_In1/4-1], Acc);
-			for (int c=(W_In1/4)*4; c<W_In1; c++) {
-				int C0 = In1[l1*W_In1+c];
-				Acc += C0 * In2[(l2+0)*W_In2+c];
+			{
+				int Input, Neg, Pos, Input1;
+				Input = AT_NORM(S0, Norm); Neg = (Input<0); Pos = (Input>=0); Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT); S0 = gap_clip(Neg*Input1+Pos*Input, 7);
+				Input = AT_NORM(S1, Norm); Neg = (Input<0); Pos = (Input>=0); Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT); S1 = gap_clip(Neg*Input1+Pos*Input, 7);
+				Input = AT_NORM(S2, Norm); Neg = (Input<0); Pos = (Input>=0); Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT); S2 = gap_clip(Neg*Input1+Pos*Input, 7);
+				Input = AT_NORM(S3, Norm); Neg = (Input<0); Pos = (Input>=0); Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT); S3 = gap_clip(Neg*Input1+Pos*Input, 7);
 			}
-			Out[l1*H_In2 + l2+0] = gap_min(UB, gap_max(AT_NORM(Acc, Norm), LB));
+			v4s R = gap_pack4(S0, S1, S2, S3);
+			*((v4s *) (Out+(Line+OffLine)*W_Out+4*Col+0+OffCol)) = R;
+                }
+                gap_waitbarrier(0);
+        }
+	if (W_In2&0x2) {
+		Col = W_In2/2 - 1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+2*Col+0];
+			int X1 = In2[i*W_In2+2*Col+1];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+2*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+2*Col+1];
 		}
-	}
-	gap_waitbarrier(0);
-}
-
-static void KerParMatMulSmallFeat4N_fps(KerMatMul_fps_T *Arg)
-
-{
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int H_In2 = Arg->W_In2;
-	unsigned int W_In2 = W_In1;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB, UB = Arg->UB;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int Norm = Arg->Norm;
-        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
-
-	int IterC = W_In1/4;
-	for (int l2=First; l2<Last; l2++) {
-		v4s *pIn2 = (v4s *) (In2 + l2*W_In2);
-		for (int l1=0; l1<H_In1; l1++) {
-			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
-			int Acc = Bias[l1]<<NormBias;
-			for (int c=0; c<IterC; c++) {
-				v4s V0 = pIn1[c], V1 = pIn2[c];
-				Acc = gap_sumdotp4(V0, V1, Acc);
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
 			}
-			Out[l1*H_In2 + l2] = gap_min(UB, gap_max(AT_NORM(Acc, Norm), LB));
-		}
-	}
-}
-
-static void KerParMatMulSmallFeat4NP1_fps(KerMatMul_fps_T *Arg)
-
-{
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int H_In2 = Arg->W_In2;
-	unsigned int W_In2 = W_In1;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB, UB = Arg->UB;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int Norm = Arg->Norm;
-        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
-
-	int IterC = W_In1/4;
-	int Off1 = W_In1-1;
-	for (int l2=First; l2<Last; l2++) {
-		v4s *pIn2 = (v4s *) (In2 + l2*W_In2);
-		for (int l1=0; l1<H_In1; l1++) {
-			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
-			int Acc = Bias[l1]<<NormBias;
-			for (int c=0; c<IterC; c++) {
-				v4s V0 = pIn1[c], V1 = pIn2[c];
-				Acc = gap_sumdotp4(V0, V1, Acc);
+			{
+				int Input, Neg, Pos, Input1;
+				Input = AT_NORM(S0, Norm); Neg = (Input<0); Pos = (Input>=0); Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT); S0 = gap_clip(Neg*Input1+Pos*Input, 7);
+				Input = AT_NORM(S1, Norm); Neg = (Input<0); Pos = (Input>=0); Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT); S1 = gap_clip(Neg*Input1+Pos*Input, 7);
 			}
-			char *p1 = In1+l1*W_In1+Off1, *p2 = In2+l2*W_In2+Off1;
-			Acc += *p1-- * *p2--;
-			Out[l1*H_In2 + l2] = gap_min(UB, gap_max(AT_NORM(Acc, Norm), LB));
-		}
+			Out[(Line+OffLine)*W_Out+2*Col+0+OffCol] = S0;
+			Out[(Line+OffLine)*W_Out+2*Col+1+OffCol] = S1;
+                }
+                gap_waitbarrier(0);
 	}
-}
-
-static void KerParMatMulSmallFeat4NP2_fps(KerMatMul_fps_T *Arg)
-
-{
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int H_In2 = Arg->W_In2;
-	unsigned int W_In2 = W_In1;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB, UB = Arg->UB;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int Norm = Arg->Norm;
-        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
-
-	int IterC = W_In1/4;
-	int Off1 = W_In1-1;
-	for (int l2=First; l2<Last; l2++) {
-		v4s *pIn2 = (v4s *) (In2 + l2*W_In2);
-		for (int l1=0; l1<H_In1; l1++) {
-			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
-			int Acc = Bias[l1]<<NormBias;
-			for (int c=0; c<IterC; c++) {
-				v4s V0 = pIn1[c], V1 = pIn2[c];
-				Acc = gap_sumdotp4(V0, V1, Acc);
-			}
-			char *p1 = In1+l1*W_In1+Off1, *p2 = In2+l2*W_In2+Off1;
-			Acc += *p1-- * *p2--;
-			Acc += *p1-- * *p2--;
-			Out[l1*H_In2 + l2] = gap_min(UB, gap_max(AT_NORM(Acc, Norm), LB));
+	if (W_In2&0x1) {
+		Col = W_In2-1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+1*Col+0];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
 		}
-	}
-}
-
-static void KerParMatMulSmallFeat4NP3_fps(KerMatMul_fps_T *Arg)
-
-{
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int H_In2 = Arg->W_In2;
-	unsigned int W_In2 = W_In1;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB, UB = Arg->UB;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int Norm = Arg->Norm;
-        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
-
-	int IterC = W_In1/4;
-	int Off1 = W_In1-1;
-	for (int l2=First; l2<Last; l2++) {
-		v4s *pIn2 = (v4s *) (In2 + l2*W_In2);
-		for (int l1=0; l1<H_In1; l1++) {
-			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
-			int Acc = Bias[l1]<<NormBias;
-			for (int c=0; c<IterC; c++) {
-				v4s V0 = pIn1[c], V1 = pIn2[c];
-				Acc = gap_sumdotp4(V0, V1, Acc);
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias);
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
 			}
-			char *p1 = In1+l1*W_In1+Off1, *p2 = In2+l2*W_In2+Off1;
-			Acc += *p1-- * *p2--;
-			Acc += *p1-- * *p2--;
-			Acc += *p1-- * *p2--;
-			Out[l1*H_In2 + l2] = gap_min(UB, gap_max(AT_NORM(Acc, Norm), LB));
-		}
+			{
+				int Input, Neg, Pos, Input1;
+				Input = AT_NORM(S0, Norm); Neg = (Input<0); Pos = (Input>=0); Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT); S0 = gap_clip(Neg*Input1+Pos*Input, 7);
+			}
+			Out[(Line+OffLine)*W_Out+1*Col+0+OffCol] = S0;
+                }
+                gap_waitbarrier(0);
 	}
 }
 
-void KerParMatMulSmallFeat_fps(KerMatMul_fps_T *Arg)
+void KerParMatMulLeakyreluSxSy_fps(KerMatMul_fps_T *Arg)
 
 {
-	int OPT = 1;
-
-	if (OPT) KerParMatMulSmallFeat_Bis_fps(Arg);
-	else {
-	int Sel = Arg->W_In1&0x3;
-	switch (Sel) {
-		case 0:  KerParMatMulSmallFeat4N_fps(Arg); break;
-		case 1:  KerParMatMulSmallFeat4NP1_fps(Arg); break;
-		case 2:  KerParMatMulSmallFeat4NP2_fps(Arg); break;
-		default: KerParMatMulSmallFeat4NP3_fps(Arg); break;
-	}
-	gap_waitbarrier(0);
-	}
-}
-
-static void KerParMatMulSmallFeat4N_ReLUN_Vector_fps(KerMatMul_fps_T *Arg)
+/*
+	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
+	In2 is  [InFeat][Width*Height]
 
-{
+	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
+*/
 	signed char * __restrict__ In1 = Arg->In1;
 	unsigned int W_In1 = Arg->W_In1;
 	unsigned int H_In1 = Arg->H_In1;
 	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int H_In2 = Arg->W_In2;
-	unsigned int W_In2 = W_In1;
+	unsigned int W_In2 = Arg->W_In2;
 	signed char * __restrict__ Bias = Arg->Bias;
 	signed char * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	unsigned int NormBias = Arg->NormBias;
+	unsigned int W_Out = Arg->W_Out;
+	int Pi = Arg->OutFirstCol;
+	signed char *BufferColIn2 = Arg->BufferColIn2;
 	unsigned int Norm = Arg->Norm;
-        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
+	unsigned int NormBias = Arg->NormBias;
+	int Wi = Arg->W, Hi = Arg->H;
+	int Sx = Arg->Sx, Sy = Arg->Sy;
+	int ColFirst = Arg->ColFirst;
 
-	int IterC = W_In1/4;
-	for (int l2=First; l2<Last; l2++) {
-		v4s *pIn2 = (v4s *) (In2 + l2*W_In2);
-		for (int l1=0; l1<H_In1; l1++) {
-			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
-			int Acc = Bias[l1]<<NormBias;
-			int UB = pUB[l1];
-			for (int c=0; c<IterC; c++) {
-				v4s V0 = pIn1[c], V1 = pIn2[c];
-				Acc = gap_sumdotp4(V0, V1, Acc);
+	unsigned int H_In2 = W_In1;
+	unsigned int H_Out = H_In1;
+
+	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
+	int Oo, OffLine;
+	int At, F=0, L = W_In2;
+
+	unsigned int Line, Col, i;
+	v4s *VBuff = (v4s *) BufferColIn2;
+
+	unsigned int CoreId = gap_coreid();
+	unsigned int ChunkCell = ChunkSize(H_In1);
+	unsigned int First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
+
+	At = 0; OffLine = 0; Oo = 0;
+	if (ColFirst) OffLine = Pi; else Oo = Pi;
+
+	while (L>0) {
+	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
+	       	gap_waitbarrier(0);
+	       	for (Line=First; Line<Last; Line++) {
+		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+		       	int S = (Bias[Line]<<NormBias);
+		       	for (i=0; i<(W_In1/(4*2)); i++) {
+				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
+				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
 			}
-			Out[l1*H_In2 + l2] = gap_min(UB, gap_max(AT_NORM(Acc, Norm), LB));
+			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
+		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
+			{
+				int Input = AT_NORM(S, Norm);
+				int Neg = (Input<0), Pos = (Input>=0);
+				int Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT);
+				int Acc0 = gap_clip(Neg*Input1+Pos*Input, 7);
+		       		Out[(Line+OffLine)*W_Out+Oo] = Acc0;
+			}
+	       	}
+		int nF = F+Sx;
+		if (nF<Wi) {
+			F = nF; At += Sx; L -= Sx; Oo++;
+		} else {
+			int d = Wi-F+(Sy-1)*Wi;
+			F = 0; L -= d; At += d; Oo++;
 		}
+	       	gap_waitbarrier(0);
 	}
 }
 
-static void KerParMatMulSmallFeat4NP1_ReLUN_Vector_fps(KerMatMul_fps_T *Arg)
+/* Matrix mult for small first matrix in the product, goal is to improve parallelism in this specific situation */
+
+/* In1 fits completly in shared L1, usually conv weights
+   In2 has been transposed before being used, usually conv Features
+   Parallelization scheme partition In2 along H_In2
+*/
+
+void KerParMatMulSmallFeat_fps(KerMatMul_fps_T *Arg)
 
 {
 	signed char * __restrict__ In1 = Arg->In1;
@@ -4391,116 +3259,82 @@ static void KerParMatMulSmallFeat4NP1_ReLUN_Vector_fps(KerMatMul_fps_T *Arg)
 	unsigned int W_In2 = W_In1;
 	signed char * __restrict__ Bias = Arg->Bias;
 	signed char * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
+	int LB = Arg->LB, UB = Arg->UB;
 	unsigned int NormBias = Arg->NormBias;
 	unsigned int Norm = Arg->Norm;
         unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
+	unsigned int Iter = Max(0, Last-First);
 
-	int IterC = W_In1/4;
-	int Off1 = W_In1-1;
-	for (int l2=First; l2<Last; l2++) {
-		v4s *pIn2 = (v4s *) (In2 + l2*W_In2);
+	for (int i=0; i<Iter/4; i++) {
+		int l2 = 4*i+First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2), *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2), *pIn2_2 = (v4s *) (In2 + (l2+2)*W_In2), *pIn2_3 = (v4s *) (In2 + (l2+3)*W_In2);
 		for (int l1=0; l1<H_In1; l1++) {
 			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
-			int Acc = Bias[l1]<<NormBias;
-			int UB = pUB[l1];
-			for (int c=0; c<IterC; c++) {
-				v4s V0 = pIn1[c], V1 = pIn2[c];
-				Acc = gap_sumdotp4(V0, V1, Acc);
+			int S0 = Bias[l1]<<NormBias, S1=S0, S2=S0, S3=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c];
+			       	v4s V0 = pIn2_0[c], V1 = pIn2_1[c], V2 = pIn2_2[c], V3 = pIn2_3[c];
+				S0 = gap_sumdotp4(C0, V0, S0);
+				S1 = gap_sumdotp4(C0, V1, S1);
+				S2 = gap_sumdotp4(C0, V2, S2);
+				S3 = gap_sumdotp4(C0, V3, S3);
 			}
-			char *p1 = In1+l1*W_In1+Off1, *p2 = In2+l2*W_In2+Off1;
-			Acc += *p1-- * *p2--;
-			Out[l1*H_In2 + l2] = gap_min(UB, gap_max(AT_NORM(Acc, Norm), LB));
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+				S1 += C0 * In2[(l2+1)*W_In2+c];
+				S2 += C0 * In2[(l2+2)*W_In2+c];
+				S3 += C0 * In2[(l2+3)*W_In2+c];
+			}
+			v4s R = gap_pack4(Min(Max(AT_NORM(S0, Norm), LB), UB), 
+					  Min(Max(AT_NORM(S1, Norm), LB), UB),
+					  Min(Max(AT_NORM(S2, Norm), LB), UB),
+					  Min(Max(AT_NORM(S3, Norm), LB), UB));
+			*((v4s *) (Out+l1*H_In2 + l2)) = R;
 		}
 	}
-}
-
-static void KerParMatMulSmallFeat4NP2_ReLUN_Vector_fps(KerMatMul_fps_T *Arg)
-
-{
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int H_In2 = Arg->W_In2;
-	unsigned int W_In2 = W_In1;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int Norm = Arg->Norm;
-        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
-
-	int IterC = W_In1/4;
-	int Off1 = W_In1-1;
-	for (int l2=First; l2<Last; l2++) {
-		v4s *pIn2 = (v4s *) (In2 + l2*W_In2);
+	if (Iter&0x2) {
+		int l2 = (4*(Iter/4)) + First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2);
+		v4s *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2);
 		for (int l1=0; l1<H_In1; l1++) {
 			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
-			int Acc = Bias[l1]<<NormBias;
-			int UB = pUB[l1];
-			for (int c=0; c<IterC; c++) {
-				v4s V0 = pIn1[c], V1 = pIn2[c];
-				Acc = gap_sumdotp4(V0, V1, Acc);
+			int S0 = Bias[l1]<<NormBias, S1=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c];
+			       	v4s V0 = pIn2_0[c], V1 = pIn2_1[c];
+				S0 = gap_sumdotp4(C0, V0, S0);
+				S1 = gap_sumdotp4(C0, V1, S1);
 			}
-			char *p1 = In1+l1*W_In1+Off1, *p2 = In2+l2*W_In2+Off1;
-			Acc += *p1-- * *p2--;
-			Acc += *p1-- * *p2--;
-			Out[l1*H_In2 + l2] = gap_min(UB, gap_max(AT_NORM(Acc, Norm), LB));
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+				S1 += C0 * In2[(l2+1)*W_In2+c];
+			}
+			Out[l1*H_In2 + l2+0] = gap_min(UB, gap_max(AT_NORM(S0, Norm), LB));
+			Out[l1*H_In2 + l2+1] = gap_min(UB, gap_max(AT_NORM(S1, Norm), LB));
 		}
 	}
-}
-
-static void KerParMatMulSmallFeat4NP3_ReLUN_Vector_fps(KerMatMul_fps_T *Arg)
-
-{
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int H_In2 = Arg->W_In2;
-	unsigned int W_In2 = W_In1;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int Norm = Arg->Norm;
-        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
-
-	int IterC = W_In1/4;
-	int Off1 = W_In1-1;
-	for (int l2=First; l2<Last; l2++) {
-		v4s *pIn2 = (v4s *) (In2 + l2*W_In2);
+	if (Iter&0x1) {
+		int l2 = Last-1;
+		v4s *pIn2 = (v4s *) (In2 + (l2+0)*W_In2);
 		for (int l1=0; l1<H_In1; l1++) {
 			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
-			int Acc = Bias[l1]<<NormBias;
-			int UB = pUB[l1];
-			for (int c=0; c<IterC; c++) {
-				v4s V0 = pIn1[c], V1 = pIn2[c];
-				Acc = gap_sumdotp4(V0, V1, Acc);
+			int S0 = Bias[l1]<<NormBias;
+			for (int c=0; c<W_In1/(4*2); c++) {
+				v4s C0 = pIn1[2*c], C1 = pIn1[2*c+1];
+			       	v4s V0 = pIn2[2*c], V1 = pIn2[2*c+1];
+				S0 = gap_sumdotp4(C0, V0, S0);
+				S0 = gap_sumdotp4(C1, V1, S0);
 			}
-			char *p1 = In1+l1*W_In1+Off1, *p2 = In2+l2*W_In2+Off1;
-			Acc += *p1-- * *p2--;
-			Acc += *p1-- * *p2--;
-			Acc += *p1-- * *p2--;
-			Out[l1*H_In2 + l2] = gap_min(UB, gap_max(AT_NORM(Acc, Norm), LB));
+			if (W_In1&0x4) S0 = gap_sumdotp4(pIn1[W_In1/4-1], pIn2[W_In1/4-1], S0);
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+			}
+			Out[l1*H_In2 + l2+0] = gap_min(UB, gap_max(AT_NORM(S0, Norm), LB));
 		}
 	}
-}
-
-void KerParMatMulSmallFeat_ReLUN_Vector_fps(KerMatMul_fps_T *Arg)
-
-{
-	int Sel = Arg->W_In1&0x3;
-	switch (Sel) {
-		case 0:  KerParMatMulSmallFeat4N_ReLUN_Vector_fps(Arg); break;
-		case 1:  KerParMatMulSmallFeat4NP1_ReLUN_Vector_fps(Arg); break;
-		case 2:  KerParMatMulSmallFeat4NP2_ReLUN_Vector_fps(Arg); break;
-		default: KerParMatMulSmallFeat4NP3_ReLUN_Vector_fps(Arg); break;
-	}
 	gap_waitbarrier(0);
 }
 
@@ -4524,31 +3358,79 @@ void KerParMatMulHswishSmallFeat_fps(KerMatMul_fps_T *Arg)
 	int UB = 6<<NormOut;
 
         unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
+	unsigned int Iter = Max(0, Last-First);
 
-	int IterC = W_In1/4;
-	int Off1 = W_In1-1;
-	int Rem1 = W_In1&0x3;
-	for (int l2=First; l2<Last; l2++) {
-		v4s *pIn2 = (v4s *) (In2 + l2*W_In2);
+	for (int i=0; i<Iter/4; i++) {
+		int l2 = 4*i+First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2), *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2), *pIn2_2 = (v4s *) (In2 + (l2+2)*W_In2), *pIn2_3 = (v4s *) (In2 + (l2+3)*W_In2);
 		for (int l1=0; l1<H_In1; l1++) {
 			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
-			int Acc = Bias[l1]<<NormBias;
-			for (int c=0; c<IterC; c++) {
-				v4s V0 = pIn1[c], V1 = pIn2[c];
-				Acc = gap_sumdotp4(V0, V1, Acc);
+			int S0 = Bias[l1]<<NormBias, S1=S0, S2=S0, S3=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c];
+			       	v4s V0 = pIn2_0[c], V1 = pIn2_1[c], V2 = pIn2_2[c], V3 = pIn2_3[c];
+				S0 = gap_sumdotp4(C0, V0, S0);
+				S1 = gap_sumdotp4(C0, V1, S1);
+				S2 = gap_sumdotp4(C0, V2, S2);
+				S3 = gap_sumdotp4(C0, V3, S3);
 			}
-			char *p1 = In1+l1*W_In1+Off1, *p2 = In2+l2*W_In2+Off1;
-			if (Rem1) {
-				Acc += *p1-- * *p2--;
-				if (Rem1>1) {
-					Acc += *p1-- * *p2--;
-					if (Rem1==3) Acc += *p1-- * *p2--;
-				}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+				S1 += C0 * In2[(l2+1)*W_In2+c];
+				S2 += C0 * In2[(l2+2)*W_In2+c];
+				S3 += C0 * In2[(l2+3)*W_In2+c];
 			}
-			Acc = AT_NORM(Acc, Norm);
-			Out[l1*H_In2 + l2] = AT_NORM(AT_NORM(gap_min(gap_max(Acc + C1, 0), UB) * Acc, NormOut) * C2, 15);
+			v4s R = gap_pack4(AT_NORM(AT_NORM(gap_min(gap_max(S0 + C1, 0), UB) * S0, NormOut) * C2, 15),
+					  AT_NORM(AT_NORM(gap_min(gap_max(S1 + C1, 0), UB) * S1, NormOut) * C2, 15),
+					  AT_NORM(AT_NORM(gap_min(gap_max(S2 + C1, 0), UB) * S2, NormOut) * C2, 15),
+					  AT_NORM(AT_NORM(gap_min(gap_max(S3 + C1, 0), UB) * S3, NormOut) * C2, 15));
+			*((v4s *) (Out+l1*H_In2 + l2)) = R;
+		}
+	}
+	if (Iter&0x2) {
+		int l2 = (4*(Iter/4)) + First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2);
+		v4s *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c];
+			       	v4s V0 = pIn2_0[c], V1 = pIn2_1[c];
+				S0 = gap_sumdotp4(C0, V0, S0);
+				S1 = gap_sumdotp4(C0, V1, S1);
+			}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+				S1 += C0 * In2[(l2+1)*W_In2+c];
+			}
+			Out[l1*H_In2 + l2+0] = AT_NORM(AT_NORM(gap_min(gap_max(S0 + C1, 0), UB) * S0, NormOut) * C2, 15);
+			Out[l1*H_In2 + l2+1] = AT_NORM(AT_NORM(gap_min(gap_max(S1 + C1, 0), UB) * S1, NormOut) * C2, 15);
+		}
+	}
+	if (Iter&0x1) {
+		int l2 = Last-1;
+		v4s *pIn2 = (v4s *) (In2 + (l2+0)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias;
+			for (int c=0; c<W_In1/(4*2); c++) {
+				v4s C0 = pIn1[2*c], C1 = pIn1[2*c+1];
+			       	v4s V0 = pIn2[2*c], V1 = pIn2[2*c+1];
+				S0 = gap_sumdotp4(C0, V0, S0);
+				S0 = gap_sumdotp4(C1, V1, S0);
+			}
+			if (W_In1&0x4) S0 = gap_sumdotp4(pIn1[W_In1/4-1], pIn2[W_In1/4-1], S0);
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+			}
+			Out[l1*H_In2 + l2+0] = AT_NORM(AT_NORM(gap_min(gap_max(S0 + C1, 0), UB) * S0, NormOut) * C2, 15);
 		}
 	}
+	gap_waitbarrier(0);
 }
 
 void KerParMatMulHsigmoidSmallFeat_fps(KerMatMul_fps_T *Arg)
@@ -4571,31 +3453,79 @@ void KerParMatMulHsigmoidSmallFeat_fps(KerMatMul_fps_T *Arg)
 	int UB = 6<<NormOut;
 
         unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
+	unsigned int Iter = Max(0, Last-First);
 
-	int IterC = W_In1/4;
-	int Off1 = W_In1-1;
-	int Rem1 = W_In1&0x3;
-	for (int l2=First; l2<Last; l2++) {
-		v4s *pIn2 = (v4s *) (In2 + l2*W_In2);
+	for (int i=0; i<Iter/4; i++) {
+		int l2 = 4*i+First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2), *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2), *pIn2_2 = (v4s *) (In2 + (l2+2)*W_In2), *pIn2_3 = (v4s *) (In2 + (l2+3)*W_In2);
 		for (int l1=0; l1<H_In1; l1++) {
 			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
-			int Acc = Bias[l1]<<NormBias;
-			for (int c=0; c<IterC; c++) {
-				v4s V0 = pIn1[c], V1 = pIn2[c];
-				Acc = gap_sumdotp4(V0, V1, Acc);
+			int S0 = Bias[l1]<<NormBias, S1=S0, S2=S0, S3=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c];
+			       	v4s V0 = pIn2_0[c], V1 = pIn2_1[c], V2 = pIn2_2[c], V3 = pIn2_3[c];
+				S0 = gap_sumdotp4(C0, V0, S0);
+				S1 = gap_sumdotp4(C0, V1, S1);
+				S2 = gap_sumdotp4(C0, V2, S2);
+				S3 = gap_sumdotp4(C0, V3, S3);
+			}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+				S1 += C0 * In2[(l2+1)*W_In2+c];
+				S2 += C0 * In2[(l2+2)*W_In2+c];
+				S3 += C0 * In2[(l2+3)*W_In2+c];
 			}
-			char *p1 = In1+l1*W_In1+Off1, *p2 = In2+l2*W_In2+Off1;
-			if (Rem1) {
-				Acc += *p1-- * *p2--;
-				if (Rem1>1) {
-					Acc += *p1-- * *p2--;
-					if (Rem1==3) Acc += *p1-- * *p2--;
-				}
+			v4s R = gap_pack4(AT_NORM(gap_max(0, gap_min(AT_NORM(S0, Norm)+C1, UB))*C2, 15),
+					  AT_NORM(gap_max(0, gap_min(AT_NORM(S1, Norm)+C1, UB))*C2, 15),
+					  AT_NORM(gap_max(0, gap_min(AT_NORM(S2, Norm)+C1, UB))*C2, 15),
+					  AT_NORM(gap_max(0, gap_min(AT_NORM(S3, Norm)+C1, UB))*C2, 15));
+			*((v4s *) (Out+l1*H_In2 + l2)) = R;
+		}
+	}
+	if (Iter&0x2) {
+		int l2 = (4*(Iter/4)) + First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2);
+		v4s *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c];
+			       	v4s V0 = pIn2_0[c], V1 = pIn2_1[c];
+				S0 = gap_sumdotp4(C0, V0, S0);
+				S1 = gap_sumdotp4(C0, V1, S1);
 			}
-			Acc = gap_max(0, gap_min(AT_NORM(Acc, Norm)+C1, UB));
-			Out[l1*H_In2 + l2] = AT_NORM(Acc*C2, 15);
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+				S1 += C0 * In2[(l2+1)*W_In2+c];
+			}
+			Out[l1*H_In2 + l2+0] = AT_NORM(gap_max(0, gap_min(AT_NORM(S0, Norm)+C1, UB))*C2, 15);
+			Out[l1*H_In2 + l2+1] = AT_NORM(gap_max(0, gap_min(AT_NORM(S1, Norm)+C1, UB))*C2, 15);
+		}
+	}
+	if (Iter&0x1) {
+		int l2 = Last-1;
+		v4s *pIn2 = (v4s *) (In2 + (l2+0)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias;
+			for (int c=0; c<W_In1/(4*2); c++) {
+				v4s C0 = pIn1[2*c], C1 = pIn1[2*c+1];
+			       	v4s V0 = pIn2[2*c], V1 = pIn2[2*c+1];
+				S0 = gap_sumdotp4(C0, V0, S0);
+				S0 = gap_sumdotp4(C1, V1, S0);
+			}
+			if (W_In1&0x4) S0 = gap_sumdotp4(pIn1[W_In1/4-1], pIn2[W_In1/4-1], S0);
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+			}
+			Out[l1*H_In2 + l2+0] = AT_NORM(gap_max(0, gap_min(AT_NORM(S0, Norm)+C1, UB))*C2, 15);
 		}
 	}
+	gap_waitbarrier(0);
 }
 
 void KerParMatMulLeakyreluSmallFeat_fps(KerMatMul_fps_T *Arg)
@@ -4609,37 +3539,97 @@ void KerParMatMulLeakyreluSmallFeat_fps(KerMatMul_fps_T *Arg)
 	unsigned int W_In2 = W_In1;
 	signed char * __restrict__ Bias = Arg->Bias;
 	signed char * __restrict__ Out = Arg->Out;
+	int LB = Arg->LB;
 	unsigned int NormBias = Arg->NormBias;
 	unsigned int Norm = Arg->Norm;
 
         unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
+	unsigned int Iter = Max(0, Last-First);
 
-	int IterC = W_In1/4;
-	int Off1 = W_In1-1;
-	int Rem1 = W_In1&0x3;
-	for (int l2=First; l2<Last; l2++) {
-		v4s *pIn2 = (v4s *) (In2 + l2*W_In2);
+	for (int i=0; i<Iter/4; i++) {
+		int l2 = 4*i+First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2), *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2), *pIn2_2 = (v4s *) (In2 + (l2+2)*W_In2), *pIn2_3 = (v4s *) (In2 + (l2+3)*W_In2);
 		for (int l1=0; l1<H_In1; l1++) {
 			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
-			int Acc = Bias[l1]<<NormBias;
-			for (int c=0; c<IterC; c++) {
-				v4s V0 = pIn1[c], V1 = pIn2[c];
-				Acc = gap_sumdotp4(V0, V1, Acc);
+			int S0 = Bias[l1]<<NormBias, S1=S0, S2=S0, S3=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c];
+			       	v4s V0 = pIn2_0[c], V1 = pIn2_1[c], V2 = pIn2_2[c], V3 = pIn2_3[c];
+				S0 = gap_sumdotp4(C0, V0, S0);
+				S1 = gap_sumdotp4(C0, V1, S1);
+				S2 = gap_sumdotp4(C0, V2, S2);
+				S3 = gap_sumdotp4(C0, V3, S3);
 			}
-			char *p1 = In1+l1*W_In1+Off1, *p2 = In2+l2*W_In2+Off1;
-			if (Rem1) {
-				Acc += *p1-- * *p2--;
-				if (Rem1>1) {
-					Acc += *p1-- * *p2--;
-					if (Rem1==3) Acc += *p1-- * *p2--;
-				}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+				S1 += C0 * In2[(l2+1)*W_In2+c];
+				S2 += C0 * In2[(l2+2)*W_In2+c];
+				S3 += C0 * In2[(l2+3)*W_In2+c];
 			}
-			int Input = AT_NORM(Acc, Norm);
-			int Neg = (Input<0), Pos = (Input>=0);
-			int Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT);
-			Out[l1*H_In2 + l2] = gap_clip(Neg*Input1+Pos*Input, 15);
+			{
+				int Input, Neg, Pos, Input1;
+				Input = AT_NORM(S0, Norm); Neg = (Input<0); Pos = (Input>=0); Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT); S0 = gap_clip(Neg*Input1+Pos*Input, 7);
+				Input = AT_NORM(S1, Norm); Neg = (Input<0); Pos = (Input>=0); Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT); S1 = gap_clip(Neg*Input1+Pos*Input, 7);
+				Input = AT_NORM(S2, Norm); Neg = (Input<0); Pos = (Input>=0); Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT); S2 = gap_clip(Neg*Input1+Pos*Input, 7);
+				Input = AT_NORM(S3, Norm); Neg = (Input<0); Pos = (Input>=0); Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT); S3 = gap_clip(Neg*Input1+Pos*Input, 7);
+			}
+			v4s R = gap_pack4(S0, S1, S2, S3);
+			*((v4s *) (Out+l1*H_In2 + l2)) = R;
+		}
+	}
+	if (Iter&0x2) {
+		int l2 = (4*(Iter/4)) + First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2);
+		v4s *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c];
+			       	v4s V0 = pIn2_0[c], V1 = pIn2_1[c];
+				S0 = gap_sumdotp4(C0, V0, S0);
+				S1 = gap_sumdotp4(C0, V1, S1);
+			}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+				S1 += C0 * In2[(l2+1)*W_In2+c];
+			}
+			{
+				int Input, Neg, Pos, Input1;
+				Input = AT_NORM(S0, Norm); Neg = (Input<0); Pos = (Input>=0); Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT); S0 = gap_clip(Neg*Input1+Pos*Input, 7);
+				Input = AT_NORM(S1, Norm); Neg = (Input<0); Pos = (Input>=0); Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT); S1 = gap_clip(Neg*Input1+Pos*Input, 7);
+			}
+			Out[l1*H_In2 + l2+0] = S0;
+			Out[l1*H_In2 + l2+1] = S1;
+		}
+	}
+	if (Iter&0x1) {
+		int l2 = Last-1;
+		v4s *pIn2 = (v4s *) (In2 + (l2+0)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias;
+			for (int c=0; c<W_In1/(4*2); c++) {
+				v4s C0 = pIn1[2*c], C1 = pIn1[2*c+1];
+			       	v4s V0 = pIn2[2*c], V1 = pIn2[2*c+1];
+				S0 = gap_sumdotp4(C0, V0, S0);
+				S0 = gap_sumdotp4(C1, V1, S0);
+			}
+			if (W_In1&0x4) S0 = gap_sumdotp4(pIn1[W_In1/4-1], pIn2[W_In1/4-1], S0);
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+			}
+			{
+				int Input, Neg, Pos, Input1;
+				Input = AT_NORM(S0, Norm); Neg = (Input<0); Pos = (Input>=0); Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT); S0 = gap_clip(Neg*Input1+Pos*Input, 7);
+			}
+			Out[l1*H_In2 + l2+0] = S0;
 		}
 	}
+	gap_waitbarrier(0);
 }
 
 void KerParMatMulScaleScalarSmallFeat_fps(KerMatMul_fps_T *Arg)
@@ -4658,119 +3648,82 @@ void KerParMatMulScaleScalarSmallFeat_fps(KerMatMul_fps_T *Arg)
 	unsigned int NormBias = Arg->NormBias;
 	unsigned int Norm = Arg->Norm+Arg->NormMulBias;
         unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
+	unsigned int Iter = Max(0, Last-First);
 
-	int IterC = W_In1/4;
-	int Off1 = W_In1-1;
-	int Rem1 = W_In1&0x3;
-	for (int l2=First; l2<Last; l2++) {
-		v4s *pIn2 = (v4s *) (In2 + l2*W_In2);
+	for (int i=0; i<Iter/4; i++) {
+		int l2 = 4*i+First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2), *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2), *pIn2_2 = (v4s *) (In2 + (l2+2)*W_In2), *pIn2_3 = (v4s *) (In2 + (l2+3)*W_In2);
 		for (int l1=0; l1<H_In1; l1++) {
 			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
-			int Acc = Bias[l1]<<NormBias;
-			for (int c=0; c<IterC; c++) {
-				v4s V0 = pIn1[c], V1 = pIn2[c];
-				Acc = gap_sumdotp4(V0, V1, Acc);
+			int S0 = Bias[l1]<<NormBias, S1=S0, S2=S0, S3=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c];
+			       	v4s V0 = pIn2_0[c], V1 = pIn2_1[c], V2 = pIn2_2[c], V3 = pIn2_3[c];
+				S0 = gap_sumdotp4(C0, V0, S0);
+				S1 = gap_sumdotp4(C0, V1, S1);
+				S2 = gap_sumdotp4(C0, V2, S2);
+				S3 = gap_sumdotp4(C0, V3, S3);
 			}
-			char *p1 = In1+l1*W_In1+Off1, *p2 = In2+l2*W_In2+Off1;
-			if (Rem1) {
-				Acc += *p1-- * *p2--;
-				if (Rem1>1) {
-					Acc += *p1-- * *p2--;
-					if (Rem1==3) Acc += *p1-- * *p2--;
-				}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+				S1 += C0 * In2[(l2+1)*W_In2+c];
+				S2 += C0 * In2[(l2+2)*W_In2+c];
+				S3 += C0 * In2[(l2+3)*W_In2+c];
 			}
-			Out[l1*H_In2 + l2] = gap_min(UB, gap_max(AT_NORM(Acc*M, Norm), LB));
+			v4s R = gap_pack4(Min(Max(AT_NORM(S0*M, Norm), LB), UB), 
+					  Min(Max(AT_NORM(S1*M, Norm), LB), UB),
+					  Min(Max(AT_NORM(S2*M, Norm), LB), UB),
+					  Min(Max(AT_NORM(S3*M, Norm), LB), UB));
+			*((v4s *) (Out+l1*H_In2 + l2)) = R;
 		}
 	}
-}
-
-void KerParMatMulScaleScalarSmallFeat_ReLUN_Vector_fps(KerMatMul_fps_T *Arg)
-
-{
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int H_In2 = Arg->W_In2;
-	unsigned int W_In2 = W_In1;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
-	int M = *Arg->MulBias;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int Norm = Arg->Norm+Arg->NormMulBias;
-        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
-
-	int IterC = W_In1/4;
-	int Off1 = W_In1-1;
-	int Rem1 = W_In1&0x3;
-	for (int l2=First; l2<Last; l2++) {
-		v4s *pIn2 = (v4s *) (In2 + l2*W_In2);
+	if (Iter&0x2) {
+		int l2 = (4*(Iter/4)) + First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2);
+		v4s *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2);
 		for (int l1=0; l1<H_In1; l1++) {
 			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
-			int Acc = Bias[l1]<<NormBias;
-			int UB = pUB[l1];
-			for (int c=0; c<IterC; c++) {
-				v4s V0 = pIn1[c], V1 = pIn2[c];
-				Acc = gap_sumdotp4(V0, V1, Acc);
+			int S0 = Bias[l1]<<NormBias, S1=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c];
+			       	v4s V0 = pIn2_0[c], V1 = pIn2_1[c];
+				S0 = gap_sumdotp4(C0, V0, S0);
+				S1 = gap_sumdotp4(C0, V1, S1);
 			}
-			char *p1 = In1+l1*W_In1+Off1, *p2 = In2+l2*W_In2+Off1;
-			if (Rem1) {
-				Acc += *p1-- * *p2--;
-				if (Rem1>1) {
-					Acc += *p1-- * *p2--;
-					if (Rem1==3) Acc += *p1-- * *p2--;
-				}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+				S1 += C0 * In2[(l2+1)*W_In2+c];
 			}
-			Out[l1*H_In2 + l2] = gap_min(UB, gap_max(AT_NORM(Acc*M, Norm), LB));
+			Out[l1*H_In2 + l2+0] = gap_min(UB, gap_max(AT_NORM(S0*M, Norm), LB));
+			Out[l1*H_In2 + l2+1] = gap_min(UB, gap_max(AT_NORM(S1*M, Norm), LB));
 		}
 	}
-}
-
-void KerParMatMulScaleSmallFeat_fps(KerMatMul_fps_T *Arg)
-
-{
-	signed char * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	signed char * __restrict__ In2 = Arg->In2;
-	unsigned int H_In2 = Arg->W_In2;
-	unsigned int W_In2 = W_In1;
-	signed char * __restrict__ Bias = Arg->Bias;
-	signed char * __restrict__ Out = Arg->Out;
-	signed char * __restrict__ MulBias = Arg->MulBias;
-	int LB = Arg->LB, UB = Arg->UB;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int Norm = Arg->Norm+Arg->NormMulBias;
-        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
-
-	int IterC = W_In1/4;
-	int Off1 = W_In1-1;
-	int Rem1 = W_In1&0x3;
-	for (int l2=First; l2<Last; l2++) {
-		v4s *pIn2 = (v4s *) (In2 + l2*W_In2);
+	if (Iter&0x1) {
+		int l2 = Last-1;
+		v4s *pIn2 = (v4s *) (In2 + (l2+0)*W_In2);
 		for (int l1=0; l1<H_In1; l1++) {
 			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
-			int Acc = Bias[l1]<<NormBias;
-			for (int c=0; c<IterC; c++) {
-				v4s V0 = pIn1[c], V1 = pIn2[c];
-				Acc = gap_sumdotp4(V0, V1, Acc);
+			int S0 = Bias[l1]<<NormBias;
+			for (int c=0; c<W_In1/(4*2); c++) {
+				v4s C0 = pIn1[2*c], C1 = pIn1[2*c+1];
+			       	v4s V0 = pIn2[2*c], V1 = pIn2[2*c+1];
+				S0 = gap_sumdotp4(C0, V0, S0);
+				S0 = gap_sumdotp4(C1, V1, S0);
 			}
-			char *p1 = In1+l1*W_In1+Off1, *p2 = In2+l2*W_In2+Off1;
-			if (Rem1) {
-				Acc += *p1-- * *p2--;
-				if (Rem1>1) {
-					Acc += *p1-- * *p2--;
-					if (Rem1==3) Acc += *p1-- * *p2--;
-				}
+			if (W_In1&0x4) S0 = gap_sumdotp4(pIn1[W_In1/4-1], pIn2[W_In1/4-1], S0);
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
 			}
-			Out[l1*H_In2 + l2] = gap_min(UB, gap_max(AT_NORM(Acc*MulBias[l1], Norm), LB));
+			Out[l1*H_In2 + l2+0] = gap_min(UB, gap_max(AT_NORM(S0*M, Norm), LB));
 		}
 	}
+	gap_waitbarrier(0);
 }
 
-void KerParMatMulScaleSmallFeat_ReLUN_Vector_fps(KerMatMul_fps_T *Arg)
+void KerParMatMulScaleSmallFeat_fps(KerMatMul_fps_T *Arg)
 
 {
 	signed char * __restrict__ In1 = Arg->In1;
@@ -4782,156 +3735,93 @@ void KerParMatMulScaleSmallFeat_ReLUN_Vector_fps(KerMatMul_fps_T *Arg)
 	signed char * __restrict__ Bias = Arg->Bias;
 	signed char * __restrict__ Out = Arg->Out;
 	signed char * __restrict__ MulBias = Arg->MulBias;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
+	int LB = Arg->LB, UB = Arg->UB;
 	unsigned int NormBias = Arg->NormBias;
 	unsigned int Norm = Arg->Norm+Arg->NormMulBias;
         unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
+	unsigned int Iter = Max(0, Last-First);
 
-	int IterC = W_In1/4;
-	int Off1 = W_In1-1;
-	int Rem1 = W_In1&0x3;
-	for (int l2=First; l2<Last; l2++) {
-		v4s *pIn2 = (v4s *) (In2 + l2*W_In2);
+	for (int i=0; i<Iter/4; i++) {
+		int l2 = 4*i+First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2), *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2), *pIn2_2 = (v4s *) (In2 + (l2+2)*W_In2), *pIn2_3 = (v4s *) (In2 + (l2+3)*W_In2);
 		for (int l1=0; l1<H_In1; l1++) {
 			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
-			int Acc = Bias[l1]<<NormBias;
-			int UB = pUB[l1];
-			for (int c=0; c<IterC; c++) {
-				v4s V0 = pIn1[c], V1 = pIn2[c];
-				Acc = gap_sumdotp4(V0, V1, Acc);
+			int S0 = Bias[l1]<<NormBias, S1=S0, S2=S0, S3=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c];
+			       	v4s V0 = pIn2_0[c], V1 = pIn2_1[c], V2 = pIn2_2[c], V3 = pIn2_3[c];
+				S0 = gap_sumdotp4(C0, V0, S0);
+				S1 = gap_sumdotp4(C0, V1, S1);
+				S2 = gap_sumdotp4(C0, V2, S2);
+				S3 = gap_sumdotp4(C0, V3, S3);
 			}
-			char *p1 = In1+l1*W_In1+Off1, *p2 = In2+l2*W_In2+Off1;
-			if (Rem1) {
-				Acc += *p1-- * *p2--;
-				if (Rem1>1) {
-					Acc += *p1-- * *p2--;
-					if (Rem1==3) Acc += *p1-- * *p2--;
-				}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+				S1 += C0 * In2[(l2+1)*W_In2+c];
+				S2 += C0 * In2[(l2+2)*W_In2+c];
+				S3 += C0 * In2[(l2+3)*W_In2+c];
 			}
-			Out[l1*H_In2 + l2] = gap_min(UB, gap_max(AT_NORM(Acc*MulBias[l1], Norm), LB));
+			int M = MulBias[l1];
+			v4s R = gap_pack4(Min(Max(AT_NORM(S0*M, Norm), LB), UB), 
+					  Min(Max(AT_NORM(S1*M, Norm), LB), UB),
+					  Min(Max(AT_NORM(S2*M, Norm), LB), UB),
+					  Min(Max(AT_NORM(S3*M, Norm), LB), UB));
+			*((v4s *) (Out+l1*H_In2 + l2)) = R;
 		}
 	}
-}
-
-/* In1 fits completly in shared L1, usually conv weights
-   In2 has been transposed before being used, usually conv Features
-   Parallelization scheme partition In2 along H_In2
-*/
-void KerParMatMulSmallFeat_fp(KerMatMul_fp_T *Arg)
-
-{
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int H_In2 = Arg->W_In2;
-	unsigned int W_In2 = W_In1;
-	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB, UB = Arg->UB;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int Norm = Arg->Norm;
-        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
-	// for (int l2=0; l2<H_In2; l2++) {
-	for (int l2=First; l2<Last; l2++) {
-		v2s *pIn2 = (v2s *) (In2 + l2*W_In2);
+	if (Iter&0x2) {
+		int l2 = (4*(Iter/4)) + First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2);
+		v4s *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2);
 		for (int l1=0; l1<H_In1; l1++) {
-			v2s *pIn1 = (v2s *) (In1 + l1*W_In1);
-			int Acc = Bias[l1]<<NormBias;
-			for (int c=0; c<W_In1/(2*2); c++) {
-				v2s V0 = pIn1[2*c], V1 = pIn1[2*c+1];
-				v2s V2 = pIn2[2*c], V3 = pIn2[2*c+1];
-				Acc = gap_sumdotp2(V0, V2, Acc);
-				Acc = gap_sumdotp2(V1, V3, Acc);
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c];
+			       	v4s V0 = pIn2_0[c], V1 = pIn2_1[c];
+				S0 = gap_sumdotp4(C0, V0, S0);
+				S1 = gap_sumdotp4(C0, V1, S1);
 			}
-			if (W_In1&0x2) Acc = gap_sumdotp2(pIn1[W_In1/2-1], pIn2[W_In1/2-1], Acc);
-			if (W_In1&0x1) Acc += In1[l1*W_In1+W_In1-1] * In2[l2*W_In2+W_In1-1];
-			Out[l1*H_In2 + l2] = gap_min(UB, gap_max(AT_NORM(Acc, Norm), LB));
-		}
-	}
-	gap_waitbarrier(0);
-}
-
-void KerParMatMulSmallFeat_ReLUN_Vector_fp(KerMatMul_fp_T *Arg)
-
-{
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int H_In2 = Arg->W_In2;
-	unsigned int W_In2 = W_In1;
-	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int Norm = Arg->Norm;
-        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
-	// for (int l2=0; l2<H_In2; l2++) {
-	for (int l2=First; l2<Last; l2++) {
-		v2s *pIn2 = (v2s *) (In2 + l2*W_In2);
-		for (int l1=0; l1<H_In1; l1++) {
-			v2s *pIn1 = (v2s *) (In1 + l1*W_In1);
-			int Acc = Bias[l1]<<NormBias;
-			int UB = pUB[l1];
-			for (int c=0; c<W_In1/(2*2); c++) {
-				v2s V0 = pIn1[2*c], V1 = pIn1[2*c+1];
-				v2s V2 = pIn2[2*c], V3 = pIn2[2*c+1];
-				Acc = gap_sumdotp2(V0, V2, Acc);
-				Acc = gap_sumdotp2(V1, V3, Acc);
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+				S1 += C0 * In2[(l2+1)*W_In2+c];
 			}
-			if (W_In1&0x2) Acc = gap_sumdotp2(pIn1[W_In1/2-1], pIn2[W_In1/2-1], Acc);
-			if (W_In1&0x1) Acc += In1[l1*W_In1+W_In1-1] * In2[l2*W_In2+W_In1-1];
-			Out[l1*H_In2 + l2] = gap_min(UB, gap_max(AT_NORM(Acc, Norm), LB));
+			int M = MulBias[l1];
+			Out[l1*H_In2 + l2+0] = gap_min(UB, gap_max(AT_NORM(S0*M, Norm), LB));
+			Out[l1*H_In2 + l2+1] = gap_min(UB, gap_max(AT_NORM(S1*M, Norm), LB));
 		}
 	}
-	gap_waitbarrier(0);
-}
-
-void KerParMatMulHswishSmallFeat_fp(KerMatMul_fp_T *Arg)
-
-{
-	short int * __restrict__ In1 = Arg->In1;
-	unsigned int W_In1 = Arg->W_In1;
-	unsigned int H_In1 = Arg->H_In1;
-	short int * __restrict__ In2 = Arg->In2;
-	unsigned int H_In2 = Arg->W_In2;
-	unsigned int W_In2 = W_In1;
-	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB;
-	unsigned int NormBias = Arg->NormBias;
-	unsigned int Norm = Arg->Norm;
-	int NormOut = Arg->UB;
-	int C1 = 3<<NormOut;
-	int C2 = (1<<15)/6; // 1/6 in Q15
-	int UB = 6<<NormOut;
-
-        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
-	// for (int l2=0; l2<H_In2; l2++) {
-	for (int l2=First; l2<Last; l2++) {
-		v2s *pIn2 = (v2s *) (In2 + l2*W_In2);
+	if (Iter&0x1) {
+		int l2 = Last-1;
+		v4s *pIn2 = (v4s *) (In2 + (l2+0)*W_In2);
 		for (int l1=0; l1<H_In1; l1++) {
-			v2s *pIn1 = (v2s *) (In1 + l1*W_In1);
-			int Acc = Bias[l1]<<NormBias;
-			for (int c=0; c<W_In1/(2*2); c++) {
-				v2s V0 = pIn1[2*c], V1 = pIn1[2*c+1];
-				v2s V2 = pIn2[2*c], V3 = pIn2[2*c+1];
-				Acc = gap_sumdotp2(V0, V2, Acc);
-				Acc = gap_sumdotp2(V1, V3, Acc);
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias;
+			for (int c=0; c<W_In1/(4*2); c++) {
+				v4s C0 = pIn1[2*c], C1 = pIn1[2*c+1];
+			       	v4s V0 = pIn2[2*c], V1 = pIn2[2*c+1];
+				S0 = gap_sumdotp4(C0, V0, S0);
+				S0 = gap_sumdotp4(C1, V1, S0);
 			}
-			if (W_In1&0x2) Acc = gap_sumdotp2(pIn1[W_In1/2-1], pIn2[W_In1/2-1], Acc);
-			if (W_In1&0x1) Acc += In1[l1*W_In1+W_In1-1] * In2[l2*W_In2+W_In1-1];
-			Acc = AT_NORM(Acc, Norm);
-			Out[l1*H_In2 + l2] = AT_NORM(AT_NORM(gap_min(gap_max(Acc + C1, 0), UB) * Acc, NormOut) * C2, 15);
+			if (W_In1&0x4) S0 = gap_sumdotp4(pIn1[W_In1/4-1], pIn2[W_In1/4-1], S0);
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+			}
+			int M = MulBias[l1];
+			Out[l1*H_In2 + l2+0] = gap_min(UB, gap_max(AT_NORM(S0*M, Norm), LB));
 		}
 	}
 	gap_waitbarrier(0);
 }
 
-void KerParMatMulHsigmoidSmallFeat_fp(KerMatMul_fp_T *Arg)
+/* In1 fits completly in shared L1, usually conv weights
+   In2 has been transposed before being used, usually conv Features
+   Parallelization scheme partition In2 along H_In2
+*/
+void KerParMatMulSmallFeat_fp(KerMatMul_fp_T *Arg)
 
 {
 	short int * __restrict__ In1 = Arg->In1;
@@ -4942,14 +3832,9 @@ void KerParMatMulHsigmoidSmallFeat_fp(KerMatMul_fp_T *Arg)
 	unsigned int W_In2 = W_In1;
 	short int * __restrict__ Bias = Arg->Bias;
 	short int * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB;
+	int LB = Arg->LB, UB = Arg->UB;
 	unsigned int NormBias = Arg->NormBias;
 	unsigned int Norm = Arg->Norm;
-	int NormOut = Arg->UB;
-	int C1 = 3<<NormOut;
-	int C2 = (1<<15)/6; // 1/6 in Q15
-	int UB = 6<<NormOut;
-
         unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
 	// for (int l2=0; l2<H_In2; l2++) {
 	for (int l2=First; l2<Last; l2++) {
@@ -4965,14 +3850,13 @@ void KerParMatMulHsigmoidSmallFeat_fp(KerMatMul_fp_T *Arg)
 			}
 			if (W_In1&0x2) Acc = gap_sumdotp2(pIn1[W_In1/2-1], pIn2[W_In1/2-1], Acc);
 			if (W_In1&0x1) Acc += In1[l1*W_In1+W_In1-1] * In2[l2*W_In2+W_In1-1];
-			Acc = gap_max(0, gap_min(AT_NORM(Acc, Norm)+C1, UB));
-			Out[l1*H_In2 + l2] = AT_NORM(Acc*C2, 15);
+			Out[l1*H_In2 + l2] = gap_min(UB, gap_max(AT_NORM(Acc, Norm), LB));
 		}
 	}
 	gap_waitbarrier(0);
 }
 
-void KerParMatMulLeakyreluSmallFeat_fp(KerMatMul_fp_T *Arg)
+void KerParMatMulHswishSmallFeat_fp(KerMatMul_fp_T *Arg)
 
 {
 	short int * __restrict__ In1 = Arg->In1;
@@ -4983,8 +3867,13 @@ void KerParMatMulLeakyreluSmallFeat_fp(KerMatMul_fp_T *Arg)
 	unsigned int W_In2 = W_In1;
 	short int * __restrict__ Bias = Arg->Bias;
 	short int * __restrict__ Out = Arg->Out;
+	int LB = Arg->LB;
 	unsigned int NormBias = Arg->NormBias;
 	unsigned int Norm = Arg->Norm;
+	int NormOut = Arg->UB;
+	int C1 = 3<<NormOut;
+	int C2 = (1<<15)/6; // 1/6 in Q15
+	int UB = 6<<NormOut;
 
         unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
 	// for (int l2=0; l2<H_In2; l2++) {
@@ -5001,18 +3890,14 @@ void KerParMatMulLeakyreluSmallFeat_fp(KerMatMul_fp_T *Arg)
 			}
 			if (W_In1&0x2) Acc = gap_sumdotp2(pIn1[W_In1/2-1], pIn2[W_In1/2-1], Acc);
 			if (W_In1&0x1) Acc += In1[l1*W_In1+W_In1-1] * In2[l2*W_In2+W_In1-1];
-
-
-			int Input = AT_NORM(Acc, Norm);
-			int Neg = (Input<0), Pos = (Input>=0);
-			int Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT);
-			Out[l1*H_In2 + l2] = gap_clip(Neg*Input1+Pos*Input, 7);
+			Acc = AT_NORM(Acc, Norm);
+			Out[l1*H_In2 + l2] = AT_NORM(AT_NORM(gap_min(gap_max(Acc + C1, 0), UB) * Acc, NormOut) * C2, 15);
 		}
 	}
 	gap_waitbarrier(0);
 }
 
-void KerParMatMulScaleScalarSmallFeat_fp(KerMatMul_fp_T *Arg)
+void KerParMatMulHsigmoidSmallFeat_fp(KerMatMul_fp_T *Arg)
 
 {
 	short int * __restrict__ In1 = Arg->In1;
@@ -5023,11 +3908,14 @@ void KerParMatMulScaleScalarSmallFeat_fp(KerMatMul_fp_T *Arg)
 	unsigned int W_In2 = W_In1;
 	short int * __restrict__ Bias = Arg->Bias;
 	short int * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB, UB = Arg->UB;
-	int M = *Arg->MulBias;
+	int LB = Arg->LB;
 	unsigned int NormBias = Arg->NormBias;
 	unsigned int Norm = Arg->Norm;
-	unsigned int NormMulBias = Arg->NormMulBias;
+	int NormOut = Arg->UB;
+	int C1 = 3<<NormOut;
+	int C2 = (1<<15)/6; // 1/6 in Q15
+	int UB = 6<<NormOut;
+
         unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
 	// for (int l2=0; l2<H_In2; l2++) {
 	for (int l2=First; l2<Last; l2++) {
@@ -5043,13 +3931,14 @@ void KerParMatMulScaleScalarSmallFeat_fp(KerMatMul_fp_T *Arg)
 			}
 			if (W_In1&0x2) Acc = gap_sumdotp2(pIn1[W_In1/2-1], pIn2[W_In1/2-1], Acc);
 			if (W_In1&0x1) Acc += In1[l1*W_In1+W_In1-1] * In2[l2*W_In2+W_In1-1];
-			Out[l1*H_In2 + l2] = gap_min(UB, gap_max(AT_NORM(AT_NORM(Acc, Norm)*M, NormMulBias), LB));
+			Acc = gap_max(0, gap_min(AT_NORM(Acc, Norm)+C1, UB));
+			Out[l1*H_In2 + l2] = AT_NORM(Acc*C2, 15);
 		}
 	}
 	gap_waitbarrier(0);
 }
 
-void KerParMatMulScaleScalarSmallFeat_ReLUN_Vector_fp(KerMatMul_fp_T *Arg)
+void KerParMatMulLeakyreluSmallFeat_fp(KerMatMul_fp_T *Arg)
 
 {
 	short int * __restrict__ In1 = Arg->In1;
@@ -5060,12 +3949,9 @@ void KerParMatMulScaleScalarSmallFeat_ReLUN_Vector_fp(KerMatMul_fp_T *Arg)
 	unsigned int W_In2 = W_In1;
 	short int * __restrict__ Bias = Arg->Bias;
 	short int * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-	int M = *Arg->MulBias;
 	unsigned int NormBias = Arg->NormBias;
 	unsigned int Norm = Arg->Norm;
-	unsigned int NormMulBias = Arg->NormMulBias;
+
         unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
 	// for (int l2=0; l2<H_In2; l2++) {
 	for (int l2=First; l2<Last; l2++) {
@@ -5073,7 +3959,6 @@ void KerParMatMulScaleScalarSmallFeat_ReLUN_Vector_fp(KerMatMul_fp_T *Arg)
 		for (int l1=0; l1<H_In1; l1++) {
 			v2s *pIn1 = (v2s *) (In1 + l1*W_In1);
 			int Acc = Bias[l1]<<NormBias;
-			int UB = pUB[l1];
 			for (int c=0; c<W_In1/(2*2); c++) {
 				v2s V0 = pIn1[2*c], V1 = pIn1[2*c+1];
 				v2s V2 = pIn2[2*c], V3 = pIn2[2*c+1];
@@ -5082,13 +3967,18 @@ void KerParMatMulScaleScalarSmallFeat_ReLUN_Vector_fp(KerMatMul_fp_T *Arg)
 			}
 			if (W_In1&0x2) Acc = gap_sumdotp2(pIn1[W_In1/2-1], pIn2[W_In1/2-1], Acc);
 			if (W_In1&0x1) Acc += In1[l1*W_In1+W_In1-1] * In2[l2*W_In2+W_In1-1];
-			Out[l1*H_In2 + l2] = gap_min(UB, gap_max(AT_NORM(AT_NORM(Acc, Norm)*M, NormMulBias), LB));
+
+
+			int Input = AT_NORM(Acc, Norm);
+			int Neg = (Input<0), Pos = (Input>=0);
+			int Input1 = AT_NORM(Input*LEAK_CONSTANT, LEAK_CONSTANT_FORMAT);
+			Out[l1*H_In2 + l2] = gap_clip(Neg*Input1+Pos*Input, 7);
 		}
 	}
 	gap_waitbarrier(0);
 }
 
-void KerParMatMulScaleSmallFeat_fp(KerMatMul_fp_T *Arg)
+void KerParMatMulScaleScalarSmallFeat_fp(KerMatMul_fp_T *Arg)
 
 {
 	short int * __restrict__ In1 = Arg->In1;
@@ -5098,9 +3988,9 @@ void KerParMatMulScaleSmallFeat_fp(KerMatMul_fp_T *Arg)
 	unsigned int H_In2 = Arg->W_In2;
 	unsigned int W_In2 = W_In1;
 	short int * __restrict__ Bias = Arg->Bias;
-	short int * __restrict__ MulBias = Arg->MulBias;
 	short int * __restrict__ Out = Arg->Out;
 	int LB = Arg->LB, UB = Arg->UB;
+	int M = *Arg->MulBias;
 	unsigned int NormBias = Arg->NormBias;
 	unsigned int Norm = Arg->Norm;
 	unsigned int NormMulBias = Arg->NormMulBias;
@@ -5119,13 +4009,13 @@ void KerParMatMulScaleSmallFeat_fp(KerMatMul_fp_T *Arg)
 			}
 			if (W_In1&0x2) Acc = gap_sumdotp2(pIn1[W_In1/2-1], pIn2[W_In1/2-1], Acc);
 			if (W_In1&0x1) Acc += In1[l1*W_In1+W_In1-1] * In2[l2*W_In2+W_In1-1];
-			Out[l1*H_In2 + l2] = gap_min(UB, gap_max(AT_NORM(AT_NORM(Acc, Norm)*MulBias[l1], NormMulBias), LB));
+			Out[l1*H_In2 + l2] = gap_min(UB, gap_max(AT_NORM(AT_NORM(Acc, Norm)*M, NormMulBias), LB));
 		}
 	}
 	gap_waitbarrier(0);
 }
 
-void KerParMatMulScaleSmallFeat_ReLUN_Vector_fp(KerMatMul_fp_T *Arg)
+void KerParMatMulScaleSmallFeat_fp(KerMatMul_fp_T *Arg)
 
 {
 	short int * __restrict__ In1 = Arg->In1;
@@ -5137,8 +4027,7 @@ void KerParMatMulScaleSmallFeat_ReLUN_Vector_fp(KerMatMul_fp_T *Arg)
 	short int * __restrict__ Bias = Arg->Bias;
 	short int * __restrict__ MulBias = Arg->MulBias;
 	short int * __restrict__ Out = Arg->Out;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
+	int LB = Arg->LB, UB = Arg->UB;
 	unsigned int NormBias = Arg->NormBias;
 	unsigned int Norm = Arg->Norm;
 	unsigned int NormMulBias = Arg->NormMulBias;
@@ -5149,7 +4038,6 @@ void KerParMatMulScaleSmallFeat_ReLUN_Vector_fp(KerMatMul_fp_T *Arg)
 		for (int l1=0; l1<H_In1; l1++) {
 			v2s *pIn1 = (v2s *) (In1 + l1*W_In1);
 			int Acc = Bias[l1]<<NormBias;
-			int UB = pUB[l1];
 			for (int c=0; c<W_In1/(2*2); c++) {
 				v2s V0 = pIn1[2*c], V1 = pIn1[2*c+1];
 				v2s V2 = pIn2[2*c], V3 = pIn2[2*c+1];
@@ -5198,40 +4086,6 @@ void KerParMatScaleVector_fp(KerMatScale_fp_T *Arg)
 	gap_waitbarrier(0);
 }
 
-void KerParMatScaleVector_ReLUN_Vector_fp(KerMatScale_fp_T *Arg)
-
-{
-	short int * __restrict__ In	= Arg->In1;
-	short int * __restrict__ Scale	= Arg->In2;
-	short int * __restrict__ Out	= Arg->Out;
-	int W				= Arg->W;
-	int H				= Arg->H;
-	int Norm			= Arg->Norm;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int Chunk = ChunkSize(Arg->N);
-	unsigned int First = Chunk*CoreId;
-	unsigned int Last = Min(First+Chunk, Arg->N);
-	int i, j;
-
-	for (i=First; i<Last; i++) {
-		short int * __restrict__ I = In + i*W*H;
-		int S = Scale[i];
-		int UB = pUB[i];
-		short int * __restrict__ O  = Out + i*W*H;
-		for (j=0; j<((W*H)/2); j++) {
-			int P1 = AT_NORM(I[2*j  ]*S, Norm);
-			int P2 = AT_NORM(I[2*j+1]*S, Norm);
-			O[2*j  ] = Min(Max(P1, LB), UB);
-			O[2*j+1] = Min(Max(P2, LB), UB);
-		}
-		O[W*H-1] = Min(Max(AT_NORM(I[W*H-1]*S, Norm), LB), UB);
-	}
-	gap_waitbarrier(0);
-}
-
 void KerParMatScaleScalar_fp(KerMatScale_fp_T *Arg)
 
 {
@@ -5264,40 +4118,6 @@ void KerParMatScaleScalar_fp(KerMatScale_fp_T *Arg)
 	gap_waitbarrier(0);
 }
 
-void KerParMatScaleScalar_ReLUN_Vector_fp(KerMatScale_fp_T *Arg)
-
-{
-	short int * __restrict__ In	= Arg->In1;
-	int Scale	                = *Arg->ScaleScalar;
-	short int * __restrict__ Out	= Arg->Out;
-	int W				= Arg->W;
-	int H				= Arg->H;
-	int Norm			= Arg->Norm;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int Chunk = ChunkSize(Arg->N);
-	unsigned int First = Chunk*CoreId;
-	unsigned int Last = Min(First+Chunk, Arg->N);
-	int i, j;
-
-	for (i=First; i<Last; i++) {
-		short int * __restrict__ I = In + i*W*H;
-		int S = Scale;
-		int UB = pUB[i];
-		short int * __restrict__ O  = Out + i*W*H;
-		for (j=0; j<((W*H)/2); j++) {
-			int P1 = AT_NORM(I[2*j  ]*S, Norm);
-			int P2 = AT_NORM(I[2*j+1]*S, Norm);
-			O[2*j  ] = Min(Max(P1, LB), UB);
-			O[2*j+1] = Min(Max(P2, LB), UB);
-		}
-		O[W*H-1] = Min(Max(AT_NORM(I[W*H-1]*S, Norm), LB), UB);
-	}
-	gap_waitbarrier(0);
-}
-
 void KerParMatScaleVectorScalar_fp(KerMatScale_fp_T *Arg)
 
 {
@@ -5332,42 +4152,6 @@ void KerParMatScaleVectorScalar_fp(KerMatScale_fp_T *Arg)
 	gap_waitbarrier(0);
 }
 
-void KerParMatScaleVectorScalar_ReLUN_Vector_fp(KerMatScale_fp_T *Arg)
-
-{
-	short int * __restrict__ In	= Arg->In1;
-	short int * __restrict__ Scale	= Arg->In2;
-	int ScaleScalar	                = *Arg->ScaleScalar;
-	short int * __restrict__ Out	= Arg->Out;
-	int W				= Arg->W;
-	int H				= Arg->H;
-	int Norm			= Arg->Norm;
-	int Scale_Q			= Arg->Scale_Q;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int Chunk = ChunkSize(Arg->N);
-	unsigned int First = Chunk*CoreId;
-	unsigned int Last = Min(First+Chunk, Arg->N);
-	int i, j;
-
-	for (i=First; i<Last; i++) {
-		short int * __restrict__ I = In + i*W*H;
-		int S = Scale[i];
-		int UB = pUB[i];
-		short int * __restrict__ O  = Out + i*W*H;
-		for (j=0; j<((W*H)/2); j++) {
-			int P1 = AT_NORM(AT_NORM(I[2*j  ]*S, Norm)*ScaleScalar, Scale_Q);
-			int P2 = AT_NORM(AT_NORM(I[2*j+1]*S, Norm)*ScaleScalar, Scale_Q);
-			O[2*j  ] = Min(Max(P1, LB), UB);
-			O[2*j+1] = Min(Max(P2, LB), UB);
-		}
-		O[W*H-1] = Min(Max(AT_NORM(AT_NORM(I[W*H-1]*S, Norm)*ScaleScalar, Scale_Q), LB), UB);
-	}
-	gap_waitbarrier(0);
-}
-
 void KerParMatScaleVector_fps(KerMatScale_fps_T *Arg)
 
 {
@@ -5400,40 +4184,6 @@ void KerParMatScaleVector_fps(KerMatScale_fps_T *Arg)
 	gap_waitbarrier(0);
 }
 
-void KerParMatScaleVector_ReLUN_Vector_fps(KerMatScale_fps_T *Arg)
-
-{
-	signed char * __restrict__ In	= Arg->In1;
-	signed char * __restrict__ Scale= Arg->In2;
-	signed char * __restrict__ Out	= Arg->Out;
-	int W				= Arg->W;
-	int H				= Arg->H;
-	int Norm			= Arg->Norm;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int Chunk = ChunkSize(Arg->N);
-	unsigned int First = Chunk*CoreId;
-	unsigned int Last = Min(First+Chunk, Arg->N);
-	int i, j;
-
-	for (i=First; i<Last; i++) {
-		signed char * __restrict__ I = In + i*W*H;
-		int S = Scale[i];
-		int UB = pUB[i];
-		signed char * __restrict__ O  = Out + i*W*H;
-		for (j=0; j<((W*H)/2); j++) {
-			int P1 = AT_NORM(I[2*j  ]*S, Norm);
-			int P2 = AT_NORM(I[2*j+1]*S, Norm);
-			O[2*j  ] = Min(Max(P1, LB), UB);
-			O[2*j+1] = Min(Max(P2, LB), UB);
-		}
-		O[W*H-1] = Min(Max(AT_NORM(I[W*H-1]*S, Norm), LB), UB);
-	}
-	gap_waitbarrier(0);
-}
-
 void KerParMatScaleScalar_fps(KerMatScale_fps_T *Arg)
 
 {
@@ -5466,40 +4216,6 @@ void KerParMatScaleScalar_fps(KerMatScale_fps_T *Arg)
 	gap_waitbarrier(0);
 }
 
-void KerParMatScaleScalar_ReLUN_Vector_fps(KerMatScale_fps_T *Arg)
-
-{
-	signed char * __restrict__ In	= Arg->In1;
-	int Scale                       = *Arg->ScaleScalar;
-	signed char * __restrict__ Out	= Arg->Out;
-	int W				= Arg->W;
-	int H				= Arg->H;
-	int Norm			= Arg->Norm;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int Chunk = ChunkSize(Arg->N);
-	unsigned int First = Chunk*CoreId;
-	unsigned int Last = Min(First+Chunk, Arg->N);
-	int i, j;
-
-	for (i=First; i<Last; i++) {
-		signed char * __restrict__ I = In + i*W*H;
-		int S = Scale;
-		int UB = pUB[i];
-		signed char * __restrict__ O  = Out + i*W*H;
-		for (j=0; j<((W*H)/2); j++) {
-			int P1 = AT_NORM(I[2*j  ]*S, Norm);
-			int P2 = AT_NORM(I[2*j+1]*S, Norm);
-			O[2*j  ] = Min(Max(P1, LB), UB);
-			O[2*j+1] = Min(Max(P2, LB), UB);
-		}
-		O[W*H-1] = Min(Max(AT_NORM(I[W*H-1]*S, Norm), LB), UB);
-	}
-	gap_waitbarrier(0);
-}
-
 void KerParMatScaleVectorScalar_fps(KerMatScale_fps_T *Arg)
 
 {
@@ -5533,41 +4249,6 @@ void KerParMatScaleVectorScalar_fps(KerMatScale_fps_T *Arg)
 	gap_waitbarrier(0);
 }
 
-void KerParMatScaleVectorScalar_ReLUN_Vector_fps(KerMatScale_fps_T *Arg)
-
-{
-	signed char * __restrict__ In	= Arg->In1;
-	signed char * __restrict__ Scale= Arg->In2;
-	int ScaleScalar                 = *Arg->ScaleScalar;
-	signed char * __restrict__ Out	= Arg->Out;
-	int W				= Arg->W;
-	int H				= Arg->H;
-	int Norm			= Arg->Norm+Arg->Scale_Q;
-	int LB = Arg->LB;
-	char *pUB = (char *) Arg->UB;
-
-	unsigned int CoreId = gap_coreid();
-	unsigned int Chunk = ChunkSize(Arg->N);
-	unsigned int First = Chunk*CoreId;
-	unsigned int Last = Min(First+Chunk, Arg->N);
-	int i, j;
-
-	for (i=First; i<Last; i++) {
-		signed char * __restrict__ I = In + i*W*H;
-		int S = Scale[i];
-		int UB = pUB[i];
-		signed char * __restrict__ O  = Out + i*W*H;
-		for (j=0; j<((W*H)/2); j++) {
-			int P1 = AT_NORM(I[2*j  ]*S*ScaleScalar, Norm);
-			int P2 = AT_NORM(I[2*j+1]*S*ScaleScalar, Norm);
-			O[2*j  ] = Min(Max(P1, LB), UB);
-			O[2*j+1] = Min(Max(P2, LB), UB);
-		}
-		O[W*H-1] = Min(Max(AT_NORM(I[W*H-1]*S*ScaleScalar, Norm), LB), UB);
-	}
-	gap_waitbarrier(0);
-}
-
 /* Matrix transposition */
 
 static void CNN_Transpose_Body_fps(
diff --git a/tools/autotiler_v3/generators/CNN/CNN_MatAlgebra_SQ8.c b/tools/autotiler_v3/generators/CNN/CNN_MatAlgebra_SQ8.c
new file mode 100644
index 000000000..ea971517d
--- /dev/null
+++ b/tools/autotiler_v3/generators/CNN/CNN_MatAlgebra_SQ8.c
@@ -0,0 +1,3441 @@
+#include <stdio.h>
+#include "CNN_BasicKernels_SQ8.h"
+
+static int CoreCountDynamic = 1;
+static int ActiveCore = gap_ncore();
+
+static inline unsigned int __attribute__((always_inline)) ChunkSize(unsigned int X)
+
+{
+	unsigned int NCore;
+	unsigned int Log2Core;
+	unsigned int Chunk;
+
+	if (CoreCountDynamic) NCore = ActiveCore; else NCore = gap_ncore();
+	Log2Core = gap_fl1(NCore);
+	Chunk = (X>>Log2Core) + ((X&(NCore-1))!=0);
+	return Chunk;
+}
+
+
+/*************************************************************************************************************************************************
+	Tensor Addition with Input1 and Output scaling followed by optional activation
+	Scaling is optional, no scaling is expressed using Scale=0
+*************************************************************************************************************************************************/
+
+void KerParMatAdd_SQ8(KerMat3_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In1	= Arg->In1;
+	signed char * __restrict__ In2	= Arg->In2;
+	signed char * __restrict__ Out	= Arg->Out;
+	int W				= Arg->W;
+	int H				= Arg->H;
+	unsigned int In1Scale = ((unsigned char *)Arg->Infos)[AT_INF_IN1SCALE], In1ScaleN = ((unsigned char *)Arg->Infos)[AT_INF_IN1SCALEN];
+	unsigned int OutScale = ((unsigned char *)Arg->Infos)[AT_INF_OUTSCALE], OutScaleN = ((unsigned char *)Arg->Infos)[AT_INF_OUTSCALEN];
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Arg->Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Arg->Feat);
+
+	unsigned int F = First*W*H, S = Max(0, Last*W*H-F);
+	signed char * __restrict__ I1 = In1 + F, *__restrict__ I2 = In2 + F, *__restrict__ O  = Out + F;
+	if (In1Scale && OutScale) {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			O[2*i  ] = gap_clip(AT_SCALE(AT_SCALE(I10, In1Scale, In1ScaleN) + I20, OutScale, OutScaleN), 7);
+			O[2*i+1] = gap_clip(AT_SCALE(AT_SCALE(I11, In1Scale, In1ScaleN) + I21, OutScale, OutScaleN), 7);
+		}
+		if (S&0x1) O[S-1] = gap_clip(AT_SCALE(AT_SCALE(I1[S-1], In1Scale, In1ScaleN) + I2[S-1], OutScale, OutScaleN), 7);
+	} else if (In1Scale) {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			O[2*i  ] = gap_clip(AT_SCALE(I10, In1Scale, In1ScaleN) + I20, 7);
+			O[2*i+1] = gap_clip(AT_SCALE(I11, In1Scale, In1ScaleN) + I21, 7);
+		}
+		if (S&0x1) O[S-1] = gap_clip(AT_SCALE(I1[S-1], In1Scale, In1ScaleN) + I2[S-1], 7);
+	} else if (OutScale) {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			O[2*i  ] = gap_clip(AT_SCALE(I10 + I20, OutScale, OutScaleN), 7);
+			O[2*i+1] = gap_clip(AT_SCALE(I11 + I21, OutScale, OutScaleN), 7);
+		}
+		if (S&0x1) O[S-1] = gap_clip(AT_SCALE(I1[S-1] + I2[S-1], OutScale, OutScaleN), 7);
+	} else {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			O[2*i  ] = gap_clip(I10 + I20, 7);
+			O[2*i+1] = gap_clip(I11 + I21, 7);
+		}
+		if (S&0x1) O[S-1] = gap_clip(I1[S-1] + I2[S-1], 7);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParMatAdd_ReLU_SQ8(KerMat3_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In1	= Arg->In1;
+	signed char * __restrict__ In2	= Arg->In2;
+	signed char * __restrict__ Out	= Arg->Out;
+	int W				= Arg->W;
+	int H				= Arg->H;
+	unsigned int In1Scale = ((unsigned char *)Arg->Infos)[AT_INF_IN1SCALE], In1ScaleN = ((unsigned char *)Arg->Infos)[AT_INF_IN1SCALEN];
+	unsigned int OutScale = ((unsigned char *)Arg->Infos)[AT_INF_OUTSCALE], OutScaleN = ((unsigned char *)Arg->Infos)[AT_INF_OUTSCALEN];
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Arg->Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Arg->Feat);
+
+	unsigned int F = First*W*H, S = Max(0, Last*W*H-F);
+	signed char * __restrict__ I1 = In1 + F, *__restrict__ I2 = In2 + F, *__restrict__ O  = Out + F;
+	if (In1Scale && OutScale) {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			O[2*i  ] = Max(0, gap_clip(AT_SCALE(AT_SCALE(I10, In1Scale, In1ScaleN) + I20, OutScale, OutScaleN), 7));
+			O[2*i+1] = Max(0, gap_clip(AT_SCALE(AT_SCALE(I11, In1Scale, In1ScaleN) + I21, OutScale, OutScaleN), 7));
+		}
+		if (S&0x1) O[S-1] = Max(0, gap_clip(AT_SCALE(AT_SCALE(I1[S-1], In1Scale, In1ScaleN) + I2[S-1], OutScale, OutScaleN), 7));
+	} else if (In1Scale) {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			O[2*i  ] = Max(0, gap_clip(AT_SCALE(I10, In1Scale, In1ScaleN) + I20, 7));
+			O[2*i+1] = Max(0, gap_clip(AT_SCALE(I11, In1Scale, In1ScaleN) + I21, 7));
+		}
+		if (S&0x1) O[S-1] = Max(0, gap_clip(AT_SCALE(I1[S-1], In1Scale, In1ScaleN) + I2[S-1], 7));
+	} else if (OutScale) {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			O[2*i  ] = Max(0, gap_clip(AT_SCALE(I10 + I20, OutScale, OutScaleN), 7));
+			O[2*i+1] = Max(0, gap_clip(AT_SCALE(I11 + I21, OutScale, OutScaleN), 7));
+		}
+		if (S&0x1) O[S-1] = Max(0, gap_clip(AT_SCALE(I1[S-1] + I2[S-1], OutScale, OutScaleN), 7));
+	} else {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			O[2*i  ] = Max(0, gap_clip(I10 + I20, 7));
+			O[2*i+1] = Max(0, gap_clip(I11 + I21, 7));
+		}
+		if (S&0x1) O[S-1] = Max(0, gap_clip(I1[S-1] + I2[S-1], 7));
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParMatAdd_ReLUN_SQ8(KerMat3_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In1	= Arg->In1;
+	signed char * __restrict__ In2	= Arg->In2;
+	signed char * __restrict__ Out	= Arg->Out;
+	int W				= Arg->W;
+	int H				= Arg->H;
+	unsigned int In1Scale = ((unsigned char *)Arg->Infos)[AT_INF_IN1SCALE], In1ScaleN = ((unsigned char *)Arg->Infos)[AT_INF_IN1SCALEN];
+	unsigned int OutScale = ((unsigned char *)Arg->Infos)[AT_INF_OUTSCALE], OutScaleN = ((unsigned char *)Arg->Infos)[AT_INF_OUTSCALEN];
+	int A0 = Arg->Infos[AT_INF_A0];
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Arg->Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Arg->Feat);
+
+	unsigned int F = First*W*H, S = Max(0, Last*W*H-F);
+	signed char * __restrict__ I1 = In1 + F, *__restrict__ I2 = In2 + F, *__restrict__ O  = Out + F;
+	if (In1Scale && OutScale) {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			O[2*i  ] = gap_clip(Max(0, Min(AT_SCALE(AT_SCALE(I10, In1Scale, In1ScaleN) + I20, OutScale, OutScaleN), A0)), 7);
+			O[2*i+1] = gap_clip(Max(0, Min(AT_SCALE(AT_SCALE(I11, In1Scale, In1ScaleN) + I21, OutScale, OutScaleN), A0)), 7);
+		}
+		if (S&0x1) O[S-1] = gap_clip(Max(0, Min(AT_SCALE(AT_SCALE(I1[S-1], In1Scale, In1ScaleN) + I2[S-1], OutScale, OutScaleN), A0)), 7);
+	} else if (In1Scale) {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			O[2*i  ] = gap_clip(Max(0, Min(AT_SCALE(I10, In1Scale, In1ScaleN) + I20, A0)), 7);
+			O[2*i+1] = gap_clip(Max(0, Min(AT_SCALE(I11, In1Scale, In1ScaleN) + I21, A0)), 7);
+		}
+		if (S&0x1) O[S-1] = gap_clip(Max(0, Min(AT_SCALE(I1[S-1], In1Scale, In1ScaleN) + I2[S-1], A0)), 7);
+	} else if (OutScale) {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			O[2*i  ] = gap_clip(Max(0, Min(AT_SCALE(I10 + I20, OutScale, OutScaleN), A0)), 7);
+			O[2*i+1] = gap_clip(Max(0, Min(AT_SCALE(I11 + I21, OutScale, OutScaleN), A0)), 7);
+		}
+		if (S&0x1) O[S-1] = gap_clip(Max(0, Min(AT_SCALE(I1[S-1] + I2[S-1], OutScale, OutScaleN), A0)), 7);
+	} else {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			O[2*i  ] = gap_clip(Max(0, Min(I10 + I20, A0)), 7);
+			O[2*i+1] = gap_clip(Max(0, Min(I11 + I21, A0)), 7);
+		}
+		if (S&0x1) O[S-1] = gap_clip(Max(0, Min(I1[S-1] + I2[S-1], A0)), 7);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParMatAdd_HSigmoid_SQ8(KerMat3_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In1	= Arg->In1;
+	signed char * __restrict__ In2	= Arg->In2;
+	signed char * __restrict__ Out	= Arg->Out;
+	int W				= Arg->W;
+	int H				= Arg->H;
+	unsigned int In1Scale = ((unsigned char *)Arg->Infos)[AT_INF_IN1SCALE], In1ScaleN = ((unsigned char *)Arg->Infos)[AT_INF_IN1SCALEN];
+	unsigned int OutScale = ((unsigned char *)Arg->Infos)[AT_INF_OUTSCALE], OutScaleN = ((unsigned char *)Arg->Infos)[AT_INF_OUTSCALEN];
+	unsigned int ActScale = ((unsigned char *)Arg->Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Arg->Infos)[AT_INF_ACTSCALEN];
+	int A0 = Arg->Infos[AT_INF_A0], B0 = Arg->Infos[AT_INF_B0], C0 = Arg->Infos[AT_INF_C0];
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Arg->Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Arg->Feat);
+
+	unsigned int F = First*W*H, S = Max(0, Last*W*H-F);
+	signed char * __restrict__ I1 = In1 + F, *__restrict__ I2 = In2 + F, *__restrict__ O  = Out + F;
+	if (In1Scale && OutScale) {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			int Acc0 = gap_clip(AT_SCALE(AT_SCALE(I10, In1Scale, In1ScaleN) + I20, OutScale, OutScaleN), 7);
+			int Acc1 = gap_clip(AT_SCALE(AT_SCALE(I11, In1Scale, In1ScaleN) + I21, OutScale, OutScaleN), 7);
+			O[2*i  ] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0, ActScale, ActScaleN), 7);
+			O[2*i+1] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc1 + B0)) * C0, ActScale, ActScaleN), 7);
+		}
+		if (S&0x1) {
+			int Acc0 = gap_clip(AT_SCALE(AT_SCALE(I1[S-1], In1Scale, In1ScaleN) + I2[S-1], OutScale, OutScaleN), 7);
+			O[S-1] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0, ActScale, ActScaleN), 7);
+		}
+	} else if (In1Scale) {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			int Acc0 = gap_clip(AT_SCALE(I10, In1Scale, In1ScaleN) + I20, 7);
+			int Acc1 = gap_clip(AT_SCALE(I11, In1Scale, In1ScaleN) + I21, 7);
+			O[2*i  ] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0, ActScale, ActScaleN), 7);
+			O[2*i+1] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc1 + B0)) * C0, ActScale, ActScaleN), 7);
+		}
+		if (S&0x1) {
+			int Acc0 = gap_clip(AT_SCALE(I1[S-1], In1Scale, In1ScaleN) + I2[S-1], 7);
+			O[S-1] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0, ActScale, ActScaleN), 7);
+		}
+	} else if (OutScale) {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			int Acc0 = gap_clip(AT_SCALE(I10 + I20, OutScale, OutScaleN), 7);
+			int Acc1 = gap_clip(AT_SCALE(I11 + I21, OutScale, OutScaleN), 7);
+			O[2*i  ] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0, ActScale, ActScaleN), 7);
+			O[2*i+1] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc1 + B0)) * C0, ActScale, ActScaleN), 7);
+		}
+		if (S&0x1) {
+			int Acc0 = gap_clip(AT_SCALE(I1[S-1] + I2[S-1], OutScale, OutScaleN), 7);
+			O[S-1] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0, ActScale, ActScaleN), 7);
+		}
+	} else {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			int Acc0 = gap_clip(I10 + I20, 7);
+			int Acc1 = gap_clip(I11 + I21, 7);
+			O[2*i  ] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0, ActScale, ActScaleN), 7);
+			O[2*i+1] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc1 + B0)) * C0, ActScale, ActScaleN), 7);
+		}
+		if (S&0x1) {
+			int Acc0 = gap_clip(I1[S-1] + I2[S-1], 7);
+			O[S-1] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0, ActScale, ActScaleN), 7);
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParMatAdd_HSwish_SQ8(KerMat3_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In1	= Arg->In1;
+	signed char * __restrict__ In2	= Arg->In2;
+	signed char * __restrict__ Out	= Arg->Out;
+	int W				= Arg->W;
+	int H				= Arg->H;
+	unsigned int In1Scale = ((unsigned char *)Arg->Infos)[AT_INF_IN1SCALE], In1ScaleN = ((unsigned char *)Arg->Infos)[AT_INF_IN1SCALEN];
+	unsigned int OutScale = ((unsigned char *)Arg->Infos)[AT_INF_OUTSCALE], OutScaleN = ((unsigned char *)Arg->Infos)[AT_INF_OUTSCALEN];
+	unsigned int ActScale = ((unsigned char *)Arg->Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Arg->Infos)[AT_INF_ACTSCALEN];
+	int A0 = Arg->Infos[AT_INF_A0], B0 = Arg->Infos[AT_INF_B0], C0 = Arg->Infos[AT_INF_C0];
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Arg->Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Arg->Feat);
+
+	unsigned int F = First*W*H, S = Max(0, Last*W*H-F);
+	signed char * __restrict__ I1 = In1 + F, *__restrict__ I2 = In2 + F, *__restrict__ O  = Out + F;
+	if (In1Scale && OutScale) {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			int Acc0 = gap_clip(AT_SCALE(AT_SCALE(I10, In1Scale, In1ScaleN) + I20, OutScale, OutScaleN), 7);
+			int Acc1 = gap_clip(AT_SCALE(AT_SCALE(I11, In1Scale, In1ScaleN) + I21, OutScale, OutScaleN), 7);
+			O[2*i  ] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScale, ActScaleN), 7);
+			O[2*i+1] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc1 + B0)) * C0 * Acc1, ActScale, ActScaleN), 7);
+		}
+		if (S&0x1) {
+			int Acc0 = gap_clip(AT_SCALE(AT_SCALE(I1[S-1], In1Scale, In1ScaleN) + I2[S-1], OutScale, OutScaleN), 7);
+			O[S-1] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScale, ActScaleN), 7);
+		}
+	} else if (In1Scale) {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			int Acc0 = gap_clip(AT_SCALE(I10, In1Scale, In1ScaleN) + I20, 7);
+			int Acc1 = gap_clip(AT_SCALE(I11, In1Scale, In1ScaleN) + I21, 7);
+			O[2*i  ] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScale, ActScaleN), 7);
+			O[2*i+1] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc1 + B0)) * C0 * Acc1, ActScale, ActScaleN), 7);
+		}
+		if (S&0x1) {
+			int Acc0 = gap_clip(AT_SCALE(I1[S-1], In1Scale, In1ScaleN) + I2[S-1], 7);
+			O[S-1] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScale, ActScaleN), 7);
+		}
+	} else if (OutScale) {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			int Acc0 = gap_clip(AT_SCALE(I10 + I20, OutScale, OutScaleN), 7);
+			int Acc1 = gap_clip(AT_SCALE(I11 + I21, OutScale, OutScaleN), 7);
+			O[2*i  ] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScale, ActScaleN), 7);
+			O[2*i+1] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc1 + B0)) * C0 * Acc1, ActScale, ActScaleN), 7);
+		}
+		if (S&0x1) {
+			int Acc0 = gap_clip(AT_SCALE(I1[S-1] + I2[S-1], OutScale, OutScaleN), 7);
+			O[S-1] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScale, ActScaleN), 7);
+		}
+	} else {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			int Acc0 = gap_clip(I10 + I20, 7);
+			int Acc1 = gap_clip(I11 + I21, 7);
+			O[2*i  ] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScale, ActScaleN), 7);
+			O[2*i+1] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc1 + B0)) * C0 * Acc1, ActScale, ActScaleN), 7);
+		}
+		if (S&0x1) {
+			int Acc0 = gap_clip(I1[S-1] + I2[S-1], 7);
+			O[S-1] = gap_clip(AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScale, ActScaleN), 7);
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParMatAdd_LeakyReLU_SQ8(KerMat3_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In1	= Arg->In1;
+	signed char * __restrict__ In2	= Arg->In2;
+	signed char * __restrict__ Out	= Arg->Out;
+	int W				= Arg->W;
+	int H				= Arg->H;
+	unsigned int In1Scale = ((unsigned char *)Arg->Infos)[AT_INF_IN1SCALE], In1ScaleN = ((unsigned char *)Arg->Infos)[AT_INF_IN1SCALEN];
+	unsigned int OutScale = ((unsigned char *)Arg->Infos)[AT_INF_OUTSCALE], OutScaleN = ((unsigned char *)Arg->Infos)[AT_INF_OUTSCALEN];
+	unsigned int ActScale = ((unsigned char *)Arg->Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Arg->Infos)[AT_INF_ACTSCALEN];
+	int A0 = Arg->Infos[AT_INF_A0], B0 = Arg->Infos[AT_INF_B0], C0 = Arg->Infos[AT_INF_C0];
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Arg->Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Arg->Feat);
+
+	unsigned int F = First*W*H, S = Max(0, Last*W*H-F);
+	signed char * __restrict__ I1 = In1 + F, *__restrict__ I2 = In2 + F, *__restrict__ O  = Out + F;
+	if (In1Scale && OutScale) {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			int Acc0 = gap_clip(AT_SCALE(AT_SCALE(I10, In1Scale, In1ScaleN) + I20, OutScale, OutScaleN), 7);
+			int Acc1 = gap_clip(AT_SCALE(AT_SCALE(I11, In1Scale, In1ScaleN) + I21, OutScale, OutScaleN), 7);
+			int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+	       		int Acc0N = AT_NORM(Acc0 * A0, 7);
+			O[2*i  ] = gap_clip(AT_SCALE((Neg0*Acc0N+Pos0*Acc0), ActScale, ActScaleN), 7);
+	       		int Neg1 = gap_bitextractu(Acc1, 1, 31), Pos1 = !Neg1;
+			int Acc1N = AT_NORM(Acc1 * A0, 7);
+			O[2*i+1] = gap_clip(AT_SCALE((Neg1*Acc1N+Pos1*Acc1), ActScale, ActScaleN), 7);
+		}
+		if (S&0x1) {
+			int Acc0 = gap_clip(AT_SCALE(AT_SCALE(I1[S-1], In1Scale, In1ScaleN) + I2[S-1], OutScale, OutScaleN), 7);
+			int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+	       		int Acc0N = AT_NORM(Acc0 * A0, 7);
+			O[S-1] = gap_clip(AT_SCALE((Neg0*Acc0N+Pos0*Acc0), ActScale, ActScaleN), 7);
+		}
+	} else if (In1Scale) {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			int Acc0 = gap_clip(AT_SCALE(I10, In1Scale, In1ScaleN) + I20, 7);
+			int Acc1 = gap_clip(AT_SCALE(I11, In1Scale, In1ScaleN) + I21, 7);
+			int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+	       		int Acc0N = AT_NORM(Acc0 * A0, 7);
+			O[2*i  ] = gap_clip(AT_SCALE((Neg0*Acc0N+Pos0*Acc0), ActScale, ActScaleN), 7);
+	       		int Neg1 = gap_bitextractu(Acc1, 1, 31), Pos1 = !Neg1;
+			int Acc1N = AT_NORM(Acc1 * A0, 7);
+			O[2*i+1] = gap_clip(AT_SCALE((Neg1*Acc1N+Pos1*Acc1), ActScale, ActScaleN), 7);
+		}
+		if (S&0x1) {
+			int Acc0 = gap_clip(AT_SCALE(I1[S-1], In1Scale, In1ScaleN) + I2[S-1], 7);
+			int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+	       		int Acc0N = AT_NORM(Acc0 * A0, 7);
+			O[S-1] = gap_clip(AT_SCALE((Neg0*Acc0N+Pos0*Acc0), ActScale, ActScaleN), 7);
+		}
+	} else if (OutScale) {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			int Acc0 = gap_clip(AT_SCALE(I10 + I20, OutScale, OutScaleN), 7);
+			int Acc1 = gap_clip(AT_SCALE(I11 + I21, OutScale, OutScaleN), 7);
+			int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+	       		int Acc0N = AT_NORM(Acc0 * A0, 7);
+			O[2*i  ] = gap_clip(AT_SCALE((Neg0*Acc0N+Pos0*Acc0), ActScale, ActScaleN), 7);
+	       		int Neg1 = gap_bitextractu(Acc1, 1, 31), Pos1 = !Neg1;
+			int Acc1N = AT_NORM(Acc1 * A0, 7);
+			O[2*i+1] = gap_clip(AT_SCALE((Neg1*Acc1N+Pos1*Acc1), ActScale, ActScaleN), 7);
+		}
+		if (S&0x1) {
+			int Acc0 = gap_clip(AT_SCALE(I1[S-1] + I2[S-1], OutScale, OutScaleN), 7);
+			int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+	       		int Acc0N = AT_NORM(Acc0 * A0, 7);
+			O[S-1] = gap_clip(AT_SCALE((Neg0*Acc0N+Pos0*Acc0), ActScale, ActScaleN), 7);
+		}
+	} else {
+		for (int i=0; i<S/2; i++) {
+			int I10=I1[2*i], I20=I2[2*i], I11=I1[2*i+1], I21=I2[2*i+1];
+			int Acc0 = gap_clip(I10 + I20, 7);
+			int Acc1 = gap_clip(I11 + I21, 7);
+			int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+	       		int Acc0N = AT_NORM(Acc0 * A0, 7);
+			O[2*i  ] = gap_clip(AT_SCALE((Neg0*Acc0N+Pos0*Acc0), ActScale, ActScaleN), 7);
+	       		int Neg1 = gap_bitextractu(Acc1, 1, 31), Pos1 = !Neg1;
+			int Acc1N = AT_NORM(Acc1 * A0, 7);
+			O[2*i+1] = gap_clip(AT_SCALE((Neg1*Acc1N+Pos1*Acc1), ActScale, ActScaleN), 7);
+		}
+		if (S&0x1) {
+			int Acc0 = gap_clip(I1[S-1] + I2[S-1], 7);
+			int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+	       		int Acc0N = AT_NORM(Acc0 * A0, 7);
+			O[S-1] = gap_clip(AT_SCALE((Neg0*Acc0N+Pos0*Acc0), ActScale, ActScaleN), 7);
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+/*************************************************************************************************************************************************
+	Matrix mult with channel centric scaling, followed by optional activation: ReLU and ReLUN. Other activations are implemented using
+	standalone activation kernels
+	Used to implement 1x1 convolution including strided convolutions
+*************************************************************************************************************************************************/
+
+/* 	Byte Bias */
+void KerParMatMulB8_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+	/*
+	 	Column buffer has to be sized in order to be able to accomodate up to 4 columns of size H_In2
+	*/
+        signed char * __restrict__ In1 = Arg->In1;
+        unsigned int W_In1 = Arg->W_In1;
+        unsigned int H_In1 = Arg->H_In1;
+        signed char * __restrict__ In2 = Arg->In2;
+        unsigned int W_In2 = Arg->W_In2;
+        signed char * __restrict__ Bias = Arg->Bias;
+        signed char * __restrict__ Out = Arg->Out;
+        unsigned int W_Out = Arg->W_Out;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+	unsigned int NormBias = Arg->NormBias;
+        unsigned int OutFirstCol = Arg->OutFirstCol;
+        signed char * __restrict__ BufferColIn2 = Arg->BufferColIn2;
+        int ColFirst = Arg->ColFirst;
+
+        unsigned int H_In2 = W_In1;
+        unsigned int H_Out = H_In1;
+        unsigned int Line, Col, i;
+        v4s * __restrict__ VBuff0 = (v4s *) BufferColIn2;
+        v4s * __restrict__ VBuff1 = (v4s *) (BufferColIn2+H_In2);
+        v4s * __restrict__ VBuff2 = (v4s *) (BufferColIn2+2*H_In2);
+        v4s * __restrict__ VBuff3 = (v4s *) (BufferColIn2+3*H_In2);
+
+        unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(H_In1), First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+        unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
+        int OffLine = 0, OffCol = 0;
+
+        if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
+        for (Col=0; Col<W_In2/4; Col++) {
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+4*Col+0];
+			int X1 = In2[i*W_In2+4*Col+1];
+			int X2 = In2[i*W_In2+4*Col+2];
+			int X3 = In2[i*W_In2+4*Col+3];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+4*Col+1];
+			BufferColIn2[i+2*H_In2] = X2; // In2[i*W_In2+4*Col+2];
+			BufferColIn2[i+3*H_In2] = X3; // In2[i*W_In2+4*Col+3];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0, S2=S0, S3=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                                S2 = gap_sumdotp4(V0, VBuff2[i], S2);
+                                S3 = gap_sumdotp4(V0, VBuff3[i], S3);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+				S2 += V0 * BufferColIn2[i+2*H_In2];
+				S3 += V0 * BufferColIn2[i+3*H_In2];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			v4s R = gap_pack4(gap_clip(AT_SCALE(S0, Sc, ScN), 7), gap_clip(AT_SCALE(S1, Sc, ScN), 7), gap_clip(AT_SCALE(S2, Sc, ScN), 7), gap_clip(AT_SCALE(S3, Sc, ScN), 7));
+			*((v4s *) (Out+(Line+OffLine)*W_Out+4*Col+0+OffCol)) = R;
+                }
+                gap_waitbarrier(0);
+        }
+	if (W_In2&0x2) {
+		Col = W_In2/2-1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+2*Col+0];
+			int X1 = In2[i*W_In2+2*Col+1];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+2*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+2*Col+1];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			Out[(Line+OffLine)*W_Out+2*Col+0+OffCol] = gap_clip(AT_SCALE(S0, Sc, ScN), 7);
+			Out[(Line+OffLine)*W_Out+2*Col+1+OffCol] = gap_clip(AT_SCALE(S1, Sc, ScN), 7);
+                }
+                gap_waitbarrier(0);
+	}
+	if (W_In2&0x1) {
+		Col = W_In2-1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+1*Col+0];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias);
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			Out[(Line+OffLine)*W_Out+1*Col+0+OffCol] = gap_clip(AT_SCALE(S0, Sc, ScN), 7);
+                }
+                gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulB8_ReLU_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+	/*
+	 	Column buffer has to be sized in order to be able to accomodate up to 4 columns of size H_In2
+	*/
+        signed char * __restrict__ In1 = Arg->In1;
+        unsigned int W_In1 = Arg->W_In1;
+        unsigned int H_In1 = Arg->H_In1;
+        signed char * __restrict__ In2 = Arg->In2;
+        unsigned int W_In2 = Arg->W_In2;
+        signed char * __restrict__ Bias = Arg->Bias;
+        signed char * __restrict__ Out = Arg->Out;
+        unsigned int W_Out = Arg->W_Out;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+	unsigned int NormBias = Arg->NormBias;
+        unsigned int OutFirstCol = Arg->OutFirstCol;
+        signed char * __restrict__ BufferColIn2 = Arg->BufferColIn2;
+        int ColFirst = Arg->ColFirst;
+
+        unsigned int H_In2 = W_In1;
+        unsigned int H_Out = H_In1;
+        unsigned int Line, Col, i;
+        v4s * __restrict__ VBuff0 = (v4s *) BufferColIn2;
+        v4s * __restrict__ VBuff1 = (v4s *) (BufferColIn2+H_In2);
+        v4s * __restrict__ VBuff2 = (v4s *) (BufferColIn2+2*H_In2);
+        v4s * __restrict__ VBuff3 = (v4s *) (BufferColIn2+3*H_In2);
+
+        unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(H_In1), First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+        unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
+        int OffLine = 0, OffCol = 0;
+
+        if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
+        for (Col=0; Col<W_In2/4; Col++) {
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+4*Col+0];
+			int X1 = In2[i*W_In2+4*Col+1];
+			int X2 = In2[i*W_In2+4*Col+2];
+			int X3 = In2[i*W_In2+4*Col+3];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+4*Col+1];
+			BufferColIn2[i+2*H_In2] = X2; // In2[i*W_In2+4*Col+2];
+			BufferColIn2[i+3*H_In2] = X3; // In2[i*W_In2+4*Col+3];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0, S2=S0, S3=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                                S2 = gap_sumdotp4(V0, VBuff2[i], S2);
+                                S3 = gap_sumdotp4(V0, VBuff3[i], S3);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+				S2 += V0 * BufferColIn2[i+2*H_In2];
+				S3 += V0 * BufferColIn2[i+3*H_In2];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			v4s R = gap_pack4(Max(0, gap_clip(AT_SCALE(S0, Sc, ScN), 7)), Max(0, gap_clip(AT_SCALE(S1, Sc, ScN), 7)),
+					  Max(0, gap_clip(AT_SCALE(S2, Sc, ScN), 7)), Max(0, gap_clip(AT_SCALE(S3, Sc, ScN), 7)));
+			*((v4s *) (Out+(Line+OffLine)*W_Out+4*Col+0+OffCol)) = R;
+                }
+                gap_waitbarrier(0);
+        }
+	if (W_In2&0x2) {
+		Col = W_In2/2 - 1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+2*Col+0];
+			int X1 = In2[i*W_In2+2*Col+1];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+2*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+2*Col+1];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			Out[(Line+OffLine)*W_Out+2*Col+0+OffCol] = Max(0, gap_clip(AT_SCALE(S0, Sc, ScN), 7));
+			Out[(Line+OffLine)*W_Out+2*Col+1+OffCol] = Max(0, gap_clip(AT_SCALE(S1, Sc, ScN), 7));
+                }
+                gap_waitbarrier(0);
+	}
+	if (W_In2&0x1) {
+		Col = W_In2-1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+1*Col+0];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias);
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			Out[(Line+OffLine)*W_Out+1*Col+0+OffCol] = Max(0, gap_clip(AT_SCALE(S0, Sc, ScN), 7));
+                }
+                gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulB8_ReLUN_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+	/*
+	 	Column buffer has to be sized in order to be able to accomodate up to 4 columns of size H_In2
+	*/
+        signed char * __restrict__ In1 = Arg->In1;
+        unsigned int W_In1 = Arg->W_In1;
+        unsigned int H_In1 = Arg->H_In1;
+        signed char * __restrict__ In2 = Arg->In2;
+        unsigned int W_In2 = Arg->W_In2;
+        signed char * __restrict__ Bias = Arg->Bias;
+        signed char * __restrict__ Out = Arg->Out;
+        unsigned int W_Out = Arg->W_Out;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+	unsigned int NormBias = Arg->NormBias;
+        unsigned int OutFirstCol = Arg->OutFirstCol;
+        signed char * __restrict__ BufferColIn2 = Arg->BufferColIn2;
+        int ColFirst = Arg->ColFirst;
+	int A0 = Arg->Infos[AT_INF_A0];
+
+        unsigned int H_In2 = W_In1;
+        unsigned int H_Out = H_In1;
+        unsigned int Line, Col, i;
+        v4s * __restrict__ VBuff0 = (v4s *) BufferColIn2;
+        v4s * __restrict__ VBuff1 = (v4s *) (BufferColIn2+H_In2);
+        v4s * __restrict__ VBuff2 = (v4s *) (BufferColIn2+2*H_In2);
+        v4s * __restrict__ VBuff3 = (v4s *) (BufferColIn2+3*H_In2);
+
+        unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(H_In1), First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+        unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
+        int OffLine = 0, OffCol = 0;
+
+        if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
+        for (Col=0; Col<W_In2/4; Col++) {
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+4*Col+0];
+			int X1 = In2[i*W_In2+4*Col+1];
+			int X2 = In2[i*W_In2+4*Col+2];
+			int X3 = In2[i*W_In2+4*Col+3];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+4*Col+1];
+			BufferColIn2[i+2*H_In2] = X2; // In2[i*W_In2+4*Col+2];
+			BufferColIn2[i+3*H_In2] = X3; // In2[i*W_In2+4*Col+3];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0, S2=S0, S3=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                                S2 = gap_sumdotp4(V0, VBuff2[i], S2);
+                                S3 = gap_sumdotp4(V0, VBuff3[i], S3);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+				S2 += V0 * BufferColIn2[i+2*H_In2];
+				S3 += V0 * BufferColIn2[i+3*H_In2];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			v4s R = gap_pack4(gap_clip(Max(0, Min(AT_SCALE(S0, Sc, ScN), A0)), 7), gap_clip(Max(0, Min(AT_SCALE(S1, Sc, ScN), A0)), 7),
+					  gap_clip(Max(0, Min(AT_SCALE(S2, Sc, ScN), A0)), 7), gap_clip(Max(0, Min(AT_SCALE(S3, Sc, ScN), A0)), 7));
+			*((v4s *) (Out+(Line+OffLine)*W_Out+4*Col+0+OffCol)) = R;
+                }
+                gap_waitbarrier(0);
+        }
+	if (W_In2&0x2) {
+		Col = W_In2/2 - 1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+2*Col+0];
+			int X1 = In2[i*W_In2+2*Col+1];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+2*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+2*Col+1];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			Out[(Line+OffLine)*W_Out+2*Col+0+OffCol] = gap_clip(Max(0, Min(AT_SCALE(S0, Sc, ScN), A0)), 7);
+			Out[(Line+OffLine)*W_Out+2*Col+1+OffCol] = gap_clip(Max(0, Min(AT_SCALE(S1, Sc, ScN), A0)), 7);
+                }
+                gap_waitbarrier(0);
+	}
+	if (W_In2&0x1) {
+		Col = W_In2-1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+1*Col+0];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias);
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			Out[(Line+OffLine)*W_Out+1*Col+0+OffCol] = gap_clip(Max(0, Min(AT_SCALE(S0, Sc, ScN), A0)), 7);
+                }
+                gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulSxSyB8_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+/*
+	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
+	In2 is  [InFeat][Width*Height]
+
+	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
+*/
+	signed char * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2;
+	signed char * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ Out = Arg->Out;
+	unsigned int W_Out = Arg->W_Out;
+	int Pi = Arg->OutFirstCol;
+	signed char *BufferColIn2 = Arg->BufferColIn2;
+	unsigned int NormBias = Arg->NormBias;
+	int Wi = Arg->W, Hi = Arg->H;
+	int Sx = Arg->Sx, Sy = Arg->Sy;
+	int ColFirst = Arg->ColFirst;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+
+	unsigned int H_In2 = W_In1;
+	unsigned int H_Out = H_In1;
+
+	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
+	int Oo, OffLine;
+	int At, F=0, L = W_In2;
+
+	unsigned int Line, Col, i;
+	v4s *VBuff = (v4s *) BufferColIn2;
+
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(H_In1), First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
+
+	At = 0; OffLine = 0; Oo = 0;
+	if (ColFirst) OffLine = Pi; else Oo = Pi;
+
+	while (L>0) {
+	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
+	       	gap_waitbarrier(0);
+	       	for (Line=First; Line<Last; Line++) {
+		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+		       	int S = (Bias[Line]<<NormBias);
+		       	for (i=0; i<(W_In1/(4*2)); i++) {
+				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
+				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
+			}
+			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
+		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+		       	Out[(Line+OffLine)*W_Out+Oo] = gap_clip(AT_SCALE(S, Sc, ScN), 7);
+	       	}
+		int nF = F+Sx;
+		if (nF<Wi) {
+			F = nF; At += Sx; L -= Sx; Oo++;
+		} else {
+			int d = Wi-F+(Sy-1)*Wi;
+			F = 0; L -= d; At += d; Oo++;
+		}
+	       	gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulSxSyB8_ReLU_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+/*
+	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
+	In2 is  [InFeat][Width*Height]
+
+	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
+*/
+	signed char * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2;
+	signed char * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ Out = Arg->Out;
+	unsigned int W_Out = Arg->W_Out;
+	int Pi = Arg->OutFirstCol;
+	signed char *BufferColIn2 = Arg->BufferColIn2;
+	unsigned int NormBias = Arg->NormBias;
+	int Wi = Arg->W, Hi = Arg->H;
+	int Sx = Arg->Sx, Sy = Arg->Sy;
+	int ColFirst = Arg->ColFirst;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+
+	unsigned int H_In2 = W_In1;
+	unsigned int H_Out = H_In1;
+
+	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
+	int Oo, OffLine;
+	int At, F=0, L = W_In2;
+
+	unsigned int Line, Col, i;
+	v4s *VBuff = (v4s *) BufferColIn2;
+
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(H_In1), First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
+
+	At = 0; OffLine = 0; Oo = 0;
+	if (ColFirst) OffLine = Pi; else Oo = Pi;
+
+	while (L>0) {
+	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
+	       	gap_waitbarrier(0);
+	       	for (Line=First; Line<Last; Line++) {
+		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+		       	int S = (Bias[Line]<<NormBias);
+		       	for (i=0; i<(W_In1/(4*2)); i++) {
+				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
+				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
+			}
+			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
+		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+		       	Out[(Line+OffLine)*W_Out+Oo] = Max(0, gap_clip(AT_SCALE(S, Sc, ScN), 7));
+	       	}
+		int nF = F+Sx;
+		if (nF<Wi) {
+			F = nF; At += Sx; L -= Sx; Oo++;
+		} else {
+			int d = Wi-F+(Sy-1)*Wi;
+			F = 0; L -= d; At += d; Oo++;
+		}
+	       	gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulSxSyB8_ReLUN_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+/*
+	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
+	In2 is  [InFeat][Width*Height]
+
+	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
+*/
+	signed char * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2;
+	signed char * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ Out = Arg->Out;
+	unsigned int W_Out = Arg->W_Out;
+	int Pi = Arg->OutFirstCol;
+	signed char *BufferColIn2 = Arg->BufferColIn2;
+	unsigned int NormBias = Arg->NormBias;
+	int Wi = Arg->W, Hi = Arg->H;
+	int Sx = Arg->Sx, Sy = Arg->Sy;
+	int ColFirst = Arg->ColFirst;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+	int A0 = Arg->Infos[AT_INF_A0];
+
+	unsigned int H_In2 = W_In1;
+	unsigned int H_Out = H_In1;
+
+	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
+	int Oo, OffLine;
+	int At, F=0, L = W_In2;
+
+	unsigned int Line, Col, i;
+	v4s *VBuff = (v4s *) BufferColIn2;
+
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(H_In1), First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
+
+	At = 0; OffLine = 0; Oo = 0;
+	if (ColFirst) OffLine = Pi; else Oo = Pi;
+
+	while (L>0) {
+	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
+	       	gap_waitbarrier(0);
+	       	for (Line=First; Line<Last; Line++) {
+		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+		       	int S = (Bias[Line]<<NormBias);
+		       	for (i=0; i<(W_In1/(4*2)); i++) {
+				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
+				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
+			}
+			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
+		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+		       	Out[(Line+OffLine)*W_Out+Oo] = gap_clip(Max(0, Min(AT_SCALE(S, Sc, ScN), A0)), 7);
+	       	}
+		int nF = F+Sx;
+		if (nF<Wi) {
+			F = nF; At += Sx; L -= Sx; Oo++;
+		} else {
+			int d = Wi-F+(Sy-1)*Wi;
+			F = 0; L -= d; At += d; Oo++;
+		}
+	       	gap_waitbarrier(0);
+	}
+}
+
+/* 	Half Word Bias */
+void KerParMatMulB16_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+	/*
+	 	Column buffer has to be sized in order to be able to accomodate up to 4 columns of size H_In2
+	*/
+        signed char * __restrict__ In1 = Arg->In1;
+        unsigned int W_In1 = Arg->W_In1;
+        unsigned int H_In1 = Arg->H_In1;
+        signed char * __restrict__ In2 = Arg->In2;
+        unsigned int W_In2 = Arg->W_In2;
+        short int * __restrict__ Bias = Arg->Bias;
+        signed char * __restrict__ Out = Arg->Out;
+        unsigned int W_Out = Arg->W_Out;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+	unsigned int NormBias = Arg->NormBias;
+        unsigned int OutFirstCol = Arg->OutFirstCol;
+        signed char * __restrict__ BufferColIn2 = Arg->BufferColIn2;
+        int ColFirst = Arg->ColFirst;
+
+        unsigned int H_In2 = W_In1;
+        unsigned int H_Out = H_In1;
+        unsigned int Line, Col, i;
+        v4s * __restrict__ VBuff0 = (v4s *) BufferColIn2;
+        v4s * __restrict__ VBuff1 = (v4s *) (BufferColIn2+H_In2);
+        v4s * __restrict__ VBuff2 = (v4s *) (BufferColIn2+2*H_In2);
+        v4s * __restrict__ VBuff3 = (v4s *) (BufferColIn2+3*H_In2);
+
+        unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(H_In1), First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+        unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
+        int OffLine = 0, OffCol = 0;
+
+        if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
+        for (Col=0; Col<W_In2/4; Col++) {
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+4*Col+0];
+			int X1 = In2[i*W_In2+4*Col+1];
+			int X2 = In2[i*W_In2+4*Col+2];
+			int X3 = In2[i*W_In2+4*Col+3];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+4*Col+1];
+			BufferColIn2[i+2*H_In2] = X2; // In2[i*W_In2+4*Col+2];
+			BufferColIn2[i+3*H_In2] = X3; // In2[i*W_In2+4*Col+3];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0, S2=S0, S3=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                                S2 = gap_sumdotp4(V0, VBuff2[i], S2);
+                                S3 = gap_sumdotp4(V0, VBuff3[i], S3);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+				S2 += V0 * BufferColIn2[i+2*H_In2];
+				S3 += V0 * BufferColIn2[i+3*H_In2];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			v4s R = gap_pack4(gap_clip(AT_SCALE(S0, Sc, ScN), 7), gap_clip(AT_SCALE(S1, Sc, ScN), 7), gap_clip(AT_SCALE(S2, Sc, ScN), 7), gap_clip(AT_SCALE(S3, Sc, ScN), 7));
+			*((v4s *) (Out+(Line+OffLine)*W_Out+4*Col+0+OffCol)) = R;
+                }
+                gap_waitbarrier(0);
+        }
+	if (W_In2&0x2) {
+		Col = W_In2/2 - 1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+2*Col+0];
+			int X1 = In2[i*W_In2+2*Col+1];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+2*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+2*Col+1];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			Out[(Line+OffLine)*W_Out+2*Col+0+OffCol] = gap_clip(AT_SCALE(S0, Sc, ScN), 7);
+			Out[(Line+OffLine)*W_Out+2*Col+1+OffCol] = gap_clip(AT_SCALE(S1, Sc, ScN), 7);
+                }
+                gap_waitbarrier(0);
+	}
+	if (W_In2&0x1) {
+		Col = W_In2-1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+1*Col+0];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias);
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			Out[(Line+OffLine)*W_Out+1*Col+0+OffCol] = gap_clip(AT_SCALE(S0, Sc, ScN), 7);
+                }
+                gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulB16_ReLU_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+	/*
+	 	Column buffer has to be sized in order to be able to accomodate up to 4 columns of size H_In2
+	*/
+        signed char * __restrict__ In1 = Arg->In1;
+        unsigned int W_In1 = Arg->W_In1;
+        unsigned int H_In1 = Arg->H_In1;
+        signed char * __restrict__ In2 = Arg->In2;
+        unsigned int W_In2 = Arg->W_In2;
+        short int * __restrict__ Bias = Arg->Bias;
+        signed char * __restrict__ Out = Arg->Out;
+        unsigned int W_Out = Arg->W_Out;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+	unsigned int NormBias = Arg->NormBias;
+        unsigned int OutFirstCol = Arg->OutFirstCol;
+        signed char * __restrict__ BufferColIn2 = Arg->BufferColIn2;
+        int ColFirst = Arg->ColFirst;
+
+        unsigned int H_In2 = W_In1;
+        unsigned int H_Out = H_In1;
+        unsigned int Line, Col, i;
+        v4s * __restrict__ VBuff0 = (v4s *) BufferColIn2;
+        v4s * __restrict__ VBuff1 = (v4s *) (BufferColIn2+H_In2);
+        v4s * __restrict__ VBuff2 = (v4s *) (BufferColIn2+2*H_In2);
+        v4s * __restrict__ VBuff3 = (v4s *) (BufferColIn2+3*H_In2);
+
+        unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(H_In1), First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+        unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
+        int OffLine = 0, OffCol = 0;
+
+        if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
+        for (Col=0; Col<W_In2/4; Col++) {
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+4*Col+0];
+			int X1 = In2[i*W_In2+4*Col+1];
+			int X2 = In2[i*W_In2+4*Col+2];
+			int X3 = In2[i*W_In2+4*Col+3];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+4*Col+1];
+			BufferColIn2[i+2*H_In2] = X2; // In2[i*W_In2+4*Col+2];
+			BufferColIn2[i+3*H_In2] = X3; // In2[i*W_In2+4*Col+3];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0, S2=S0, S3=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                                S2 = gap_sumdotp4(V0, VBuff2[i], S2);
+                                S3 = gap_sumdotp4(V0, VBuff3[i], S3);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+				S2 += V0 * BufferColIn2[i+2*H_In2];
+				S3 += V0 * BufferColIn2[i+3*H_In2];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			v4s R = gap_pack4(Max(0, gap_clip(AT_SCALE(S0, Sc, ScN), 7)), Max(0, gap_clip(AT_SCALE(S1, Sc, ScN), 7)),
+					  Max(0, gap_clip(AT_SCALE(S2, Sc, ScN), 7)), Max(0, gap_clip(AT_SCALE(S3, Sc, ScN), 7)));
+			*((v4s *) (Out+(Line+OffLine)*W_Out+4*Col+0+OffCol)) = R;
+                }
+                gap_waitbarrier(0);
+        }
+	if (W_In2&0x2) {
+		Col = W_In2/2 - 1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+2*Col+0];
+			int X1 = In2[i*W_In2+2*Col+1];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+2*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+2*Col+1];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			Out[(Line+OffLine)*W_Out+2*Col+0+OffCol] = Max(0, gap_clip(AT_SCALE(S0, Sc, ScN), 7));
+			Out[(Line+OffLine)*W_Out+2*Col+1+OffCol] = Max(0, gap_clip(AT_SCALE(S1, Sc, ScN), 7));
+                }
+                gap_waitbarrier(0);
+	}
+	if (W_In2&0x1) {
+		Col = W_In2-1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+1*Col+0];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias);
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			Out[(Line+OffLine)*W_Out+1*Col+0+OffCol] = Max(0, gap_clip(AT_SCALE(S0, Sc, ScN), 7));
+                }
+                gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulB16_ReLUN_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+	/*
+	 	Column buffer has to be sized in order to be able to accomodate up to 4 columns of size H_In2
+	*/
+        signed char * __restrict__ In1 = Arg->In1;
+        unsigned int W_In1 = Arg->W_In1;
+        unsigned int H_In1 = Arg->H_In1;
+        signed char * __restrict__ In2 = Arg->In2;
+        unsigned int W_In2 = Arg->W_In2;
+        short int * __restrict__ Bias = Arg->Bias;
+        signed char * __restrict__ Out = Arg->Out;
+        unsigned int W_Out = Arg->W_Out;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+	unsigned int NormBias = Arg->NormBias;
+        unsigned int OutFirstCol = Arg->OutFirstCol;
+        signed char * __restrict__ BufferColIn2 = Arg->BufferColIn2;
+        int ColFirst = Arg->ColFirst;
+	int A0 = Arg->Infos[AT_INF_A0];
+
+        unsigned int H_In2 = W_In1;
+        unsigned int H_Out = H_In1;
+        unsigned int Line, Col, i;
+        v4s * __restrict__ VBuff0 = (v4s *) BufferColIn2;
+        v4s * __restrict__ VBuff1 = (v4s *) (BufferColIn2+H_In2);
+        v4s * __restrict__ VBuff2 = (v4s *) (BufferColIn2+2*H_In2);
+        v4s * __restrict__ VBuff3 = (v4s *) (BufferColIn2+3*H_In2);
+
+        unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(H_In1), First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+        unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
+        int OffLine = 0, OffCol = 0;
+
+        if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
+        for (Col=0; Col<W_In2/4; Col++) {
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+4*Col+0];
+			int X1 = In2[i*W_In2+4*Col+1];
+			int X2 = In2[i*W_In2+4*Col+2];
+			int X3 = In2[i*W_In2+4*Col+3];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+4*Col+1];
+			BufferColIn2[i+2*H_In2] = X2; // In2[i*W_In2+4*Col+2];
+			BufferColIn2[i+3*H_In2] = X3; // In2[i*W_In2+4*Col+3];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0, S2=S0, S3=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                                S2 = gap_sumdotp4(V0, VBuff2[i], S2);
+                                S3 = gap_sumdotp4(V0, VBuff3[i], S3);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+				S2 += V0 * BufferColIn2[i+2*H_In2];
+				S3 += V0 * BufferColIn2[i+3*H_In2];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			v4s R = gap_pack4(gap_clip(Max(0, Min(AT_SCALE(S0, Sc, ScN), A0)), 7), gap_clip(Max(0, Min(AT_SCALE(S1, Sc, ScN), A0)), 7),
+					  gap_clip(Max(0, Min(AT_SCALE(S2, Sc, ScN), A0)), 7), gap_clip(Max(0, Min(AT_SCALE(S3, Sc, ScN), A0)), 7));
+			*((v4s *) (Out+(Line+OffLine)*W_Out+4*Col+0+OffCol)) = R;
+                }
+                gap_waitbarrier(0);
+        }
+	if (W_In2&0x2) {
+		Col = W_In2/2 - 1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+2*Col+0];
+			int X1 = In2[i*W_In2+2*Col+1];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+2*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+2*Col+1];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			Out[(Line+OffLine)*W_Out+2*Col+0+OffCol] = gap_clip(Max(0, Min(AT_SCALE(S0, Sc, ScN), A0)), 7);
+			Out[(Line+OffLine)*W_Out+2*Col+1+OffCol] = gap_clip(Max(0, Min(AT_SCALE(S1, Sc, ScN), A0)), 7);
+                }
+                gap_waitbarrier(0);
+	}
+	if (W_In2&0x1) {
+		Col = W_In2-1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+1*Col+0];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias);
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			Out[(Line+OffLine)*W_Out+1*Col+0+OffCol] = gap_clip(Max(0, Min(AT_SCALE(S0, Sc, ScN), A0)), 7);
+                }
+                gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulSxSyB16_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+/*
+	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
+	In2 is  [InFeat][Width*Height]
+
+	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
+*/
+	signed char * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2;
+	short int * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ Out = Arg->Out;
+	unsigned int W_Out = Arg->W_Out;
+	int Pi = Arg->OutFirstCol;
+	signed char *BufferColIn2 = Arg->BufferColIn2;
+	unsigned int NormBias = Arg->NormBias;
+	int Wi = Arg->W, Hi = Arg->H;
+	int Sx = Arg->Sx, Sy = Arg->Sy;
+	int ColFirst = Arg->ColFirst;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+
+	unsigned int H_In2 = W_In1;
+	unsigned int H_Out = H_In1;
+
+	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
+	int Oo, OffLine;
+	int At, F=0, L = W_In2;
+
+	unsigned int Line, Col, i;
+	v4s *VBuff = (v4s *) BufferColIn2;
+
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(H_In1), First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
+
+	At = 0; OffLine = 0; Oo = 0;
+	if (ColFirst) OffLine = Pi; else Oo = Pi;
+
+	while (L>0) {
+	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
+	       	gap_waitbarrier(0);
+	       	for (Line=First; Line<Last; Line++) {
+		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+		       	int S = (Bias[Line]<<NormBias);
+		       	for (i=0; i<(W_In1/(4*2)); i++) {
+				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
+				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
+			}
+			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
+		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+		       	Out[(Line+OffLine)*W_Out+Oo] = gap_clip(AT_SCALE(S, Sc, ScN), 7);
+	       	}
+		int nF = F+Sx;
+		if (nF<Wi) {
+			F = nF; At += Sx; L -= Sx; Oo++;
+		} else {
+			int d = Wi-F+(Sy-1)*Wi;
+			F = 0; L -= d; At += d; Oo++;
+		}
+	       	gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulSxSyB16_ReLU_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+/*
+	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
+	In2 is  [InFeat][Width*Height]
+
+	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
+*/
+	signed char * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2;
+	short int * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ Out = Arg->Out;
+	unsigned int W_Out = Arg->W_Out;
+	int Pi = Arg->OutFirstCol;
+	signed char *BufferColIn2 = Arg->BufferColIn2;
+	unsigned int NormBias = Arg->NormBias;
+	int Wi = Arg->W, Hi = Arg->H;
+	int Sx = Arg->Sx, Sy = Arg->Sy;
+	int ColFirst = Arg->ColFirst;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+
+	unsigned int H_In2 = W_In1;
+	unsigned int H_Out = H_In1;
+
+	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
+	int Oo, OffLine;
+	int At, F=0, L = W_In2;
+
+	unsigned int Line, Col, i;
+	v4s *VBuff = (v4s *) BufferColIn2;
+
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(H_In1), First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
+
+	At = 0; OffLine = 0; Oo = 0;
+	if (ColFirst) OffLine = Pi; else Oo = Pi;
+
+	while (L>0) {
+	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
+	       	gap_waitbarrier(0);
+	       	for (Line=First; Line<Last; Line++) {
+		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+		       	int S = (Bias[Line]<<NormBias);
+		       	for (i=0; i<(W_In1/(4*2)); i++) {
+				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
+				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
+			}
+			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
+		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+		       	Out[(Line+OffLine)*W_Out+Oo] = Max(0, gap_clip(AT_SCALE(S, Sc, ScN), 7));
+	       	}
+		int nF = F+Sx;
+		if (nF<Wi) {
+			F = nF; At += Sx; L -= Sx; Oo++;
+		} else {
+			int d = Wi-F+(Sy-1)*Wi;
+			F = 0; L -= d; At += d; Oo++;
+		}
+	       	gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulSxSyB16_ReLUN_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+/*
+	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
+	In2 is  [InFeat][Width*Height]
+
+	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
+*/
+	signed char * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2;
+	short int * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ Out = Arg->Out;
+	unsigned int W_Out = Arg->W_Out;
+	int Pi = Arg->OutFirstCol;
+	signed char *BufferColIn2 = Arg->BufferColIn2;
+	unsigned int NormBias = Arg->NormBias;
+	int Wi = Arg->W, Hi = Arg->H;
+	int Sx = Arg->Sx, Sy = Arg->Sy;
+	int ColFirst = Arg->ColFirst;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+	int A0 = Arg->Infos[AT_INF_A0];
+
+	unsigned int H_In2 = W_In1;
+	unsigned int H_Out = H_In1;
+
+	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
+	int Oo, OffLine;
+	int At, F=0, L = W_In2;
+
+	unsigned int Line, Col, i;
+	v4s *VBuff = (v4s *) BufferColIn2;
+
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(H_In1), First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
+
+	At = 0; OffLine = 0; Oo = 0;
+	if (ColFirst) OffLine = Pi; else Oo = Pi;
+
+	while (L>0) {
+	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
+	       	gap_waitbarrier(0);
+	       	for (Line=First; Line<Last; Line++) {
+		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+		       	int S = (Bias[Line]<<NormBias);
+		       	for (i=0; i<(W_In1/(4*2)); i++) {
+				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
+				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
+			}
+			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
+		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+		       	Out[(Line+OffLine)*W_Out+Oo] = gap_clip(Max(0, Min(AT_SCALE(S, Sc, ScN), A0)), 7);
+	       	}
+		int nF = F+Sx;
+		if (nF<Wi) {
+			F = nF; At += Sx; L -= Sx; Oo++;
+		} else {
+			int d = Wi-F+(Sy-1)*Wi;
+			F = 0; L -= d; At += d; Oo++;
+		}
+	       	gap_waitbarrier(0);
+	}
+}
+
+/* 	Word Bias */
+void KerParMatMulB32_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+	/*
+	 	Column buffer has to be sized in order to be able to accomodate up to 4 columns of size H_In2
+	*/
+        signed char * __restrict__ In1 = Arg->In1;
+        unsigned int W_In1 = Arg->W_In1;
+        unsigned int H_In1 = Arg->H_In1;
+        signed char * __restrict__ In2 = Arg->In2;
+        unsigned int W_In2 = Arg->W_In2;
+        int * __restrict__ Bias = Arg->Bias;
+        signed char * __restrict__ Out = Arg->Out;
+        unsigned int W_Out = Arg->W_Out;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+	unsigned int NormBias = Arg->NormBias;
+        unsigned int OutFirstCol = Arg->OutFirstCol;
+        signed char * __restrict__ BufferColIn2 = Arg->BufferColIn2;
+        int ColFirst = Arg->ColFirst;
+
+        unsigned int H_In2 = W_In1;
+        unsigned int H_Out = H_In1;
+        unsigned int Line, Col, i;
+        v4s * __restrict__ VBuff0 = (v4s *) BufferColIn2;
+        v4s * __restrict__ VBuff1 = (v4s *) (BufferColIn2+H_In2);
+        v4s * __restrict__ VBuff2 = (v4s *) (BufferColIn2+2*H_In2);
+        v4s * __restrict__ VBuff3 = (v4s *) (BufferColIn2+3*H_In2);
+
+        unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(H_In1), First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+        unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
+        int OffLine = 0, OffCol = 0;
+
+        if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
+        for (Col=0; Col<W_In2/4; Col++) {
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+4*Col+0];
+			int X1 = In2[i*W_In2+4*Col+1];
+			int X2 = In2[i*W_In2+4*Col+2];
+			int X3 = In2[i*W_In2+4*Col+3];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+4*Col+1];
+			BufferColIn2[i+2*H_In2] = X2; // In2[i*W_In2+4*Col+2];
+			BufferColIn2[i+3*H_In2] = X3; // In2[i*W_In2+4*Col+3];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0, S2=S0, S3=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                                S2 = gap_sumdotp4(V0, VBuff2[i], S2);
+                                S3 = gap_sumdotp4(V0, VBuff3[i], S3);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+				S2 += V0 * BufferColIn2[i+2*H_In2];
+				S3 += V0 * BufferColIn2[i+3*H_In2];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			v4s R = gap_pack4(gap_clip(AT_SCALE(S0, Sc, ScN), 7), gap_clip(AT_SCALE(S1, Sc, ScN), 7), gap_clip(AT_SCALE(S2, Sc, ScN), 7), gap_clip(AT_SCALE(S3, Sc, ScN), 7));
+			*((v4s *) (Out+(Line+OffLine)*W_Out+4*Col+0+OffCol)) = R;
+                }
+                gap_waitbarrier(0);
+        }
+	if (W_In2&0x2) {
+		Col = W_In2/2 - 1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+2*Col+0];
+			int X1 = In2[i*W_In2+2*Col+1];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+2*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+2*Col+1];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			Out[(Line+OffLine)*W_Out+2*Col+0+OffCol] = gap_clip(AT_SCALE(S0, Sc, ScN), 7);
+			Out[(Line+OffLine)*W_Out+2*Col+1+OffCol] = gap_clip(AT_SCALE(S1, Sc, ScN), 7);
+                }
+                gap_waitbarrier(0);
+	}
+	if (W_In2&0x1) {
+		Col = W_In2-1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+1*Col+0];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias);
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			Out[(Line+OffLine)*W_Out+1*Col+0+OffCol] = gap_clip(AT_SCALE(S0, Sc, ScN), 7);
+                }
+                gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulB32_ReLU_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+	/*
+	 	Column buffer has to be sized in order to be able to accomodate up to 4 columns of size H_In2
+	*/
+        signed char * __restrict__ In1 = Arg->In1;
+        unsigned int W_In1 = Arg->W_In1;
+        unsigned int H_In1 = Arg->H_In1;
+        signed char * __restrict__ In2 = Arg->In2;
+        unsigned int W_In2 = Arg->W_In2;
+        int * __restrict__ Bias = Arg->Bias;
+        signed char * __restrict__ Out = Arg->Out;
+        unsigned int W_Out = Arg->W_Out;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+	unsigned int NormBias = Arg->NormBias;
+        unsigned int OutFirstCol = Arg->OutFirstCol;
+        signed char * __restrict__ BufferColIn2 = Arg->BufferColIn2;
+        int ColFirst = Arg->ColFirst;
+
+        unsigned int H_In2 = W_In1;
+        unsigned int H_Out = H_In1;
+        unsigned int Line, Col, i;
+        v4s * __restrict__ VBuff0 = (v4s *) BufferColIn2;
+        v4s * __restrict__ VBuff1 = (v4s *) (BufferColIn2+H_In2);
+        v4s * __restrict__ VBuff2 = (v4s *) (BufferColIn2+2*H_In2);
+        v4s * __restrict__ VBuff3 = (v4s *) (BufferColIn2+3*H_In2);
+
+        unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(H_In1), First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+        unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
+        int OffLine = 0, OffCol = 0;
+
+        if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
+        for (Col=0; Col<W_In2/4; Col++) {
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+4*Col+0];
+			int X1 = In2[i*W_In2+4*Col+1];
+			int X2 = In2[i*W_In2+4*Col+2];
+			int X3 = In2[i*W_In2+4*Col+3];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+4*Col+1];
+			BufferColIn2[i+2*H_In2] = X2; // In2[i*W_In2+4*Col+2];
+			BufferColIn2[i+3*H_In2] = X3; // In2[i*W_In2+4*Col+3];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0, S2=S0, S3=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                                S2 = gap_sumdotp4(V0, VBuff2[i], S2);
+                                S3 = gap_sumdotp4(V0, VBuff3[i], S3);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+				S2 += V0 * BufferColIn2[i+2*H_In2];
+				S3 += V0 * BufferColIn2[i+3*H_In2];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			v4s R = gap_pack4(Max(0, gap_clip(AT_SCALE(S0, Sc, ScN), 7)), Max(0, gap_clip(AT_SCALE(S1, Sc, ScN), 7)),
+					  Max(0, gap_clip(AT_SCALE(S2, Sc, ScN), 7)), Max(0, gap_clip(AT_SCALE(S3, Sc, ScN), 7)));
+			*((v4s *) (Out+(Line+OffLine)*W_Out+4*Col+0+OffCol)) = R;
+                }
+                gap_waitbarrier(0);
+        }
+	if (W_In2&0x2) {
+		Col = W_In2/2 - 1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+2*Col+0];
+			int X1 = In2[i*W_In2+2*Col+1];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+2*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+2*Col+1];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			Out[(Line+OffLine)*W_Out+2*Col+0+OffCol] = Max(0, gap_clip(AT_SCALE(S0, Sc, ScN), 7));
+			Out[(Line+OffLine)*W_Out+2*Col+1+OffCol] = Max(0, gap_clip(AT_SCALE(S1, Sc, ScN), 7));
+                }
+                gap_waitbarrier(0);
+	}
+	if (W_In2&0x1) {
+		Col = W_In2-1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+1*Col+0];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias);
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			Out[(Line+OffLine)*W_Out+1*Col+0+OffCol] = Max(0, gap_clip(AT_SCALE(S0, Sc, ScN), 7));
+                }
+                gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulB32_ReLUN_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+	/*
+	 	Column buffer has to be sized in order to be able to accomodate up to 4 columns of size H_In2
+	*/
+        signed char * __restrict__ In1 = Arg->In1;
+        unsigned int W_In1 = Arg->W_In1;
+        unsigned int H_In1 = Arg->H_In1;
+        signed char * __restrict__ In2 = Arg->In2;
+        unsigned int W_In2 = Arg->W_In2;
+        int * __restrict__ Bias = Arg->Bias;
+        signed char * __restrict__ Out = Arg->Out;
+        unsigned int W_Out = Arg->W_Out;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+	unsigned int NormBias = Arg->NormBias;
+        unsigned int OutFirstCol = Arg->OutFirstCol;
+        signed char * __restrict__ BufferColIn2 = Arg->BufferColIn2;
+        int ColFirst = Arg->ColFirst;
+	int A0 = Arg->Infos[AT_INF_A0];
+
+        unsigned int H_In2 = W_In1;
+        unsigned int H_Out = H_In1;
+        unsigned int Line, Col, i;
+        v4s * __restrict__ VBuff0 = (v4s *) BufferColIn2;
+        v4s * __restrict__ VBuff1 = (v4s *) (BufferColIn2+H_In2);
+        v4s * __restrict__ VBuff2 = (v4s *) (BufferColIn2+2*H_In2);
+        v4s * __restrict__ VBuff3 = (v4s *) (BufferColIn2+3*H_In2);
+
+        unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(H_In1), First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+        unsigned int C = ChunkSize(H_In2), F = CoreId*C, L  = Min(H_In2, F+C);
+        int OffLine = 0, OffCol = 0;
+
+        if (ColFirst) OffLine = OutFirstCol; else OffCol = OutFirstCol;
+        for (Col=0; Col<W_In2/4; Col++) {
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+4*Col+0];
+			int X1 = In2[i*W_In2+4*Col+1];
+			int X2 = In2[i*W_In2+4*Col+2];
+			int X3 = In2[i*W_In2+4*Col+3];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+4*Col+1];
+			BufferColIn2[i+2*H_In2] = X2; // In2[i*W_In2+4*Col+2];
+			BufferColIn2[i+3*H_In2] = X3; // In2[i*W_In2+4*Col+3];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0, S2=S0, S3=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                                S2 = gap_sumdotp4(V0, VBuff2[i], S2);
+                                S3 = gap_sumdotp4(V0, VBuff3[i], S3);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+				S2 += V0 * BufferColIn2[i+2*H_In2];
+				S3 += V0 * BufferColIn2[i+3*H_In2];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			v4s R = gap_pack4(gap_clip(Max(0, Min(AT_SCALE(S0, Sc, ScN), A0)), 7), gap_clip(Max(0, Min(AT_SCALE(S1, Sc, ScN), A0)), 7),
+					  gap_clip(Max(0, Min(AT_SCALE(S2, Sc, ScN), A0)), 7), gap_clip(Max(0, Min(AT_SCALE(S3, Sc, ScN), A0)), 7));
+			*((v4s *) (Out+(Line+OffLine)*W_Out+4*Col+0+OffCol)) = R;
+                }
+                gap_waitbarrier(0);
+        }
+	if (W_In2&0x2) {
+		Col = W_In2/2 - 1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+2*Col+0];
+			int X1 = In2[i*W_In2+2*Col+1];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+2*Col+0];
+			BufferColIn2[i+1*H_In2] = X1; // In2[i*W_In2+2*Col+1];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias), S1=S0;
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                                S1 = gap_sumdotp4(V0, VBuff1[i], S1);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+				S1 += V0 * BufferColIn2[i+1*H_In2];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			Out[(Line+OffLine)*W_Out+2*Col+0+OffCol] = gap_clip(Max(0, Min(AT_SCALE(S0, Sc, ScN), A0)), 7);
+			Out[(Line+OffLine)*W_Out+2*Col+1+OffCol] = gap_clip(Max(0, Min(AT_SCALE(S1, Sc, ScN), A0)), 7);
+                }
+                gap_waitbarrier(0);
+	}
+	if (W_In2&0x1) {
+		Col = W_In2-1;
+                for (i=F;i<L; i++) {
+			int X0 = In2[i*W_In2+1*Col+0];
+			BufferColIn2[i+0*H_In2] = X0; // In2[i*W_In2+4*Col+0];
+		}
+                gap_waitbarrier(0);
+                for (Line=First; Line<Last; Line++) {
+                        v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+                        int S0 = (Bias[Line]<<NormBias);
+                        for (i=0; i<(W_In1/4); i++) {
+				v4s V0 = VIn1[i];
+                                S0 = gap_sumdotp4(V0, VBuff0[i], S0);
+                        }
+                        for (i=(W_In1/4)*4; i<W_In1; i++) {
+				int V0 = In1[Line*W_In1 + i];
+				S0 += V0 * BufferColIn2[i];
+			}
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+			Out[(Line+OffLine)*W_Out+1*Col+0+OffCol] = gap_clip(Max(0, Min(AT_SCALE(S0, Sc, ScN), A0)), 7);
+                }
+                gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulSxSyB32_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+/*
+	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
+	In2 is  [InFeat][Width*Height]
+
+	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
+*/
+	signed char * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2;
+	int * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ Out = Arg->Out;
+	unsigned int W_Out = Arg->W_Out;
+	int Pi = Arg->OutFirstCol;
+	signed char *BufferColIn2 = Arg->BufferColIn2;
+	unsigned int NormBias = Arg->NormBias;
+	int Wi = Arg->W, Hi = Arg->H;
+	int Sx = Arg->Sx, Sy = Arg->Sy;
+	int ColFirst = Arg->ColFirst;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+
+	unsigned int H_In2 = W_In1;
+	unsigned int H_Out = H_In1;
+
+	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
+	int Oo, OffLine;
+	int At, F=0, L = W_In2;
+
+	unsigned int Line, Col, i;
+	v4s *VBuff = (v4s *) BufferColIn2;
+
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(H_In1), First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
+
+	At = 0; OffLine = 0; Oo = 0;
+	if (ColFirst) OffLine = Pi; else Oo = Pi;
+
+	while (L>0) {
+	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
+	       	gap_waitbarrier(0);
+	       	for (Line=First; Line<Last; Line++) {
+		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+		       	int S = (Bias[Line]<<NormBias);
+		       	for (i=0; i<(W_In1/(4*2)); i++) {
+				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
+				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
+			}
+			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
+		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+		       	Out[(Line+OffLine)*W_Out+Oo] = gap_clip(AT_SCALE(S, Sc, ScN), 7);
+	       	}
+		int nF = F+Sx;
+		if (nF<Wi) {
+			F = nF; At += Sx; L -= Sx; Oo++;
+		} else {
+			int d = Wi-F+(Sy-1)*Wi;
+			F = 0; L -= d; At += d; Oo++;
+		}
+	       	gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulSxSyB32_ReLU_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+/*
+	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
+	In2 is  [InFeat][Width*Height]
+
+	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
+*/
+	signed char * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2;
+	int * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ Out = Arg->Out;
+	unsigned int W_Out = Arg->W_Out;
+	int Pi = Arg->OutFirstCol;
+	signed char *BufferColIn2 = Arg->BufferColIn2;
+	unsigned int NormBias = Arg->NormBias;
+	int Wi = Arg->W, Hi = Arg->H;
+	int Sx = Arg->Sx, Sy = Arg->Sy;
+	int ColFirst = Arg->ColFirst;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+
+	unsigned int H_In2 = W_In1;
+	unsigned int H_Out = H_In1;
+
+	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
+	int Oo, OffLine;
+	int At, F=0, L = W_In2;
+
+	unsigned int Line, Col, i;
+	v4s *VBuff = (v4s *) BufferColIn2;
+
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(H_In1), First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
+
+	At = 0; OffLine = 0; Oo = 0;
+	if (ColFirst) OffLine = Pi; else Oo = Pi;
+
+	while (L>0) {
+	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
+	       	gap_waitbarrier(0);
+	       	for (Line=First; Line<Last; Line++) {
+		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+		       	int S = (Bias[Line]<<NormBias);
+		       	for (i=0; i<(W_In1/(4*2)); i++) {
+				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
+				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
+			}
+			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
+		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+		       	Out[(Line+OffLine)*W_Out+Oo] = Max(0, gap_clip(AT_SCALE(S, Sc, ScN), 7));
+	       	}
+		int nF = F+Sx;
+		if (nF<Wi) {
+			F = nF; At += Sx; L -= Sx; Oo++;
+		} else {
+			int d = Wi-F+(Sy-1)*Wi;
+			F = 0; L -= d; At += d; Oo++;
+		}
+	       	gap_waitbarrier(0);
+	}
+}
+
+void KerParMatMulSxSyB32_ReLUN_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+/*
+	In1 is usually the Conv1x1 filter set, e,g In1 is [OutFeat][InFeat]
+	In2 is  [InFeat][Width*Height]
+
+	When we receive tiles In2 and if StrideY is != 1 tile is always [OutFeat][K*(Width*Scy)]
+*/
+	signed char * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int W_In2 = Arg->W_In2;
+	int * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ Out = Arg->Out;
+	unsigned int W_Out = Arg->W_Out;
+	int Pi = Arg->OutFirstCol;
+	signed char *BufferColIn2 = Arg->BufferColIn2;
+	unsigned int NormBias = Arg->NormBias;
+	int Wi = Arg->W, Hi = Arg->H;
+	int Sx = Arg->Sx, Sy = Arg->Sy;
+	int ColFirst = Arg->ColFirst;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+	int A0 = Arg->Infos[AT_INF_A0];
+
+	unsigned int H_In2 = W_In1;
+	unsigned int H_Out = H_In1;
+
+	int Wo  = (Wi+Sx-1)/Sx, Ho = (Hi+Sy-1)/Sy;
+	int Oo, OffLine;
+	int At, F=0, L = W_In2;
+
+	unsigned int Line, Col, i;
+	v4s *VBuff = (v4s *) BufferColIn2;
+
+	unsigned int CoreId = gap_coreid(), ChunkCell = ChunkSize(H_In1), First = CoreId*ChunkCell, Last  = Min(H_In1, First+ChunkCell);
+	unsigned int Ci = ChunkSize(H_In2), Fi = CoreId*Ci, Li  = Min(H_In2, Fi+Ci);
+
+	At = 0; OffLine = 0; Oo = 0;
+	if (ColFirst) OffLine = Pi; else Oo = Pi;
+
+	while (L>0) {
+	       	for (i=Fi;i<Li; i++) BufferColIn2[i] = In2[i*W_In2+At];
+	       	gap_waitbarrier(0);
+	       	for (Line=First; Line<Last; Line++) {
+		       	v4s *VIn1 = (v4s *) (&In1[Line*W_In1 + 0]);
+		       	int S = (Bias[Line]<<NormBias);
+		       	for (i=0; i<(W_In1/(4*2)); i++) {
+				S = gap_sumdotp4(VIn1[2*i], VBuff[2*i], S);
+				S = gap_sumdotp4(VIn1[2*i+1], VBuff[2*i+1], S);
+			}
+			if (W_In1&0x4) S = gap_sumdotp4(VIn1[W_In1/4-1], VBuff[W_In1/4-1], S);
+		       	for (i=(W_In1/4)*4; i<W_In1; i++) S += In1[Line*W_In1 + i] * BufferColIn2[i];
+			unsigned int Sc = Scale[Line], ScN = ScaleN[Line];
+		       	Out[(Line+OffLine)*W_Out+Oo] = gap_clip(Max(0, Min(AT_SCALE(S, Sc, ScN), A0)), 7);
+	       	}
+		int nF = F+Sx;
+		if (nF<Wi) {
+			F = nF; At += Sx; L -= Sx; Oo++;
+		} else {
+			int d = Wi-F+(Sy-1)*Wi;
+			F = 0; L -= d; At += d; Oo++;
+		}
+	       	gap_waitbarrier(0);
+	}
+}
+
+/*************************************************************************************************************************************************
+	Matrix mult with channel centric scaling for small first matrix in the product, goal is to improve parallelism in this specific situation
+	Followed by optionnal activation; ReLU and ReLUN. Other activations are implemented using stand alone activation kernels.
+
+	Used to implement 1x1 convolution with unit stride
+   	In1 fits completly in shared L1, convolution weights
+	In2 has been transposed before being used, convolution Features
+	Parallelization scheme partition In2 along H_In2
+*************************************************************************************************************************************************/
+
+/* 	Byte Bias */
+void KerParMatMulB8_SF_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int H_In2 = Arg->W_In2;
+	unsigned int W_In2 = W_In1;
+	signed char * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ Out = Arg->Out;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+	unsigned int NormBias = Arg->NormBias;
+        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
+	unsigned int Iter = Max(0, Last-First);
+
+	for (int i=0; i<Iter/4; i++) {
+		int l2 = 4*i+First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2), *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2), *pIn2_2 = (v4s *) (In2 + (l2+2)*W_In2), *pIn2_3 = (v4s *) (In2 + (l2+3)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0, S2=S0, S3=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c], V0 = pIn2_0[c], V1 = pIn2_1[c], V2 = pIn2_2[c], V3 = pIn2_3[c];
+				S0 = gap_sumdotp4(C0, V0, S0); S1 = gap_sumdotp4(C0, V1, S1); S2 = gap_sumdotp4(C0, V2, S2); S3 = gap_sumdotp4(C0, V3, S3);
+			}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c]; S1 += C0 * In2[(l2+1)*W_In2+c]; S2 += C0 * In2[(l2+2)*W_In2+c]; S3 += C0 * In2[(l2+3)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			v4s R = gap_pack4(gap_clip(AT_SCALE(S0, Sc, ScN), 7), gap_clip(AT_SCALE(S1, Sc, ScN), 7), gap_clip(AT_SCALE(S2, Sc, ScN), 7), gap_clip(AT_SCALE(S3, Sc, ScN), 7));
+			*((v4s *) (Out+l1*H_In2 + l2)) = R;
+		}
+	}
+	if (Iter&0x2) {
+		int l2 = (4*(Iter/4)) + First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2);
+		v4s *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c], V0 = pIn2_0[c], V1 = pIn2_1[c];
+				S0 = gap_sumdotp4(C0, V0, S0); S1 = gap_sumdotp4(C0, V1, S1);
+			}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c]; S1 += C0 * In2[(l2+1)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			Out[l1*H_In2 + l2+0] = gap_clip(AT_SCALE(S0, Sc, ScN), 7);
+			Out[l1*H_In2 + l2+1] = gap_clip(AT_SCALE(S1, Sc, ScN), 7);
+		}
+	}
+	if (Iter&0x1) {
+		int l2 = Last-1;
+		v4s *pIn2 = (v4s *) (In2 + (l2+0)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias;
+			for (int c=0; c<W_In1/(4*2); c++) {
+				v4s C0 = pIn1[2*c], C1 = pIn1[2*c+1], V0 = pIn2[2*c], V1 = pIn2[2*c+1];
+				S0 = gap_sumdotp4(C0, V0, S0); S0 = gap_sumdotp4(C1, V1, S0);
+			}
+			if (W_In1&0x4) S0 = gap_sumdotp4(pIn1[W_In1/4-1], pIn2[W_In1/4-1], S0);
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			Out[l1*H_In2 + l2+0] = gap_clip(AT_SCALE(S0, Sc, ScN), 7);
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParMatMulB8_ReLU_SF_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int H_In2 = Arg->W_In2;
+	unsigned int W_In2 = W_In1;
+	signed char * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ Out = Arg->Out;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+	unsigned int NormBias = Arg->NormBias;
+        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
+	unsigned int Iter = Max(0, Last-First);
+
+	for (int i=0; i<Iter/4; i++) {
+		int l2 = 4*i+First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2), *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2), *pIn2_2 = (v4s *) (In2 + (l2+2)*W_In2), *pIn2_3 = (v4s *) (In2 + (l2+3)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0, S2=S0, S3=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c], V0 = pIn2_0[c], V1 = pIn2_1[c], V2 = pIn2_2[c], V3 = pIn2_3[c];
+				S0 = gap_sumdotp4(C0, V0, S0); S1 = gap_sumdotp4(C0, V1, S1); S2 = gap_sumdotp4(C0, V2, S2); S3 = gap_sumdotp4(C0, V3, S3);
+			}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c]; S1 += C0 * In2[(l2+1)*W_In2+c]; S2 += C0 * In2[(l2+2)*W_In2+c]; S3 += C0 * In2[(l2+3)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			v4s R = gap_pack4(Max(0, gap_clip(AT_SCALE(S0, Sc, ScN), 7)), Max(0, gap_clip(AT_SCALE(S1, Sc, ScN), 7)),
+					  Max(0, gap_clip(AT_SCALE(S2, Sc, ScN), 7)), Max(0, gap_clip(AT_SCALE(S3, Sc, ScN), 7)));
+			*((v4s *) (Out+l1*H_In2 + l2)) = R;
+		}
+	}
+	if (Iter&0x2) {
+		int l2 = (4*(Iter/4)) + First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2);
+		v4s *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c], V0 = pIn2_0[c], V1 = pIn2_1[c];
+				S0 = gap_sumdotp4(C0, V0, S0); S1 = gap_sumdotp4(C0, V1, S1);
+			}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c]; S1 += C0 * In2[(l2+1)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			Out[l1*H_In2 + l2+0] = Max(0, gap_clip(AT_SCALE(S0, Sc, ScN), 7));
+			Out[l1*H_In2 + l2+1] = Max(0, gap_clip(AT_SCALE(S1, Sc, ScN), 7));
+		}
+	}
+	if (Iter&0x1) {
+		int l2 = Last-1;
+		v4s *pIn2 = (v4s *) (In2 + (l2+0)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias;
+			for (int c=0; c<W_In1/(4*2); c++) {
+				v4s C0 = pIn1[2*c], C1 = pIn1[2*c+1], V0 = pIn2[2*c], V1 = pIn2[2*c+1];
+				S0 = gap_sumdotp4(C0, V0, S0); S0 = gap_sumdotp4(C1, V1, S0);
+			}
+			if (W_In1&0x4) S0 = gap_sumdotp4(pIn1[W_In1/4-1], pIn2[W_In1/4-1], S0);
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			Out[l1*H_In2 + l2+0] = Max(0, gap_clip(AT_SCALE(S0, Sc, ScN), 7));
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParMatMulB8_ReLUN_SF_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int H_In2 = Arg->W_In2;
+	unsigned int W_In2 = W_In1;
+	signed char * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ Out = Arg->Out;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+	unsigned int NormBias = Arg->NormBias;
+        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
+	unsigned int Iter = Max(0, Last-First);
+	int A0 = Arg->Infos[AT_INF_A0];
+
+	for (int i=0; i<Iter/4; i++) {
+		int l2 = 4*i+First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2), *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2), *pIn2_2 = (v4s *) (In2 + (l2+2)*W_In2), *pIn2_3 = (v4s *) (In2 + (l2+3)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0, S2=S0, S3=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c], V0 = pIn2_0[c], V1 = pIn2_1[c], V2 = pIn2_2[c], V3 = pIn2_3[c];
+				S0 = gap_sumdotp4(C0, V0, S0); S1 = gap_sumdotp4(C0, V1, S1); S2 = gap_sumdotp4(C0, V2, S2); S3 = gap_sumdotp4(C0, V3, S3);
+			}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c]; S1 += C0 * In2[(l2+1)*W_In2+c]; S2 += C0 * In2[(l2+2)*W_In2+c]; S3 += C0 * In2[(l2+3)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			v4s R = gap_pack4(gap_clip(Max(0, Min(AT_SCALE(S0, Sc, ScN), A0)), 7), gap_clip(Max(0, Min(AT_SCALE(S1, Sc, ScN), A0)), 7),
+					  gap_clip(Max(0, Min(AT_SCALE(S2, Sc, ScN), A0)), 7), gap_clip(Max(0, Min(AT_SCALE(S3, Sc, ScN), A0)), 7));
+			*((v4s *) (Out+l1*H_In2 + l2)) = R;
+		}
+	}
+	if (Iter&0x2) {
+		int l2 = (4*(Iter/4)) + First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2);
+		v4s *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c], V0 = pIn2_0[c], V1 = pIn2_1[c];
+				S0 = gap_sumdotp4(C0, V0, S0); S1 = gap_sumdotp4(C0, V1, S1);
+			}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c]; S1 += C0 * In2[(l2+1)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			Out[l1*H_In2 + l2+0] = gap_clip(Max(0, Min(AT_SCALE(S0, Sc, ScN), A0)), 7);
+			Out[l1*H_In2 + l2+1] = gap_clip(Max(0, Min(AT_SCALE(S1, Sc, ScN), A0)), 7);
+		}
+	}
+	if (Iter&0x1) {
+		int l2 = Last-1;
+		v4s *pIn2 = (v4s *) (In2 + (l2+0)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias;
+			for (int c=0; c<W_In1/(4*2); c++) {
+				v4s C0 = pIn1[2*c], C1 = pIn1[2*c+1], V0 = pIn2[2*c], V1 = pIn2[2*c+1];
+				S0 = gap_sumdotp4(C0, V0, S0); S0 = gap_sumdotp4(C1, V1, S0);
+			}
+			if (W_In1&0x4) S0 = gap_sumdotp4(pIn1[W_In1/4-1], pIn2[W_In1/4-1], S0);
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			Out[l1*H_In2 + l2+0] = gap_clip(Max(0, Min(AT_SCALE(S0, Sc, ScN), A0)), 7);
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+/* 	Half Word Bias */
+void KerParMatMulB16_SF_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int H_In2 = Arg->W_In2;
+	unsigned int W_In2 = W_In1;
+	short int * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ Out = Arg->Out;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+	unsigned int NormBias = Arg->NormBias;
+        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
+	unsigned int Iter = Max(0, Last-First);
+
+	for (int i=0; i<Iter/4; i++) {
+		int l2 = 4*i+First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2), *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2), *pIn2_2 = (v4s *) (In2 + (l2+2)*W_In2), *pIn2_3 = (v4s *) (In2 + (l2+3)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0, S2=S0, S3=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c], V0 = pIn2_0[c], V1 = pIn2_1[c], V2 = pIn2_2[c], V3 = pIn2_3[c];
+				S0 = gap_sumdotp4(C0, V0, S0); S1 = gap_sumdotp4(C0, V1, S1); S2 = gap_sumdotp4(C0, V2, S2); S3 = gap_sumdotp4(C0, V3, S3);
+			}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c]; S1 += C0 * In2[(l2+1)*W_In2+c]; S2 += C0 * In2[(l2+2)*W_In2+c]; S3 += C0 * In2[(l2+3)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			v4s R = gap_pack4(gap_clip(AT_SCALE(S0, Sc, ScN), 7), gap_clip(AT_SCALE(S1, Sc, ScN), 7), gap_clip(AT_SCALE(S2, Sc, ScN), 7), gap_clip(AT_SCALE(S3, Sc, ScN), 7));
+			*((v4s *) (Out+l1*H_In2 + l2)) = R;
+		}
+	}
+	if (Iter&0x2) {
+		int l2 = (4*(Iter/4)) + First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2);
+		v4s *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c], V0 = pIn2_0[c], V1 = pIn2_1[c];
+				S0 = gap_sumdotp4(C0, V0, S0); S1 = gap_sumdotp4(C0, V1, S1);
+			}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c]; S1 += C0 * In2[(l2+1)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			Out[l1*H_In2 + l2+0] = gap_clip(AT_SCALE(S0, Sc, ScN), 7);
+			Out[l1*H_In2 + l2+1] = gap_clip(AT_SCALE(S1, Sc, ScN), 7);
+		}
+	}
+	if (Iter&0x1) {
+		int l2 = Last-1;
+		v4s *pIn2 = (v4s *) (In2 + (l2+0)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias;
+			for (int c=0; c<W_In1/(4*2); c++) {
+				v4s C0 = pIn1[2*c], C1 = pIn1[2*c+1], V0 = pIn2[2*c], V1 = pIn2[2*c+1];
+				S0 = gap_sumdotp4(C0, V0, S0); S0 = gap_sumdotp4(C1, V1, S0);
+			}
+			if (W_In1&0x4) S0 = gap_sumdotp4(pIn1[W_In1/4-1], pIn2[W_In1/4-1], S0);
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			Out[l1*H_In2 + l2+0] = gap_clip(AT_SCALE(S0, Sc, ScN), 7);
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParMatMulB16_ReLU_SF_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int H_In2 = Arg->W_In2;
+	unsigned int W_In2 = W_In1;
+	short int * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ Out = Arg->Out;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+	unsigned int NormBias = Arg->NormBias;
+        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
+	unsigned int Iter = Max(0, Last-First);
+
+	for (int i=0; i<Iter/4; i++) {
+		int l2 = 4*i+First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2), *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2), *pIn2_2 = (v4s *) (In2 + (l2+2)*W_In2), *pIn2_3 = (v4s *) (In2 + (l2+3)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0, S2=S0, S3=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c], V0 = pIn2_0[c], V1 = pIn2_1[c], V2 = pIn2_2[c], V3 = pIn2_3[c];
+				S0 = gap_sumdotp4(C0, V0, S0); S1 = gap_sumdotp4(C0, V1, S1); S2 = gap_sumdotp4(C0, V2, S2); S3 = gap_sumdotp4(C0, V3, S3);
+			}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c]; S1 += C0 * In2[(l2+1)*W_In2+c]; S2 += C0 * In2[(l2+2)*W_In2+c]; S3 += C0 * In2[(l2+3)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			v4s R = gap_pack4(Max(0, gap_clip(AT_SCALE(S0, Sc, ScN), 7)), Max(0, gap_clip(AT_SCALE(S1, Sc, ScN), 7)),
+					  Max(0, gap_clip(AT_SCALE(S2, Sc, ScN), 7)), Max(0, gap_clip(AT_SCALE(S3, Sc, ScN), 7)));
+			*((v4s *) (Out+l1*H_In2 + l2)) = R;
+		}
+	}
+	if (Iter&0x2) {
+		int l2 = (4*(Iter/4)) + First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2);
+		v4s *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c], V0 = pIn2_0[c], V1 = pIn2_1[c];
+				S0 = gap_sumdotp4(C0, V0, S0); S1 = gap_sumdotp4(C0, V1, S1);
+			}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c]; S1 += C0 * In2[(l2+1)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			Out[l1*H_In2 + l2+0] = Max(0, gap_clip(AT_SCALE(S0, Sc, ScN), 7));
+			Out[l1*H_In2 + l2+1] = Max(0, gap_clip(AT_SCALE(S1, Sc, ScN), 7));
+		}
+	}
+	if (Iter&0x1) {
+		int l2 = Last-1;
+		v4s *pIn2 = (v4s *) (In2 + (l2+0)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias;
+			for (int c=0; c<W_In1/(4*2); c++) {
+				v4s C0 = pIn1[2*c], C1 = pIn1[2*c+1], V0 = pIn2[2*c], V1 = pIn2[2*c+1];
+				S0 = gap_sumdotp4(C0, V0, S0); S0 = gap_sumdotp4(C1, V1, S0);
+			}
+			if (W_In1&0x4) S0 = gap_sumdotp4(pIn1[W_In1/4-1], pIn2[W_In1/4-1], S0);
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			Out[l1*H_In2 + l2+0] = Max(0, gap_clip(AT_SCALE(S0, Sc, ScN), 7));
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParMatMulB16_ReLUN_SF_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int H_In2 = Arg->W_In2;
+	unsigned int W_In2 = W_In1;
+	short int * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ Out = Arg->Out;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+	unsigned int NormBias = Arg->NormBias;
+        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
+	unsigned int Iter = Max(0, Last-First);
+	int A0 = Arg->Infos[AT_INF_A0];
+
+	for (int i=0; i<Iter/4; i++) {
+		int l2 = 4*i+First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2), *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2), *pIn2_2 = (v4s *) (In2 + (l2+2)*W_In2), *pIn2_3 = (v4s *) (In2 + (l2+3)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0, S2=S0, S3=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c], V0 = pIn2_0[c], V1 = pIn2_1[c], V2 = pIn2_2[c], V3 = pIn2_3[c];
+				S0 = gap_sumdotp4(C0, V0, S0); S1 = gap_sumdotp4(C0, V1, S1); S2 = gap_sumdotp4(C0, V2, S2); S3 = gap_sumdotp4(C0, V3, S3);
+			}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c]; S1 += C0 * In2[(l2+1)*W_In2+c]; S2 += C0 * In2[(l2+2)*W_In2+c]; S3 += C0 * In2[(l2+3)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			v4s R = gap_pack4(gap_clip(Max(0, Min(AT_SCALE(S0, Sc, ScN), A0)), 7), gap_clip(Max(0, Min(AT_SCALE(S1, Sc, ScN), A0)), 7),
+					  gap_clip(Max(0, Min(AT_SCALE(S2, Sc, ScN), A0)), 7), gap_clip(Max(0, Min(AT_SCALE(S3, Sc, ScN), A0)), 7));
+			*((v4s *) (Out+l1*H_In2 + l2)) = R;
+		}
+	}
+	if (Iter&0x2) {
+		int l2 = (4*(Iter/4)) + First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2);
+		v4s *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c], V0 = pIn2_0[c], V1 = pIn2_1[c];
+				S0 = gap_sumdotp4(C0, V0, S0); S1 = gap_sumdotp4(C0, V1, S1);
+			}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c]; S1 += C0 * In2[(l2+1)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			Out[l1*H_In2 + l2+0] = gap_clip(Max(0, Min(AT_SCALE(S0, Sc, ScN), A0)), 7);
+			Out[l1*H_In2 + l2+1] = gap_clip(Max(0, Min(AT_SCALE(S1, Sc, ScN), A0)), 7);
+		}
+	}
+	if (Iter&0x1) {
+		int l2 = Last-1;
+		v4s *pIn2 = (v4s *) (In2 + (l2+0)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias;
+			for (int c=0; c<W_In1/(4*2); c++) {
+				v4s C0 = pIn1[2*c], C1 = pIn1[2*c+1], V0 = pIn2[2*c], V1 = pIn2[2*c+1];
+				S0 = gap_sumdotp4(C0, V0, S0); S0 = gap_sumdotp4(C1, V1, S0);
+			}
+			if (W_In1&0x4) S0 = gap_sumdotp4(pIn1[W_In1/4-1], pIn2[W_In1/4-1], S0);
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			Out[l1*H_In2 + l2+0] = gap_clip(Max(0, Min(AT_SCALE(S0, Sc, ScN), A0)), 7);
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+/* 	Word Bias */
+void KerParMatMulB32_SF_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int H_In2 = Arg->W_In2;
+	unsigned int W_In2 = W_In1;
+	int * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ Out = Arg->Out;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+	unsigned int NormBias = Arg->NormBias;
+        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
+	unsigned int Iter = Max(0, Last-First);
+
+	for (int i=0; i<Iter/4; i++) {
+		int l2 = 4*i+First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2), *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2), *pIn2_2 = (v4s *) (In2 + (l2+2)*W_In2), *pIn2_3 = (v4s *) (In2 + (l2+3)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0, S2=S0, S3=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c], V0 = pIn2_0[c], V1 = pIn2_1[c], V2 = pIn2_2[c], V3 = pIn2_3[c];
+				S0 = gap_sumdotp4(C0, V0, S0); S1 = gap_sumdotp4(C0, V1, S1); S2 = gap_sumdotp4(C0, V2, S2); S3 = gap_sumdotp4(C0, V3, S3);
+			}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c]; S1 += C0 * In2[(l2+1)*W_In2+c]; S2 += C0 * In2[(l2+2)*W_In2+c]; S3 += C0 * In2[(l2+3)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			v4s R = gap_pack4(gap_clip(AT_SCALE(S0, Sc, ScN), 7), gap_clip(AT_SCALE(S1, Sc, ScN), 7), gap_clip(AT_SCALE(S2, Sc, ScN), 7), gap_clip(AT_SCALE(S3, Sc, ScN), 7));
+			*((v4s *) (Out+l1*H_In2 + l2)) = R;
+		}
+	}
+	if (Iter&0x2) {
+		int l2 = (4*(Iter/4)) + First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2);
+		v4s *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c], V0 = pIn2_0[c], V1 = pIn2_1[c];
+				S0 = gap_sumdotp4(C0, V0, S0); S1 = gap_sumdotp4(C0, V1, S1);
+			}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c]; S1 += C0 * In2[(l2+1)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			Out[l1*H_In2 + l2+0] = gap_clip(AT_SCALE(S0, Sc, ScN), 7);
+			Out[l1*H_In2 + l2+1] = gap_clip(AT_SCALE(S1, Sc, ScN), 7);
+		}
+	}
+	if (Iter&0x1) {
+		int l2 = Last-1;
+		v4s *pIn2 = (v4s *) (In2 + (l2+0)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias;
+			for (int c=0; c<W_In1/(4*2); c++) {
+				v4s C0 = pIn1[2*c], C1 = pIn1[2*c+1], V0 = pIn2[2*c], V1 = pIn2[2*c+1];
+				S0 = gap_sumdotp4(C0, V0, S0); S0 = gap_sumdotp4(C1, V1, S0);
+			}
+			if (W_In1&0x4) S0 = gap_sumdotp4(pIn1[W_In1/4-1], pIn2[W_In1/4-1], S0);
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			Out[l1*H_In2 + l2+0] = gap_clip(AT_SCALE(S0, Sc, ScN), 7);
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParMatMulB32_ReLU_SF_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int H_In2 = Arg->W_In2;
+	unsigned int W_In2 = W_In1;
+	int * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ Out = Arg->Out;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+	unsigned int NormBias = Arg->NormBias;
+        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
+	unsigned int Iter = Max(0, Last-First);
+
+	for (int i=0; i<Iter/4; i++) {
+		int l2 = 4*i+First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2), *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2), *pIn2_2 = (v4s *) (In2 + (l2+2)*W_In2), *pIn2_3 = (v4s *) (In2 + (l2+3)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0, S2=S0, S3=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c], V0 = pIn2_0[c], V1 = pIn2_1[c], V2 = pIn2_2[c], V3 = pIn2_3[c];
+				S0 = gap_sumdotp4(C0, V0, S0); S1 = gap_sumdotp4(C0, V1, S1); S2 = gap_sumdotp4(C0, V2, S2); S3 = gap_sumdotp4(C0, V3, S3);
+			}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c]; S1 += C0 * In2[(l2+1)*W_In2+c]; S2 += C0 * In2[(l2+2)*W_In2+c]; S3 += C0 * In2[(l2+3)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			v4s R = gap_pack4(Max(0, gap_clip(AT_SCALE(S0, Sc, ScN), 7)), Max(0, gap_clip(AT_SCALE(S1, Sc, ScN), 7)),
+					  Max(0, gap_clip(AT_SCALE(S2, Sc, ScN), 7)), Max(0, gap_clip(AT_SCALE(S3, Sc, ScN), 7)));
+			*((v4s *) (Out+l1*H_In2 + l2)) = R;
+		}
+	}
+	if (Iter&0x2) {
+		int l2 = (4*(Iter/4)) + First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2);
+		v4s *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c], V0 = pIn2_0[c], V1 = pIn2_1[c];
+				S0 = gap_sumdotp4(C0, V0, S0); S1 = gap_sumdotp4(C0, V1, S1);
+			}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c]; S1 += C0 * In2[(l2+1)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			Out[l1*H_In2 + l2+0] = Max(0, gap_clip(AT_SCALE(S0, Sc, ScN), 7));
+			Out[l1*H_In2 + l2+1] = Max(0, gap_clip(AT_SCALE(S1, Sc, ScN), 7));
+		}
+	}
+	if (Iter&0x1) {
+		int l2 = Last-1;
+		v4s *pIn2 = (v4s *) (In2 + (l2+0)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias;
+			for (int c=0; c<W_In1/(4*2); c++) {
+				v4s C0 = pIn1[2*c], C1 = pIn1[2*c+1], V0 = pIn2[2*c], V1 = pIn2[2*c+1];
+				S0 = gap_sumdotp4(C0, V0, S0); S0 = gap_sumdotp4(C1, V1, S0);
+			}
+			if (W_In1&0x4) S0 = gap_sumdotp4(pIn1[W_In1/4-1], pIn2[W_In1/4-1], S0);
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			Out[l1*H_In2 + l2+0] = Max(0, gap_clip(AT_SCALE(S0, Sc, ScN), 7));
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+void KerParMatMulB32_ReLUN_SF_SQ8(KerMatMul_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In1 = Arg->In1;
+	unsigned int W_In1 = Arg->W_In1;
+	unsigned int H_In1 = Arg->H_In1;
+	signed char * __restrict__ In2 = Arg->In2;
+	unsigned int H_In2 = Arg->W_In2;
+	unsigned int W_In2 = W_In1;
+	int * __restrict__ Bias = Arg->Bias;
+	signed char * __restrict__ Out = Arg->Out;
+	unsigned char * __restrict__ Scale = Arg->Scale;
+	unsigned char * __restrict__ ScaleN = Arg->ScaleN;
+	unsigned int NormBias = Arg->NormBias;
+        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H_In2), First = Chunk*CoreId, Last = Min(First+Chunk, H_In2);
+	unsigned int Iter = Max(0, Last-First);
+	int A0 = Arg->Infos[AT_INF_A0];
+
+	for (int i=0; i<Iter/4; i++) {
+		int l2 = 4*i+First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2), *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2), *pIn2_2 = (v4s *) (In2 + (l2+2)*W_In2), *pIn2_3 = (v4s *) (In2 + (l2+3)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0, S2=S0, S3=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c], V0 = pIn2_0[c], V1 = pIn2_1[c], V2 = pIn2_2[c], V3 = pIn2_3[c];
+				S0 = gap_sumdotp4(C0, V0, S0); S1 = gap_sumdotp4(C0, V1, S1); S2 = gap_sumdotp4(C0, V2, S2); S3 = gap_sumdotp4(C0, V3, S3);
+			}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c]; S1 += C0 * In2[(l2+1)*W_In2+c]; S2 += C0 * In2[(l2+2)*W_In2+c]; S3 += C0 * In2[(l2+3)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			v4s R = gap_pack4(gap_clip(Max(0, Min(AT_SCALE(S0, Sc, ScN), A0)), 7), gap_clip(Max(0, Min(AT_SCALE(S1, Sc, ScN), A0)), 7),
+					  gap_clip(Max(0, Min(AT_SCALE(S2, Sc, ScN), A0)), 7), gap_clip(Max(0, Min(AT_SCALE(S3, Sc, ScN), A0)), 7));
+			*((v4s *) (Out+l1*H_In2 + l2)) = R;
+		}
+	}
+	if (Iter&0x2) {
+		int l2 = (4*(Iter/4)) + First;
+		v4s *pIn2_0 = (v4s *) (In2 + (l2+0)*W_In2);
+		v4s *pIn2_1 = (v4s *) (In2 + (l2+1)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias, S1=S0;
+			for (int c=0; c<W_In1/4; c++) {
+				v4s C0 = pIn1[c], V0 = pIn2_0[c], V1 = pIn2_1[c];
+				S0 = gap_sumdotp4(C0, V0, S0); S1 = gap_sumdotp4(C0, V1, S1);
+			}
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c]; S1 += C0 * In2[(l2+1)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			Out[l1*H_In2 + l2+0] = gap_clip(Max(0, Min(AT_SCALE(S0, Sc, ScN), A0)), 7);
+			Out[l1*H_In2 + l2+1] = gap_clip(Max(0, Min(AT_SCALE(S1, Sc, ScN), A0)), 7);
+		}
+	}
+	if (Iter&0x1) {
+		int l2 = Last-1;
+		v4s *pIn2 = (v4s *) (In2 + (l2+0)*W_In2);
+		for (int l1=0; l1<H_In1; l1++) {
+			v4s *pIn1 = (v4s *) (In1 + l1*W_In1);
+			int S0 = Bias[l1]<<NormBias;
+			for (int c=0; c<W_In1/(4*2); c++) {
+				v4s C0 = pIn1[2*c], C1 = pIn1[2*c+1], V0 = pIn2[2*c], V1 = pIn2[2*c+1];
+				S0 = gap_sumdotp4(C0, V0, S0); S0 = gap_sumdotp4(C1, V1, S0);
+			}
+			if (W_In1&0x4) S0 = gap_sumdotp4(pIn1[W_In1/4-1], pIn2[W_In1/4-1], S0);
+			for (int c=(W_In1/4)*4; c<W_In1; c++) {
+				int C0 = In1[l1*W_In1+c];
+				S0 += C0 * In2[(l2+0)*W_In2+c];
+			}
+			unsigned int Sc = Scale[l1], ScN = ScaleN[l1];
+			Out[l1*H_In2 + l2+0] = gap_clip(Max(0, Min(AT_SCALE(S0, Sc, ScN), A0)), 7);
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+/*************************************************************************************************************************************************
+	Matrix by Vector Multiplication with optional Activation (all of them are supported)
+*************************************************************************************************************************************************/
+
+void KerParMatVectMul_SQ8(KerMat3_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In1	= Arg->In1;
+	signed char * __restrict__ In2	= Arg->In2;
+	signed char * __restrict__ Out	= Arg->Out;
+	int W				= Arg->W;
+	int H				= Arg->H;
+	unsigned int Scale		= Arg->Infos[AT_INF_SCALE];
+	unsigned int ScaleN		= Arg->Infos[AT_INF_SCALEN];
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Arg->Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Arg->Feat);
+
+	if (Scale)
+		for (int i=First; i<Last; i++) {
+			signed char * __restrict__ I1 = In1 + i*W*H;
+			int I2 = In2[i];
+			signed char * __restrict__ O  = Out + i*W*H;
+			for (int j=0; j<((W*H)/2); j++) {
+				int I10 = I1[2*j], I11 = I1[2*j+1];
+				int P1 = gap_clip(AT_SCALE(I10*Scale, I2, ScaleN), 7);
+				int P2 = gap_clip(AT_SCALE(I11*Scale, I2, ScaleN), 7);
+				O[2*j  ] = P1; O[2*j+1] = P2;
+			}
+			O[W*H-1] = gap_clip(AT_SCALE(I1[W*H-1]*Scale, I2, ScaleN), 7);
+		}
+	else
+		for (int i=First; i<Last; i++) {
+			signed char * __restrict__ I1 = In1 + i*W*H;
+			int I2 = In2[i];
+			signed char * __restrict__ O  = Out + i*W*H;
+			for (int j=0; j<((W*H)/2); j++) {
+				int I10 = I1[2*j], I11 = I1[2*j+1];
+				int P1 = gap_clip(AT_SCALE(I10, I2, ScaleN), 7);
+				int P2 = gap_clip(AT_SCALE(I11, I2, ScaleN), 7);
+				O[2*j  ] = P1; O[2*j+1] = P2;
+			}
+			O[W*H-1] = gap_clip(AT_SCALE(I1[W*H-1], I2, ScaleN), 7);
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParMatVectMul_ReLU_SQ8(KerMat3_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In1	= Arg->In1;
+	signed char * __restrict__ In2	= Arg->In2;
+	signed char * __restrict__ Out	= Arg->Out;
+	int W				= Arg->W;
+	int H				= Arg->H;
+	unsigned int Scale		= Arg->Infos[AT_INF_SCALE];
+	unsigned int ScaleN		= Arg->Infos[AT_INF_SCALEN];
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Arg->Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Arg->Feat);
+
+	if (Scale)
+		for (int i=First; i<Last; i++) {
+			signed char * __restrict__ I1 = In1 + i*W*H;
+			int I2 = In2[i];
+			signed char * __restrict__ O  = Out + i*W*H;
+			for (int j=0; j<((W*H)/2); j++) {
+				int I10 = I1[2*j], I11 = I1[2*j+1];
+				int P1 = Max(0, gap_clip(AT_SCALE(I10*Scale, I2, ScaleN), 7));
+				int P2 = Max(0, gap_clip(AT_SCALE(I11*Scale, I2, ScaleN), 7));
+				O[2*j  ] = P1; O[2*j+1] = P2;
+			}
+			O[W*H-1] = Max(0, gap_clip(AT_SCALE(I1[W*H-1]*Scale, I2, ScaleN), 7));
+		}
+	else
+		for (int i=First; i<Last; i++) {
+			signed char * __restrict__ I1 = In1 + i*W*H;
+			int I2 = In2[i];
+			signed char * __restrict__ O  = Out + i*W*H;
+			for (int j=0; j<((W*H)/2); j++) {
+				int I10 = I1[2*j], I11 = I1[2*j+1];
+				int P1 = Max(0, gap_clip(AT_SCALE(I10, I2, ScaleN), 7));
+				int P2 = Max(0, gap_clip(AT_SCALE(I11, I2, ScaleN), 7));
+				O[2*j  ] = P1; O[2*j+1] = P2;
+			}
+			O[W*H-1] = Max(0, gap_clip(AT_SCALE(I1[W*H-1], I2, ScaleN), 7));
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParMatVectMul_ReLUN_SQ8(KerMat3_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In1	= Arg->In1;
+	signed char * __restrict__ In2	= Arg->In2;
+	signed char * __restrict__ Out	= Arg->Out;
+	int W				= Arg->W;
+	int H				= Arg->H;
+	int A0				= Arg->Infos[AT_INF_A0];
+	unsigned int Scale		= Arg->Infos[AT_INF_SCALE];
+	unsigned int ScaleN		= ((unsigned char *)(Arg->Infos))[AT_INF_SCALEN];
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Arg->Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Arg->Feat);
+
+	if (Scale)
+		for (int i=First; i<Last; i++) {
+			signed char * __restrict__ I1 = In1 + i*W*H;
+			int I2 = In2[i];
+			signed char * __restrict__ O  = Out + i*W*H;
+			for (int j=0; j<((W*H)/2); j++) {
+				int I10 = I1[2*j], I11 = I1[2*j+1];
+				int P1 = Max(0, Min(AT_SCALE(I10*Scale, I2, ScaleN), A0));
+				int P2 = Max(0, Min(AT_SCALE(I11*Scale, I2, ScaleN), A0));
+				O[2*j  ] = gap_clip(P1, 7); O[2*j+1] = gap_clip(P2, 7);
+			}
+			O[W*H-1] = gap_clip(Max(0, Min(AT_SCALE(I1[W*H-1]*Scale, I2, ScaleN), A0)), 7);
+		}
+	else
+		for (int i=First; i<Last; i++) {
+			signed char * __restrict__ I1 = In1 + i*W*H;
+			int I2 = In2[i];
+			signed char * __restrict__ O  = Out + i*W*H;
+			for (int j=0; j<((W*H)/2); j++) {
+				int I10 = I1[2*j], I11 = I1[2*j+1];
+				int P1 = Max(0, Min(AT_SCALE(I10, I2, ScaleN), A0));
+				int P2 = Max(0, Min(AT_SCALE(I11, I2, ScaleN), A0));
+				O[2*j  ] = gap_clip(P1, 7); O[2*j+1] = gap_clip(P2, 7);
+			}
+			O[W*H-1] = gap_clip(Max(0, Min(AT_SCALE(I1[W*H-1], I2, ScaleN), A0)), 7);
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParMatVectMul_HSigmoid_SQ8(KerMat3_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In1	= Arg->In1;
+	signed char * __restrict__ In2	= Arg->In2;
+	signed char * __restrict__ Out	= Arg->Out;
+	int W				= Arg->W;
+	int H				= Arg->H;
+	unsigned int ActScale		= ((unsigned char *)(Arg->Infos))[AT_INF_ACTSCALE];
+	unsigned int ActScaleN		= ((unsigned char *)(Arg->Infos))[AT_INF_ACTSCALEN];
+	int A0				= Arg->Infos[AT_INF_A0];
+	int B0				= Arg->Infos[AT_INF_B0];
+	int C0				= Arg->Infos[AT_INF_C0];
+	unsigned int Scale		= Arg->Infos[AT_INF_SCALE];
+	unsigned int ScaleN		= ((unsigned char *)(Arg->Infos))[AT_INF_SCALEN];
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Arg->Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Arg->Feat);
+
+	if (Scale)
+		for (int i=First; i<Last; i++) {
+			signed char * __restrict__ I1 = In1 + i*W*H;
+			int I2 = In2[i];
+			signed char * __restrict__ O  = Out + i*W*H;
+			for (int j=0; j<((W*H)/2); j++) {
+				int I10 = I1[2*j], I11 = I1[2*j+1];
+				int Acc0 = gap_clip(AT_SCALE(I10*Scale, I2, ScaleN), 7), Acc1 = gap_clip(AT_SCALE(I11*Scale, I2, ScaleN), 7);
+				Acc0 = AT_SCALE(ActScale, Max(0, Min(A0, Acc0 + B0)) * C0, ActScaleN);
+				Acc1 = AT_SCALE(ActScale, Max(0, Min(A0, Acc1 + B0)) * C0, ActScaleN);
+				O[2*j  ] = gap_clip(Acc0, 7); O[2*j+1] = gap_clip(Acc1, 7);
+			}
+			int Acc0 = gap_clip(AT_SCALE(I1[W*H-1]*Scale, I2, ScaleN), 7);
+			O[W*H-1] = gap_clip(AT_SCALE(ActScale, Max(0, Min(A0, Acc0 + B0)) * C0, ActScaleN), 7);
+		}
+	else
+		for (int i=First; i<Last; i++) {
+			signed char * __restrict__ I1 = In1 + i*W*H;
+			int I2 = In2[i];
+			signed char * __restrict__ O  = Out + i*W*H;
+			for (int j=0; j<((W*H)/2); j++) {
+				int I10 = I1[2*j], I11 = I1[2*j+1];
+				int Acc0 = gap_clip(AT_SCALE(I10, I2, ScaleN), 7), Acc1 = gap_clip(AT_SCALE(I11, I2, ScaleN), 7);
+				Acc0 = AT_SCALE(ActScale, Max(0, Min(A0, Acc0 + B0)) * C0, ActScaleN);
+				Acc1 = AT_SCALE(ActScale, Max(0, Min(A0, Acc1 + B0)) * C0, ActScaleN);
+				O[2*j  ] = gap_clip(Acc0, 7); O[2*j+1] = gap_clip(Acc1, 7);
+			}
+			int Acc0 = gap_clip(AT_SCALE(I1[W*H-1], I2, ScaleN), 7);
+			O[W*H-1] = gap_clip(AT_SCALE(ActScale, Max(0, Min(A0, Acc0 + B0)) * C0, ActScaleN), 7);
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParMatVectMul_HSwish_SQ8(KerMat3_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In1	= Arg->In1;
+	signed char * __restrict__ In2	= Arg->In2;
+	signed char * __restrict__ Out	= Arg->Out;
+	int W				= Arg->W;
+	int H				= Arg->H;
+	unsigned int ActScale		= ((unsigned char *)(Arg->Infos))[AT_INF_ACTSCALE];
+	unsigned int ActScaleN		= ((unsigned char *)(Arg->Infos))[AT_INF_ACTSCALEN];
+	int A0				= Arg->Infos[AT_INF_A0];
+	int B0				= Arg->Infos[AT_INF_B0];
+	int C0				= Arg->Infos[AT_INF_C0];
+	unsigned int Scale		= Arg->Infos[AT_INF_SCALE];
+	unsigned int ScaleN		= ((unsigned char *)(Arg->Infos))[AT_INF_SCALEN];
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Arg->Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Arg->Feat);
+
+	if (Scale)
+		for (int i=First; i<Last; i++) {
+			signed char * __restrict__ I1 = In1 + i*W*H;
+			int I2 = In2[i];
+			signed char * __restrict__ O  = Out + i*W*H;
+			for (int j=0; j<((W*H)/2); j++) {
+				int I10 = I1[2*j], I11 = I1[2*j+1];
+				int Acc0 = gap_clip(AT_SCALE(I10*Scale, I2, ScaleN), 7), Acc1 = gap_clip(AT_SCALE(I11*Scale, I2, ScaleN), 7);
+				Acc0 = AT_SCALE(ActScale, Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScaleN);
+				Acc1 = AT_SCALE(ActScale, Max(0, Min(A0, Acc1 + B0)) * C0 * Acc1, ActScaleN);
+				O[2*j  ] = gap_clip(Acc0, 7); O[2*j+1] = gap_clip(Acc1, 7);
+			}
+			int Acc0 = gap_clip(AT_SCALE(I1[W*H-1]*Scale, I2, ScaleN), 7);
+			O[W*H-1] = gap_clip(AT_SCALE(ActScale, Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScaleN), 7);
+		}
+	else
+		for (int i=First; i<Last; i++) {
+			signed char * __restrict__ I1 = In1 + i*W*H;
+			int I2 = In2[i];
+			signed char * __restrict__ O  = Out + i*W*H;
+			for (int j=0; j<((W*H)/2); j++) {
+				int I10 = I1[2*j], I11 = I1[2*j+1];
+				int Acc0 = gap_clip(AT_SCALE(I10, I2, ScaleN), 7), Acc1 = gap_clip(AT_SCALE(I11, I2, ScaleN), 7);
+				Acc0 = AT_SCALE(ActScale, Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScaleN);
+				Acc1 = AT_SCALE(ActScale, Max(0, Min(A0, Acc1 + B0)) * C0 * Acc1, ActScaleN);
+				O[2*j  ] = gap_clip(Acc0, 7); O[2*j+1] = gap_clip(Acc1, 7);
+			}
+			int Acc0 = gap_clip(AT_SCALE(I1[W*H-1], I2, ScaleN), 7);
+			O[W*H-1] = gap_clip(AT_SCALE(ActScale, Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScaleN), 7);
+		}
+	gap_waitbarrier(0);
+}
+
+void KerParMatVectMul_LeakyReLU_SQ8(KerMat3_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In1	= Arg->In1;
+	signed char * __restrict__ In2	= Arg->In2;
+	signed char * __restrict__ Out	= Arg->Out;
+	int W				= Arg->W;
+	int H				= Arg->H;
+	unsigned int ActScale		= ((unsigned char *)(Arg->Infos))[AT_INF_ACTSCALE];
+	unsigned int ActScaleN		= ((unsigned char *)(Arg->Infos))[AT_INF_ACTSCALEN];
+	int A0				= Arg->Infos[AT_INF_A0];
+	int B0				= Arg->Infos[AT_INF_B0];
+	int C0				= Arg->Infos[AT_INF_C0];
+	unsigned int Scale		= Arg->Infos[AT_INF_SCALE];
+	unsigned int ScaleN		= ((unsigned char *)(Arg->Infos))[AT_INF_SCALEN];
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Arg->Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Arg->Feat);
+
+	if (Scale)
+		for (int i=First; i<Last; i++) {
+			signed char * __restrict__ I1 = In1 + i*W*H;
+			int I2 = In2[i];
+			signed char * __restrict__ O  = Out + i*W*H;
+			for (int j=0; j<((W*H)/2); j++) {
+				int I10 = I1[2*j], I11 = I1[2*j+1];
+				int Acc0 = gap_clip(AT_SCALE(I10*Scale, I2, ScaleN), 7), Acc1 = gap_clip(AT_SCALE(I11*Scale, I2, ScaleN), 7);
+				int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+				int Acc0N = AT_NORM(Acc0 * A0, 7);
+				Acc0 = AT_SCALE(ActScale, (Neg0*Acc0N+Pos0*Acc0), ActScaleN);
+				int Neg1 = gap_bitextractu(Acc1, 1, 31), Pos1 = !Neg1;
+				int Acc1N = AT_NORM(Acc1 * A0, 7);
+				Acc1 = AT_SCALE(ActScale, (Neg1*Acc1N+Pos1*Acc1), ActScaleN);
+				O[2*j  ] = gap_clip(Acc0, 7); O[2*j+1] = gap_clip(Acc1, 7);
+			}
+			int Acc0 = gap_clip(AT_SCALE(I1[W*H-1]*Scale, I2, ScaleN), 7);
+			int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+			int Acc0N = AT_NORM(Acc0 * A0, 7);
+			O[W*H-1] = gap_clip(AT_SCALE(ActScale, (Neg0*Acc0N+Pos0*Acc0), ActScaleN), 7);
+		}
+	else
+		for (int i=First; i<Last; i++) {
+			signed char * __restrict__ I1 = In1 + i*W*H;
+			int I2 = In2[i];
+			signed char * __restrict__ O  = Out + i*W*H;
+			for (int j=0; j<((W*H)/2); j++) {
+				int I10 = I1[2*j], I11 = I1[2*j+1];
+				int Acc0 = gap_clip(AT_SCALE(I10, I2, ScaleN), 7), Acc1 = gap_clip(AT_SCALE(I11, I2, ScaleN), 7);
+				int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+				int Acc0N = AT_NORM(Acc0 * A0, 7);
+				Acc0 = AT_SCALE(ActScale, (Neg0*Acc0N+Pos0*Acc0), ActScaleN);
+				int Neg1 = gap_bitextractu(Acc1, 1, 31), Pos1 = !Neg1;
+				int Acc1N = AT_NORM(Acc1 * A0, 7);
+				Acc1 = AT_SCALE(ActScale, (Neg1*Acc1N+Pos1*Acc1), ActScaleN);
+				O[2*j  ] = gap_clip(Acc0, 7); O[2*j+1] = gap_clip(Acc1, 7);
+			}
+			int Acc0 = gap_clip(AT_SCALE(I1[W*H-1], I2, ScaleN), 7);
+			int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+			int Acc0N = AT_NORM(Acc0 * A0, 7);
+			O[W*H-1] = gap_clip(AT_SCALE(ActScale, (Neg0*Acc0N+Pos0*Acc0), ActScaleN), 7);
+		}
+	gap_waitbarrier(0);
+}
+
+/*************************************************************************************************************************************************
+	Matrix Transposition, no scaling. Feature Parallel and Parallel Feature
+*************************************************************************************************************************************************/
+
+static void CNN_Transpose_Body_fps(
+	signed char *__restrict__ In,
+	signed char *__restrict__ Out,
+	unsigned int W,
+	unsigned int Wo_F,
+	unsigned int Wo_L,
+	unsigned int H,
+	unsigned int Ho_F,
+	unsigned int Ho_L
+	)
+       
+{
+	int IterL = Ho_L-Ho_F;
+	int IterW = Wo_L-Wo_F;
+	for (int l=0; l<IterL/4; l++) {
+		v4s *pV0 = (v4s *) (In + (Ho_F+4*l+0)*W + Wo_F);
+		v4s *pV1 = (v4s *) (In + (Ho_F+4*l+1)*W + Wo_F);
+		v4s *pV2 = (v4s *) (In + (Ho_F+4*l+2)*W + Wo_F);
+		v4s *pV3 = (v4s *) (In + (Ho_F+4*l+3)*W + Wo_F);
+		signed char *pO  = (Out + Ho_F + 4*l + Wo_F*H);
+		for (int c=0; c<IterW/4; c++) {
+			v4s X, Y;
+			v4s A = pV0[c], B = pV1[c], C = pV2[c], D = pV3[c];
+			v4s rA, rB, rC, rD;
+
+			X  = __builtin_shuffle(A, B, (v4s) {0,4,1,5});
+			Y  = __builtin_shuffle(C, D, (v4s) {0,4,1,5});
+			rA = __builtin_shuffle(X, Y, (v4s) {0,1,4,5});
+			rB = __builtin_shuffle(X, Y, (v4s) {2,3,6,7});
+
+			X  = __builtin_shuffle(A, B, (v4s) {2,6,3,7});
+			Y  = __builtin_shuffle(C, D, (v4s) {2,6,3,7});
+			rC = __builtin_shuffle(X, Y, (v4s) {0,1,4,5});
+			rD = __builtin_shuffle(X, Y, (v4s) {2,3,6,7});
+
+			*((v4s *) (pO+(4*c+0)*H)) = rA;
+			*((v4s *) (pO+(4*c+1)*H)) = rB;
+			*((v4s *) (pO+(4*c+2)*H)) = rC;
+			*((v4s *) (pO+(4*c+3)*H)) = rD;
+		}
+		for (int c=4*(IterW/4); c<IterW; c++) {
+			int X0 = In[(Ho_F+4*l+0)*W + (Wo_F+c)], X1 = In[(Ho_F+4*l+1)*W + (Wo_F+c)], X2 = In[(Ho_F+4*l+2)*W + (Wo_F+c)], X3 = In[(Ho_F+4*l+3)*W + (Wo_F+c)];
+			Out[Ho_F+4*l+0 + (Wo_F+c)*H] = X0; Out[Ho_F+4*l+1 + (Wo_F+c)*H] = X1; Out[Ho_F+4*l+2 + (Wo_F+c)*H] = X2; Out[Ho_F+4*l+3 + (Wo_F+c)*H] = X3;
+		}
+	}
+	for (int l=4*(IterL/4); l<IterL; l++) {
+		for (int c=0; c<IterW/2; c++) {
+			signed char X0 = In[(Ho_F+l)*W + Wo_F+2*c+0], X1 = In[(Ho_F+l)*W + Wo_F+2*c+1];
+			Out[Ho_F+l + (Wo_F+2*c+0)*H] = X0;
+			Out[Ho_F+l + (Wo_F+2*c+1)*H] = X1;
+		}
+		if (IterW&0x1) Out[Ho_F+l+ (Wo_L-1)*H] = In[(Ho_F+l)*W+Wo_L-1];
+	}
+}
+
+static void CNN_TransposeSxSy_Body_fps(
+	signed char *__restrict__ In,
+	signed char *__restrict__ Out,
+	unsigned int W,
+	unsigned int Wo_F,
+	unsigned int Wo_L,
+	unsigned int Ho,
+	unsigned int Ho_F,
+	unsigned int Ho_L,
+	unsigned int Sx,
+	unsigned int Sy
+	)
+{
+	for (int l=Ho_F; l<Ho_L; l++) {
+		int IterW = Wo_L-Wo_F;
+		for (int c=0; c<IterW/2; c++) {
+			signed char X0 = In[Sy*l*W + Sx*(Wo_F+2*c+0)], X1 = In[Sy*l*W + Sx*(Wo_F+2*c+1)];
+			Out[l + (Wo_F+2*c+0)*Ho] = X0;
+			Out[l + (Wo_F+2*c+1)*Ho] = X1;
+		}
+		if (IterW&0x1) Out[l+ (Wo_L-1)*Ho] = In[Sy*l*W+Sx*(Wo_L-1)];
+	}
+}
+
+void CNN_ParTranspose_fps(KerMatTranspose_fps_T *Arg)
+
+{
+	signed char *__restrict__ In = Arg->In;
+	signed char *__restrict__ Out = Arg->Out;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+        unsigned int CoreId = gap_coreid();
+        unsigned int Chunk = ChunkSize(Feat);
+        unsigned int First = Chunk*CoreId;
+        unsigned int Last = Min(First+Chunk, Feat);
+
+	for (int f=First; f<Last; f++) CNN_Transpose_Body_fps(In+W*H*f, Out+W*H*f, W, 0, W, H, 0, H);
+	gap_waitbarrier(0);
+}
+
+void CNN_ParTransposeSxSy_fps(KerMatTranspose_fps_T *Arg)
+
+{
+	signed char *__restrict__ In = Arg->In;
+	signed char *__restrict__ Out = Arg->Out;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	unsigned int Sx = Arg->Sx;
+	unsigned int Sy = Arg->Sy;
+	unsigned int Wo = (W+Sx-1)/Sx;
+	unsigned int Ho = (H+Sy-1)/Sy;
+        unsigned int CoreId = gap_coreid();
+        unsigned int Chunk = ChunkSize(Feat);
+        unsigned int First = Chunk*CoreId;
+        unsigned int Last = Min(First+Chunk, Feat);
+
+	for (int f=First; f<Last; f++) CNN_TransposeSxSy_Body_fps(In+W*H*f, Out+Wo*Ho*f, W, 0, Wo, Ho, 0, Ho, Sx, Sy);
+	gap_waitbarrier(0);
+}
+
+void CNN_Transpose_fps(KerMatTranspose_fps_T *Arg)
+
+{
+	signed char *__restrict__ In = Arg->In;
+	signed char *__restrict__ Out = Arg->Out;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int Wo_F, Wo_L, Ho_F, Ho_L;
+	unsigned int Feat = Arg->Feat;
+        unsigned int Chunk, CoreId = gap_coreid();
+
+	if (H>W) {
+		/* Tile horizontally */
+		Chunk = ChunkSize(H); Ho_F = Chunk*CoreId; Ho_L = Min(Ho_F+Chunk, H); Wo_F = 0; Wo_L = W;
+	} else {
+		/* Tile vertically */
+		Chunk = ChunkSize(W); Wo_F = Chunk*CoreId; Wo_L = Min(Wo_F+Chunk, W); Ho_F = 0; Ho_L = H;
+	}
+	if (Wo_F<Wo_L && Ho_F<Ho_L) {
+		for (int f=0; f<Feat; f++) CNN_Transpose_Body_fps(In+W*H*f, Out+W*H*f, W, Wo_F, Wo_L, H, Ho_F, Ho_L); 
+	}
+	gap_waitbarrier(0);
+}
+
+void CNN_TransposeSxSy_fps(KerMatTranspose_fps_T *Arg)
+
+{
+	signed char *__restrict__ In = Arg->In;
+	signed char *__restrict__ Out = Arg->Out;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int Wo_F, Wo_L, Ho_F, Ho_L;
+	unsigned int Sx = Arg->Sx;
+	unsigned int Sy = Arg->Sy;
+	unsigned int Wo = (W+Sx-1)/Sx;
+	unsigned int Ho = (H+Sy-1)/Sy;
+	unsigned int Feat = Arg->Feat;
+        unsigned int Chunk, CoreId = gap_coreid();
+
+	if (Ho>Wo) {
+		/* Tile horizontally */
+		Chunk = ChunkSize(Ho); Ho_F = Chunk*CoreId; Ho_L = Min(Ho_F+Chunk, Ho); Wo_F = 0; Wo_L = Wo;
+	} else {
+		/* Tile vertically */
+		Chunk = ChunkSize(Wo); Wo_F = Chunk*CoreId; Wo_L = Min(Wo_F+Chunk, Wo); Ho_F = 0; Ho_L = Ho;
+	}
+	if (Wo_F<Wo_L && Ho_F<Ho_L) {
+		for (int f=0; f<Feat; f++) CNN_TransposeSxSy_Body_fps(In+W*H*f, Out+Wo*Ho*f, W, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy); 
+	}
+	gap_waitbarrier(0);
+}
+
+/*************************************************************************************************************************************************
+	3D Tensor permutations, no scaling.
+*************************************************************************************************************************************************/
+
+void CNN_MatPermCHW2CWH_fps(KerMatTranspose_fps_T *Arg)
+
+{
+	signed char *__restrict__ In = Arg->In;
+	signed char *__restrict__ Out = Arg->Out;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int Feat = Arg->Feat, C = Feat;
+        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	for (int c=First; c<Last; c++) {
+		for (int h=0; h<H; h++) {
+			for (int w=0; w<((W/2)*2); w+=2) {
+				int V0 = In[c*H*W + h*W + (w+0)], V1 = In[c*H*W+h*W+(w+1)];
+				Out[c*H*W + (w+0)*H + h] = V0;
+				Out[c*H*W + (w+1)*H + h] = V1;
+			}
+			if (W&0x1) Out[c*H*W + (W-1)*H + h] = In[c*H*W+h*W+W-1];
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+void CNN_MatPermCHW2HWC_fps(KerMatTranspose_fps_T *Arg)
+
+{
+	signed char *__restrict__ In = Arg->In;
+	signed char *__restrict__ Out = Arg->Out;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int Feat = Arg->Feat, C = Feat;
+        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	for (int c=First; c<Last; c++) {
+		for (int h=0; h<H; h++) {
+			for (int w=0; w<((W/2)*2); w+=2) {
+				int V0 = In[c*H*W+h*W+(w+0)], V1 = In[c*H*W+h*W+(w+1)];
+				Out[h*W*C + (w+0)*C + c] = V0;
+				Out[h*W*C + (w+1)*C + c] = V1;
+			}
+			if (W&0x1) Out[h*W*C + (W-1)*C + c] = In[c*H*W+h*W+W-1];
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+void CNN_MatPermCHW2WHC_fps(KerMatTranspose_fps_T *Arg)
+
+{
+	signed char *__restrict__ In = Arg->In;
+	signed char *__restrict__ Out = Arg->Out;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int Feat = Arg->Feat, C = Feat;
+        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	for (int c=First; c<Last; c++) {
+		for (int h=0; h<H; h++) {
+			for (int w=0; w<((W/2)*2); w+=2) {
+				int V0 = In[c*H*W+h*W+(w+0)], V1 = In[c*H*W+h*W+(w+1)];
+				Out[(w+0)*H*C + h*C + c] = V0;
+				Out[(w+1)*H*C + h*C + c] = V1;
+			}
+			if (W&0x1) Out[(W-1)*H*C + h*C + c] = In[c*H*W+h*W+W-1];
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+void CNN_MatPermCHW2WCH_fps(KerMatTranspose_fps_T *Arg)
+
+{
+	signed char *__restrict__ In = Arg->In;
+	signed char *__restrict__ Out = Arg->Out;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int Feat = Arg->Feat, C = Feat;
+        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	for (int c=First; c<Last; c++) {
+		for (int h=0; h<H; h++) {
+			for (int w=0; w<((W/2)*2); w+=2) {
+				int V0 = In[c*H*W+h*W+(w+0)], V1 = In[c*H*W+h*W+(w+1)];
+				Out[(w+0)*C*H + c*H + h] = V0;
+				Out[(w+1)*C*H + c*H + h] = V1;
+			}
+			if (W&0x1) Out[(W-1)*C*H + c*H + h] = In[c*H*W+h*W+W-1];
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+void CNN_MatPermCHW2HCW_fps(KerMatTranspose_fps_T *Arg)
+
+{
+	signed char *__restrict__ In = Arg->In;
+	signed char *__restrict__ Out = Arg->Out;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int Feat = Arg->Feat, C = Feat;
+        unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	for (int c=First; c<Last; c++) {
+		for (int h=0; h<H; h++) {
+			for (int w=0; w<((W/2)*2); w+=2) {
+				int V0 = In[c*H*W+h*W+(w+0)], V1 = In[c*H*W+h*W+(w+1)];
+				Out[h*C*W + c*W + (w+0)] = V0;
+				Out[h*C*W + c*W + (w+1)] = V1;
+			}
+			if (W&0x1) Out[h*C*W + c*W + (W-1)] = In[c*H*W+h*W+W-1];
+		}
+	}
+	gap_waitbarrier(0);
+}
+
diff --git a/tools/autotiler_v3/generators/CNN/CNN_Pooling_SQ8.c b/tools/autotiler_v3/generators/CNN/CNN_Pooling_SQ8.c
new file mode 100644
index 000000000..f0c58770a
--- /dev/null
+++ b/tools/autotiler_v3/generators/CNN/CNN_Pooling_SQ8.c
@@ -0,0 +1,2281 @@
+#include <stdio.h>
+#include "Gap.h"
+#include "CNN_BasicKernels_SQ8.h"
+
+static int CoreCountDynamic = 1;
+static int ActiveCore = gap_ncore();
+
+static inline unsigned int __attribute__((always_inline)) ChunkSize(unsigned int X)
+
+{
+	unsigned int NCore;
+	unsigned int Log2Core;
+	unsigned int Chunk;
+
+	if (CoreCountDynamic) NCore = ActiveCore; else NCore = gap_ncore();
+	Log2Core = gap_fl1(NCore);
+	Chunk = (X>>Log2Core) + ((X&(NCore-1))!=0);
+	return Chunk;
+}
+
+static int FirstDefinedOutput(unsigned int F, unsigned int Pad, unsigned int Stride)
+
+{
+	// k*S - (F-1)/2 >=0 => k >= (((F-1)/2) + S-1)/S
+
+	return ((Pad+Stride-1)/Stride);
+}
+
+static int LastDefinedOutput(unsigned int DimIn, unsigned int F, unsigned int PadL, unsigned int Stride)
+
+{
+	// k*S + ((F-1)/2 - PadL + F/2) < Dim  => k < (Dim-((F-1)/2 - PadL + (F/2)) + S-1)/S
+
+	return ((DimIn - ((F-1)/2 - PadL + (F/2)) + Stride-1)/Stride);
+}
+
+static int __attribute__ ((always_inline)) MinCond(int a, int b)
+
+{
+#ifdef DIM_ALWAYS_GREATER_THAN_FILTER
+	return a;
+#else
+	return Max(0, Min(a, b));
+#endif
+}
+
+/*
+ * Standalone activation, assuming contiguous tile (horizontal)
+*/
+static void Ker_Activation_SQ8(
+	signed char * __restrict__ InOut,
+	unsigned int N,
+	CNN_ActivationOper_T Activation,
+	unsigned int ActScale, unsigned int ActScaleN, int A0, int B0, int C0
+	)
+
+{
+	for (unsigned int i=0; i<N/2; i++) {
+		int Acc0 = InOut[2*i], Acc1 = InOut[2*i+1];
+		switch (Activation) {
+			case ACT_NONE:     Acc0 = AT_SCALE(Acc0, ActScale, ActScaleN); Acc1 = AT_SCALE(Acc1, ActScale, ActScaleN); break;
+			case ACT_RELU:     Acc0 = AT_SCALE(Max(0, Acc0), ActScale, ActScaleN); Acc1 = AT_SCALE(Max(0, Acc1), ActScale, ActScaleN); break;
+			case ACT_RELUN:    Acc0 = AT_SCALE(Min(A0, Max(0, Acc0)), ActScale, ActScaleN); Acc1 = AT_SCALE(Min(A0, Max(0, Acc1)), ActScale, ActScaleN); break;
+			case ACT_HSIGMOID: Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0, ActScale, ActScaleN); Acc1 = AT_SCALE(Max(0, Min(A0, Acc1 + B0)) * C0, ActScale, ActScaleN); break;
+			case ACT_HSWISH:   Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScale, ActScaleN); Acc1 = AT_SCALE(Max(0, Min(A0, Acc1 + B0)) * C0 * Acc1, ActScale, ActScaleN); break;
+			case ACT_LEAKYRELU:
+				{
+					int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+					int Acc0N = AT_NORM(Acc0 * A0, 7);
+					Acc0 = AT_SCALE((Neg0*Acc0N+Pos0*Acc0), ActScale, ActScaleN);
+					int Neg1 = gap_bitextractu(Acc1, 1, 31), Pos1 = !Neg1;
+					int Acc1N = AT_NORM(Acc1 * A0, 7);
+					Acc1 = AT_SCALE((Neg1*Acc1N+Pos1*Acc1), ActScale, ActScaleN);
+				//      Acc0 = AT_SCALE(((Acc0<0) ? AT_NORM((Acc0 * A0), 7):Acc0), ActScale, ActScaleN);
+				//      Acc1 = AT_SCALE(((Acc1<0) ? AT_NORM((Acc1 * A0), 7):Acc1), ActScale, ActScaleN);
+				}
+				break;
+		}
+		InOut[2*i] = gap_clip(Acc0, 7), InOut[2*i+1] = gap_clip(Acc1, 7);
+	}
+	if (N&0x1) {
+		unsigned int i=N-1;
+		int Acc0 = InOut[i];
+		switch (Activation) {
+			case ACT_NONE:     Acc0 = AT_SCALE(Acc0, ActScale, ActScaleN); break;
+			case ACT_RELU:     Acc0 = AT_SCALE(Max(0, Acc0), ActScale, ActScaleN); break;
+			case ACT_RELUN:    Acc0 = AT_SCALE(Min(A0, Max(0, Acc0)), ActScale, ActScaleN); break;
+			case ACT_HSIGMOID: Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0, ActScale, ActScaleN); break;
+			case ACT_HSWISH:   Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScale, ActScaleN); break;
+			case ACT_LEAKYRELU:
+				{
+					int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+					int Acc0N = AT_NORM(Acc0 * A0, 7);
+					Acc0 = AT_SCALE((Neg0*Acc0N+Pos0*Acc0), ActScale, ActScaleN);
+				//      Acc0 = AT_SCALE(((Acc0<0) ? AT_NORM((Acc0 * A0), 7):Acc0), ActScale, ActScaleN);
+				}
+				break;
+		}
+		InOut[i] = gap_clip(Acc0, 7);
+	}
+}
+
+/*
+ * Standalone activation, assuming contiguous tile (horizontal), special case when ActScale=1.0
+*/
+static void Ker_ActivationScale1_SQ8(
+	signed char * __restrict__ InOut,
+	unsigned int N,
+	CNN_ActivationOper_T Activation,
+	int A0
+	)
+
+{
+	for (unsigned int i=0; i<N/2; i++) {
+		int Acc0 = InOut[2*i], Acc1 = InOut[2*i+1];
+		switch (Activation) {
+			case ACT_RELU: Acc0 = Max(0, Acc0); Acc1 = Max(0, Acc1); break;
+			case ACT_RELUN: Acc0 = Min(A0, Max(0, Acc0)); Acc1 = Min(A0, Max(0, Acc1)); break;
+		}
+		InOut[2*i] = Acc0; InOut[2*i+1] = Acc1;
+	}
+	if (N&0x1) {
+		unsigned int i=N-1;
+		int Acc0 = InOut[i];
+		switch (Activation) {
+			case ACT_RELU: Acc0 = Max(0, Acc0); break;
+			case ACT_RELUN: Acc0 = Min(A0, Max(0, Acc0)); break;
+		}
+		InOut[i] = Acc0;
+	}
+}
+
+/*
+ * Standalone activation, assuming vertical tile
+*/
+static void Ker_Activation_Ver_SQ8(
+	signed char * __restrict__ InOut,
+	unsigned int W, unsigned int H, unsigned int C_First, unsigned int C_Last,
+	CNN_ActivationOper_T Activation,
+	unsigned int ActScale, unsigned int ActScaleN, int A0, int B0, int C0
+	)
+
+{
+	for (unsigned int l=0; l<H; l++) {
+		for (unsigned int c=C_First; c<C_Last; c++) {
+			int Acc0 = InOut[l*W+c];
+			switch (Activation) {
+				case ACT_NONE:     Acc0 = AT_SCALE(Acc0, ActScale, ActScaleN); break;
+				case ACT_RELU:     Acc0 = AT_SCALE(Max(0, Acc0), ActScale, ActScaleN); break;
+				case ACT_RELUN:    Acc0 = AT_SCALE(Min(A0, Max(0, Acc0)), ActScale, ActScaleN); break;
+				case ACT_HSIGMOID: Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0, ActScale, ActScaleN); break;
+				case ACT_HSWISH:   Acc0 = AT_SCALE(Max(0, Min(A0, Acc0 + B0)) * C0 * Acc0, ActScale, ActScaleN); break;
+				case ACT_LEAKYRELU:
+					{
+						int Neg0 = gap_bitextractu(Acc0, 1, 31), Pos0 = !Neg0;
+						int Acc0N = AT_NORM(Acc0 * A0, 7);
+						Acc0 = AT_SCALE((Neg0*Acc0N+Pos0*Acc0), ActScale, ActScaleN);
+					//      Acc0 = AT_SCALE(((Acc0<0) ? AT_NORM((Acc0 * A0), 7):Acc0), ActScale, ActScaleN);
+					}
+					break;
+			}
+			InOut[l*W+c] = gap_clip(Acc0, 7);
+		}
+	}
+}
+
+/*
+ * Standalone activation, assuming contiguous tile (horizontal), special case when ActScale=1.0
+*/
+static void Ker_ActivationScale1_Ver_SQ8(
+	signed char * __restrict__ InOut,
+	unsigned int W, unsigned int H, unsigned int C_First, unsigned int C_Last,
+	CNN_ActivationOper_T Activation,
+	int A0
+	)
+
+{
+	for (unsigned int l=0; l<H; l++) {
+		for (unsigned int c=C_First; c<C_Last; c++) {
+			int Acc0 = InOut[l*W+c];
+			switch (Activation) {
+				case ACT_RELU: Acc0 = Max(0, Acc0); break;
+				case ACT_RELUN: Acc0 = Min(A0, Max(0, Acc0)); break;
+			}
+			InOut[l*W+c] = Acc0;
+		}
+	}
+}
+
+static void KerMaxPool2x2Stride2_SQ8(
+	signed char * __restrict__ In,
+	int W,
+	int H,
+	signed char * __restrict__ Out,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s PadIn,
+	v4s PadOrg
+	)
+
+{
+	int PadL = PadIn[0], PadR = PadIn[1], PadT = PadIn[2], PadB = PadIn[3];
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+
+	if (PadL) for (unsigned int i=Ho_F; i<Ho_L; i++) Out[Wo*i+0] = Max(Max(0, In[(2*i-PadTOrg)*W+0]), In[(2*i+1-PadTOrg)*W+0]);
+	if (PadT) {
+		v4s * __restrict__ Line1 = (v4s *) (&In[Wo_F*2-PadLOrg]);
+		unsigned int Iter=(Wo_L-Wo_F);
+		for (unsigned int j=0; j<(Iter/2); j++) {
+		       	v4s M = gap_max4(Line1[j], ((v4s){0,0,0,0}));
+		       	Out[2*j  +Wo_F] = Max(M[0], M[1]);
+		       	Out[2*j+1+Wo_F] = Max(M[2], M[3]);
+		}
+		if (Iter&0x1) {
+		       	v4s M = gap_max4(Line1[Iter/2], ((v4s){0,0,0,0}));
+		       	Out[2*(Iter/2)+Wo_F] = Max(M[0], M[1]);
+		}
+		if (PadL) Out[0] = Max(In[0], 0);
+		if (PadR) Out[Wo-1] = Max(In[W-1], 0);
+	}
+
+	for (unsigned int i=Ho_F; i<Ho_L; i++) {
+		v4s *__restrict__ Line1 = (v4s *) (In + (i*2  -PadTOrg)*W + Wo_F*2-PadLOrg);
+		v4s *__restrict__ Line2 = (v4s *) (In + (i*2+1-PadTOrg)*W + Wo_F*2-PadLOrg);
+		unsigned int Iter=(Wo_L-Wo_F);
+		for (unsigned int j=0; j<(Iter/2); j++) {
+			v4s M = gap_max4(Line1[j], Line2[j]);
+			Out[Wo*i+2*j  +Wo_F] = Max(M[0], M[1]);
+			Out[Wo*i+2*j+1+Wo_F] = Max(M[2], M[3]);
+		}
+		if (Iter&0x1) {
+			v4s M = gap_max4(Line1[Iter/2], Line2[Iter/2]);
+			Out[Wo*i+2*(Iter/2)+Wo_F] = Max(M[0], M[1]);
+		}
+	}
+	if (PadR) for (unsigned int i=Ho_F; i<Ho_L; i++) Out[Wo*i+Wo-1] = Max(Max(0, In[(2*i-PadTOrg)*W+W-1]), In[(2*i+1-PadTOrg)*W+W-1]);
+       	if (PadB) {
+		v4s * __restrict__ Line1 = (v4s *) (&In[(H-1)*W + Wo_F*2-PadLOrg]);
+		unsigned int Iter=(Wo_L-Wo_F);
+		for (unsigned int j=0; j<(Iter/2); j++) {
+		       	v4s M = gap_max4(Line1[j], ((v4s){0,0,0,0}));
+		       	Out[Wo*(Ho-1)+2*j+Wo_F]   = Max(M[0], M[1]);
+		       	Out[Wo*(Ho-1)+2*j+1+Wo_F] = Max(M[2], M[3]);
+	       	}
+		if (Iter&0x1) {
+		       	v4s M = gap_max4(Line1[Iter/2], ((v4s){0,0,0,0}));
+		       	Out[Wo*(Ho-1)+2*(Iter/2)+Wo_F] = Max(M[0], M[1]);
+		}
+		if (PadL) Out[Wo*(Ho-1)] = Max(In[W*(H-1)], 0);
+	       	if (PadR) Out[Wo*Ho-1] = Max(In[W*H-1], 0);
+       	}
+}
+
+static void KerAvgPool2x2Stride2_SQ8(
+	signed char * __restrict__ In,
+	int W,
+	int H,
+	signed char * __restrict__ Out,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	v4s PadIn,
+	v4s PadOrg
+	)
+
+{
+	int PadL = PadIn[0], PadR = PadIn[1], PadT = PadIn[2], PadB = PadIn[3];
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+
+	if (PadL) for (unsigned int i=Ho_F; i<Ho_L; i++) Out[Wo*i+0] = gap_roundnorm(In[(2*i-PadTOrg)*W+0]+In[(2*i+1-PadTOrg)*W+0], 2);
+	if (PadT) {
+		v4s * __restrict__ Line1 = (v4s *) (&In[Wo_F*2-PadLOrg]);
+		unsigned int Iter=(Wo_L-Wo_F);
+		for (unsigned int j=0; j<Iter; j++) {
+			int S = gap_dotp4((v4s)(int)Line1[j], ((v4s) {1,1,0,0}));
+			Out[j+Wo_F] = gap_roundnorm(S, 2);
+		}
+		if (PadL) Out[0] = gap_roundnorm(In[0], 2);
+		if (PadR) Out[Wo-1] = gap_roundnorm(In[W-1], 2);
+	}
+       	for (unsigned int i=Ho_F; i<Ho_L; i++) {
+		short int *__restrict__ Line1 = (short int *) (In + (i*2  -PadTOrg)*W + Wo_F*2-PadLOrg);
+		short int *__restrict__ Line2 = (short int *) (In + (i*2+1-PadTOrg)*W + Wo_F*2-PadLOrg);
+		unsigned int Iter=(Wo_L-Wo_F);
+		for (unsigned int j=0; j<Iter; j++) {
+			int S = gap_dotp4((v4s)(int)Line1[j], ((v4s) {1,1,0,0}));
+			Out[Wo*i+j] = gap_roundnorm(gap_sumdotp4((v4s)(int)Line2[j], ((v4s) {1,1,0,0}), S), 2);
+
+	       	}
+       	}
+	if (PadR) for (unsigned int i=Ho_F; i<Ho_L; i++) Out[Wo*i+Wo-1] = gap_roundnorm(In[(2*i-PadTOrg)*W+W-1]+In[(2*i+1-PadTOrg)*W+W-1], 2);
+	if (PadB) {
+		short int * __restrict__ Line1 = (short int *) (&In[(H-1)*W + Wo_F*2-PadLOrg]);
+		unsigned int Iter=(Wo_L-Wo_F);
+		for (unsigned int j=0; j<Iter; j++) {
+			int S = gap_dotp4((v4s)(int)Line1[j], ((v4s) {1,1,0,0}));
+			Out[Wo*(Ho-1)+j+Wo_F] = gap_roundnorm(S, 2);
+		}
+		if (PadL) Out[Wo*(Ho-1)] = gap_roundnorm(In[W*(H-1)], 2);
+		if (PadR) Out[Wo*Ho-1] = gap_roundnorm(In[W*H-1], 2);
+       	}
+}
+
+static void __attribute__ ((noinline)) KerMaxPoolNxNStrideS_Border_SQ8(
+	signed char * __restrict__ In,
+	signed char * __restrict__ Out,
+	int Fw,
+	int Fh,
+	v4s Pad,
+	v4s PadOrg,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride
+	)
+
+{
+	unsigned int PadL=Pad[0], PadR=Pad[1], PadT=Pad[2], PadB=Pad[3];
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadROrg = PadOrg[1], PadBOrg = PadOrg[3];
+	int Hi_F = (Fh-1)/2 - PadTOrg;
+	int Hi_L = Hi_F + (Ho_L-1)*Stride;	// iff Hi_L>Hi_F
+	int Wi_F = (Fw-1)/2 - PadLOrg;
+	int Wi_L = Wi_F + (Wo_L-1)*Stride;	// iff Wi_L>Wi_F
+
+	if (PadT)
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+			/* Top stripe: 0 .. Min(Ho_F, Ho), Along W all points are defined since we are in [Wo_F..Wo_L[  */
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int Acc = 0;
+				int Fh_min = ht, Fh_max = MinCond(Fh, hb); // ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+				for (unsigned int i=Fh_min; i<Fh_max; i++) 
+					for (unsigned int j=0; j<Fw; j++) Acc = Max(Acc, In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]);
+				Out[Wo*h+w] = Acc;
+				ht -= Stride; hb -= Stride;
+			}
+		}
+	if (PadB) 
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			int ht = 0, hb = H - (Hi_L+Stride) + Fh/2;
+			/* Bottom stripe.  Exists only if Ho_L>Ho_F, then in this case Fh_min is = 0 by construction */
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int Fh_min = ht, Fh_max = MinCond(hb, Fh); // ht Can't be > F by definition of Ho_L so we can remove and use ht only
+				int Acc = 0;
+				for (unsigned int i=Fh_min; i<Fh_max; i++) 
+					for (unsigned int j=0; j<Fw; j++) Acc = Max(Acc, In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]);
+				Out[Wo*h+w] = Acc;
+				hb -= Stride;
+			}
+		}
+	if (PadL)
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+			for (unsigned int w=0; w<Wo_F; w++) {
+				int Acc = 0;
+				int Wh_min = wl, Wh_max = MinCond(Fw, wr); // wh Can't be < 0 by definition of Wo_F so we can remove and use wl only
+				for (unsigned int i=0; i<Fh; i++) 
+			       		for (unsigned int j=Wh_min; j<Wh_max; j++) Acc = Max(Acc, In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]);
+				Out[Wo*h+w] = Acc;
+				wl -= Stride; wr -= Stride;
+			}
+		}
+	if (PadR) 
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int wl = 0, wr = W - (Wi_L+Stride) + Fw/2;
+			for (unsigned int w=Wo_L; w<Wo; w++) {
+				int Acc = 0;
+				int Wh_min = wl, Wh_max = MinCond(wr, Fw); // ht Can't be > F by definition of Ho_L so we can remove and use ht only
+				for (unsigned int i=0; i<Fh; i++) 
+			       		for (unsigned int j=Wh_min; j<Wh_max; j++) Acc = Max(Acc, In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]);
+				Out[Wo*h+w] = Acc;
+				wr -= Stride;
+			}
+		}
+	if (PadT) {
+		if (PadL) { /* Upper left corner */
+			int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+				for (unsigned int w=0; w<Wo_F; w++) {
+					int Acc = 0;
+					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only. ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(Fw, wr), Fh_min = ht, Fh_max = MinCond(Fh, hb);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc = Max(Acc, In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]);
+					Out[Wo*h+w] = Acc;
+					wl -= Stride; wr -= Stride;
+				}
+				ht -= Stride; hb -= Stride;
+			}
+		}
+		if (PadR) { /* Upper right corner */
+			int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int wl = 0, wr = W - (Wi_L+Stride) + Fw/2;
+				for (unsigned int w=Wo_L; w<Wo; w++) {
+					int Acc = 0;
+					// ht Can't be > F by definition of Ho_L so we can remove and use ht only. ht Can't be > F by definition of Ho_L so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(wr, Fw), Fh_min = ht, Fh_max = MinCond(Fh, hb);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc = Max(Acc, In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]);
+					Out[Wo*h+w] = Acc;
+					wr -= Stride;
+				}
+				ht -= Stride; hb -= Stride;
+			}
+		}
+	}
+	if (PadB) {
+		if (PadL) { /* Bottom Left corner */
+			int ht = 0, hb = H - (Hi_L+Stride) + Fh/2;
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+				for (unsigned int w=0; w<Wo_F; w++) {
+					int Acc = 0;
+ 					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only.  ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(Fw, wr), Fh_min = ht, Fh_max = MinCond(hb, Fh);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc = Max(Acc, In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]);
+					Out[Wo*h+w] = Acc;
+					wl -= Stride; wr -= Stride;
+				}
+				hb -= Stride;
+			}
+		}
+		if (PadR) { /* Bottom Right corner */
+			int ht = 0, hb = H - (Hi_L+Stride) + Fh/2;
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int wl = 0, wr = W - (Wi_L+Stride) + Fw/2;
+				for (unsigned int w=Wo_L; w<Wo; w++) {
+					int Acc = 0;
+ 					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only.  ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(wr, Fw), Fh_min = ht, Fh_max = MinCond(hb, Fh);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc = Max(Acc, In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)]);
+					Out[Wo*h+w] = Acc;
+					wr -= Stride;
+				}
+				hb -= Stride;
+			}
+		}
+	}
+}
+
+static void __attribute__ ((noinline)) KerMaxPoolNxMStrideSxSy_Border_SQ8(
+	signed char * __restrict__ In,
+	signed char * __restrict__ Out,
+	int Fw,
+	int Fh,
+	v4s Pad,
+	v4s PadOrg,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int StrideX,
+	int StrideY
+	)
+
+{
+	unsigned int PadL=Pad[0], PadR=Pad[1], PadT=Pad[2], PadB=Pad[3];
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadROrg = PadOrg[1], PadBOrg = PadOrg[3];
+	int Hi_F = (Fh-1)/2 - PadTOrg;
+	int Hi_L = Hi_F + (Ho_L-1)*StrideY;	// iff Hi_L>Hi_F
+	int Wi_F = (Fw-1)/2 - PadLOrg;
+	int Wi_L = Wi_F + (Wo_L-1)*StrideX;	// iff Wi_L>Wi_F
+
+	if (PadT)
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+			/* Top stripe: 0 .. Min(Ho_F, Ho), Along W all points are defined since we are in [Wo_F..Wo_L[  */
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int Acc = 0;
+				int Fh_min = ht, Fh_max = MinCond(Fh, hb); // ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+				for (unsigned int i=Fh_min; i<Fh_max; i++) 
+					for (unsigned int j=0; j<Fw; j++) Acc = Max(Acc, In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]);
+				Out[Wo*h+w] = Acc;
+				ht -= StrideY; hb -= StrideY;
+			}
+		}
+	if (PadB) 
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			int ht = 0, hb = H - (Hi_L+StrideY) + Fh/2;
+			/* Bottom stripe.  Exists only if Ho_L>Ho_F, then in this case Fh_min is = 0 by construction */
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int Fh_min = ht, Fh_max = MinCond(hb, Fh); // ht Can't be > F by definition of Ho_L so we can remove and use ht only
+				int Acc = 0;
+				for (unsigned int i=Fh_min; i<Fh_max; i++) 
+					for (unsigned int j=0; j<Fw; j++) Acc = Max(Acc, In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]);
+				Out[Wo*h+w] = Acc;
+				hb -= StrideY;
+			}
+		}
+	if (PadL)
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+			for (unsigned int w=0; w<Wo_F; w++) {
+				int Acc = 0;
+				int Wh_min = wl, Wh_max = MinCond(Fw, wr); // wh Can't be < 0 by definition of Wo_F so we can remove and use wl only
+				for (unsigned int i=0; i<Fh; i++) 
+			       		for (unsigned int j=Wh_min; j<Wh_max; j++) Acc = Max(Acc, In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]);
+				Out[Wo*h+w] = Acc;
+				wl -= StrideX; wr -= StrideX;
+			}
+		}
+	if (PadR) 
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int wl = 0, wr = W - (Wi_L+StrideX) + Fw/2;
+			for (unsigned int w=Wo_L; w<Wo; w++) {
+				int Acc = 0;
+				int Wh_min = wl, Wh_max = MinCond(wr, Fw); // ht Can't be > F by definition of Ho_L so we can remove and use ht only
+				for (unsigned int i=0; i<Fh; i++) 
+			       		for (unsigned int j=Wh_min; j<Wh_max; j++) Acc = Max(Acc, In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]);
+				Out[Wo*h+w] = Acc;
+				wr -= StrideX;
+			}
+		}
+	if (PadT) {
+		if (PadL) { /* Upper left corner */
+			int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+				for (unsigned int w=0; w<Wo_F; w++) {
+					int Acc = 0;
+					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only. ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(Fw, wr), Fh_min = ht, Fh_max = MinCond(Fh, hb);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc = Max(Acc, In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]);
+					Out[Wo*h+w] =Acc;
+					wl -= StrideX; wr -= StrideX;
+				}
+				ht -= StrideY; hb -= StrideY;
+			}
+		}
+		if (PadR) { /* Upper right corner */
+			int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int wl = 0, wr = W - (Wi_L+StrideX) + Fw/2;
+				for (unsigned int w=Wo_L; w<Wo; w++) {
+					int Acc = 0;
+					// ht Can't be > F by definition of Ho_L so we can remove and use ht only. ht Can't be > F by definition of Ho_L so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(wr, Fw), Fh_min = ht, Fh_max = MinCond(Fh, hb);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc = Max(Acc, In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]);
+					Out[Wo*h+w] = Acc;
+					wr -= StrideX;
+				}
+				ht -= StrideY; hb -= StrideY;
+			}
+		}
+	}
+	if (PadB) {
+		if (PadL) { /* Bottom Left corner */
+			int ht = 0, hb = H - (Hi_L+StrideY) + Fh/2;
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+				for (unsigned int w=0; w<Wo_F; w++) {
+					int Acc = 0;
+ 					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only.  ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(Fw, wr), Fh_min = ht, Fh_max = MinCond(hb, Fh);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc = Max(Acc, In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]);
+					Out[Wo*h+w] = Acc;
+					wl -= StrideX; wr -= StrideX;
+				}
+				hb -= StrideY;
+			}
+		}
+		if (PadR) { /* Bottom Right corner */
+			int ht = 0, hb = H - (Hi_L+StrideY) + Fh/2;
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int wl = 0, wr = W - (Wi_L+StrideX) + Fw/2;
+				for (unsigned int w=Wo_L; w<Wo; w++) {
+					int Acc = 0;
+ 					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only.  ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(wr, Fw), Fh_min = ht, Fh_max = MinCond(hb, Fh);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc = Max(Acc, In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)]);
+					Out[Wo*h+w] = Acc;
+					wr -= StrideX;
+				}
+				hb -= StrideY;
+			}
+		}
+	}
+}
+
+static void __attribute__ ((noinline)) KerAvgPoolNxNStrideS_Border_SQ8(
+	signed char * __restrict__ In,
+	signed char * __restrict__ Out,
+	int Fw,
+	int Fh,
+	v4s Pad,
+	v4s PadOrg,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride
+	)
+
+{
+	unsigned int PadL=Pad[0], PadR=Pad[1], PadT=Pad[2], PadB=Pad[3];
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadROrg = PadOrg[1], PadBOrg = PadOrg[3];
+	unsigned int PoolFactor = (1<<16)/(Fw*Fh);
+	int Hi_F = (Fh-1)/2 - PadTOrg;
+	int Hi_L = Hi_F + (Ho_L-1)*Stride;	// iff Hi_L>Hi_F
+	int Wi_F = (Fw-1)/2 - PadLOrg;
+	int Wi_L = Wi_F + (Wo_L-1)*Stride;	// iff Wi_L>Wi_F
+
+
+	if (PadT)
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+			/* Top stripe: 0 .. Min(Ho_F, Ho), Along W all points are defined since we are in [Wo_F..Wo_L[  */
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int Acc = 0;
+				int Fh_min = ht, Fh_max = MinCond(Fh, hb); // ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+				for (unsigned int i=Fh_min; i<Fh_max; i++) 
+					for (unsigned int j=0; j<Fw; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)];
+				Out[Wo*h+w] = gap_clip(gap_roundnorm(Acc*PoolFactor, 16), 7);
+				ht -= Stride; hb -= Stride;
+			}
+		}
+	if (PadB) 
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			int ht = 0, hb = H - (Hi_L+Stride) + Fh/2;
+			/* Bottom stripe.  Exists only if Ho_L>Ho_F, then in this case Fh_min is = 0 by construction */
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int Fh_min = ht, Fh_max = MinCond(hb, Fh); // ht Can't be > F by definition of Ho_L so we can remove and use ht only
+				int Acc = 0;
+				for (unsigned int i=Fh_min; i<Fh_max; i++) 
+					for (unsigned int j=0; j<Fw; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)];
+				Out[Wo*h+w] = gap_clip(gap_roundnorm(Acc*PoolFactor, 16), 7);
+				hb -= Stride;
+			}
+		}
+	if (PadL)
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+			for (unsigned int w=0; w<Wo_F; w++) {
+				int Acc = 0;
+				int Wh_min = wl, Wh_max = MinCond(Fw, wr); // wh Can't be < 0 by definition of Wo_F so we can remove and use wl only
+				for (unsigned int i=0; i<Fh; i++) 
+			       		for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)];
+				Out[Wo*h+w] = gap_clip(gap_roundnorm(Acc*PoolFactor, 16), 7);
+				wl -= Stride; wr -= Stride;
+			}
+		}
+	if (PadR) 
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int wl = 0, wr = W - (Wi_L+Stride) + Fw/2;
+			for (unsigned int w=Wo_L; w<Wo; w++) {
+				int Acc = 0;
+				int Wh_min = wl, Wh_max = MinCond(wr, Fw); // ht Can't be > F by definition of Ho_L so we can remove and use ht only
+				for (unsigned int i=0; i<Fh; i++) 
+			       		for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)];
+				Out[Wo*h+w] = gap_clip(gap_roundnorm(Acc*PoolFactor, 16), 7);
+				wr -= Stride;
+			}
+		}
+	if (PadT) {
+		if (PadL) { /* Upper left corner */
+			int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+				for (unsigned int w=0; w<Wo_F; w++) {
+					int Acc = 0;
+					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only. ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(Fw, wr), Fh_min = ht, Fh_max = MinCond(Fh, hb);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)];
+					Out[Wo*h+w] = gap_clip(gap_roundnorm(Acc*PoolFactor, 16), 7);
+					wl -= Stride; wr -= Stride;
+				}
+				ht -= Stride; hb -= Stride;
+			}
+		}
+		if (PadR) { /* Upper right corner */
+			int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int wl = 0, wr = W - (Wi_L+Stride) + Fw/2;
+				for (unsigned int w=Wo_L; w<Wo; w++) {
+					int Acc = 0;
+					// ht Can't be > F by definition of Ho_L so we can remove and use ht only. ht Can't be > F by definition of Ho_L so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(wr, Fw), Fh_min = ht, Fh_max = MinCond(Fh, hb);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)];
+					Out[Wo*h+w] = gap_clip(gap_roundnorm(Acc*PoolFactor, 16), 7);
+					wr -= Stride;
+				}
+				ht -= Stride; hb -= Stride;
+			}
+		}
+	}
+	if (PadB) {
+		if (PadL) { /* Bottom Left corner */
+			int ht = 0, hb = H - (Hi_L+Stride) + Fh/2;
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+				for (unsigned int w=0; w<Wo_F; w++) {
+					int Acc = 0;
+ 					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only.  ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(Fw, wr), Fh_min = ht, Fh_max = MinCond(hb, Fh);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)];
+					Out[Wo*h+w] = gap_clip(gap_roundnorm(Acc*PoolFactor, 16), 7);
+					wl -= Stride; wr -= Stride;
+				}
+				hb -= Stride;
+			}
+		}
+		if (PadR) { /* Bottom Right corner */
+			int ht = 0, hb = H - (Hi_L+Stride) + Fh/2;
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int wl = 0, wr = W - (Wi_L+Stride) + Fw/2;
+				for (unsigned int w=Wo_L; w<Wo; w++) {
+					int Acc = 0;
+ 					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only.  ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(wr, Fw), Fh_min = ht, Fh_max = Min(hb, Fh);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*Stride-PadTOrg+i)*W + (w*Stride-PadLOrg+j)];
+					Out[Wo*h+w] = gap_clip(gap_roundnorm(Acc*PoolFactor, 16), 7);
+					wr -= Stride;
+				}
+				hb -= Stride;
+			}
+		}
+	}
+}
+
+static void __attribute__ ((noinline)) KerAvgPoolNxMStrideSxSy_Border_SQ8(
+	signed char * __restrict__ In,
+	signed char * __restrict__ Out,
+	int Fw,
+	int Fh,
+	v4s Pad,
+	v4s PadOrg,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int StrideX,
+	int StrideY
+	)
+
+{
+	unsigned int PadL=Pad[0], PadR=Pad[1], PadT=Pad[2], PadB=Pad[3];
+	int PadLOrg = PadOrg[0], PadTOrg = PadOrg[2];
+	int PadROrg = PadOrg[1], PadBOrg = PadOrg[3];
+	unsigned int PoolFactor = (1<<16)/(Fw*Fh);
+	int Hi_F = (Fh-1)/2 - PadTOrg;
+	int Hi_L = Hi_F + (Ho_L-1)*StrideY;	// iff Hi_L>Hi_F
+	int Wi_F = (Fw-1)/2 - PadLOrg;
+	int Wi_L = Wi_F + (Wo_L-1)*StrideX;	// iff Wi_L>Wi_F
+
+
+	if (PadT)
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+			/* Top stripe: 0 .. Min(Ho_F, Ho), Along W all points are defined since we are in [Wo_F..Wo_L[  */
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int Acc = 0;
+				int Fh_min = ht, Fh_max = MinCond(Fh, hb); // ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+				for (unsigned int i=Fh_min; i<Fh_max; i++) 
+					for (unsigned int j=0; j<Fw; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)];
+				Out[Wo*h+w] = gap_clip(gap_roundnorm(Acc*PoolFactor, 16), 7);
+				ht -= StrideY; hb -= StrideY;
+			}
+		}
+	if (PadB) 
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			int ht = 0, hb = H - (Hi_L+StrideY) + Fh/2;
+			/* Bottom stripe.  Exists only if Ho_L>Ho_F, then in this case Fh_min is = 0 by construction */
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int Fh_min = ht, Fh_max = MinCond(hb, Fh); // ht Can't be > F by definition of Ho_L so we can remove and use ht only
+				int Acc = 0;
+				for (unsigned int i=Fh_min; i<Fh_max; i++) 
+					for (unsigned int j=0; j<Fw; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)];
+				Out[Wo*h+w] = gap_clip(gap_roundnorm(Acc*PoolFactor, 16), 7);
+				hb -= StrideY;
+			}
+		}
+	if (PadL)
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+			for (unsigned int w=0; w<Wo_F; w++) {
+				int Acc = 0;
+				int Wh_min = wl, Wh_max = MinCond(Fw, wr); // wh Can't be < 0 by definition of Wo_F so we can remove and use wl only
+				for (unsigned int i=0; i<Fh; i++) 
+			       		for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)];
+				Out[Wo*h+w] = gap_clip(gap_roundnorm(Acc*PoolFactor, 16), 7);
+				wl -= StrideX; wr -= StrideX;
+			}
+		}
+	if (PadR) 
+		for (unsigned int h=Ho_F; h<Ho_L; h++) {
+			int wl = 0, wr = W - (Wi_L+StrideX) + Fw/2;
+			for (unsigned int w=Wo_L; w<Wo; w++) {
+				int Acc = 0;
+				int Wh_min = wl, Wh_max = MinCond(wr, Fw); // ht Can't be > F by definition of Ho_L so we can remove and use ht only
+				for (unsigned int i=0; i<Fh; i++) 
+			       		for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)];
+				Out[Wo*h+w] = gap_clip(gap_roundnorm(Acc*PoolFactor, 16), 7);
+				wr -= StrideX;
+			}
+		}
+	if (PadT) {
+		if (PadL) { /* Upper left corner */
+			int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+				for (unsigned int w=0; w<Wo_F; w++) {
+					int Acc = 0;
+					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only. ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(Fw, wr), Fh_min = ht, Fh_max = MinCond(Fh, hb);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)];
+					Out[Wo*h+w] = gap_clip(gap_roundnorm(Acc*PoolFactor, 16), 7);
+					wl -= StrideX; wr -= StrideX;
+				}
+				ht -= StrideY; hb -= StrideY;
+			}
+		}
+		if (PadR) { /* Upper right corner */
+			int ht = PadTOrg, hb = H - Hi_F + Fh/2;
+			for (unsigned int h=0; h<Ho_F; h++) {
+				int wl = 0, wr = W - (Wi_L+StrideX) + Fw/2;
+				for (unsigned int w=Wo_L; w<Wo; w++) {
+					int Acc = 0;
+					// ht Can't be > F by definition of Ho_L so we can remove and use ht only. ht Can't be > F by definition of Ho_L so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(wr, Fw), Fh_min = ht, Fh_max = MinCond(Fh, hb);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)];
+					Out[Wo*h+w] = gap_clip(gap_roundnorm(Acc*PoolFactor, 16), 7);
+					wr -= StrideX;
+				}
+				ht -= StrideY; hb -= StrideY;
+			}
+		}
+	}
+	if (PadB) {
+		if (PadL) { /* Bottom Left corner */
+			int ht = 0, hb = H - (Hi_L+StrideY) + Fh/2;
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int wl = PadLOrg, wr = W - Wi_F + Fw/2;
+				for (unsigned int w=0; w<Wo_F; w++) {
+					int Acc = 0;
+ 					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only.  ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(Fw, wr), Fh_min = ht, Fh_max = MinCond(hb, Fh);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)];
+					Out[Wo*h+w] = gap_clip(gap_roundnorm(Acc*PoolFactor, 16), 7);
+					wl -= StrideX; wr -= StrideX;
+				}
+				hb -= StrideY;
+			}
+		}
+		if (PadR) { /* Bottom Right corner */
+			int ht = 0, hb = H - (Hi_L+StrideY) + Fh/2;
+			for (unsigned int h=Ho_L; h<Ho; h++) {
+				int wl = 0, wr = W - (Wi_L+StrideX) + Fw/2;
+				for (unsigned int w=Wo_L; w<Wo; w++) {
+					int Acc = 0;
+ 					// wh Can't be < 0 by definition of Wo_F so we can remove and use wl only.  ht Can't be < 0 by definition of Ho_F so we can remove and use ht only
+					int Wh_min = wl, Wh_max = MinCond(wr, Fw), Fh_min = ht, Fh_max = Min(hb, Fh);
+					for (unsigned int i=Fh_min; i<Fh_max; i++) 
+						for (unsigned int j=Wh_min; j<Wh_max; j++) Acc += In[(h*StrideY-PadTOrg+i)*W + (w*StrideX-PadLOrg+j)];
+					Out[Wo*h+w] = gap_clip(gap_roundnorm(Acc*PoolFactor, 16), 7);
+					wr -= StrideX;
+				}
+				hb -= StrideY;
+			}
+		}
+	}
+}
+
+static void __attribute__ ((noinline)) KerMaxPoolNxNStrideS_Body_SQ8(
+	signed char * __restrict__ In,
+	signed char * __restrict__ Out,
+	int Fw,
+	int Fh,
+	int PadL,
+	int PadT,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride
+	)
+
+{
+	int ReVal = 0x80000000;
+	int W_Odd = (Fw&0x1), H_Odd = (Fh&0x1);
+	if (W_Odd && H_Odd) {
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+				int Acc = ReVal;
+				for (unsigned int i=0; i<(Fh/2); i++) {
+					short int *Line0 = (short int *) &In[(h*Stride-PadT+2*i  )*W + (w*Stride-PadL)];
+					short int *Line1 = (short int *) &In[(h*Stride-PadT+2*i+1)*W + (w*Stride-PadL)];
+					for (unsigned int j=0; j<(Fw/2); j++) {
+						v4s M0 = gap_max4((v4s)(int)Line0[j], (v4s)(int)Line1[j]);
+						Acc = Max(Acc, Max(M0[0], M0[1]));
+					}
+					Acc = Max(Acc, In[(h*Stride-PadT+2*i  )*W + (w*Stride-PadL) + Fw - 1]);
+					Acc = Max(Acc, In[(h*Stride-PadT+2*i+1)*W + (w*Stride-PadL) + Fw - 1]);
+				}
+				for (unsigned int j=0; j<Fw; j++) Acc = Max(Acc, In[(h*Stride-PadT+Fh-1)*W + (w*Stride-PadL+j)]);
+				Out[Wo*h+w] = Acc;
+			}
+		}
+	} else if ((W_Odd==0)&&(H_Odd==0)) {
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+				int Acc = ReVal;
+				for (unsigned int i=0; i<(Fh/2); i++) {
+					short int *Line0 = (short int *) &In[(h*Stride-PadT+2*i  )*W + (w*Stride-PadL)];
+					short int *Line1 = (short int *) &In[(h*Stride-PadT+2*i+1)*W + (w*Stride-PadL)];
+					for (unsigned int j=0; j<(Fw/2); j++) {
+						v4s M0 = gap_max4((v4s)(int)Line0[j], (v4s)(int)Line1[j]);
+						Acc = Max(Acc, Max(M0[0], M0[1]));
+					}
+				}
+				Out[Wo*h+w] = Acc;
+			}
+		}
+	} else {
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+				int Acc = ReVal;
+				for (unsigned int i=0; i<Fh; i++) {
+					for (unsigned int j=0; j<Fw; j++) Acc = Max(Acc, In[(h*Stride-PadT+i)*W + (w*Stride-PadL+j)]);
+				}
+				Out[Wo*h+w] = Acc;
+			}
+		}
+	}
+}
+
+static void __attribute__ ((noinline)) KerMaxPoolNxMStrideSxSy_Body_SQ8(
+	signed char * __restrict__ In,
+	signed char * __restrict__ Out,
+	int Fw,
+	int Fh,
+	int PadL,
+	int PadT,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int StrideX,
+	int StrideY
+	)
+
+{
+	int ReVal = 0x80000000;
+	int W_Odd = (Fw&0x1), H_Odd = (Fh&0x1);
+	if (W_Odd && H_Odd) {
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+				int Acc = ReVal;
+				for (unsigned int i=0; i<(Fh/2); i++) {
+					short int *Line0 = (short int *) &In[(h*StrideY-PadT+2*i  )*W + (w*StrideX-PadL)];
+					short int *Line1 = (short int *) &In[(h*StrideY-PadT+2*i+1)*W + (w*StrideX-PadL)];
+					for (unsigned int j=0; j<(Fw/2); j++) {
+						v4s M0 = gap_max4((v4s)(int)Line0[j], (v4s)(int)Line1[j]);
+						Acc = Max(Acc, Max(M0[0], M0[1]));
+					}
+					Acc = Max(Acc, In[(h*StrideY-PadT+2*i  )*W + (w*StrideX-PadL) + Fw - 1]);
+					Acc = Max(Acc, In[(h*StrideY-PadT+2*i+1)*W + (w*StrideX-PadL) + Fw - 1]);
+				}
+				for (unsigned int j=0; j<Fw; j++) Acc = Max(Acc, In[(h*StrideY-PadT+Fh-1)*W + (w*StrideX-PadL+j)]);
+				Out[Wo*h+w] = Acc;
+			}
+		}
+	} else if ((W_Odd==0)&&(H_Odd==0)) {
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+				int Acc = ReVal;
+				for (unsigned int i=0; i<(Fh/2); i++) {
+					short int *Line0 = (short int *) &In[(h*StrideY-PadT+2*i  )*W + (w*StrideX-PadL)];
+					short int *Line1 = (short int *) &In[(h*StrideY-PadT+2*i+1)*W + (w*StrideX-PadL)];
+					for (unsigned int j=0; j<(Fw/2); j++) {
+						v4s M0 = gap_max4((v4s)(int)Line0[j], (v4s)(int)Line1[j]);
+						Acc = Max(Acc, Max(M0[0], M0[1]));
+					}
+				}
+				Out[Wo*h+w] = Acc;
+			}
+		}
+	} else {
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+				int Acc = ReVal;
+				for (unsigned int i=0; i<Fh; i++) {
+					for (unsigned int j=0; j<Fw; j++) Acc = Max(Acc, In[(h*StrideY-PadT+i)*W + (w*StrideX-PadL+j)]);
+				}
+				Out[Wo*h+w] = Acc;
+			}
+		}
+	}
+}
+
+static void __attribute__ ((noinline)) KerAvgPoolNxNStrideS_Body_SQ8(
+	signed char * __restrict__ In,
+	signed char * __restrict__ Out,
+	int Fw,
+	int Fh,
+	int PadL,
+	int PadT,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int Stride
+	)
+
+{
+	unsigned int PoolFactor = (1<<16)/(Fw*Fh);
+	if (Fw&0x1) {
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+				int S = 0;
+				for (unsigned int i=0; i<Fh; i++) {
+					short int *Line = (short int *) &In[(h*Stride-PadT+i)*W + (w*Stride-PadL)];
+					for (unsigned int j=0; j<(Fw/2); j++) S = gap_sumdotp4((v4s)(int)Line[j], ((v4s) {1,1,0,0}), S);
+					S += In[(h*Stride-PadT+i)*W + (w*Stride-PadL) + Fw - 1];
+				}
+				Out[Wo*h+w] = gap_roundnorm(S*PoolFactor, 16);
+			}
+		}
+	} else {
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+				int S = 0;
+				for (unsigned int i=0; i<Fh; i++) {
+					short int *Line = (short int *) &In[(h*Stride-PadT+i)*W + (w*Stride-PadL)];
+					for (unsigned int j=0; j<(Fw/2); j++) S = gap_sumdotp4((v4s)(int)Line[j], ((v4s) {1,1,0,0}), S);
+				}
+				Out[Wo*h+w] = gap_roundnorm(S*PoolFactor, 16);
+			}
+		}
+	}
+}
+
+static void __attribute__ ((noinline)) KerAvgPoolNxMStrideSxSy_Body_SQ8(
+	signed char * __restrict__ In,
+	signed char * __restrict__ Out,
+	int Fw,
+	int Fh,
+	int PadL,
+	int PadT,
+	int W,
+	int H,
+	int Wo,
+	int Wo_F,
+	int Wo_L,
+	int Ho,
+	int Ho_F,
+	int Ho_L,
+	int StrideX,
+	int StrideY
+	)
+
+{
+	unsigned int PoolFactor = (1<<16)/(Fw*Fh);
+	if (Fw&0x1) {
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+				int S = 0;
+				for (unsigned int i=0; i<Fh; i++) {
+					short int *Line = (short int *) &In[(h*StrideY-PadT+i)*W + (w*StrideX-PadL)];
+					for (unsigned int j=0; j<(Fw/2); j++) S = gap_sumdotp4((v4s)(int)Line[j], ((v4s) {1,1,0,0}), S);
+					S += In[(h*StrideY-PadT+i)*W + (w*StrideX-PadL) + Fw - 1];
+				}
+				Out[Wo*h+w] = gap_roundnorm(S*PoolFactor, 16);
+			}
+		}
+	} else {
+		for (unsigned int w=Wo_F; w<Wo_L; w++) {
+			for (unsigned int h=Ho_F; h<Ho_L; h++) {
+				int S = 0;
+				for (unsigned int i=0; i<Fh; i++) {
+					short int *Line = (short int *) &In[(h*StrideY-PadT+i)*W + (w*StrideX-PadL)];
+					for (unsigned int j=0; j<(Fw/2); j++) S = gap_sumdotp4((v4s)(int)Line[j], ((v4s) {1,1,0,0}), S);
+				}
+				Out[Wo*h+w] = gap_roundnorm(S*PoolFactor, 16);
+			}
+		}
+	}
+}
+
+static void KerGlobalMaxPool_SQ8(
+	signed char * __restrict__ In,
+	int * __restrict__ Out,
+	unsigned int W,
+	unsigned int H,
+	int Init)
+
+{
+	int m = Init?(-128):(*Out);
+	v4s M = (v4s) {m,m,m,m};
+	v4s *Vi = (v4s *) In;
+
+	for (int i=0; i<((W*H)/(2*4)); i++) {
+		M = gap_max4(Vi[2*i], M);
+		M = gap_max4(Vi[2*i+1], M);
+	}
+	if ((W*H)&0x4) M = gap_max4(Vi[(W*H)/4-1], M);
+	m = Max(Max(M[0], M[1]), Max(M[2], M[3]));
+	for (unsigned int i=4*((W*H)/4); i<(W*H); i++) m = Max(In[i], m);
+	*Out = m;
+}
+
+static void KerGlobalMaxPoolFullFeat_SQ8(
+	signed char * __restrict__ In,
+	signed char * __restrict__ Out,
+	int W,
+	int H)
+
+{
+	int m = -128;
+	v4s M = (v4s) {m,m,m,m};
+	v4s *Vi = (v4s *) In;
+
+	for (int i=0; i<((W*H)/(4*2)); i++) {
+		M = gap_max4(Vi[2*i],   M);
+		M = gap_max4(Vi[2*i+1], M);
+	}
+	if ((W*H)&0x4) M = gap_max4(Vi[(W*H)/4-1], M);
+	m = Max(Max(M[0], M[1]), Max(M[2], M[3]));
+	for (unsigned int i=4*((W*H)/4); i<(W*H); i++) m = Max(In[i], m);
+	*Out = m;
+}
+
+static void KerGlobalAvgPool_SQ8(
+	signed char * __restrict__ In,
+	int * __restrict__ Out,
+	unsigned int W,
+	unsigned int H,
+	int Init)
+
+{
+	v4s M = (v4s) {1,1,1,1};
+	v4s *Vi = (v4s *) In;
+	int Sum = Init?0:(*Out);
+
+	for (int i=0; i<((W*H)/(2*4)); i++) {
+		Sum = gap_sumdotp4(Vi[2*i], M, Sum);
+		Sum = gap_sumdotp4(Vi[2*i+1], M, Sum);
+	}
+	if ((W*H)&0x4) Sum = gap_sumdotp4(Vi[(W*H)/4-1], M, Sum);
+	for (unsigned int i=4*((W*H)/4); i<(W*H); i++) Sum += In[i];
+	*Out = Sum;
+}
+
+static void KerGlobalAvgPoolFullFeat_SQ8(
+	signed char * __restrict__ In,
+	signed char * __restrict__ Out,
+	unsigned int W,
+	unsigned int H
+	)
+
+{
+	v4s M = (v4s) {1,1,1,1};
+	v4s *Vi = (v4s *) In;
+	int Sum = 0;
+
+	for (int i=0; i<((W*H)/(2*4)); i++) {
+		Sum = gap_sumdotp4(Vi[2*i], M, Sum);
+		Sum = gap_sumdotp4(Vi[2*i+1], M, Sum);
+	}
+	if ((W*H)&0x4) Sum = gap_sumdotp4(Vi[(W*H)/4-1], M, Sum);
+	for (unsigned int i=4*((W*H)/4); i<(W*H); i++) Sum += In[i];
+
+	*Out = gap_roundnorm_reg((Sum<<7)/((int)(W*H)), 7);
+}
+
+/* Pooling group.
+	Performs Max or Average pooling followed by an optional linear rectification (ReLU). Several output feature maps are evaluated in parallel, one output map per core
+
+	Zero padding is optional (Arg->Pad)
+
+	Arg->MaxPool 	Max Pooling, otherwise Average Pooling
+
+	Input and output feature maps are bytes:
+		KerParPool2x2Stride2_SQ8		Special case: Stride=2 and PoolSize=2, Padding management is embedded
+			|------ KerMaxPool2x2Stride2_SQ8
+			|------	KerAvgPool2x2Stride2_SQ8
+		KerParPoolNxNStrideS_SQ8		General case. Padding management: KerAvgPoolNxNStrideS_Border_SQ8 or KerMaxPoolNxNStrideS_Border_SQ8
+			|------	KerMaxPoolNxNStrideS_Body_SQ8
+			|------	KerMaxPoolNxNStrideS_Border_SQ8
+			|------	KerAvgPoolNxNStrideS_Body_SQ8
+			|------	KerAvgPoolNxNStrideS_Border_SQ8
+		KerParPoolNxMStrideSxSy_SQ8		General case. Padding management: KerAvgPoolNxMStrideSxSy_Border_SQ8 or KerMaxPoolNxMStrideSxSy_Border_SQ8
+			|------	KerMaxPoolNxMStrideSxSy_Body_SQ8
+			|------	KerMaxPoolNxMStrideSxSy_Border_SQ8
+			|------	KerAvgPoolNxMStrideSxSy_Body_SQ8
+			|------	KerAvgPoolNxMStrideSxSy_Border_SQ8
+		KerParGlobalMaxPool_SQ8
+		KerParGlobalAvgPool_SQ8
+		KerParGlobalMaxPoolFullFeat_SQ8
+		KerParGlobalAvgPoolFullFeat_SQ8
+*/
+
+
+static void KerParPoolActivation(signed char *__restrict__ InOut, int W, int H, int FirstFeat, int LastFeat,
+				 signed char *__restrict__ Infos, CNN_ActivationOper_T Activation)
+
+{
+	if (Infos[AT_INF_ACTSCALE]) {
+		unsigned int Off = W*H*FirstFeat, Size = W*H*(LastFeat-FirstFeat);
+		unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+		int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+
+		switch (Activation) {
+			case ACT_NONE:      Ker_Activation_SQ8(InOut+Off, Size, ACT_NONE,      ActScale, ActScaleN, A0, B0, C0); break;
+			case ACT_RELU:      Ker_Activation_SQ8(InOut+Off, Size, ACT_RELU,      ActScale, ActScaleN, A0, B0, C0); break;
+			case ACT_RELUN:     Ker_Activation_SQ8(InOut+Off, Size, ACT_RELUN,     ActScale, ActScaleN, A0, B0, C0); break;
+			case ACT_HSIGMOID:  Ker_Activation_SQ8(InOut+Off, Size, ACT_HSIGMOID,  ActScale, ActScaleN, A0, B0, C0); break;
+			case ACT_HSWISH:    Ker_Activation_SQ8(InOut+Off, Size, ACT_HSWISH,    ActScale, ActScaleN, A0, B0, C0); break;
+			case ACT_LEAKYRELU: Ker_Activation_SQ8(InOut+Off, Size, ACT_LEAKYRELU, ActScale, ActScaleN, A0, B0, C0); break;
+		}
+	} else if (Activation == ACT_RELU) {
+		unsigned int Off = W*H*FirstFeat, Size = W*H*(LastFeat-FirstFeat);
+		Ker_ActivationScale1_SQ8(InOut+Off, Size, ACT_RELU, 0);
+	} else if (Activation == ACT_RELUN) {
+		unsigned int Off = W*H*FirstFeat, Size = W*H*(LastFeat-FirstFeat);
+		int A0 = Infos[AT_INF_A0];
+		Ker_ActivationScale1_SQ8(InOut+Off, Size, ACT_RELUN, A0);
+	}
+}
+
+void KerParPool2x2Stride2_SQ8(KerPool_SQ8_T *Arg)
+
+{
+	unsigned int FS=2,S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	signed char * __restrict__ Out = Arg->Out;
+	signed char * __restrict__ Infos = Arg->Infos;
+	int PoolMax = Arg->PoolMax;
+	int DoScale = Arg->DoScale;
+	v4s PadIn = Arg->Pad;
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	if (PoolMax) for (unsigned int of=First; of<Last; of++) KerMaxPool2x2Stride2_SQ8(In+of*W*H, W, H, Out+of*Wo*Ho, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn);
+	else	 for (unsigned int of=First; of<Last; of++) KerAvgPool2x2Stride2_SQ8(In+of*W*H, W, H, Out+of*Wo*Ho, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn);
+
+	if (DoScale) KerParPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_NONE);
+	gap_waitbarrier(0);
+}
+
+void KerParPool2x2Stride2_ReLU_SQ8(KerPool_SQ8_T *Arg)
+
+{
+	unsigned int FS=2,S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	signed char * __restrict__ Out = Arg->Out;
+	signed char * __restrict__ Infos = Arg->Infos;
+	int PoolMax = Arg->PoolMax;
+	v4s PadIn = Arg->Pad;
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	if (PoolMax) for (unsigned int of=First; of<Last; of++) KerMaxPool2x2Stride2_SQ8(In+of*W*H, W, H, Out+of*Wo*Ho, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn);
+	else	 for (unsigned int of=First; of<Last; of++) KerAvgPool2x2Stride2_SQ8(In+of*W*H, W, H, Out+of*Wo*Ho, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn);
+
+	KerParPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_RELU);
+	gap_waitbarrier(0);
+}
+
+void KerParPool2x2Stride2_ReLUN_SQ8(KerPool_SQ8_T *Arg)
+
+{
+	unsigned int FS=2,S=2;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	signed char * __restrict__ Out = Arg->Out;
+	signed char * __restrict__ Infos = Arg->Infos;
+	int PoolMax = Arg->PoolMax;
+	v4s PadIn = Arg->Pad;
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	if (PoolMax) for (unsigned int of=First; of<Last; of++) KerMaxPool2x2Stride2_SQ8(In+of*W*H, W, H, Out+of*Wo*Ho, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn);
+	else	 for (unsigned int of=First; of<Last; of++) KerAvgPool2x2Stride2_SQ8(In+of*W*H, W, H, Out+of*Wo*Ho, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, PadIn, PadIn);
+
+	KerParPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_RELUN);
+	gap_waitbarrier(0);
+}
+
+void KerParPoolNxNStrideS_SQ8(KerPool_SQ8_T *Arg)
+
+{
+	unsigned int FS=Arg->FS, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	signed char * __restrict__ Out = Arg->Out;
+	int PoolMax = Arg->PoolMax;
+	signed char * __restrict__ Infos = Arg->Infos;
+	v4s PadIn = Arg->Pad;
+	int DoScale = Arg->DoScale;
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	if (PoolMax) {
+		for (unsigned int of=First; of<Last; of++) {
+			KerMaxPoolNxNStrideS_Body_SQ8(In+of*W*H, Out+of*Wo*Ho, FS, FS, PadIn[0], PadIn[2], W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S);
+			if ((int) PadIn) KerMaxPoolNxNStrideS_Border_SQ8(In+of*W*H, Out+of*Wo*Ho, FS, FS, PadIn, PadIn, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S);
+		}
+	} else {
+		for (unsigned int of=First; of<Last; of++) {
+			KerAvgPoolNxNStrideS_Body_SQ8(In+of*W*H, Out+of*Wo*Ho, FS, FS, PadIn[0], PadIn[2], W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S);
+			if ((int) PadIn) KerAvgPoolNxNStrideS_Border_SQ8(In+of*W*H, Out+of*Wo*Ho, FS, FS, PadIn, PadIn, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S);
+		}
+	}
+	if (DoScale) KerParPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_NONE);
+	gap_waitbarrier(0);
+}
+
+void KerParPoolNxNStrideS_ReLU_SQ8(KerPool_SQ8_T *Arg)
+
+{
+	unsigned int FS=Arg->FS, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	signed char * __restrict__ Out = Arg->Out;
+	int PoolMax = Arg->PoolMax;
+	signed char * __restrict__ Infos = Arg->Infos;
+	v4s PadIn = Arg->Pad;
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	if (PoolMax) {
+		for (unsigned int of=First; of<Last; of++) {
+			KerMaxPoolNxNStrideS_Body_SQ8(In+of*W*H, Out+of*Wo*Ho, FS, FS, PadIn[0], PadIn[2], W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S);
+			if ((int) PadIn) KerMaxPoolNxNStrideS_Border_SQ8(In+of*W*H, Out+of*Wo*Ho, FS, FS, PadIn, PadIn, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S);
+		}
+	} else {
+		for (unsigned int of=First; of<Last; of++) {
+			KerAvgPoolNxNStrideS_Body_SQ8(In+of*W*H, Out+of*Wo*Ho, FS, FS, PadIn[0], PadIn[2], W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S);
+			if ((int) PadIn) KerAvgPoolNxNStrideS_Border_SQ8(In+of*W*H, Out+of*Wo*Ho, FS, FS, PadIn, PadIn, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S);
+		}
+	}
+	KerParPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_RELU);
+	gap_waitbarrier(0);
+}
+
+void KerParPoolNxNStrideS_ReLUN_SQ8(KerPool_SQ8_T *Arg)
+
+{
+	unsigned int FS=Arg->FS, S=Arg->S;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	signed char * __restrict__ Out = Arg->Out;
+	int PoolMax = Arg->PoolMax;
+	signed char * __restrict__ Infos = Arg->Infos;
+	v4s PadIn = Arg->Pad;
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	if (PoolMax) {
+		for (unsigned int of=First; of<Last; of++) {
+			KerMaxPoolNxNStrideS_Body_SQ8(In+of*W*H, Out+of*Wo*Ho, FS, FS, PadIn[0], PadIn[2], W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S);
+			if ((int) PadIn) KerMaxPoolNxNStrideS_Border_SQ8(In+of*W*H, Out+of*Wo*Ho, FS, FS, PadIn, PadIn, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S);
+		}
+	} else {
+		for (unsigned int of=First; of<Last; of++) {
+			KerAvgPoolNxNStrideS_Body_SQ8(In+of*W*H, Out+of*Wo*Ho, FS, FS, PadIn[0], PadIn[2], W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S);
+			if ((int) PadIn) KerAvgPoolNxNStrideS_Border_SQ8(In+of*W*H, Out+of*Wo*Ho, FS, FS, PadIn, PadIn, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, S);
+		}
+	}
+	KerParPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_RELUN);
+	gap_waitbarrier(0);
+}
+
+void KerParPoolNxMStrideSxSy_SQ8(KerPool_SQ8_T *Arg)
+
+{
+	unsigned int FSx=Arg->FS, Sx=Arg->S;
+	unsigned int FSy=Arg->FSy, Sy=Arg->Sy;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	signed char * __restrict__ Out = Arg->Out;
+	signed char * __restrict__ Infos = Arg->Infos;
+	int DoScale = Arg->DoScale;
+	int PoolMax = Arg->PoolMax;
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+	if (PoolMax) {
+		for (unsigned int of=First; of<Last; of++) {
+			KerMaxPoolNxMStrideSxSy_Body_SQ8(In+of*W*H, Out+of*Wo*Ho, FSx, FSy, PadIn[0], PadIn[2], W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy);
+			if ((int) PadIn) KerMaxPoolNxMStrideSxSy_Border_SQ8(In+of*W*H, Out+of*Wo*Ho, FSx, FSy, PadIn, PadIn, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy);
+		}
+	} else {
+		for (unsigned int of=First; of<Last; of++) {
+			KerAvgPoolNxMStrideSxSy_Body_SQ8(In+of*W*H, Out+of*Wo*Ho, FSx, FSy, PadIn[0], PadIn[2], W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy);
+			if ((int) PadIn) KerAvgPoolNxMStrideSxSy_Border_SQ8(In+of*W*H, Out+of*Wo*Ho, FSx, FSy, PadIn, PadIn, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy);
+		}
+	}
+	if (DoScale) KerParPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_NONE);
+	gap_waitbarrier(0);
+}
+
+void KerParPoolNxMStrideSxSy_ReLU_SQ8(KerPool_SQ8_T *Arg)
+
+{
+	unsigned int FSx=Arg->FS, Sx=Arg->S;
+	unsigned int FSy=Arg->FSy, Sy=Arg->Sy;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	signed char * __restrict__ Out = Arg->Out;
+	signed char * __restrict__ Infos = Arg->Infos;
+	int PoolMax = Arg->PoolMax;
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+	if (PoolMax) {
+		for (unsigned int of=First; of<Last; of++) {
+			KerMaxPoolNxMStrideSxSy_Body_SQ8(In+of*W*H, Out+of*Wo*Ho, FSx, FSy, PadIn[0], PadIn[2], W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy);
+			if ((int) PadIn) KerMaxPoolNxMStrideSxSy_Border_SQ8(In+of*W*H, Out+of*Wo*Ho, FSx, FSy, PadIn, PadIn, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy);
+		}
+	} else {
+		for (unsigned int of=First; of<Last; of++) {
+			KerAvgPoolNxMStrideSxSy_Body_SQ8(In+of*W*H, Out+of*Wo*Ho, FSx, FSy, PadIn[0], PadIn[2], W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy);
+			if ((int) PadIn) KerAvgPoolNxMStrideSxSy_Border_SQ8(In+of*W*H, Out+of*Wo*Ho, FSx, FSy, PadIn, PadIn, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy);
+		}
+	}
+	KerParPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_RELU);
+	gap_waitbarrier(0);
+}
+
+void KerParPoolNxMStrideSxSy_ReLUN_SQ8(KerPool_SQ8_T *Arg)
+
+{
+	unsigned int FSx=Arg->FS, Sx=Arg->S;
+	unsigned int FSy=Arg->FSy, Sy=Arg->Sy;
+	signed char * __restrict__ In = Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	signed char * __restrict__ Out = Arg->Out;
+	signed char * __restrict__ Infos = Arg->Infos;
+	int PoolMax = Arg->PoolMax;
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+	v4s PadIn = Arg->Pad;
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+	if (PoolMax) {
+		for (unsigned int of=First; of<Last; of++) {
+			KerMaxPoolNxMStrideSxSy_Body_SQ8(In+of*W*H, Out+of*Wo*Ho, FSx, FSy, PadIn[0], PadIn[2], W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy);
+			if ((int) PadIn) KerMaxPoolNxMStrideSxSy_Border_SQ8(In+of*W*H, Out+of*Wo*Ho, FSx, FSy, PadIn, PadIn, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy);
+		}
+	} else {
+		for (unsigned int of=First; of<Last; of++) {
+			KerAvgPoolNxMStrideSxSy_Body_SQ8(In+of*W*H, Out+of*Wo*Ho, FSx, FSy, PadIn[0], PadIn[2], W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy);
+			if ((int) PadIn) KerAvgPoolNxMStrideSxSy_Border_SQ8(In+of*W*H, Out+of*Wo*Ho, FSx, FSy, PadIn, PadIn, W, H, Wo, Wo_F, Wo_L, Ho, Ho_F, Ho_L, Sx, Sy);
+		}
+	}
+	KerParPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_RELUN);
+	gap_waitbarrier(0);
+}
+
+void KerParGlobalMaxPool_SQ8(KerGlobalPool_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = (signed char *__restrict__) Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	int * __restrict__ Out = (int *__restrict) Arg->Out;
+	int FirstTile = Arg->FirstTile;
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	for (unsigned int of=First; of<Last; of++) KerGlobalMaxPool_SQ8(In+of*W*H, Out+of, W, H, FirstTile);
+	gap_waitbarrier(0);
+}
+
+void KerParGlobalMaxPool_Reduct_SQ8(KerGlobalPool_SQ8_T *Arg)
+
+{
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char *__restrict__ Infos;
+	int DoScale = Arg->DoScale;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	if (DoScale && ActScale) for (unsigned int of=First; of<Last; of++) Out[of] = AT_SCALE(In[of], ActScale, ActScaleN);
+	else for (unsigned int of=First; of<Last; of++) Out[of] = In[of];
+	gap_waitbarrier(0);
+}
+
+void KerParGlobalMaxPool_Reduct_ReLU_SQ8(KerGlobalPool_SQ8_T *Arg)
+
+{
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char *__restrict__ Infos;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	if (ActScale) for (unsigned int of=First; of<Last; of++) Out[of] = Max(0, AT_SCALE(In[of], ActScale, ActScaleN));
+	else for (unsigned int of=First; of<Last; of++) Out[of] = Max(0, In[of]);
+	gap_waitbarrier(0);
+}
+
+void KerParGlobalMaxPool_Reduct_ReLUN_SQ8(KerGlobalPool_SQ8_T *Arg)
+
+{
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char *__restrict__ Infos;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0];
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	if (ActScale) for (unsigned int of=First; of<Last; of++) Out[of] = Max(0, Min(A0, AT_SCALE(In[of], ActScale, ActScaleN)));
+	else for (unsigned int of=First; of<Last; of++) Out[of] = Max(0, Min(A0, In[of]));
+	gap_waitbarrier(0);
+}
+
+void KerParGlobalAvgPool_SQ8(KerGlobalPool_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = (signed char *__restrict__) Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	int * __restrict__ Out = (int *__restrict__) Arg->Out;
+	int FirstTile = Arg->FirstTile;
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	for (unsigned int of=First; of<Last; of++) KerGlobalAvgPool_SQ8(In+of*W*H, Out+of, W, H, FirstTile);
+	gap_waitbarrier(0);
+}
+
+void KerParGlobalAvgPool_Reduct_SQ8(KerGlobalPool_SQ8_T *Arg)
+
+{
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char *__restrict__ Infos;
+	int DoScale = Arg->DoScale;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	if (DoScale && ActScale) for (unsigned int of=First; of<Last; of++) Out[of] = AT_SCALE(gap_roundnorm_reg((In[of]<<7)/((int)(W*H)), 7), ActScale, ActScaleN);
+	else for (unsigned int of=First; of<Last; of++) Out[of] = gap_roundnorm_reg((In[of]<<7)/((int)(W*H)), 7);
+	gap_waitbarrier(0);
+}
+
+void KerParGlobalAvgPool_Reduct_ReLU_SQ8(KerGlobalPool_SQ8_T *Arg)
+
+{
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char *__restrict__ Infos;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	if (ActScale) for (unsigned int of=First; of<Last; of++) Out[of] = Max(0, AT_SCALE(gap_roundnorm_reg((In[of]<<7)/((int)(W*H)), 7), ActScale, ActScaleN));
+	else for (unsigned int of=First; of<Last; of++) Out[of] = Max(0, gap_roundnorm_reg((In[of]<<7)/((int)(W*H)), 7));
+	gap_waitbarrier(0);
+}
+
+void KerParGlobalAvgPool_Reduct_ReLUN_SQ8(KerGlobalPool_SQ8_T *Arg)
+
+{
+	int * __restrict__ In = (int *__restrict__) Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char *__restrict__ Infos;
+	unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+	int A0 = Infos[AT_INF_A0];
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	if (ActScale) for (unsigned int of=First; of<Last; of++) Out[of] = Max(0, Min(A0, AT_SCALE(gap_roundnorm_reg((In[of]<<7)/((int)(W*H)), 7), ActScale, ActScaleN)));
+	else for (unsigned int of=First; of<Last; of++) Out[of] = Max(0, Min(A0, gap_roundnorm_reg((In[of]<<7)/((int)(W*H)), 7)));
+	gap_waitbarrier(0);
+}
+
+void KerParGlobalMaxPoolFullFeat_SQ8(KerGlobalPool_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = (signed char *__restrict__) Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	int DoScale = Arg->DoScale;
+	signed char * __restrict__ Infos = Arg->Infos;
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	for (unsigned int of=First; of<Last; of++) KerGlobalMaxPoolFullFeat_SQ8(In+of*W*H, Out+of, W, H);
+	if (DoScale) KerParPoolActivation(Out, 1, 1, First, Last, Infos, ACT_NONE);
+	gap_waitbarrier(0);
+}
+
+void KerParGlobalMaxPoolFullFeat_ReLU_SQ8(KerGlobalPool_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = (signed char *__restrict__) Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char * __restrict__ Infos = Arg->Infos;
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	for (unsigned int of=First; of<Last; of++) KerGlobalMaxPoolFullFeat_SQ8(In+of*W*H, Out+of, W, H);
+	KerParPoolActivation(Out, 1, 1, First, Last, Infos, ACT_RELU);
+	gap_waitbarrier(0);
+}
+
+void KerParGlobalMaxPoolFullFeat_ReLUN_SQ8(KerGlobalPool_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = (signed char *__restrict__) Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char * __restrict__ Infos = Arg->Infos;
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	for (unsigned int of=First; of<Last; of++) KerGlobalMaxPoolFullFeat_SQ8(In+of*W*H, Out+of, W, H);
+	KerParPoolActivation(Out, 1, 1, First, Last, Infos, ACT_RELUN);
+	gap_waitbarrier(0);
+}
+
+void KerParGlobalAvgPoolFullFeat_SQ8(KerGlobalPool_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = (signed char *__restrict__) Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	int DoScale = Arg->DoScale;
+	signed char * __restrict__ Infos = Arg->Infos;
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	for (unsigned int of=First; of<Last; of++) KerGlobalAvgPoolFullFeat_SQ8(In+of*W*H, Out+of, W, H);
+	if (DoScale) KerParPoolActivation(Out, 1, 1, First, Last, Infos, ACT_NONE);
+	gap_waitbarrier(0);
+}
+
+void KerParGlobalAvgPoolFullFeat_ReLU_SQ8(KerGlobalPool_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = (signed char *__restrict__) Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char * __restrict__ Infos = Arg->Infos;
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	for (unsigned int of=First; of<Last; of++) KerGlobalAvgPoolFullFeat_SQ8(In+of*W*H, Out+of, W, H);
+	KerParPoolActivation(Out, 1, 1, First, Last, Infos, ACT_RELU);
+	gap_waitbarrier(0);
+}
+
+void KerParGlobalAvgPoolFullFeat_ReLUN_SQ8(KerGlobalPool_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = (signed char *__restrict__) Arg->In;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int Feat = Arg->Feat;
+	signed char * __restrict__ Out = (signed char *__restrict__) Arg->Out;
+	signed char * __restrict__ Infos = Arg->Infos;
+
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Feat), First = Chunk*CoreId, Last = Min(First+Chunk, Feat);
+
+	for (unsigned int of=First; of<Last; of++) KerGlobalAvgPoolFullFeat_SQ8(In+of*W*H, Out+of, W, H);
+	KerParPoolActivation(Out, 1, 1, First, Last, Infos, ACT_RELUN);
+	gap_waitbarrier(0);
+}
+
+/* Pooling group.
+	Performs Max or Average pooling followed by an optional linear rectification (ReLU). One output feature map is evaluated in parallel on all cores
+
+	Zero padding is optional (Arg->Pad)
+
+	Arg->MaxPool 	Max Pooling, otherwise Average Pool
+
+	Input and output feature maps are bytes:
+		KerPool2x2Stride2_SQ8		Special case: Stride=2 and PoolSize=2, Padding management is embedded
+			|------	KerMaxPool2x2Stride2_SQ8
+			|------	KerAvgPool2x2Stride2_SQ8
+		KerPoolNxNStrideS_SQ8		General case. Padding management: KerAvgPoolNxNStrideS_Border_SQ8 or KerMaxPoolNxNStrideS_Border_SQ8
+			|------	KerMaxPoolNxNStrideS_Body_SQ8
+			|------	KerMaxPoolNxNStrideS_Border_SQ8
+			|------	KerAvgPoolNxNStrideS_Body_SQ8
+			|------	KerAvgPoolNxNStrideS_Border_SQ8
+		KerPoolNxMStrideSxSy_SQ8	General case. Padding management: KerAvgPoolNxMStrideSxSy_Border_SQ8 or KerMaxPoolNxMStrideSxSy_Border_SQ8
+			|------	KerMaxPoolNxMStrideSxSy_Body_SQ8
+			|------	KerMaxPoolNxMStrideSxSy_Border_SQ8
+			|------	KerAvgPoolNxMStrideSxSy_Body_SQ8
+			|------	KerAvgPoolNxMStrideSxSy_Border_SQ8
+*/
+
+static void KerPoolActivation(signed char *__restrict__ InOut, int W, int H, int First, int Last,
+			      signed char *__restrict__ Infos, CNN_ActivationOper_T Activation, int Orientation)
+
+{
+	if (Orientation) { // Horizontal
+		if (Infos[AT_INF_ACTSCALE]) {
+			unsigned int Off = W*First, Size = W*(Last-First);
+			unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+			int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+	
+			switch (Activation) {
+				case ACT_NONE:      Ker_Activation_SQ8(InOut+Off, Size, ACT_NONE,      ActScale, ActScaleN, A0, B0, C0); break;
+				case ACT_RELU:      Ker_Activation_SQ8(InOut+Off, Size, ACT_RELU,      ActScale, ActScaleN, A0, B0, C0); break;
+				case ACT_RELUN:     Ker_Activation_SQ8(InOut+Off, Size, ACT_RELUN,     ActScale, ActScaleN, A0, B0, C0); break;
+				case ACT_HSIGMOID:  Ker_Activation_SQ8(InOut+Off, Size, ACT_HSIGMOID,  ActScale, ActScaleN, A0, B0, C0); break;
+				case ACT_HSWISH:    Ker_Activation_SQ8(InOut+Off, Size, ACT_HSWISH,    ActScale, ActScaleN, A0, B0, C0); break;
+				case ACT_LEAKYRELU: Ker_Activation_SQ8(InOut+Off, Size, ACT_LEAKYRELU, ActScale, ActScaleN, A0, B0, C0); break;
+			}
+		} else if (Activation == ACT_RELU) {
+			unsigned int Off = W*First, Size = W*(Last-First);
+			Ker_ActivationScale1_SQ8(InOut+Off, Size, ACT_RELU, 0);
+		} else if (Activation == ACT_RELUN) {
+			unsigned int Off = W*First, Size = W*(Last-First);
+			int A0 = Infos[AT_INF_A0];
+			Ker_ActivationScale1_SQ8(InOut+Off, Size, ACT_RELUN, A0);
+		}
+	} else {
+		if (Infos[AT_INF_ACTSCALE]) {
+			unsigned int ActScale = ((unsigned char *)Infos)[AT_INF_ACTSCALE], ActScaleN = ((unsigned char *)Infos)[AT_INF_ACTSCALEN];
+			int A0 = Infos[AT_INF_A0], B0 = Infos[AT_INF_B0], C0 = Infos[AT_INF_C0];
+			switch (Activation) {
+				case ACT_NONE:      Ker_Activation_Ver_SQ8(InOut+First, W, H, First, Last, ACT_NONE,      ActScale, ActScaleN, A0, B0, C0); break;
+				case ACT_RELU:      Ker_Activation_Ver_SQ8(InOut+First, W, H, First, Last, ACT_RELU,      ActScale, ActScaleN, A0, B0, C0); break;
+				case ACT_RELUN:     Ker_Activation_Ver_SQ8(InOut+First, W, H, First, Last, ACT_RELUN,     ActScale, ActScaleN, A0, B0, C0); break;
+				case ACT_HSIGMOID:  Ker_Activation_Ver_SQ8(InOut+First, W, H, First, Last, ACT_HSIGMOID,  ActScale, ActScaleN, A0, B0, C0); break;
+				case ACT_HSWISH:    Ker_Activation_Ver_SQ8(InOut+First, W, H, First, Last, ACT_HSWISH,    ActScale, ActScaleN, A0, B0, C0); break;
+				case ACT_LEAKYRELU: Ker_Activation_Ver_SQ8(InOut+First, W, H, First, Last, ACT_LEAKYRELU, ActScale, ActScaleN, A0, B0, C0); break;
+			}
+		} else if (Activation == ACT_RELU) {
+			Ker_ActivationScale1_Ver_SQ8(InOut+First, W, H, First, Last, ACT_RELU, 0);
+		} else if (Activation == ACT_RELUN) {
+			int A0 = Infos[AT_INF_A0];
+			Ker_ActivationScale1_Ver_SQ8(InOut+First, W, H, First, Last, ACT_RELUN, A0);
+		}
+	}
+}
+
+void KerPool2x2Stride2_SQ8(KerPool_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = Arg->In;
+	signed char * __restrict__ Out = Arg->Out;
+	signed char * __restrict__ Infos = Arg->Infos;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int FS = 2, S = 2;
+	v4s PadIn = Arg->Pad;
+	int DoScale = Arg->DoScale;
+	int PoolMax = Arg->PoolMax;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	unsigned int CoreId = gap_coreid();
+
+	if (Arg->Orientation) { // Horizontal
+		unsigned int Chunk = ChunkSize(Wo);
+		unsigned int First = Chunk*CoreId;
+		unsigned int Last = Min(First+Chunk, Wo);
+		v4s PadOrg = PadIn;
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		if (PoolMax) KerMaxPool2x2Stride2_SQ8(In, W, H, Out, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, PadIn, PadOrg);
+		else	 KerAvgPool2x2Stride2_SQ8(In, W, H, Out, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, PadIn, PadOrg);
+		if (DoScale) KerPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_NONE, 1);
+	} else {
+		unsigned int Chunk = ChunkSize(Ho);
+		unsigned int First = Chunk*CoreId;
+		unsigned int Last = Min(First+Chunk, Ho);
+		v4s PadOrg = PadIn;
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		if (PoolMax) KerMaxPool2x2Stride2_SQ8(In, W, H, Out, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), PadIn, PadOrg);
+		else	 KerAvgPool2x2Stride2_SQ8(In, W, H, Out, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), PadIn, PadOrg);
+		if (DoScale) KerPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_NONE, 0);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerPool2x2Stride2_ReLU_SQ8(KerPool_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = Arg->In;
+	signed char * __restrict__ Out = Arg->Out;
+	signed char * __restrict__ Infos = Arg->Infos;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int FS = 2, S = 2;
+	v4s PadIn = Arg->Pad;
+	int PoolMax = Arg->PoolMax;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	unsigned int CoreId = gap_coreid();
+
+	if (Arg->Orientation) { // Horizontal
+		unsigned int Chunk = ChunkSize(Wo);
+		unsigned int First = Chunk*CoreId;
+		unsigned int Last = Min(First+Chunk, Wo);
+		v4s PadOrg = PadIn;
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		if (PoolMax) KerMaxPool2x2Stride2_SQ8(In, W, H, Out, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, PadIn, PadOrg);
+		else	 KerAvgPool2x2Stride2_SQ8(In, W, H, Out, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, PadIn, PadOrg);
+		KerPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_RELU, 1);
+	} else {
+		unsigned int Chunk = ChunkSize(Ho);
+		unsigned int First = Chunk*CoreId;
+		unsigned int Last = Min(First+Chunk, Ho);
+		v4s PadOrg = PadIn;
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		if (PoolMax) KerMaxPool2x2Stride2_SQ8(In, W, H, Out, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), PadIn, PadOrg);
+		else	 KerAvgPool2x2Stride2_SQ8(In, W, H, Out, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), PadIn, PadOrg);
+		KerPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_RELU, 0);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerPool2x2Stride2_ReLUN_SQ8(KerPool_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = Arg->In;
+	signed char * __restrict__ Out = Arg->Out;
+	signed char * __restrict__ Infos = Arg->Infos;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int FS = 2, S = 2;
+	v4s PadIn = Arg->Pad;
+	int PoolMax = Arg->PoolMax;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	unsigned int CoreId = gap_coreid();
+
+	if (Arg->Orientation) { // Horizontal
+		unsigned int Chunk = ChunkSize(Wo);
+		unsigned int First = Chunk*CoreId;
+		unsigned int Last = Min(First+Chunk, Wo);
+		v4s PadOrg = PadIn;
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		if (PoolMax) KerMaxPool2x2Stride2_SQ8(In, W, H, Out, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, PadIn, PadOrg);
+		else	 KerAvgPool2x2Stride2_SQ8(In, W, H, Out, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, PadIn, PadOrg);
+		KerPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_RELUN, 1);
+	} else {
+		unsigned int Chunk = ChunkSize(Ho);
+		unsigned int First = Chunk*CoreId;
+		unsigned int Last = Min(First+Chunk, Ho);
+		v4s PadOrg = PadIn;
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		if (PoolMax) KerMaxPool2x2Stride2_SQ8(In, W, H, Out, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), PadIn, PadOrg);
+		else	 KerAvgPool2x2Stride2_SQ8(In, W, H, Out, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), PadIn, PadOrg);
+		KerPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_RELUN, 0);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerPoolNxNStrideS_SQ8(KerPool_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = Arg->In;
+	signed char * __restrict__ Out = Arg->Out;
+	signed char * __restrict__ Infos = Arg->Infos;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int FS = Arg->FS, S = Arg->S;
+	v4s PadIn = Arg->Pad;
+	int DoScale = Arg->DoScale;
+	int PoolMax = Arg->PoolMax;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	unsigned int CoreId = gap_coreid();
+
+	if (Arg->Orientation) { // Horizontal
+		unsigned int Chunk = ChunkSize(Wo);
+		unsigned int First = Chunk*CoreId;
+		unsigned int Last = Min(First+Chunk, Wo);
+		v4s PadOrg = PadIn;
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		if (PoolMax) {
+			KerMaxPoolNxNStrideS_Body_SQ8(In, Out, FS, FS, PadOrg[0], PadOrg[2], W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, S);
+			if ((int) PadIn) KerMaxPoolNxNStrideS_Border_SQ8(In, Out, FS, FS, PadIn, PadOrg, W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, S);
+		} else {
+			KerAvgPoolNxNStrideS_Body_SQ8(In, Out, FS, FS, PadOrg[0], PadOrg[2], W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, S);
+			if ((int) PadIn) KerAvgPoolNxNStrideS_Border_SQ8(In, Out, FS, FS, PadIn, PadOrg, W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, S);
+		}
+		if (DoScale) KerPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_NONE, 1);
+	} else {
+		unsigned int Chunk = ChunkSize(Ho);
+		unsigned int First = Chunk*CoreId;
+		unsigned int Last = Min(First+Chunk, Ho);
+		v4s PadOrg = PadIn;
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		if (PoolMax) {
+			KerMaxPoolNxNStrideS_Body_SQ8(In, Out, FS, FS, PadOrg[0], PadOrg[2], W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), S);
+			if ((int) PadIn) KerMaxPoolNxNStrideS_Border_SQ8(In, Out, FS, FS, PadIn, PadOrg, W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), S);
+		} else {
+			KerAvgPoolNxNStrideS_Body_SQ8(In, Out, FS, FS, PadOrg[0], PadOrg[2], W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), S);
+			if ((int) PadIn) KerAvgPoolNxNStrideS_Border_SQ8(In, Out, FS, FS, PadIn, PadOrg, W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), S);
+		}
+		if (DoScale) KerPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_NONE, 0);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerPoolNxNStrideS_ReLU_SQ8(KerPool_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = Arg->In;
+	signed char * __restrict__ Out = Arg->Out;
+	signed char * __restrict__ Infos = Arg->Infos;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int FS = Arg->FS, S = Arg->S;
+	v4s PadIn = Arg->Pad;
+	int PoolMax = Arg->PoolMax;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	unsigned int CoreId = gap_coreid();
+
+	if (Arg->Orientation) { // Horizontal
+		unsigned int Chunk = ChunkSize(Wo);
+		unsigned int First = Chunk*CoreId;
+		unsigned int Last = Min(First+Chunk, Wo);
+		v4s PadOrg = PadIn;
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		if (PoolMax) {
+			KerMaxPoolNxNStrideS_Body_SQ8(In, Out, FS, FS, PadOrg[0], PadOrg[2], W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, S);
+			if ((int) PadIn) KerMaxPoolNxNStrideS_Border_SQ8(In, Out, FS, FS, PadIn, PadOrg, W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, S);
+		} else {
+			KerAvgPoolNxNStrideS_Body_SQ8(In, Out, FS, FS, PadOrg[0], PadOrg[2], W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, S);
+			if ((int) PadIn) KerAvgPoolNxNStrideS_Border_SQ8(In, Out, FS, FS, PadIn, PadOrg, W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, S);
+		}
+		KerPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_RELU, 1);
+	} else {
+		unsigned int Chunk = ChunkSize(Ho);
+		unsigned int First = Chunk*CoreId;
+		unsigned int Last = Min(First+Chunk, Ho);
+		v4s PadOrg = PadIn;
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		if (PoolMax) {
+			KerMaxPoolNxNStrideS_Body_SQ8(In, Out, FS, FS, PadOrg[0], PadOrg[2], W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), S);
+			if ((int) PadIn) KerMaxPoolNxNStrideS_Border_SQ8(In, Out, FS, FS, PadIn, PadOrg, W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), S);
+		} else {
+			KerAvgPoolNxNStrideS_Body_SQ8(In, Out, FS, FS, PadOrg[0], PadOrg[2], W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), S);
+			if ((int) PadIn) KerAvgPoolNxNStrideS_Border_SQ8(In, Out, FS, FS, PadIn, PadOrg, W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), S);
+		}
+		KerPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_RELU, 0);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerPoolNxNStrideS_ReLUN_SQ8(KerPool_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = Arg->In;
+	signed char * __restrict__ Out = Arg->Out;
+	signed char * __restrict__ Infos = Arg->Infos;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int FS = Arg->FS, S = Arg->S;
+	v4s PadIn = Arg->Pad;
+	int PoolMax = Arg->PoolMax;
+
+	int Wo = (Arg->UsedW-FS+PadIn[0]+PadIn[1])/S + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FS, PadIn[0], S)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FS, PadIn[0], S));
+	int Ho = (Arg->UsedH-FS+PadIn[2]+PadIn[3])/S + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FS, PadIn[2], S)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FS, PadIn[2], S));
+
+	unsigned int CoreId = gap_coreid();
+
+	if (Arg->Orientation) { // Horizontal
+		unsigned int Chunk = ChunkSize(Wo);
+		unsigned int First = Chunk*CoreId;
+		unsigned int Last = Min(First+Chunk, Wo);
+		v4s PadOrg = PadIn;
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		if (PoolMax) {
+			KerMaxPoolNxNStrideS_Body_SQ8(In, Out, FS, FS, PadOrg[0], PadOrg[2], W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, S);
+			if ((int) PadIn) KerMaxPoolNxNStrideS_Border_SQ8(In, Out, FS, FS, PadIn, PadOrg, W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, S);
+		} else {
+			KerAvgPoolNxNStrideS_Body_SQ8(In, Out, FS, FS, PadOrg[0], PadOrg[2], W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, S);
+			if ((int) PadIn) KerAvgPoolNxNStrideS_Border_SQ8(In, Out, FS, FS, PadIn, PadOrg, W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, S);
+		}
+		KerPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_RELUN, 1);
+	} else {
+		unsigned int Chunk = ChunkSize(Ho);
+		unsigned int First = Chunk*CoreId;
+		unsigned int Last = Min(First+Chunk, Ho);
+		v4s PadOrg = PadIn;
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		if (PoolMax) {
+			KerMaxPoolNxNStrideS_Body_SQ8(In, Out, FS, FS, PadOrg[0], PadOrg[2], W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), S);
+			if ((int) PadIn) KerMaxPoolNxNStrideS_Border_SQ8(In, Out, FS, FS, PadIn, PadOrg, W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), S);
+		} else {
+			KerAvgPoolNxNStrideS_Body_SQ8(In, Out, FS, FS, PadOrg[0], PadOrg[2], W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), S);
+			if ((int) PadIn) KerAvgPoolNxNStrideS_Border_SQ8(In, Out, FS, FS, PadIn, PadOrg, W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), S);
+		}
+		KerPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_RELUN, 0);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerPoolNxMStrideSxSy_SQ8(KerPool_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = Arg->In;
+	signed char * __restrict__ Out = Arg->Out;
+	signed char * __restrict__ Infos = Arg->Infos;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int FSx = Arg->FS, Sx = Arg->S;
+	unsigned int FSy = Arg->FSy, Sy = Arg->Sy;
+	v4s PadIn = Arg->Pad;
+	int DoScale = Arg->DoScale;
+	int PoolMax = Arg->PoolMax;
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+	unsigned int CoreId = gap_coreid();
+
+	if (Arg->Orientation) { // Horizontal
+		unsigned int Chunk = ChunkSize(Wo);
+		unsigned int First = Chunk*CoreId;
+		unsigned int Last = Min(First+Chunk, Wo);
+		v4s PadOrg = PadIn;
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		if (PoolMax) {
+			KerMaxPoolNxMStrideSxSy_Body_SQ8(In, Out, FSx, FSy, PadOrg[0], PadOrg[2], W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, Sx, Sy);
+			if ((int) PadIn) KerMaxPoolNxMStrideSxSy_Border_SQ8(In, Out, FSx, FSy, PadIn, PadOrg, W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, Sx, Sy);
+		} else {
+			KerAvgPoolNxMStrideSxSy_Body_SQ8(In, Out, FSx, FSy, PadOrg[0], PadOrg[2], W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, Sx, Sy);
+			if ((int) PadIn) KerAvgPoolNxMStrideSxSy_Border_SQ8(In, Out, FSx, FSy, PadIn, PadOrg, W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, Sx, Sy);
+		}
+		if (DoScale) KerPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_NONE, 1);
+	} else {
+		unsigned int Chunk = ChunkSize(Ho);
+		unsigned int First = Chunk*CoreId;
+		unsigned int Last = Min(First+Chunk, Ho);
+		v4s PadOrg = PadIn;
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		if (PoolMax) {
+			KerMaxPoolNxMStrideSxSy_Body_SQ8(In, Out, FSx, FSy, PadOrg[0], PadOrg[2], W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), Sx, Sy);
+			if ((int) PadIn) KerMaxPoolNxMStrideSxSy_Border_SQ8(In, Out, FSx, FSy, PadIn, PadOrg, W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), Sx, Sy);
+		} else {
+			KerAvgPoolNxMStrideSxSy_Body_SQ8(In, Out, FSx, FSx, PadOrg[0], PadOrg[2], W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), Sx, Sy);
+			if ((int) PadIn) KerAvgPoolNxMStrideSxSy_Border_SQ8(In, Out, FSx, FSy, PadIn, PadOrg, W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), Sx, Sy);
+		}
+		if (DoScale) KerPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_NONE, 0);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerPoolNxMStrideSxSy_ReLU_SQ8(KerPool_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = Arg->In;
+	signed char * __restrict__ Out = Arg->Out;
+	signed char * __restrict__ Infos = Arg->Infos;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int FSx = Arg->FS, Sx = Arg->S;
+	unsigned int FSy = Arg->FSy, Sy = Arg->Sy;
+	v4s PadIn = Arg->Pad;
+	int PoolMax = Arg->PoolMax;
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+	unsigned int CoreId = gap_coreid();
+
+	if (Arg->Orientation) { // Horizontal
+		unsigned int Chunk = ChunkSize(Wo);
+		unsigned int First = Chunk*CoreId;
+		unsigned int Last = Min(First+Chunk, Wo);
+		v4s PadOrg = PadIn;
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		if (PoolMax) {
+			KerMaxPoolNxMStrideSxSy_Body_SQ8(In, Out, FSx, FSy, PadOrg[0], PadOrg[2], W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, Sx, Sy);
+			if ((int) PadIn) KerMaxPoolNxMStrideSxSy_Border_SQ8(In, Out, FSx, FSy, PadIn, PadOrg, W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, Sx, Sy);
+		} else {
+			KerAvgPoolNxMStrideSxSy_Body_SQ8(In, Out, FSx, FSy, PadOrg[0], PadOrg[2], W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, Sx, Sy);
+			if ((int) PadIn) KerAvgPoolNxMStrideSxSy_Border_SQ8(In, Out, FSx, FSy, PadIn, PadOrg, W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, Sx, Sy);
+		}
+		KerPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_RELU, 1);
+	} else {
+		unsigned int Chunk = ChunkSize(Ho);
+		unsigned int First = Chunk*CoreId;
+		unsigned int Last = Min(First+Chunk, Ho);
+		v4s PadOrg = PadIn;
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		if (PoolMax) {
+			KerMaxPoolNxMStrideSxSy_Body_SQ8(In, Out, FSx, FSy, PadOrg[0], PadOrg[2], W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), Sx, Sy);
+			if ((int) PadIn) KerMaxPoolNxMStrideSxSy_Border_SQ8(In, Out, FSx, FSy, PadIn, PadOrg, W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), Sx, Sy);
+		} else {
+			KerAvgPoolNxMStrideSxSy_Body_SQ8(In, Out, FSx, FSx, PadOrg[0], PadOrg[2], W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), Sx, Sy);
+			if ((int) PadIn) KerAvgPoolNxMStrideSxSy_Border_SQ8(In, Out, FSx, FSy, PadIn, PadOrg, W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), Sx, Sy);
+		}
+		KerPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_RELU, 0);
+	}
+	gap_waitbarrier(0);
+}
+
+void KerPoolNxMStrideSxSy_ReLUN_SQ8(KerPool_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = Arg->In;
+	signed char * __restrict__ Out = Arg->Out;
+	signed char * __restrict__ Infos = Arg->Infos;
+	unsigned int W = Arg->W, H = Arg->H;
+	unsigned int FSx = Arg->FS, Sx = Arg->S;
+	unsigned int FSy = Arg->FSy, Sy = Arg->Sy;
+	v4s PadIn = Arg->Pad;
+	int PoolMax = Arg->PoolMax;
+
+	int Wo = (Arg->UsedW-FSx+PadIn[0]+PadIn[1])/Sx + 1;
+	int Wo_F = Min(Wo, FirstDefinedOutput(FSx, PadIn[0], Sx)), Wo_L = Max(Wo_F, LastDefinedOutput(Arg->UsedW, FSx, PadIn[0], Sx));
+	int Ho = (Arg->UsedH-FSy+PadIn[2]+PadIn[3])/Sy + 1;
+	int Ho_F = Min(Ho, FirstDefinedOutput(FSy, PadIn[2], Sy)), Ho_L = Max(Ho_F, LastDefinedOutput(Arg->UsedH, FSy, PadIn[2], Sy));
+
+	unsigned int CoreId = gap_coreid();
+
+	if (Arg->Orientation) { // Horizontal
+		unsigned int Chunk = ChunkSize(Wo);
+		unsigned int First = Chunk*CoreId;
+		unsigned int Last = Min(First+Chunk, Wo);
+		v4s PadOrg = PadIn;
+		PadIn[0] *= (First==0); PadIn[1] *= (Last==Wo);
+		if (PoolMax) {
+			KerMaxPoolNxMStrideSxSy_Body_SQ8(In, Out, FSx, FSy, PadOrg[0], PadOrg[2], W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, Sx, Sy);
+			if ((int) PadIn) KerMaxPoolNxMStrideSxSy_Border_SQ8(In, Out, FSx, FSy, PadIn, PadOrg, W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, Sx, Sy);
+		} else {
+			KerAvgPoolNxMStrideSxSy_Body_SQ8(In, Out, FSx, FSy, PadOrg[0], PadOrg[2], W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, Sx, Sy);
+			if ((int) PadIn) KerAvgPoolNxMStrideSxSy_Border_SQ8(In, Out, FSx, FSy, PadIn, PadOrg, W, H, Wo, Max(First, Wo_F), Min(Last, Wo_L), Ho, Ho_F, Ho_L, Sx, Sy);
+		}
+		KerPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_RELUN, 1);
+	} else {
+		unsigned int Chunk = ChunkSize(Ho);
+		unsigned int First = Chunk*CoreId;
+		unsigned int Last = Min(First+Chunk, Ho);
+		v4s PadOrg = PadIn;
+		PadIn[2] *= (First==0); PadIn[3] *= (Last==Ho);
+		if (PoolMax) {
+			KerMaxPoolNxMStrideSxSy_Body_SQ8(In, Out, FSx, FSy, PadOrg[0], PadOrg[2], W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), Sx, Sy);
+			if ((int) PadIn) KerMaxPoolNxMStrideSxSy_Border_SQ8(In, Out, FSx, FSy, PadIn, PadOrg, W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), Sx, Sy);
+		} else {
+			KerAvgPoolNxMStrideSxSy_Body_SQ8(In, Out, FSx, FSx, PadOrg[0], PadOrg[2], W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), Sx, Sy);
+			if ((int) PadIn) KerAvgPoolNxMStrideSxSy_Border_SQ8(In, Out, FSx, FSy, PadIn, PadOrg, W, H, Wo, Wo_F, Wo_L, Ho, Max(First, Ho_F), Min(Last, Ho_L), Sx, Sy);
+		}
+		KerPoolActivation(Out, Wo, Ho, First, Last, Infos, ACT_RELUN, 0);
+	}
+	gap_waitbarrier(0);
+}
diff --git a/tools/autotiler_v3/generators/CNN/CNN_SoftMax.c b/tools/autotiler_v3/generators/CNN/CNN_SoftMax.c
index c7e9e6ab4..a1388b9bb 100644
--- a/tools/autotiler_v3/generators/CNN/CNN_SoftMax.c
+++ b/tools/autotiler_v3/generators/CNN/CNN_SoftMax.c
@@ -236,4 +236,5 @@ void KerParSoftMax_fps(KerSoftMax_fps_T *Arg)
 	InvSum = ((FP2FIX(1.0, 15)<<15)/Sum);
 	for (int i=First; i<Last; i++) Out[i] = Abs(gap_roundnorm_reg(Out[i]*InvSum, 15));
 	gap_waitbarrier(0);
+
 }
diff --git a/tools/autotiler_v3/generators/CNN/CNN_SoftMax_SQ8.c b/tools/autotiler_v3/generators/CNN/CNN_SoftMax_SQ8.c
new file mode 100644
index 000000000..e499a95b2
--- /dev/null
+++ b/tools/autotiler_v3/generators/CNN/CNN_SoftMax_SQ8.c
@@ -0,0 +1,243 @@
+#include <stdio.h>
+#include <math.h>
+#include "CNN_BasicKernels_SQ8.h"
+
+#define Minu(a, b)	      (( ((unsigned int)a)<((unsigned int)b) )?((unsigned int)a):((unsigned int)b) )
+
+#ifdef __pulp__
+#define Abs(a)			__builtin_pulp_abs((a))
+#define Min(a, b)	       __builtin_pulp_minsi((a), (b))
+#define Max(a, b)	       __builtin_pulp_maxsi((a), (b))
+#else
+#define Abs(a)			(((int)(a)<0)?(-(a)):(a))
+#define Min(a, b)	       (((a)<(b))?(a):(b))
+#define Max(a, b)	       (((a)>(b))?(a):(b))
+#endif
+
+static int CoreCountDynamic = 1;
+static int ActiveCore = gap_ncore();
+
+static inline unsigned int __attribute__((always_inline)) ChunkSize(unsigned int X)
+
+{
+	unsigned int NCore;
+	unsigned int Log2Core;
+	unsigned int Chunk;
+
+	if (CoreCountDynamic) NCore = ActiveCore; else NCore = gap_ncore();
+	Log2Core = gap_fl1(NCore);
+	Chunk = (X>>Log2Core) + ((X&(NCore-1))!=0);
+	return Chunk;
+}
+
+
+
+static unsigned short int IntegerExpLUT[] =
+{
+	0x0001, 0x0002, 0x0007, 0x0014, 0x0036, 0x0094, 0x0193, 0x0448, 0x0BA4, 0x1FA7, 0x560A, 0xE9E2
+};
+
+static unsigned short int FractionExpLUT[] =
+{
+	0x0000, 0x5BF1, 0x31CD, 0x0AF3, 0x4C90, 0x34E2, 0x36E3, 0x510B, 0x7A9F, 0x0ABE, 0x3B9F, 0x1224
+};
+
+/* 17.15 fixed point format */
+static unsigned short int ExpCoeffLUT[] = {
+	0x7FFF, 0x7FFF, 0x4000, 0x1555, 0x0555, 0x0111, 0x002E, 0x0007, 0x0001
+};
+
+
+#define ARRAYSIZE(x)    (sizeof(x) / sizeof(x[ 0 ]))
+
+/* X : fixed point, format Q17.15, returns in Q17.15 */
+static unsigned int Exp_fp_17_15(unsigned int X)
+
+{
+	int  Y, Result, IntX, FractX, ScaledInt;
+	short int Z_s, FractX_s;
+	unsigned short int  ScaledFract;
+
+	if (!X) return 0x8000;
+	Y = Abs(X);
+	IntX = (Y >> 15);
+	FractX = (Y & 0x7FFF);
+	if (gap_bitextractu(FractX, 1, 14)) {
+		/* Taylor series converges quickly only when | FractX | < 0.5 */
+		FractX -= 0x8000; IntX++;
+	}
+	if (IntX >= (int) ARRAYSIZE (IntegerExpLUT)) {
+		if (Y==X) return 0x7FFFFFFF; else return 0;
+	}
+
+	ScaledInt = IntegerExpLUT[IntX]; ScaledFract = FractionExpLUT[IntX];
+	/* Taylor's series: exp(x) = 1 + x + x ^ 2 / 2 + x ^ 3 / 3! + x ^ 4 / 4! + x ^ 5 / 5! + x ^ 6 / 6! + x ^ 7 / 7! + x ^ 8 / 8!  */
+	FractX_s = FractX; Z_s = FractX; Result = 0;
+	for (int i = 1; i < ARRAYSIZE (ExpCoeffLUT); i++) {
+		Result += Z_s*ExpCoeffLUT[i]; // gap_macs(Result, Z, ExpCoeffLUT[ i ]);
+		Z_s = gap_mulsRN(Z_s, FractX_s, 15);
+	}
+	Result = gap_roundnorm(Result, 15) + ExpCoeffLUT[0];
+	unsigned short int U_Res = Result;
+	Result = gap_muluRN(U_Res, ScaledFract, 15) + U_Res * ScaledInt;
+	if (Result && (X > 0x7FFFFFFF)) 
+		Result = ((0x7FFFFFFF / Result) >> 1);      /* negative value */
+	return (unsigned int) Result;
+}
+
+#if WITH16B
+void KerParSoftMax_fp(KerSoftMax_fp_T *Arg)
+
+{
+	short int * __restrict__ In = Arg->In;
+	short int * __restrict__ Out = Arg->Out;
+	int N = Arg->N;
+	unsigned Norm = Arg->Norm;
+	static L1_CL_MEM int Reduct[8];
+	int M, Sum, InvSum;
+	unsigned int CoreId = gap_coreid();
+	unsigned int ChunkCell = ChunkSize(N);
+	unsigned int First = CoreId*ChunkCell;
+	unsigned int Last  = Min(First+ChunkCell, N);
+	unsigned int *Red = &Reduct[CoreId];
+
+	/* Turns In into distribution */
+	/* Find max */
+	M = 0x80000000;
+	for (int i=First; i<Last; i++) M = Max(M, In[i]);
+	Reduct[CoreId] = M;
+	gap_waitbarrier(0);
+	if (CoreId==0) {
+		M = Reduct[0];
+		for (int i=1; i<gap_ncore(); i++) M = Max(M, Reduct[i]);
+		//for (int i=1; i<8; i++) M = Max(M, Reduct[i]);
+		Reduct[0] = M;
+
+	}
+	gap_waitbarrier(0);
+	/* Computes Exp(In[i]-M) for all in and sum results.
+	   Since we substract max from In[i] we always have exp(X) with X<=0 thus exp(X)<=1.0
+	   By definition of softmax Sum is <= 1
+	*/
+	M = Reduct[0];
+	Sum = 0;
+	for (int i=First; i<Last; i++) {
+		unsigned int Exp = Exp_fp_17_15((In[i]-M)<<(15-Norm));
+		Out[i] = Exp; Sum += Exp;
+	}
+	Reduct[CoreId] = Sum;
+	gap_waitbarrier(0);
+	if (CoreId==0) {
+		Sum = 0;
+		for (int i=0; i<gap_ncore(); i++) Sum += Reduct[i];
+		//for (int i=0; i<8; i++) Sum += Reduct[i];
+		Reduct[0] = Sum;
+	}
+	gap_waitbarrier(0);
+	Sum = Reduct[0];
+	InvSum = (FP2FIX(1.0, 15)<<15)/Sum;
+	for (int i=First; i<Last; i++) Out[i] = Abs(gap_roundnorm_reg(Out[i]*InvSum, 15));
+	gap_waitbarrier(0);
+
+}
+
+void KerParTanh_fp(KerSoftMax_fp_T *Arg)
+
+{
+	short int * __restrict__ In = Arg->In;
+	short int * __restrict__ Out = Arg->Out;
+	int N = Arg->N;
+	unsigned Norm = Arg->Norm;
+	unsigned int CoreId = gap_coreid();
+	unsigned int ChunkCell = ChunkSize(N);
+	unsigned int First = CoreId*ChunkCell;
+	unsigned int Last  = Min(First+ChunkCell, N);
+
+	for (int i=First; i<Last; i++) {
+		int Thx;
+		int NotSign = (In[i]>0)?-1:1;
+		unsigned int Exp = Exp_fp_17_15((NotSign*In[i])<<(16-Norm)); /* Exp(2x) or Exp(-2x) */
+		int Y = ((int)Exp + FP2FIX(+1.0, 15));
+
+		if (In>0) Thx =((FP2FIX(1.0, 15) - Exp)<<15)/Y;
+		else {
+			int X = ((int)Exp + FP2FIX(-1.0, 15));
+			Thx = ((X<<15)/(Y>>1))>>1;
+		}
+		Out[i] = gap_roundnorm_reg(Thx, (15-Norm));
+	}
+}
+
+
+int Tanh_fp(int In, int Norm)
+
+{
+
+	int Thx, Out;
+	int NotSign = (In>0)?-1:1;
+	unsigned int Exp = Exp_fp_17_15((NotSign*In)<<(16-Norm)); /* Exp(2x) or Exp(-2x) */
+
+	int Y = ((int)Exp + FP2FIX(+1.0, 15));
+	if (In>0) Thx =((FP2FIX(1.0, 15) - Exp)<<15)/Y;
+	else {
+		int X = ((int)Exp + FP2FIX(-1.0, 15));
+		Thx = ((X<<15)/(Y>>1))>>1;
+	}
+	Out = gap_roundnorm_reg(Thx, (15-Norm));
+	return Out;
+}
+#endif
+
+void KerParSoftMax_SQ8(KerSoftMax_SQ8_T *Arg)
+
+{
+	signed char * __restrict__ In = Arg->In;
+	short int * __restrict__ Out = Arg->Out;
+	int N = Arg->N;
+	int Norm = Arg->Infos[AT_INF_BIASL_SM];
+	static L1_CL_MEM int Reduct[8];
+	int M, Sum, InvSum;
+	unsigned int CoreId = gap_coreid();
+	unsigned int ChunkCell = ChunkSize(N);
+	unsigned int First = CoreId*ChunkCell;
+	unsigned int Last  = Min(First+ChunkCell, N);
+	unsigned int *Red = &Reduct[CoreId];
+
+	/* Turns In into distribution */
+	/* Find max */
+	M = 0x80000000;
+	for (int i=First; i<Last; i++) M = Max(M, In[i]);
+	Reduct[CoreId] = M;
+	gap_waitbarrier(0);
+	if (CoreId==0) {
+		M = Reduct[0];
+		for (int i=1; i<gap_ncore(); i++) M = Max(M, Reduct[i]);
+		//for (int i=1; i<8; i++) M = Max(M, Reduct[i]);
+		Reduct[0] = M;
+
+	}
+	gap_waitbarrier(0);
+	/* Computes Exp(In[i]-M) for all in and sum results.
+	   Since we substract max from In[i] we always have exp(X) with X<=0 thus exp(X)<=1.0
+	   By definition of softmax Sum is <= 1
+	*/
+	M = Reduct[0];
+	Sum = 0;
+	for (int i=First; i<Last; i++) {
+		unsigned int Exp = Exp_fp_17_15((In[i]-M)<<(Norm));
+		Out[i] = Exp; Sum += Exp;
+	}
+	Reduct[CoreId] = Sum;
+	gap_waitbarrier(0);
+	if (CoreId==0) {
+		Sum = 0;
+		for (int i=0; i<gap_ncore(); i++) Sum += Reduct[i];
+		Reduct[0] = Sum;
+	}
+	gap_waitbarrier(0);
+	Sum = Reduct[0];
+	InvSum = ((FP2FIX(1.0, 15)<<15)/Sum);
+	for (int i=First; i<Last; i++) Out[i] = Abs(gap_roundnorm_reg(Out[i]*InvSum, 15));
+	gap_waitbarrier(0);
+
+}
diff --git a/tools/autotiler_v3/generators/FFT2D/FFT2DGenerator.c b/tools/autotiler_v3/generators/FFT2D/FFT2DGenerator.c
index 42b6ed3b4..9092c3c3a 100644
--- a/tools/autotiler_v3/generators/FFT2D/FFT2DGenerator.c
+++ b/tools/autotiler_v3/generators/FFT2D/FFT2DGenerator.c
@@ -152,11 +152,11 @@ void GeneratorFFT2D(char *Name, unsigned int Dim, int ForceRadix2, int Scalar)
 			TCArg("int16_t * __restrict__", "SwapTable")
 		),
 		Calls(3,
-			Call("Image2Complex", LOC_INNER_LOOP,
+			Call("Image2Complex", LOC_LOOP,
 				Bindings(4, K_Arg("In", KER_ARG_TILE), K_Arg("Out", KER_ARG_TILE), K_Arg("In", KER_ARG_TILE_W), K_Arg("In", KER_ARG_TILE_H))),
-			Call(KerHorizontal, LOC_INNER_LOOP,
+			Call(KerHorizontal, LOC_LOOP,
 				Bindings(4, K_Arg("Out", KER_ARG_TILE), C_Arg("Twiddles"), K_Arg("Out", KER_ARG_TILE_W), K_Arg("Out", KER_ARG_TILE_H))),
-			Call("SwapSamples_2D_Horizontal_Par", LOC_INNER_LOOP,
+			Call("SwapSamples_2D_Horizontal_Par", LOC_LOOP,
 				Bindings(4, K_Arg("Out", KER_ARG_TILE), C_Arg("SwapTable"), K_Arg("Out", KER_ARG_TILE_W), K_Arg("Out", KER_ARG_TILE_H)))
 		),
 		KerArgs(2,
@@ -174,9 +174,9 @@ void GeneratorFFT2D(char *Name, unsigned int Dim, int ForceRadix2, int Scalar)
 			TCArg("int16_t * __restrict__", "SwapTable")
 		),
 		Calls(2,
-			Call(KerVertical, LOC_INNER_LOOP,
+			Call(KerVertical, LOC_LOOP,
 				Bindings(4, K_Arg("InOut", KER_ARG_TILE), C_Arg("Twiddles"), K_Arg("InOut", KER_ARG_TILE_H), K_Arg("InOut", KER_ARG_TILE_W))),
-			Call("SwapSamples_2D_Vertical_Par", LOC_INNER_LOOP,
+			Call("SwapSamples_2D_Vertical_Par", LOC_LOOP,
 				Bindings(4, K_Arg("InOut", KER_ARG_TILE), C_Arg("SwapTable"), K_Arg("InOut", KER_ARG_TILE_H), K_Arg("InOut", KER_ARG_TILE_W)))
 		),
 		KerArgs(1,
diff --git a/tools/autotiler_v3/generators/Fir/FirGenerator.c b/tools/autotiler_v3/generators/Fir/FirGenerator.c
index 2a124b992..eb540c2b4 100644
--- a/tools/autotiler_v3/generators/Fir/FirGenerator.c
+++ b/tools/autotiler_v3/generators/Fir/FirGenerator.c
@@ -133,7 +133,7 @@ we need extra padding before the input hence the NCoeefs, 0 part.
 the KER_ARG_TILE_NEXTDB property in the call sequence.
 */
 		Calls(1,
-			Call(KerFirName, LOC_INNER_LOOP,
+			Call(KerFirName, LOC_LOOP,
 				Bindings(7,
 					K_Arg("KerIn", KER_ARG_TILE),
 					K_Arg("KerIn", KER_ARG_TILE_NEXTDB),
diff --git a/tools/autotiler_v3/generators/IntegralImg/IntegralImgGenerator.c b/tools/autotiler_v3/generators/IntegralImg/IntegralImgGenerator.c
index 47d67efab..3f783896b 100644
--- a/tools/autotiler_v3/generators/IntegralImg/IntegralImgGenerator.c
+++ b/tools/autotiler_v3/generators/IntegralImg/IntegralImgGenerator.c
@@ -49,13 +49,13 @@ void GenerateIntegralImage(char *Name,
             TCArg("unsigned int *  __restrict__", "IntegralImage")
         ),
         Calls(2,
-            Call("KerPrime", LOC_INNER_LOOP_PROLOG,
+            Call("KerPrime", LOC_LOOP_PROLOG,
                 Bindings(2,
                     K_Arg("KerBuffer",KER_ARG),
                     K_Arg("KerIn", KER_ARG_TILE_W)
                 )
             ),
-            Call("KerProcess", LOC_INNER_LOOP,
+            Call("KerProcess", LOC_LOOP,
                 Bindings(5,
                     K_Arg("KerIn", KER_ARG_TILE),
                     K_Arg("KerIn", KER_ARG_TILE_W),
diff --git a/tools/autotiler_v3/generators/MatAdd/MatAddGenerator.c b/tools/autotiler_v3/generators/MatAdd/MatAddGenerator.c
index 2362d2b7c..c526ea2f6 100644
--- a/tools/autotiler_v3/generators/MatAdd/MatAddGenerator.c
+++ b/tools/autotiler_v3/generators/MatAdd/MatAddGenerator.c
@@ -46,7 +46,7 @@ void GenerateMatAddPar(char *UserKernelName, int W, int H)
         ),
         // Basic kernel we want to call on tiles, in this case MatSumPar
         Calls(1,
-            Call("MatSumPar", LOC_INNER_LOOP,
+            Call("MatSumPar", LOC_LOOP,
                 Bindings(5,
                     K_Arg("In1", KER_ARG_TILE),   // A tile from In1
                     K_Arg("In2", KER_ARG_TILE),   // A tile from In2
diff --git a/tools/autotiler_v3/generators/MatMult/MatMultGenerator.c b/tools/autotiler_v3/generators/MatMult/MatMultGenerator.c
index 257b0197f..bf8a1d97e 100644
--- a/tools/autotiler_v3/generators/MatMult/MatMultGenerator.c
+++ b/tools/autotiler_v3/generators/MatMult/MatMultGenerator.c
@@ -215,7 +215,7 @@ void ParMatMultGenerator(char *Name, unsigned int LineM1, unsigned int ColM1, un
                         TCArg(DataType, "Out")
                 ),
         Calls(1,
-            Call(MatKer, LOC_INNER_LOOP,
+            Call(MatKer, LOC_LOOP,
                 Bindings(NeedNorm?10:9,
                     K_Arg("M1",  KER_ARG_TILE), K_Arg("M1",  KER_ARG_TILE_W), K_Arg("M1",  KER_ARG_TILE_H),
                     K_Arg("M2",  KER_ARG_TILE), K_Arg("M2",  KER_ARG_TILE_W),
@@ -284,7 +284,7 @@ void ParVectMatMultGenerator(char *Name, unsigned int LineM1, unsigned int ColM1
                         TCArg(DataType, "Out")
                 ),
         Calls(1,
-            Call(MatKer, LOC_INNER_LOOP,
+            Call(MatKer, LOC_LOOP,
                 Bindings(NeedNorm?10:9,
                     K_Arg("M1",  KER_ARG_TILE),    K_Arg("M1",  KER_ARG_TILE_W), K_Arg("M1",  KER_ARG_TILE_H),
                     K_Arg("M2",  KER_ARG_TILE),    K_Arg("M2",  KER_ARG_TILE_W),
diff --git a/tools/autotiler_v3/generators/Resize/ResizeGenerator.c b/tools/autotiler_v3/generators/Resize/ResizeGenerator.c
index e35050377..3e4d41dd6 100644
--- a/tools/autotiler_v3/generators/Resize/ResizeGenerator.c
+++ b/tools/autotiler_v3/generators/Resize/ResizeGenerator.c
@@ -35,7 +35,7 @@ void GenerateResize(char *Name, int Wi, int Hi, int Wo, int Ho)
 		KernelIterSpace(1, IterTiledSpace(KER_ITER_TILE0)),
 		TILE_HOR,
 		CArgs(2, TCArg("unsigned char *", "In"), TCArg("unsigned char *", "Out")),
-		Calls(1, Call("KerResizeBilinear", LOC_INNER_LOOP,
+		Calls(1, Call("KerResizeBilinear", LOC_LOOP,
 			Bindings(8, K_Arg("In", KER_ARG_TILE),
 				        K_Arg("In", KER_ARG_W),
 				        K_Arg("In", KER_ARG_H),
diff --git a/tools/autotiler_v3/include/AutoTilerLib.h b/tools/autotiler_v3/include/AutoTilerLib.h
index 4a5593520..239133823 100644
--- a/tools/autotiler_v3/include/AutoTilerLib.h
+++ b/tools/autotiler_v3/include/AutoTilerLib.h
@@ -730,6 +730,21 @@ ArgBindingDescr_T *K_ArgPar(
 	KernelIteratorT ItSpace		/** Which Iteration space, has to a parametric one */
 	);
 
+/**
+@brief Binds argument to kernel argument tile attribute predicate for a given sub space of this kernel argument.
+
+Binds argument to kernel argument tile attribute predicate for a given sub space of this kernel argument.
+
+Argument selection can be:
+	KER_ARG_TILEFIRST	True if current tile is the first according to ItSpace dimension
+	KER_ARG_TILELAST	True if current tile is the last according to ItSpace dimension
+*/
+ArgBindingDescr_T *K_ArgPred(
+	char *ArgName,			/**< A tiled user kernel argument name */
+	KernelArgSelect_T ArgSelect,	/**< Select which user kernel argument property to be used */
+	KernelIteratorT ItSpace		/**< Which iteration space */
+	);
+
 /**
 @brief Binds argument to a user kernel argument (a tiled argument) and combine it with Value using Oper
 
@@ -744,6 +759,19 @@ ArgBindingDescr_T *K_ArgOper(
 	int Value			/**< A signed immediate value */
 	);
 
+/**
+@brief Binds argument to a user kernel argument (a tiled argument) and combine it with Value using Oper
+
+Binds argument to a user kernel argument (a tiled argument) and combine it with Value using Oper
+
+*/
+ArgBindingDescr_T *K_TileOper(
+	char *ArgName,			/**< A tiled user kernel argument name */
+	char *ArgAccessType,		/**< Which type should be usedd when accessing the tile */
+	char Oper,			/**< Operation, see ArgBindingOper. Valid: + - * / % @ */
+	int Value			/**< A signed immediate value */
+	);
+
 /** @} */ // End of ArgBind group
 /** @} */ // End of Calls group
 
@@ -821,33 +849,59 @@ Object_T *_KerArgP(
 Creates one user kernel argument. Kernel argument Space is explicitely described
 */
 Object_T *KerArg(
-	char 	     *KerArgName,	/**< Kernel argument name */
-	KernelArgDimDescrT *KerArgSpace,/**< Kernel argument space descriptor */
-	Object_Type_T ObjType,		/**< Kernel argument type: logical OR of types (O_xxx) or pre defined types */
-	unsigned int W,			/**< Kernel argument Data plane width */
-	unsigned int H,			/**< Kernel argument Data plane height */
-	unsigned int ItemSize,		/**< Data plane basic data type size in bytes */
-	int TileOverlap,		/**< Amount of overlap between 2 adjacent tiles */
-	KernelArgConstraints_T Constraint, /**< Kernel argument constraints */
-	unsigned int PreferedTileSize,  /**< Tile variable dimension is prefered to a multiple of PreferedTileSize if not 0 */
-	char *CArgName			/**< To which user kernel C argument this kernel argument is related to */
+	char 	     *KerArgName,		/**< Kernel argument name */
+	KernelArgDimDescrT *KerArgSpace,	/**< Kernel argument space descriptor */
+	Object_Type_T ObjType,			/**< Kernel argument type: logical OR of types (O_xxx) or pre defined types */
+	unsigned int W,				/**< Kernel argument Data plane width */
+	unsigned int H,				/**< Kernel argument Data plane height */
+	unsigned int ItemSize,			/**< Data plane basic data type size in bytes */
+	int TileOverlap,			/**< Amount of overlap between 2 adjacent tiles */
+	KernelArgConstraints_T Constraint, 	/**< Kernel argument constraints */
+	unsigned int PreferedTileSize,  	/**< Tile variable dimension must be a multiple of PreferedTileSize if not 0 */
+	char *CArgName				/**< To which user kernel C argument this kernel argument is related to */
 	);
 
+/**
+@brief Creates one user kernel argument with padding on the boundaries. Kernel argument Space is explicitely described
+
+Creates one user kernel argument with padding on the boundaries. Kernel argument Space is explicitely described
+*/
 Object_T *KerArgP(
-	char *KerArgName,
-	KernelArgDimDescrT *KerArgSpace,
-	Object_Type_T ObjType,
-	unsigned int W,
-	unsigned int H,
-	unsigned int UsedW,
-	unsigned int UsedH,
-	v4s PadTile,
-	v4s PadExec,
-	unsigned int ItemSize,
-        int TileOverlap,
-	KernelArgConstraints_T Constraint,
-        unsigned int PreferedTileSize,
-	char *CArgName);
+	char *KerArgName,			/**< Kernel argument name */
+	KernelArgDimDescrT *KerArgSpace,	/**< Kernel argument space descriptor */
+	Object_Type_T ObjType,			/**< Kernel argument type: logical OR of types (O_xxx) or pre defined types */
+	unsigned int W,				/**< Kernel argument Data plane width */
+	unsigned int H,				/**< Kernel argument Data plane height */
+	unsigned int UsedW,			/**< Used tile width after padding and striding */
+	unsigned int UsedH,			/**< Used tile height after padding and striding */
+	v4s PadTile,				/**< Left, Right, Top, Bottom amount of pad, for dimension ratio evaluation, may be > Pad Exec if several kernels are cascaded */
+	v4s PadExec,				/**< Left, Right, Top, Bottom amount of pad, actual pad to be used at kernel exec time */
+	unsigned int ItemSize,			/**< Data plane basic data type size in bytes */
+        int TileOverlap,			/**< Amount of overlap between 2 adjacent tiles */
+	KernelArgConstraints_T Constraint,	/**< Kernel argument constraints */
+        unsigned int PreferedTileSize,		/**< Tile variable dimension must be a multiple of PreferedTileSize if not 0 */
+	char *CArgName				/**< To which user kernel C argument this kernel argument is related to */
+	);
+
+/**
+@brief Creates one user kernel argument, extra pad on variable dim for alignment sake. Kernel argument Space is explicitely described
+
+Creates one user kernel argument, extra pad on variable dim for alignment sake. Kernel argument Space is explicitely described
+*/
+Object_T *KerArgPadAlign(
+	char *KerArgName,			/**< Kernel argument name */
+	KernelArgDimDescrT *KerArgSpace,	/**< Kernel argument space descriptor */
+	Object_Type_T ObjType,			/**< Kernel argument type: logical OR of types (O_xxx) or pre defined types */
+	unsigned int W,				/**< Kernel argument Data plane width */
+	unsigned int H,				/**< Kernel argument Data plane height */
+	unsigned int TileWPadAlign,		/**< Add TilePadAlign to the width of the tile, use adjust tile alignment through tile expansion */
+	unsigned int ItemSize,			/**< Data plane basic data type size in bytes */
+	unsigned int RawItemSize,		/**< In case ItemSize has to be padded this is the ItemSize before padding */
+	int TileOverlap,			/**< Amount of overlap between 2 adjacent tiles */
+	KernelArgConstraints_T Constraint,	/**< Kernel argument constraints */
+	unsigned int PreferedTileSize,		/**< Tile variable dimension must be a multiple of PreferedTileSize if not 0 */
+	char *CArgName				/**< To which user kernel C argument this kernel argument is related to */
+	);
 
 
 /**
@@ -998,6 +1052,27 @@ void AddKernelArgDim(
 	...			/**< List of space dimensions from outer to inner, most inner is the item size */
 	);
 
+/**
+@brief For 2D parametric const arg interleave each tile by group of TileLineInterleave Lines
+
+For 2D parametric const arg interleave each tile by group of TileLineInterleave Lines
+*/
+void SetKernelArgInterleave(
+	char *Name,				/**< Kernel Name */
+	char *ArgName,				/**< Argument Name */
+	unsigned int TileLineInterleave		/**< Number of lines of the interleaved group of lines */
+	);
+
+/**
+@brief Set L2DB (in L3) property to Kernel Name, Kernel Argument ArgName
+
+Set L2DB (in L3) property to Kernel Name, Kernel Argument ArgName
+*/
+void SetKerArgInL3(
+	char *Name,		/**< Kernel Name */
+	char *ArgName		/**< Argument Name */
+	);
+
 
 /**
 @brief Alter the behaviour of UserKernel processing
@@ -1092,6 +1167,11 @@ StackedTensors_T *AT_StackedTensors(
 	...
 	);
 
+void AddStackedTensors(
+	char *OutTensorName,
+	int Count,
+	...
+	);
 /**
 @brief Creates a list of stacked tensors
 
@@ -1247,6 +1327,18 @@ ArgBindingDescr_T *GNodeArgImmOper(
 	int Value			/**< Offset value */
 	);
 
+/**
+@brief Add a pair of symbols to a graph C arg to pass it's allocated address and memory location
+
+Add a pair of symbols to a graph C arg to pass it's allocated address and memory location
+*/
+void AddGraphArgExportSymbols(
+	char *GraphCArgName,		/**< Graph CArg name, should be CArg with scope=ARG_SCOPE_GLOBAL */
+	char *ExportAddrName,		/**< Legal C Name to store Graph CArg allocated address, type is unsigned int */
+	char *ExportLocName		/**< Legal C Name to store n which memort Graph CArg has been allocated, an int */
+	);
+
+
 /**
 @brief Binds a given Graph node arg, simplified form
 
@@ -1412,15 +1504,27 @@ char *CNN_FindMatchingKernel(
         );
 
 /**
-@brief Returns a C type for an argument given it's size in byte
+@brief Returns a signed C type for an argument given it's size in byte
 
-Returns a C type for an argument given it's size in byte
+Returns a signed C type for an argument given it's size in byte
 */
 char *CNN_ArgDataType(
 	int DataSize,		/**< Argument size in byte (1,2 or 4) */
 	int Pointer,		/**< Is this argument a pointer */
 	int Restrict		/**< In case this argument is a pointer can it be restricted? */
 	);
+
+/**
+@brief Returns an unsigned C type for an argument given it's size in byte
+
+Returns an unsigned C type for an argument given it's size in byte
+*/
+char *CNN_ArgDataTypeUns(
+	int DataSize,		/**< Argument size in byte (1,2 or 4) */
+	int Pointer,		/**< Is this argument a pointer */
+	int Restrict		/**< In case this argument is a pointer can it be restricted? */
+	);
+
 /**
 @brief For merged CNN layers retrieves composite Layer operation from individual operations.
 
@@ -1507,7 +1611,17 @@ extern void AT_PrepareForTest(char *Name,
                     KernelOper_T KerOper,
                     int Norm,
                     int NormBias);
+extern void AT_PrepareForTest_SQ8(
+        char *Name,
+        int InFeat, int OutFeat, int Width, int Height,
+        int BiasDataSize,
+        KernelOper_T OpC, int Fcx, int Fcy, int Dcx, int Dcy, int Scx, int Scy, v4s PadC,
+        KernelOper_T OpP, int Fpx, int Fpy, int Dpx, int Dpy, int Spx, int Spy, v4s PadP,
+        KernelOper_T OpA
+        );
+
 extern void AT_TestFinalize();
+extern void AT_TestFinalize_SQ8();
 
 extern void DecodeCNNOper(
 	KernelOper_T Oper,
diff --git a/tools/autotiler_v3/include/AutoTilerLibTypes.h b/tools/autotiler_v3/include/AutoTilerLibTypes.h
index 9054ba670..856fffc4a 100644
--- a/tools/autotiler_v3/include/AutoTilerLibTypes.h
+++ b/tools/autotiler_v3/include/AutoTilerLibTypes.h
@@ -34,6 +34,7 @@ typedef enum {
 	/* Primitive operations */
 	KOP_SETBIAS,
 	KOP_SETBIAS_DP,
+        KOP_CONV_HWCE,
         KOP_CONV,
         KOP_CONV_DP,
         KOP_CONV_DW,
@@ -52,7 +53,6 @@ typedef enum {
         KOP_GLOBAL_AVGPOOL_REDUCT,
         KOP_RELU,
 	KOP_RELUN,
-	KOP_RELUN_VECTOR,
 	KOP_HSIGMOID,
 	KOP_HSWISH,
 	KOP_LEAKYRELU,
@@ -70,6 +70,7 @@ typedef enum {
 	KOP_MATSCALE_VECTOR,
 	KOP_MATSCALE_SCALAR,
 	KOP_MATSCALE_VECTOR_SCALAR,
+	KOP_MATVECTMUL,
 	KOP_MATTRANSP,
 	KOP_MATPERM_CHW2CWH,
 	KOP_MATPERM_CHW2HWC,
@@ -77,6 +78,8 @@ typedef enum {
 	KOP_MATPERM_CHW2WCH,
 	KOP_MATPERM_CHW2HCW,
         KOP_SOFTMAX,
+	KOP_EXPAND,
+	KOP_COLLAPSE,
 
 	/* Grouped operations */
         KOP_CONV_RELU,
@@ -130,15 +133,16 @@ typedef enum {
 
 } KernelOper_T;
 
+#if 0
 typedef enum {
         KACT_NONE = 0,
         KACT_RELU,
         KACT_RELUN,
-	KACT_RELUN_VECTOR,
         KACT_HSIGMOID,
         KACT_HSWISH,
         KACT_LEAKY,
 } CNN_ActivationOper_T;
+#endif
 
 typedef enum {
 	PAD_LEFT, 		/* All padding elements are inserted on the left/top */
@@ -268,30 +272,6 @@ typedef enum {
 
 extern KernelCallLocationT IterCallLocation[][CALL_LAST];
 
-#define LOC_INNER_LOOP			0
-#define LOC_INNER_LOOP_PROLOG		1
-#define LOC_INNER_LOOP_EPILOG		2
-
-#define LOC_INNER_LOOP1			3
-#define LOC_INNER_LOOP1_PROLOG		4
-#define LOC_INNER_LOOP1_EPILOG		5
-
-#define LOC_INNER_LOOP2			6
-#define LOC_INNER_LOOP2_PROLOG		7
-#define LOC_INNER_LOOP2_EPILOG		8
-
-#define LOC_IN_PLANE			9
-#define LOC_IN_PLANE_PROLOG		10
-#define LOC_IN_PLANE_EPILOG		11
-
-#define LOC_OUT_PLANE			12
-#define LOC_OUT_PLANE_PROLOG		13
-#define LOC_OUT_PLANE_EPILOG		14
-
-#define LOC_IN_OUT_PLANE		15
-#define LOC_IN_OUT_PLANE_PROLOG		16
-#define LOC_IN_OUT_PLANE_EPILOG		17
-
 /**
 @brief User kernel tiling orientation
 
@@ -309,20 +289,17 @@ typedef enum {
 /**
 @brief User kernel argument constraints
 
-User kernel argument constraints
+User kernel argument constraints. Max 16 of them
 */
 typedef enum {
 	OBJ_CONSTRAINTS_NONE = 0,		/**< No constraints on this user kernel argument */
-	OBJ_CONSTRAINTS_EVEN = (1<<1),		/**< Variable tile size generated for this user kernel should be even */
-	OBJ_CONSTRAINTS_ODD = (1<<2),		/**< Variable tile size generated for this user kernel should be odd */
-	OBJ_CONSTRAINTS_ONEPREFTILE = (1<<3),	/**< This user kernel argument has a prefered tile variable size, use only a single tile for it */
-	OBJ_CONSTRAINTS_TILE_HOR = (1<<4),	/**< Force this kernel argument to be tiled horizontaly */
-	OBJ_CONSTRAINTS_TILE_VER = (1<<5),	/**< Force this kernel argument to be tiled verticaly */
-	OBJ_CONSTRAINTS_PAD_REM = (1<<6),	/**< When argument has non integer dim ratio use last tile to recover missing elements if possible */
-	OBJ_CONSTRAINTS_DROP_REM = (1<<7),	/**< When argument has non integer dim ratio simply drop them */
-	OBJ_CONSTRAINTS_DYNAMIC = (1<<8),	/**< When argument has non integer dim ratio dynamically evaluate tile size using DimRatio */
-	OBJ_CONSTRAINTS_2D = (1<<9),		/**< Argument is 2D strided */
-	OBJ_CONSTRAINTS_3D = (1<<10),
+	OBJ_CONSTRAINTS_ONEPREFTILE = (1<<0),	/**< This user kernel argument has a prefered tile variable size, use only a single tile for it */
+	OBJ_CONSTRAINTS_TILE_HOR = (1<<1),	/**< Force this kernel argument to be tiled horizontaly */
+	OBJ_CONSTRAINTS_TILE_VER = (1<<2),	/**< Force this kernel argument to be tiled verticaly */
+	OBJ_CONSTRAINTS_PAD_REM = (1<<3),	/**< When argument has non integer dim ratio use last tile to recover missing elements if possible */
+	OBJ_CONSTRAINTS_DROP_REM = (1<<4),	/**< When argument has non integer dim ratio simply drop them */
+	OBJ_CONSTRAINTS_DYNAMIC = (1<<5),	/**< When argument has non integer dim ratio dynamically evaluate tile size using DimRatio */
+	OBJ_CONSTRAINTS_2D = (1<<6),		/**< Argument is 2D strided */
 } KernelArgConstraints_T;
 
 /**
@@ -346,23 +323,25 @@ typedef enum {
 	KER_ARG_W = 12,			/**< User kernel argument width */
 	KER_ARG_H = 13,			/**< User kernel argument height */
 	KER_ARG_NTILES = 14,		/**< Number of tiles for related user kernel argument */
-	KER_ARG_TILEINDEX = 15,		/**< Current tile index for related user kernel argument, starts at 0 */
-	KER_ARG_TILE_BASE = 16,		/**< Current tile base in line or column unit, when argument is dynamic it is computed at runtime */
-	KER_ARG_IT_INDEX = 17,		/**< Actual value of iterator attached to ItSpace */
-	KER_ARG_PAD = 18,		/**< Actual padding of a feature space associated to arg (left,right,top,bottom) as a v4s */
-	KER_ARG_TILE_PAD = 19,		/**< Actual padding of tile associated to arg (left,right,top,bottom) as a v4s */
-	KER_ARG_PARTILE_DIM = 20,	/**< Actual dimension of a parametric space */
-	KER_ARG_PARTILE_SIZE = 21,	/**< Size of a tile from a parametric space */
-	KER_ARG_LOADEDPARTILE_SIZE = 22,/**< Size of a tile from a parametric space, in case the related subspace has been promoted to partial buffer returns the dimension of this subspace otherwise is equal to KER_ARG_PARTILE_SIZE */
-	KER_IT_INDEX = 23,		/**< Actual value of a given kernel iterator */
-
-	TC_ARG = 24,			/**< A C argument */
-	TC_IMM = 25,			/**< An immediate int value */
-	TC_USYMB = 26,			/**< A user defined symbol */
-	TC_KDIM = 27,			/**< One of the user Kernel Dimensions */
-	TC_ARG_IND = 28,		/**< An indirection on a C argument */
-	TC_ARG_IND_IT_INDEX = 29, 	/**< An indirection on a C argument with respect to actual value of ItSpace */
-	TC_ARG_PLUS_IT_INDEX = 30, 	/**< A C argument added to actual value of ItSpace, ItSpace multiplied by a constant */
+	KER_ARG_TILEFIRST = 15,		/**< Predicate, != 0 if if current tile is the first one */
+	KER_ARG_TILELAST = 16,		/**< Predicate, != 0 if current tile is the last one */
+	KER_ARG_TILEINDEX = 17,		/**< Current tile index for related user kernel argument, starts at 0 */
+	KER_ARG_TILE_BASE = 18,		/**< Current tile base in line or column unit, when argument is dynamic it is computed at runtime */
+	KER_ARG_IT_INDEX = 19,		/**< Actual value of iterator attached to ItSpace */
+	KER_ARG_PAD = 20,		/**< Actual padding of a feature space associated to arg (left,right,top,bottom) as a v4s */
+	KER_ARG_TILE_PAD = 21,		/**< Actual padding of tile associated to arg (left,right,top,bottom) as a v4s */
+	KER_ARG_PARTILE_DIM = 22,	/**< Actual dimension of a parametric space */
+	KER_ARG_PARTILE_SIZE = 23,	/**< Size of a tile from a parametric space */
+	KER_ARG_LOADEDPARTILE_SIZE = 24,/**< Size of a tile from a parametric space, in case the related subspace has been promoted to partial buffer returns the dimension of this subspace otherwise is equal to KER_ARG_PARTILE_SIZE */
+	KER_IT_INDEX = 25,		/**< Actual value of a given kernel iterator */
+
+	TC_ARG = 26,			/**< A C argument */
+	TC_IMM = 27,			/**< An immediate int value */
+	TC_USYMB = 28,			/**< A user defined symbol */
+	TC_KDIM = 29,			/**< One of the user Kernel Dimensions */
+	TC_ARG_IND = 30,		/**< An indirection on a C argument */
+	TC_ARG_IND_IT_INDEX = 31, 	/**< An indirection on a C argument with respect to actual value of ItSpace */
+	TC_ARG_PLUS_IT_INDEX = 32, 	/**< A C argument added to actual value of ItSpace, ItSpace multiplied by a constant */
 
 
 	/* Deprecated */
@@ -529,7 +508,8 @@ typedef enum {
 	BIND_OP_MOD=6,
 	BIND_OP_LSHIFT=7,
 	BIND_OP_RSHIFT=8,
-	BIND_OP_LAST=7,
+	BIND_OP_AT_INDEX=9,
+	BIND_OP_LAST=10,
 } ArgBindingOper;
 
 /* Internal tiler data structures */
@@ -689,6 +669,8 @@ typedef struct {
 	ConstInit_T *Init;		/* How to initialize in case Kernel argument is a constant */
 	Kernel_Arg_T *KerArg;		/* In case C arg is referenced into a Ker Arg gives a straight access to this kernel arguement */
 	GraphEdgeWeb_T *GraphSymbol;	/* Pointer to related CNN graph argument */
+	NameT *ExportSymbolName;	/* For Graph CArg allocated by the autotiler external name to be used to export CArg address to outside world */
+	NameT *ExportSymbolLoc;		/* For Graph CArg allocated by the autotiler external name to be used to export CArg mem location to outside world */
 } CArg_Descriptor_T;
 
 #define HAS_ARG_INFO(Arg)	((Arg) && (Arg)->CArg && (Arg)->CArg->ArgInfo)
@@ -706,6 +688,7 @@ typedef struct {
 	NameT *ValueKernelArg;		/* When a second C arg is needed */
 	KernelIteratorT ItSpace;	/* In case an iterator name is needed */
 	CArg_Descriptor_T *ArgInfo;
+	NameT *KerArgAccessType;
 } CKernel_Arg_T;
 
 typedef enum {GNA_UNDEF, GNA_IN, GNA_OUT, GNA_INOUT} GraghNodeArgT;
@@ -724,6 +707,7 @@ typedef struct {
 	CKernel_Arg_T *AliasTargetArgDescr;
 	CKernel_Arg_T *SourceArgDescr;
 	KernelIteratorT ItSpace;	/* In case an iterator name is needed */
+	NameT *KerArgAccessType;
 } ArgBindingDescr_T;
 
 typedef struct {
@@ -751,6 +735,8 @@ typedef struct {
 	char UsedLength[2*CG_MAX_PIPE_DEPTH+1];		/* To tack 2D length of tiles (if arg is 2D) for proper variable declaration */
 	int ArgNDim;					/* Number of dimensions of this argumentt */
 	int *ArgDim;					/* Space dimension from outer to inner, most inner dim is item size */
+	unsigned int TileLineInterleave;		/* In case related arg is 2D parametric and constant interleave tile lines by group of TileLineInterleave lines,
+							   remainder is kept non interleaved */
 } KerArgInfos_T;
 #define TILE_PTR(PipeOff)	((PipeOff) + CG_MAX_PIPE_DEPTH)
 
@@ -778,8 +764,9 @@ typedef struct A_Kernel_Arg_T {
 	unsigned int Height;
 	unsigned int UsedHeight;
 	unsigned int UsedH;
-	int Overlap;
+	int TileOverlap;		/* By how much 2 adjacent tiles should overlap, can be negative in case of non unit stride */
 	unsigned int DimRatio;
+	float        FDimRatio;
 	unsigned int DimOff;
 	unsigned int DimRem;
 	unsigned int Constraints;
@@ -788,6 +775,7 @@ typedef struct A_Kernel_Arg_T {
 	unsigned int Pad[4];
 	unsigned int ArgPad[4];
 	int ItemSize;
+	int RawItemSize;
 	unsigned int MoveSize[4];	/* [D1][D0] or [D0][T] or [T] D1,D0 parameteric spaces, T tileable space. D1/D0/T=0 Std tile, D1/D0/T=1 Last Tile */
 	unsigned int MoveStride;
 	unsigned int MoveStride1D[2];
@@ -827,8 +815,10 @@ typedef struct A_Object_T {
 	unsigned int ArgStride;
 	unsigned int BottomBuffer;
 	unsigned int TopBuffer;
+	unsigned int TileWPadAlign; 	/* Number of points to be added to the width of the tile, object should be O_TILED */
 	int ItemSize;
-	int Overlap;
+	int RawItemSize;
+	int TileOverlap;		/* By how much 2 adjacent tiles should overlap, can be negative in case of non unit stride */
 	unsigned int Alignment;
 	unsigned int PreferedTileSize;
 	unsigned int PrefRem;		/* Tile size should be Ts = PrefRem + K * PreferedTileSize */
@@ -923,14 +913,20 @@ typedef struct A_Kernel_T {
 } Kernel_T;
 
 typedef struct {
-	int TileOrientation;	/* Set Tiling orientation TILE_HOR TILE_VER */
-	int ParallelFeatures;	/* Parallelize along channels */
-	int ForceDPconv;	/* Forces double precision convolution*/
-	int UseHwCE;		/* Enable HW CE */
+	char TileOrientation;	/* Set Tiling orientation TILE_HOR TILE_VER */
+	char ParallelFeatures;	/* Parallelize along channels */
+	char ForceDPconv;	/* Forces double precision convolution*/
+	char UseHwCE;		/* Enable HW CE */
 	AT_PadType PadType;	/* Control padding strategy */
-	int EnableIm2Col;	/* Enable mat mul based convolution when feasible */
+	char EnableIm2Col;	/* Enable mat mul based convolution when feasible */
 	int ReluN;		/* if != -1 Overides 6 as a default value for ReLUN */
-	int MulBiasScalar;	/* if != -1 Overides default non scalar for MulBias convolutions */
+	char MulBiasScalar;	/* if != -1 Overides default non scalar for MulBias convolutions */
+	char In_L3;		/* if != 0 In (or In1) forced to be in L3 memory */
+	char Filter_L3;		/* if != 0 Filter (or In2)  forced to be in L3 memory */
+	char Bias_L3;		/* if != 0 Bias forced to be in L3 memory */
+	char Out_L3;		/* if != 0 Out forced to be in L3 memory */
+	char Scale_L3;		/* if != 0 Scale forced to be in L3 memory */
+	char ScaleN_L3;		/* if != 0 ScaleN forced to be in L3 memory */
 } CNN_GenControl_T;
 
 typedef struct {
@@ -1144,8 +1140,12 @@ typedef struct {
 
 #define Q2F(V, N)               ((float) (((float) (V))/((1<<(N))-0)))
 #define MultRndu(x,y, scale)    ((unsigned int)(((x)*(y)) + (1<<((scale)-1)))>>(scale))
+#ifndef Max
 #define Max(a, b)               (((a)>(b))?(a):(b))
+#endif
+#ifndef Min
 #define Min(a, b)               (((a)<(b))?(a):(b))
+#endif
 
 /* Return aligned value, alignment is 2^Size */
 #define ALIGN(Value, Size)      (((Value)&((1<<(Size))-1))?((((Value)>>(Size))+1)<<(Size)):(Value))
diff --git a/tools/autotiler_v3/include/GapBuiltins.h b/tools/autotiler_v3/include/GapBuiltins.h
index eed969fcc..c3ef8eceb 100644
--- a/tools/autotiler_v3/include/GapBuiltins.h
+++ b/tools/autotiler_v3/include/GapBuiltins.h
@@ -173,6 +173,8 @@ static inline unsigned int ExtInsMaskSafe(unsigned int Size, unsigned int Offset
 #define gap_bitinsert_r(dst, src, size, off) 		__builtin_pulp_binsert_r((dst), (src), ExtInsMaskFast((size), (off)))
 #define gap_bitinsert_r_safe(dst, src, size, off) 	__builtin_pulp_binsert_r((dst), (src), ExtInsMaskSafe((size), (off)))
 
+/* Bit clear */
+/* Bit set */
 /* 1 bit rotation to the right, 32 bits input */
 #define gap_rotr(x)				__builtin_pulp_rotr((x))
 
diff --git a/tools/autotiler_v3/include/at_api_emul.h b/tools/autotiler_v3/include/at_api_emul.h
index 5addaee98..f3593aac8 100644
--- a/tools/autotiler_v3/include/at_api_emul.h
+++ b/tools/autotiler_v3/include/at_api_emul.h
@@ -216,7 +216,7 @@ typedef int AT_HYPERFLASH_FS_CL_EVENT;
 #define AT_HYPERFLASH_FS_FC_COPY(file,ext,loc,size,dir,event) \
   __at_hyperflash_fs_copy(*(file), ext, loc, size, dir)
 
-#define AT_HYPERFLASH_FS_FC_COPY2D(file, dev,ext,loc,size,stride,len,dir,event) \
+#define AT_HYPERFLASH_FS_FC_COPY2D(file, ext,loc,size,stride,len,dir,event) \
   __at_hyperflash_fs_copy_2d(*(file), ext, loc, size, stride, len, dir)
 
 #define AT_HYPERFLASH_FS_FC_WAIT(file,event)
@@ -224,7 +224,7 @@ typedef int AT_HYPERFLASH_FS_CL_EVENT;
 #define AT_HYPERFLASH_FS_CL_COPY(file,ext,loc,size,dir,event) \
   __at_hyperflash_fs_copy(*(file), ext, loc, size, dir)
 
-#define AT_HYPERFLASH_FS_CL_COPY2D(file, dev,ext,loc,size,stride,len,dir,event) \
+#define AT_HYPERFLASH_FS_CL_COPY2D(file, ext,loc,size,stride,len,dir,event) \
   __at_hyperflash_fs_copy_2d(*(file), ext, loc, size, stride, len, dir)
 
 #define AT_HYPERFLASH_FS_CL_WAIT(file,event)
diff --git a/tools/autotiler_v3/include/at_api_pmsis.h b/tools/autotiler_v3/include/at_api_pmsis.h
index 6ef177d15..fbb136742 100644
--- a/tools/autotiler_v3/include/at_api_pmsis.h
+++ b/tools/autotiler_v3/include/at_api_pmsis.h
@@ -37,33 +37,33 @@
 static inline void gap_fc_starttimer()
 {
   pi_perf_conf(1<<PI_PERF_CYCLES);
-  pi_perf_start();
+  pi_perf_fc_start();
 }
 
 static inline void gap_fc_resethwtimer()
 {
-  pi_perf_reset();
+  pi_perf_fc_reset();
 }
 
 static inline uint32_t gap_fc_readhwtimer()
 {
-  return pi_perf_read(PI_PERF_CYCLES);
+  return pi_perf_fc_read(PI_PERF_CYCLES);
 }
 
 static inline void gap_cl_starttimer()
 {
   pi_perf_conf(1<<PI_PERF_CYCLES);
-  pi_perf_start();
+  pi_perf_cl_start();
 }
 
 static inline void gap_cl_resethwtimer()
 {
-  pi_perf_reset();
+  pi_perf_cl_reset();
 }
 
 static inline uint32_t gap_cl_readhwtimer()
 {
-  return pi_perf_read(PI_PERF_CYCLES);
+  return pi_perf_cl_read(PI_PERF_CYCLES);
 }
 
 
@@ -203,8 +203,10 @@ static inline void __at_hyperflash_fs_open(AT_HYPERFLASH_FS_T *file, int is_writ
     return;
   }
   conf->flash = &file->hyperflash;
-  if (is_write)
+#ifdef __FLASH_FS_SEMIHOST__
+  printf("Open in semi host mode\n");
     conf->type = PI_FS_HOST;
+#endif
   pi_open_from_conf(&file->fs, conf);
   if (pi_fs_mount(&file->fs))
   {
@@ -254,8 +256,8 @@ static inline void __at_hyperflash_fs_close(AT_HYPERFLASH_FS_T *file)
 #define AT_HYPERFLASH_FS_FC_COPY(fs,ext,loc,size,dir,event) \
   pi_fs_copy_async((fs)->file, ext, loc, size, !(dir), pi_task_block(event))
 
-#define AT_HYPERFLASH_FS_FC_COPY2D(file, dev,ext,loc,size,stride,len,dir,event) \
-  pi_fs_copy_2d_async(file->file, ext, loc, size, stride, len, !(dir), pi_task_block(event))
+#define AT_HYPERFLASH_FS_FC_COPY2D(fs,ext,loc,size,stride,len,dir,event) \
+  pi_fs_copy_2d_async((fs)->file, ext, loc, size, stride, len, !(dir), pi_task_block(event))
 
 #define AT_HYPERFLASH_FS_FC_WAIT(file,event) \
   pi_task_wait_on(event)
@@ -263,8 +265,8 @@ static inline void __at_hyperflash_fs_close(AT_HYPERFLASH_FS_T *file)
 #define AT_HYPERFLASH_FS_CL_COPY(fs,ext,loc,size,dir,event) \
   pi_cl_fs_copy((fs)->file, ext, loc, size, !(dir), event)
 
-#define AT_HYPERFLASH_FS_CL_COPY2D(file, dev,ext,loc,size,stride,len,dir,event) \
-  pi_cl_fs_copy_2d(file->file, ext, loc, size, stride, len, !(dir), event)
+#define AT_HYPERFLASH_FS_CL_COPY2D(fs,ext,loc,size,stride,len,dir,event) \
+  pi_cl_fs_copy_2d((fs)->file, ext, loc, size, stride, len, !(dir), event)
 
 #define AT_HYPERFLASH_FS_CL_WAIT(file,event) \
   pi_cl_fs_wait(event)
diff --git a/tools/gap-configs/configs/chips/gap9_v2/gap9_v2.json b/tools/gap-configs/configs/chips/gap9_v2/gap9_v2.json
index 06d6e60ad..53c7c6e9d 100644
--- a/tools/gap-configs/configs/chips/gap9_v2/gap9_v2.json
+++ b/tools/gap-configs/configs/chips/gap9_v2/gap9_v2.json
@@ -70,7 +70,7 @@
     "base": "0x10000000",
     "alias": "0x00000000",
     "size": "0x00400000",
-    "core": "ri5ky_v2_6_sfloat_single_regfile",
+    "core": "ri5ky_v2_6_sfloat_single_regfile_int64",
     "version": 5,
     "json_file": "cluster_v6",
     "nb_cluster": 1,
diff --git a/tools/gap-configs/configs/chips/gap9_v2/gap9_v2_rtl.json b/tools/gap-configs/configs/chips/gap9_v2/gap9_v2_rtl.json
index 78c71329b..d1f3c668f 100644
--- a/tools/gap-configs/configs/chips/gap9_v2/gap9_v2_rtl.json
+++ b/tools/gap-configs/configs/chips/gap9_v2/gap9_v2_rtl.json
@@ -15,39 +15,144 @@
         }
       },
 
-      "components": {
-        "mic0": {
-          "@includes@": ["devices/microphone.json"]
-        },
-        "mic1": {
-          "@includes@": ["devices/microphone.json"]
-        },
-        "mic2": {
-          "@includes@": ["devices/microphone.json"]
-        },
-        "mic3": {
-          "@includes@": ["devices/microphone.json"]
-        },
-        "sink0": {
-          "@includes@": ["devices/speaker.json"]
+      "@cond@": {
+        "@os.environ.get('GVSOC_TESTBENCH') is None@": {
+          "components": {
+            "mic0": {
+              "@includes@": ["devices/microphone.json"]
+            },
+            "mic1": {
+              "@includes@": ["devices/microphone.json"]
+            },
+            "mic2": {
+              "@includes@": ["devices/microphone.json"]
+            },
+            "mic3": {
+              "@includes@": ["devices/microphone.json"]
+            },
+            "sink0": {
+              "@includes@": ["devices/speaker.json"]
+            },
+            "uart": {
+              "@includes@": ["devices/uart_checker.json"]
+            }
+          },
+    
+          "bindings": [
+            [ "chip.uart0", "uart.input" ],
+            [ "mic0.i2s", "chip.i2s0" ],
+            [ "mic1.i2s", "chip.i2s0" ],
+            [ "mic2.i2s", "chip.i2s0" ],
+            [ "mic3.i2s", "chip.i2s0" ],
+            [ "mic0.ws_out", "mic1.ws_in" ],
+            [ "mic1.ws_out", "mic2.ws_in" ],
+            [ "mic2.ws_out", "mic3.ws_in" ],
+            [ "sink0.i2s", "chip.i2s0" ]
+          ]
         },
-        "uart": {
-          "@includes@": ["devices/uart_checker.json"]
+    
+        "@os.environ.get('GVSOC_TESTBENCH') is not None@": {
+          "components": {
+            "testbench": {
+              "@includes@": ["devices/testbench.json"]
+            }
+          },
+          "bindings": [
+            [ "chip.uart0", "testbench.ctrl" ],
+            [ "chip.gpio0", "testbench.gpio0" ],
+            [ "chip.gpio1", "testbench.gpio1" ],
+            [ "chip.gpio2", "testbench.gpio2" ],
+            [ "chip.gpio3", "testbench.gpio3" ],
+            [ "chip.gpio4", "testbench.gpio4" ],
+            [ "chip.gpio5", "testbench.gpio5" ],
+            [ "chip.gpio6", "testbench.gpio6" ],
+            [ "chip.gpio7", "testbench.gpio7" ],
+            [ "chip.gpio8", "testbench.gpio8" ],
+            [ "chip.gpio9", "testbench.gpio9" ],
+            [ "chip.gpio10", "testbench.gpio10" ],
+            [ "chip.gpio11", "testbench.gpio11" ],
+            [ "chip.gpio12", "testbench.gpio12" ],
+            [ "chip.gpio13", "testbench.gpio13" ],
+            [ "chip.gpio14", "testbench.gpio14" ],
+            [ "chip.gpio15", "testbench.gpio15" ],
+            [ "chip.gpio16", "testbench.gpio16" ],
+            [ "chip.gpio17", "testbench.gpio17" ],
+            [ "chip.gpio18", "testbench.gpio18" ],
+            [ "chip.gpio19", "testbench.gpio19" ],
+            [ "chip.gpio20", "testbench.gpio20" ],
+            [ "chip.gpio21", "testbench.gpio21" ],
+            [ "chip.gpio22", "testbench.gpio22" ],
+            [ "chip.gpio23", "testbench.gpio23" ],
+            [ "chip.gpio24", "testbench.gpio24" ],
+            [ "chip.gpio25", "testbench.gpio25" ],
+            [ "chip.gpio26", "testbench.gpio26" ],
+            [ "chip.gpio27", "testbench.gpio27" ],
+            [ "chip.gpio28", "testbench.gpio28" ],
+            [ "chip.gpio29", "testbench.gpio29" ],
+            [ "chip.gpio30", "testbench.gpio30" ],
+            [ "chip.gpio31", "testbench.gpio31" ],
+            [ "chip.gpio32", "testbench.gpio32" ],
+            [ "chip.gpio33", "testbench.gpio33" ],
+            [ "chip.gpio34", "testbench.gpio34" ],
+            [ "chip.gpio35", "testbench.gpio35" ],
+            [ "chip.gpio36", "testbench.gpio36" ],
+            [ "chip.gpio37", "testbench.gpio37" ],
+            [ "chip.gpio38", "testbench.gpio38" ],
+            [ "chip.gpio39", "testbench.gpio39" ],
+            [ "chip.gpio40", "testbench.gpio40" ],
+            [ "chip.gpio41", "testbench.gpio41" ],
+            [ "chip.gpio42", "testbench.gpio42" ],
+            [ "chip.gpio43", "testbench.gpio43" ],
+            [ "chip.gpio44", "testbench.gpio44" ],
+            [ "chip.gpio45", "testbench.gpio45" ],
+            [ "chip.gpio46", "testbench.gpio46" ],
+            [ "chip.gpio47", "testbench.gpio47" ],
+            [ "chip.gpio48", "testbench.gpio48" ],
+            [ "chip.gpio49", "testbench.gpio49" ],
+            [ "chip.gpio50", "testbench.gpio50" ],
+            [ "chip.gpio51", "testbench.gpio51" ],
+            [ "chip.gpio52", "testbench.gpio52" ],
+            [ "chip.gpio53", "testbench.gpio53" ],
+            [ "chip.gpio54", "testbench.gpio54" ],
+            [ "chip.gpio55", "testbench.gpio55" ],
+            [ "chip.gpio56", "testbench.gpio56" ],
+            [ "chip.gpio57", "testbench.gpio57" ],
+            [ "chip.gpio58", "testbench.gpio58" ],
+            [ "chip.gpio59", "testbench.gpio59" ],
+            [ "chip.gpio60", "testbench.gpio60" ],
+            [ "chip.gpio61", "testbench.gpio61" ],
+            [ "chip.gpio62", "testbench.gpio62" ],
+            [ "chip.gpio63", "testbench.gpio63" ],
+            [ "chip.gpio64", "testbench.gpio64" ],
+            [ "chip.gpio65", "testbench.gpio65" ],
+            [ "chip.gpio66", "testbench.gpio66" ],
+            [ "chip.gpio67", "testbench.gpio67" ],
+            [ "chip.gpio68", "testbench.gpio68" ],
+            [ "chip.gpio69", "testbench.gpio69" ],
+            [ "chip.gpio70", "testbench.gpio70" ],
+            [ "chip.gpio71", "testbench.gpio71" ],
+            [ "chip.gpio72", "testbench.gpio72" ],
+            [ "chip.gpio73", "testbench.gpio73" ],
+            [ "chip.gpio74", "testbench.gpio74" ],
+            [ "chip.gpio75", "testbench.gpio75" ],
+            [ "chip.gpio76", "testbench.gpio76" ],
+            [ "chip.gpio77", "testbench.gpio77" ],
+            [ "chip.gpio78", "testbench.gpio78" ],
+            [ "chip.gpio79", "testbench.gpio79" ],
+            [ "chip.gpio80", "testbench.gpio80" ],
+            [ "chip.gpio81", "testbench.gpio81" ],
+            [ "chip.gpio82", "testbench.gpio82" ],
+            [ "chip.gpio83", "testbench.gpio83" ],
+            [ "chip.gpio84", "testbench.gpio84" ],
+            [ "chip.gpio85", "testbench.gpio85" ],
+            [ "chip.gpio86", "testbench.gpio86" ],
+            [ "chip.gpio87", "testbench.gpio87" ],
+            [ "chip.gpio88", "testbench.gpio88" ],
+            [ "chip.gpio89", "testbench.gpio89" ]
+          ]
         }
       },
-    
-      "bindings": [
-        [ "chip.uart0", "uart.input" ],
-        [ "mic0.i2s", "chip.i2s0" ],
-        [ "mic1.i2s", "chip.i2s0" ],
-        [ "mic2.i2s", "chip.i2s0" ],
-        [ "mic3.i2s", "chip.i2s0" ],
-        [ "mic0.ws_out", "mic1.ws_in" ],
-        [ "mic1.ws_out", "mic2.ws_in" ],
-        [ "mic2.ws_out", "mic3.ws_in" ],
-        [ "sink0.i2s", "chip.i2s0" ]
-      ],
-    
+
       "chip": {
         "@includes@": ["ips/dpi/chip_wrapper.json"],
 
@@ -177,7 +282,32 @@
             "gpio61": { "type": "gpio", "is_master": true },
             "gpio62": { "type": "gpio", "is_master": true },
             "gpio63": { "type": "gpio", "is_master": true },
-            "gpio64": { "type": "gpio", "is_master": true }
+            "gpio64": { "type": "gpio", "is_master": true },
+            "gpio65": { "type": "gpio", "is_master": true },
+            "gpio66": { "type": "gpio", "is_master": true },
+            "gpio67": { "type": "gpio", "is_master": true },
+            "gpio68": { "type": "gpio", "is_master": true },
+            "gpio69": { "type": "gpio", "is_master": true },
+            "gpio70": { "type": "gpio", "is_master": true },
+            "gpio71": { "type": "gpio", "is_master": true },
+            "gpio72": { "type": "gpio", "is_master": true },
+            "gpio73": { "type": "gpio", "is_master": true },
+            "gpio74": { "type": "gpio", "is_master": true },
+            "gpio75": { "type": "gpio", "is_master": true },
+            "gpio76": { "type": "gpio", "is_master": true },
+            "gpio77": { "type": "gpio", "is_master": true },
+            "gpio78": { "type": "gpio", "is_master": true },
+            "gpio79": { "type": "gpio", "is_master": true },
+            "gpio80": { "type": "gpio", "is_master": true },
+            "gpio81": { "type": "gpio", "is_master": true },
+            "gpio82": { "type": "gpio", "is_master": true },
+            "gpio83": { "type": "gpio", "is_master": true },
+            "gpio84": { "type": "gpio", "is_master": true },
+            "gpio85": { "type": "gpio", "is_master": true },
+            "gpio86": { "type": "gpio", "is_master": true },
+            "gpio87": { "type": "gpio", "is_master": true },
+            "gpio88": { "type": "gpio", "is_master": true },
+            "gpio89": { "type": "gpio", "is_master": true }
         }
       }
     },
diff --git a/tools/gap-configs/configs/devices/testbench.json b/tools/gap-configs/configs/devices/testbench.json
new file mode 100644
index 000000000..d0817cb85
--- /dev/null
+++ b/tools/gap-configs/configs/devices/testbench.json
@@ -0,0 +1,117 @@
+{
+    "vp_comps": [
+        "testbench", "clock"
+    ],
+
+    "vp_bindings": [
+        ["self->ctrl", "testbench->ctrl"],
+        ["self->gpio0", "testbench->gpio0"],
+        ["self->gpio1", "testbench->gpio1"],
+        ["self->gpio2", "testbench->gpio2"],
+        ["self->gpio3", "testbench->gpio3"],
+        ["self->gpio4", "testbench->gpio4"],
+        ["self->gpio5", "testbench->gpio5"],
+        ["self->gpio6", "testbench->gpio6"],
+        ["self->gpio7", "testbench->gpio7"],
+        ["self->gpio8", "testbench->gpio8"],
+        ["self->gpio9", "testbench->gpio9"],
+        ["self->gpio10", "testbench->gpio10"],
+        ["self->gpio11", "testbench->gpio11"],
+        ["self->gpio12", "testbench->gpio12"],
+        ["self->gpio13", "testbench->gpio13"],
+        ["self->gpio14", "testbench->gpio14"],
+        ["self->gpio15", "testbench->gpio15"],
+        ["self->gpio16", "testbench->gpio16"],
+        ["self->gpio17", "testbench->gpio17"],
+        ["self->gpio18", "testbench->gpio18"],
+        ["self->gpio19", "testbench->gpio19"],
+        ["self->gpio20", "testbench->gpio20"],
+        ["self->gpio21", "testbench->gpio21"],
+        ["self->gpio22", "testbench->gpio22"],
+        ["self->gpio23", "testbench->gpio23"],
+        ["self->gpio24", "testbench->gpio24"],
+        ["self->gpio25", "testbench->gpio25"],
+        ["self->gpio26", "testbench->gpio26"],
+        ["self->gpio27", "testbench->gpio27"],
+        ["self->gpio28", "testbench->gpio28"],
+        ["self->gpio29", "testbench->gpio29"],
+        ["self->gpio30", "testbench->gpio30"],
+        ["self->gpio31", "testbench->gpio31"],
+        ["self->gpio32", "testbench->gpio32"],
+        ["self->gpio33", "testbench->gpio33"],
+        ["self->gpio34", "testbench->gpio34"],
+        ["self->gpio35", "testbench->gpio35"],
+        ["self->gpio36", "testbench->gpio36"],
+        ["self->gpio37", "testbench->gpio37"],
+        ["self->gpio38", "testbench->gpio38"],
+        ["self->gpio39", "testbench->gpio39"],
+        ["self->gpio40", "testbench->gpio40"],
+        ["self->gpio41", "testbench->gpio41"],
+        ["self->gpio42", "testbench->gpio42"],
+        ["self->gpio43", "testbench->gpio43"],
+        ["self->gpio44", "testbench->gpio44"],
+        ["self->gpio45", "testbench->gpio45"],
+        ["self->gpio46", "testbench->gpio46"],
+        ["self->gpio47", "testbench->gpio47"],
+        ["self->gpio48", "testbench->gpio48"],
+        ["self->gpio49", "testbench->gpio49"],
+        ["self->gpio50", "testbench->gpio50"],
+        ["self->gpio51", "testbench->gpio51"],
+        ["self->gpio52", "testbench->gpio52"],
+        ["self->gpio53", "testbench->gpio53"],
+        ["self->gpio54", "testbench->gpio54"],
+        ["self->gpio55", "testbench->gpio55"],
+        ["self->gpio56", "testbench->gpio56"],
+        ["self->gpio57", "testbench->gpio57"],
+        ["self->gpio58", "testbench->gpio58"],
+        ["self->gpio59", "testbench->gpio59"],
+        ["self->gpio60", "testbench->gpio60"],
+        ["self->gpio61", "testbench->gpio61"],
+        ["self->gpio62", "testbench->gpio62"],
+        ["self->gpio63", "testbench->gpio63"],
+        ["self->gpio64", "testbench->gpio64"],
+        ["self->gpio65", "testbench->gpio65"],
+        ["self->gpio66", "testbench->gpio66"],
+        ["self->gpio67", "testbench->gpio67"],
+        ["self->gpio68", "testbench->gpio68"],
+        ["self->gpio69", "testbench->gpio69"],
+        ["self->gpio70", "testbench->gpio70"],
+        ["self->gpio71", "testbench->gpio71"],
+        ["self->gpio72", "testbench->gpio72"],
+        ["self->gpio73", "testbench->gpio73"],
+        ["self->gpio74", "testbench->gpio74"],
+        ["self->gpio75", "testbench->gpio75"],
+        ["self->gpio76", "testbench->gpio76"],
+        ["self->gpio77", "testbench->gpio77"],
+        ["self->gpio78", "testbench->gpio78"],
+        ["self->gpio79", "testbench->gpio79"],
+        ["self->gpio80", "testbench->gpio80"],
+        ["self->gpio81", "testbench->gpio81"],
+        ["self->gpio82", "testbench->gpio82"],
+        ["self->gpio83", "testbench->gpio83"],
+        ["self->gpio84", "testbench->gpio84"],
+        ["self->gpio85", "testbench->gpio85"],
+        ["self->gpio86", "testbench->gpio86"],
+        ["self->gpio87", "testbench->gpio87"],
+        ["self->gpio88", "testbench->gpio88"],
+        ["self->gpio89", "testbench->gpio89"],
+        ["clock->out", "testbench->clock"],
+        ["testbench->clock_cfg", "clock->clock_in"]
+    ],
+
+    "clock": {
+        "vp_component": "vp.clock_domain_impl",
+        "frequency": "50000000"
+    },
+
+    "testbench": {
+        "name": "Testbench",
+
+        "vp_component": "devices.testbench.testbench",
+
+        "verbose": false,
+        "ctrl_type": "uart",
+        "uart_baudrate": 115200,
+        "nb_gpio": 90
+    }
+}
diff --git a/tools/gap-configs/configs/ips/riscv/ri5ky_v2_6_sfloat_single_regfile_int64.json b/tools/gap-configs/configs/ips/riscv/ri5ky_v2_6_sfloat_single_regfile_int64.json
new file mode 100644
index 000000000..4c0089112
--- /dev/null
+++ b/tools/gap-configs/configs/ips/riscv/ri5ky_v2_6_sfloat_single_regfile_int64.json
@@ -0,0 +1,4 @@
+{
+    "@includes@" : ["ips/riscv/ri5ky_v2_6_sfloat_single_regfile.json"],
+    "isa"           : "rv32imfcXpulpv2Xf8Xf16XfvecXfauxXf16altXgap9Xint64"
+  }
\ No newline at end of file
diff --git a/tools/gap-configs/configs/ips/riscv/ri5ky_v2_sfloat_single_regfile_sec.json b/tools/gap-configs/configs/ips/riscv/ri5ky_v2_sfloat_single_regfile_sec.json
index c7c2380de..059611a3a 100644
--- a/tools/gap-configs/configs/ips/riscv/ri5ky_v2_sfloat_single_regfile_sec.json
+++ b/tools/gap-configs/configs/ips/riscv/ri5ky_v2_sfloat_single_regfile_sec.json
@@ -1,4 +1,5 @@
 {
   "@includes@" : ["ips/riscv/ri5ky_v2_sfloat_single_regfile.json"],
-  "defines"  : [ "ARCHI_CORE_HAS_PULPV2", "ARCHI_CORE_HAS_CPLX", "ARCHI_CORE_HAS_SECURITY" ]
+  "defines"  : [ "ARCHI_CORE_HAS_PULPV2", "ARCHI_CORE_HAS_CPLX", "ARCHI_CORE_HAS_SECURITY" ],
+  "isa"           : "rv32imfcXpulpv2Xf8Xf16XfvecXfauxXf16altXgap9Xint64"
 }
\ No newline at end of file
diff --git a/tools/gap8-openocd-tools/tcl/fuser.tcl b/tools/gap8-openocd-tools/tcl/fuser.tcl
index c2186e998..48a7cc09a 100644
--- a/tools/gap8-openocd-tools/tcl/fuser.tcl
+++ b/tools/gap8-openocd-tools/tcl/fuser.tcl
@@ -185,3 +185,64 @@ proc fuse_spiflash_boot {gap_tools_path} {
 	# now close the flasher
 	gap_fuse_terminate 0x1c000190
 }
+
+
+proc dump_fuse_array {gap_tools_path} {
+    reset
+	gap8_jtag_load_binary_and_start ${gap_tools_path}/gap_bins/gap_fuser@gapuino8.elf elf
+    sleep 100
+	puts "${gap_tools_path}/gap_bins/gap_fuser@gapoc_a.elf"
+	gap_fuse_open 0x1c000190
+
+	array set fuse_array {
+		0 0x0
+		1 0
+		2 0
+		3 0
+		4 0
+		5 0
+		6 0
+		7 0
+		8 0
+		9 0
+		10 0
+		11 0
+		12 0
+		13 0
+		14 0
+		15 0
+		16 0
+		17 0
+		18 0
+		19 0
+		20 0
+		21 0
+		22 0
+		23 0
+		24 0
+		25 0
+		26 0
+		27 0
+		28 0
+		29 0
+		30 0
+		31 0x0
+	}
+
+	gap_fuse_once 0x1c000190 0x0 0 1024 0xf 32
+	
+    puts "dump array:"
+    puts "-------------------------"
+    set iter [expr 0x0]
+    while { [expr $iter != 32] } {
+		puts "|word\[$iter\] \t| [format 0x%x $fuse_array($iter)]\t|"
+        puts "-------------------------"
+        set iter  [expr $iter + 1]
+	}
+
+	# now close the flasher
+	gap_fuse_terminate 0x1c000190
+	puts "fuse done"
+}
+
+
diff --git a/tools/gapy/runner/board/board_runner.py b/tools/gapy/runner/board/board_runner.py
index 1c7a65207..5ae853462 100644
--- a/tools/gapy/runner/board/board_runner.py
+++ b/tools/gapy/runner/board/board_runner.py
@@ -110,11 +110,16 @@ def exec(self):
 
             chip_family = self.config.get_str('**/chip_family')
 
-            platform = self.config.get_str('runner/platform')
-            if chip_family == 'vega' or chip_family == 'gap9_v2':
-                cmd = '%s -c "gdb_port disabled; telnet_port disabled; tcl_port disabled" -c "script %s; script %s; load_and_start_binary %s 0x%x"' % (openocd, cable, script, binary, entry)
+            if chip_family == 'vega':
+                cmd = 'plpbridge --chip=vega --verbose 10 --cable=ftdi --binary %s reset load ioloop reqloop start wait' % (binary)
+
+
             else:
-                cmd = "%s -c 'gdb_port disabled; telnet_port disabled; tcl_port disabled' -f %s -f %s -f tcl/jtag_boot.tcl -c 'gap8_jtag_load_binary_and_start \"%s\" elf'" % (openocd, cable, script, binary)
+                platform = self.config.get_str('runner/platform')
+                if chip_family == 'vega' or chip_family == 'gap9_v2':
+                    cmd = '%s -c "gdb_port disabled; telnet_port disabled; tcl_port disabled" -c "script %s; script %s; load_and_start_binary %s 0x%x"' % (openocd, cable, script, binary, entry)
+                else:
+                    cmd = "%s -c 'gdb_port disabled; telnet_port disabled; tcl_port disabled' -f %s -f %s -f tcl/jtag_boot.tcl -c 'gap8_jtag_load_binary_and_start \"%s\" elf'" % (openocd, cable, script, binary)
 
             os.chdir(self.config.get_str('gapy/work_dir'))
 
diff --git a/tools/nntool/.vscode/launch.json b/tools/nntool/.vscode/launch.json
index 5d5717b58..448d976fa 100644
--- a/tools/nntool/.vscode/launch.json
+++ b/tools/nntool/.vscode/launch.json
@@ -13,16 +13,6 @@
             ],
             "console": "integratedTerminal"
         },
-        {
-            "name": "Python: start nntool with vww quantized",
-            "type": "python",
-            "request": "launch",
-            "program": "${workspaceFolder}/nntool",
-            "args": [
-                "tests/graph/model_quantized.tflite"
-            ],
-            "console": "integratedTerminal"
-        },
         {
             "name": "Python: start nntool with sample",
             "type": "python",
@@ -34,16 +24,6 @@
             "cwd": "${workspaceFolder}/../nntool_examples/mnist",
             "console": "integratedTerminal"
         },
-        {
-            "name": "Python: start nntool with mobv1",
-            "type": "python",
-            "request": "launch",
-            "program": "${workspaceFolder}/nntool",
-            "args": [
-                "tests/graph/mobilenet_v1_1_0_224.tflite"
-            ],
-            "console": "integratedTerminal"
-        },
         {
             "name": "Python: start nntool with kws",
             "type": "python",
@@ -135,7 +115,19 @@
             "request": "launch",
             "program": "${workspaceFolder}/nntool",
             "args": [
-                "tests/graph/mobv1_quant.tflite"
+                "tests/graph/mobv1_quant.tflite",
+                "-q"
+            ],
+            "cwd": "${workspaceFolder}",
+            "console": "integratedTerminal"
+        },
+        {
+            "name": "Python: start nntool with mobilenet_v3 tflite (json)",
+            "type": "python",
+            "request": "launch",
+            "program": "${workspaceFolder}/nntool",
+            "args": [
+                "tests/graph/v3-large_224_1.0_float.json"
             ],
             "cwd": "${workspaceFolder}",
             "console": "integratedTerminal"
@@ -151,6 +143,18 @@
             "cwd": "${workspaceFolder}",
             "console": "integratedTerminal"
         },
+        {
+            "name": "Python: start nntool with vs mobilenet_v2 tflite",
+            "type": "python",
+            "request": "launch",
+            "program": "${workspaceFolder}/nntool",
+            "args": [
+                "tests/graph/vergesense_mnv2.tflite",
+                "-q"
+            ],
+            "cwd": "${workspaceFolder}",
+            "console": "integratedTerminal"
+        },
         {
             "name": "Python: start nntool with visual wake sample tflite",
             "type": "python",
@@ -227,11 +231,12 @@
             "console": "integratedTerminal"
         },
         {
-            "name": "Python: Current File (Integrated Terminal)",
+            "name": "Python: Current File in dir (Integrated Terminal)",
             "type": "python",
             "request": "launch",
             "program": "${file}",
-            "console": "integratedTerminal"
+            "console": "integratedTerminal",
+            "cwd": "${fileDirname}",
         }
     ]
 }
\ No newline at end of file
diff --git a/tools/nntool/Makefile b/tools/nntool/Makefile
index 71a8b4804..23cfbe7e6 100644
--- a/tools/nntool/Makefile
+++ b/tools/nntool/Makefile
@@ -6,7 +6,7 @@ PACKAGES=build/packages
 FLAT_SRC=$(PACKAGES)/flatbuffers
 FLAT_BUILD=$(FLAT_SRC)/build
 TFLITE_DIR=importer/tflite
-FLAT_TAG=3c964e10ab4f97e2a3602a8d0a8f4c402806ef89
+FLAT_TAG=de89bd193370c8b33686f1f33edd63593e48cd3f
 
 all: flatbuffers tflite req
 
diff --git a/tools/nntool/README.md b/tools/nntool/README.md
index 810919a43..045d45845 100644
--- a/tools/nntool/README.md
+++ b/tools/nntool/README.md
@@ -1,5 +1,18 @@
 # NNTOOL
 
+## Table of contents
+- [Overview](#overview)
+- [Installation](#installation)
+- [Model Conversion](#model-conversion)
+- [Quantization](#quantization)
+- [Nntool Execution](#nntool-execution)
+- [Model Save](#model-save)
+- [Autotiler Model Generation](#autotiler-model-generation)
+- [Image Formatter](#image-formatter)
+- [Input Options](#input-options)
+
+## Overview
+
 NNTOOL helps to port NN graphs from various NN training packages to GAP8. It helps with:
 
 - Post training graph quantization
@@ -22,6 +35,8 @@ The tool has a command interpreter mode where it provides an interface to:
 The tool also has a command line mode which takes a saved state file and directly genenerates the model and
 saves a parameters file; the two elements necessary for a GAP project build.
 
+## Installation
+
 To set up the tool install the packages in the requirements file
 
 	python -m pip install -r requirements.txt
@@ -40,55 +55,61 @@ When everything is installed, the nntool command line can be accessed with:
 
 These steps will automatically be executed by the GAP SDK setup procedure
 
-## Visual-Wake-Words Example
-
-To show the **nntool** usage, we provide this detailed example of the 2019 Visual Wakeup Words Challenge Winner model porting on GAP8. 
 
-### Model Loading
+## Model Conversion
 
-The nntool takes as input network a non-quantized .tflite model. After downloading the model from the github repository (https://github.com/mit-han-lab/VWW) we can open the model into the nntool:
+The nntool takes as input network a float or quantized .tflite model. You can find bunch of trained tflite models online in both integer-only and floating-point version online ([TF hosted models](https://www.tensorflow.org/lite/guide/hosted_models)). To start nntool and open the target model:
 	
 	nntool
-	open /path/to/model.tflite
+	open /path/to/model.tflite [-q]
 
-TFLite format uses HxWxC activations and C<sub>out</sub>xHxWxC<sub>in</sub> weights while Autotiler uses CxHxW activations and C<sub>out</sub>xC<sub>in</sub>xHxW weights. Moreover to increase the efficiency of the kernels, the Autotiler uses fused layers (e.g. ConvReLUPool). To generate the compatible AT model, the nntool has to apply graph transformations and match the Autotiler features:
+The -q is required if the target model has already been quantized in the tflite conversion process (i.e. inference_type=QUANTIZED_UINT8).
+
+TFLite execution kernels use HxWxC order for the activations and C<sub>out</sub>xHxWxC<sub>in</sub> order for filters. On the other hand, the Autotiler, and therefore GAP execution kernels, use CxHxW activations and C<sub>out</sub>xC<sub>in</sub>xHxW filters. Moreover to increase the efficiency of the kernels, the Autotiler uses fused layers (e.g. Convolution followed by a pooling and a ReLU can be performed by a single AT layer: ConvPoolRelu). For these reasons, to generate the compatible AT model, the nntool has to apply graph transformations and match the Autotiler features:
 
 	adjust
-	fusions
+	fusions [--scale8 | --pow2]
+
+IMPORTANT: the _fusions_ type (scale8 vs pow2) must match the quantization scheme which will be performed (see next session).
 
 To see the current nntool model topology use:
 
 	show
 
-### Quantization
+## Quantization
 
-Now we quantize the model to either 8 or 16 bit. The aquant command quantizes the original floating point model to a fixed point one. For the constant parameters, i.e. weights and biases, the number of integer and decimal bits is computed from their actual values distributions. On the other hand, non-constant values, i.e. activations, need a representative dataset to collect their distributions. Whenever you feed the nntool model with some inputs data you can do manipulation on them:
+To run on GAP platforms the model must be quantized with one of the Autotiler supported scheme:
+- 8-bits quantization: similar to [tensorflow lite quantization](https://www.tensorflow.org/lite/performance/quantization_spec) but targets symmetric computational kernels (Autotiler). This scheme is automatically applied if the input tflite graph is already quantized: the quantization specs are simply translated to match the symmetric kernels.
+- 16-bits quantization: this scheme targets a PowerOf2 quantization, i.e. each tensor is interpreted as a signed 16bits Qm.n fixed-point vector with m integer bits and n decimal bits. This approach can lead to better accuracy results but is paid with 2x memory footprint and almost 2x latency increase.
 
-	aquant -f <NUM_BITS> /path/to/images/direcotry/* [input-options: -T, -D, -O, ...]
-	***IMPORTANT*** If the adjust command has been used and the input has more than one channel, the -T flag is necessary to match the new activations order 
+NOTE: the _fusions_ command above must meet the quantization scheme that you want to apply (--scale8 in case of 8-bits quantization and --pow2 in case of 16-bits quantization). If you want to change the scheme for any reason, you will need to reopen the original graph and perform the _fusions_ step again.
+NOTE2: the 16-bits quantization scheme is supported only if the input graph is not already quantized.
 
+If the imported tflite graph targets a floating point execution, nntool can perform the post-training quantization step providing the network a set of calibration data on which it can collect the min/max ranges statistic for the activations:
 
-We can evaluate the signal to noise ratio (QSNR) after the quantization step by processing one or more input data:
+	aquant -f [8 | 16] /path/to/images/direcotry/* [input-options: -T, -D, -O, ...]
+	***IMPORTANT*** If the adjust command has been used and the input has more than one channel, the -T (transpose) flag is necessary to match the new activations order (input image with HxWxC to CxHxW)
 
-	qerror /path/to/the/image.ppm [input-options: -T, -D, -O, -W, -H, ...] [-s]
+nntool can execute the graph in both floating point and quantized precision, hence we can evaluate the signal to noise ratio (QSNR) after the quantization is set one or more input data by comparing the two results:
 
-It computes the model in the original FP32 version and then in the quantized version and compare the outputs of each layer. With the -s flag the comparison is done individually for each layer. Their output is evaluated from the FP32 input quantized instead of the output result of the quantized computation.
+	qerror /path/to/the/image.ppm [input-options: -T, -D, -O, -W, -H, ...] [-s]
 
-If for some layer a very low QSNR is reported, the user can change the bit precision with the qtune command.
+With the -s flag the comparison is done individually for each layer: their output is evaluated from the FP32 input quantized instead of the output result of the quantized computation.
 
-#### Quantization Inspection 
+## Nntool Execution 
 
-The nntool provides utilities to inspect the quantization performance in details for specific tensors by comparing them side by side, for a given sample data like below:
+The nntool provides utilities to inspect the output activation tensors which come from a specific input execution in details:
 
 	dump ./image.ppm -S tensors_1
 	dump ./image.ppm -S tensors_2 -q -d
 
 	Usage:
 	-S: store the tensors in the workspace with the given name
-	-q: compute the inference with the quantized graph
-	-d: export the dequantized version of the tensors to have the same format of the one computed with the FP32 graph
+	[-q]: compute the inference with the quantized graph (if not specified the network is run in floating point)
+	[-d]: beside -q export the dequantized version of the tensors to have the same format of the one computed with the FP32 graph
+	[-P file.npy]: save the list of activations tensors in a file
 
-To compare them:
+To compare them side by side or with QSNR (in this case tensors_1 come from the float execution while tensors_2 from the quantized one with dequantized (real numbers) values instead of the integer ones):
 	
 	tensors -t tensors_1 tensors_2 -s 2 -c 0 [-Q]
 
@@ -98,7 +119,7 @@ To compare them:
 	-c: layer channel
 	[-Q]: if present outputs the QSNR between the tensors, otherwise the tensors elements are displayed side by side
 
-### Saving the model
+## Model Save
 
 To save the nntool graph with all the quantization information and constant parameters tensors in the .json format:
 
@@ -108,14 +129,31 @@ To load back the saved model:
 
 	open /path/to/nntool_model_state.json 
 
-### Autotiler Model Generation
+## Autotiler Model Generation
 
 At this point the nntool graph is ready to be translated in an Autotiler Model format:
 	
 	nntool -g path/to/nntool_model_state.json -M /path/to/model/dir -m Autotiler_model_file.c -T path/to/tensors/dir 
 
+## Image Formatter
+
+To handle different type of input images format you can add to your graph an input formatter which will generate the Autotiler optimized code for the proper conversion. It supports:
+- rgb565 HxWxC input to rgb888 CxHxW (rgb565)
+- rgb888 HxWxC input to rgb888 CxHxW (rgb888)
+- grayscale8 input to grayscale8 (bw8)
+- grayscale8 input to grayscale16 (bw16)
+
+It also handle the conversion between uint8 [0:255] values to int8 [-128:127] supported in the AT convolutional kernels. You will need to speify the desired technique:
+- shift_int8: will apply elemnt-wise a right shift of 1 bit (>> 1) so that the values do not overflow the max int8 [0:128] (more efficient)
+- offset_int8: will apply element-wise a -128 addition to output [-128:127] values ready for AT Convolutional kernels (more accurate)
+- for 16 bits graphs only: out_int16: takes the uint8 input and converts to int16 output by applying a left shift of 7 bits (<< 7)
+
+The command to run to introduce the formatter into your graph is:
+	imageformat input_x [bw8 | bw16 | rgb888 | rgb565] [shift_int8 | offset_int8]
+
+NOTE: in case of multichannel input the image formmatter will automatically handle also the automatic transposition when you run the network in nntool (i.e. the -T option is no more needed)
 
-## Input Images Options
+## Input Options
 
 Whenever one or several images are given to the nntool (i.e. with commands like dump, aquant, qerror, ...) there are options you can set to perform preprocessing on them:
 
@@ -136,4 +174,4 @@ Another option is to set some of this parameters by default using the set comman
 	set input_offset
 	set input_norm_func [lambda function]: is equivalent to set each time an image is provide -N [lambda function]
 
-NOTE: if an input_norm_func is set the other operational settings (input_divisor or input_offset) will be ignored
+NOTE: if an input_norm_func is set the other operational settings (input_divisor or input_offset) will be ignored
\ No newline at end of file
diff --git a/tools/nntool/_version.py b/tools/nntool/_version.py
index a5d9167eb..42e4cc452 100644
--- a/tools/nntool/_version.py
+++ b/tools/nntool/_version.py
@@ -13,4 +13,4 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program.  If not, see <https://www.gnu.org/licenses/>.
 
-__version__ = '3.0'
+__version__ = '4.0'
diff --git a/tools/nntool/autotiler/generators/nntool_extra_generators.c b/tools/nntool/autotiler/generators/nntool_extra_generators.c
new file mode 100644
index 000000000..58163003f
--- /dev/null
+++ b/tools/nntool/autotiler/generators/nntool_extra_generators.c
@@ -0,0 +1,280 @@
+#include <stdint.h>
+#include <stdio.h>
+#include "AutoTilerLib.h"
+#include "nntool_extra_generators.h"
+#include "Gap.h"
+
+#define D0	KER_ITER_D0
+#define D1	KER_ITER_D1
+#define D2	KER_ITER_D2
+#define D3	KER_ITER_D3
+#define T0	KER_ITER_TILE0
+#define T1	KER_ITER_TILE1
+#define T2	KER_ITER_TILE2
+
+void LoadNNTools_Extra_Library()
+
+{
+	LibKernel("CNN_NormRGB565_offset_fps", CALL_PARALLEL,
+			CArgs(6,
+				TCArg("unsigned short *__restrict__", "In"),
+				TCArg("signed char *__restrict__", "Out0"),
+				TCArg("signed char *__restrict__", "Out1"),
+				TCArg("signed char *__restrict__", "Out2"),
+				TCArg("unsigned short int", "W"),
+				TCArg("unsigned short int", "H")
+			     ),
+			"KerNormRGB565_fps_T", NULL
+		 );
+
+	LibKernel("CNN_NormRGB565_shift_fps", CALL_PARALLEL,
+			CArgs(6,
+				TCArg("unsigned short *__restrict__", "In"),
+				TCArg("signed char *__restrict__", "Out0"),
+				TCArg("signed char *__restrict__", "Out1"),
+				TCArg("signed char *__restrict__", "Out2"),
+				TCArg("unsigned short int", "W"),
+				TCArg("unsigned short int", "H")
+			     ),
+			"KerNormRGB565_fps_T", NULL
+		 );
+
+	LibKernel("CNN_NormRGB888_offset_fps", CALL_PARALLEL,
+			CArgs(6,
+				TCArg("unsigned char *__restrict__", "In"),
+				TCArg("signed char *__restrict__", "Out0"),
+				TCArg("signed char *__restrict__", "Out1"),
+				TCArg("signed char *__restrict__", "Out2"),
+				TCArg("unsigned short int", "W"),
+				TCArg("unsigned short int", "H")
+			     ),
+			"KerNormRGB888_fps_T", NULL
+		 );
+
+	LibKernel("CNN_NormRGB888_shift_fps", CALL_PARALLEL,
+			CArgs(6,
+				TCArg("unsigned char *__restrict__", "In"),
+				TCArg("signed char *__restrict__", "Out0"),
+				TCArg("signed char *__restrict__", "Out1"),
+				TCArg("signed char *__restrict__", "Out2"),
+				TCArg("unsigned short int", "W"),
+				TCArg("unsigned short int", "H")
+			     ),
+			"KerNormRGB888_fps_T", NULL
+		 );
+	
+	LibKernel("CNN_NormRGB16_fp", CALL_PARALLEL,
+			CArgs(6,
+				TCArg("unsigned char *__restrict__", "In"),
+				TCArg("signed short int *__restrict__", "Out0"),
+				TCArg("signed short int *__restrict__", "Out1"),
+				TCArg("signed short int *__restrict__", "Out2"),
+				TCArg("unsigned short int", "W"),
+				TCArg("unsigned short int", "H")
+			     ),
+			"KerNormRGB16_fp_T", NULL
+		 );
+
+	LibKernel("CNN_NormBW_offset_fps", CALL_PARALLEL,
+			CArgs(4,
+				TCArg("unsigned char *__restrict__", "In"),
+				TCArg("signed char *__restrict__", "Out"),
+				TCArg("unsigned short int", "W"),
+				TCArg("unsigned short int", "H")
+			     ),
+			"KerNormBW_fps_T", NULL
+		 );
+
+	LibKernel("CNN_NormBW_shift_fps", CALL_PARALLEL,
+			CArgs(4,
+				TCArg("unsigned char *__restrict__", "In"),
+				TCArg("signed char *__restrict__", "Out"),
+				TCArg("unsigned short int", "W"),
+				TCArg("unsigned short int", "H")
+			     ),
+			"KerNormBW_fps_T", NULL
+		 );
+
+	LibKernel("CNN_NormBW_fp", CALL_PARALLEL,
+			CArgs(4,
+				TCArg("unsigned char *__restrict__", "In"),
+				TCArg("signed short int *__restrict__", "Out"),
+				TCArg("unsigned short int", "W"),
+				TCArg("unsigned short int", "H")
+			     ),
+			"KerNormBW_fp_T", NULL
+		 );
+}
+
+/*********************************************************************************************************************************************************************
+  Generator for RGB565 image preprocessing:
+
+Template:
+Name:		Name of the generated user kernel
+
+Width		Image width
+Height		Image height
+
+DoOffset    If true offset pixel by -128
+
+Signature:	Name(In, Out)
+
+CNN_NormRGB565
+
+ *********************************************************************************************************************************************************************/
+
+int CNN_NormRGB(
+		char *Name,
+		int Width,
+		int Height,
+		int DoOffset,
+		nntool_kop_t kop
+	       )
+
+{
+	int Log = 1;
+	char *BodyName = AppendNames(Name, "Body");
+	unsigned long long int LayerOp = (Width*Height*4) + (Width*Height*(DoOffset?2:1))/4;
+	unsigned long long int LayerBandwidth = 0;
+
+	char *NormRGBKerName = (kop==NNTOOL_KOP_RGB16?"CNN_NormRGB16_fp":(kop==NNTOOL_KOP_RGB565?(DoOffset?"CNN_NormRGB565_offset_fps":"CNN_NormRGB565_shift_fps"):(DoOffset?"CNN_NormRGB888_offset_fps":"CNN_NormRGB888_shift_fps")));
+
+	LayerBandwidth += 2*Width*Height*1;
+	LayerBandwidth += 3*Width*Height*1;
+
+	if (Log) {
+		printf("CNN_NormRGB%d: %s\n", (kop==NNTOOL_KOP_RGB16?16:(kop==NNTOOL_KOP_RGB565?565:888)), Name);
+		printf("In  => Feat: %d W: %4d, H: %4d\n", (kop==NNTOOL_KOP_RGB565?1:3), Width, Height);
+		printf("Out => Feat: 3, W: %4d, H: %4d\n", Width, Height);
+		if (NormRGBKerName) printf("%20s: %s\n", "KerName", NormRGBKerName);
+		printf("Nb Oper : %lld\n", LayerOp);
+	}
+
+	Object_T **PKerArgs = AllocateKerArgs(4);
+	PKerArgs[0] = KerArg("In",   KerArgSpace(1,T0), O_IN|O_DB,  Width*(kop==NNTOOL_KOP_RGB565?1:3), Height, (kop==NNTOOL_KOP_RGB565?2:1),  0, 0, 0, "In");
+	PKerArgs[1] = KerArg("Out0", KerArgSpace(1,T0), O_OUT|O_DB, Width, Height, (kop==NNTOOL_KOP_RGB16?2:1),  0, 0, 0, "Out0");
+	PKerArgs[2] = KerArg("Out1", KerArgSpace(1,T0), O_OUT|O_DB, Width, Height, (kop==NNTOOL_KOP_RGB16?2:1),  0, 0, 0, "Out1");
+	PKerArgs[3] = KerArg("Out2", KerArgSpace(1,T0), O_OUT|O_DB, Width, Height, (kop==NNTOOL_KOP_RGB16?2:1),  0, 0, 0, "Out2");
+	OpenKernelGroup(Name);
+	UserKernel(BodyName,
+			KernelIterSpace(1, IterTiledSpace(T0)),
+			TILE_HOR,
+			CArgs(4, TCArg(CNN_ArgDataTypeUns((kop==NNTOOL_KOP_RGB565?2:1),1,1),  "In"),
+					 TCArg(CNN_ArgDataType((kop==NNTOOL_KOP_RGB16?2:1),1,1), "Out0"),
+					 TCArg(CNN_ArgDataType((kop==NNTOOL_KOP_RGB16?2:1),1,1), "Out1"),
+					 TCArg(CNN_ArgDataType((kop==NNTOOL_KOP_RGB16?2:1),1,1), "Out2")
+				 ),
+			Calls(1,
+				Call(NormRGBKerName, LOC_LOOP,
+					Bindings(6,
+						K_Arg("In", KER_ARG_TILE),	/* Input tile */
+						K_Arg("Out0", KER_ARG_TILE),	/* Output tile */
+						K_Arg("Out1", KER_ARG_TILE),	/* Output tile */
+						K_Arg("Out2", KER_ARG_TILE),	/* Output tile */
+						K_Arg((kop==NNTOOL_KOP_RGB565?"In":"Out0"), KER_ARG_TILE_W),	/* tile width */
+						K_Arg((kop==NNTOOL_KOP_RGB565?"In":"Out0"), KER_ARG_TILE_H)	/* tile height */
+						)
+				    )
+			     ),
+			PKerArgs
+		  );
+	AddKernelInfos(BodyName, AT_KERINFO_OPER, LayerOp, 0);
+	AddKernelInfos(BodyName, AT_KERINFO_BANDWIDTH, LayerBandwidth, 0);
+	AddKernelArgDim(BodyName, "In",   4, (kop==NNTOOL_KOP_RGB565?1:3), Height, Width, (kop==NNTOOL_KOP_RGB565?2:1));
+	AddKernelArgDim(BodyName, "Out0", 4, 1, Height, Width, (kop==NNTOOL_KOP_RGB16?2:1));
+	AddKernelArgDim(BodyName, "Out1", 4, 1, Height, Width, (kop==NNTOOL_KOP_RGB16?2:1));
+	AddKernelArgDim(BodyName, "Out2", 4, 1, Height, Width, (kop==NNTOOL_KOP_RGB16?2:1));
+	CloseKernelGroup();
+	CKernel_Arg_T **KCArgs = AllocateCArgs(2);
+	int Ca=0;
+	KCArgs[Ca++] = TCArg(CNN_ArgDataTypeUns((kop==NNTOOL_KOP_RGB565?2:1),1,1),   "In");
+	KCArgs[Ca++] = TCArg(CNN_ArgDataType(   (kop==NNTOOL_KOP_RGB16?2:1), 1,1),  "Out");
+	Object_T **KArgs = AllocateKerArgs(7);
+	int Ka=0;
+	KArgs[Ka++] = KerGroupArg("In",     O_IN,  Width*Height*(kop==NNTOOL_KOP_RGB565?1:3), (kop==NNTOOL_KOP_RGB565?2:1), "In");
+	KArgs[Ka++] = KerGroupArg("Out",    O_OUT, Width*Height*3,                            (kop==NNTOOL_KOP_RGB16?2:1), "Out");
+	UserKernelGroup(Name,
+			KCArgs,
+			Calls(1,
+				UserKernelCall(BodyName, LOC_GROUP,
+					Bindings(4,
+						C_Arg("In"),
+						C_ArgPlusImmOffset("Out", 0),
+						C_ArgPlusImmOffset("Out", Height * Width),
+						C_ArgPlusImmOffset("Out", Height * Width * 2)
+
+						)
+					)
+			     )
+		       );
+	return 0;
+
+}
+
+int CNN_NormBW(
+		char *Name,
+		int Width,
+		int Height,
+		int DoOffset,
+		nntool_kop_t kop
+       )
+{
+	int Log = 1;
+	unsigned long long int LayerOp = Width*Height;
+	unsigned long long int LayerBandwidth = 0;
+	char *NormBWKerName = (kop==NNTOOL_KOP_BW16?"CNN_NormBW_fp":(DoOffset?"CNN_NormBW_offset_fps":"CNN_NormBW_shift_fps"));
+
+	LayerBandwidth += Width*Height*1;
+	LayerBandwidth += Width*Height*1;
+
+	if (Log) {
+		printf("CNN_NormBW: %s\n", Name);
+		printf("In  => Feat: 1 W: %4d, H: %4d\n", Width, Height);
+		printf("Out => Feat: 1, W: %4d, H: %4d\n", Width, Height);
+		if (NormBWKerName) printf("%20s: %s\n", "KerName", NormBWKerName);
+		printf("Nb Oper : %lld\n", LayerOp);
+	}
+
+	Object_T **PKerArgs = AllocateKerArgs(2);
+	PKerArgs[0] = KerArg("In",   KerArgSpace(1,T0), O_IN|O_DB,  Width, Height, 1,  0, 0, 0, "In");
+	PKerArgs[1] = KerArg("Out",  KerArgSpace(1,T0), O_OUT|O_DB, Width, Height, (kop==NNTOOL_KOP_BW16?2:1),  0, 0, 0, "Out");
+        UserKernel(Name,
+                        KernelIterSpace(1, IterTiledSpace(T0)),
+                        TILE_HOR,
+                        CArgs(2, TCArg(CNN_ArgDataTypeUns(1,1,1),  "In"), TCArg(CNN_ArgDataType((kop==NNTOOL_KOP_BW16?2:1),1,1), "Out")),
+                        Calls(1,
+                                Call(NormBWKerName, LOC_LOOP,
+                                        Bindings(4,
+                                                K_Arg("In", KER_ARG_TILE),      /* Input tile */
+                                                K_Arg("Out", KER_ARG_TILE),    /* Output tile */
+                                                K_Arg("In", KER_ARG_TILE_W),    /* Input tile width */
+                                                K_Arg("In", KER_ARG_TILE_H)     /* Input tile width */
+                                                )
+                                    )
+                             ),
+                        PKerArgs
+                  );
+        AddKernelInfos(Name, AT_KERINFO_OPER, LayerOp, 0);
+        AddKernelInfos(Name, AT_KERINFO_BANDWIDTH, LayerBandwidth, 0);
+        AddKernelArgDim(Name, "In", 4, 1, Height, Width, 1);
+        AddKernelArgDim(Name, "Out", 4, 1, Height, Width, 1);
+	return 0;
+}
+
+int CNN_Norm(
+		char *Name,
+		int Width,
+		int Height,
+		int DoOffset,
+		nntool_kop_t kop
+       )
+{
+	if (kop == NNTOOL_KOP_BW || kop == NNTOOL_KOP_BW16) {
+		return CNN_NormBW(Name, Width, Height, DoOffset, kop);
+	} else {
+		return CNN_NormRGB(Name, Width, Height, DoOffset, kop);
+	}
+}
+
+
+
diff --git a/tools/nntool/autotiler/generators/nntool_extra_generators.h b/tools/nntool/autotiler/generators/nntool_extra_generators.h
new file mode 100644
index 000000000..3f6a05796
--- /dev/null
+++ b/tools/nntool/autotiler/generators/nntool_extra_generators.h
@@ -0,0 +1,24 @@
+#ifndef __NNTOOL_EXTRA_GENERATORS__
+#define __NNTOOL_EXTRA_GENERATORS__
+#include <stdint.h>
+#include "AutoTilerLib.h"
+
+typedef enum {
+	NNTOOL_KOP_RGB565,
+	NNTOOL_KOP_RGB888,
+	NNTOOL_KOP_RGB16,
+	NNTOOL_KOP_BW,
+	NNTOOL_KOP_BW16
+} nntool_kop_t;
+
+void LoadNNTools_Extra_Library();
+int CNN_Norm(
+	char *Name,
+
+	int Width,
+	int Height,
+	int DoOffset,
+	nntool_kop_t kop
+);
+
+#endif
diff --git a/tools/nntool/autotiler/kernels/nntool_extra_kernels.h b/tools/nntool/autotiler/kernels/nntool_extra_kernels.h
new file mode 100644
index 000000000..085360d9b
--- /dev/null
+++ b/tools/nntool/autotiler/kernels/nntool_extra_kernels.h
@@ -0,0 +1,74 @@
+#ifndef __NNTOOL_EXTRA_KERNELS__
+#define __NNTOOL_EXTRA_KERNELS__
+#include "Gap.h"
+
+#ifdef __pulp__
+#ifndef Min
+#define Min(a, b)       __builtin_pulp_minsi((a), (b))
+#endif
+#ifndef Max
+#define Max(a, b)       __builtin_pulp_maxsi((a), (b))
+#endif
+#else
+#define Min(a, b)       (((a)<(b))?(a):(b))
+#define Max(a, b)       (((a)>(b))?(a):(b))
+#endif
+
+#ifdef GENASM
+#ifdef __EMUL__
+#define gap_ncore()     8
+#define gap_coreid()    __builtin_pulp_CoreId()
+#endif
+#endif
+
+typedef struct {
+	unsigned short *__restrict__ In;           /**< Input matrix */
+	signed char *__restrict__ Out0;          /**< Output matrix */
+	signed char *__restrict__ Out1;          /**< Output matrix */
+	signed char *__restrict__ Out2;          /**< Output matrix */
+	unsigned int W;                         /**< Matrix width */
+	unsigned int H;                         /**< Matrix height */
+} KerNormRGB565_fps_T;
+
+typedef struct {
+	unsigned char *__restrict__ In;           /**< Input matrix */
+	signed char *__restrict__ Out0;          /**< Output matrix */
+	signed char *__restrict__ Out1;          /**< Output matrix */
+	signed char *__restrict__ Out2;          /**< Output matrix */
+	unsigned int W;                         /**< Matrix width */
+	unsigned int H;                         /**< Matrix height */
+} KerNormRGB888_fps_T;
+
+typedef struct {
+	unsigned char *__restrict__ In;         /**< Input matrix */
+	signed short int *__restrict__ Out0;    /**< Output matrix */
+	signed short int *__restrict__ Out1;    /**< Output matrix */
+	signed short int *__restrict__ Out2;    /**< Output matrix */
+	unsigned int W;                         /**< Matrix width */
+	unsigned int H;                         /**< Matrix height */
+} KerNormRGB16_fp_T;
+
+typedef struct {
+	unsigned char *__restrict__ In;           /**< Input matrix */
+	signed char *__restrict__ Out;          /**< Output matrix */
+	unsigned int W;                         /**< Matrix width */
+	unsigned int H;                         /**< Matrix height */
+} KerNormBW_fps_T;
+
+typedef struct {
+	unsigned char *__restrict__ In;         /**< Input matrix */
+	signed short int *__restrict__ Out;     /**< Output matrix */
+	unsigned int W;                         /**< Matrix width */
+	unsigned int H;                         /**< Matrix height */
+} KerNormBW_fp_T;
+
+void CNN_NormRGB565_offset_fps(KerNormRGB565_fps_T *Arg);
+void CNN_NormRGB565_shift_fps(KerNormRGB565_fps_T *Arg);
+void CNN_NormRGB888_offset_fps(KerNormRGB888_fps_T *Arg);
+void CNN_NormRGB888_shift_fps(KerNormRGB888_fps_T *Arg);
+void CNN_NormRGB16_fp(KerNormRGB16_fp_T *Arg);
+void CNN_NormBW_offset_fps(KerNormBW_fps_T *Arg);
+void CNN_NormBW_shift_fps(KerNormBW_fps_T *Arg);
+void CNN_NormBW_fp(KerNormBW_fp_T *Arg);
+
+#endif
diff --git a/tools/nntool/autotiler/kernels/norm_transpose.c b/tools/nntool/autotiler/kernels/norm_transpose.c
new file mode 100644
index 000000000..e2b1488e2
--- /dev/null
+++ b/tools/nntool/autotiler/kernels/norm_transpose.c
@@ -0,0 +1,204 @@
+#include "nntool_extra_kernels.h"
+
+static int CoreCountDynamic = 1;
+static int ActiveCore = gap_ncore();
+
+static inline unsigned int __attribute__((always_inline)) ChunkSize(unsigned int X)
+
+{
+	unsigned int NCore;
+	unsigned int Log2Core;
+	unsigned int Chunk;
+
+	if (CoreCountDynamic) NCore = ActiveCore; else NCore = gap_ncore();
+	Log2Core = gap_fl1(NCore);
+	Chunk = (X>>Log2Core) + ((X&(NCore-1))!=0);
+	return Chunk;
+}
+
+void CNN_NormRGB565_offset_fps(KerNormRGB565_fps_T *Arg)
+
+{
+	unsigned short *__restrict__ In = Arg->In;
+	signed char *__restrict__ Out0 = Arg->Out0;
+	signed char *__restrict__ Out1 = Arg->Out1;
+	signed char *__restrict__ Out2 = Arg->Out2;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H), First = Chunk*CoreId, Last = Min(First+Chunk, H);
+	for (int h=First; h<Last; h++) {
+		for (int w=0; w<((W/4)*4); w+=4) {
+			int idx = h*W + w;
+			int A0 = In[idx], A1 = In[idx+1], A2 = In[idx+2], A3 = In[idx+3];
+			v4s *V0 = (v4s *) &Out0[idx], *V1 = (v4s *) &Out1[idx], *V2 = (v4s *) &Out2[idx];
+			*V0 = (v4s) gap_pack4(gap_bitextractu(A0, 5, 11), gap_bitextractu(A1, 5, 11), gap_bitextractu(A2, 5, 11), gap_bitextractu(A3, 5, 11));
+			*V1 = (v4s) gap_pack4(gap_bitextractu(A0, 6, 5), gap_bitextractu(A1, 6, 5), gap_bitextractu(A2, 6, 5), gap_bitextractu(A3, 6, 5));
+			*V2 = (v4s) gap_pack4(gap_bitextractu(A0, 5, 0), gap_bitextractu(A1, 5, 0), gap_bitextractu(A2, 5, 0), gap_bitextractu(A3, 5, 0));
+			*V0 -= 16; *V1 -= 32; *V2 -= 16;
+			*V0 = *V0 << 3; *V1 = *V1 << 2; *V2 = *V2 << 3;
+		}
+		int Left = W&0x3;
+		for (int i=W-Left; i<W; i++) {
+			int V = In[h*W + i];
+			Out0[h*W + i] = (((int)gap_bitextractu(V, 5, 11)) - 16) << 3;
+			Out1[h*W + i] = (((int)gap_bitextractu(V, 6, 5)) - 32) << 2;
+			Out2[h*W + i] = (((int)gap_bitextractu(V, 5, 0)) - 16) << 3;
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+void CNN_NormRGB565_shift_fps(KerNormRGB565_fps_T *Arg)
+
+{
+	unsigned short *__restrict__ In = Arg->In;
+	signed char *__restrict__ Out0 = Arg->Out0;
+	signed char *__restrict__ Out1 = Arg->Out1;
+	signed char *__restrict__ Out2 = Arg->Out2;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(H), First = Chunk*CoreId, Last = Min(First+Chunk, H);
+
+	for (int h=First; h<Last; h++) {
+		for (int w=0; w<((W/4)*4); w+=4) {
+			int idx = h*W + w;
+			int A0 = In[idx], A1 = In[idx+1], A2 = In[idx+2], A3 = In[idx+3];
+			v4s *V0 = (v4s *) &Out0[idx], *V1 = (v4s *) &Out1[idx], *V2 = (v4s *) &Out2[idx];
+			*V0 = (v4s) gap_pack4(gap_bitextractu(A0, 5, 11), gap_bitextractu(A1, 5, 11), gap_bitextractu(A2, 5, 11), gap_bitextractu(A3, 5, 11));
+			*V1 = (v4s) gap_pack4(gap_bitextractu(A0, 6, 5), gap_bitextractu(A1, 6, 5), gap_bitextractu(A2, 6, 5), gap_bitextractu(A3, 6, 5));
+			*V2 = (v4s) gap_pack4(gap_bitextractu(A0, 5, 0), gap_bitextractu(A1, 5, 0), gap_bitextractu(A2, 5, 0), gap_bitextractu(A3, 5, 0));
+			*V0 = *V0 << 2; *V1 = *V1 << 1; *V2 = *V2 << 2;
+		}
+		int Left = W&0x3;
+		for (int i=W-Left; i<W; i++) {
+			int V = In[h*W + i];
+			Out0[h*W + i] = gap_bitextractu(V, 5, 11) << 2;
+			Out1[h*W + i] = gap_bitextractu(V, 6, 5) << 1;
+			Out2[h*W + i] = gap_bitextractu(V, 5, 0) << 2;
+		}
+	}
+	gap_waitbarrier(0);
+}
+
+void CNN_NormRGB888_shift_fps(KerNormRGB888_fps_T *Arg)
+{
+	unsigned char *__restrict__ In = Arg->In;
+	signed char *__restrict__ Out0 = Arg->Out0;
+	signed char *__restrict__ Out1 = Arg->Out1;
+	signed char *__restrict__ Out2 = Arg->Out2;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int Sz = W * H;
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Sz), First = Chunk*CoreId, Last = Min(First+Chunk, Sz);
+
+	unsigned int Diff = Last-First;
+	for (int OutIdx=First; OutIdx<(First+((Diff*4)/4)); OutIdx+=4) {
+		int InIdx0 = OutIdx * 3, InIdx1 = InIdx0 + 6;
+		*((v4u *)&Out0[OutIdx]) = __builtin_shuffle(*((v4u *) &In[InIdx0++]), *((v4u *) &In[InIdx1++]), (v4u) {0, 3, 4, 7}) >> 1;
+		*((v4u *)&Out1[OutIdx]) = __builtin_shuffle(*((v4u *) &In[InIdx0++]), *((v4u *) &In[InIdx1++]), (v4u) {0, 3, 4, 7}) >> 1;
+		*((v4u *)&Out2[OutIdx]) = __builtin_shuffle(*((v4u *) &In[InIdx0++]), *((v4u *) &In[InIdx1++]), (v4u) {0, 3, 4, 7}) >> 1;
+	}
+	int Left = Diff&0x3;
+	for (int i=Last-Left, InIdx=i*3; i<Last; i++) {
+		Out0[i] = In[InIdx++] >> 1;
+		Out1[i] = In[InIdx++] >> 1;
+		Out2[i] = In[InIdx++] >> 1;
+	}
+	gap_waitbarrier(0);
+}
+
+void CNN_NormRGB888_offset_fps(KerNormRGB888_fps_T *Arg)
+{
+	unsigned char *__restrict__ In = Arg->In;
+	signed char *__restrict__ Out0 = Arg->Out0;
+	signed char *__restrict__ Out1 = Arg->Out1;
+	signed char *__restrict__ Out2 = Arg->Out2;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int Sz = W * H;
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Sz), First = Chunk*CoreId, Last = Min(First+Chunk, Sz);
+
+	unsigned int InIdx = First * 3;
+	for (int OutIdx=First; OutIdx<Last; OutIdx++) {
+		Out0[OutIdx] = In[InIdx++] - 128;
+		Out1[OutIdx] = In[InIdx++] - 128;
+		Out2[OutIdx] = In[InIdx++] - 128;
+	}
+	gap_waitbarrier(0);
+}
+
+void CNN_NormRGB16_fp(KerNormRGB16_fp_T *Arg)
+{
+	unsigned char *__restrict__ In = Arg->In;
+	signed short int *__restrict__ Out0 = Arg->Out0;
+	signed short int *__restrict__ Out1 = Arg->Out1;
+	signed short int *__restrict__ Out2 = Arg->Out2;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int Sz = W * H;
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Sz), First = Chunk*CoreId, Last = Min(First+Chunk, Sz);
+
+	unsigned int InIdx = First * 3;
+	for (int OutIdx=First; OutIdx<Last; OutIdx++) {
+		Out0[OutIdx] = In[InIdx++] << 7;
+		Out1[OutIdx] = In[InIdx++] << 7;
+		Out2[OutIdx] = In[InIdx++] << 7;
+	}
+	gap_waitbarrier(0);
+}
+
+void CNN_NormBW_shift_fps(KerNormBW_fps_T *Arg)
+{
+	unsigned char *__restrict__ In = Arg->In;
+	signed char *__restrict__ Out = Arg->Out;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int Sz = W * H;
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Sz), First = Chunk*CoreId, Last = Min(First+Chunk, Sz);
+
+	unsigned int Diff = Last-First;
+	for (int Idx=First; Idx<First+(Diff*4)/4; Idx+=4) {
+		*((v4u *) &Out[Idx]) = *((v4u *)&In[Idx]) >> 1;
+	}
+	int Left = Diff&0x3;
+	for (int i=Last-Left; i<Last; i++) {
+		Out[i]  = In[i] >> 1;
+	}
+	gap_waitbarrier(0);
+}
+
+void CNN_NormBW_offset_fps(KerNormBW_fps_T *Arg)
+{
+	unsigned char *__restrict__ In = Arg->In;
+	signed char *__restrict__ Out = Arg->Out;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int Sz = W * H;
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Sz), First = Chunk*CoreId, Last = Min(First+Chunk, Sz);
+
+	for (int Idx=First; Idx<Last; Idx++) {
+		Out[Idx] = In[Idx] - 128;
+	}
+	gap_waitbarrier(0);
+}
+
+void CNN_NormBW_fp(KerNormBW_fp_T *Arg)
+{
+	unsigned char *__restrict__ In = Arg->In;
+	signed short int *__restrict__ Out = Arg->Out;
+	unsigned int W = Arg->W;
+	unsigned int H = Arg->H;
+	unsigned int Sz = W * H;
+	unsigned int CoreId = gap_coreid(), Chunk = ChunkSize(Sz), First = Chunk*CoreId, Last = Min(First+Chunk, Sz);
+
+	unsigned int Diff = Last-First;
+	for (int Idx=First; Idx<First+Diff; Idx++){
+		Out[Idx] = In[Idx] << 7;
+	}
+	// for (int Idx=First; Idx<First+(Diff*2)/2; Idx+=2) {
+	// 	*((v2s *) &Out[Idx]) = *((v2s *)&In[Idx]) << 7;
+	// }
+	// int Left = Diff&0x1;
+	// if (Left) Out[Last-1] = In[Last-1] << 7;
+	gap_waitbarrier(0);
+}
diff --git a/tools/nntool/autotiler/tests/Mk b/tools/nntool/autotiler/tests/Mk
new file mode 100644
index 000000000..9aee2d1a0
--- /dev/null
+++ b/tools/nntool/autotiler/tests/Mk
@@ -0,0 +1,78 @@
+BUILD_DIR ?= $(CURDIR)
+MF_DIR:=$(shell dirname $(realpath $(firstword $(MAKEFILE_LIST))))
+
+#Code code of test runner and kernels generated code
+SRCS = testRun.c testKernels.c
+
+# C code of the Model
+SRCSG = testModel.c
+
+# Exec Name for the runner
+TARGET = $(BUILD_DIR)/Run
+# Exec Name for the generator
+TARGETG = $(BUILD_DIR)/Gen
+
+
+# Everything bellow is not application specific
+CC= gcc     
+INCL = -I$(TILER_INC) -I$(TILER_EMU_INC) -I$(MF_DIR)/../generators -I$(MF_DIR)/../kernels -I$(BUILD_DIR)
+
+CFLAGS= -std=c99 -D__EMUL__ -g
+LFLAGS=-lSDL2 -lSDL2_ttf
+
+LIBS = $(TILER_LIB)
+
+
+SRCS += $(MF_DIR)/../kernels/norm_transpose.c
+
+OBJS = $(SRCS:%.c=$(BUILD_DIR)/%.o)
+
+test: $(TARGET)
+
+run:$(TARGET)
+	$(TARGET)
+
+$(TARGET): $(OBJS)
+	$(CC) $(CFLAGS) $(INCL) -o $(TARGET) $(OBJS) $(LIBS) $(LFLAGS)
+
+$(BUILD_DIR)/%.o: %.c
+	@mkdir -p `dirname $@`
+	$(CC) $(DFLAGS) $(CFLAGS) $(INCL) -c $<  -o $@
+
+$(BUILD_DIR)/%.o: $(BUILD_DIR)/%.c
+	@mkdir -p `dirname $@`
+	$(CC) $(DFLAGS) $(CFLAGS) $(INCL) -c $<  -o $@
+
+cleanbuild:
+	$(RM) $(TARGETG) $(OBJSG)
+
+cleanrun:
+	$(RM) $(TARGET) $(OBJS)
+
+INCLG = -I$(TILER_EMU_INC)/ -I$(MF_DIR)/../kernels -I$(MF_DIR)/../generators
+
+
+CFLAGSG= -std=c99 -D__EMUL__ -g
+LFLAGSG=-lSDL2 -lSDL2_ttf
+
+# GENFLAGS = --debug=CNNIO
+GENFLAGSDEB="--debug=CNNIO"
+GENFLAGSCHECK="--debug=CNNSQ8"
+
+SRCSG += $(MF_DIR)/../generators/nntool_extra_generators.c
+LIBSG = $(TILER_LIB)
+
+OBJSG = $(SRCSG:%.c=$(BUILD_DIR)/%.o)
+
+$(TARGETG): $(OBJSG)
+	$(CC) $(CFLAGSG) $(INCLG) -o $(TARGETG) $(OBJSG) $(LIBSG) $(LFLAGSG)
+
+build: $(TARGETG)
+	cd $(BUILD_DIR) && $(TARGETG) $(GENFLAGS)
+
+buildcheck: $(TARGETG)
+	cd $(BUILD_DIR) && $(TARGETG) $(GENFLAGSCHECK)
+
+builddeb: $(TARGETG)
+	cd $(BUILD_DIR) && $(TARGETG) $(GENFLAGSDEB)
+
diff --git a/tools/nntool/autotiler/tests/MkGap8 b/tools/nntool/autotiler/tests/MkGap8
new file mode 100644
index 000000000..0ff10dfbc
--- /dev/null
+++ b/tools/nntool/autotiler/tests/MkGap8
@@ -0,0 +1,20 @@
+PULP_APP = VSGap
+MF_DIR:=$(shell dirname $(realpath $(firstword $(MAKEFILE_LIST))))
+
+PULP_APP_SRCS =  testRun.c testKernels.c
+PULP_APP_SRCS += $(MF_DIR)/../kernels/norm_transpose.c
+
+PULP_FC_ARCH_CFLAGS=-march=rv32imcxgap8 -mPE=8 -mFC=1
+PULP_CL_ARCH_CFLAGS=-march=rv32imcxgap8 -mPE=8 -mFC=1
+PULP_ARCH_LDFLAGS=-march=rv32imcxgap8 -mPE=8 -mFC=1
+
+PULP_CFLAGS = -O3 -g $(DFLAGS)
+
+PULP_CFLAGS += -I$(TILER_INC) -I$(TILER_EMU_INC) -I$(MF_DIR)/../generators -I$(MF_DIR)/../kernels 
+
+PULP_CFLAGS += -mno-memcpy -fno-tree-loop-distribute-patterns -fdata-sections -ffunction-sections
+PULP_LDFLAGS +=  -flto -Wl,--gc-sections
+
+
+include $(RULES_DIR)/pulp_rules.mk
+
diff --git a/tools/nntool/autotiler/tests/testModel.c b/tools/nntool/autotiler/tests/testModel.c
new file mode 100644
index 000000000..3371fe7fb
--- /dev/null
+++ b/tools/nntool/autotiler/tests/testModel.c
@@ -0,0 +1,48 @@
+#include <stdint.h>
+#include <stdio.h>
+#include "AutoTilerLib.h"
+#include "nntool_extra_generators.h"
+
+#ifdef CONSTINIT
+#define Cinit(a, b, c, d, e) ConstInfo((a), (b), (c), (d), (e))
+#else
+#define Cinit(a, b, c, d, e) 0
+#endif
+
+
+void testModel(unsigned int L1Memory, unsigned int L2Memory, unsigned int L3Memory, unsigned int L3Flash)
+{
+    // SetKernelOpts(KER_OPT_NONE, KER_OPT_BUFFER_PROMOTE);
+    SetSymbolDynamics();
+    SetUsedFilesNames(0, 1, "nntool_extra_kernels.h");
+    SetGeneratedFilesNames("testKernels.c", "testKernels.h");
+
+    SetMemoryDeviceInfos(4,
+        AT_MEM_L1, L1Memory, "vww_L1_Memory", 0, 0,
+        AT_MEM_L2, L2Memory, "vww_L2_Memory", 0, 0,
+        AT_MEM_L3_HRAM, L3Memory, "vww_L3_Memory", 0, 0,
+        AT_MEM_L3_HFLASH, L3Flash, "0", "vww_L3_Flash_Const.dat", 0
+    );
+
+    LoadNNTools_Extra_Library();
+    CNN_Norm("testfunc1", 320, 240, 1, NNTOOL_KOP_RGB565);
+    CNN_Norm("testfunc2", 320, 240, 0, NNTOOL_KOP_RGB565);
+    CNN_Norm("testfunc3", 320, 240, 1, NNTOOL_KOP_RGB888);
+    CNN_Norm("testfunc4", 320, 240, 0, NNTOOL_KOP_RGB888);
+    CNN_Norm("testfunc5", 320, 240, 1, NNTOOL_KOP_BW);
+    CNN_Norm("testfunc6", 320, 240, 0, NNTOOL_KOP_BW);
+    CNN_Norm("testfunc7", 320, 240, 0, NNTOOL_KOP_BW16);
+    CNN_Norm("testfunc8", 320, 240, 0, NNTOOL_KOP_RGB16);
+}
+
+int main(int argc, char **argv)
+
+{
+    if (TilerParseOptions(argc, argv)) {
+            printf("Failed to initialize or incorrect output arguments directory.\\n"); return 1;
+    }
+    testModel(52000, 300*1024, 8*1024*1024, 20*1024*1024);
+    GenerateTilingCode();
+    return 0;
+}
+
diff --git a/tools/nntool/autotiler/tests/testRun.c b/tools/nntool/autotiler/tests/testRun.c
new file mode 100644
index 000000000..cb4f57759
--- /dev/null
+++ b/tools/nntool/autotiler/tests/testRun.c
@@ -0,0 +1,381 @@
+#include "Gap.h"
+#include <stdio.h>
+#include "testKernels.h"
+
+#define SIZEHW 320 * 240
+#define SIZE888 320 * 240 * 3
+
+int err_count = 0;
+unsigned short *In565;
+unsigned char *In888, *In8;
+signed char *Out8, *Out888;
+
+#define assert(__test, __h, __w, __c, __got, __expect)                                        \
+	while (__got != __expect)                                                                 \
+	{                                                                                         \
+		err_count++;                                                                          \
+		printf(" %s[%d, %d, %d] expected %d got %d", __test, __h, __w, __c, __expect, __got); \
+		return 1;                                                                             \
+	}
+
+typedef struct
+{
+	void (*test_func)(void *In, signed char *Out, int offset);
+	void *In;
+	signed char *Out;
+	int offset;
+} test_args_t;
+
+typedef struct
+{
+	void (*test_func)(void *In, signed char *Out, int offset);
+	void *In;
+	signed char *Out;
+} test_args_16_t;
+
+void test565(void *In, signed char *Out, int offset)
+{
+	if (offset)
+	{
+		printf("testfunc1\n");
+		testfunc1((unsigned short *)In, Out);
+	}
+	else
+	{
+		printf("testfunc2\n");
+		testfunc2((unsigned short *)In, Out);
+	}
+}
+
+void test888(void *In, signed char *Out, int offset)
+{
+	if (offset)
+	{
+		printf("testfunc3\n");
+		testfunc3((unsigned char *)In, Out);
+	}
+	else
+	{
+		printf("testfunc4\n");
+		testfunc4((unsigned char *)In, Out);
+	}
+}
+
+void testBW(void *In, signed char *Out, int offset)
+{
+	if (offset)
+	{
+		printf("testfunc5\n");
+		testfunc5((unsigned char *)In, Out);
+	}
+	else
+	{
+		printf("testfunc6\n");
+		testfunc6((unsigned char *)In, Out);
+	}
+}
+
+void prepare565(void *buf)
+{
+	unsigned short *sbuf = (unsigned short *)buf;
+	printf("prepare565\n");
+	for (int h = 0; h < 240; h++)
+	{
+		for (int w = 0; w < 320; w++)
+		{
+			sbuf[h * 320 + w] = ((h % 3) << 11) | (((h % 3) + 1) << 6) | ((h % 3) + 2); //testfunc1-2
+		}
+	}
+}
+
+void prepare888(void *buf)
+{
+	unsigned char *cbuf = (unsigned char *)buf;
+	printf("prepare888\n");
+	for (int h = 0; h < 240; h++)
+	{
+		for (int w = 0; w < 320; w++)
+		{
+			for (int c = 0; c < 3; c++)
+			{
+				cbuf[h * 320 * 3 + w * 3 + c] = h + c;
+			}
+		}
+	}
+}
+
+void prepareBW(void *buf)
+{
+	unsigned char *cbuf = (unsigned char *)buf;
+	printf("prepareBW\n");
+	for (int h = 0; h < 240; h++)
+	{
+		for (int w = 0; w < 320; w++)
+		{
+			cbuf[h * 320 + w] = h;
+		}
+	}
+}
+
+int verify565(signed char *buf, int offset)
+{
+	printf("verify565 offset(%d)", offset);
+	for (int c = 0; c < 3; c++)
+	{
+		for (int h = 0; h < 240; h++)
+		{
+			for (int w = 0; w < 320; w++)
+			{
+				if (offset)
+				{
+					assert("testfunc1", h, w, c, buf[c * 240 * 320 + 320 * h + w], (((h % 3) + c) << 3) - 128); //testfunc1
+				}
+				else
+				{
+					assert("testfunc2", h, w, c, buf[c * 240 * 320 + 320 * h + w], (((h % 3) + c) << 3) >> 1); //testfunc2
+				}
+			}
+		}
+	}
+	return 0;
+}
+
+int verify888(signed char *buf, int offset)
+{
+	printf("verify888 offset(%d)", offset);
+	for (int c = 0; c < 3; c++)
+	{
+		for (int h = 0; h < 240; h++)
+		{
+			for (int w = 0; w < 320; w++)
+			{
+				if (offset)
+				{
+					assert("testfunc3", h, w, c, buf[c * 240 * 320 + 320 * h + w], ((h + c) - 128)); //testfunc3
+				}
+				else
+				{
+					assert("testfunc4", h, w, c, buf[c * 240 * 320 + 320 * h + w], ((h + c) >> 1)); //testfunc4
+				}
+			}
+		}
+	}
+	return 0;
+}
+
+int verifyBW(signed char *buf, int offset)
+{
+	printf("verifyBW offset(%d)", offset);
+	for (int h = 0; h < 240; h++)
+	{
+		for (int w = 0; w < 320; w++)
+		{
+			if (offset)
+			{
+				assert("testfunc5", h, w, 1, buf[320 * h + w], h - 128); //testfunc5
+			}
+			else
+			{
+				assert("testfunc6", h, w, 1, buf[320 * h + w], h >> 1); //testfunc6
+			}
+		}
+	}
+	return 0;
+}
+
+void do_test_cluster(void *arg)
+{
+	test_args_t *targs = (test_args_t *)arg;
+	targs->test_func(targs->In, targs->Out, targs->offset);
+}
+
+void do_test(void *pcluster_dev, void *In, signed char *Out,
+			 void (*prepare)(void *),
+			 int (*verify)(signed char *, int),
+			 void (*test_func)(void *In, signed char *Out, int offset))
+{
+	for (int o = 1; o >= 0; o--)
+	{
+		prepare(In);
+#ifndef __EMUL__
+		struct pi_device *cluster_dev = (struct pi_device *)pcluster_dev;
+		test_args_t *targs;
+		targs = pmsis_l2_malloc(sizeof(test_args_t));
+		memset(targs, 0, sizeof(test_args_t));
+		targs->test_func = test_func;
+		targs->In = In;
+		targs->Out = Out;
+		targs->offset = o;
+
+		struct pi_cluster_task *task;
+		task = pmsis_l2_malloc(sizeof(struct pi_cluster_task));
+		memset(task, 0, sizeof(struct pi_cluster_task));
+		task->entry = &do_test_cluster;
+		task->stack_size = 4096;
+		task->slave_stack_size = 1024;
+		task->arg = targs;
+
+		pi_cluster_send_task_to_cl(cluster_dev, task);
+
+		pi_l2_free(task, sizeof(struct pi_cluster_task));
+		pi_l2_free(targs, sizeof(test_args_t));
+#else
+		test_func(In, Out, o);
+#endif
+		if (verify(Out, o))
+		{
+			printf(" failed !!\n");
+		}
+		else
+		{
+			printf(" passed\n");
+		}
+	}
+}
+
+void testBW16(void *In, signed short int *Out)
+{
+	printf("testfunc7\n");
+	testfunc7((unsigned char *)In, Out);
+}
+
+int verifyBW16(signed short int *buf)
+{
+	printf("verifyBW 16 bits");
+	for (int h = 0; h < 240; h++)
+	{
+		for (int w = 0; w < 320; w++)
+		{
+			assert("testfunc7", h, w, 1, buf[320 * h + w], h << 7); //testfunc7
+		}
+	}
+	return 0;
+}
+
+void testRGB16(void *In, signed short int *Out)
+{
+	printf("testfunc8\n");
+	testfunc8((unsigned char *)In, Out);
+}
+
+int verifyRGB16(signed short int *buf)
+{
+	printf("verifyRGB16");
+	for (int c = 0; c < 3; c++)
+	{
+		for (int h = 0; h < 240; h++)
+		{
+			for (int w = 0; w < 320; w++)
+			{
+				assert("testfunc8", h, w, c, buf[c * 240 * 320 + 320 * h + w], ((h + c) << 7)); //testfunc8
+			}
+		}
+	}
+	return 0;
+}
+
+void do_test16(void *pcluster_dev, void *In, signed short int *Out,
+			   void (*prepare)(void *),
+			   int (*verify)(signed short int *),
+			   void (*test_func)(void *In, signed short int *Out))
+{
+	prepare(In);
+#ifndef __EMUL__
+	struct pi_device *cluster_dev = (struct pi_device *)pcluster_dev;
+	test_args_16_t *targs;
+	targs = pmsis_l2_malloc(sizeof(test_args_16_t));
+	memset(targs, 0, sizeof(test_args_16_t));
+	targs->test_func = test_func;
+	targs->In = In;
+	targs->Out = Out;
+
+	struct pi_cluster_task *task;
+	task = pmsis_l2_malloc(sizeof(struct pi_cluster_task));
+	memset(task, 0, sizeof(struct pi_cluster_task));
+	task->entry = &do_test_cluster;
+	task->stack_size = 4096;
+	task->slave_stack_size = 1024;
+	task->arg = targs;
+
+	pi_cluster_send_task_to_cl(cluster_dev, task);
+
+	pi_l2_free(task, sizeof(struct pi_cluster_task));
+	pi_l2_free(targs, sizeof(test_args_16_t));
+#else
+	test_func(In, Out);
+#endif
+	if (verify(Out))
+	{
+		printf(" failed !!\n");
+	}
+	else
+	{
+		printf(" passed\n");
+	}
+}
+
+int start()
+{
+
+	unsigned char *In = AT_L2_ALLOC(0, SIZE888 * sizeof(unsigned char));
+	if (!In)
+	{
+		printf("unable to allocate In\n");
+		exit(1);
+	}
+	signed char *Out = AT_L2_ALLOC(0, SIZE888 * sizeof(signed char));
+	if (!Out)
+	{
+		printf("unable to allocate Out\n");
+		exit(1);
+	}
+	signed short int *Out16 = AT_L2_ALLOC(0, SIZE888 * sizeof(signed short int));
+	if (!Out16)
+	{
+		printf("unable to allocate Out16\n");
+		exit(1);
+	}
+
+	void *pcluster_dev;
+#ifndef __EMUL__
+	struct pi_device cluster_dev;
+	struct pi_cluster_conf conf;
+	pi_cluster_conf_init(&conf);
+	conf.id = 0; /* Set cluster ID. */
+	pi_open_from_conf(&cluster_dev, (void *)&conf);
+	pi_cluster_open(&cluster_dev);
+	pi_freq_set(PI_FREQ_DOMAIN_CL, 50000000);
+	pi_freq_set(PI_FREQ_DOMAIN_FC, 50000000);
+	pcluster_dev = &cluster_dev;
+#else
+	pcluster_dev = 0;
+#endif
+	L1_Memory = (AT_L1_POINTER)AT_L1_ALLOC(0, _L1_Memory_SIZE * sizeof(signed char));
+	if (!L1_Memory)
+	{
+		printf("unable to allocate L1");
+		exit(1);
+	}
+	do_test(pcluster_dev, In, Out, prepare565, verify565, test565);
+	do_test(pcluster_dev, In, Out, prepare888, verify888, test888);
+	do_test(pcluster_dev, In, Out, prepareBW, verifyBW, testBW);
+	do_test16(pcluster_dev, In, Out16, prepareBW, verifyBW16, testBW16);
+	do_test16(pcluster_dev, In, Out16, prepare888, verifyRGB16, testRGB16);
+
+	printf("test %s\n", (err_count ? "failed" : "passed"));
+
+#ifdef __EMUL__
+	return err_count;
+#else
+	pi_cluster_close(&cluster_dev);
+	pmsis_exit(err_count);
+#endif
+}
+int main(void)
+{
+#ifndef __EMUL__
+	return pmsis_kickoff((void *)start);
+#else
+	return start();
+#endif
+}
diff --git a/tools/nntool/execution/execution_progress.py b/tools/nntool/execution/execution_progress.py
new file mode 100644
index 000000000..37f15dd69
--- /dev/null
+++ b/tools/nntool/execution/execution_progress.py
@@ -0,0 +1,54 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+
+class ExecutionProgress(object):
+    __instance = None
+    def __new__(cls):
+        if ExecutionProgress.__instance is None:
+            ExecutionProgress.__instance = object.__new__(cls)
+        return ExecutionProgress.__instance
+
+    def __init__(self):
+        if not hasattr(self, 'listeners'):
+            self.listeners = []
+
+    @classmethod
+    def progress(cls, step_idx, name):
+        inst = cls()
+        for func in inst.listeners:
+            func(step_idx, name)
+
+    @classmethod
+    def start(cls):
+        inst = cls()
+        for func in inst.listeners:
+            func(None, "start")
+
+    @classmethod
+    def end(cls):
+        inst = cls()
+        for func in inst.listeners:
+            func(None, "end")
+
+    @classmethod
+    def listen(cls, func):
+        inst = cls()
+        inst.listeners.append(func)
+
+    @classmethod
+    def unlisten(cls, func):
+        inst = cls()
+        inst.listeners.remove(func)
diff --git a/tools/nntool/execution/graph_executer.py b/tools/nntool/execution/graph_executer.py
new file mode 100644
index 000000000..959c7d31f
--- /dev/null
+++ b/tools/nntool/execution/graph_executer.py
@@ -0,0 +1,334 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+from typing import Optional, Sequence, Mapping
+
+import numpy as np
+
+from utils.graph import Graph
+from utils.node_id import NodeId
+from graph.types import ConvFusionParameters, ActivationFusion, InputParameters, ConstantInputParameters, Parameters
+from quantization.quantization_record_base import QuantizationRecordBase
+from quantization.kernels.kernel_switch import KernelSwitchBase, DefaultKernelSwitch
+from quantization.float32.float_kernet_set import Float32KernelSet
+from quantization.symmetric.symmetric_kernet_set import SymmetricKernelSet
+from execution.quantization_mode import QuantizationMode
+from execution.execution_progress import ExecutionProgress
+
+LOG = logging.getLogger('nntool.'+__name__)
+
+
+class GraphExecuter():
+    def __init__(self,
+                 G: Graph,
+                 qrecs: Optional[Mapping[NodeId, QuantizationRecordBase]] = None,
+                 kernel_switch: Optional[KernelSwitchBase] = None,
+                 quantized_kernel_switch: Optional[KernelSwitchBase] = None):
+        self._G = G
+        self._qrecs = qrecs
+        self._kernel_switch = DefaultKernelSwitch(
+            Float32KernelSet()) if kernel_switch is None else kernel_switch
+        self._quantized_kernel_switch = DefaultKernelSwitch(
+            SymmetricKernelSet()) if quantized_kernel_switch is None else quantized_kernel_switch
+
+    def collect_outputs(self, saved_outputs, node):
+        # collect outputs from previous nodes
+        # InputNode is already set above
+        if isinstance(node, InputParameters):
+            output = None
+        else:
+            output = [None]*len(node.in_dims)
+            for edge in self._G.in_edges(node.name):
+                output[edge.to_idx] = saved_outputs[edge.from_node][edge.from_idx]
+        return output
+
+    @staticmethod
+    def save_output(saved_outputs, node, outputs):
+        saved_outputs[node] = outputs
+
+    def execute_qnoq_iterator(self, in_tensors, step_idx_limit=None, silent=False, yield_fusions=True):
+
+        if not silent:
+            LOG.info("execute quantization comparison")
+            ExecutionProgress.start()
+        saved_outputs = {}
+        for step_idx, step in enumerate(self._G.graph_state.steps):
+
+            if step_idx_limit is not None and step_idx > step_idx_limit:
+                break
+
+            node = step['node']
+
+            if not silent:
+                ExecutionProgress.progress(step_idx, node.name)
+
+            output = self.collect_outputs(saved_outputs, node)
+            nid = NodeId(node, None)
+            qrec = self._qrecs[nid]
+
+            if isinstance(node, (ConvFusionParameters, ActivationFusion)):
+                for fusion_node in node.contained_nodes():
+                    fnid = NodeId(node, fusion_node)
+                    fqrec = self._qrecs[fnid]
+
+                    qoutput = []
+                    for val_idx, val in enumerate(output):
+                        qoutput.append(fqrec.in_qs[val_idx].quantize(val))
+
+                    details = {}
+                    output = self._kernel_switch.execute(fusion_node, output,
+                                                         fqrec if self._G.has_quantized_parameters else None,
+                                                         details=details)
+                    qdetails = {}
+                    qoutput = self._quantized_kernel_switch.execute(
+                        fusion_node, qoutput, fqrec, details=qdetails)
+                    qoutput = [fqrec.out_qs[i].dequantize(out) for i, out in enumerate(qoutput)]
+                    if yield_fusions:
+                        yield step_idx, node, output, details, qoutput, qdetails, fusion_node
+            else:
+                if isinstance(node, (InputParameters, ConstantInputParameters)):
+                    details = {}
+                    output = self._kernel_switch.execute(node, in_tensors,
+                                                         qrec if self._G.has_quantized_parameters else None,
+                                                         details=details)
+                    qdetails = {}
+                    qoutput = self._quantized_kernel_switch.execute(
+                        node, in_tensors, qrec, details=qdetails)
+                else:
+                    qoutput = []
+                    for val_idx, val in enumerate(output):
+                        qoutput.append(qrec.in_qs[val_idx].quantize(val))
+                    details = {}
+                    output = self._kernel_switch.execute(node, output,
+                                                         qrec if self._G.has_quantized_parameters else None,
+                                                         details=details)
+                    qdetails = {}
+                    qoutput = self._quantized_kernel_switch.execute(
+                        node, qoutput, qrec, details=qdetails)
+
+                qoutput = [qrec.out_qs[i].dequantize(out) for i, out in enumerate(qoutput)]
+
+            yield step_idx, node, output, details, qoutput, qdetails, None
+            self.save_output(saved_outputs, node, output)
+
+        if not silent:
+            ExecutionProgress.end()
+
+    def execute_iterator(self,
+                         in_tensors: Sequence[np.ndarray],
+                         step_idx_limit: Optional[int] = None,
+                         start_node: Optional[Parameters] = None,
+                         qmode: Optional[QuantizationMode] = None,
+                         yield_fusions=True,
+                         yield_details=True,
+                         only_yield_step=False,
+                         record_inputs: Optional[Mapping] = None,
+                         silent=False):
+        if qmode is None:
+            qmode = QuantizationMode.none()
+
+        saved_outputs = {}
+
+        if not silent:
+            LOG.info("execute uncached: quantization mode %s", qmode)
+            ExecutionProgress.start()
+        for step_idx, step in enumerate(self._G.graph_state.steps):
+
+            if step_idx_limit is not None and step_idx > step_idx_limit:
+                break
+
+            node = step['node']
+
+            if start_node and start_node != node:
+                continue
+
+            # collect outputs from previous nodes
+            # InputNode is already set above
+            output_tensors = self.collect_outputs(saved_outputs, node)
+
+            if not silent:
+                ExecutionProgress.progress(step_idx, node.name)
+            nid = NodeId(node, None)
+            if record_inputs is not None:
+                if output_tensors is None:
+                    record_inputs[nid] = output_tensors
+                else:
+                    record_inputs[nid] = [np.copy(output_tensor)
+                                          for output_tensor in output_tensors]
+
+            qrec = self._qrecs[nid] if self._qrecs is not None else None
+            if qmode.get_quantized(node, step_idx):
+                switch = self._quantized_kernel_switch
+                if qmode.is_step and output_tensors:
+                    output_tensors = [qrec.in_qs[i].quantize(
+                        output_tensor) for i, output_tensor in enumerate(output_tensors)]
+            else:
+                switch = self._kernel_switch
+
+            details = {} if yield_details and (
+                not only_yield_step or step_idx == step_idx_limit) else None
+            if isinstance(node, (ConvFusionParameters, ActivationFusion)):
+                for fusion_node in node.contained_nodes():
+                    fnid = NodeId(node, fusion_node)
+                    fqrec = None if not qrec else self._qrecs[fnid]
+                    if record_inputs is not None:
+                        record_inputs[nid] = [np.copy(output_tensor)
+                                              for output_tensor in output_tensors]
+                    details = {} if yield_fusions and yield_details else None
+                    output_tensors = switch.execute(fusion_node, output_tensors, fqrec, details)
+                    if yield_fusions:
+                        if qmode.dequantize:
+                            qoutput_tensors = [fqrec.out_qs[i].dequantize(output_tensor)
+                                               for i, output_tensor
+                                               in enumerate(output_tensors)]
+                            yield step_idx, node, fusion_node, qoutput_tensors, details
+                        elif qmode.is_float_q_deq:
+                            qoutput_tensors = [fqrec.out_qs[i].dequantize(fqrec.out_qs[i].quantize(output_tensor))
+                                               for i, output_tensor
+                                               in enumerate(output_tensors)]
+                            yield step_idx, node, fusion_node, qoutput_tensors, details
+                        else:
+                            yield step_idx, node, fusion_node, output_tensors, details
+            elif isinstance(node, InputParameters):
+                output_tensors = switch.execute(node, in_tensors, qrec, details)
+            else:
+                output_tensors = switch.execute(node, output_tensors, qrec, details)
+
+            if qmode.dequantize:
+                qoutput_tensors = [qrec.out_qs[i].dequantize(
+                    output_tensor) for i, output_tensor in enumerate(output_tensors)]
+                if not only_yield_step or step_idx == step_idx_limit:
+                    yield step_idx, node, None, qoutput_tensors, details
+                if qmode.is_step and qmode.get_quantized(node, step_idx):
+                    output_tensors = qoutput_tensors
+            elif qmode.is_float_q_deq:
+                if qmode.is_step and qmode.get_quantized(node, step_idx):
+                    output_tensors = [qrec.out_qs[i].dequantize(
+                        output_tensor) for i, output_tensor in enumerate(output_tensors)]
+                qoutput_tensors = [qrec.out_qs[i].dequantize(qrec.out_qs[i].quantize(
+                    output_tensor)) for i, output_tensor in enumerate(output_tensors)]
+                if not only_yield_step or step_idx == step_idx_limit:
+                    yield step_idx, node, None, qoutput_tensors, details
+            else:
+                if qmode.is_step and qmode.get_quantized(node, step_idx):
+                    output_tensors = [qrec.out_qs[i].dequantize(
+                        output_tensor) for i, output_tensor in enumerate(output_tensors)]
+                if not only_yield_step or step_idx == step_idx_limit:
+                    yield step_idx, node, None, output_tensors, details
+
+            self.save_output(saved_outputs, node, output_tensors)
+
+        if not silent:
+            ExecutionProgress.end()
+
+    def execute_qnoq(self,
+                     in_tensors: Sequence[np.ndarray],
+                     step_idx_limit=None,
+                     all_details=None,
+                     yield_fusions=False,
+                     silent=False):
+        outputs = []
+        if yield_fusions:
+            fusion_outputs = []
+            if all_details is not None:
+                fusion_details = []
+        for _, _, _, _, qoutput, qdetails, fnode in self.execute_qnoq_iterator(in_tensors,
+                                                                               step_idx_limit=step_idx_limit,
+                                                                               silent=silent):
+            if yield_fusions:
+                if fnode:
+                    fusion_outputs.append([output_tensor.copy()
+                                           for output_tensor in qoutput])
+                    if all_details is not None:
+                        fusion_details.append(qdetails)
+                else:
+                    outputs.append({
+                        'outputs': outputs.append([output_tensor.copy() for output_tensor in qoutput]),
+                        'fusion_outputs': fusion_outputs.copy(),
+                    })
+                    fusion_outputs.clear()
+                    if all_details is not None:
+                        all_details.append({
+                            'details': qdetails,
+                            'fusion_details': fusion_details.copy()
+                        })
+                        fusion_details.clear()
+            elif fnode is None:
+                outputs.append([output_tensor.copy() for output_tensor in qoutput])
+                if all_details is not None:
+                    all_details.append(qdetails)
+        return outputs
+
+    def execute(self,
+                in_tensors: Sequence[np.ndarray],
+                step_idx_limit=None,
+                only_yield_step=False,
+                qmode: QuantizationMode = None,
+                all_details=None,
+                yield_fusions=False,
+                silent=False):
+
+        if qmode is None:
+            qmode = QuantizationMode.none()
+
+        if qmode.is_step_all:
+            iterator = [(qoutput, qdetails, fnode)
+                        for _, _, _, _, qoutput, qdetails, fnode
+                        in self.execute_qnoq_iterator(in_tensors,
+                                                      yield_fusions=yield_fusions,
+                                                      step_idx_limit=step_idx_limit,
+                                                      silent=silent)]
+        else:
+            iterator = [(output_tensors, details, fnode)
+                        for _, _, fnode, output_tensors, details
+                        in self.execute_iterator(in_tensors, step_idx_limit=step_idx_limit,
+                                                 qmode=qmode,
+                                                 yield_fusions=yield_fusions,
+                                                 only_yield_step=only_yield_step,
+                                                 yield_details=all_details is not None,
+                                                 silent=silent)]
+
+        outputs = []
+        if yield_fusions:
+            fusion_outputs = []
+            if all_details is not None:
+                fusion_details = []
+
+        for output_tensors, details, fnode in iterator:
+            if yield_fusions:
+                if fnode:
+                    fusion_outputs.append([output_tensor.copy()
+                                           for output_tensor in output_tensors])
+                    if all_details is not None:
+                        fusion_details.append(details)
+                else:
+                    outputs.append({
+                        'outputs': outputs.append([output_tensor.copy() for output_tensor in output_tensors]),
+                        'fusion_outputs': fusion_outputs.copy(),
+                    })
+                    fusion_outputs.clear()
+                    if all_details is not None:
+                        all_details.append({
+                            'details': details,
+                            'fusion_details': fusion_details.copy()
+                        })
+                        fusion_details.clear()
+            else:
+                outputs.append([output_tensor.copy() for output_tensor in output_tensors])
+                if all_details is not None:
+                    all_details.append(details)
+        return outputs
diff --git a/tools/nntool/execution/quantization_mode.py b/tools/nntool/execution/quantization_mode.py
index 21c78dbfc..54176cecf 100644
--- a/tools/nntool/execution/quantization_mode.py
+++ b/tools/nntool/execution/quantization_mode.py
@@ -13,18 +13,32 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program.  If not, see <https://www.gnu.org/licenses/>.
 
-from typing import Union
+from typing import Union, Optional
 from graph.types import Parameters
+from utils.node_id import NodeId
 
 class QuantizationMode():
-    def __init__(self, qlevel: str = "all", qstep: Union[Parameters, int] = None):
+    def __init__(self, qlevel: str = "all", qstep: Optional[Union[int, NodeId]] = None, dequantize=False):
         self._qlevel = qlevel
         self._qstep = qstep
+        self._dequantize = dequantize
 
     @classmethod
     def all(cls):
         return cls()
 
+    @classmethod
+    def step_all(cls):
+        return cls(qlevel="step_all")
+
+    @classmethod
+    def all_float_quantize_dequantize(cls):
+        return cls(qlevel="float_q_deq")
+
+    @classmethod
+    def all_dequantize(cls):
+        return cls(dequantize=True)
+
     @classmethod
     def none(cls):
         return cls(qlevel="none")
@@ -34,7 +48,7 @@ def step(cls, qstep: Union[Parameters, int]):
         return cls(qlevel="step", qstep=qstep)
 
     def get_quantized(self, node: Parameters, step_idx: int):
-        if self._qlevel == "none":
+        if self._qlevel in ("none", "float_q_deq"):
             return False
         if self._qlevel == "all":
             return True
@@ -42,10 +56,18 @@ def get_quantized(self, node: Parameters, step_idx: int):
             return node == self._qstep
         return step_idx == self._qstep
 
+    @property
+    def is_float_q_deq(self):
+        return self._qlevel == "float_q_deq"
+
     @property
     def is_step(self):
         return self._qlevel == "step"
 
+    @property
+    def is_step_all(self):
+        return self._qlevel == "step_all"
+
     @property
     def is_all(self):
         return self._qlevel == "all"
@@ -54,6 +76,10 @@ def is_all(self):
     def is_none(self):
         return self._qlevel == "none"
 
+    @property
+    def dequantize(self):
+        return (self.is_step or self.is_all) and self._dequantize
+
     def __str__(self):
         if self.is_none or self.is_all:
             return self._qlevel
diff --git a/tools/nntool/generation/at_generators/__init__.py b/tools/nntool/generation/at_generators/__init__.py
new file mode 100644
index 000000000..556c4e3e0
--- /dev/null
+++ b/tools/nntool/generation/at_generators/__init__.py
@@ -0,0 +1,21 @@
+from .cnn_3d_tensor_permute import (gen_3d_transpose_at_params,
+                                    gen_at_3d_transpose)
+from .cnn_convolution_mulbias_pool_relu import gen_at_mulconv_pool_relu
+from .cnn_convolution_pool_relu import (NO_ACTIVATION, NO_CONV, NO_POOL,
+                                        ActivationATParam, ConvATParam,
+                                        PoolATParam, gen_activation_op,
+                                        gen_active_at_params,
+                                        gen_at_conv_pool_relu,
+                                        gen_conv_at_params, gen_pool_at_params)
+from .cnn_global_pool import gen_at_globalpool, gen_globalpool_at_params
+from .cnn_grouped_convolution_mulbias_pool_relu import \
+    gen_at_grouped_mulconv_pool_relu
+from .cnn_grouped_convolution_pool_relu import (GroupedConvATParam,
+                                                gen_at_grouped_conv_pool_relu)
+from .cnn_linear_relu import gen_at_linear_relu, gen_linear_at_params
+from .cnn_matrix import (gen_at_matrixadd, gen_at_matrixadddyn,
+                         gen_at_matscale, gen_matrixadd_at_params,
+                         gen_matrixadddyn_at_params, gen_matscale_at_params)
+from .cnn_pool_relu import gen_at_pool_relu
+from .cnn_softmax import gen_at_softmax, gen_softmax_at_params
+from .utils import at_bits, at_bits_and_q, at_q
diff --git a/tools/nntool/generation/at_generators/cnn_3d_tensor_permute.py b/tools/nntool/generation/at_generators/cnn_3d_tensor_permute.py
new file mode 100644
index 000000000..ddb76eac8
--- /dev/null
+++ b/tools/nntool/generation/at_generators/cnn_3d_tensor_permute.py
@@ -0,0 +1,47 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from collections import namedtuple
+from .utils import at_bits
+
+GEN_3D_TRANSPOSE = "CNN_3DTensorPermute"
+
+ThreeDTensorTransposeATParam = namedtuple('ThreeDTensorTransposeATParam', [
+    'MatPermOper'
+])
+
+def gen_3d_transpose_at_params(params):
+    if params.transpose_dimension == 2:
+        perm = params.permute(['H', 'W'])
+        permop = "KOP_MATPERM_CHW2C{}".format("".join(perm))
+    else:
+        perm = params.permute(['C', 'H', 'W'])
+        permop = "KOP_MATPERM_CHW2{}".format("".join(perm))
+    return ThreeDTensorTransposeATParam(
+        MatPermOper=permop
+    )
+
+def gen_at_3d_transpose(code_block, name, in_q, out_q,
+                        in_shape, at_transpose_params, gen_ctrl=None,
+                        at_ver=3):
+    if gen_ctrl is None:
+        gen_ctrl = "0"
+    else:
+        raise NotImplementedError("genctrl is not yet implemented")
+
+    code_block.write('{}("{}", {}, {}, {}, {}, {}, 1, 1, {}, {}, {}, {});',
+                     GEN_3D_TRANSPOSE, name, gen_ctrl, at_bits(in_q), at_bits(out_q),
+                     in_q.q, out_q.q, in_shape[0], in_shape[1], in_shape[2],
+                     at_transpose_params.MatPermOper)
diff --git a/tools/nntool/generation/at_generators/cnn_convolution_mulbias_pool_relu.py b/tools/nntool/generation/at_generators/cnn_convolution_mulbias_pool_relu.py
new file mode 100644
index 000000000..87292b01e
--- /dev/null
+++ b/tools/nntool/generation/at_generators/cnn_convolution_mulbias_pool_relu.py
@@ -0,0 +1,46 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from .utils import at_bits
+
+GEN_MULCONV_POOL_RELU = "CNN_ConvolutionMulBiasPoolReLU"
+
+def gen_at_mulconv_pool_relu(code_block, name, in_q, out_q,
+                             filt_q, bias_q, mul_biases_q, in_dim, out_dim,
+                             at_conv, at_pool, at_active, gen_ctrl=None, at_ver=3):
+    if gen_ctrl is None:
+        gen_ctrl = "0"
+    else:
+        gen_ctrl = gen_ctrl.ctrl_name
+
+    if at_ver < 3:
+        raise NotImplementedError("mulbias before ver 3 not supported")
+
+    code_block.write('{}("{}", {}, {}, {}, {}, {}, {}, {}, {}, {}, {}, {}, 1, 1, 1, 1, 1, {}, {}, {}, {},',
+                     GEN_MULCONV_POOL_RELU, name, gen_ctrl,
+                     at_bits(in_q), at_bits(filt_q), at_bits(
+                         bias_q), at_bits(mul_biases_q), at_bits(out_q),
+                     in_q.q, filt_q.q, bias_q.q, mul_biases_q.q, out_q.q,
+                     in_dim.c, out_dim.c, in_dim.w, in_dim.h)
+    code_block.indent()
+    code_block.write('{}, {}, {}, {}, {}, {}, {}, {},',
+                     at_conv.ConvOper, at_conv.Fcx, at_conv.Fcy,
+                     at_conv.Dcx, at_conv.Dcy, at_conv.Scx, at_conv.Scy,
+                     at_conv.ConvPad)
+    code_block.write('{}, {}, {}, {}, {}, {}, {}, {}, {});',
+                     at_pool.PoolOper, at_pool.Fpx, at_pool.Fpy,
+                     at_pool.Dpx, at_pool.Dpy, at_pool.Spx, at_pool.Spy,
+                     at_pool.PoolPad, at_active.ReLUOper)
+    code_block.deindent()
diff --git a/tools/nntool/generation/at_generators/cnn_convolution_pool_relu.py b/tools/nntool/generation/at_generators/cnn_convolution_pool_relu.py
new file mode 100644
index 000000000..e9dea6f6f
--- /dev/null
+++ b/tools/nntool/generation/at_generators/cnn_convolution_pool_relu.py
@@ -0,0 +1,214 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from collections import namedtuple
+
+from .cnn_grouped_convolution_pool_relu import GroupedConvATParam
+from .utils import at_bits
+
+GEN_CONV_POOL_RELU = "CNN_ConvolutionPoolReLU"
+
+# extern void CNN_ConvolutionPoolReLU(
+# 	char         *Name,
+
+# 	CNN_GenControl_T *Ctrl,
+
+# 	int In_DataSize,
+# 	int Filter_DataSize,
+# 	int Bias_DataSize,
+# 	int Out_DataSize,
+
+# 	int In_InL3,           // 1 if In comes from L3, 0 if it comes from L2
+# 	int Filter_InL3,
+# 	int Bias_InL3,
+# 	int Out_InL3,
+
+# 	int InFeat,
+# 	int OutFeat,
+# 	int Width,
+# 	int Height,
+
+# 	KernelOper_T ConvOper,
+# 	int Fcx,
+# 	int Fcy,
+# 	int Dcx,
+# 	int Dcy,
+# 	int Scx,
+# 	int Scy,
+# 	int          ConvPad,
+
+# 	KernelOper_T PoolOper,
+# 	int Fpx,
+# 	int Fpy,
+# 	int Dpx,
+# 	int Dpy,
+# 	int Spx,
+# 	int Spy,
+# 	int          PoolPad,
+
+#        	KernelOper_T ReLUOper
+# 	);
+
+# pylint: disable=too-many-arguments
+
+ConvATParam = namedtuple('ConvATParam', [
+    "ConvOper",
+    "Fcx",
+    "Fcy",
+    "Dcx",
+    "Dcy",
+    "Scx",
+    "Scy",
+    "ConvPad"
+])
+
+NO_CONV = ConvATParam(ConvOper='KOP_NONE', Fcx=0, Fcy=0, Dcx=0, Dcy=0, Scx=0, Scy=0, ConvPad=0)
+
+
+def is_dp(_):
+    # if conv_q.calc_q == conv_q.acc_q and\
+    #     conv_q.acc_q.bits > conv_q.out_qs[0].bits:
+    #     cop = "KOP_CONV_DP"
+    # else:
+    #     cop = "KOP_CONV"
+    return True
+
+
+def gen_conv_at_params(params, conv_q, pad_compatibilities, do_dp=False):
+    if params.is_depthwise_conv():
+        assert params.multiplier == 1, "Multiplier not supported"
+        assert not do_dp, "No DP output for DW convolution"
+        cop = is_dp(conv_q) and "KOP_CONV_DWDP" or "KOP_CONV_DW"
+    elif params.is_grouped_conv():
+        cop = is_dp(conv_q) and "KOP_CONV_DP" or "KOP_CONV"
+        return GroupedConvATParam(
+            ConvOper=cop,
+            GroupIn=params.groups,
+            GroupOut=params.multiplier,
+            Fcx=params.filter.w,
+            Fcy=params.filter.h,
+            Dcx=params.dilation.w,
+            Dcy=params.dilation.h,
+            Scx=params.stride.w,
+            Scy=params.stride.h,
+            ConvPad=params.has_at_zero_pad() and 1 or 0
+        )
+    else:
+        cop = is_dp(conv_q) and "KOP_CONV_DP" or "KOP_CONV"
+
+    pad_compatibilities.append(params.padding.pad_compatibility)
+    return ConvATParam(
+        ConvOper=cop,
+        Fcx=params.filter.w,
+        Fcy=params.filter.h,
+        Dcx=params.dilation.w,
+        Dcy=params.dilation.h,
+        Scx=params.stride.w,
+        Scy=params.stride.h,
+        ConvPad=params.has_at_zero_pad() and 1 or 0
+    )
+
+
+PoolATParam = namedtuple('PoolATParam', [
+    "PoolOper",
+    "Fpx",
+    "Fpy",
+    "Dpx",
+    "Dpy",
+    "Spx",
+    "Spy",
+    "PoolPad"
+])
+
+NO_POOL = PoolATParam(PoolOper='KOP_NONE', Fpx=0, Fpy=0, Dpx=0, Dpy=0, Spx=0, Spy=0, PoolPad=0)
+
+
+def gen_pool_at_params(params, pad_compatibilities):
+    if params.pool_type == "average":
+        pop = "KOP_AVGPOOL"
+    elif params.pool_type == "max":
+        pop = "KOP_MAXPOOL"
+    else:
+        raise NotImplementedError()
+
+    pad_compatibilities.append(params.padding.pad_compatibility)
+    return PoolATParam(
+        PoolOper=pop,
+        Fpx=params.filter.w,
+        Fpy=params.filter.h,
+        Dpx=1,
+        Dpy=1,
+        Spx=params.stride.w,
+        Spy=params.stride.h,
+        PoolPad=params.has_at_zero_pad() and 1 or 0
+    )
+
+
+ActivationATParam = namedtuple('ActivationATParam', [
+    "ReLUOper"
+])
+
+NO_ACTIVATION = ActivationATParam(ReLUOper='KOP_NONE')
+
+
+def gen_activation_op(activation):
+    if activation is None or activation == "none":
+        aop = "KOP_NONE"
+    elif activation == "relu":
+        aop = "KOP_RELU"
+    elif activation == "relu6":
+        aop = "KOP_RELUN"
+    elif activation == "relun":
+        aop = "KOP_RELUN"
+    elif activation == "sigmoid" or activation == "hsigmoid":
+        aop = "KOP_HSIGMOID"
+    elif activation == "swish" or activation == "hswish":
+        aop = "KOP_HSWISH"
+    else:
+        raise NotImplementedError("activation type %s not implemented" % activation)
+    return aop
+
+
+def gen_active_at_params(params):
+    return ActivationATParam(
+        ReLUOper=gen_activation_op(params.activation)
+    )
+
+
+def gen_at_conv_pool_relu(code_block, name, in_q, out_q,
+                          filt_q, bias_q, in_dim, out_dim,
+                          at_conv: ConvATParam, at_pool: PoolATParam,
+                          at_active: ActivationATParam, gen_ctrl=None, at_ver=3):
+    del at_ver
+    if gen_ctrl is None:
+        gen_ctrl = "0"
+    else:
+        gen_ctrl = gen_ctrl.ctrl_name
+
+    code_block.write('{}("{}", {}, {}, {}, {}, {}, {}, {}, {}, {}, 1, 1, 1, 1, {}, {}, {}, {},',
+                     GEN_CONV_POOL_RELU, name, gen_ctrl,
+                     at_bits(in_q), at_bits(filt_q), at_bits(bias_q), at_bits(out_q),
+                     in_q.q, filt_q.q, bias_q.q, out_q.q,
+                     in_dim.c, out_dim.c, in_dim.w, in_dim.h)
+    code_block.indent()
+    code_block.write('{}, {}, {}, {}, {}, {}, {}, {},',
+                     at_conv.ConvOper, at_conv.Fcx, at_conv.Fcy,
+                     at_conv.Dcx, at_conv.Dcy, at_conv.Scx, at_conv.Scy,
+                     at_conv.ConvPad)
+    code_block.write('{}, {}, {}, {}, {}, {}, {}, {}, {});',
+                     at_pool.PoolOper, at_pool.Fpx, at_pool.Fpy,
+                     at_pool.Dpx, at_pool.Dpy, at_pool.Spx, at_pool.Spy,
+                     at_pool.PoolPad, at_active.ReLUOper)
+    code_block.deindent()
diff --git a/tools/nntool/generation/at_generators/cnn_global_pool.py b/tools/nntool/generation/at_generators/cnn_global_pool.py
new file mode 100644
index 000000000..7919a716f
--- /dev/null
+++ b/tools/nntool/generation/at_generators/cnn_global_pool.py
@@ -0,0 +1,70 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from collections import namedtuple
+from .utils import at_bits
+
+GEN_GLOBALPOOL = "CNN_GlobalPool"
+# /** \brief CNN_GlobalPool
+#  *  Generator for Global Pooling (Max or Average)
+#  *
+
+#     \param    Name:           Name of the generated user kernel
+
+#     \param    Ctrl:           Overide generator default options (TileOrientation, Parallel Features), Def=(TILE_HOR, 1)
+
+#     \param    In_DataSize:    1: byte, 2: half word, 4: word
+#     \param    Out_DataSize:   1: byte, 2: half word, 4: word
+
+#     \param    In_Q:           In fixed point format
+#     \param    Out_Q:          Out fixed point format
+
+#     \param    In_InL3:        0: In is in L2, 1: In is in L3 memory
+#     \param    Out_InL3:       0: Out is in L2, 1: Out is in L3 memory
+
+#     \param    InFeat:         Number of input feature's maps
+#     \param    OutFeat:        Number of output feature's maps (InFeat has to be equal to OutFeat for these generators
+#     \param    Width:          Number of columns of a given feature map
+#     \param    Height:         Number of lines of a given feature map
+
+#     \param    PoolOper:       KOP_GLOBAL_MAXPOOL or KOP_GLOBAL_AVGPOOL
+
+GlobalPoolATParam = namedtuple('GlobalPoolATParam', [
+    "GlobalPoolOper"
+])
+
+def gen_globalpool_at_params(params):
+    return GlobalPoolATParam(
+        GlobalPoolOper="KOP_GLOBAL_AVGPOOL" if params.pool_type == "average" else "KOP_GLOBAL_MAXPOOL"
+    )
+
+def gen_at_globalpool(code_block, name, in_q, out_q,
+                      in_dim, out_dim, at_globalpool, gen_ctrl=None, at_ver=3):
+    if gen_ctrl is None:
+        gen_ctrl = "0"
+    else:
+        raise NotImplementedError("genctrl is not yet implemented")
+
+    if at_ver < 3:
+        code_block.write('{}("{}", {}, {}, {}, 1, 1, {}, {}, {}, {}, {});',
+                         GEN_GLOBALPOOL, name, gen_ctrl,
+                         at_bits(in_q), at_bits(out_q), in_dim.shape[0], out_dim.shape[0],
+                         in_dim.shape[1], in_dim.shape[2], at_globalpool.GlobalPoolOper)
+    else:
+        code_block.write('{}("{}", {}, {}, {}, {}, {}, 1, 1, {}, {}, {}, {}, {});',
+                         GEN_GLOBALPOOL, name, gen_ctrl,
+                         at_bits(in_q), at_bits(
+                             out_q), in_q.q, out_q.q, in_dim.shape[0], out_dim.shape[0],
+                         in_dim.shape[1], in_dim.shape[2], at_globalpool.GlobalPoolOper)
diff --git a/tools/nntool/generation/at_generators/cnn_grouped_convolution_mulbias_pool_relu.py b/tools/nntool/generation/at_generators/cnn_grouped_convolution_mulbias_pool_relu.py
new file mode 100644
index 000000000..1a97f5470
--- /dev/null
+++ b/tools/nntool/generation/at_generators/cnn_grouped_convolution_mulbias_pool_relu.py
@@ -0,0 +1,48 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from .utils import at_bits
+
+GEN_GROUPED_MULCONV_POOL_RELU = "CNN_GroupedConvolutionMulBiasPoolReLU"
+
+def gen_at_grouped_mulconv_pool_relu(code_block, name, in_q, out_q,
+                                     filt_q, bias_q, mul_biases_q, in_dim, out_dim,
+                                     at_conv, at_pool, at_active, gen_ctrl=None,
+                                     at_ver=3):
+    if gen_ctrl is None:
+        gen_ctrl = "0"
+    else:
+        gen_ctrl = gen_ctrl.ctrl_name
+
+    if at_ver < 3:
+        raise NotImplementedError("mulbias before ver 3 not supported")
+
+    code_block.write('{}("{}", {}, {}, {}, {}, {}, {}, {}, {}, {}, {}, {}, 1, 1, 1, 1, 1, {}, {}, {}, {},',
+                     GEN_GROUPED_MULCONV_POOL_RELU, name, gen_ctrl,
+                     at_conv.GroupIn, at_conv.GroupOut,
+                     at_bits(in_q), at_bits(filt_q), at_bits(bias_q),
+                     at_bits(mul_biases_q), at_bits(out_q),
+                     in_q.q, filt_q.q, bias_q.q, mul_biases_q.q, out_q.q,
+                     in_dim.c, out_dim.c, in_dim.w, in_dim.h)
+    code_block.indent()
+    code_block.write('{}, {}, {}, {}, {}, {}, {}, {},',
+                     at_conv.ConvOper, at_conv.Fcx, at_conv.Fcy,
+                     at_conv.Dcx, at_conv.Dcy, at_conv.Scx, at_conv.Scy,
+                     at_conv.ConvPad)
+    code_block.write('{}, {}, {}, {}, {}, {}, {}, {}, {});',
+                     at_pool.PoolOper, at_pool.Fpx, at_pool.Fpy,
+                     at_pool.Dpx, at_pool.Dpy, at_pool.Spx, at_pool.Spy,
+                     at_pool.PoolPad, at_active.ReLUOper)
+    code_block.deindent()
diff --git a/tools/nntool/generation/at_generators/cnn_grouped_convolution_pool_relu.py b/tools/nntool/generation/at_generators/cnn_grouped_convolution_pool_relu.py
new file mode 100644
index 000000000..20d5ed751
--- /dev/null
+++ b/tools/nntool/generation/at_generators/cnn_grouped_convolution_pool_relu.py
@@ -0,0 +1,126 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from collections import namedtuple
+
+from .utils import at_bits
+
+GEN_GROUPED_CONV_POOL_RELU = "CNN_GroupedConvolutionPoolReLU"
+
+# ConvOper:       Type of convolution, Regular convolution: KOP_CONV,
+#                 Regular convolution with double precision output: KOP_CONV_DP,
+#                 Depth wise convolution: KOP_CONV_DW
+# GroupIn:        Size of the group for input features
+# GroupOut:       Size of the group for output features
+# Fcx:            Convolution filter x dimension
+# Fcy:            Convolution filter y dimension
+# Dcx:            Convolution filter dilation factor, x dimension
+# Dcy:            Convolution filter dilation factor, y dimension
+# Scx:            Convolution filter stride x dimension
+# Scy:            Convolution filter stride y dimension
+# ConvPad:        0: No padding, 1: Zero padding
+
+GroupedConvATParam = namedtuple('GroupedConvATParam', [
+    "ConvOper",
+    "GroupIn",
+    "GroupOut",
+    "Fcx",
+    "Fcy",
+    "Dcx",
+    "Dcy",
+    "Scx",
+    "Scy",
+    "ConvPad"
+])
+
+# extern void CNN_GroupedConvolutionPoolReLU(
+# 	char         *Name,
+
+# 	CNN_GenControl_T *Ctrl,
+
+#   GroupIn:        Size of the group for input features
+#   GroupOut:       Size of the group for output features
+
+# 	int In_DataSize,
+# 	int Filter_DataSize,
+# 	int Bias_DataSize,
+# 	int Out_DataSize,
+
+# 	int In_InL3,           // 1 if In comes from L3, 0 if it comes from L2
+# 	int Filter_InL3,
+# 	int Bias_InL3,
+# 	int Out_InL3,
+
+# 	int InFeat,
+# 	int OutFeat,
+# 	int Width,
+# 	int Height,
+
+# 	KernelOper_T ConvOper,
+# 	int Fcx,
+# 	int Fcy,
+# 	int Dcx,
+# 	int Dcy,
+# 	int Scx,
+# 	int Scy,
+# 	int          ConvPad,
+
+# 	KernelOper_T PoolOper,
+# 	int Fpx,
+# 	int Fpy,
+# 	int Dpx,
+# 	int Dpy,
+# 	int Spx,
+# 	int Spy,
+# 	int          PoolPad,
+
+#        	KernelOper_T ReLUOper
+# 	);
+
+# pylint: disable=too-many-arguments
+
+
+def gen_at_grouped_conv_pool_relu(code_block, name, in_q, out_q,
+                                  filt_q, bias_q, in_dim, out_dim,
+                                  at_conv, at_pool, at_active, gen_ctrl=None,
+                                  at_ver=3):
+    if gen_ctrl is None:
+        gen_ctrl = "0"
+    else:
+        gen_ctrl = gen_ctrl.ctrl_name
+
+    if at_ver < 3:
+        code_block.write('{}("{}", {}, {}, {}, {}, {}, 1, 1, 1, 1, {}, {}, {}, {},',
+                         GEN_GROUPED_CONV_POOL_RELU, name, gen_ctrl,
+                         at_conv.GroupIn, at_conv.GroupOut,
+                         at_bits(in_q), at_bits(filt_q), at_bits(bias_q), at_bits(out_q),
+                         in_dim.c, out_dim.c, in_dim.w, in_dim.h)
+    else:
+        code_block.write('{}("{}", {}, {}, {}, {}, {}, {}, {}, {}, {}, 1, 1, 1, 1, {}, {}, {}, {},',
+                         GEN_GROUPED_CONV_POOL_RELU, name, gen_ctrl,
+                         at_conv.GroupIn, at_conv.GroupOut,
+                         at_bits(in_q), at_bits(filt_q), at_bits(bias_q), at_bits(out_q),
+                         in_q.q, filt_q.q, bias_q.q, out_q.q,
+                         in_dim.c, out_dim.c, in_dim.w, in_dim.h)
+    code_block.indent()
+    code_block.write('{}, {}, {}, {}, {}, {}, {}, {},',
+                     at_conv.ConvOper, at_conv.Fcx, at_conv.Fcy,
+                     at_conv.Dcx, at_conv.Dcy, at_conv.Scx, at_conv.Scy,
+                     at_conv.ConvPad)
+    code_block.write('{}, {}, {}, {}, {}, {}, {}, {}, {});',
+                     at_pool.PoolOper, at_pool.Fpx, at_pool.Fpy,
+                     at_pool.Dpx, at_pool.Dpy, at_pool.Spx, at_pool.Spy,
+                     at_pool.PoolPad, at_active.ReLUOper)
+    code_block.deindent()
diff --git a/tools/nntool/generation/at_generators/cnn_linear_relu.py b/tools/nntool/generation/at_generators/cnn_linear_relu.py
new file mode 100644
index 000000000..0c528504d
--- /dev/null
+++ b/tools/nntool/generation/at_generators/cnn_linear_relu.py
@@ -0,0 +1,78 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from collections import namedtuple
+from .utils import at_bits
+
+GEN_LINEAR_RELU = "CNN_LinearReLU"
+# extern void CNN_LinearReLU(
+#         char *Name,
+
+# 	CNN_GenControl_T *Ctrl,
+
+#         int In_DataSize,
+#         int Filter_DataSize,
+#         int Bias_DataSize,
+#         int Out_DataSize,
+
+#         int In_InL3,
+#         int Filter_InL3,
+#         int Bias_InL3,
+#         int Out_InL3,
+
+#         int InDim,
+#         int OutDim,
+
+#         KernelOper_T LinearOper,
+#         KernelOper_T ReLUOper
+#         );
+
+# pylint: disable=too-many-arguments
+
+
+LinearATParam = namedtuple('LinearATParam', [
+    "LinearOper"
+])
+
+
+def gen_linear_at_params(_):
+    return LinearATParam(
+        LinearOper="KOP_LINEAR"
+    )
+
+
+def gen_at_linear_relu(code_block, name, in_q, out_q,
+                       filt_q, bias_q, in_dim, out_dim,
+                       at_linear, at_active, gen_ctrl=None, at_ver=3):
+    if gen_ctrl is None:
+        gen_ctrl = "0"
+    else:
+        gen_ctrl = gen_ctrl.ctrl_name
+
+    if at_ver < 3:
+        code_block.write('{}("{}", {}, {}, {}, {}, {}, 1, 1, 1, 1, {}, {},',
+                         GEN_LINEAR_RELU, name, gen_ctrl,
+                         at_bits(in_q), at_bits(filt_q), at_bits(bias_q), at_bits(out_q),
+                         in_dim.size(), out_dim.size())
+    else:
+        code_block.write('{}("{}", {}, {}, {}, {}, {}, {}, {}, {}, {}, 1, 1, 1, 1, {}, {},',
+                         GEN_LINEAR_RELU, name, gen_ctrl,
+                         at_bits(in_q), at_bits(filt_q), at_bits(bias_q), at_bits(out_q),
+                         in_q.q, filt_q.q, bias_q.q, out_q.q,
+                         in_dim.size(), out_dim.size())
+    code_block.indent()
+    code_block.write('{}, {});',
+                     at_linear.LinearOper, at_active.ReLUOper)
+    code_block.deindent()
diff --git a/tools/nntool/generation/at_generators/cnn_matrix.py b/tools/nntool/generation/at_generators/cnn_matrix.py
new file mode 100644
index 000000000..1a6632fe4
--- /dev/null
+++ b/tools/nntool/generation/at_generators/cnn_matrix.py
@@ -0,0 +1,109 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from collections import namedtuple
+from .utils import at_bits, at_q
+from .cnn_convolution_pool_relu import gen_activation_op
+
+GEN_MATADD = "CNN_MatAdd"
+GEN_MATADDDYN = "CNN_MatAddDynAdjust"
+GEN_MATSCALE = "CNN_MatScale"
+
+
+MatrixAddATParam = namedtuple('MatrixAddATParam', [
+    "MatrixAddOper"
+])
+
+def gen_matrixadd_at_params(_):
+    return MatrixAddATParam(
+        MatrixAddOper="KOP_MATADD"
+    )
+
+def gen_at_matrixadd(code_block, name, in_q1, in_q2, out_q,
+                     in_dim, out_dim, at_matrixadd, gen_ctrl=None, at_ver=3):
+    if gen_ctrl is None:
+        gen_ctrl = "0"
+    else:
+        raise NotImplementedError("genctrl is not yet implemented")
+
+    if at_ver < 3:
+        code_block.write('{}("{}", {}, {}, {}, {}, 1, 1, 1, {}, {}, {}, {}, {});',
+                         GEN_MATADD, name, gen_ctrl,
+                         at_bits(in_q1), at_bits(in_q2), at_bits(
+                             out_q), in_dim.shape[0], out_dim.shape[0],
+                         in_dim.shape[1], in_dim.shape[2], at_matrixadd.MatrixAddOper)
+    else:
+        code_block.write('{}("{}", {}, {}, {}, {}, {}, {}, {}, 1, 1, 1, {}, {}, {}, {}, {});',
+                         GEN_MATADD, name, gen_ctrl,
+                         at_bits(in_q1), at_bits(in_q2), at_bits(out_q),
+                         in_q1.q, in_q2.q, out_q.q, in_dim.shape[0], out_dim.shape[0],
+                         in_dim.shape[1], in_dim.shape[2], at_matrixadd.MatrixAddOper)
+
+# pylint: disable=too-many-arguments
+
+def gen_matrixadddyn_at_params(_):
+    return MatrixAddATParam(
+        MatrixAddOper="KOP_MATADD_DYNADJUST"
+    )
+    
+def gen_at_matrixadddyn(code_block, name, in_q1, in_q2, out_q,
+                        in_dim, out_dim, at_matrixadd, gen_ctrl=None):
+    if gen_ctrl is None:
+        gen_ctrl = "0"
+    else:
+        raise NotImplementedError("genctrl is not yet implemented")
+
+    code_block.write('{}("{}", {}, {}, {}, {}, {}, {}, {}, 1, 1, 1, {}, {}, {}, {}, {});',
+                     GEN_MATADDDYN, name, gen_ctrl,
+                     at_bits(in_q1), at_bits(in_q2), at_bits(out_q),
+                     in_q1.q, in_q2.q, out_q.q,
+                     in_dim.shape[0], out_dim.shape[0],
+                     in_dim.shape[1], in_dim.shape[2], at_matrixadd.MatrixAddOper)
+
+# pylint: disable=too-many-arguments
+
+MatScaleATParam = namedtuple('MatScaleATParam', [
+    "ScaleOper",
+    "ReLUOper"
+])
+
+def gen_matscale_at_params(params):
+    # KOP_MATSCALE_VECTOR, KOP_MATSCALE_SCALAR or KOP_MATSCALE_VECTOR_SCALAR
+    if params.fusion_type == "vec_scalar":
+        ms_op = 'KOP_MATSCALE_VECTOR_SCALAR'
+    elif params.fusion_type == "vector":
+        ms_op = 'KOP_MATSCALE_VECTOR'
+    elif params.fusion_type == "scalar":
+        ms_op = 'KOP_MATSCALE_SCALAR'
+    else:
+        raise NotImplementedError("unknown fusion type %s" % params.fusion_type)
+    return MatScaleATParam(
+        ScaleOper=ms_op,
+        ReLUOper=gen_activation_op(params.activation)
+    )
+
+def gen_at_matscale(code_block, name, other_q, vector_q, scalar_q, out_q,
+                    in_dim, out_dim, at_matscale, gen_ctrl=None):
+    if gen_ctrl is None:
+        gen_ctrl = "0"
+    else:
+        raise NotImplementedError("genctrl is not yet implemented")
+
+    code_block.write('{}("{}", {}, {}, {}, {}, {}, {}, {}, {}, {}, 1, 1, 1, 1, {}, {}, {}, {}, {}, {});',
+                     GEN_MATSCALE, name, gen_ctrl,
+                     at_bits(other_q), at_bits(vector_q), at_bits(scalar_q), at_bits(out_q),
+                     at_q(other_q), at_q(vector_q), at_q(scalar_q), at_q(out_q),
+                     in_dim.shape[0], out_dim.shape[0],
+                     in_dim.shape[2], in_dim.shape[1], at_matscale.ScaleOper, at_matscale.ReLUOper)
\ No newline at end of file
diff --git a/tools/nntool/generation/at_generators/cnn_pool_relu.py b/tools/nntool/generation/at_generators/cnn_pool_relu.py
new file mode 100644
index 000000000..015f378b1
--- /dev/null
+++ b/tools/nntool/generation/at_generators/cnn_pool_relu.py
@@ -0,0 +1,85 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from .utils import at_bits
+
+GEN_POOL_RELU = "CNN_PoolReLU"
+
+# extern void CNN_PoolReLU(
+# 	char         *Name,
+
+# 	CNN_GenControl_T *Ctrl,
+
+# 	int In_DataSize,
+# 	int Out_DataSize,
+
+# 	int In_InL3,           // 1 if In comes from L3, 0 if it comes from L2
+# 	int Out_InL3,
+
+# 	int InFeat,
+# 	int OutFeat,
+# 	int Width,
+# 	int Height,
+
+# 	KernelOper_T PoolOper,
+# 	int Fpx,
+# 	int Fpy,
+# 	int Dpx,
+# 	int Dpy,
+# 	int Spx,
+# 	int Spy,
+# 	int          PoolPad,
+
+# 	KernelOper_T ReLUOper
+# 	);
+
+# pylint: disable=too-many-arguments
+
+def gen_at_pool_relu(code_block, name, in_q, out_q, in_dim,
+                     out_dim, at_pool, at_active, gen_ctrl=None, at_ver=3):
+    if gen_ctrl is None:
+        gen_ctrl = "0"
+    else:
+        gen_ctrl = gen_ctrl.ctrl_name
+
+    if at_pool.PoolOper == 'KOP_NONE':
+        if in_dim.is_named and in_dim.has_keys(['c', 'w', 'h']):
+            dims = [in_dim.c, in_dim.h, in_dim.w, in_dim.c]
+        else:
+            dims = in_dim.shape.copy()
+            dims = dims + [1] * (4 - len(dims))
+
+        if out_dim.is_named and out_dim.has_key('c'):
+            dims[3] = out_dim.c
+        else:
+            dims[3] = dims[0]
+    else:
+        dims = [in_dim.c, in_dim.h, in_dim.w, out_dim.c]
+
+    if at_ver < 3:
+        code_block.write('{}("{}", {}, {}, {}, 1, 1, {}, {}, {}, {},',
+                         GEN_POOL_RELU, name, gen_ctrl, at_bits(in_q), at_bits(out_q),
+                         dims[0], dims[3], dims[2], dims[1])
+    else:
+        code_block.write('{}("{}", {}, {}, {}, {}, {}, 1, 1, {}, {}, {}, {},',
+                         GEN_POOL_RELU, name, gen_ctrl, at_bits(
+                             in_q), at_bits(out_q), in_q.q, out_q.q,
+                         dims[0], dims[3], dims[2], dims[1])
+    code_block.indent()
+    code_block.write('{}, {}, {}, {}, {}, {}, {}, {}, {});',
+                     at_pool.PoolOper, at_pool.Fpx, at_pool.Fpy,
+                     at_pool.Dpx, at_pool.Dpy, at_pool.Spx, at_pool.Spy,
+                     at_pool.PoolPad, at_active.ReLUOper)
+    code_block.deindent()
diff --git a/tools/nntool/generation/at_generators/cnn_softmax.py b/tools/nntool/generation/at_generators/cnn_softmax.py
new file mode 100644
index 000000000..8097834c2
--- /dev/null
+++ b/tools/nntool/generation/at_generators/cnn_softmax.py
@@ -0,0 +1,53 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from collections import namedtuple
+from .utils import at_bits
+
+GEN_SOFTMAX = "CNN_SoftMax"
+# extern void CNN_SoftMax(
+#         char *Name,
+# 	CNN_GenControl_T *Ctrl,
+#         int In_DataSize,
+#         int Out_DataSize,
+#         int In_InL3,
+#         int Out_InL3,
+#         int Dim,
+#         KernelOper_T SoftMaxOper
+#         );
+
+# pylint: disable=too-many-arguments
+
+SoftMaxATParam = namedtuple('SoftMaxATParam', [
+    "SoftMaxOper"
+])
+
+
+def gen_softmax_at_params(_):
+    return SoftMaxATParam(
+        SoftMaxOper="KOP_SOFTMAX"
+    )
+
+
+def gen_at_softmax(code_block, name, in_q, out_q,
+                   in_dim, at_softmax, gen_ctrl=None, at_ver=3):
+    if gen_ctrl is None:
+        gen_ctrl = "0"
+    else:
+        raise NotImplementedError("genctrl is not yet implemented")
+
+    code_block.write('{}("{}", {}, {}, {}, {}, {}, 1, 1, {}, {});',
+                     GEN_SOFTMAX, name, gen_ctrl,
+                     at_bits(in_q), at_bits(out_q), in_q.q, out_q.q, in_dim.size(), at_softmax.SoftMaxOper)
diff --git a/tools/nntool/generation/at_generators/utils.py b/tools/nntool/generation/at_generators/utils.py
new file mode 100644
index 000000000..a41412d98
--- /dev/null
+++ b/tools/nntool/generation/at_generators/utils.py
@@ -0,0 +1,36 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+def at_bits(qtype):
+    if qtype is None:
+        return 0
+    # 1: byte, 2: half word, 4: word
+    if qtype.bits == 8:
+        return 1
+    if qtype.bits == 16:
+        return 2
+    if qtype.bits == 32:
+        return 4
+    raise NotImplementedError("unsupported number of bits")
+
+
+def at_q(qtype):
+    if qtype is None:
+        return 0
+    return qtype.q
+
+
+def at_bits_and_q(qtype):
+    return "{}, {}".format(at_bits(qtype), qtype.q)
\ No newline at end of file
diff --git a/tools/nntool/generation/at_types/__init__.py b/tools/nntool/generation/at_types/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tools/nntool/generation/at_types/at_params.py b/tools/nntool/generation/at_types/at_params.py
new file mode 100644
index 000000000..432d67fd1
--- /dev/null
+++ b/tools/nntool/generation/at_types/at_params.py
@@ -0,0 +1,214 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from collections import namedtuple
+
+# ACTIVATION
+ActivationATParam = namedtuple('ActivationATParam', [
+    "ReLUOper"
+])
+
+NO_ACTIVATION = ActivationATParam(ReLUOper='KOP_NONE')
+
+def gen_activation_op(activation, force_relu=False):
+    if activation is None or activation == "none":
+        aop = "KOP_NONE"
+    elif activation == "relu":
+        aop = "KOP_RELU"
+    elif activation == "relu6":
+        aop = "KOP_RELUN" if not force_relu else "KOP_RELU"
+    elif activation == "relun":
+        aop = "KOP_RELUN" if not force_relu else "KOP_RELU"
+    elif activation == "sigmoid" or activation == "hsigmoid":
+        aop = "KOP_HSIGMOID"
+    elif activation == "swish" or activation == "hswish":
+        aop = "KOP_HSWISH"
+    else:
+        raise NotImplementedError("activation type %s not implemented" % activation)
+    return aop
+
+def gen_active_at_params(params, force_relu=False):
+    return ActivationATParam(
+        ReLUOper=gen_activation_op(params.activation, force_relu=force_relu)
+    )
+
+# CONV
+
+ConvATParam = namedtuple('ConvATParam', [
+    "ConvOper",
+    "Fcx",
+    "Fcy",
+    "Dcx",
+    "Dcy",
+    "Scx",
+    "Scy",
+    "ConvPad"
+])
+
+NO_CONV = ConvATParam(ConvOper='KOP_NONE', Fcx=0, Fcy=0, Dcx=0, Dcy=0, Scx=0, Scy=0, ConvPad=0)
+
+# GROUPED CONV
+# ConvOper:       Type of convolution, Regular convolution: KOP_CONV,
+#                 Regular convolution with double precision output: KOP_CONV_DP,
+#                 Depth wise convolution: KOP_CONV_DW
+# GroupIn:        Size of the group for input features
+# GroupOut:       Size of the group for output features
+# Fcx:            Convolution filter x dimension
+# Fcy:            Convolution filter y dimension
+# Dcx:            Convolution filter dilation factor, x dimension
+# Dcy:            Convolution filter dilation factor, y dimension
+# Scx:            Convolution filter stride x dimension
+# Scy:            Convolution filter stride y dimension
+# ConvPad:        0: No padding, 1: Zero padding
+
+GroupedConvATParam = namedtuple('GroupedConvATParam', [
+    "ConvOper",
+    "GroupIn",
+    "GroupOut",
+    "Fcx",
+    "Fcy",
+    "Dcx",
+    "Dcy",
+    "Scx",
+    "Scy",
+    "ConvPad"
+])
+
+def gen_conv_at_params(params, pad_compatibilities):
+    if params.is_depthwise_conv():
+        assert params.multiplier == 1, "Multiplier not supported"
+        cop = "KOP_CONV_DW"
+    elif params.is_grouped_conv():
+        cop = "KOP_CONV"
+        return GroupedConvATParam(
+            ConvOper=cop,
+            GroupIn=params.groups,
+            GroupOut=params.multiplier,
+            Fcx=params.filter.w,
+            Fcy=params.filter.h,
+            Dcx=params.dilation.w,
+            Dcy=params.dilation.h,
+            Scx=params.stride.w,
+            Scy=params.stride.h,
+            ConvPad=params.has_at_zero_pad() and 1 or 0
+        )
+    else:
+        cop = "KOP_CONV"
+
+    pad_compatibilities.append(params.padding.pad_compatibility)
+    return ConvATParam(
+        ConvOper=cop,
+        Fcx=params.filter.w,
+        Fcy=params.filter.h,
+        Dcx=params.dilation.w,
+        Dcy=params.dilation.h,
+        Scx=params.stride.w,
+        Scy=params.stride.h,
+        ConvPad=params.has_at_zero_pad() and 1 or 0
+    )
+
+# POOL
+PoolATParam = namedtuple('PoolATParam', [
+    "PoolOper",
+    "Fpx",
+    "Fpy",
+    "Dpx",
+    "Dpy",
+    "Spx",
+    "Spy",
+    "PoolPad"
+])
+
+NO_POOL = PoolATParam(PoolOper='KOP_NONE', Fpx=0, Fpy=0, Dpx=0, Dpy=0, Spx=0, Spy=0, PoolPad=0)
+
+def gen_pool_at_params(params, pad_compatibilities):
+    if params.pool_type == "average":
+        pop = "KOP_AVGPOOL"
+    elif params.pool_type == "max":
+        pop = "KOP_MAXPOOL"
+    else:
+        raise NotImplementedError()
+
+    pad_compatibilities.append(params.padding.pad_compatibility)
+    return PoolATParam(
+        PoolOper=pop,
+        Fpx=params.filter.w,
+        Fpy=params.filter.h,
+        Dpx=1,
+        Dpy=1,
+        Spx=params.stride.w,
+        Spy=params.stride.h,
+        PoolPad=params.has_at_zero_pad() and 1 or 0
+    )
+
+GlobalPoolATParam = namedtuple('GlobalPoolATParam', [
+    "GlobalPoolOper"
+])
+
+def gen_globalpool_at_params(params):
+    return GlobalPoolATParam(
+        GlobalPoolOper="KOP_GLOBAL_AVGPOOL" if params.pool_type == "average" else "KOP_GLOBAL_MAXPOOL"
+    )
+
+# LINEAR
+LinearATParam = namedtuple('LinearATParam', [
+    "LinearOper"
+])
+
+def gen_linear_at_params(_):
+    return LinearATParam(
+        LinearOper="KOP_LINEAR"
+    )
+
+# MATRIX ADD
+MatrixAddATParam = namedtuple('MatrixAddATParam', [
+    "MatrixAddOper"
+])
+
+def gen_matrixadd_at_params(_):
+    return MatrixAddATParam(
+        MatrixAddOper="KOP_MATADD"
+    )
+
+# MATRIX SCALE
+MatScaleATParam = namedtuple('MatScaleATParam', [
+    "ScaleOper",
+    "ReLUOper"
+])
+
+def gen_matscale_at_params(params):
+    # KOP_MATSCALE_VECTOR, KOP_MATSCALE_SCALAR or KOP_MATSCALE_VECTOR_SCALAR
+    if params.fusion_type == "vec_scalar":
+        ms_op = 'KOP_MATSCALE_VECTOR_SCALAR'
+    elif params.fusion_type == "vector":
+        ms_op = 'KOP_MATSCALE_VECTOR'
+    elif params.fusion_type == "scalar":
+        ms_op = 'KOP_MATSCALE_SCALAR'
+    else:
+        raise NotImplementedError("unknown fusion type %s" % params.fusion_type)
+    return MatScaleATParam(
+        ScaleOper=ms_op,
+        ReLUOper=gen_activation_op(params.activation)
+    )
+
+# SOFTMAX
+SoftMaxATParam = namedtuple('SoftMaxATParam', [
+    "SoftMaxOper"
+])
+
+def gen_softmax_at_params(_):
+    return SoftMaxATParam(
+        SoftMaxOper="KOP_SOFTMAX"
+    )
diff --git a/tools/nntool/generation/at_types/constant_info.py b/tools/nntool/generation/at_types/constant_info.py
new file mode 100644
index 000000000..952d1df2d
--- /dev/null
+++ b/tools/nntool/generation/at_types/constant_info.py
@@ -0,0 +1,63 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+# typedef struct {
+# 	char *FileName;	/* Name of the file containing the initial values */
+# 	int Format;	/* Float or fixed point */
+# 	int Binary;	/* 1: file content is binary, 0: file content is text */
+# 	int Size;	/* When Format is Fract Size in bytes of the container */
+# 	int Fract;	/* When format is fract position of the point */
+# } ConstInit_T;
+
+import numpy as np
+
+from quantization.qtype_base import QTypeBase
+
+
+class ConstantInfo():
+    FMT_TYPES = {
+        'float': 0,
+        'fixed': 1
+    }
+
+    def __init__(self, file_name: str, qtype: QTypeBase, numeric_format: str = "fixed", is_binary: bool = True, contents: np.ndarray = None):
+        self._file_name = file_name
+        self._qtype = qtype
+        assert numeric_format in self.FMT_TYPES, "invalid numeric format"
+        self._numeric_format = numeric_format
+        self._is_binary = is_binary
+        self._contents = contents
+
+    @property
+    def contents(self):
+        return self._contents
+
+    @contents.setter
+    def contents(self, val):
+        self._contents = val
+
+    @property
+    def file_name(self):
+        return self._file_name
+
+    @property
+    def qtype(self):
+        return self._qtype
+
+    def __str__(self):
+        return 'ConstInfo("{0}", {1}, 1, {2}, {3})'.format(self._file_name,
+                                                           self.FMT_TYPES[self._numeric_format],
+                                                           self._qtype.bits//8,
+                                                           self._qtype.q)
diff --git a/tools/nntool/generation/at_types/gen_ctrl.py b/tools/nntool/generation/at_types/gen_ctrl.py
new file mode 100644
index 000000000..d4b6d0a3c
--- /dev/null
+++ b/tools/nntool/generation/at_types/gen_ctrl.py
@@ -0,0 +1,105 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from utils.option_list import OptionList
+
+# int TileOrientation;	/* Set Tiling orientation TILE_HOR TILE_VER */
+# int ParallelFeatures;	/* Parallelize along channels */
+# int ForceDPconv;	/* Forces double precision convolution*/
+# int UseHwCE;		/* Enable HW CE */
+# AT_PadType PadType;	/* Control padding strategy */
+# int EnableIm2Col;	/* Enable mat mul based convolution when feasible */
+# int ReluN;		/* if != -1 Overides 6 as a default value for ReLUN */
+# int MulBiasScalar;	/* if != -1 Overides default non scalar for MulBias convolutions */
+
+
+def gen_ctrl_call(api, op, val, code_block):
+    if isinstance(val, str):
+        val = 'AT_OPT_VAL("%s")' % val
+    elif isinstance(val, bool):
+        val = val and 'AT_OPT_ON' or 'AT_OPT_OFF'
+    elif isinstance(val, int):
+        val = 'AT_OPT_VAL(%s)' % val
+    else:
+        raise ValueError()
+
+    code_block.write('{}({}, {});', api, op, val)
+
+
+def gen_kernel_ctrl(op, val, code_block):
+    gen_ctrl_call('AT_SetKernelCtrl', op, val, code_block)
+
+
+def gen_graph_ctrl(op, val, code_block):
+    gen_ctrl_call('AT_SetGraphCtrl', op, val, code_block)
+
+CTRL_FEATURES = {
+    "TILEORIENTATION": int,
+    "PARALLELFEATURES": int,
+    "FORCEDPCONV": int,
+    "USEHWCE": int,
+    "PADTYPE": int,
+    "ENABLEIM2COL": int,
+    "RELUN": int,
+    "MULBIASSCALAR": int,
+    "RELUNNONORM": int
+}
+
+
+class GenCtrl(OptionList):
+    PREFIX = "gen_ctrl_"
+
+    def __init__(self, options, *args, cname=None, **kwargs):
+        super(GenCtrl, self).__init__(*args, valid_options=CTRL_FEATURES, **kwargs)
+        if options is not None:
+            self.extend(options, name_filter=lambda name: name in CTRL_FEATURES)
+        self._cname = cname
+
+    @property
+    def is_unmodified(self):
+        return len(self) == 0
+
+    @property
+    def set_features(self):
+        return self.set_options
+
+    @property
+    def prefixed_cname(self):
+        return self.PREFIX + self._cname
+
+    @property
+    def ctrl_name(self):
+        if self.is_unmodified:
+            return "0"
+
+        return "&{}".format(self.prefixed_cname)
+
+    @property
+    def cname(self):
+        return self._cname
+
+    @cname.setter
+    def cname(self, val):
+        self._cname = val
+
+    def gen_ctrl_decl(self, code_block):
+        code_block.write('CNN_GenControl_T {};', self.prefixed_cname)
+        code_block.write('CNN_InitGenCtrl({});', self.ctrl_name)
+        for name, val in self._options.items():
+            if self.valid_options[name] == int:
+                code_block.write('CNN_SetGenCtrl({}, "{}", AT_OPT_VAL({}));',
+                                 self.ctrl_name, name.upper(), val)
+            else:
+                raise NotImplementedError()
diff --git a/tools/nntool/generation/at_types/tc_arg_info.py b/tools/nntool/generation/at_types/tc_arg_info.py
new file mode 100644
index 000000000..3fb80b5cf
--- /dev/null
+++ b/tools/nntool/generation/at_types/tc_arg_info.py
@@ -0,0 +1,148 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+# CKernel_Arg_T *TCArgInfo(
+# 	char *ArgType,			/**< C argument type as a string */
+# 	char *ArgName,			/**< C argument name as a string */
+# 	ArgScope_T Scope,		/**< Argument scope, ARG_SCOPE_ARG: passed as an argument, ARG_SCOPE_GLOBAL: global symbol */
+# 	ArgDirection_T Dir,		/**< Argument's direction (in, out or in out) */
+# 	AT_MemLocation_T HomeLoc,	/**< Permanent location in the mem hierarch variants of L3 or L2 */
+# 	AT_MemLocation_T ExecLoc,	/**< Location of the argument when it is used, can be != HomeLoc */
+# 	ConstInit_T *ConstInit		/**< Descriptor for initialized constant */
+# 	);
+
+from typing import Optional
+
+from generation.at_types.constant_info import ConstantInfo
+
+
+class TCArgInfo():
+    ARG_TYPES = {
+        "uint8": "unsigned char * __restrict__",
+        "int8": "signed char * __restrict__",
+        "uint16": "unsigned short * __restrict__",
+        "int16": "signed short * __restrict__",
+        "uint32": "unsigned int * __restrict__",
+        "int32": "signed int * __restrict__",
+        "unsigned char": "unsigned char * __restrict__",
+        "signed char": "signed char * __restrict__",
+        "unsigned short": "unsigned short int * __restrict__",
+        "signed short": "short int * __restrict__",
+        "short int": "short int * __restrict__",
+        "unsigned int": "unsigned int * __restrict__",
+        "signed int": "signed int * __restrict__",
+    }
+    ARG_SCOPES = [
+        "ARG_SCOPE_UNDEF", "ARG_SCOPE_ARG", "ARG_SCOPE_ARG_ALLOC", "ARG_SCOPE_GLOBAL", "ARG_SCOPE_LOCAL"
+    ]
+    ARG_DIRECTIONS = [
+        "ARG_DIR_UNDEF", "ARG_DIR_IN", "ARG_DIR_CONSTIN", "ARG_DIR_OUT", "ARG_DIR_INOUT"
+    ]
+    MEM_LOCATIONS = [
+        "AT_MEM_UNDEF",
+        "AT_MEM_L3_HRAM",
+        "AT_MEM_L3_QSPIRAM",
+        "AT_MEM_L3_OSPIRAM",
+        "AT_MEM_L3_HFLASH",
+        "AT_MEM_L3_QSPIFLASH",
+        "AT_MEM_L3_OSPIFLASH",
+        "AT_MEM_L3_MRAMFLASH",
+        "AT_MEM_L2",
+        "AT_MEM_L1",
+    ]
+
+    def __init__(self,
+                 arg_type: str, arg_name: str, arg_scope: str,
+                 arg_dir: str, home_location: Optional[str] = None,
+                 exec_location: Optional[str] = None,
+                 const_info: Optional[ConstantInfo] = None,
+                 comment: Optional[str] = None):
+        assert arg_type in self.ARG_TYPES
+        self._arg_type = arg_type
+        self._arg_name = arg_name
+        assert arg_scope in self.ARG_SCOPES
+        self._arg_scope = arg_scope
+        assert arg_dir in self.ARG_DIRECTIONS
+        self._arg_dir = arg_dir
+        assert home_location is None or home_location in self.MEM_LOCATIONS
+        self._home_location = home_location
+        assert exec_location is None or exec_location in self.MEM_LOCATIONS
+        self._exec_location = exec_location
+        self._const_info = const_info
+        self._comment = comment
+
+    @property
+    def comment(self):
+        return self._comment
+
+    @comment.setter
+    def comment(self, val):
+        self._comment = val
+
+    @property
+    def const_info(self):
+        return self._const_info
+
+    @property
+    def arg_name(self):
+        return self._arg_name
+
+    def __str__(self):
+        return str.format('TCArgInfo("{}", "{}", {}, {}, {}, {}, {})',
+                          self.ARG_TYPES[self._arg_type],
+                          self._arg_name,
+                          self._arg_scope,
+                          self._arg_dir,
+                          self._home_location or self.MEM_LOCATIONS[0],
+                          self._exec_location or self.MEM_LOCATIONS[0],
+                          self._const_info or "0")
+
+
+class GlobalArgInfo(TCArgInfo):
+
+    def __init__(self, arg_type: str, arg_name: str, home_location: Optional[str] = None,
+                 exec_location: Optional[str] = None,
+                 const_info: Optional[ConstantInfo] = None,
+                 comment=None):
+        super(GlobalArgInfo, self).__init__(arg_type, arg_name, "ARG_SCOPE_GLOBAL",
+                                            "ARG_DIR_CONSTIN", home_location=home_location,
+                                            exec_location=exec_location,
+                                            const_info=const_info,
+                                            comment=comment)
+
+
+class LocalArgInfo(TCArgInfo):
+    def __init__(self, arg_type: str, arg_name: str, home_location: Optional[str] = None):
+        super(LocalArgInfo, self).__init__(arg_type, arg_name, "ARG_SCOPE_LOCAL",
+                                           "ARG_DIR_INOUT", home_location=home_location,
+                                           exec_location=home_location)
+
+
+class OutputArgInfo(TCArgInfo):
+    def __init__(self, arg_type: str, arg_name: str, home_location: Optional[str] = None,
+                 exec_location: Optional[str] = None, allocate=False):
+        scope = "ARG_SCOPE_ARG_ALLOC" if allocate else "ARG_SCOPE_ARG"
+        super(OutputArgInfo, self).__init__(arg_type, arg_name, scope,
+                                            "ARG_DIR_OUT", home_location=home_location,
+                                            exec_location=exec_location)
+
+
+class InputArgInfo(TCArgInfo):
+    def __init__(self, arg_type: str, arg_name: str, home_location: Optional[str] = None,
+                 exec_location: Optional[str] = None, allocate=False):
+        scope = "ARG_SCOPE_ARG_ALLOC" if allocate else "ARG_SCOPE_ARG"
+        super(InputArgInfo, self).__init__(arg_type, arg_name, scope,
+                                           "ARG_DIR_IN", home_location=home_location,
+                                           exec_location=exec_location)
diff --git a/tools/nntool/generation/at_types/tensor_stack.py b/tools/nntool/generation/at_types/tensor_stack.py
new file mode 100644
index 000000000..0bb7ec37f
--- /dev/null
+++ b/tools/nntool/generation/at_types/tensor_stack.py
@@ -0,0 +1,38 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+# pylint: disable=line-too-long
+
+from typing import Sequence
+import logging
+
+LOG = logging.getLogger("nntool." + __name__)
+
+
+class TensorStack():
+    def __init__(self, out_name: str, in_names: Sequence[str]):
+        self._out_name = out_name
+        self._in_names = in_names
+
+    @staticmethod
+    def gen_str(name):
+        return '"%s"' % name
+
+    def __str__(self):
+        return str.format('AddStackedTensors("{}", {}, {});',
+                          self._out_name,
+                          len(self._in_names),
+                          ', '.join([self.gen_str(in_name) for in_name
+                                     in self._in_names]))
diff --git a/tools/nntool/generation/autotiler_options.py b/tools/nntool/generation/autotiler_options.py
new file mode 100644
index 000000000..a33b958a2
--- /dev/null
+++ b/tools/nntool/generation/autotiler_options.py
@@ -0,0 +1,118 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from .memory_device_info import MemoryDeviceInfos
+
+#pylint: disable=line-too-long
+
+AUTO_TILER_OPTIONS = [
+    {
+        'name': 'KERNEL_BUFFER_PROMOTE', 'type': 'kernel', 'var_type': bool,
+        'descr': 'When all user kernel arguments can fit into given L1 memory promote them to buffer', 'default': True},
+    {
+        'name': 'KERNEL_PARTIAL_BUFFER_PROMOTE', 'type': 'kernel', 'var_type': bool,
+        'descr': 'When all tile of a user kernel argument across Input Features can fit into given L1 memory promote them to partial buffer', 'default': True},
+    {
+        'name': 'KERNEL_NOSOLUTION_ERROR', 'type': 'kernel', 'var_type': bool,
+        'descr': 'Report an error when no tiling solution is found', 'default': True},
+    {
+        'name': 'GRAPH_MONITOR_CYCLES', 'type': 'graph', 'var_type': bool,
+        'descr': 'Enable automatic cycle capture for each node of the graph', 'default': False},
+    {
+        'name': 'GRAPH_MONITOR_CVAR_NAME', 'type': 'graph', 'var_type': str,
+        'descr': 'When monitor cycles is on name of the C var array to receive results', 'default': 'AT_GraphPerf'},
+    {
+        'name': 'GRAPH_PRODUCE_NODE_NAMES', 'type': 'graph', 'var_type': bool,
+        'descr': 'Enable production of an array containing the name of each graph node', 'default': False},
+    {
+        'name': 'GRAPH_PRODUCE_NODE_CVAR_NAME', 'type': 'graph', 'var_type': str,
+        'descr': 'When producing node names is on name of the C array receiving the names as strings', 'default': 'AT_GraphNodeNames'},
+    {
+        'name': 'GRAPH_PRODUCE_OPERINFOS', 'type': 'graph', 'var_type': bool,
+        'descr': 'Enable production of number of macs for each layer', 'default': False},
+    {
+        'name': 'GRAPH_PRODUCE_OPERINFOS_CVAR_NAME', 'type': 'graph', 'var_type': str,
+        'descr': 'When Number of oper Infos is on name of the C array receiving mac infos for each node', 'default': 'AT_GraphOperInfosNames'},
+    {
+        'name': 'GRAPH_REORDER_CONSTANT_IN', 'type': 'graph', 'var_type': bool,
+        'descr': 'Enable reodering of constant inputs in order to transform 2D accesses into 1D accesses', 'default': True},
+    {
+        'name': 'GRAPH_TRACE_EXEC', 'type': 'graph', 'var_type': bool, 'descr': 'Enable trace of activity', 'default': False},
+    {
+        'name': 'GRAPH_NOINLINE_NODE', 'type': 'graph', 'var_type': bool,
+        'descr': 'If on, all user kernel function are marked as noinline', 'default': False},
+    {
+        'name': 'GRAPH_PREF_L3_EXEC', 'type': 'graph', 'var_type': str,
+        'descr': 'In case a symbol must be allocated in L3 for execution this is the prefered memory', 'default': 'AT_MEM_L3_HRAM'},
+    {
+        'name': 'GRAPH_CONST_EXEC_FROM_FLASH', 'type': 'graph', 'var_type': bool,
+        'descr': 'If on, constant symbols executes from home location', 'default': False},
+    {
+        'name': 'GRAPH_PREF_L3_HOME', 'type': 'graph', 'var_type': str,
+        'descr': 'For constant symbols which L3 flash prefered memory', 'default': 'AT_MEM_L3_HFLASH'
+    },
+    {
+        'name': 'GRAPH_DUMP_TENSOR', 'type': 'graph', 'var_type': int,
+        'descr': 'Trace selected tensors arguments at inference time, either all nodes or selected node', 'default': 0
+    },
+    {
+        'name': 'GRAPH_DUMP_ONE_NODE', 'type': 'graph', 'var_type': str,
+        'descr': 'Trace one specific graph node', 'default': None
+    }
+]
+
+DEFAULT_GEN_OPTS = {
+    'default_input_home_location': 'AT_MEM_L2',
+    'default_input_exec_location': 'AT_MEM_L2',
+    'default_output_home_location': 'AT_MEM_L2',
+    'default_output_exec_location': 'AT_MEM_L2',
+    'default_global_home_location': 'AT_MEM_L3_HFLASH',
+    'default_global_exec_location': 'AT_MEM_UNDEF',
+    'default_local_location': 'AT_MEM_UNDEF',
+    'l2_ram_ext_managed': True,
+    'l3_ram_ext_managed': False,
+    'l3_flash_ext_managed': False,
+    'generate_checksums': False,
+    'include_project_header': False,
+    'checksum_file': '',
+    'tensor_directory': '.',
+    'model_directory': '.',
+    'model_file': 'model.c',
+    'at_ver': 3,
+    'memory_devices': MemoryDeviceInfos.default()
+}
+
+DEFAULT_GEN_OPTS.update({(elem['name'].lower()): elem['default'] for elem in AUTO_TILER_OPTIONS})
+
+DEFAULT_GEN_OPTS_DESCRIPTIONS = {
+    'default_input_home_location': {'type': str, 'descr': 'default home location for inputs for code generation'},
+    'default_input_exec_location': {'type': str, 'descr': 'default exec location for inputs for code generation'},
+    'default_output_home_location': {'type': str, 'descr': 'default home location for outputs for code generation'},
+    'default_output_exec_location': {'type': str, 'descr': 'default exec location for outputs for code generation'},
+    'default_global_home_location': {'type': str, 'descr': 'default home location for globals for code generation'},
+    'default_global_exec_location': {'type': str, 'descr': 'default exec location for globals for code generation'},
+    'default_local_location': {'type': str, 'descr': 'default location for locals for code generation'},
+    'l2_ram_ext_managed': {'type': bool, 'descr': 'Externally manage L2 RAM'},
+    'l3_ram_ext_managed': {'type': bool, 'descr': 'Externally manage L3 RAM'},
+    'l3_flash_ext_managed': {'type': bool, 'descr': 'Externally manage L3 flash'},
+    'include_project_header': {'type': bool, 'descr': 'Include a header file called "GraphName.h" in generated code'},
+    'tensor_directory': {'type': str, 'descr': 'directory to dump tensors to'},
+    'model_directory': {'type': str, 'descr': 'directory to dump model to'},
+    'model_file': {'type': str, 'descr': 'filename for model'},
+    'at_ver': {'type': int, 'descr': 'AutoTiler version'},
+}
+
+DEFAULT_GEN_OPTS_DESCRIPTIONS.update(
+    {elem['name'].lower(): {'type': elem['var_type'], 'descr': elem['descr']} for elem in AUTO_TILER_OPTIONS})
diff --git a/tools/nntool/generation/bindings.py b/tools/nntool/generation/bindings.py
index c4f2b5d3f..344878f7b 100644
--- a/tools/nntool/generation/bindings.py
+++ b/tools/nntool/generation/bindings.py
@@ -15,9 +15,6 @@
 
 from abc import ABC, abstractmethod
 
-from .code_generators import (gen_gnode_arg, gen_imm_arg, gen_at_bindings,
-                              gen_at_func_bindings, gen_g_node_c_arg)
-
 TT_TENSOR_TYPES = {
     'TT_INPUT': 0,
     'TT_OUTPUT': 1,
@@ -25,12 +22,44 @@
     'TT_BIASES': 3
 }
 
+def gen_gnode_arg(direction, name):
+    return 'GNodeArg({}, "{}", 0)'.format(direction, name)
+
+
+def gen_g_arg(name):
+    return 'GArg("{}")'.format(name)
+
+
+def gen_g_node_c_arg(name):
+    return 'GNodeCArg("{}")'.format(name)
+
+
+def gen_imm_arg(symbol):
+    return "Imm({})".format(symbol)
+
+
+def gen_at_bindings(name, binding_list, code_block):
+    code_block.write('AddNode("{0}", Bindings({1}, {2}));'
+                     .format(name, len(binding_list), ", ".join(binding_list)))
+
+
+def gen_at_func_bindings(name, func_name, where, binding_list, code_block):
+    code_block.write('AddCallToNode("{0}", {1}, "{2}", Bindings({3}, {4}));'
+                     .format(name, where, func_name, len(binding_list), ", ".join(binding_list)))
+
 class Binding(ABC):
     @abstractmethod
     def gen_binding(self, generator):
         pass
 
 # pylint: disable=abstract-method
+class InfoListName(Binding):
+    def __init__(self, cname):
+        self.cname = cname
+
+    def gen_binding(self, generator):
+        return "{}_infos".format(self.cname)
+
 class GNodeArg(Binding):
     def __init__(self, direction):
         self.direction = direction
@@ -79,6 +108,14 @@ class BindingList(ABC):
     def gen_bindings(self, generator, code_block):
         pass
 
+class InfosList(BindingList):
+    def __init__(self, cname, infos):
+        self.cname = cname
+        self.infos = infos
+
+    def gen_bindings(self, _, code_block):
+        code_block.write("char {}_infos[] = {{{}}};".format(self.cname, ", ".join(self.infos)))
+
 class CommentBindingList(BindingList):
     def __init__(self, fmt, *args, **kwargs):
         self.comment = fmt.format(*args, **kwargs)
@@ -108,5 +145,3 @@ def gen_bindings(self, generator, code_block):
                              self.where,
                              [binding.gen_binding(generator) for binding in self.binding_list],
                              code_block)
-
-    
\ No newline at end of file
diff --git a/tools/nntool/generation/code_generator.py b/tools/nntool/generation/code_generator.py
index 03846e6a3..eac32e93c 100644
--- a/tools/nntool/generation/code_generator.py
+++ b/tools/nntool/generation/code_generator.py
@@ -14,135 +14,38 @@
 # along with this program.  If not, see <https://www.gnu.org/licenses/>.
 
 import logging
-import os
-
-from graph.types import (ActivationParameters, ConcatParameters,
-                         ConstantInputParameters, Conv2DParameters,
-                         ConvFusionParameters, FcParameters, FilterParameters,
-                         GlobalPoolParameters, InputParameters,
-                         MatrixAddParameters, MatScaleFusionParameters,
-                         OutputParameters, PoolingParameters,
-                         ReshapeParameters, SoftMaxParameters,
-                         TransposeParameters, MultiplicativeBiasParameters)
+
+from generation.generators import RegisteredGeneratorsMixin
+from generation.name_cache import NameCache
+from graph.types import (ConcatParameters, ConstantInputParameters,
+                         FilterParameters, InputParameters, OutputParameters,
+                         ReshapeParameters, TransposeParameters)
 from utils.node_id import NodeId
 
-from .bindings import (TT_TENSOR_TYPES, CommentBindingList,
-                       FunctionBindingList, GArgEdge, GArgNode, GNodeArgEdge,
-                       GNodeArgNode, Imm, NodeBindingList)
+from .at_types.gen_ctrl import gen_graph_ctrl, gen_kernel_ctrl
+from .at_types.tc_arg_info import LocalArgInfo
+from .at_types.tensor_stack import TensorStack
+from .autotiler_options import AUTO_TILER_OPTIONS, DEFAULT_GEN_OPTS
+from .bindings import (TT_TENSOR_TYPES, FunctionBindingList, GArgEdge,
+                       GArgNode, Imm)
 from .checksums import calc_value_checksum, checksum_func
 from .code_block import CodeBlock
-from .code_generators import (gen_3d_transpose, gen_const_info,
-                              gen_conv_pool_relu, gen_global_decl,
-                              gen_globalpool, gen_graph_ctrl, gen_input_decl,
-                              gen_kernel_ctrl, gen_linear_relu, gen_local_decl,
-                              gen_matrixadd, gen_matrixadddyn, gen_matscale,
-                              gen_output_decl, gen_pool_relu, gen_softmax,
-                              gen_stack_decl)
-from .memory_device_info import MemoryDeviceInfos
 from .write_constants import write_constants
+from generation.generators.globals.global_names import *
 
 LOG = logging.getLogger("nntool." + __name__)
 
-AUTO_TILER_OPTIONS = [
-    {
-        'name': 'KERNEL_BUFFER_PROMOTE', 'type': 'kernel',
-        'descr': 'When all user kernel arguments can fit into given L1 memory promote them to buffer', 'default': True},
-    {
-        'name': 'KERNEL_PARTIAL_BUFFER_PROMOTE', 'type': 'kernel',
-        'descr': 'When all tile of a user kernel argument across Input Features can fit into given L1 memory promote them to partial buffer', 'default': True},
-    {
-        'name': 'KERNEL_NOSOLUTION_ERROR', 'type': 'kernel',
-        'descr': 'Report an error when no tiling solution is found', 'default': True},
-    {
-        'name': 'GRAPH_MONITOR_CYCLES', 'type': 'graph',
-        'descr': 'Enable automatic cycle capture for each node of the graph', 'default': False},
-    {
-        'name': 'GRAPH_MONITOR_CVAR_NAME', 'type': 'graph',
-        'descr': 'When monitor cycles is on name of the C var array to receive results', 'default': 'AT_GraphPerf'},
-    {
-        'name': 'GRAPH_PRODUCE_NODE_NAMES', 'type': 'graph',
-        'descr': 'Enable production of an array containing the name of each graph node', 'default': False},
-    {
-        'name': 'GRAPH_PRODUCE_NODE_CVAR_NAME', 'type': 'graph',
-        'descr': 'When producing node names is on name of the C array receiving the names as strings', 'default': 'AT_GraphNodeNames'},
-    {
-        'name': 'GRAPH_PRODUCE_OPERINFOS', 'type': 'graph',
-        'descr': 'Enable production of number of macs for each layer', 'default': False},
-    {
-        'name': 'GRAPH_PRODUCE_OPERINFOS_CVAR_NAME', 'type': 'graph',
-        'descr': 'When Number of oper Infos is on name of the C array receiving mac infos for each node', 'default': 'AT_GraphOperInfosNames'},
-    {
-        'name': 'GRAPH_REORDER_CONSTANT_IN', 'type': 'graph',
-        'descr': 'Enable reodering of constant inputs in order to transform 2D accesses into 1D accesses', 'default': True},
-    {
-        'name': 'GRAPH_TRACE_EXEC', 'type': 'graph', 'descr': 'Enable trace of activity', 'default': True},
-    {
-        'name': 'GRAPH_NOINLINE_NODE', 'type': 'graph',
-        'descr': 'If on, all user kernel function are marked as noinline', 'default': False},
-    {
-        'name': 'GRAPH_PREF_L3_EXEC', 'type': 'graph',
-        'descr': 'In case a symbol must be allocated in L3 for execution this is the prefered memory', 'default': 'AT_MEM_L3_HRAM'},
-    {
-        'name': 'GRAPH_CONST_EXEC_FROM_FLASH', 'type': 'graph',
-        'descr': 'If on, constant symbols executes from home location', 'default': False},
-    {
-        'name': 'GRAPH_PREF_L3_HOME', 'type': 'graph',
-        'descr': 'For constant symbols which L3 flash prefered memory', 'default': 'AT_MEM_L3_HFLASH'},
-]
-
-DEFAULT_GEN_OPTS = {
-    'default_input_home_location': 'AT_MEM_L2',
-    'default_input_exec_location': 'AT_MEM_L2',
-    'default_output_home_location': 'AT_MEM_L2',
-    'default_output_exec_location': 'AT_MEM_L2',
-    'default_global_home_location': 'AT_MEM_L3_HFLASH',
-    'default_global_exec_location': 'AT_MEM_UNDEF',
-    'default_local_location': 'AT_MEM_UNDEF',
-    'l2_ram_ext_managed': True,
-    'l3_ram_ext_managed': False,
-    'l3_flash_ext_managed': False,
-    'generate_checksums': False,
-    'include_project_header': False,
-    'checksum_file': '',
-    'dump_tensors': False,
-    'tensor_directory': '.',
-    'model_directory': '.',
-    'model_file': 'model.c',
-    'at_ver': 3,
-    'memory_devices': MemoryDeviceInfos.default()
-}
-
-DEFAULT_GEN_OPTS.update({(elem['name'].lower()): elem['default'] for elem in AUTO_TILER_OPTIONS})
-
-DEFAULT_GEN_OPTS_DESCRIPTIONS = {
-    'default_input_home_location': 'default home location for inputs for code generation',
-    'default_input_exec_location': 'default exec location for inputs for code generation',
-    'default_output_home_location': 'default home location for outputs for code generation',
-    'default_output_exec_location': 'default exec location for outputs for code generation',
-    'default_global_home_location': 'default home location for globals for code generation',
-    'default_global_exec_location': 'default exec location for globals for code generation',
-    'default_local_location': 'default location for locals for code generation',
-    'l2_ram_ext_managed': 'Externally manage L2 RAM',
-    'l3_ram_ext_managed': 'Externally manage L3 RAM',
-    'l3_flash_ext_managed': 'Externally manage L3 flash',
-    'include_project_header': 'Include a header file called "GraphName.h" in generated code',
-    'tensor_directory': 'directory to dump tensors to',
-    'model_directory': 'directory to dump model to',
-    'model_file': 'filename for model',
-    'at_ver': 'AutoTiler version',
-    'dump_tensors': 'write the tensors to files. currently only works in emulation mode.',
-}
-
-DEFAULT_GEN_OPTS_DESCRIPTIONS.update(
-    {elem['name'].lower(): elem['descr'] for elem in AUTO_TILER_OPTIONS})
-
-
-class CodeGenerator():
+
+class CodeGenerator(RegisteredGeneratorsMixin):
     def __init__(self, G, naming_convension, opts=None):
         self.G = G
         self.naming_convension = naming_convension
-        self.name_cache = {}
+        self.name_cache = NameCache()
         self.bindings = []
+        self.kernels = []
+        self.globals = []
+        self.stacked_tensors = []
+        self.locals = []
         self.inputs_by_name = {}
         self.func_bindings = []
         self.include_files = ["CNN_Basic_Kernels.h"]
@@ -151,16 +54,11 @@ def __init__(self, G, naming_convension, opts=None):
             self.opts.update(opts)
         if self.opts['include_project_header']:
             self.include_files.append(self.project_name + '.h')
-        has_dump = False
         has_vcd = False
         for step in G.graph_state.steps:
             node = step['node']
             if node.at_options.vcd_trace_on is not None:
                 has_vcd = True
-            if node.at_options.dump_tensors is not None:
-                has_dump = True
-        if self.opts['dump_tensors'] or has_dump:
-            self.include_files.append('helpers.h')
         if has_vcd:
             self.include_files.append('hal/gvsoc/gvsoc.h')
 
@@ -168,6 +66,14 @@ def __init__(self, G, naming_convension, opts=None):
     def project_name(self):
         return self.naming_convension.get_project_name()
 
+    @property
+    def basic_ker_header(self):
+        if self.G.graph_identity.quantization_type == 'SQ8':
+            return "CNN_BasicKernels_SQ8.h"
+        if self.G.graph_identity.quantization_type == 'POW2':
+            return "CNN_BasicKernels.h"
+        return ValueError("Quantization type not known %s", self.G.graph_identity.quantization_type)
+
     def get_edge_name(self, eparams):
         return self.name_cache[eparams]['edge']
 
@@ -226,8 +132,6 @@ def real_down_connection(G, eparams):
         return oedge
 
     def local_generator(self, indent=0):
-        code_block = CodeBlock(starting_indent=indent + 1)
-        num_locals = 0
         edges = set(edge.params for edge in self.G.edges())
         sorted_edges = list(edges)
         sorted_edges.sort(key=lambda eparams: eparams.creating_step)
@@ -245,23 +149,30 @@ def local_generator(self, indent=0):
                              eparams.creating_node.step_idx, eparams.creating_node.name,
                              rout_eparams.creating_node.name, rout_eparams.creating_node.step_idx,
                              rout_eparams.creating_step, cname)
-                    self.name_cache[eparams] = {'edge': cname}
+                    self.name_cache.set(eparams, 'edge', cname)
                     continue
 
             rin_eparams, set_real = self.real_up_connection(self.G, eparams)
-            if set_real:
-                # Code will not be generated for reshape or empty transpose so the input to the
-                # following node is the input to this node
-                cname = self.naming_convension.get_edge_name(rin_eparams.creating_node.name,
-                                                             rin_eparams.creating_step,
-                                                             rin_eparams.edge_type,
-                                                             rin_eparams.edge_order)
-                LOG.info("edge from step %s %s is not used and is replaced with edge from step %s:%s %s cname: %s",
-                         eparams.creating_node.step_idx, eparams.creating_node.name,
-                         rin_eparams.creating_node.name, rin_eparams.creating_node.step_idx,
-                         rin_eparams.creating_step, cname)
-                self.name_cache[eparams] = {'edge': cname}
+            if rin_eparams.edge_type == "out":
+                # The edge was marked as an output so find the real edge down
+                rin_eparams = self.real_down_connection(self.G, rin_eparams).params
+                self.name_cache.set(eparams, 'edge', rin_eparams.name)
                 continue
+            else:
+                if set_real:
+                    # Code will not be generated for reshape or empty transpose so the input to the
+                    # following node is the input to this node
+                    cname = self.naming_convension.get_edge_name(rin_eparams.creating_node.name,
+                                                                 rin_eparams.creating_step,
+                                                                 rin_eparams.edge_type,
+                                                                 rin_eparams.edge_order)
+                    LOG.info("edge from step %s %s is not used and is replaced with edge from step %s:%s %s cname: %s",
+                             eparams.creating_node.step_idx, eparams.creating_node.name,
+                             rin_eparams.creating_node.name, rin_eparams.creating_node.step_idx,
+                             rin_eparams.creating_step, cname)
+                    self.name_cache.set(eparams, 'edge', cname)
+                    continue
+
             cname = self.naming_convension.get_edge_name(eparams.creating_node.name,
                                                          eparams.creating_step,
                                                          eparams.edge_type,
@@ -269,190 +180,129 @@ def local_generator(self, indent=0):
 
             out_q = self.G.quantization[NodeId(eparams.creating_node, None)]\
                 .out_qs[eparams.creating_node_idx]
-            self.name_cache[eparams] = {'edge': cname}
+            self.name_cache.set(eparams, 'edge', cname)
             if eparams.edge_type != "in_out" or eparams.is_alias:
                 continue
-            if num_locals != 0:
+            self.locals.append(LocalArgInfo(out_q.ctype, eparams.name,
+                                            self.opts['default_local_location']))
+
+        code_block = CodeBlock(starting_indent=indent)
+        code_block.write_start("CArgs({},", len(self.locals))
+        code_block.indent()
+        first = True
+        for local_def in self.locals:
+            if first:
+                first = False
+            else:
                 code_block.append_last(',')
-            gen_local_decl(eparams, out_q, self.opts['default_local_location'], code_block)
-            num_locals += 1
+            code_block.write(str(local_def))
         code_block.deindent()
-        code_block.write_start("CArgs({},", num_locals)
         code_block.write(")")
         return str(code_block)
 
     def stack_generator(self, indent=0):
-        if self.opts['at_ver'] < 2:
-            LOG.warning("AutoTiler version is less than 3. Stacked tensors are not supported.")
         edges = set(edge.params for edge in self.G.edges())
         sorted_edges = list(edges)
         sorted_edges.sort(key=lambda eparams: eparams.creating_step)
         concat_edges = list([eparams for eparams in sorted_edges if isinstance(
             eparams.creating_node, ConcatParameters)])
-        code_block = CodeBlock(starting_indent=indent)
-        if len(concat_edges) == 0:
-            code_block.comment("no concats in graph so not stacked tensors created")
         for eparams in concat_edges:
             node = eparams.creating_node
             cname_out = self.name_cache[eparams]['edge']
             in_edge_names = [self.name_cache[edge.params]['edge']
                              for edge in self.G.in_edges(node.name)]
-            gen_stack_decl(cname_out, in_edge_names, code_block)
+            self.stacked_tensors.append(TensorStack(cname_out, in_edge_names))
+
+        code_block = CodeBlock(starting_indent=indent)
+        if len(self.stacked_tensors) == 0:
+            code_block.comment("no concats in graph so not stacked tensors created")
+        else:
+            for stacked_tensor in self.stacked_tensors:
+                code_block.write(str(stacked_tensor))
         return str(code_block)
 
     def global_generator(self, indent=0):
+        self.generate_inputs()
+        self.generate_constants()
+        self.generate_outputs()
         code_block = CodeBlock(starting_indent=indent + 1)
-
-        num_globals = self.generate_inputs(code_block)
-        num_globals = self.generate_constants(num_globals, code_block)
-        num_globals = self.generate_outputs(num_globals, code_block)
+        code_block.write("CArgs({}", len(self.globals))
+        code_block.indent()
+        first = False
+        for global_def in self.globals:
+            if first:
+                first = False
+            else:
+                code_block.append_last(',')
+            if global_def.comment is not None:
+                code_block.comment(global_def.comment)
+            code_block.write(str(global_def))
 
         code_block.deindent()
-        code_block.write_start("CArgs({},", num_globals)
         code_block.write(")")
         return str(code_block)
 
-    def generate_outputs(self, num_globals, code_block):
+    def generate_outputs(self):
         outputs = set()
         for node in self.G.output_nodes():
-            in_qs = self.G.quantization[NodeId(node)].in_qs
+            qrec = self.G.quantization[NodeId(node)]
             for edge in self.G.in_edges(node.name):
-                eparams = edge.params
+                eparams, _ = self.real_up_connection(self.G, edge.params)
                 if eparams in outputs:
                     continue
+                eparams.edge_type = "out"
                 outputs.add(eparams)
-                if num_globals != 0:
-                    code_block.append_last(',')
-                gen_output_decl(eparams,
-                                in_qs[edge.to_idx],
-                                self.opts['default_output_home_location'],
-                                self.opts['default_output_exec_location'],
-                                code_block,
-                                allocate=node.at_options.allocate)
-                num_globals += 1
-        return num_globals
-
-    def generate_constants(self, num_globals, code_block):
-        for step_idx, pnode, _, fnode in self.G.nodes_iterator():
+                self.execute_phase("outputs", node, qrec, edge)
+
+    def generate_constants(self):
+        for _, pnode, _, fnode in self.G.nodes_iterator():
             anode = pnode if not fnode else fnode
-            if isinstance(anode, FilterParameters):
-                qrec = self.G.quantization[NodeId(pnode, fnode)]
-                cname = self.naming_convension.\
-                    get_global_name(pnode.name, step_idx, pnode, "weights")
-                c_entry = self.name_cache.get(anode)
-                if not c_entry:
-                    c_entry = {}
-                    self.name_cache[anode] = c_entry
-                c_entry['weights'] = cname
-                if num_globals != 0:
-                    code_block.append_last(',')
-                const_info = gen_const_info(os.path.join(self.opts['tensor_directory'],
-                                                         cname+".tensor"), qrec.weights_q)
-                gen_global_decl(cname, qrec.weights_q,
-                                self.opts['default_global_home_location'],
-                                self.opts['default_global_exec_location'],
-                                code_block,
-                                const_info=const_info)
-                num_globals += 1
-
-                # biases are always generated even if they are 0
-                if anode.has_bias:
-                    biases_q = qrec.biases_q
-                else:
-                    biases_q = qrec.out_q
-
-                cname = self.naming_convension.\
-                    get_global_name(pnode.name, step_idx, pnode, "biases")
-                c_entry['biases'] = cname
-                if num_globals != 0:
-                    code_block.append_last(',')
-                const_info = gen_const_info(os.path.join(self.opts['tensor_directory'],
-                                                         cname+".tensor"), biases_q)
-                gen_global_decl(cname, biases_q,
-                                self.opts['default_global_home_location'],
-                                self.opts['default_global_exec_location'],
-                                code_block,
-                                const_info=const_info)
-                num_globals += 1
-
-                if isinstance(anode, MultiplicativeBiasParameters) and anode.has_mul_bias:
-                    mul_biases_q = qrec.mul_biases_q
-
-                    cname = self.naming_convension.get_global_name(pnode.name, step_idx,
-                                                                   pnode, "mul_biases")
-                    c_entry['mul_biases'] = cname
-                    if num_globals != 0:
-                        code_block.append_last(',')
-                    const_info = gen_const_info(os.path.join(self.opts['tensor_directory'],
-                                                             cname+".tensor"), mul_biases_q)
-                    gen_global_decl(cname, mul_biases_q,
-                                    self.opts['default_global_home_location'],
-                                    self.opts['default_global_exec_location'],
-                                    code_block,
-                                    const_info=const_info)
-                    num_globals += 1
-            elif isinstance(anode, ConstantInputParameters):
-                qrec = self.G.quantization[NodeId(pnode, fnode)]
-                # the name cache will be updated when all the edges are analysed by local_generator
-                # the name of the constant is attached to the output edge so find it
-                out_edge = self.G.out_edges(pnode.name)[0]
-                eparams = out_edge.params
-                cname = self.naming_convension.get_edge_name(eparams.creating_node.name,
-                                                             eparams.creating_step,
-                                                             eparams.edge_type,
-                                                             eparams.edge_order)
-                if num_globals != 0:
-                    code_block.append_last(',')
-                const_info = gen_const_info(os.path.join(self.opts['tensor_directory'],
-                                                         cname+".tensor"), qrec.out_qs[0])
-                gen_global_decl(cname, qrec.out_qs[0],
-                                self.opts['default_global_home_location'],
-                                self.opts['default_global_exec_location'],
-                                code_block,
-                                const_info=const_info)
-                num_globals += 1
-        return num_globals
-
-    def generate_inputs(self, code_block):
-        num_globals = 0
+            qrec = self.G.quantization.get(NodeId(pnode, fnode))
+            self.execute_phase("globals", anode, qrec, pnode, fnode)
+
+    def generate_inputs(self):
         inputs = set()
         for node in self.G.input_nodes():
-            out_qs = self.G.quantization[NodeId(node)].out_qs
+            qrec = self.G.quantization[NodeId(node)]
             for edge in self.G.out_edges(node.name):
                 eparams = edge.params
                 if eparams in inputs:
                     continue
-                if num_globals != 0:
-                    code_block.append_last(',')
                 inputs.add(eparams)
-                gen_input_decl(eparams,
-                               out_qs[edge.from_idx],
-                               self.opts['default_input_home_location'],
-                               self.opts['default_input_exec_location'],
-                               code_block,
-                               allocate=node.at_options.allocate)
-                num_globals += 1
-        return num_globals
+                self.execute_phase("inputs", node, qrec, edge)
+
+    def cnn_generators(self):
+        if self.G.graph_identity.quantization_type == 'SQ8':
+            return "\"CNN_Generators_SQ8.h\""
+        if self.G.graph_identity.quantization_type == 'POW2':
+            return "\"CNN_Generators.h\""
+        raise ValueError()
+
+    def cnn_kernels(self):
+        if self.G.graph_identity.quantization_type == 'SQ8':
+            return "\"CNN_BasicKernels_SQ8.h\""
+        if self.G.graph_identity.quantization_type == 'POW2':
+            return "\"CNN_BasicKernels.h\""
+        raise ValueError()
 
     def extra_includes_generator(self, indent=0):
         code_block = CodeBlock(starting_indent=indent)
+        code_block.write("#include \"nntool_extra_generators.h\"")
+        return str(code_block)
+
+    def extra_includes_kernels(self, indent=0):
+        code_block = CodeBlock(starting_indent=indent)
+        code_block.write("\"nntool_extra_kernels.h\"")
         return str(code_block)
 
     def kernel_generator(self, indent=0):
         code_block = CodeBlock(starting_indent=indent)
-        dump_input = False
-        at_ver = self.opts['at_ver']
-        for step_idx, node, _, fnode in self.G.nodes_iterator():
-            if fnode:
-                continue
+        for step_idx, node, _, _ in self.G.nodes_iterator(yield_fusions=False):
             name = node.name
             cname = self.naming_convension.get_node_name(name, step_idx, node)
             if node.at_options.vcd_trace_on is not None:
                 self.add_vcd_trace_binding(cname, node.at_options.vcd_trace_on)
-            self.name_cache[node] = {'node': cname}
-            if not isinstance(node, (InputParameters, OutputParameters,
-                                     ConcatParameters, ReshapeParameters)):
-                code_block.comment("generator for {}", name)
+            self.name_cache.set(node, 'node', cname)
             in_eparams = self.G.get_in_params(name)
             out_eparams = self.G.get_out_params(name)
             try:
@@ -461,123 +311,27 @@ def kernel_generator(self, indent=0):
                 LOG.error("Quantization record not found for node %s", node.name)
                 raise err
 
-            if isinstance(node, Conv2DParameters):
-                self.set_conv_bindings(step_idx, in_eparams, out_eparams, cname, node, qrec,
-                                       dump_tensors=self.opts['dump_tensors'] or node.at_options.dump_tensors)
-                gen_conv_pool_relu(cname, node, qrec, None,
-                                   None, None, None, code_block=code_block, at_ver=at_ver,
-                                   gen_ctrl=node.get_gen_ctrl())
-            elif isinstance(node, PoolingParameters):
-                self.set_in_out_bindings(in_eparams, out_eparams, cname, node, qrec)
-                gen_conv_pool_relu(cname, None, None,
-                                   node, qrec, None, None, code_block=code_block, at_ver=at_ver,
-                                   gen_ctrl=node.get_gen_ctrl())
-            elif isinstance(node, ActivationParameters):
-                self.set_in_out_bindings(in_eparams, out_eparams, cname, node, qrec)
-                gen_conv_pool_relu(cname, None, None,
-                                   None, None, node, qrec, code_block=code_block, at_ver=at_ver,
-                                   gen_ctrl=node.get_gen_ctrl())
-            elif isinstance(node, FcParameters):
-                self.set_fc_bindings(step_idx, in_eparams, out_eparams, cname, node, qrec,
-                                     dump_tensors=self.opts['dump_tensors'] or node.at_options.dump_tensors)
-                gen_linear_relu(cname, node, qrec, None, None, code_block=code_block,
-                                at_ver=at_ver, gen_ctrl=node.get_gen_ctrl())
-            elif isinstance(node, GlobalPoolParameters):
-                self.set_in_out_bindings(in_eparams, out_eparams, cname, node, qrec)
-                gen_globalpool(cname, node, qrec, code_block=code_block, at_ver=at_ver)
-            elif isinstance(node, SoftMaxParameters):
-                self.set_softmax_bindings(in_eparams, out_eparams, cname, node, qrec)
-                gen_softmax(cname, node, qrec, code_block=code_block, at_ver=at_ver)
-            elif isinstance(node, ConvFusionParameters):
-                cnodes = node.contained_nodes()
-                quants = [self.G.quantization[NodeId(node, fnode)] for fnode in cnodes]
-                if node.fusion_type == "conv_active_pool":
-                    self.set_conv_bindings(step_idx, in_eparams, out_eparams,
-                                           cname, cnodes[0], quants[0], out_q=quants[1],
-                                           dump_tensors=self.opts['dump_tensors'] or node.at_options.dump_tensors)
-                    gen_conv_pool_relu(cname, cnodes[0], quants[0], cnodes[2], quants[2],
-                                       cnodes[1], quants[1], code_block=code_block, at_ver=at_ver,
-                                       gen_ctrl=node.get_gen_ctrl())
-                elif node.fusion_type == "conv_pool_active":
-                    self.set_conv_bindings(step_idx, in_eparams, out_eparams,
-                                           cname, cnodes[0], quants[0], out_q=quants[2],
-                                           dump_tensors=self.opts['dump_tensors'] or node.at_options.dump_tensors)
-                    gen_conv_pool_relu(cname, cnodes[0], quants[0], cnodes[1], quants[1],
-                                       cnodes[2], quants[2], code_block=code_block, at_ver=at_ver,
-                                       gen_ctrl=node.get_gen_ctrl())
-                elif node.fusion_type == "conv_active":
-                    self.set_conv_bindings(step_idx, in_eparams, out_eparams,
-                                           cname, cnodes[0], quants[0], out_q=quants[1],
-                                           dump_tensors=self.opts['dump_tensors'] or node.at_options.dump_tensors)
-                    gen_conv_pool_relu(cname, cnodes[0], quants[0], None, None, cnodes[1],
-                                       quants[1], code_block=code_block, at_ver=at_ver,
-                                       gen_ctrl=node.get_gen_ctrl())
-                elif node.fusion_type == "conv_pool":
-                    self.set_conv_bindings(step_idx, in_eparams, out_eparams,
-                                           cname, cnodes[0], quants[0], out_q=quants[1],
-                                           dump_tensors=self.opts['dump_tensors'] or node.at_options.dump_tensors)
-                    gen_conv_pool_relu(cname, cnodes[0], quants[0], cnodes[1], quants[1], None,
-                                       None, code_block=code_block, at_ver=at_ver, gen_ctrl=node.get_gen_ctrl())
-                elif node.fusion_type == "linear_active":
-                    self.set_fc_bindings(step_idx, in_eparams, out_eparams,
-                                         cname, cnodes[0], quants[0], out_q=quants[1],
-                                         dump_tensors=self.opts['dump_tensors'] or node.at_options.dump_tensors)
-                    gen_linear_relu(cname, cnodes[0], quants[0],
-                                    cnodes[1], quants[1], code_block=code_block, at_ver=at_ver,
-                                    gen_ctrl=node.get_gen_ctrl())
-                elif node.fusion_type == "pool_active":
-                    self.set_in_out_bindings(in_eparams, out_eparams, cname,
-                                             node, qrec, out_q=quants[1])
-                    gen_pool_relu(cname, cnodes[0], quants[0],
-                                  cnodes[1], quants[1], code_block=code_block, at_ver=at_ver,
-                                  gen_ctrl=node.get_gen_ctrl())
-                else:
-                    raise NotImplementedError("this fusion type is not implemented")
-            elif isinstance(node, MatScaleFusionParameters):
-                if at_ver < 3:
-                    raise NotImplementedError(
-                        "matscale not imlemented before version 3 of AUtoTiler")
-                self.set_matscale_bindings(in_eparams, out_eparams, cname, node, qrec)
-                gen_matscale(cname, node, qrec, code_block=code_block)
-            elif isinstance(node, MatrixAddParameters):
-                self.set_matrixadd_bindings(in_eparams, out_eparams, cname, node, qrec)
-                if qrec.in_qs[0].q == qrec.in_qs[1].q and qrec.in_qs[0].q == qrec.out_qs[0].q:
-                    gen_matrixadd(cname, node, qrec, code_block=code_block, at_ver=at_ver)
-                else:
-                    gen_matrixadddyn(cname, node, qrec, code_block=code_block, at_ver=at_ver)
-            elif isinstance(node, ReshapeParameters):
+            if isinstance(node, ReshapeParameters):
                 if node.transpose_in is not None or node.transpose_out is not None:
                     LOG.error("Don't know how to generate kernel \
                         for a reshape that has a transpose.")
                     return ""
                 continue
-            elif isinstance(node, TransposeParameters):
-                if node.transpose_dimension == 1:
-                    continue
-                if node.transpose_dimension < 2 or node.transpose_dimension > 3:
-                    raise NotImplementedError("only 2D or 3D transposes are currently supported")
-                code_block.comment("transpose from {} to {}", node.in_dims[0], node.out_dims[0])
-                self.set_in_out_bindings(in_eparams, out_eparams, cname, node, qrec)
-                gen_3d_transpose(cname, node, qrec, code_block=code_block)
-            elif isinstance(node, (InputParameters, ConstantInputParameters)):
-                if self.opts['dump_tensors'] or node.at_options.dump_tensors:
-                    dump_input = True
-                continue
-            elif isinstance(node, (OutputParameters)):
+            elif isinstance(node, (InputParameters, OutputParameters, ConstantInputParameters)):
                 continue
             elif not isinstance(node, (ConcatParameters)):
-                LOG.error("Don't know how to generate kernel for parameter type %s. \
-                    Perhaps you need to run some fusions.", node.__class__.__name__)
-                return ""
+                self.execute_phase("bindings", node, qrec, in_eparams, out_eparams, cname)
+                if not self.execute_phase("kernels", node, qrec, in_eparams, out_eparams, cname):
+                    raise NotImplementedError(("Don't know how to generate kernel for parameter type %s %s. " +
+                                               "Perhaps you need to run some fusions.") % (node.name,
+                                                                                           node.__class__.__name__))
+
             # if self.opts['generate_checksums']:
             #     if last_node_was_input:
             #         self.add_checksum_binding(cname, name, step_idx, in_eparams, True)
             #     self.add_checksum_binding(cname, name, step_idx, out_eparams, False)
-            if dump_input:
-                self.add_dump_tensors_binding(cname, name, step_idx, in_eparams, qrec, True)
-                dump_input = False
-            if self.opts['dump_tensors'] or node.at_options.dump_tensors:
-                self.add_dump_tensors_binding(cname, name, step_idx, out_eparams, qrec, False)
+        for kernel in self.kernels:
+            kernel.code(code_block)
         return str(code_block)
 
     def add_vcd_trace_binding(self, cname, enable):
@@ -588,60 +342,6 @@ def add_vcd_trace_binding(self, cname, enable):
                                 Imm(0),
                                 before=True))
 
-    def add_dump_tensors_binding(self, cname, name, step_idx, eparams, qrec, is_input):
-        node = self.G[name]
-        if is_input:
-            dims = node.in_dims[0]
-            qtype = qrec.in_qs[0]
-            tensor_type = TT_TENSOR_TYPES['TT_INPUT']
-            step_idx = self.G.in_edges(name)[0].from_node.step_idx
-        else:
-            dims = node.out_dims[0]
-            qtype = qrec.out_qs[0]
-            tensor_type = TT_TENSOR_TYPES['TT_OUTPUT']
-
-        self.func_bindings.append(
-            FunctionBindingList(cname,
-                                "dt_write_tensor",
-                                GArgEdge(eparams[0]),
-                                Imm(step_idx),
-                                Imm(tensor_type),
-                                Imm(dims.size()),
-                                Imm(qtype.bits),
-                                Imm(len(dims.shape)),
-                                *[Imm(v) for v in dims.shape],
-                                before=is_input))
-
-    def add_dump_params_binding(self, cname, node: FilterParameters, qrec, step_idx):
-        dims = node.filter
-        qtype = qrec.weights_q
-        tensor_type = TT_TENSOR_TYPES['TT_WEIGHTS']
-        self.func_bindings.append(
-            FunctionBindingList(cname,
-                                "dt_write_tensor",
-                                GArgNode(node, 'weights'),
-                                Imm(step_idx),
-                                Imm(tensor_type),
-                                Imm(dims.size()),
-                                Imm(qtype.bits),
-                                Imm(len(dims.actual_shape)),
-                                *[Imm(v) for v in dims.actual_shape],
-                                before=True))
-        if node.has_bias:
-            qtype = qrec.biases_q
-            tensor_type = TT_TENSOR_TYPES['TT_BIASES']
-            self.func_bindings.append(
-                FunctionBindingList(cname,
-                                    "dt_write_tensor",
-                                    GArgNode(node, 'biases'),
-                                    Imm(step_idx),
-                                    Imm(tensor_type),
-                                    Imm(node.out_dims[0].c),
-                                    Imm(qtype.bits),
-                                    Imm(1),
-                                    Imm(node.out_dims[0].c),
-                                    before=True))
-
     def add_checksum_binding(self, cname, name, step_idx, eparams, before):
         node = self.G[name]
         if before:
@@ -658,130 +358,34 @@ def add_checksum_binding(self, cname, name, step_idx, eparams, before):
                                 before=before)
         )
 
-    def set_in_out_bindings(self, in_eparams, out_eparams, cname, node, node_q, out_q=None):
-        if out_q is None:
-            out_q = node_q
-        self.bindings.append(
-            CommentBindingList("Node {} inq {} outq {}", node.name,
-                               node_q.in_qs[0].q, out_q.out_qs[0].q)
-        )
-        self.bindings.append(
-            NodeBindingList(cname, GNodeArgEdge(in_eparams[0]),
-                            GNodeArgEdge(out_eparams[0], "GNA_OUT")))
-
-    def set_matrixadd_bindings(self, in_eparams, out_eparams, cname, params, node_q):
-        self.bindings.append(
-            CommentBindingList("Node {} inq1 {} inq2 {} outq {}", params.name,
-                               node_q.in_qs[0].q, node_q.in_qs[1].q, node_q.out_qs[0].q)
-        )
-        self.bindings.append(
-            NodeBindingList(cname, GNodeArgEdge(in_eparams[0]), GNodeArgEdge(in_eparams[1]),
-                            GNodeArgEdge(out_eparams[0], "GNA_OUT")))
-
-    def set_matscale_bindings(self, in_eparams, out_eparams, cname, params, node_q):
-        if self.opts['at_ver'] < 3:
-            raise NotImplementedError("matscale is only implemented in AutoTiler v3")
-        if params.fusion_type == "vec_scalar":
-            self.bindings.append(
-                CommentBindingList("Node {} inq1 {} inq2 {} inq3 {} outq {}", params.name,
-                                   node_q.in_qs[0].q, node_q.in_qs[1].q, node_q.in_qs[2].q, node_q.out_qs[0].q)
-            )
-            self.bindings.append(
-                NodeBindingList(cname, GNodeArgEdge(in_eparams[0]), GNodeArgEdge(in_eparams[1]), GNodeArgEdge(in_eparams[2]),
-                                GNodeArgEdge(out_eparams[0], "GNA_OUT")))
-        else:
-            self.bindings.append(
-                CommentBindingList("Node {} inq1 {} inq2 {} outq {}", params.name,
-                                   node_q.in_qs[0].q, node_q.in_qs[1].q, node_q.out_qs[0].q)
-            )
-            self.bindings.append(
-                NodeBindingList(cname, GNodeArgEdge(in_eparams[0]), GNodeArgEdge(in_eparams[1]),
-                                GNodeArgEdge(out_eparams[0], "GNA_OUT")))
-
-    def set_softmax_bindings(self, in_eparams, out_eparams, cname, params, node_q):
-        self.bindings.append(
-            CommentBindingList("Node {} inq {} outq {}", params.name,
-                               node_q.in_qs[0].q, node_q.out_qs[0].q)
-        )
-        if self.opts['at_ver'] > 2:
-            self.bindings.append(
-                NodeBindingList(cname, GNodeArgEdge(in_eparams[0]),
-                                GNodeArgEdge(out_eparams[0], "GNA_OUT")))
-        else:
-            self.bindings.append(
-                NodeBindingList(cname, GNodeArgEdge(in_eparams[0]),
-                                GNodeArgEdge(out_eparams[0], "GNA_OUT"),
-                                Imm(node_q.in_qs[0].q)))
-
-    def set_conv_bindings(self, step_idx, in_eparams, out_eparams, cname, params, conv_q,
-                          out_q=None, dump_tensors=False):
-        if out_q is None:
-            out_q = conv_q
-        self.bindings.append(
-            CommentBindingList("Node {} inq {} weightsq {} outq {} biasesq {}", cname,
-                               conv_q.in_qs[0].q, conv_q.weights_q.q, out_q.out_qs[0].q, conv_q.biases_q.q)
-        )
-        if self.opts['at_ver'] > 2:
-            if params.has_mul_bias:
-                self.bindings.append(
-                    NodeBindingList(cname, GNodeArgEdge(in_eparams[0]), GNodeArgNode(params, 'weights'),
-                                    GNodeArgNode(params, 'biases'), GNodeArgNode(params, 'mul_biases'),
-                                    GNodeArgEdge(out_eparams[0], "GNA_OUT")))
-            else:
-                self.bindings.append(
-                    NodeBindingList(cname, GNodeArgEdge(in_eparams[0]), GNodeArgNode(params, 'weights'),
-                                    GNodeArgNode(params, 'biases'),
-                                    GNodeArgEdge(out_eparams[0], "GNA_OUT")))
-        else:
-            norm = conv_q.in_qs[0].q + conv_q.weights_q.q - out_q.out_qs[0].q
-            normbias = conv_q.in_qs[0].q + conv_q.weights_q.q - \
-                out_q.out_qs[0].q * 2 + conv_q.biases_q.q
-            self.bindings.append(
-                NodeBindingList(cname, GNodeArgEdge(in_eparams[0]), GNodeArgNode(params, 'weights'),
-                                GNodeArgNode(params, 'biases'),
-                                GNodeArgEdge(out_eparams[0], "GNA_OUT"),
-                                Imm(norm),
-                                Imm(normbias)))
-        if dump_tensors:
-            self.add_dump_params_binding(cname, params, conv_q, step_idx)
-
-    def set_fc_bindings(self, step_idx, in_eparams, out_eparams, cname,
-                        params, linear_q, out_q=None, dump_tensors=False):
-        if out_q is None:
-            out_q = linear_q
-        self.bindings.append(
-            CommentBindingList("Node {} inq {} weightsq {} outq {}", params.name,
-                               linear_q.in_qs[0].q, linear_q.weights_q.q, out_q.out_qs[0].q)
-        )
-        if self.opts['at_ver'] > 2:
-            self.bindings.append(
-                NodeBindingList(cname, GNodeArgEdge(in_eparams[0]), GNodeArgNode(params, 'weights'),
-                                GNodeArgNode(params, 'biases'),
-                                GNodeArgEdge(out_eparams[0], "GNA_OUT")))
-        else:
-            self.bindings.append(
-                NodeBindingList(cname, GNodeArgEdge(in_eparams[0]), GNodeArgNode(params, 'weights'),
-                                GNodeArgNode(params, 'biases'),
-                                GNodeArgEdge(out_eparams[0], "GNA_OUT"),
-                                Imm(linear_q.in_qs[0].q +
-                                    linear_q.weights_q.q - linear_q.out_qs[0].q),
-                                Imm(linear_q.in_qs[0].q + linear_q.weights_q.q - linear_q.biases_q.q)))
-        if dump_tensors:
-            self.add_dump_params_binding(cname, params, linear_q, step_idx)
-
     def write_constants(self):
-        write_constants(self.G, self.naming_convension, self.opts['tensor_directory'])
+        write_constants(self.globals, tensor_directory=self.opts['tensor_directory'])
+
+    def load_basic_kernel_library(self, indent=0):
+        code_block = CodeBlock(starting_indent=indent)
+        if self.G.graph_identity.quantization_type == 'SQ8':
+            code_block.write("LoadCNN_SQ8_Library();")
+            return str(code_block)
+        if self.G.graph_identity.quantization_type == 'POW2':
+            code_block.write("LoadCNNLibrary();")
+            return str(code_block)
+        return ValueError("Quantization type not known %s", self.G.graph_identity.quantization_type)
 
     def header_generator(self, indent=0):
         code_block = CodeBlock(starting_indent=indent)
-        for step_idx, node, _, fnode in self.G.nodes_iterator():
+        for _, node, _, fnode in self.G.nodes_iterator():
             if fnode:
                 continue
-            if not isinstance(node, InputParameters) and not isinstance(node, OutputParameters):
-                continue
-            name = node.name
-            cname = self.naming_convension.get_node_name(name, step_idx, node)
+            cname = self.name_cache[node]['node']
             qrec = self.G.quantization[NodeId(node)]
-            for i, out_q in enumerate(qrec.out_qs):
-                code_block.write("#define {}_Q\t{}".format(cname, out_q.q))
-        return str(code_block)
\ No newline at end of file
+            code_block.comment(cname)
+            if self.G.graph_identity.quantization_type == 'SQ8':
+                code_block.write("#define {}_OUT_SCALE\t{}".format(cname, qrec.out_qs[0].scale[0]))
+                qscales, qnorms = qrec.out_qs[0].get_quantized_scale()
+                code_block.write("#define {}_OUT_QSCALE\t{}".format(cname, qscales[0]))
+                code_block.write("#define {}_OUT_QNORM\t{}".format(cname, qnorms[0]))
+
+            elif self.G.graph_identity.quantization_type == 'POW2':
+                for out_q in qrec.out_qs:
+                    code_block.write("#define {}_Q\t{}".format(cname, out_q.q))
+        return str(code_block)
diff --git a/tools/nntool/generation/default_template.py b/tools/nntool/generation/default_template.py
index 74c59fa5e..99c451cbe 100644
--- a/tools/nntool/generation/default_template.py
+++ b/tools/nntool/generation/default_template.py
@@ -11,7 +11,7 @@ def generator_template(G, gen):
 #include <stdint.h>
 #include <stdio.h>
 #include "AutoTilerLib.h"
-#include "CNN_Generators.h"
+#include ${gen.cnn_generators()}
 ${gen.extra_includes_generator(indent=0)}
 
 void ${gen.project_name}Model(unsigned int L1Memory, unsigned int L2Memory, unsigned int L3Memory, unsigned int L3Flash)
@@ -21,13 +21,13 @@ def generator_template(G, gen):
     // SetKernelOpts(KER_OPT_NONE, KER_OPT_BUFFER_PROMOTE);
     SetSymbolDynamics();
 
-    SetUsedFilesNames(0, 2, "CNN_BasicKernels.h", "${gen.project_name}.h");
+    SetUsedFilesNames(0, 3, ${gen.extra_includes_kernels(indent=0)}, ${gen.cnn_kernels()}, "${gen.project_name}.h");
     SetGeneratedFilesNames("${gen.project_name}Kernels.c", "${gen.project_name}Kernels.h");
 ${gen.options_generator(indent=1)}
 
 ${gen.memory_device_generator(indent=1)}
 
-    LoadCNNLibrary();
+${gen.load_basic_kernel_library(indent=1)}
 
 ${gen.kernel_generator(indent=1)}
 
@@ -67,7 +67,7 @@ def generator_template_v3(G, gen):
 #include <stdint.h>
 #include <stdio.h>
 #include "AutoTilerLib.h"
-#include "CNN_Generators.h"
+#include ${gen.cnn_generators()}
 ${gen.extra_includes_generator(indent=0)}
 
 void ${gen.project_name}Model(unsigned int L1Memory, unsigned int L2Memory, unsigned int L3Memory, unsigned int L3Flash)
@@ -77,13 +77,14 @@ def generator_template_v3(G, gen):
     // SetKernelOpts(KER_OPT_NONE, KER_OPT_BUFFER_PROMOTE);
     SetSymbolDynamics();
 
-    SetUsedFilesNames(0, 2, "CNN_BasicKernels.h", "${gen.project_name}.h");
+    SetUsedFilesNames(0, 3, ${gen.extra_includes_kernels(indent=0)}, ${gen.cnn_kernels()}, "${gen.project_name}.h");
     SetGeneratedFilesNames("${gen.project_name}Kernels.c", "${gen.project_name}Kernels.h");
 ${gen.options_generator(indent=1)}
 
 ${gen.memory_device_generator(indent=1)}
 
-    LoadCNNLibrary();
+${gen.load_basic_kernel_library(indent=1)}
+    LoadNNTools_Extra_Library();
 
 ${gen.kernel_generator(indent=1)}
 
@@ -121,7 +122,12 @@ def generator_template_v3(G, gen):
 # pylint: disable=unused-argument
 def generator_template_header(G, gen):
     '''
+#ifndef ${gen.project_name.upper()}_GRAPHINFO_H
+#define ${gen.project_name.upper()}_GRAPHINFO_H
+// Quantized scales can be used round_norm(val * QSCALE, QNORM) giving the real value in Q8
+
 ${gen.header_generator(indent=0)}
+#endif ${gen.project_name.upper()}_GRAPHINFO_H
 '''
 
 def execute_template(template_function, G, naming_convension=None, code_generator=None):
diff --git a/tools/nntool/generation/generators/__init__.py b/tools/nntool/generation/generators/__init__.py
new file mode 100644
index 000000000..776be0c7e
--- /dev/null
+++ b/tools/nntool/generation/generators/__init__.py
@@ -0,0 +1,69 @@
+from .bindings.pow2.softmax_bindings_generator import \
+    softmax_bindings_generator as pow2_softmax_bindings_generator
+from .bindings.mult8.softmax_bindings_generator import \
+    softmax_bindings_generator as mult8_softmax_bindings_generator
+from .bindings.mult8.conv_bindings_generator import \
+    conv_bindings_generator as mult8_conv_bondings_generator
+from .bindings.mult8.fc_binding_generator import \
+    fc_bindings_generator as mult8_fc_bindigns_generator
+from .bindings.mult8.inout_bindings_generator import \
+    in_out_bindings_generator as mult8_in_out_bindings_generator
+from .bindings.mult8.inout_infos_bindings_generator import \
+    in_out_infos_bindings_generator
+from .bindings.mult8.matadd_bindings_generator import \
+    matadd_bindings_generator as mult8_matadd_bindings_generator
+from .bindings.pow2.conv_bindings_generator import \
+    conv_bindings_generator as pow2_conv_bindings_generator
+from .bindings.pow2.fc_bindings_generator import \
+    fc_bindings_generator as pow2_fc_bindings_generator
+from .bindings.pow2.inout_bindings_generator import \
+    in_out_bindings_generator as pow2_in_out_bindings_generator
+from .bindings.pow2.matadd_bindings_generator import \
+    matadd_bindings_generator as pow2_matadd_bindings_generator
+from .bindings.pow2.matscale_bindings_generator import \
+    matscale_bindings_generator as pow2_matscale_bindings_generator
+from .bindings.pow2.transpose_bindings_generator import \
+    transpose_bindings_generator
+from .generator_decorators import (RegisteredGeneratorsMixin,
+                                   generation_function)
+from .globals.constant_input_generator import constant_input_globals_generator
+from .globals.filter_generator import filter_globals_generator
+from .globals.input_generator import inputs_input_generator
+from .globals.mult8_filter_generator import mult8_filter_globals_generator
+from .globals.mult8_infos_generator import mult8_infos_generator
+from .globals.output_generator import outputs_output_generator
+from .kernels.general.imageformat_kernels_generator import \
+    imageformat_kernels_generator
+from .kernels.mult8.conv_pool_relu_kernels_generator import \
+    conv_pool_relu_kernels_generator as mult8_conv_pool_relu_kernels_generator
+from .kernels.mult8.global_pool_kernels_generator import \
+    global_pool_kernels_generator as mult8_global_pool_kernels_generator
+from .kernels.mult8.linear_relu_kernels_generator import \
+    linear_relu_kernels_generator
+from .kernels.mult8.matadd_kernels_generator import matadd_kernel_generator
+from .kernels.mult8.pool_relu_kernels_generator import \
+    pool_act_kernels_generator as mult8_pool_act_kernels_generatoor
+from .kernels.mult8.softmax_kernels_generator import \
+    softmax_kernels_generator as mult8_softmax_kernels_generator
+from .kernels.mult8.three_d_transpose_kernels_generator import \
+    three_d_transpose_kernels_generator as \
+    mult8_three_d_transpose_kernels_generator
+from .kernels.mult8.mat_vect_mult_kernels_generator import \
+    mat_vect_mult_kernel_generator
+from .kernels.pow2.conv_pool_relu_kernels_generator import \
+    conv_pool_relu_kernels_generator as pow2_conv_pool_relu_kernels_generator
+from .kernels.pow2.global_pool_kernels_generator import \
+    global_pool_kernels_generator as pow2_global_pool_kernels_generator
+from .kernels.pow2.linear_relu_kernels_generator import \
+    linear_relu_kernels_generator as pow2_linear_relu_kernels_generator
+from .kernels.pow2.matadd_kernels_generator import \
+    matadd_kernels_generator as pow2_matadd_kernels_generator
+from .kernels.pow2.matscale_kernels_generator import \
+    matscale_kernels_generator as pow2_matscale_kernels_generator
+from .kernels.pow2.pool_relu_kernels_generator import \
+    pool_kernels_generator as pow2_pool_kernels_generator
+from .kernels.pow2.softmax_kernels_generator import \
+    softmax_kernels_generator as pow2_softmax_kernels_generator
+from .kernels.pow2.three_d_transpose_kernels_generator import \
+    three_d_transpose_kernels_generator as \
+    pow2_three_d_transpose_kernels_generator
diff --git a/tools/nntool/generation/generators/bindings/__init__.py b/tools/nntool/generation/generators/bindings/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tools/nntool/generation/generators/bindings/mult8/__init__.py b/tools/nntool/generation/generators/bindings/mult8/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tools/nntool/generation/generators/bindings/mult8/conv_bindings_generator.py b/tools/nntool/generation/generators/bindings/mult8/conv_bindings_generator.py
new file mode 100644
index 000000000..5f6581d1a
--- /dev/null
+++ b/tools/nntool/generation/generators/bindings/mult8/conv_bindings_generator.py
@@ -0,0 +1,79 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from generation.bindings import (CommentBindingList, GNodeArgEdge,
+                                 GNodeArgNode, NodeBindingList)
+from generation.generators.generator_decorators import (QREC_MULT8,
+                                                        generation_function)
+from generation.generators.globals.global_names import (BIASES, INFOS,
+                                                        MULSCALE, MULSHIFT,
+                                                        WEIGHTS)
+from graph.types import Conv2DParameters, ConvFusionParameters, ActivationParameters
+from utils.node_id import NodeId
+
+
+@generation_function("bindings", (Conv2DParameters, ConvFusionParameters, ActivationParameters), qrec_types=(QREC_MULT8,))
+def conv_bindings_generator(gen, node, qrec, in_eparams, out_eparams, cname) -> bool:
+    step_idx = node.step_idx
+    if isinstance(node, ActivationParameters):
+        set_act_bindings(gen, step_idx, in_eparams, out_eparams, cname, node, qrec)
+    elif isinstance(node, Conv2DParameters):
+        set_conv_bindings(gen, step_idx, in_eparams, out_eparams, cname, node, qrec)
+    elif isinstance(node, ConvFusionParameters):
+        cnodes = node.contained_nodes()
+        quants = [gen.G.quantization[NodeId(node, fnode)] for fnode in cnodes]
+        if node.fusion_type in ("conv_active_pool", "conv_active", "conv_pool"):
+            set_conv_bindings(gen, step_idx, in_eparams, out_eparams,
+                              cname, cnodes[0], quants[0], out_q=quants[1])
+        elif node.fusion_type == "conv_pool_active":
+            set_conv_bindings(gen, step_idx, in_eparams, out_eparams,
+                              cname, cnodes[0], quants[0], out_q=quants[2])
+        else:
+            return False
+    else:
+        return False
+    return True
+
+
+def set_conv_bindings(gen, step_idx, in_eparams, out_eparams, cname,
+                      conv_params, conv_q, out_q=None):
+    del step_idx
+    if out_q is None:
+        out_q = conv_q
+    gen.bindings.append(
+        CommentBindingList("Node {} inq {} weightsq {} outq {} biasesq {}", cname,
+                           conv_q.in_qs[0], conv_q.weights_q, out_q.out_qs[0], conv_q.biases_q)
+    )
+    gen.bindings.append(
+        NodeBindingList(cname, GNodeArgEdge(in_eparams[0]),
+                        GNodeArgNode(conv_params, WEIGHTS),
+                        GNodeArgNode(conv_params, BIASES),
+                        GNodeArgEdge(out_eparams[0], "GNA_OUT"),
+                        GNodeArgNode(conv_params, MULSCALE),
+                        GNodeArgNode(conv_params, MULSHIFT),
+                        GNodeArgNode(conv_params, INFOS)
+                        ))
+
+def set_act_bindings(gen, step_idx, in_eparams, out_eparams, cname,
+                     act_params, act_qrec):
+    del step_idx
+    gen.bindings.append(
+        CommentBindingList("Node {} inq {} outq {}", cname,
+                           act_qrec.in_qs[0], act_qrec.out_qs[0])
+    )
+    gen.bindings.append(
+        NodeBindingList(cname, GNodeArgEdge(in_eparams[0]),
+                        GNodeArgEdge(out_eparams[0], "GNA_OUT"),
+                        GNodeArgNode(act_params, INFOS)
+                        ))
diff --git a/tools/nntool/generation/generators/bindings/mult8/fc_binding_generator.py b/tools/nntool/generation/generators/bindings/mult8/fc_binding_generator.py
new file mode 100644
index 000000000..c790b1f1e
--- /dev/null
+++ b/tools/nntool/generation/generators/bindings/mult8/fc_binding_generator.py
@@ -0,0 +1,57 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+
+from generation.bindings import (CommentBindingList, GNodeArgEdge,
+                                 GNodeArgNode, NodeBindingList)
+from generation.generators.generator_decorators import (QREC_MULT8,
+                                                        generation_function)
+from generation.generators.globals.global_names import WEIGHTS, BIASES, MULSCALE, MULSHIFT, INFOS
+from graph.types import ConvFusionParameters, FcParameters
+from utils.node_id import NodeId
+
+
+@generation_function("bindings", (ConvFusionParameters, FcParameters), qrec_types=(QREC_MULT8, ))
+def fc_bindings_generator(gen, node, qrec, in_eparams, out_eparams, cname) -> bool:
+    step_idx = node.step_idx
+    if isinstance(node, FcParameters):
+        set_fc_bindings(gen, step_idx, in_eparams, out_eparams, cname, node, qrec)
+    elif isinstance(node, ConvFusionParameters) and node.fusion_type == "linear_active":
+        cnodes = node.contained_nodes()
+        quants = [gen.G.quantization[NodeId(node, fnode)] for fnode in cnodes]
+        set_fc_bindings(gen, step_idx, in_eparams, out_eparams,
+                        cname, cnodes[0], quants[0], out_q=quants[1])
+    else:
+        return False
+    return True
+
+
+def set_fc_bindings(gen, step_idx, in_eparams, out_eparams, cname,
+                    params, linear_q, out_q=None):
+    del step_idx
+    if out_q is None:
+        out_q = linear_q
+    gen.bindings.append(
+        CommentBindingList("Node {} inq {} weightsq {} outq {}", params.name,
+                           linear_q.in_qs[0], linear_q.weights_q, out_q.out_qs[0])
+    )
+    gen.bindings.append(
+        NodeBindingList(cname, GNodeArgEdge(in_eparams[0]),
+                        GNodeArgNode(params, WEIGHTS),
+                        GNodeArgNode(params, BIASES),
+                        GNodeArgEdge(out_eparams[0], "GNA_OUT"),
+                        GNodeArgNode(params, MULSCALE),
+                        GNodeArgNode(params, MULSHIFT),
+                        GNodeArgNode(params, INFOS)
+                        ))
diff --git a/tools/nntool/generation/generators/bindings/mult8/inout_bindings_generator.py b/tools/nntool/generation/generators/bindings/mult8/inout_bindings_generator.py
new file mode 100644
index 000000000..f50a654ae
--- /dev/null
+++ b/tools/nntool/generation/generators/bindings/mult8/inout_bindings_generator.py
@@ -0,0 +1,40 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from generation.bindings import (CommentBindingList, GNodeArgEdge,
+                                 NodeBindingList)
+from generation.generators.generator_decorators import (QREC_MULT8,
+                                                        generation_function)
+from graph.types import ImageFormatParameters, TransposeParameters
+
+
+@generation_function("bindings", (TransposeParameters, ImageFormatParameters), qrec_types=(QREC_MULT8, ))
+def in_out_bindings_generator(gen, node, qrec, in_eparams, out_eparams, cname) -> bool:
+    if isinstance(node, TransposeParameters):
+        _, real_transpose = node.real_shape()
+        if len(real_transpose) <= 1:
+            return True
+    set_in_out_bindings(gen, in_eparams, out_eparams, cname, node, qrec)
+
+
+def set_in_out_bindings(gen, in_eparams, out_eparams, cname, node, node_q, out_q=None):
+    if out_q is None:
+        out_q = node_q
+    gen.bindings.append(
+        CommentBindingList("Node {} inq {} outq {}", node.name,
+                           str(node_q.in_qs[0]), str(out_q.out_qs[0]))
+    )
+    gen.bindings.append(
+        NodeBindingList(cname, GNodeArgEdge(in_eparams[0]),
+                        GNodeArgEdge(out_eparams[0], "GNA_OUT")))
diff --git a/tools/nntool/generation/generators/bindings/mult8/inout_infos_bindings_generator.py b/tools/nntool/generation/generators/bindings/mult8/inout_infos_bindings_generator.py
new file mode 100644
index 000000000..2e55a53fb
--- /dev/null
+++ b/tools/nntool/generation/generators/bindings/mult8/inout_infos_bindings_generator.py
@@ -0,0 +1,47 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from generation.bindings import (CommentBindingList, GNodeArgEdge, GNodeArgNode,
+                                 NodeBindingList)
+from generation.generators.generator_decorators import generation_function, QREC_MULT8
+from graph.types import (ActivationParameters, ConvFusionParameters,
+                         GlobalPoolParameters, PoolingParameters, ActivationFusion)
+
+
+@generation_function("bindings", (PoolingParameters, ConvFusionParameters, ActivationParameters,
+                                  GlobalPoolParameters, ActivationFusion), qrec_types=(QREC_MULT8, ))
+def in_out_infos_bindings_generator(gen, node, qrec, in_eparams, out_eparams, cname) -> bool:
+    if isinstance(node, ActivationFusion):
+        cnodes = node.contained_nodes()
+        if isinstance(cnodes[0], (GlobalPoolParameters, PoolingParameters)):
+            set_in_out_bindings(gen, in_eparams, out_eparams, cname, cnodes[0], qrec)
+            return True
+        return False
+    if isinstance(node, (GlobalPoolParameters, PoolingParameters)):
+        set_in_out_bindings(gen, in_eparams, out_eparams, cname, node, qrec)
+    else:
+        return False
+    return True
+
+
+def set_in_out_bindings(gen, in_eparams, out_eparams, cname, node, node_q, out_q=None):
+    if out_q is None:
+        out_q = node_q
+    gen.bindings.append(
+        CommentBindingList("Node {} inq {} outq {}", node.name,
+                           str(node_q.in_qs[0]), str(out_q.out_qs[0]))
+    )
+    gen.bindings.append(
+        NodeBindingList(cname, GNodeArgEdge(in_eparams[0]),
+                        GNodeArgEdge(out_eparams[0], "GNA_OUT"), GNodeArgNode(node, "infos")))
diff --git a/tools/nntool/generation/generators/bindings/mult8/mat_vect_mult_bindings_generator.py b/tools/nntool/generation/generators/bindings/mult8/mat_vect_mult_bindings_generator.py
new file mode 100644
index 000000000..b14b9189d
--- /dev/null
+++ b/tools/nntool/generation/generators/bindings/mult8/mat_vect_mult_bindings_generator.py
@@ -0,0 +1,50 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from generation.bindings import (CommentBindingList, GNodeArgEdge,
+                                 GNodeArgNode, NodeBindingList)
+from generation.generators.generator_decorators import generation_function, QREC_MULT8
+from graph.types import MatrixMulParameters, ActivationFusion
+from utils.node_id import NodeId
+
+
+@generation_function("bindings", (MatrixMulParameters, ActivationFusion), qrec_types=(QREC_MULT8,))
+def mat_vect_mul_bindings_generator(gen, node, qrec, in_eparams, out_eparams, cname) -> bool:
+    step_idx = node.step_idx
+    if isinstance(node, ActivationFusion):
+        cnodes = node.contained_nodes()
+        quants = [gen.G.quantization[NodeId(node, fnode)] for fnode in cnodes]
+        if isinstance(cnodes[0], MatrixMulParameters):
+            set_mat_vect_mul_bindings(gen, cnodes[0], step_idx, in_eparams, out_eparams,
+                                      cname, quants[0], out_q=quants[1])
+            return True
+        return False
+    set_mat_vect_mul_bindings(gen, node, step_idx, in_eparams, out_eparams, cname, qrec)
+    return True
+
+
+def set_mat_vect_mul_bindings(gen, node, step_idx, in_eparams, out_eparams, cname, qrec, out_q=None):
+    del step_idx
+    if out_q is None:
+        out_q = qrec
+    gen.bindings.append(
+        CommentBindingList("Node {} in1q {} in2q {} outq {}", cname,
+                           qrec.in_qs[0], qrec.in_qs[1], out_q.out_qs[0])
+    )
+    gen.bindings.append(
+        NodeBindingList(cname, GNodeArgEdge(in_eparams[0]),
+                        GNodeArgEdge(in_eparams[1]),
+                        GNodeArgEdge(out_eparams[0], "GNA_OUT"),
+                        GNodeArgNode(node, 'infos')
+                        ))
diff --git a/tools/nntool/generation/generators/bindings/mult8/matadd_bindings_generator.py b/tools/nntool/generation/generators/bindings/mult8/matadd_bindings_generator.py
new file mode 100644
index 000000000..aa6fab4b7
--- /dev/null
+++ b/tools/nntool/generation/generators/bindings/mult8/matadd_bindings_generator.py
@@ -0,0 +1,52 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from generation.bindings import (CommentBindingList, GNodeArgEdge,
+                                 GNodeArgNode, NodeBindingList)
+from generation.generators.generator_decorators import generation_function, QREC_MULT8
+from graph.types import MatrixAddParameters, ActivationFusion
+from utils.node_id import NodeId
+
+
+@generation_function("bindings", (MatrixAddParameters, ActivationFusion), qrec_types=(QREC_MULT8,))
+def matadd_bindings_generator(gen, node, qrec, in_eparams, out_eparams, cname) -> bool:
+    step_idx = node.step_idx
+    if isinstance(node, ActivationFusion):
+        cnodes = node.contained_nodes()
+        quants = [gen.G.quantization[NodeId(node, fnode)] for fnode in cnodes]
+        if isinstance(cnodes[0], MatrixAddParameters):
+            set_matadd_bindings(gen, cnodes[0], step_idx, in_eparams, out_eparams,
+                                cname, quants[0], out_q=quants[1])
+            return True
+        return False
+    set_matadd_bindings(gen, node, step_idx, in_eparams, out_eparams, cname, qrec)
+    return True
+
+
+def set_matadd_bindings(gen, node, step_idx, in_eparams, out_eparams, cname, qrec, out_q=None):
+    del step_idx
+    if out_q is None:
+        out_q = qrec
+    scaled_idx = qrec.scaled_idx
+    not_scaled_idx = 0 if scaled_idx else 1
+    gen.bindings.append(
+        CommentBindingList("Node {} in1q {} in2q {} outq {}", cname,
+                           qrec.in_qs[scaled_idx], qrec.in_qs[not_scaled_idx], out_q.out_qs[0])
+    )
+    gen.bindings.append(
+        NodeBindingList(cname, GNodeArgEdge(in_eparams[scaled_idx]),
+                        GNodeArgEdge(in_eparams[not_scaled_idx]),
+                        GNodeArgEdge(out_eparams[0], "GNA_OUT"),
+                        GNodeArgNode(node, 'infos')
+                        ))
diff --git a/tools/nntool/generation/generators/bindings/mult8/softmax_bindings_generator.py b/tools/nntool/generation/generators/bindings/mult8/softmax_bindings_generator.py
new file mode 100644
index 000000000..246ae1ba1
--- /dev/null
+++ b/tools/nntool/generation/generators/bindings/mult8/softmax_bindings_generator.py
@@ -0,0 +1,39 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+import numpy as np
+
+from generation.bindings import (CommentBindingList, GNodeArgEdge,
+                                 GNodeArgNode, NodeBindingList)
+from generation.generators.generator_decorators import generation_function, QREC_MULT8
+from graph.types import SoftMaxParameters
+
+
+@generation_function("bindings", (SoftMaxParameters,), qrec_types=(QREC_MULT8,))
+def softmax_bindings_generator(gen, node, qrec, in_eparams, out_eparams, cname) -> bool:
+    set_softmax_bindings(gen, in_eparams, out_eparams, cname, node, qrec)
+    return True
+
+
+def set_softmax_bindings(gen, in_eparams, out_eparams, cname, params, node_q):
+    in_q = -np.ceil(np.log2(node_q.in_qs[0].scale))
+    out_q = -np.ceil(np.log2(node_q.out_qs[0].scale))
+    gen.bindings.append(
+        CommentBindingList("Node {} inq {} outq {}",
+                           params.name, int(in_q[0]), int(out_q[0]))
+    )
+    gen.bindings.append(
+        NodeBindingList(cname, GNodeArgEdge(in_eparams[0]),
+                        GNodeArgEdge(out_eparams[0], "GNA_OUT"),
+                        GNodeArgNode(params, 'infos')
+                        ))
diff --git a/tools/nntool/generation/generators/bindings/pow2/__init__.py b/tools/nntool/generation/generators/bindings/pow2/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tools/nntool/generation/generators/bindings/pow2/conv_bindings_generator.py b/tools/nntool/generation/generators/bindings/pow2/conv_bindings_generator.py
new file mode 100644
index 000000000..a11610e98
--- /dev/null
+++ b/tools/nntool/generation/generators/bindings/pow2/conv_bindings_generator.py
@@ -0,0 +1,68 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from generation.bindings import (CommentBindingList, GNodeArgEdge,
+                                 GNodeArgNode, NodeBindingList)
+from generation.generators.generator_decorators import (QREC_POW2,
+                                                        generation_function)
+from generation.generators.globals.global_names import (BIASES, MULSCALE,
+                                                        WEIGHTS)
+from graph.types import Conv2DParameters, ConvFusionParameters
+from utils.node_id import NodeId
+
+
+@generation_function("bindings", (Conv2DParameters, ConvFusionParameters), qrec_types=(QREC_POW2, ))
+def conv_bindings_generator(gen, node, qrec, in_eparams, out_eparams, cname) -> bool:
+    step_idx = node.step_idx
+    if isinstance(node, Conv2DParameters):
+        set_conv_bindings(gen, step_idx, in_eparams, out_eparams, cname, node, qrec)
+    elif isinstance(node, ConvFusionParameters):
+        cnodes = node.contained_nodes()
+        quants = [gen.G.quantization[NodeId(node, fnode)] for fnode in cnodes]
+        if node.fusion_type == "conv_active_pool":
+            set_conv_bindings(gen, step_idx, in_eparams, out_eparams,
+                              cname, cnodes[0], quants[0], out_q=quants[1])
+        elif node.fusion_type == "conv_pool_active":
+            set_conv_bindings(gen, step_idx, in_eparams, out_eparams,
+                              cname, cnodes[0], quants[0], out_q=quants[2])
+        elif node.fusion_type == "conv_active":
+            set_conv_bindings(gen, step_idx, in_eparams, out_eparams,
+                              cname, cnodes[0], quants[0], out_q=quants[1])
+        elif node.fusion_type == "conv_pool":
+            set_conv_bindings(gen, step_idx, in_eparams, out_eparams,
+                              cname, cnodes[0], quants[0], out_q=quants[1])
+        else:
+            return False
+    else:
+        return False
+    return True
+
+def set_conv_bindings(gen, step_idx, in_eparams, out_eparams, cname, params, conv_q,
+                      out_q=None):
+    if out_q is None:
+        out_q = conv_q
+    gen.bindings.append(
+        CommentBindingList("Node {} inq {} weightsq {} outq {} biasesq {}", cname,
+                           conv_q.in_qs[0].q, conv_q.weights_q.q, out_q.out_qs[0].q, conv_q.biases_q.q)
+    )
+    if params.has_mul_bias:
+        gen.bindings.append(
+            NodeBindingList(cname, GNodeArgEdge(in_eparams[0]), GNodeArgNode(params, WEIGHTS),
+                            GNodeArgNode(params, BIASES), GNodeArgNode(params, MULSCALE),
+                            GNodeArgEdge(out_eparams[0], "GNA_OUT")))
+    else:
+        gen.bindings.append(
+            NodeBindingList(cname, GNodeArgEdge(in_eparams[0]), GNodeArgNode(params, WEIGHTS),
+                            GNodeArgNode(params, BIASES),
+                            GNodeArgEdge(out_eparams[0], "GNA_OUT")))
diff --git a/tools/nntool/generation/generators/bindings/pow2/fc_bindings_generator.py b/tools/nntool/generation/generators/bindings/pow2/fc_bindings_generator.py
new file mode 100644
index 000000000..56478d7a8
--- /dev/null
+++ b/tools/nntool/generation/generators/bindings/pow2/fc_bindings_generator.py
@@ -0,0 +1,50 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+
+from generation.bindings import (CommentBindingList, GNodeArgEdge,
+                                 GNodeArgNode, NodeBindingList)
+from generation.generators.generator_decorators import (QREC_POW2,
+                                                        generation_function)
+from generation.generators.globals.global_names import WEIGHTS, BIASES
+from graph.types import ConvFusionParameters, FcParameters
+from utils.node_id import NodeId
+
+
+@generation_function("bindings", (FcParameters,), qrec_types=(QREC_POW2, ))
+def fc_bindings_generator(gen, node, qrec, in_eparams, out_eparams, cname) -> bool:
+    step_idx = node.step_idx
+    if isinstance(node, FcParameters):
+        set_fc_bindings(gen, step_idx, in_eparams, out_eparams, cname, node, qrec)
+    elif isinstance(node, ConvFusionParameters) and node.fusion_type == "linear_active":
+        cnodes = node.contained_nodes()
+        quants = [gen.G.quantization[NodeId(node, fnode)] for fnode in cnodes]
+        set_fc_bindings(gen, step_idx, in_eparams, out_eparams,
+                        cname, cnodes[0], quants[0], out_q=quants[1])
+    else:
+        return False
+    return True
+
+def set_fc_bindings(gen, step_idx, in_eparams, out_eparams, cname,
+                    params, linear_q, out_q=None):
+    if out_q is None:
+        out_q = linear_q
+    gen.bindings.append(
+        CommentBindingList("Node {} inq {} weightsq {} outq {}", params.name,
+                           linear_q.in_qs[0].q, linear_q.weights_q.q, out_q.out_qs[0].q)
+    )
+    gen.bindings.append(
+        NodeBindingList(cname, GNodeArgEdge(in_eparams[0]), GNodeArgNode(params, WEIGHTS),
+                        GNodeArgNode(params, BIASES),
+                        GNodeArgEdge(out_eparams[0], "GNA_OUT")))
diff --git a/tools/nntool/generation/generators/bindings/pow2/inout_bindings_generator.py b/tools/nntool/generation/generators/bindings/pow2/inout_bindings_generator.py
new file mode 100644
index 000000000..fe2b01bb5
--- /dev/null
+++ b/tools/nntool/generation/generators/bindings/pow2/inout_bindings_generator.py
@@ -0,0 +1,49 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from generation.bindings import (CommentBindingList, GNodeArgEdge,
+                                 NodeBindingList)
+from generation.generators.generator_decorators import generation_function, QREC_POW2
+from graph.types import (ActivationParameters, ConvFusionParameters,
+                         GlobalPoolParameters, PoolingParameters, TransposeParameters, ImageFormatParameters)
+from utils.node_id import NodeId
+
+
+@generation_function("bindings", (PoolingParameters,
+                                  ConvFusionParameters,
+                                  ActivationParameters,
+                                  GlobalPoolParameters, TransposeParameters, ImageFormatParameters), qrec_types=(QREC_POW2, ))
+def in_out_bindings_generator(gen, node, qrec, in_eparams, out_eparams, cname) -> bool:
+    if isinstance(node, (PoolingParameters, ActivationParameters, GlobalPoolParameters, TransposeParameters, ImageFormatParameters)):
+        set_in_out_bindings(gen, in_eparams, out_eparams, cname, node, qrec)
+    elif isinstance(node, ConvFusionParameters) and node.fusion_type == "pool_active":
+        cnodes = node.contained_nodes()
+        quants = [gen.G.quantization[NodeId(node, fnode)] for fnode in cnodes]
+        set_in_out_bindings(gen, in_eparams, out_eparams, cname,
+                            node, qrec, out_q=quants[1])
+    else:
+        return False
+    return True
+
+
+def set_in_out_bindings(gen, in_eparams, out_eparams, cname, node, node_q, out_q=None):
+    if out_q is None:
+        out_q = node_q
+    gen.bindings.append(
+        CommentBindingList("Node {} inq {} outq {}", node.name,
+                           str(node_q.in_qs[0]), str(out_q.out_qs[0]))
+    )
+    gen.bindings.append(
+        NodeBindingList(cname, GNodeArgEdge(in_eparams[0]),
+                        GNodeArgEdge(out_eparams[0], "GNA_OUT")))
diff --git a/tools/nntool/generation/generators/bindings/pow2/matadd_bindings_generator.py b/tools/nntool/generation/generators/bindings/pow2/matadd_bindings_generator.py
new file mode 100644
index 000000000..6dc854933
--- /dev/null
+++ b/tools/nntool/generation/generators/bindings/pow2/matadd_bindings_generator.py
@@ -0,0 +1,35 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+
+from generation.bindings import (CommentBindingList, GNodeArgEdge,
+                                 NodeBindingList)
+from generation.generators.generator_decorators import generation_function, QREC_POW2
+from graph.types import MatrixAddParameters
+
+
+@generation_function("bindings", (MatrixAddParameters,), qrec_types=(QREC_POW2, ))
+def matadd_bindings_generator(gen, node, qrec, in_eparams, out_eparams, cname) -> bool:
+    set_matrixadd_bindings(gen, in_eparams, out_eparams, cname, node, qrec)
+    return True
+
+
+def set_matrixadd_bindings(gen, in_eparams, out_eparams, cname, params, node_q):
+    gen.bindings.append(
+        CommentBindingList("Node {} inq1 {} inq2 {} outq {}", params.name,
+                           node_q.in_qs[0].q, node_q.in_qs[1].q, node_q.out_qs[0].q)
+    )
+    gen.bindings.append(
+        NodeBindingList(cname, GNodeArgEdge(in_eparams[0]), GNodeArgEdge(in_eparams[1]),
+                        GNodeArgEdge(out_eparams[0], "GNA_OUT")))
diff --git a/tools/nntool/generation/generators/bindings/pow2/matscale_bindings_generator.py b/tools/nntool/generation/generators/bindings/pow2/matscale_bindings_generator.py
new file mode 100644
index 000000000..c550b8e23
--- /dev/null
+++ b/tools/nntool/generation/generators/bindings/pow2/matscale_bindings_generator.py
@@ -0,0 +1,46 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+
+from generation.bindings import (CommentBindingList, GNodeArgEdge,
+                                 NodeBindingList)
+from generation.generators.generator_decorators import generation_function, QREC_POW2
+from graph.types import MatScaleFusionParameters
+
+
+@generation_function("bindings", (MatScaleFusionParameters,), qrec_types=(QREC_POW2, ))
+def matscale_bindings_generator(gen, node, qrec, in_eparams, out_eparams, cname) -> bool:
+    set_matscale_bindings(gen, in_eparams, out_eparams, cname, node, qrec)
+    return True
+
+
+def set_matscale_bindings(gen, in_eparams, out_eparams, cname, params, node_q):
+    if params.fusion_type == "vec_scalar":
+        gen.bindings.append(
+            CommentBindingList("Node {} inq1 {} inq2 {} inq3 {} outq {}", params.name,
+                               node_q.in_qs[0].q, node_q.in_qs[1].q,
+                               node_q.in_qs[2].q, node_q.out_qs[0].q)
+        )
+        gen.bindings.append(
+            NodeBindingList(cname, GNodeArgEdge(in_eparams[0]),
+                            GNodeArgEdge(in_eparams[1]), GNodeArgEdge(in_eparams[2]),
+                            GNodeArgEdge(out_eparams[0], "GNA_OUT")))
+    else:
+        gen.bindings.append(
+            CommentBindingList("Node {} inq1 {} inq2 {} outq {}", params.name,
+                               node_q.in_qs[0].q, node_q.in_qs[1].q, node_q.out_qs[0].q)
+        )
+        gen.bindings.append(
+            NodeBindingList(cname, GNodeArgEdge(in_eparams[0]), GNodeArgEdge(in_eparams[1]),
+                            GNodeArgEdge(out_eparams[0], "GNA_OUT")))
diff --git a/tools/nntool/generation/generators/bindings/pow2/softmax_bindings_generator.py b/tools/nntool/generation/generators/bindings/pow2/softmax_bindings_generator.py
new file mode 100644
index 000000000..8dd5aa170
--- /dev/null
+++ b/tools/nntool/generation/generators/bindings/pow2/softmax_bindings_generator.py
@@ -0,0 +1,35 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+
+from generation.bindings import (CommentBindingList, GNodeArgEdge,
+                                 NodeBindingList)
+from generation.generators.generator_decorators import generation_function, QREC_POW2
+from graph.types import SoftMaxParameters
+
+
+@generation_function("bindings", (SoftMaxParameters,), qrec_types=(QREC_POW2,))
+def softmax_bindings_generator(gen, node, qrec, in_eparams, out_eparams, cname) -> bool:
+    set_softmax_bindings(gen, in_eparams, out_eparams, cname, node, qrec)
+    return True
+
+
+def set_softmax_bindings(gen, in_eparams, out_eparams, cname, params, node_q):
+    gen.bindings.append(
+        CommentBindingList("Node {} inq {} outq {}", params.name,
+                           node_q.in_qs[0].q, node_q.out_qs[0].q)
+    )
+    gen.bindings.append(
+        NodeBindingList(cname, GNodeArgEdge(in_eparams[0]),
+                        GNodeArgEdge(out_eparams[0], "GNA_OUT")))
diff --git a/tools/nntool/generation/generators/bindings/pow2/transpose_bindings_generator.py b/tools/nntool/generation/generators/bindings/pow2/transpose_bindings_generator.py
new file mode 100644
index 000000000..975c1bf54
--- /dev/null
+++ b/tools/nntool/generation/generators/bindings/pow2/transpose_bindings_generator.py
@@ -0,0 +1,24 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from generation.generators.bindings.pow2.inout_bindings_generator import \
+    set_in_out_bindings
+from generation.generators.generator_decorators import generation_function, QREC_POW2
+from graph.types import TransposeParameters
+
+
+@generation_function("bindings", (TransposeParameters, ), qrec_types=(QREC_POW2,))
+def transpose_bindings_generator(gen, node, qrec, in_eparams, out_eparams, cname) -> bool:
+    set_in_out_bindings(gen, in_eparams, out_eparams, cname, node, qrec)
+    return True
diff --git a/tools/nntool/generation/generators/generator_decorators.py b/tools/nntool/generation/generators/generator_decorators.py
new file mode 100644
index 000000000..dd787714e
--- /dev/null
+++ b/tools/nntool/generation/generators/generator_decorators.py
@@ -0,0 +1,102 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+from abc import ABC, abstractmethod
+
+from quantization.multiplicative.mult_quantization import \
+    MultQuantizationRecordBase
+from quantization.symmetric.symmetric_quantization import \
+    SymmetricQuantizationBase
+
+LOG = logging.getLogger("nntool." + __name__)
+
+GENERATION_PHASES = [
+    "inputs",
+    "outputs",
+    "globals",
+    "bindings",
+    "kernels"
+]
+
+QREC_POW2 = "qrec_pow2"
+QREC_MULT8 = "qrec_mult8"
+QREC_MULT32 = "qrec_mult32"
+
+
+class GeneratorMatcher(ABC):
+    @abstractmethod
+    def match(self, param, qrec):
+        pass
+
+
+class OldMatcher(GeneratorMatcher):
+    def __init__(self, params_matched, qrecs_matched):
+        self._params_matched = params_matched
+        self._qrecs_matched = qrecs_matched
+
+    @staticmethod
+    def match_qrec(qrec_types, qrec):
+        if qrec_types is None:
+            return True
+        if isinstance(qrec, SymmetricQuantizationBase):
+            return any([qrec_type == "qrec_pow2" for qrec_type in qrec_types])
+        if isinstance(qrec, MultQuantizationRecordBase):
+            return any([qrec_type == "qrec_mult8" for qrec_type in qrec_types])
+        return False
+
+    def match(self, param, qrec):
+        return isinstance(param, self._params_matched) and self.match_qrec(self._qrecs_matched, qrec)
+
+    def __str__(self):
+        return "OldMatcher: nodes:({}) qrecs:({})".format(",".join(param.__name__ for param in self._params_matched),
+                                                          "All" if self._qrecs_matched is None
+                                                          else ",".join(self._qrecs_matched))
+
+
+class RegisteredGeneratorsMixin():
+    Generators = {phase: [] for phase in GENERATION_PHASES}
+
+    def execute_phase(self, phase_name, param, qrec, *args, break_on_true=False, **kwargs):
+        gens = self.Generators[phase_name]
+        res = False
+        for gen in gens:
+            if gen['matcher'].match(param, qrec):
+                LOG.debug("gen phase %s: matched function %s",
+                          phase_name,
+                          gen['func'].__name__)
+                this_res = gen['func'](self, param, qrec, *args, **kwargs)
+                res = this_res or res
+                if res and break_on_true:
+                    break
+        return res
+
+def generation_match(phase_name, matcher):
+    def phase_func(func):
+        gens = RegisteredGeneratorsMixin.Generators[phase_name]
+        gens.append({'matcher': matcher, 'func': func})
+        LOG.debug("registering function %s with matcher %s",
+                  func.__name__, matcher)
+        return func
+    return phase_func
+
+def generation_function(phase_name, params, qrec_types=None):
+    def phase_func(func):
+        gens = RegisteredGeneratorsMixin.Generators[phase_name]
+        matcher = OldMatcher(params, qrec_types)
+        gens.append({'matcher': matcher, 'func': func})
+        LOG.debug("registering function %s with matcher %s",
+                  func.__name__, matcher)
+        return func
+    return phase_func
diff --git a/tools/nntool/generation/generators/globals/__init__.py b/tools/nntool/generation/generators/globals/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tools/nntool/generation/generators/globals/constant_input_generator.py b/tools/nntool/generation/generators/globals/constant_input_generator.py
new file mode 100644
index 000000000..ac63dbf5e
--- /dev/null
+++ b/tools/nntool/generation/generators/globals/constant_input_generator.py
@@ -0,0 +1,41 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import os
+
+from generation.at_types.constant_info import ConstantInfo
+from generation.at_types.tc_arg_info import GlobalArgInfo
+from generation.generators.generator_decorators import generation_function, QREC_POW2
+from graph.types import ConstantInputParameters
+
+
+@generation_function("globals", (ConstantInputParameters,), qrec_types=(QREC_POW2, ))
+def constant_input_globals_generator(gen, node, qrec, pnode, fnode) -> bool:
+    del node, fnode
+    # the name cache will be updated when all the edges are analysed by local_generator
+    # the name of the constant is attached to the output edge so find it
+    out_edge = gen.G.out_edges(pnode.name)[0]
+    eparams = out_edge.params
+    cname = gen.naming_convension.get_edge_name(eparams.creating_node.name,
+                                                eparams.creating_step,
+                                                eparams.edge_type,
+                                                eparams.edge_order)
+    file_name = os.path.join(gen.opts['tensor_directory'],
+                             cname+".tensor")
+    const_info = ConstantInfo(file_name, qrec.out_qs[0], contents=qrec.out_qs[0].quantize(node.value))
+    gen.globals.append(GlobalArgInfo(qrec.out_qs[0].ctype, cname,
+                                     gen.opts['default_global_home_location'],
+                                     gen.opts['default_global_exec_location'],
+                                     const_info=const_info))
+    return True
diff --git a/tools/nntool/generation/generators/globals/filter_generator.py b/tools/nntool/generation/generators/globals/filter_generator.py
new file mode 100644
index 000000000..c676e3564
--- /dev/null
+++ b/tools/nntool/generation/generators/globals/filter_generator.py
@@ -0,0 +1,93 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import os
+
+import numpy as np
+
+from generation.at_types.constant_info import ConstantInfo
+from generation.at_types.tc_arg_info import GlobalArgInfo
+from generation.generators.generator_decorators import (QREC_POW2,
+                                                        generation_function)
+from generation.generators.globals.global_names import WEIGHTS, BIASES, MULSCALE
+from graph.types import FilterParameters, MultiplicativeBiasParameters
+
+
+@generation_function("globals", (FilterParameters,), qrec_types=(QREC_POW2,))
+def filter_globals_generator(gen, node, qrec, pnode, fnode) -> bool:
+    del fnode
+    cname = gen.naming_convension.get_global_name(pnode.name, pnode.step_idx,
+                                                  pnode, WEIGHTS)
+    gen.name_cache.set(node, WEIGHTS, cname)
+
+    file_name = os.path.join(gen.opts['tensor_directory'],
+                             cname+".tensor")
+    weights_q = qrec.weights_q
+    contents = weights_q.quantize(node.weights).astype(weights_q.dtype,
+                                                       order='C',
+                                                       casting='no',
+                                                       copy=True)
+
+    const_info = ConstantInfo(file_name, qrec.weights_q, contents=contents)
+
+    gen.globals.append(GlobalArgInfo(qrec.weights_q.ctype, cname,
+                                     gen.opts['default_global_home_location'],
+                                     gen.opts['default_global_exec_location'],
+                                     const_info=const_info))
+
+    # biases are always generated even if they are 0
+    if node.has_bias:
+        biases_q = qrec.biases_q
+        contents = biases_q.quantize(node.biases).astype(biases_q.dtype,
+                                                         order='C',
+                                                         casting='no',
+                                                         copy=True)
+    else:
+        biases_q = qrec.out_q
+        contents = biases_q.quantize(np.zeros((node.out_dims[0].c))).astype(biases_q.dtype,
+                                                                            order='C',
+                                                                            casting='no',
+                                                                            copy=True)
+
+    cname = gen.naming_convension.get_global_name(pnode.name, pnode.step_idx,
+                                                  pnode, BIASES)
+
+    gen.name_cache.set(node, BIASES, cname)
+    file_name = os.path.join(gen.opts['tensor_directory'],
+                             cname+".tensor")
+    const_info = ConstantInfo(file_name, biases_q, contents=contents)
+
+    gen.globals.append(GlobalArgInfo(biases_q.ctype, cname,
+                                     gen.opts['default_global_home_location'],
+                                     gen.opts['default_global_exec_location'],
+                                     const_info=const_info))
+
+    if isinstance(node, MultiplicativeBiasParameters) and node.has_mul_bias:
+        mul_biases_q = qrec.mul_biases_q
+
+        cname = gen.naming_convension.get_global_name(pnode.name, pnode.step_idx,
+                                                      pnode, MULSCALE)
+        gen.name_cache.set(node, MULSCALE, cname)
+
+        contents = mul_biases_q.quantize(node.mul_biases).astype(mul_biases_q.dtype,
+                                                                 order='C',
+                                                                 casting='no',
+                                                                 copy=True)
+        const_info = ConstantInfo(file_name, mul_biases_q, contents=contents)
+
+        gen.globals.append(GlobalArgInfo(mul_biases_q.ctype, cname,
+                                         gen.opts['default_global_home_location'],
+                                         gen.opts['default_global_exec_location'],
+                                         const_info=const_info))
+    return True
diff --git a/tools/nntool/generation/generators/globals/global_names.py b/tools/nntool/generation/generators/globals/global_names.py
new file mode 100644
index 000000000..41bd32714
--- /dev/null
+++ b/tools/nntool/generation/generators/globals/global_names.py
@@ -0,0 +1,21 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+WEIGHTS = "weights"
+BIASES = "biases"
+MULSCALE = "mul_scale"
+MULSHIFT = "mul_shift"
+INFOS = "infos"
+
+__all__ = ['WEIGHTS', 'BIASES', 'MULSCALE', 'MULSHIFT', 'INFOS']
diff --git a/tools/nntool/generation/generators/globals/input_generator.py b/tools/nntool/generation/generators/globals/input_generator.py
new file mode 100644
index 000000000..372808126
--- /dev/null
+++ b/tools/nntool/generation/generators/globals/input_generator.py
@@ -0,0 +1,26 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from generation.at_types.tc_arg_info import InputArgInfo
+from generation.generators.generator_decorators import generation_function
+from graph.types import InputParameters
+
+
+@generation_function("inputs", (InputParameters,))
+def inputs_input_generator(gen, node, qrec, edge) -> bool:
+    gen.globals.append(InputArgInfo(qrec.out_qs[edge.from_idx].ctype, edge.params.name,
+                                    gen.opts['default_input_home_location'],
+                                    gen.opts['default_input_exec_location'],
+                                    allocate=node.at_options.allocate))
+    return True
diff --git a/tools/nntool/generation/generators/globals/mult8_filter_generator.py b/tools/nntool/generation/generators/globals/mult8_filter_generator.py
new file mode 100644
index 000000000..067e92b23
--- /dev/null
+++ b/tools/nntool/generation/generators/globals/mult8_filter_generator.py
@@ -0,0 +1,94 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import os
+
+import numpy as np
+
+from generation.at_types.constant_info import ConstantInfo
+from generation.at_types.tc_arg_info import GlobalArgInfo
+from generation.generators.generator_decorators import (QREC_MULT8,
+                                                        generation_function)
+from graph.types import (ConvFusionParameters, FilterParameters)
+
+from utils.node_id import NodeId
+
+from .mult8_infos_generator import gen_constant
+from .global_names import *
+
+@generation_function("globals", (FilterParameters, ConvFusionParameters), qrec_types=(QREC_MULT8,))
+def mult8_filter_globals_generator(gen, node, qrec, pnode, fnode) -> bool:
+    if fnode is not None:
+        return False
+    if isinstance(pnode, FilterParameters):
+        gen_filter_globals(gen, pnode, pnode, qrec)
+    elif isinstance(pnode, ConvFusionParameters):
+        cnodes = node.contained_nodes()
+        quants = [gen.G.quantization[NodeId(node, fnode)] for fnode in cnodes]
+        if node.fusion_type in ("conv_active_pool", "conv_active", "linear_active", "conv_pool_active", "conv_pool"):
+            gen_filter_globals(gen, pnode, cnodes[0], quants[0])
+        else:
+            return False
+    else:
+        return False
+    return True
+
+
+def gen_filter_globals(gen, pnode, fnode, fqrec):
+    cname, file_name = gen_constant(gen, pnode, fnode, WEIGHTS)
+    weights_q = fqrec.weights_q
+    const_info = ConstantInfo(file_name, weights_q, contents=fqrec.gen_weights(fnode, fnode.weights))
+
+    gen.globals.append(GlobalArgInfo(weights_q.ctype, cname,
+                                     gen.opts['default_global_home_location'],
+                                     gen.opts['default_global_exec_location'],
+                                     const_info=const_info))
+
+    # biases are always generated even if they are 0
+    if fnode.has_bias:
+        biases_q = fqrec.biases_q
+        biases = fnode.biases
+    else:
+        biases_q = fqrec.out_qs[0]
+        biases = np.zeros((fnode.out_dims[0].c))
+
+    contents = fqrec.gen_biases(fnode, biases, fnode.weights)
+
+    cname, file_name = gen_constant(gen, pnode, fnode, BIASES)
+    const_info = ConstantInfo(file_name, biases_q, contents=contents)
+
+    gen.globals.append(GlobalArgInfo(biases_q.ctype, cname,
+                                     gen.opts['default_global_home_location'],
+                                     gen.opts['default_global_exec_location'],
+                                     const_info=const_info))
+
+    cname_mul_scale, file_name_mul_scale = gen_constant(gen, pnode, fnode, MULSCALE)
+    cname_mul_shift, file_name_mul_shift = gen_constant(gen, pnode, fnode, MULSHIFT)
+
+    mul_biases_q = fqrec.mul_biases_q
+
+    const_info_mul_scale = ConstantInfo(
+        file_name_mul_scale, mul_biases_q, contents=fqrec.gen_mul_biases(fnode))
+    const_info_mul_shift = ConstantInfo(
+        file_name_mul_shift, mul_biases_q.shift_qtype, contents=fqrec.mul_biases_q.qnorms)
+
+    gen.globals.append(GlobalArgInfo(mul_biases_q.ctype, cname_mul_scale,
+                                     gen.opts['default_global_home_location'],
+                                     gen.opts['default_global_exec_location'],
+                                     const_info=const_info_mul_scale))
+
+    gen.globals.append(GlobalArgInfo(mul_biases_q.shift_ctype, cname_mul_shift,
+                                     gen.opts['default_global_home_location'],
+                                     gen.opts['default_global_exec_location'],
+                                     const_info=const_info_mul_shift))
diff --git a/tools/nntool/generation/generators/globals/mult8_infos_generator.py b/tools/nntool/generation/generators/globals/mult8_infos_generator.py
new file mode 100644
index 000000000..6b0453c03
--- /dev/null
+++ b/tools/nntool/generation/generators/globals/mult8_infos_generator.py
@@ -0,0 +1,182 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import os
+
+import numpy as np
+
+from generation.at_types.constant_info import ConstantInfo
+from generation.at_types.tc_arg_info import GlobalArgInfo
+from generation.generators.generator_decorators import (QREC_MULT8,
+                                                        generation_function)
+from graph.types import (ConvFusionParameters, FilterParameters,
+                         GlobalPoolParameters, HSigmoidActivationParameters,
+                         HSwishActivationParameters, PoolingParameters,
+                         SoftMaxParameters, ActivationFusion, MatrixMulParameters,
+                         ReluActivationParameters, MatrixAddParameters, ActivationParameters)
+from quantization.qtype import QType
+from quantization.symmetric.kernels.activations import (
+    hsigmoid_mult_gen_factors, hswish_mult_gen_factors)
+from utils.node_id import NodeId
+from .global_names import *
+
+
+@generation_function("globals",
+                     (FilterParameters, ConvFusionParameters, ActivationParameters,
+                      GlobalPoolParameters, MatrixAddParameters, MatrixMulParameters,
+                      ActivationFusion, PoolingParameters, SoftMaxParameters),
+                     qrec_types=(QREC_MULT8,))
+def mult8_infos_generator(gen, node, qrec, pnode, fnode) -> bool:
+    if fnode is not None:
+        return False
+    if isinstance(pnode, FilterParameters):
+        if pnode.has_bias:
+            bias_q = qrec.biases_q.q
+        else:
+            bias_q = qrec.biases_q.q
+        act_infos(gen, pnode, pnode, None, None, extra1=bias_q)
+    elif isinstance(pnode, (GlobalPoolParameters, PoolingParameters)):
+        act_infos(gen, pnode, pnode, None, None)
+    elif isinstance(pnode, ActivationParameters):
+        act_infos(gen, pnode, pnode, pnode, gen.G.quantization[NodeId(pnode)])
+    elif isinstance(pnode, ConvFusionParameters):
+        cnodes = node.contained_nodes()
+        quants = [gen.G.quantization[NodeId(node, fnode)] for fnode in cnodes]
+        if node.fusion_type.startswith('linear') or node.fusion_type.startswith('conv'):
+            if cnodes[0].has_bias:
+                bias_q = quants[0].biases_q.q
+            else:
+                bias_q = quants[0].out_qs[0].q
+            if node.fusion_type in ("conv_active_pool", "conv_active", "linear_active"):
+                act_infos(gen, pnode, cnodes[0], cnodes[1], quants[1], extra1=bias_q)
+            elif node.fusion_type == "conv_pool_active":
+                act_infos(gen, pnode, cnodes[0], cnodes[2], quants[2], extra1=bias_q)
+            elif node.fusion_type == "conv_pool":
+                act_infos(gen, pnode, cnodes[0], None, None, extra1=bias_q)
+    elif isinstance(pnode, MatrixAddParameters):
+        qrec.set_add_scale()
+        act_infos(gen, pnode, pnode, None, None,
+                  extra1=qrec.scale_in_mul_biases_q.qbiases[0],
+                  extra2=qrec.scale_in_mul_biases_q.qnorms[0],
+                  extra3=qrec.scale_mul_biases_q.qbiases[0],
+                  extra4=qrec.scale_mul_biases_q.qnorms[0])
+    elif isinstance(pnode, MatrixMulParameters):
+        qrec.set_scale()
+        act_infos(gen, pnode, pnode, None, None,
+                  extra1=qrec.scale_mul_biases_q.qbiases[0],
+                  extra2=qrec.scale_mul_biases_q.qnorms[0])
+    elif isinstance(pnode, SoftMaxParameters):
+        act_infos(gen, pnode, pnode, pnode, qrec)
+    elif isinstance(pnode, ActivationFusion):
+        cnodes = node.contained_nodes()
+        quants = [gen.G.quantization[NodeId(node, fnode)] for fnode in cnodes]
+        if isinstance(cnodes[0], (GlobalPoolParameters, PoolingParameters)):
+            act_infos(gen, pnode, cnodes[0], cnodes[1], quants[1])
+        elif isinstance(cnodes[0], MatrixAddParameters):
+            quants[0].set_add_scale()
+            act_infos(gen, pnode, cnodes[0], cnodes[1], quants[1],
+                      extra1=quants[0].scale_in_mul_biases_q.qbiases[0],
+                      extra2=quants[0].scale_in_mul_biases_q.qnorms[0],
+                      extra3=quants[0].scale_mul_biases_q.qbiases[0],
+                      extra4=quants[0].scale_mul_biases_q.qnorms[0])
+        elif isinstance(cnodes[0], MatrixMulParameters):
+            qrec.set_scale()
+            act_infos(gen, pnode, cnodes[0], cnodes[1], quants[1],
+                      extra1=qrec.scale_mul_biases_q.qbiases[0],
+                      extra2=qrec.scale_mul_biases_q.qnorms[0])
+        else:
+            return False
+        return True
+    else:
+        return False
+    return True
+
+
+def gen_constant(gen, pnode, cache_node, const_type):
+    cname = gen.naming_convension.get_global_name(pnode.name, pnode.step_idx,
+                                                  pnode, const_type)
+    gen.name_cache.set(cache_node, const_type, cname)
+    file_name = os.path.join(gen.opts['tensor_directory'],
+                             cname+".tensor")
+    return cname, file_name
+
+
+def act_infos(gen, pnode, fnode, act_params, act_q, extra1=0, extra2=0, extra3=0, extra4=0):
+    if isinstance(pnode, FilterParameters):
+        comment = str.format("BiasQ: {}", extra1)
+    elif isinstance(pnode, MatrixAddParameters):
+        comment = str.format("In1Scale: {} In1ScaleN: {} OutScale: {} OutScaleN: {}",
+                             extra1, extra2, extra3, extra4)
+    else:
+        comment = ""
+
+    if act_params is None:
+        contents = np.array([0, 0, 0, 0, 0, extra1, extra2, extra3, extra4], dtype=np.int8)
+    elif isinstance(act_params, ReluActivationParameters):
+        if act_params.upper_bound is None or fnode is not None:
+            contents = np.array([0, 0, 0, 0, 0, extra1, extra2, extra3, extra4], dtype=np.int8)
+            if len(comment) == 0:
+                comment = "all 0"
+        else:
+            fac_1 = act_q.in_qs[0].quantize(act_params.upper_bound)
+            contents = np.array([0, 0, fac_1, 0, 0, extra1, extra2, extra3, extra4],
+                                dtype=np.int8)
+            comment += str.format("in: {:05f} out: {:05f} A0: {} B0: 0 C0: 0",
+                                  act_q.in_qs[0].scale[0],
+                                  act_q.out_qs[0].scale[0],
+                                  fac_1[0])
+    elif isinstance(act_params, HSigmoidActivationParameters):
+        # currently combines all scaling factors into one scale and shift
+        fac_1, upper_bound, _ = hsigmoid_mult_gen_factors(act_params, act_q)
+        contents = np.array([act_q.scale_mul_biases_q.qbiases[0],
+                             act_q.scale_mul_biases_q.qnorms[0],
+                             upper_bound, fac_1, 1, extra1, extra2, extra3, extra4],
+                            dtype=np.int8)
+        comment += str.format("in: {:05f} out: {:05f} qbias: {} qnorm: {} A0: {} B0: {} C0: 1",
+                              act_q.in_qs[0].scale[0],
+                              act_q.out_qs[0].scale[0],
+                              act_q.scale_mul_biases_q.qbiases[0],
+                              act_q.scale_mul_biases_q.qnorms[0],
+                              fac_1[0], upper_bound[0])
+    elif isinstance(act_params, HSwishActivationParameters):
+        # currently combines all scaling factors into one scale and shift
+        fac_1, upper_bound, _ = hswish_mult_gen_factors(act_q)
+        contents = np.array([act_q.scale_mul_biases_q.qbiases[0],
+                             act_q.scale_mul_biases_q.qnorms[0],
+                             upper_bound, fac_1, 1, extra1, extra2, extra3, extra4],
+                            dtype=np.int8)
+        comment += str.format("in: {:05f} out: {:05f} qbias: {} qnorm: {} A0: {} B0: {} C0: 1",
+                              act_q.in_qs[0].scale[0],
+                              act_q.out_qs[0].scale[0],
+                              act_q.scale_mul_biases_q.qbiases[0],
+                              act_q.scale_mul_biases_q.qnorms[0],
+                              fac_1[0], upper_bound[0])
+    elif isinstance(act_params, SoftMaxParameters):
+        norm = 15 + np.ceil(np.log2(act_q.in_qs[0].scale))
+        contents = np.array([norm, 0, 0, 0, 0, extra1, extra2, extra3, extra4], dtype=np.int8)
+        comment += str.format("in: {:05f} out: {:05f} NORM: {}",
+                              act_q.in_qs[0].scale[0],
+                              act_q.out_qs[0].scale[0],
+                              int(norm[0]))
+    else:
+        raise NotImplementedError("activation tye not implemented")
+
+    cname, file_name = gen_constant(gen, pnode, fnode, INFOS)
+    const_info = ConstantInfo(file_name, QType(bits=8, q=0, signed=True), contents=contents)
+
+    gen.globals.append(GlobalArgInfo("int8", cname,
+                                     gen.opts['default_global_home_location'],
+                                     gen.opts['default_global_exec_location'],
+                                     const_info=const_info,
+                                     comment=comment))
diff --git a/tools/nntool/generation/generators/globals/output_generator.py b/tools/nntool/generation/generators/globals/output_generator.py
new file mode 100644
index 000000000..2869b0c87
--- /dev/null
+++ b/tools/nntool/generation/generators/globals/output_generator.py
@@ -0,0 +1,27 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from generation.at_types.tc_arg_info import OutputArgInfo
+from generation.generators.generator_decorators import generation_function
+from graph.types import OutputParameters
+
+
+@generation_function("outputs", (OutputParameters,))
+def outputs_output_generator(gen, node, qrec, edge) -> bool:
+    eparams = edge.params
+    gen.globals.append(OutputArgInfo(qrec.in_qs[edge.to_idx].ctype, eparams.name,
+                                     gen.opts['default_output_home_location'],
+                                     gen.opts['default_output_exec_location'],
+                                     allocate=node.at_options.allocate))
+    return True
diff --git a/tools/nntool/generation/generators/kernels/__init__.py b/tools/nntool/generation/generators/kernels/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tools/nntool/generation/generators/kernels/autotiler_kernel.py b/tools/nntool/generation/generators/kernels/autotiler_kernel.py
new file mode 100644
index 000000000..94ed4402e
--- /dev/null
+++ b/tools/nntool/generation/generators/kernels/autotiler_kernel.py
@@ -0,0 +1,21 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+
+from abc import ABC, abstractmethod
+
+class AutotilerKernel(ABC):
+    @abstractmethod
+    def code(self, code_block=None):
+        pass
diff --git a/tools/nntool/generation/generators/kernels/general/__init__.py b/tools/nntool/generation/generators/kernels/general/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tools/nntool/generation/generators/kernels/general/imageformat_kernels_generator.py b/tools/nntool/generation/generators/kernels/general/imageformat_kernels_generator.py
new file mode 100644
index 000000000..d55931d00
--- /dev/null
+++ b/tools/nntool/generation/generators/kernels/general/imageformat_kernels_generator.py
@@ -0,0 +1,60 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+from generation.code_block import CodeBlock
+from generation.generators.generator_decorators import generation_function
+from graph.types import ImageFormatParameters
+
+from ..autotiler_kernel import AutotilerKernel
+
+LOG = logging.getLogger("nntool." + __name__)
+
+NNTOOL_KOP = {"RGB565_RGB888": "NNTOOL_KOP_RGB565",
+              "RGB888": "NNTOOL_KOP_RGB888",
+              "RGB16": "NNTOOL_KOP_RGB16",
+              "BW8": "NNTOOL_KOP_BW",
+              "BW16": "NNTOOL_KOP_BW16"}
+
+def gen_at_imageformat(code_block, name, in_dim, do_offset, nntool_kop):
+    code_block.write('CNN_Norm("{}", {}, {}, {}, {});',
+                     name, in_dim.w, in_dim.h, do_offset and "1" or "0", nntool_kop)
+
+
+@generation_function("kernels", (ImageFormatParameters, ))
+def imageformat_kernels_generator(gen, node, qrec, in_eparams, out_eparams, cname):
+    del in_eparams, out_eparams, qrec
+    gen.kernels.append(ImageFormatKernel(cname, node))
+    return True
+
+
+class ImageFormatKernel(AutotilerKernel):
+    def __init__(self, cname, params):
+        self.in_dim = params.in_dims[0]
+        self.cname = cname
+        self.node_name = params.name
+        assert params.format_change in ("RGB565_RGB888", "RGB888", "RGB16", "BW8", "BW16"), "unknown format change"
+        assert params.norm_func in ("OFFSET_INT8", "SHIFT_INT8", "OUT_INT16"), "unknown normalization"
+        self.in_format = params.format_change
+        self.do_offset = params.norm_func == "OFFSET_INT8"
+
+    def code(self, code_block=None):
+        if code_block is None:
+            code_block = CodeBlock()
+
+        code_block.comment("generator for {}", self.node_name)
+
+        gen_at_imageformat(code_block, self.cname, self.in_dim, self.do_offset, NNTOOL_KOP[self.in_format])
+        return code_block
diff --git a/tools/nntool/generation/generators/kernels/mult8/__init__.py b/tools/nntool/generation/generators/kernels/mult8/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tools/nntool/generation/generators/kernels/mult8/conv_pool_relu_kernels_generator.py b/tools/nntool/generation/generators/kernels/mult8/conv_pool_relu_kernels_generator.py
new file mode 100644
index 000000000..d05f4ded5
--- /dev/null
+++ b/tools/nntool/generation/generators/kernels/mult8/conv_pool_relu_kernels_generator.py
@@ -0,0 +1,257 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+from generation.at_types.at_params import (NO_ACTIVATION, NO_CONV, NO_POOL,
+                                           ConvATParam, GroupedConvATParam,
+                                           gen_active_at_params, gen_conv_at_params,
+                                           gen_pool_at_params)
+from generation.at_types.gen_ctrl import GenCtrl
+from generation.code_block import CodeBlock
+from generation.generators.generator_decorators import generation_function, QREC_MULT8
+from graph.dim import PadDim
+from graph.types import (ActivationParameters, Conv2DParameters,
+                         ConvFusionParameters, PoolingParameters)
+from utils.node_id import NodeId
+
+from ..autotiler_kernel import AutotilerKernel
+
+LOG = logging.getLogger("nntool." + __name__)
+
+
+@generation_function("kernels",
+                     (Conv2DParameters,
+                      ConvFusionParameters,
+                      ActivationParameters),
+                     qrec_types=(QREC_MULT8,))
+def conv_pool_relu_kernels_generator(gen, node, qrec, in_eparams, out_eparams, cname) -> bool:
+    del in_eparams, out_eparams
+    if isinstance(node, Conv2DParameters):
+        gen.kernels.append(ConvPoolReluKernel(node.name, cname, node, qrec, None,
+                                              None, None, None, at_ver=gen.opts['at_ver'],
+                                              gen_ctrl=node.get_gen_ctrl()))
+    # We want to match the pool_act generator for PoolingParameters
+    # elif isinstance(node, PoolingParameters):
+    #     gen.kernels.append(ConvPoolReluKernel(node.name, cname, None, None,
+    #                                           node, qrec, None, None, at_ver=gen.opts['at_ver'],
+    #                                           gen_ctrl=node.get_gen_ctrl()))
+    elif isinstance(node, ActivationParameters):
+        # self.set_in_out_bindings(in_eparams, out_eparams, cname, node, qrec)
+        gen.kernels.append(ConvPoolReluKernel(node.name, cname, None, None,
+                                              None, None, node, qrec, at_ver=gen.opts['at_ver'],
+                                              gen_ctrl=node.get_gen_ctrl()))
+    elif isinstance(node, ConvFusionParameters):
+        cnodes = node.contained_nodes()
+        quants = [gen.G.quantization[NodeId(node, fnode)] for fnode in cnodes]
+        if node.fusion_type == "conv_active_pool":
+            gen.kernels.append(ConvPoolReluKernel(node.name, cname, cnodes[0], quants[0], cnodes[2], quants[2],
+                                                  cnodes[1], quants[1], at_ver=gen.opts['at_ver'],
+                                                  gen_ctrl=node.get_gen_ctrl()))
+        elif node.fusion_type == "conv_pool_active":
+            gen.kernels.append(ConvPoolReluKernel(node.name, cname, cnodes[0], quants[0], cnodes[1], quants[1],
+                                                  cnodes[2], quants[2], at_ver=gen.opts['at_ver'],
+                                                  gen_ctrl=node.get_gen_ctrl()))
+        elif node.fusion_type == "conv_active":
+            gen.kernels.append(ConvPoolReluKernel(node.name, cname, cnodes[0], quants[0], None, None, cnodes[1],
+                                                  quants[1], at_ver=gen.opts['at_ver'],
+                                                  gen_ctrl=node.get_gen_ctrl()))
+        elif node.fusion_type == "conv_pool":
+            gen.kernels.append(ConvPoolReluKernel(node.name, cname, cnodes[0], quants[0], cnodes[1], quants[1], None,
+                                                  None, at_ver=gen.opts['at_ver'], gen_ctrl=node.get_gen_ctrl()))
+        else:
+            return False
+    else:
+        return False
+    return True
+
+def gen_cnn_conv_pool_act_qs8(code_block, cname,
+                              in_feat, out_feat, width, height, bias_size,
+                              conv_oper, fcx, fcy, dcx, dcy, scx, scy, conv_pad,
+                              pool_oper, fpx, fpy, dpx, dpy, spx, spy, pool_pad,
+                              act_oper, gen_ctrl, at_ver=3):
+    del at_ver
+    code_block.write('CNN_ConvolutionPoolAct_SQ8("{}", {}, {}, {}, {}, {}, {}, {},',
+                     cname,
+                     gen_ctrl,
+                     bias_size,
+                     1,
+                     in_feat,
+                     out_feat,
+                     width,
+                     height)
+    code_block.indent()
+    code_block.write('{}, {}, {}, {}, {}, {}, {}, {},',
+                     conv_oper, fcx, fcy, dcx, dcy, scx, scy, conv_pad)
+    code_block.write('{}, {}, {}, {}, {}, {}, {}, {},',
+                     pool_oper, fpx, fpy, dpx, dpy, spx, spy, pool_pad)
+    code_block.write('{});', act_oper)
+    code_block.deindent()
+
+
+def gen_cnn_grp_conv_pool_act_qs8(code_block, cname,
+                                  grp_in, grp_out, in_feat, out_feat, width, height, bias_size,
+                                  conv_oper, fcx, fcy, dcx, dcy, scx, scy, conv_pad,
+                                  pool_oper, fpx, fpy, dpx, dpy, spx, spy, pool_pad,
+                                  act_oper, gen_ctrl, at_ver=3):
+    del at_ver
+    code_block.write('CNN_GroupedConvolutionPoolAct_SQ8("{}", {}, {}, {}, {}, {}, {}, {}, {}, {},',
+                     cname,
+                     gen_ctrl,
+                     grp_in,
+                     grp_out,
+                     bias_size,
+                     1,
+                     in_feat,
+                     out_feat,
+                     width,
+                     height)
+    code_block.indent()
+    code_block.write('{}, {}, {}, {}, {}, {}, {}, {},',
+                     conv_oper, fcx, fcy, dcx, dcy, scx, scy, conv_pad)
+    code_block.write('{}, {}, {}, {}, {}, {}, {}, {},',
+                     pool_oper, fpx, fpy, dpx, dpy, spx, spy, pool_pad)
+    code_block.write('{});', act_oper)
+    code_block.deindent()
+
+
+class ConvPoolReluKernel(AutotilerKernel):
+    def __init__(self, node_name, cname, conv_params, conv_q,
+                 pool_params, pool_q, act_params, act_q, at_ver=3, gen_ctrl=None):
+        if gen_ctrl is None:
+            self.gen_ctrl = gen_ctrl = GenCtrl(None, cname=cname)
+        else:
+            gen_ctrl.cname = cname
+            self.gen_ctrl = gen_ctrl
+
+        in_q = filter_q = out_q = bias_q = mul_biases_q = None
+        in_dim = out_dim = None
+        pad_compatibilities = []
+        if conv_params is not None:
+            at_conv_params = gen_conv_at_params(conv_params, pad_compatibilities)
+            in_dim = conv_params.in_dims[0]
+            out_dim = conv_params.out_dims[0]
+            # Set ENABLEIM2COL on 1x1 filters by default
+            if conv_params.filter.h == 1 and conv_params.filter.w == 1 and gen_ctrl.enableim2col is None:
+                gen_ctrl.enableim2col = 1
+            filter_q = conv_q.weights_q
+            in_q = conv_q.in_qs[0]
+            out_q = conv_q.out_qs[0]
+            bias_q = conv_q.biases_q
+            if conv_params.has_mul_bias:
+                mul_biases_q = conv_q.mul_biases_q
+        else:
+            at_conv_params = NO_CONV
+
+        if pool_params is not None:
+            at_pool_params = gen_pool_at_params(pool_params, pad_compatibilities)
+            if in_dim is None:
+                in_dim = pool_params.in_dims[0]
+            out_dim = pool_params.out_dims[0]
+            if in_q is None:
+                in_q = pool_q.in_qs[0]
+            out_q = pool_q.out_qs[0]
+        else:
+            at_pool_params = NO_POOL
+
+        if act_params is not None:
+            at_act_params = gen_active_at_params(act_params, force_relu=True)
+            if in_dim is None:
+                in_dim = act_params.in_dims[0]
+            if out_dim is None:
+                out_dim = act_params.out_dims[0]
+            if in_q is None:
+                in_q = act_q.in_qs[0]
+            out_q = act_q.out_qs[0]
+
+        else:
+            at_act_params = NO_ACTIVATION
+
+        if pad_compatibilities:
+            reduction = PadDim.pad_compatibility_reduce(*pad_compatibilities,
+                                                        "convolution padding is not compatible with pool padding")
+            if not reduction[2]:  # default is balanced pad left
+                at_pad_ctrl = next(i for i, v in enumerate(reduction) if v)
+                LOG.debug("%s: generating pad control block", node_name)
+                self.gen_ctrl.PadType = at_pad_ctrl
+        self.in_dim = in_dim
+        self.out_dim = out_dim
+        self.in_q = in_q
+        self.bias_q = bias_q
+        self.out_q = out_q
+        self.filter_q = filter_q
+        self.mul_biases_q = mul_biases_q
+        self.at_act_params = at_act_params
+        self.at_pool_params = at_pool_params
+        self.at_conv_params = at_conv_params
+        self.cname = cname
+        self.node_name = node_name
+        self.at_ver = at_ver
+
+    def code(self, code_block=None):
+        if code_block is None:
+            code_block = CodeBlock()
+
+        code_block.comment("generator for {}", self.node_name)
+
+        if not self.gen_ctrl.is_unmodified:
+            self.gen_ctrl.gen_ctrl_decl(code_block)
+            gen_ctrl = self.gen_ctrl.ctrl_name
+        else:
+            gen_ctrl = "0"
+
+        if self.at_conv_params == NO_CONV:
+            pp = self.at_pool_params
+            ap = self.at_act_params
+            gen_cnn_conv_pool_act_qs8(code_block, self.cname, self.in_dim.c,
+                                      self.out_dim.c, self.in_dim.w, self.in_dim.h,
+                                      self.bias_q.bits//8 if self.bias_q is not None else 0,
+                                      "KOP_NONE", 0, 0, 0, 0, 0, 0, 0,
+                                      pp.PoolOper, pp.Fpx, pp.Fpy, pp.Dpx, pp.Dpy,
+                                      pp.Spx, pp.Spy, pp.PoolPad,
+                                      ap.ReLUOper, gen_ctrl,
+                                      at_ver=self.at_ver)
+        else:
+            cp = self.at_conv_params
+            pp = self.at_pool_params
+            ap = self.at_act_params
+            if isinstance(self.at_conv_params, ConvATParam):
+                LOG.debug("%s: conv pool relu inq %s outq %s control block",
+                          self.node_name, self.in_q, self.out_q)
+                gen_cnn_conv_pool_act_qs8(code_block, self.cname, self.in_dim.c,
+                                          self.out_dim.c, self.in_dim.w, self.in_dim.h,
+                                          self.bias_q.bits//8,
+                                          cp.ConvOper, cp.Fcx, cp.Fcy, cp.Dcx, cp.Dcy,
+                                          cp.Scx, cp.Scy, cp.ConvPad,
+                                          pp.PoolOper, pp.Fpx, pp.Fpy, pp.Dpx, pp.Dpy,
+                                          pp.Spx, pp.Spy, pp.PoolPad,
+                                          ap.ReLUOper, gen_ctrl,
+                                          at_ver=self.at_ver)
+            elif isinstance(self.at_conv_params, GroupedConvATParam):
+                LOG.debug("%s: grouped mulconv pool relu inq %s outq %s control block",
+                          self.node_name, self.in_q, self.out_q)
+                gen_cnn_grp_conv_pool_act_qs8(code_block, self.cname, cp.GroupIn, cp.GroupOut,
+                                              self.in_dim.c,
+                                              self.out_dim.c, self.in_dim.w, self.in_dim.h,
+                                              self.bias_q.bits//8,
+                                              cp.ConvOper, cp.Fcx, cp.Fcy, cp.Dcx, cp.Dcy,
+                                              cp.Scx, cp.Scy, cp.ConvPad,
+                                              pp.PoolOper, pp.Fpx, pp.Fpy, pp.Dpx, pp.Dpy,
+                                              pp.Spx, pp.Spy, pp.PoolPad,
+                                              ap.ReLUOper, gen_ctrl,
+                                              at_ver=self.at_ver)
+            else:
+                raise ValueError('Internal error')
+
+        return code_block
diff --git a/tools/nntool/generation/generators/kernels/mult8/global_pool_kernels_generator.py b/tools/nntool/generation/generators/kernels/mult8/global_pool_kernels_generator.py
new file mode 100644
index 000000000..458e8b06a
--- /dev/null
+++ b/tools/nntool/generation/generators/kernels/mult8/global_pool_kernels_generator.py
@@ -0,0 +1,85 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+from generation.at_types.at_params import (NO_ACTIVATION, gen_active_at_params,
+                                           gen_globalpool_at_params)
+from generation.at_types.gen_ctrl import GenCtrl
+from generation.code_block import CodeBlock
+from generation.generators.generator_decorators import generation_function, QREC_MULT8
+from graph.types import GlobalPoolParameters, ActivationFusion
+
+from ..autotiler_kernel import AutotilerKernel
+
+LOG = logging.getLogger("nntool." + __name__)
+
+
+@generation_function("kernels", (GlobalPoolParameters, ActivationFusion), qrec_types=(QREC_MULT8, ))
+def global_pool_kernels_generator(gen, node, qrec, in_eparams, out_eparams, cname):
+    del in_eparams, out_eparams, qrec
+    if isinstance(node, ActivationFusion):
+        cnodes = node.contained_nodes()
+        if isinstance(cnodes[0], GlobalPoolParameters):
+            gen.kernels.append(GlobalPoolKernel(node.name, cname, cnodes[0], cnodes[1], at_ver=gen.opts['at_ver']))
+            return True
+        return False
+    gen.kernels.append(GlobalPoolKernel(node.name, cname, node, None, at_ver=gen.opts['at_ver']))
+    return True
+
+
+def gen_cnn_globalpool_sq8(code_block, cname, ctrl, feat, width, height, pooloper, actoper):
+    code_block.write('CNN_GlobalPoolAct_SQ8("{}", {}, {}, {}, {}, {}, {});'.format(cname, ctrl,
+                                                                                   feat, width,
+                                                                                   height, pooloper,
+                                                                                   actoper))
+
+
+class GlobalPoolKernel(AutotilerKernel):
+    def __init__(self, node_name, cname, pool_params, act_params, gen_ctrl=None, at_ver=3):
+        if gen_ctrl is None:
+            self.gen_ctrl = GenCtrl(None, cname=cname)
+        else:
+            gen_ctrl.cname = cname
+            self.gen_ctrl = gen_ctrl
+
+        if act_params is not None:
+            self.at_act_params = gen_active_at_params(act_params, force_relu=True)
+        else:
+            self.at_act_params = NO_ACTIVATION
+
+        self.at_globalpool_params = gen_globalpool_at_params(pool_params)
+        self.in_dim = pool_params.in_dims[0]
+        self.out_dim = pool_params.out_dims[0]
+        self.cname = cname
+        self.node_name = node_name
+        self.at_ver = at_ver
+
+    def code(self, code_block=None):
+        if code_block is None:
+            code_block = CodeBlock()
+
+        code_block.comment("generator for {}", self.node_name)
+
+        if not self.gen_ctrl.is_unmodified:
+            self.gen_ctrl.gen_ctrl_decl(code_block)
+            gen_ctrl = self.gen_ctrl.ctrl_name
+        else:
+            gen_ctrl = "0"
+
+        gen_cnn_globalpool_sq8(code_block, self.cname, gen_ctrl, self.in_dim.c,
+                               self.in_dim.w, self.in_dim.h,
+                               self.at_globalpool_params.GlobalPoolOper,
+                               self.at_act_params.ReLUOper)
+        return code_block
diff --git a/tools/nntool/generation/generators/kernels/mult8/linear_relu_kernels_generator.py b/tools/nntool/generation/generators/kernels/mult8/linear_relu_kernels_generator.py
new file mode 100644
index 000000000..5acd71c3a
--- /dev/null
+++ b/tools/nntool/generation/generators/kernels/mult8/linear_relu_kernels_generator.py
@@ -0,0 +1,121 @@
+    # Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+from generation.at_types.at_params import (NO_ACTIVATION,
+                                           gen_active_at_params, gen_linear_at_params)
+from generation.at_types.gen_ctrl import GenCtrl
+from generation.code_block import CodeBlock
+from generation.generators.generator_decorators import generation_function, QREC_MULT8
+from graph.types import (FcParameters, ConvFusionParameters)
+from utils.node_id import NodeId
+
+from ..autotiler_kernel import AutotilerKernel
+
+LOG = logging.getLogger("nntool." + __name__)
+
+
+@generation_function("kernels", (ConvFusionParameters, FcParameters), qrec_types=(QREC_MULT8, ))
+def linear_relu_kernels_generator(gen, node, qrec, in_eparams, out_eparams, cname):
+    del in_eparams, out_eparams
+    if isinstance(node, FcParameters):
+        gen.kernels.append(LinearReluKernel(node.name, cname, node, qrec, None, None,
+                                            at_ver=gen.opts['at_ver'], gen_ctrl=node.get_gen_ctrl()))
+    elif isinstance(node, ConvFusionParameters) and node.fusion_type == "linear_active":
+        cnodes = node.contained_nodes()
+        quants = [gen.G.quantization[NodeId(node, fnode)] for fnode in cnodes]
+        gen.kernels.append(LinearReluKernel(node.name, cname, cnodes[0], quants[0],
+                                            cnodes[1], quants[1], at_ver=gen.opts['at_ver'],
+                                            gen_ctrl=node.get_gen_ctrl()))
+    else:
+        return False
+    return True
+
+def gen_at_linear_relu(code_block, cname, biases_ds, mulbiases_ds,
+                       in_dim, out_dim, linear_oper, act_oper, gen_ctrl, at_ver=3):
+    del at_ver
+    code_block.write('CNN_LinearAct_SQ8("{}", {}, {}, {}, {}, {}, {}, {});',
+                     cname,
+                     gen_ctrl,
+                     biases_ds,
+                     mulbiases_ds,
+                     in_dim,
+                     out_dim,
+                     linear_oper,
+                     act_oper)
+
+
+class LinearReluKernel(AutotilerKernel):
+    def __init__(self, node_name, cname, linear_params, linear_q, act_params, act_q, at_ver=3, gen_ctrl=None):
+        if gen_ctrl is None:
+            self.gen_ctrl = GenCtrl(None, cname=cname)
+        else:
+            gen_ctrl.cname = cname
+            self.gen_ctrl = gen_ctrl
+
+        assert linear_params is not None, "linear should always be included"
+        at_linear_params = gen_linear_at_params(linear_params)
+        in_dim = linear_params.in_dims[0]
+        out_dim = linear_params.out_dims[0]
+        filter_q = linear_q.weights_q
+        in_q = linear_q.in_qs[0]
+        out_q = linear_q.out_qs[0]
+        bias_q = linear_q.biases_q
+        mulbiases_q = linear_q.mul_biases_q
+
+        if act_params is not None:
+            at_act_params = gen_active_at_params(act_params, force_relu=True)
+            if in_dim is None:
+                in_dim = act_params.in_dims[0]
+            if out_dim is None:
+                out_dim = act_params.out_dims[0]
+            if in_q is None:
+                in_q = act_q.in_qs[0]
+            out_q = act_q.out_qs[0]
+        else:
+            at_act_params = NO_ACTIVATION
+
+        self.at_linear_params = at_linear_params
+        self.in_dim = in_dim.size()
+        self.out_dim = out_dim.size()
+        self.in_q = in_q
+        self.bias_q = bias_q
+        self.mulbiases_q = mulbiases_q
+        self.out_q = out_q
+        self.filter_q = filter_q
+        self.at_act_params = at_act_params
+        self.cname = cname
+        self.node_name = node_name
+        self.at_ver = at_ver
+
+    def code(self, code_block=None):
+        if code_block is None:
+            code_block = CodeBlock()
+
+        code_block.comment("generator for {}", self.node_name)
+
+        if not self.gen_ctrl.is_unmodified:
+            self.gen_ctrl.gen_ctrl_decl(code_block)
+            gen_ctrl = self.gen_ctrl.ctrl_name
+        else:
+            gen_ctrl = "0"
+
+        gen_at_linear_relu(code_block, self.cname, self.bias_q.bits//8, self.mulbiases_q.bits//8,
+                           self.in_dim, self.out_dim,
+                           self.at_linear_params.LinearOper,
+                           self.at_act_params.ReLUOper,
+                           at_ver=self.at_ver, gen_ctrl=gen_ctrl)
+
+        return code_block
diff --git a/tools/nntool/generation/generators/kernels/mult8/mat_vect_mult_kernels_generator.py b/tools/nntool/generation/generators/kernels/mult8/mat_vect_mult_kernels_generator.py
new file mode 100644
index 000000000..90e135a3e
--- /dev/null
+++ b/tools/nntool/generation/generators/kernels/mult8/mat_vect_mult_kernels_generator.py
@@ -0,0 +1,86 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+from generation.at_types.at_params import (NO_ACTIVATION, gen_active_at_params)
+from generation.at_types.gen_ctrl import GenCtrl
+from generation.code_block import CodeBlock
+from generation.generators.generator_decorators import generation_function, QREC_MULT8
+from graph.types import MatrixMulParameters, ActivationFusion
+
+from ..autotiler_kernel import AutotilerKernel
+
+LOG = logging.getLogger("nntool." + __name__)
+
+MAT_VECT_MUL_OPER = "KOP_MATVECTMUL"
+
+@generation_function("kernels", (MatrixMulParameters, ActivationFusion), qrec_types=(QREC_MULT8, ))
+def mat_vect_mult_kernel_generator(gen, node, qrec, in_eparams, out_eparams, cname):
+    del in_eparams, out_eparams, qrec
+    if isinstance(node, ActivationFusion):
+        cnodes = node.contained_nodes()
+        if isinstance(cnodes[0], MatrixMulParameters):
+            gen.kernels.append(MatVectMulKernel(node.name, cname, cnodes[0], cnodes[1], at_ver=gen.opts['at_ver']))
+            return True
+        return False
+    gen.kernels.append(MatVectMulKernel(node.name, cname, node, None, at_ver=gen.opts['at_ver']))
+    return True
+
+def gen_mat_vect_mul_sq8(code_block, cname, ctrl, feat, width, height, act_oper):
+    code_block.write('CNN_TensorVectMultAct_SQ8("{}", {}, {}, {}, {}, {}, {});'.format(cname, ctrl,
+                                                                                       feat, width,
+                                                                                       height,
+                                                                                       MAT_VECT_MUL_OPER,
+                                                                                       act_oper))
+
+class MatVectMulKernel(AutotilerKernel):
+    def __init__(self, node_name, cname, tens_vect_mul_params, act_params, at_ver=3, gen_ctrl=None):
+        if gen_ctrl is None:
+            self.gen_ctrl = gen_ctrl = GenCtrl(None, cname=cname)
+        else:
+            gen_ctrl.cname = cname
+            self.gen_ctrl = gen_ctrl
+
+        self.cname = cname
+        self.node_name = node_name
+        self.at_ver = at_ver
+
+        if act_params is not None:
+            self.at_act_params = gen_active_at_params(act_params, force_relu=True)
+        else:
+            self.at_act_params = NO_ACTIVATION
+
+        self.tens_vect_mul_params = tens_vect_mul_params
+        dimensions = tens_vect_mul_params.in_dims[0]
+        self.feat_dim = dimensions[0]
+        self.width = dimensions[1]
+        self.height = dimensions[2]
+
+    def code(self, code_block=None):
+        if code_block is None:
+            code_block = CodeBlock()
+
+        code_block.comment("generator for {}", self.node_name)
+
+        if not self.gen_ctrl.is_unmodified:
+            self.gen_ctrl.gen_ctrl_decl(code_block)
+            gen_ctrl = self.gen_ctrl.ctrl_name
+        else:
+            gen_ctrl = "0"
+
+        gen_mat_vect_mul_sq8(code_block, self.cname, gen_ctrl, self.feat_dim,
+                             self.width, self.height, self.at_act_params.ReLUOper)
+
+        return code_block
diff --git a/tools/nntool/generation/generators/kernels/mult8/matadd_kernels_generator.py b/tools/nntool/generation/generators/kernels/mult8/matadd_kernels_generator.py
new file mode 100644
index 000000000..27500412a
--- /dev/null
+++ b/tools/nntool/generation/generators/kernels/mult8/matadd_kernels_generator.py
@@ -0,0 +1,86 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+from generation.at_types.at_params import (NO_ACTIVATION, gen_active_at_params)
+from generation.at_types.gen_ctrl import GenCtrl
+from generation.code_block import CodeBlock
+from generation.generators.generator_decorators import generation_function, QREC_MULT8
+from graph.types import MatrixAddParameters, ActivationFusion
+
+from ..autotiler_kernel import AutotilerKernel
+
+LOG = logging.getLogger("nntool." + __name__)
+
+MAT_ADD_OPER = "KOP_MATADD"
+
+@generation_function("kernels", (MatrixAddParameters, ActivationFusion), qrec_types=(QREC_MULT8, ))
+def matadd_kernel_generator(gen, node, qrec, in_eparams, out_eparams, cname):
+    del in_eparams, out_eparams, qrec
+    if isinstance(node, ActivationFusion):
+        cnodes = node.contained_nodes()
+        if isinstance(cnodes[0], MatrixAddParameters):
+            gen.kernels.append(MatAddKernel(node.name, cname, cnodes[0], cnodes[1], at_ver=gen.opts['at_ver']))
+            return True
+        return False
+    gen.kernels.append(MatAddKernel(node.name, cname, node, None, at_ver=gen.opts['at_ver']))
+    return True
+
+def gen_mat_add_sq8(code_block, cname, ctrl, feat, width, height, act_oper):
+    code_block.write('CNN_MatAddAct_SQ8("{}", {}, {}, {}, {}, {}, {});'.format(cname, ctrl,
+                                                                               feat, width,
+                                                                               height,
+                                                                               MAT_ADD_OPER,
+                                                                               act_oper))
+
+class MatAddKernel(AutotilerKernel):
+    def __init__(self, node_name, cname, matrixadd_params, act_params, at_ver=3, gen_ctrl=None):
+        if gen_ctrl is None:
+            self.gen_ctrl = gen_ctrl = GenCtrl(None, cname=cname)
+        else:
+            gen_ctrl.cname = cname
+            self.gen_ctrl = gen_ctrl
+
+        self.cname = cname
+        self.node_name = node_name
+        self.at_ver = at_ver
+
+        if act_params is not None:
+            self.at_act_params = gen_active_at_params(act_params, force_relu=True)
+        else:
+            self.at_act_params = NO_ACTIVATION
+
+        self.matrixadd_params = matrixadd_params
+        dimensions = matrixadd_params.in_dims[0]
+        self.feat_dim = dimensions[0]
+        self.width = dimensions[1]
+        self.height = dimensions[2]
+
+    def code(self, code_block=None):
+        if code_block is None:
+            code_block = CodeBlock()
+
+        code_block.comment("generator for {}", self.node_name)
+
+        if not self.gen_ctrl.is_unmodified:
+            self.gen_ctrl.gen_ctrl_decl(code_block)
+            gen_ctrl = self.gen_ctrl.ctrl_name
+        else:
+            gen_ctrl = "0"
+
+        gen_mat_add_sq8(code_block, self.cname, gen_ctrl, self.feat_dim,
+                        self.width, self.height, self.at_act_params.ReLUOper)
+
+        return code_block
diff --git a/tools/nntool/generation/generators/kernels/mult8/pool_relu_kernels_generator.py b/tools/nntool/generation/generators/kernels/mult8/pool_relu_kernels_generator.py
new file mode 100644
index 000000000..0c4c9ed91
--- /dev/null
+++ b/tools/nntool/generation/generators/kernels/mult8/pool_relu_kernels_generator.py
@@ -0,0 +1,93 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+from generation.at_types.at_params import (gen_pool_at_params, gen_active_at_params, NO_ACTIVATION)
+from generation.at_types.gen_ctrl import GenCtrl
+from generation.code_block import CodeBlock
+from generation.generators.generator_decorators import generation_function, QREC_MULT8
+from graph.types import PoolingParameters, ActivationFusion
+
+from ..autotiler_kernel import AutotilerKernel
+
+LOG = logging.getLogger("nntool." + __name__)
+
+
+@generation_function("kernels", (PoolingParameters, ActivationFusion), qrec_types=(QREC_MULT8, ))
+def pool_act_kernels_generator(gen, node, qrec, in_eparams, out_eparams, cname):
+    del in_eparams, out_eparams, qrec
+    if isinstance(node, ActivationFusion):
+        cnodes = node.contained_nodes()
+        if isinstance(cnodes[0], PoolingParameters):
+            gen.kernels.append(PoolKernel(node.name, cname, cnodes[0], cnodes[1], at_ver=gen.opts['at_ver']))
+            return True
+        return False
+    gen.kernels.append(PoolKernel(node.name, cname, node, None, at_ver=gen.opts['at_ver']))
+    return True
+
+
+def gen_cnn_pool_act_sq8(code_block, cname, ctrl, feat, width, height, at_pool_params, actoper):
+    code_block.write('CNN_PoolAct_SQ8("{}", {}, {}, {}, {},'.format(cname, ctrl, feat, width, height))
+    code_block.indent()
+    code_block.write('{}, {}, {}, {}, {}, {}, {}, {}, {});'.format(at_pool_params.PoolOper,
+                                                                   at_pool_params.Fpx,
+                                                                   at_pool_params.Fpy,
+                                                                   at_pool_params.Dpx,
+                                                                   at_pool_params.Dpy,
+                                                                   at_pool_params.Spx,
+                                                                   at_pool_params.Spy,
+                                                                   at_pool_params.PoolPad,
+                                                                   actoper))
+    code_block.deindent()
+
+
+class PoolKernel(AutotilerKernel):
+    def __init__(self, node_name, cname, pool_params, act_params, gen_ctrl=None, at_ver=3):
+        if gen_ctrl is None:
+            self.gen_ctrl = GenCtrl(None, cname=cname)
+        else:
+            gen_ctrl.cname = cname
+            self.gen_ctrl = gen_ctrl
+
+        if act_params is not None:
+            self.at_act_params = gen_active_at_params(act_params, force_relu=True)
+        else:
+            self.at_act_params = NO_ACTIVATION
+
+        pad_compatibilities = []
+        self.at_pool_params = gen_pool_at_params(pool_params, pad_compatibilities)
+        self.in_dim = pool_params.in_dims[0]
+        self.out_dim = pool_params.out_dims[0]
+        self.cname = cname
+        self.node_name = node_name
+        self.at_ver = at_ver
+
+    def code(self, code_block=None):
+        if code_block is None:
+            code_block = CodeBlock()
+
+        code_block.comment("generator for {}", self.node_name)
+
+        if not self.gen_ctrl.is_unmodified:
+            self.gen_ctrl.gen_ctrl_decl(code_block)
+            gen_ctrl = self.gen_ctrl.ctrl_name
+        else:
+            gen_ctrl = "0"
+
+        gen_cnn_pool_act_sq8(code_block, self.cname, gen_ctrl, self.in_dim.c,
+                             self.in_dim.w, self.in_dim.h,
+                             self.at_pool_params,
+                             self.at_act_params.ReLUOper)
+        return code_block
diff --git a/tools/nntool/generation/generators/kernels/mult8/softmax_kernels_generator.py b/tools/nntool/generation/generators/kernels/mult8/softmax_kernels_generator.py
new file mode 100644
index 000000000..0277852ed
--- /dev/null
+++ b/tools/nntool/generation/generators/kernels/mult8/softmax_kernels_generator.py
@@ -0,0 +1,79 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+from generation.at_types.at_params import gen_softmax_at_params
+from generation.at_types.gen_ctrl import GenCtrl
+from generation.code_block import CodeBlock
+from generation.generators.generator_decorators import generation_function, QREC_MULT8
+from graph.types import SoftMaxParameters
+
+from ..autotiler_kernel import AutotilerKernel
+
+LOG = logging.getLogger("nntool." + __name__)
+
+GEN_SOFTMAX = "CNN_SoftMax_SQ8"
+# extern void CNN_SoftMax(
+#         char *Name,
+#         CNN_GenControl_T *Ctrl,
+#         int Dim,
+#         KernelOper_T SoftMaxOper
+#         );
+
+def gen_at_softmax(code_block, name, in_dim, at_softmax_params, gen_ctrl=None, at_ver=3):
+    if gen_ctrl is None:
+        gen_ctrl = "0"
+    else:
+        raise NotImplementedError("genctrl is not yet implemented")
+
+    code_block.write('{}("{}", {}, {}, {});',
+                     GEN_SOFTMAX, name, gen_ctrl,
+                     in_dim.size(), at_softmax_params)
+
+
+@generation_function("kernels", (SoftMaxParameters, ), qrec_types=(QREC_MULT8, ))
+def softmax_kernels_generator(gen, node, qrec, in_eparams, out_eparams, cname):
+    del in_eparams, out_eparams
+    gen.kernels.append(SoftmaxKernel(cname, node, qrec, at_ver=gen.opts['at_ver']))
+    return True
+
+
+class SoftmaxKernel(AutotilerKernel):
+    def __init__(self, cname, params, qrec, gen_ctrl=None, at_ver=3):
+        del qrec
+        if gen_ctrl is None:
+            self.gen_ctrl = GenCtrl(None, cname=cname)
+        else:
+            gen_ctrl.cname = cname
+            self.gen_ctrl = gen_ctrl
+
+        self.at_softmax_params = gen_softmax_at_params(params)
+        self.in_dim = params.in_dims[0]
+        self.cname = cname
+        self.node_name = params.name
+        self.at_ver = at_ver
+
+    def code(self, code_block=None):
+        if code_block is None:
+            code_block = CodeBlock()
+
+        code_block.comment("generator for {}", self.node_name)
+
+        if not self.gen_ctrl.is_unmodified:
+            self.gen_ctrl.gen_ctrl_decl(code_block)
+
+        gen_at_softmax(code_block, self.cname, self.in_dim,
+                       self.at_softmax_params.SoftMaxOper, at_ver=self.at_ver)
+        return code_block
diff --git a/tools/nntool/generation/generators/kernels/mult8/three_d_transpose_kernels_generator.py b/tools/nntool/generation/generators/kernels/mult8/three_d_transpose_kernels_generator.py
new file mode 100644
index 000000000..d22c74c4e
--- /dev/null
+++ b/tools/nntool/generation/generators/kernels/mult8/three_d_transpose_kernels_generator.py
@@ -0,0 +1,152 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+from generation.at_types.gen_ctrl import GenCtrl
+from generation.code_block import CodeBlock
+from generation.generators.generator_decorators import generation_function, QREC_MULT8
+from graph.types import TransposeParameters
+
+from ..autotiler_kernel import AutotilerKernel
+
+LOG = logging.getLogger("nntool." + __name__)
+
+
+@generation_function("kernels", (TransposeParameters, ), qrec_types=(QREC_MULT8, ))
+def three_d_transpose_kernels_generator(gen, node, qrec, in_eparams, out_eparams, cname):
+    del in_eparams, out_eparams
+    LOG.info("generating for transpose in %s out %s trans %s",
+             node.in_dims[0], node.out_dims[0], node.transpose_in)
+    real_in_shape, real_transpose = node.real_shape()
+    if len(real_transpose) <= 1:
+        return True
+    if len(real_transpose) == 2:
+        gen.kernels.append(TwoDTransposeKernelSq8(cname, node, real_in_shape,
+                                                  real_transpose, qrec, at_ver=gen.opts['at_ver']))
+    elif len(real_transpose) == 3:
+        gen.kernels.append(ThreeDTransposeKernelSq8(cname, node, real_in_shape,
+                                                    real_transpose, qrec, at_ver=gen.opts['at_ver']))
+    else:
+        raise NotImplementedError("only 2D or 3D transposes are currently supported")
+    return True
+
+# int CNN_MatTranspose_SQ8(
+# 	char *Name,
+
+# 	CNN_GenControl_T *Ctrl,
+
+# 	int Feat,
+# 	int Width,
+# 	int Height,
+
+# 	KernelOper_T MatTransOper
+# )
+
+
+def gen_at_2d_transpose(code_block, name,
+                        in_shape, gen_ctrl=None,
+                        at_ver=3):
+    if gen_ctrl is None:
+        gen_ctrl = "0"
+    else:
+        raise NotImplementedError("genctrl is not yet implemented")
+
+    code_block.write('CNN_MatTranspose_SQ8("{}", {}, 1, {}, {}, KOP_MATTRANSP);',
+                     name, gen_ctrl, in_shape[1], in_shape[0])
+
+
+class TwoDTransposeKernelSq8(AutotilerKernel):
+    def __init__(self, cname, params, real_in_shape, real_transpose, qrec, gen_ctrl=None, at_ver=3):
+        if gen_ctrl is None:
+            self.gen_ctrl = GenCtrl(None, cname=cname)
+        else:
+            gen_ctrl.cname = cname
+            self.gen_ctrl = gen_ctrl
+
+        self.in_q = qrec.in_qs[0]
+        self.out_q = qrec.out_qs[0]
+        self.in_shape = real_in_shape
+        self.in_dim = params.in_dims[0]
+        self.out_dim = params.out_dims[0]
+        self.real_transpose = real_transpose
+        self.cname = cname
+        self.node_name = params.name
+        self.at_ver = at_ver
+
+    def code(self, code_block=None):
+        if code_block is None:
+            code_block = CodeBlock()
+
+        code_block.comment("generator for {}", self.node_name)
+        code_block.comment("transpose from {} to {} ({})", self.in_dim,
+                           self.out_dim, self.real_transpose)
+
+        if not self.gen_ctrl.is_unmodified:
+            self.gen_ctrl.gen_ctrl_decl(code_block)
+
+        gen_at_2d_transpose(code_block, self.cname,
+                            self.in_shape)
+        return code_block
+
+
+def gen_at_3d_transpose(code_block, name,
+                        in_shape, permop, gen_ctrl=None,
+                        at_ver=3):
+    if gen_ctrl is None:
+        gen_ctrl = "0"
+    else:
+        raise NotImplementedError("genctrl is not yet implemented")
+
+    code_block.write('CNN_3DTensorPermute_SQ8("{}", {}, {}, {}, {}, {});',
+                     name, gen_ctrl, in_shape[0], in_shape[2], in_shape[1],
+                     permop)
+
+
+class ThreeDTransposeKernelSq8(AutotilerKernel):
+    def __init__(self, cname, params, real_in_shape, real_transpose, qrec, gen_ctrl=None, at_ver=3):
+        if gen_ctrl is None:
+            self.gen_ctrl = GenCtrl(None, cname=cname)
+        else:
+            gen_ctrl.cname = cname
+            self.gen_ctrl = gen_ctrl
+
+        self.in_shape = real_in_shape
+        dim_names = ['C', 'H', 'W']
+        perm = [dim_names[i] for i in real_transpose]
+        self.permop = "KOP_MATPERM_CHW2{}".format("".join(perm))
+        self.real_transpose = real_transpose
+
+        self.in_q = qrec.in_qs[0]
+        self.out_q = qrec.out_qs[0]
+        self.in_dim = params.in_dims[0]
+        self.out_dim = params.out_dims[0]
+        self.cname = cname
+        self.node_name = params.name
+        self.at_ver = at_ver
+
+    def code(self, code_block=None):
+        if code_block is None:
+            code_block = CodeBlock()
+
+        code_block.comment("generator for {}", self.node_name)
+        code_block.comment("transpose from {} to {} ({})", self.in_dim,
+                           self.out_dim, self.real_transpose)
+
+        if not self.gen_ctrl.is_unmodified:
+            self.gen_ctrl.gen_ctrl_decl(code_block)
+
+        gen_at_3d_transpose(code_block, self.cname,
+                            self.in_shape, self.permop)
+        return code_block
diff --git a/tools/nntool/generation/generators/kernels/pow2/__init__.py b/tools/nntool/generation/generators/kernels/pow2/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tools/nntool/generation/generators/kernels/pow2/conv_pool_relu_kernels_generator.py b/tools/nntool/generation/generators/kernels/pow2/conv_pool_relu_kernels_generator.py
new file mode 100644
index 000000000..640eaafff
--- /dev/null
+++ b/tools/nntool/generation/generators/kernels/pow2/conv_pool_relu_kernels_generator.py
@@ -0,0 +1,214 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+from generation.at_generators import (NO_ACTIVATION, NO_CONV, NO_POOL,
+                                      ConvATParam, GroupedConvATParam,
+                                      gen_active_at_params,
+                                      gen_at_conv_pool_relu,
+                                      gen_at_grouped_conv_pool_relu,
+                                      gen_at_grouped_mulconv_pool_relu,
+                                      gen_at_mulconv_pool_relu,
+                                      gen_at_pool_relu, gen_conv_at_params,
+                                      gen_pool_at_params)
+from generation.at_types.gen_ctrl import GenCtrl
+from generation.code_block import CodeBlock
+from generation.generators.generator_decorators import generation_function, QREC_POW2
+from graph.dim import PadDim
+from graph.types import (ActivationParameters, Conv2DParameters,
+                         ConvFusionParameters, PoolingParameters)
+from utils.node_id import NodeId
+
+from ..autotiler_kernel import AutotilerKernel
+
+LOG = logging.getLogger("nntool." + __name__)
+
+
+@generation_function("kernels",
+                     (Conv2DParameters,
+                      ConvFusionParameters,
+                      PoolingParameters,
+                      ActivationParameters),
+                     qrec_types=(QREC_POW2,))
+def conv_pool_relu_kernels_generator(gen, node, qrec, in_eparams, out_eparams, cname) -> bool:
+    del in_eparams, out_eparams
+    if isinstance(node, Conv2DParameters):
+        gen.kernels.append(ConvPoolReluKernel(node.name, cname, node, qrec, None,
+                                              None, None, None, at_ver=gen.opts['at_ver'],
+                                              gen_ctrl=node.get_gen_ctrl()))
+    elif isinstance(node, PoolingParameters):
+        gen.kernels.append(ConvPoolReluKernel(node.name, cname, None, None,
+                                              node, qrec, None, None, at_ver=gen.opts['at_ver'],
+                                              gen_ctrl=node.get_gen_ctrl()))
+    elif isinstance(node, ActivationParameters):
+        # self.set_in_out_bindings(in_eparams, out_eparams, cname, node, qrec)
+        gen.kernels.append(ConvPoolReluKernel(node.name, cname, None, None,
+                                              None, None, node, qrec, at_ver=gen.opts['at_ver'],
+                                              gen_ctrl=node.get_gen_ctrl()))
+    elif isinstance(node, ConvFusionParameters):
+        cnodes = node.contained_nodes()
+        quants = [gen.G.quantization[NodeId(node, fnode)] for fnode in cnodes]
+        if node.fusion_type == "conv_active_pool":
+            gen.kernels.append(ConvPoolReluKernel(node.name, cname, cnodes[0], quants[0], cnodes[2], quants[2],
+                                                  cnodes[1], quants[1], at_ver=gen.opts['at_ver'],
+                                                  gen_ctrl=node.get_gen_ctrl()))
+        elif node.fusion_type == "conv_pool_active":
+            gen.kernels.append(ConvPoolReluKernel(node.name, cname, cnodes[0], quants[0], cnodes[1], quants[1],
+                                                  cnodes[2], quants[2], at_ver=gen.opts['at_ver'],
+                                                  gen_ctrl=node.get_gen_ctrl()))
+        elif node.fusion_type == "conv_active":
+            gen.kernels.append(ConvPoolReluKernel(node.name, cname, cnodes[0], quants[0], None, None, cnodes[1],
+                                                  quants[1], at_ver=gen.opts['at_ver'],
+                                                  gen_ctrl=node.get_gen_ctrl()))
+        elif node.fusion_type == "conv_pool":
+            gen.kernels.append(ConvPoolReluKernel(node.name, cname, cnodes[0], quants[0], cnodes[1], quants[1], None,
+                                                  None, at_ver=gen.opts['at_ver'], gen_ctrl=node.get_gen_ctrl()))
+        else:
+            return False
+    else:
+        return False
+    return True
+
+
+class ConvPoolReluKernel(AutotilerKernel):
+    def __init__(self, node_name, cname, conv_params, conv_q,
+                 pool_params, pool_q, act_params, act_q, at_ver=3, gen_ctrl=None):
+        if gen_ctrl is None:
+            self.gen_ctrl = gen_ctrl = GenCtrl(None, cname=cname)
+        else:
+            gen_ctrl.cname = cname
+            self.gen_ctrl = gen_ctrl
+
+        in_q = filter_q = out_q = bias_q = mul_biases_q = None
+        in_dim = out_dim = None
+        pad_compatibilities = []
+        if conv_params is not None:
+            at_conv_params = gen_conv_at_params(conv_params, conv_q, pad_compatibilities)
+            in_dim = conv_params.in_dims[0]
+            out_dim = conv_params.out_dims[0]
+            filter_q = conv_q.weights_q
+            in_q = conv_q.in_qs[0]
+            out_q = conv_q.out_qs[0]
+            bias_q = conv_q.biases_q
+            if conv_params.has_mul_bias:
+                mul_biases_q = conv_q.mul_biases_q
+        else:
+            at_conv_params = NO_CONV
+
+        if pool_params is not None:
+            at_pool_params = gen_pool_at_params(pool_params, pad_compatibilities)
+            if in_dim is None:
+                in_dim = pool_params.in_dims[0]
+            out_dim = pool_params.out_dims[0]
+            if in_q is None:
+                in_q = pool_q.in_qs[0]
+            out_q = pool_q.out_qs[0]
+        else:
+            at_pool_params = NO_POOL
+
+        if act_params is not None:
+            at_act_params = gen_active_at_params(act_params)
+            if in_dim is None:
+                in_dim = act_params.in_dims[0]
+            if out_dim is None:
+                out_dim = act_params.out_dims[0]
+            if in_q is None:
+                in_q = act_q.in_qs[0]
+            out_q = act_q.out_qs[0]
+            if at_ver < 3:
+                if act_params.activation == "relu6" and out_q.q != 0:
+                    self.gen_ctrl.ReluN = 6 << out_q.q
+                    self.gen_ctrl.ReluNNoNorm = 1
+            else:
+                if act_params.activation == "relun":
+                    self.gen_ctrl.ReluN = act_params.activation_params
+
+        else:
+            at_act_params = NO_ACTIVATION
+
+        if pad_compatibilities:
+            reduction = PadDim.pad_compatibility_reduce(*pad_compatibilities,
+                                                        "convolution padding is not compatible with pool padding")
+            if not reduction[2]:  # default is balanced pad left
+                at_pad_ctrl = next(i for i, v in enumerate(reduction) if v)
+                LOG.debug("%s: generating pad control block", node_name)
+                self.gen_ctrl.PadType = at_pad_ctrl
+        self.in_dim = in_dim
+        self.out_dim = out_dim
+        self.in_q = in_q
+        self.bias_q = bias_q
+        self.out_q = out_q
+        self.filter_q = filter_q
+        self.mul_biases_q = mul_biases_q
+        self.at_act_params = at_act_params
+        self.at_pool_params = at_pool_params
+        self.at_conv_params = at_conv_params
+        self.cname = cname
+        self.node_name = node_name
+        self.at_ver = at_ver
+
+    def code(self, code_block=None):
+        if code_block is None:
+            code_block = CodeBlock()
+
+        code_block.comment("generator for {}", self.node_name)
+
+        if not self.gen_ctrl.is_unmodified:
+            self.gen_ctrl.gen_ctrl_decl(code_block)
+
+        if self.at_conv_params == NO_CONV:
+            if self.in_q.bits != self.out_q.bits:
+                raise NotImplementedError("only homogenious operations are supported at present")
+            LOG.debug("%s: pool relu inq %s outq %s control block",
+                      self.node_name, self.in_q, self.out_q)
+            gen_at_pool_relu(code_block, self.cname, self.in_q, self.out_q,
+                             self.in_dim, self.out_dim, self.at_pool_params, self.at_act_params, gen_ctrl=self.gen_ctrl,
+                             at_ver=self.at_ver)
+        else:
+            if isinstance(self.at_conv_params, ConvATParam):
+                if self.mul_biases_q is not None:
+                    LOG.debug("%s: mulconv pool relu inq %s outq %s control block",
+                              self.node_name, self.in_q, self.out_q)
+                    gen_at_mulconv_pool_relu(code_block, self.cname, self.in_q, self.out_q,
+                                             self.filter_q, self.bias_q, self.mul_biases_q,
+                                             self.in_dim, self.out_dim, self.at_conv_params, self.at_pool_params,
+                                             self.at_act_params, gen_ctrl=self.gen_ctrl, at_ver=self.at_ver)
+                else:
+                    LOG.debug("%s: conv pool relu inq %s outq %s control block",
+                              self.node_name, self.in_q, self.out_q)
+                    gen_at_conv_pool_relu(code_block, self.cname, self.in_q, self.out_q,
+                                          self.filter_q, self.bias_q,
+                                          self.in_dim, self.out_dim, self.at_conv_params, self.at_pool_params,
+                                          self.at_act_params, gen_ctrl=self.gen_ctrl, at_ver=self.at_ver)
+            elif isinstance(self.at_conv_params, GroupedConvATParam):
+                if self.mul_biases_q is not None:
+                    LOG.debug("%s: grouped conv pool relu inq %s outq %s control block",
+                              self.node_name, self.in_q, self.out_q)
+                    gen_at_grouped_mulconv_pool_relu(code_block, self.cname, self.in_q, self.out_q,
+                                                     self.filter_q, self.bias_q, self.mul_biases_q,
+                                                     self.in_dim, self.out_dim, self.at_conv_params,
+                                                     self.at_pool_params,
+                                                     self.at_act_params, gen_ctrl=self.gen_ctrl, at_ver=self.at_ver)
+                else:
+                    LOG.debug("%s: grouped mulconv pool relu inq %s outq %s control block",
+                              self.node_name, self.in_q, self.out_q)
+                    gen_at_grouped_conv_pool_relu(code_block, self.cname, self.in_q, self.out_q,
+                                                  self.filter_q, self.bias_q,
+                                                  self.in_dim, self.out_dim, self.at_conv_params, self.at_pool_params,
+                                                  self.at_act_params, gen_ctrl=self.gen_ctrl, at_ver=self.at_ver)
+            else:
+                raise ValueError('Internal error')
+
+        return code_block
diff --git a/tools/nntool/generation/generators/kernels/pow2/global_pool_kernels_generator.py b/tools/nntool/generation/generators/kernels/pow2/global_pool_kernels_generator.py
new file mode 100644
index 000000000..93a413f7f
--- /dev/null
+++ b/tools/nntool/generation/generators/kernels/pow2/global_pool_kernels_generator.py
@@ -0,0 +1,66 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+from generation.at_generators import (gen_globalpool_at_params, gen_at_globalpool)
+from generation.at_types.gen_ctrl import GenCtrl
+from generation.code_block import CodeBlock
+from generation.generators.generator_decorators import generation_function, QREC_POW2
+from graph.types import GlobalPoolParameters
+
+from ..autotiler_kernel import AutotilerKernel
+
+LOG = logging.getLogger("nntool." + __name__)
+
+
+@generation_function("kernels",
+                     (GlobalPoolParameters, ),
+                     qrec_types=(QREC_POW2, ))
+def global_pool_kernels_generator(gen, node, qrec, in_eparams, out_eparams, cname):
+    del in_eparams, out_eparams
+    gen.kernels.append(GlobalPoolKernel(node.name, cname, node, qrec, at_ver=gen.opts['at_ver']))
+    return True
+
+
+class GlobalPoolKernel(AutotilerKernel):
+    def __init__(self, node_name, cname, params, qrec, gen_ctrl=None, at_ver=3):
+        if gen_ctrl is None:
+            self.gen_ctrl = GenCtrl(None, cname=cname)
+        else:
+            gen_ctrl.cname = cname
+            self.gen_ctrl = gen_ctrl
+
+        self.at_globalpool_params = gen_globalpool_at_params(params)
+        self.in_dim = params.in_dims[0]
+        self.out_dim = params.out_dims[0]
+        self.in_q = qrec.in_qs[0]
+        self.out_q = qrec.out_qs[0]
+        self.cname = cname
+        self.node_name = node_name
+        self.at_ver = at_ver
+
+    def code(self, code_block=None):
+        if code_block is None:
+            code_block = CodeBlock()
+
+        code_block.comment("generator for {}", self.node_name)
+
+        if not self.gen_ctrl.is_unmodified:
+            self.gen_ctrl.gen_ctrl_decl(code_block)
+
+        gen_at_globalpool(code_block, self.cname, self.in_q, self.out_q,
+                          self.in_dim, self.out_dim, self.at_globalpool_params,
+                          at_ver=self.at_ver)
+        return code_block
diff --git a/tools/nntool/generation/generators/kernels/pow2/linear_relu_kernels_generator.py b/tools/nntool/generation/generators/kernels/pow2/linear_relu_kernels_generator.py
new file mode 100644
index 000000000..fdd44d318
--- /dev/null
+++ b/tools/nntool/generation/generators/kernels/pow2/linear_relu_kernels_generator.py
@@ -0,0 +1,103 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+from generation.at_generators import (NO_ACTIVATION,
+                                      gen_active_at_params, gen_linear_at_params, gen_at_linear_relu)
+from generation.at_types.gen_ctrl import GenCtrl
+from generation.code_block import CodeBlock
+from generation.generators.generator_decorators import generation_function, QREC_POW2
+from graph.types import (FcParameters, ConvFusionParameters)
+from utils.node_id import NodeId
+
+from ..autotiler_kernel import AutotilerKernel
+
+LOG = logging.getLogger("nntool." + __name__)
+
+
+@generation_function("kernels", (ConvFusionParameters, FcParameters), qrec_types=(QREC_POW2, ))
+def linear_relu_kernels_generator(gen, node, qrec, in_eparams, out_eparams, cname):
+    del in_eparams, out_eparams
+    if isinstance(node, FcParameters):
+        gen.kernels.append(LinearReluKernel(node.name, cname, node, qrec, None, None,
+                                            at_ver=gen.opts['at_ver'], gen_ctrl=node.get_gen_ctrl()))
+    elif isinstance(node, ConvFusionParameters) and node.fusion_type == "linear_active":
+        cnodes = node.contained_nodes()
+        quants = [gen.G.quantization[NodeId(node, fnode)] for fnode in cnodes]
+        gen.kernels.append(LinearReluKernel(node.name, cname, cnodes[0], quants[0],
+                                            cnodes[1], quants[1], at_ver=gen.opts['at_ver'],
+                                            gen_ctrl=node.get_gen_ctrl()))
+    else:
+        return False
+    return True
+
+
+class LinearReluKernel(AutotilerKernel):
+    def __init__(self, node_name, cname, linear_params, linear_q, act_params, act_q, at_ver=3, gen_ctrl=None):
+        if gen_ctrl is None:
+            self.gen_ctrl = GenCtrl(None, cname=cname)
+        else:
+            gen_ctrl.cname = cname
+            self.gen_ctrl = gen_ctrl
+
+        assert linear_params is not None, "linear should always be included"
+        at_linear_params = gen_linear_at_params(linear_params)
+        in_dim = linear_params.in_dims[0]
+        out_dim = linear_params.out_dims[0]
+        filter_q = linear_q.weights_q
+        in_q = linear_q.in_qs[0]
+        out_q = linear_q.out_qs[0]
+        bias_q = linear_q.biases_q
+
+        if act_params is not None:
+            at_act_params = gen_active_at_params(act_params)
+            out_q = act_q.out_qs[0]
+            if at_ver < 3:
+                if act_params.activation == "relu6" and out_q.q != 0:
+                    self.gen_ctrl.ReluN = 6 << out_q.q
+                    self.gen_ctrl.ReluNNoNorm = 1
+            else:
+                if act_params.activation == "relun":
+                    self.gen_ctrl.ReluN = act_params.activation_params
+        else:
+            at_act_params = NO_ACTIVATION
+
+        self.at_linear_params = at_linear_params
+        self.in_dim = in_dim
+        self.out_dim = out_dim
+        self.in_q = in_q
+        self.bias_q = bias_q
+        self.out_q = out_q
+        self.filter_q = filter_q
+        self.at_act_params = at_act_params
+        self.cname = cname
+        self.node_name = node_name
+        self.at_ver = at_ver
+
+    def code(self, code_block=None):
+        if code_block is None:
+            code_block = CodeBlock()
+
+        code_block.comment("generator for {}", self.node_name)
+
+        if not self.gen_ctrl.is_unmodified:
+            self.gen_ctrl.gen_ctrl_decl(code_block)
+
+        gen_at_linear_relu(code_block, self.cname, self.in_q, self.out_q,
+                           self.filter_q, self.bias_q,
+                           self.in_dim, self.out_dim, self.at_linear_params, self.at_act_params,
+                           at_ver=self.at_ver, gen_ctrl=self.gen_ctrl)
+
+        return code_block
diff --git a/tools/nntool/generation/generators/kernels/pow2/matadd_kernels_generator.py b/tools/nntool/generation/generators/kernels/pow2/matadd_kernels_generator.py
new file mode 100644
index 000000000..1267fd8ab
--- /dev/null
+++ b/tools/nntool/generation/generators/kernels/pow2/matadd_kernels_generator.py
@@ -0,0 +1,147 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+from generation.at_generators import (NO_ACTIVATION, gen_active_at_params,
+                                      gen_at_matrixadd, gen_at_matrixadddyn,
+                                      gen_matrixadd_at_params,
+                                      gen_matrixadddyn_at_params)
+from generation.at_types.gen_ctrl import GenCtrl
+from generation.code_block import CodeBlock
+from generation.generators.generator_decorators import generation_function, QREC_POW2
+from graph.types import MatrixAddParameters
+
+from ..autotiler_kernel import AutotilerKernel
+
+LOG = logging.getLogger("nntool." + __name__)
+
+
+@generation_function("kernels", (MatrixAddParameters, ), qrec_types=(QREC_POW2, ))
+def matadd_kernels_generator(gen, node, qrec, in_eparams, out_eparams, cname):
+    del in_eparams, out_eparams
+    if qrec.in_qs[0].q == qrec.in_qs[1].q and qrec.in_qs[0].q == qrec.out_qs[0].q:
+        gen.kernels.append(MatrixAddKernel(cname, node, qrec, None, None, at_ver=gen.opts['at_ver']))
+    else:
+        gen.kernels.append(MatrixAddDynKernel(cname, node, qrec, None, None, at_ver=gen.opts['at_ver']))
+    return True
+
+
+class MatrixAddKernel(AutotilerKernel):
+    def __init__(self, cname, matrixadd_params, matrixadd_q, act_params, act_q, gen_ctrl=None, at_ver=3):
+        if gen_ctrl is None:
+            self.gen_ctrl = GenCtrl(None, cname=cname)
+        else:
+            gen_ctrl.cname = cname
+            self.gen_ctrl = gen_ctrl
+
+        at_matrixadd_params = gen_matrixadd_at_params(matrixadd_params)
+        in_dim = matrixadd_params.in_dims[0]
+        out_dim = matrixadd_params.out_dims[0]
+        in_q1 = matrixadd_q.in_qs[0]
+        in_q2 = matrixadd_q.in_qs[1]
+        out_q = matrixadd_q.out_qs[0]
+
+        if act_params is not None:
+            at_act_params = gen_active_at_params(act_params)
+            out_q = act_q.out_qs[0]
+            if at_ver < 3:
+                if act_params.activation == "relu6" and out_q.q != 0:
+                    self.gen_ctrl.ReluN = 6 << out_q.q
+                    self.gen_ctrl.ReluNNoNorm = 1
+            else:
+                if act_params.activation == "relun":
+                    self.gen_ctrl.ReluN = act_params.activation_params
+        else:
+            at_act_params = NO_ACTIVATION
+
+        self.at_matrixadd_params = at_matrixadd_params
+        self.in_dim = in_dim
+        self.out_dim = out_dim
+        self.in_q1 = in_q1
+        self.in_q2 = in_q2
+        self.out_q = out_q
+        self.at_act_params = at_act_params
+        self.cname = cname
+        self.node_name = matrixadd_params.name
+        self.at_ver = at_ver
+
+    def code(self, code_block=None):
+        if code_block is None:
+            code_block = CodeBlock()
+
+        code_block.comment("generator for {}", self.node_name)
+
+        if not self.gen_ctrl.is_unmodified:
+            self.gen_ctrl.gen_ctrl_decl(code_block)
+
+        gen_at_matrixadd(code_block, self.cname, self.in_q1, self.in_q2, self.out_q,
+                         self.in_dim, self.out_dim, self.at_matrixadd_params,
+                         at_ver=self.at_ver, gen_ctrl=self.gen_ctrl)
+
+        return code_block
+
+
+class MatrixAddDynKernel(AutotilerKernel):
+    def __init__(self, cname, matrixadd_params, matrixadd_q, act_params, act_q, gen_ctrl=None, at_ver=3):
+        if gen_ctrl is None:
+            self.gen_ctrl = GenCtrl(None, cname=cname)
+        else:
+            self.gen_ctrl.cname = cname
+
+        at_matrixadd_params = gen_matrixadddyn_at_params(matrixadd_params)
+        in_dim = matrixadd_params.in_dims[0]
+        out_dim = matrixadd_params.out_dims[0]
+        in_q1 = matrixadd_q.in_qs[0]
+        in_q2 = matrixadd_q.in_qs[1]
+        out_q = matrixadd_q.out_qs[0]
+
+        if act_params is not None:
+            at_act_params = gen_active_at_params(act_params)
+            out_q = act_q.out_qs[0]
+            if at_ver < 3:
+                if act_params.activation == "relu6" and out_q.q != 0:
+                    self.gen_ctrl.ReluN = 6 << out_q.q
+                    self.gen_ctrl.ReluNNoNorm = 1
+            else:
+                if act_params.activation == "relun":
+                    self.gen_ctrl.ReluN = act_params.activation_params
+        else:
+            at_act_params = NO_ACTIVATION
+
+        self.at_matrixadd_params = at_matrixadd_params
+        self.in_dim = in_dim
+        self.out_dim = out_dim
+        self.in_q1 = in_q1
+        self.in_q2 = in_q2
+        self.out_q = out_q
+        self.at_act_params = at_act_params
+        self.cname = cname
+        self.node_name = matrixadd_params.name
+        self.at_ver = at_ver
+
+    def code(self, code_block=None):
+        if code_block is None:
+            code_block = CodeBlock()
+
+        code_block.comment("generator for {}", self.node_name)
+
+        if not self.gen_ctrl.is_unmodified:
+            self.gen_ctrl.gen_ctrl_decl(code_block)
+
+        gen_at_matrixadddyn(code_block, self.cname, self.in_q1, self.in_q2, self.out_q,
+                            self.in_dim, self.out_dim, self.at_matrixadd_params,
+                            gen_ctrl=self.gen_ctrl)
+
+        return code_block
diff --git a/tools/nntool/generation/generators/kernels/pow2/matscale_kernels_generator.py b/tools/nntool/generation/generators/kernels/pow2/matscale_kernels_generator.py
new file mode 100644
index 000000000..471d81fa7
--- /dev/null
+++ b/tools/nntool/generation/generators/kernels/pow2/matscale_kernels_generator.py
@@ -0,0 +1,85 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+from generation.at_generators import (gen_matscale_at_params, gen_at_matscale)
+from generation.at_types.gen_ctrl import GenCtrl
+from generation.code_block import CodeBlock
+from generation.generators.generator_decorators import generation_function, QREC_POW2
+from graph.types import MatScaleFusionParameters
+
+from ..autotiler_kernel import AutotilerKernel
+
+LOG = logging.getLogger("nntool." + __name__)
+
+
+@generation_function("kernels", (MatScaleFusionParameters, ), qrec_types=(QREC_POW2, ))
+def matscale_kernels_generator(gen, node, qrec, in_eparams, out_eparams, cname):
+    del in_eparams, out_eparams
+    gen.kernels.append(MatrixScaleKernel(cname, node, qrec, at_ver=gen.opts['at_ver']))
+    return True
+
+
+class MatrixScaleKernel(AutotilerKernel):
+    def __init__(self, cname, params, qrec, gen_ctrl=None, at_ver=3):
+        if gen_ctrl is None:
+            self.gen_ctrl = GenCtrl(None, cname=cname)
+        else:
+            gen_ctrl.cname = cname
+            self.gen_ctrl = gen_ctrl
+
+        at_matscale_params = gen_matscale_at_params(params)
+        in_dim = params.in_dims[0]
+        out_dim = params.out_dims[0]
+        assert in_dim.shape[0] == out_dim.shape[0]
+        if params.fusion_type == "vec_scalar":
+            otherq = qrec.in_qs[0]
+            vectorq = qrec.in_qs[1]
+            scalarq = qrec.in_qs[2]
+        elif params.fusion_type == "vector":
+            otherq = qrec.in_qs[1]
+            vectorq = qrec.in_qs[2]
+            scalarq = None
+        elif params.fusion_type == "scalar":
+            otherq = qrec.in_qs[0]
+            vectorq = None
+            scalarq = qrec.in_qs[1]
+        else:
+            raise NotImplementedError("unknown fusion type %s" % params.fusion_type)
+
+        self.at_matscale_params = at_matscale_params
+        self.in_dim = in_dim
+        self.out_dim = out_dim
+        self.otherq = otherq
+        self.vectorq = vectorq
+        self.scalarq = scalarq
+        self.out_q = qrec.out_qs[0]
+        self.cname = cname
+        self.node_name = params.name
+        self.at_ver = at_ver
+
+    def code(self, code_block=None):
+        if code_block is None:
+            code_block = CodeBlock()
+
+        code_block.comment("generator for {}", self.node_name)
+
+        if not self.gen_ctrl.is_unmodified:
+            self.gen_ctrl.gen_ctrl_decl(code_block)
+
+        gen_at_matscale(code_block, self.cname, self.otherq, self.vectorq, self.scalarq, self.out_q,
+                        self.in_dim, self.out_dim, self.at_matscale_params)
+
+        return code_block
diff --git a/tools/nntool/generation/generators/kernels/pow2/pool_relu_kernels_generator.py b/tools/nntool/generation/generators/kernels/pow2/pool_relu_kernels_generator.py
new file mode 100644
index 000000000..206ac18e6
--- /dev/null
+++ b/tools/nntool/generation/generators/kernels/pow2/pool_relu_kernels_generator.py
@@ -0,0 +1,128 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+from generation.at_generators import (NO_ACTIVATION, NO_POOL,
+                                      gen_active_at_params, gen_at_pool_relu,
+                                      gen_pool_at_params)
+from generation.at_types.gen_ctrl import GenCtrl
+from generation.code_block import CodeBlock
+from generation.generators.generator_decorators import generation_function, QREC_POW2
+from graph.dim import PadDim
+from graph.types import ConvFusionParameters
+from utils.node_id import NodeId
+
+from ..autotiler_kernel import AutotilerKernel
+
+LOG = logging.getLogger("nntool." + __name__)
+
+
+@generation_function("kernels", (ConvFusionParameters,), qrec_types=(QREC_POW2, ))
+def pool_kernels_generator(gen, node, qrec, in_eparams, out_eparams, cname):
+    del in_eparams, out_eparams, qrec
+    if isinstance(node, ConvFusionParameters) and node.fusion_type == "pool_active":
+        cnodes = node.contained_nodes()
+        quants = [gen.G.quantization[NodeId(node, fnode)] for fnode in cnodes]
+        gen.kernels.append(PoolReluKernel(node.name, cname, cnodes[0], quants[0],
+                                          cnodes[1], quants[1], at_ver=gen.opts['at_ver'],
+                                          gen_ctrl=node.get_gen_ctrl()))
+        return True
+    return False
+
+
+class PoolReluKernel(AutotilerKernel):
+    def __init__(self, node_name, cname, pool_params, pool_q,
+                 act_params, act_q, code_block=None, at_ver=3, gen_ctrl=None):
+        if gen_ctrl is None:
+            self.gen_ctrl = GenCtrl(None, cname=cname)
+        else:
+            gen_ctrl.cname = cname
+            self.gen_ctrl = gen_ctrl
+
+        in_q = out_q = None
+        in_dim = out_dim = None
+        pad_compatibilities = []
+
+        if pool_params is not None:
+            at_pool_params = gen_pool_at_params(pool_params, pad_compatibilities)
+            if in_dim is None:
+                in_dim = pool_params.in_dims[0]
+            out_dim = pool_params.out_dims[0]
+            if in_q is None:
+                in_q = pool_q.in_qs[0]
+            out_q = pool_q.out_qs[0]
+        else:
+            at_pool_params = NO_POOL
+
+        if act_params is not None:
+            at_act_params = gen_active_at_params(act_params)
+            if in_dim is None:
+                in_dim = act_params.in_dims[0]
+            if out_dim is None:
+                out_dim = act_params.out_dims[0]
+            if in_q is None:
+                in_q = act_q.in_qs[0]
+            out_q = act_q.out_qs[0]
+            if at_ver < 3:
+                if act_params.activation == "relu6" and out_q.q != 0:
+                    self.gen_ctrl.ReluN = 6 << out_q.q
+                    self.gen_ctrl.ReluNNoNorm = 1
+            else:
+                if act_params.activation == "relun":
+                    self.gen_ctrl.ReluN = act_params.activation_params
+        else:
+            at_act_params = NO_ACTIVATION
+
+        if code_block is None:
+            code_block = CodeBlock()
+
+        if pad_compatibilities:
+            reduction = PadDim.pad_compatibility_reduce(*pad_compatibilities,
+                                                        "convolution padding is not compatible with pool padding")
+            if not reduction[2]:  # default is balanced pad left
+                at_pad_ctrl = next(i for i, v in enumerate(reduction) if v)
+                self.gen_ctrl.PadType = at_pad_ctrl
+
+        if in_q.bits != out_q.bits:
+            raise NotImplementedError("only homogenious operations are supported at present")
+        if at_pool_params == NO_POOL:
+            raise NotImplementedError(
+                "activation layer on its own should not be matched by this kernel")
+
+        self.at_pool_params = at_pool_params
+        self.in_dim = in_dim
+        self.out_dim = out_dim
+        self.in_q = in_q
+        self.out_q = out_q
+        self.at_act_params = at_act_params
+        self.cname = cname
+        self.node_name = node_name
+        self.at_ver = at_ver
+
+    def code(self, code_block=None):
+        if code_block is None:
+            code_block = CodeBlock()
+
+        code_block.comment("generator for {}", self.node_name)
+
+        if not self.gen_ctrl.is_unmodified:
+            self.gen_ctrl.gen_ctrl_decl(code_block)
+
+        gen_at_pool_relu(code_block, self.cname, self.in_q, self.out_q,
+                         self.in_dim, self.out_dim, self.at_pool_params,
+                         self.at_act_params, gen_ctrl=self.gen_ctrl,
+                         at_ver=self.at_ver)
+
+        return code_block
diff --git a/tools/nntool/generation/generators/kernels/pow2/softmax_kernels_generator.py b/tools/nntool/generation/generators/kernels/pow2/softmax_kernels_generator.py
new file mode 100644
index 000000000..7e7ebaf5d
--- /dev/null
+++ b/tools/nntool/generation/generators/kernels/pow2/softmax_kernels_generator.py
@@ -0,0 +1,63 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+from generation.at_generators import gen_at_softmax
+from generation.at_types.at_params import gen_softmax_at_params
+from generation.at_types.gen_ctrl import GenCtrl
+from generation.code_block import CodeBlock
+from generation.generators.generator_decorators import generation_function, QREC_POW2
+from graph.types import SoftMaxParameters
+
+from ..autotiler_kernel import AutotilerKernel
+
+LOG = logging.getLogger("nntool." + __name__)
+
+
+@generation_function("kernels", (SoftMaxParameters, ), qrec_types=(QREC_POW2, ))
+def softmax_kernels_generator(gen, node, qrec, in_eparams, out_eparams, cname):
+    del in_eparams, out_eparams
+    gen.kernels.append(SoftmaxKernel(cname, node, qrec, at_ver=gen.opts['at_ver']))
+    return True
+
+
+class SoftmaxKernel(AutotilerKernel):
+    def __init__(self, cname, params, qrec, gen_ctrl=None, at_ver=3):
+        if gen_ctrl is None:
+            self.gen_ctrl = GenCtrl(None, cname=cname)
+        else:
+            gen_ctrl.cname = cname
+            self.gen_ctrl = gen_ctrl
+
+        self.at_softmax_params = gen_softmax_at_params(params)
+        self.in_dim = params.in_dims[0]
+        self.in_q = qrec.in_qs[0]
+        self.out_q = qrec.out_qs[0]
+        self.cname = cname
+        self.node_name = params.name
+        self.at_ver = at_ver
+
+    def code(self, code_block=None):
+        if code_block is None:
+            code_block = CodeBlock()
+
+        code_block.comment("generator for {}", self.node_name)
+
+        if not self.gen_ctrl.is_unmodified:
+            self.gen_ctrl.gen_ctrl_decl(code_block)
+
+        gen_at_softmax(code_block, self.cname, self.in_q, self.out_q,
+                       self.in_dim, self.at_softmax_params, at_ver=self.at_ver)
+        return code_block
diff --git a/tools/nntool/generation/generators/kernels/pow2/three_d_transpose_kernels_generator.py b/tools/nntool/generation/generators/kernels/pow2/three_d_transpose_kernels_generator.py
new file mode 100644
index 000000000..c32077347
--- /dev/null
+++ b/tools/nntool/generation/generators/kernels/pow2/three_d_transpose_kernels_generator.py
@@ -0,0 +1,144 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+from generation.at_generators.utils import at_bits
+from generation.at_types.gen_ctrl import GenCtrl
+from generation.code_block import CodeBlock
+from generation.generators.generator_decorators import (QREC_POW2,
+                                                        generation_function)
+from graph.types import TransposeParameters
+
+from ..autotiler_kernel import AutotilerKernel
+
+LOG = logging.getLogger("nntool." + __name__)
+
+
+@generation_function("kernels", (TransposeParameters, ), qrec_types=(QREC_POW2, ))
+def three_d_transpose_kernels_generator(gen, node, qrec, in_eparams, out_eparams, cname):
+    del in_eparams, out_eparams
+    real_in_shape, real_transpose = node.real_shape()
+    if len(real_transpose) <= 1:
+        return True
+    if len(real_transpose) == 2:
+        gen.kernels.append(TwoDTransposeKernelPow2(cname, node, real_in_shape,
+                                                   real_transpose, qrec,
+                                                   at_ver=gen.opts['at_ver']))
+    elif len(real_transpose) == 3:
+        gen.kernels.append(ThreeDTransposeKernelPow2(cname, node, real_in_shape,
+                                                     real_transpose, qrec,
+                                                     at_ver=gen.opts['at_ver']))
+    else:
+        raise NotImplementedError("only 2D or 3D transposes are currently supported")
+    return True
+
+
+def gen_at_2d_transpose(code_block, name, in_q, out_q,
+                        in_shape, gen_ctrl=None,
+                        at_ver=3):
+    if gen_ctrl is None:
+        gen_ctrl = "0"
+    else:
+        raise NotImplementedError("genctrl is not yet implemented")
+
+    code_block.write('CNN_MatTranspose("{}", {}, {}, {}, {}, {}, 1, 1, 1, {}, {}, KOP_MATTRANSP);',
+                     name, gen_ctrl, at_bits(in_q), at_bits(out_q),
+                     in_q.q, out_q.q, in_shape[1], in_shape[0])
+
+
+class TwoDTransposeKernelPow2(AutotilerKernel):
+    def __init__(self, cname, params, real_in_shape, real_transpose, qrec, gen_ctrl=None, at_ver=3):
+        if gen_ctrl is None:
+            self.gen_ctrl = GenCtrl(None, cname=cname)
+        else:
+            gen_ctrl.cname = cname
+            self.gen_ctrl = gen_ctrl
+
+        self.in_q = qrec.in_qs[0]
+        self.out_q = qrec.out_qs[0]
+        self.in_shape = real_in_shape
+        self.in_dim = params.in_dims[0]
+        self.out_dim = params.out_dims[0]
+        self.real_transpose = real_transpose
+        self.cname = cname
+        self.node_name = params.name
+        self.at_ver = at_ver
+
+    def code(self, code_block=None):
+        if code_block is None:
+            code_block = CodeBlock()
+
+        code_block.comment("generator for {}", self.node_name)
+        code_block.comment("transpose from {} to {} ({})", self.in_dim,
+                           self.out_dim, self.real_transpose)
+
+        if not self.gen_ctrl.is_unmodified:
+            self.gen_ctrl.gen_ctrl_decl(code_block)
+
+        gen_at_2d_transpose(code_block, self.cname, self.in_q, self.out_q,
+                            self.in_shape)
+        return code_block
+
+
+def gen_at_3d_transpose(code_block, name, in_q, out_q,
+                        in_shape, permop, gen_ctrl=None,
+                        at_ver=3):
+    if gen_ctrl is None:
+        gen_ctrl = "0"
+    else:
+        raise NotImplementedError("genctrl is not yet implemented")
+
+    code_block.write('CNN_3DTensorPermute("{}", {}, {}, {}, {}, {}, 1, 1, {}, {}, {}, {});',
+                     name, gen_ctrl, at_bits(in_q), at_bits(out_q),
+                     in_q.q, out_q.q, in_shape[0], in_shape[1], in_shape[2],
+                     permop)
+
+
+class ThreeDTransposeKernelPow2(AutotilerKernel):
+    def __init__(self, cname, params, real_in_shape, real_transpose, qrec, gen_ctrl=None, at_ver=3):
+        if gen_ctrl is None:
+            self.gen_ctrl = GenCtrl(None, cname=cname)
+        else:
+            gen_ctrl.cname = cname
+            self.gen_ctrl = gen_ctrl
+
+        self.in_shape = real_in_shape
+        dim_names = ['C', 'H', 'W']
+        perm = [dim_names[i] for i in real_transpose]
+        self.permop = "KOP_MATPERM_CHW2{}".format("".join(perm))
+        self.real_transpose = real_transpose
+
+        self.in_q = qrec.in_qs[0]
+        self.out_q = qrec.out_qs[0]
+        self.in_dim = params.in_dims[0]
+        self.out_dim = params.out_dims[0]
+        self.cname = cname
+        self.node_name = params.name
+        self.at_ver = at_ver
+
+    def code(self, code_block=None):
+        if code_block is None:
+            code_block = CodeBlock()
+
+        code_block.comment("generator for {}", self.node_name)
+        code_block.comment("transpose from {} to {} ({})", self.in_dim,
+                           self.out_dim, self.real_transpose)
+
+        if not self.gen_ctrl.is_unmodified:
+            self.gen_ctrl.gen_ctrl_decl(code_block)
+
+        gen_at_3d_transpose(code_block, self.cname, self.in_q, self.out_q,
+                            self.in_shape, self.permop)
+        return code_block
diff --git a/tools/nntool/generation/name_cache.py b/tools/nntool/generation/name_cache.py
new file mode 100644
index 000000000..45c6c8269
--- /dev/null
+++ b/tools/nntool/generation/name_cache.py
@@ -0,0 +1,41 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from typing import Any
+
+from graph.types import Parameters
+
+
+class NameCache():
+    def __init__(self):
+        self._cache = {}
+
+    def set(self, node: Parameters, name: str, val: Any):
+        entry = self._cache.get(node)
+        if entry is None:
+            entry = {}
+            self._cache[node] = entry
+        entry[name] = val
+
+    def get(self, node: Parameters, name: str) -> Any:
+        entry = self._cache.get(node)
+        if entry is not None:
+            entry = entry.get(name)
+        return entry
+
+    def __getitem__(self, param: Parameters):
+        if param in self._cache:
+            return self._cache[param]
+        raise KeyError("%s not found"%param.name)
diff --git a/tools/nntool/generation/naming_convension.py b/tools/nntool/generation/naming_convension.py
index 325f8faf2..f73bc6614 100644
--- a/tools/nntool/generation/naming_convension.py
+++ b/tools/nntool/generation/naming_convension.py
@@ -16,7 +16,8 @@
 from abc import ABC, abstractmethod
 from graph.types import (ConcatParameters, Conv2DParameters, FcParameters,
                          SoftMaxParameters, ConvFusionParameters, PoolingParameters,
-                         ActivationParameters)
+                         ActivationParameters, MatrixAddParameters, ActivationFusion,
+                         MatrixMulParameters, GlobalPoolParameters)
 
 class NamingConvension(ABC):
 
@@ -46,7 +47,7 @@ def get_project_name(self):
         return self.G.name
 
     def get_global_name(self, name, step_idx, params, gtype):
-        return "Step{}{}".format(step_idx, gtype.capitalize())
+        return "S{}_{}".format(step_idx, gtype.capitalize())
 
 # pylint: disable=too-many-return-statements
     def get_node_name(self, node_name, step_idx, params):
@@ -81,10 +82,28 @@ def get_node_name(self, node_name, step_idx, params):
         if isinstance(params, PoolingParameters):
             return "S{}_{}Pool_{}".format(step_idx, params.pool_type.capitalize(), params.filter)
         if isinstance(params, ActivationParameters):
-            return "S{}_{}".format(step_idx, params.activation.capitalize())
-        return node_name
-
-    def get_edge_name(self, node_name, step_idx, edge_type, edge_order=None):
+            return "S{}_Act_{}".format(step_idx, params.activation.capitalize())
+        if isinstance(params, MatrixAddParameters):
+            return "S{}_MatAdd_{}".format(step_idx, str(params.out_dims[0]))
+        if isinstance(params, MatrixMulParameters):
+            return "S{}_MatMul_{}".format(step_idx, str(params.out_dims[0]))
+        if isinstance(params, ActivationFusion):
+            nodes = params.contained_nodes()
+            if isinstance(nodes[0], MatrixAddParameters):
+                return "S{}_MatAdd_{}_{}".format(step_idx, str(nodes[0].out_dims[0]),
+                                              nodes[1].activation.capitalize())
+            if isinstance(nodes[0], (PoolingParameters)):
+                return "S{}_{}Pool_{}_{}".format(step_idx, nodes[0].pool_type.capitalize(),
+                                                 nodes[0].filter, nodes[1].activation.capitalize())
+            if isinstance(nodes[0], (GlobalPoolParameters)):
+                return "S{}_{}Pool_{}_{}".format(step_idx, nodes[0].pool_type.capitalize(),
+                                                 nodes[0].out_dims[0], nodes[1].activation.capitalize())
+            if isinstance(nodes[0], MatrixMulParameters):
+                return "S{}_MatMul_{}_{}".format(step_idx, str(nodes[0].out_dims[0]),
+                                              nodes[1].activation.capitalize())
+        return "S{}_Op_{}".format(step_idx, node_name)
+
+    def get_edge_name(self, node_name, step_idx, edge_type, edge_order=None, edge_params=None):
         if edge_type == "in":
             return node_name.capitalize()
         if edge_type == "out":
@@ -92,7 +111,7 @@ def get_edge_name(self, node_name, step_idx, edge_type, edge_order=None):
                 return self.G.out_edges(node_name)[0].to_node.name.capitalize()
             return node_name.capitalize()
         if edge_type == "in_out":
-            ename = "OutputStep{}".format(step_idx)
+            ename = "S{}_Output".format(step_idx)
             return ename
         assert False, "unknown edge type"
         return None
diff --git a/tools/nntool/generation/write_constants.py b/tools/nntool/generation/write_constants.py
index eaa1534c9..3369dab90 100644
--- a/tools/nntool/generation/write_constants.py
+++ b/tools/nntool/generation/write_constants.py
@@ -21,52 +21,15 @@
 from graph.types import FilterParameters, ConstantInputParameters, MultiplicativeBiasParameters
 
 
-def write_constants(G, naming_convension, tensor_directory=None):
+def write_constants(global_recs, tensor_directory=None):
     if tensor_directory is None:
         tensor_directory = "."
     else:
         os.makedirs(tensor_directory, mode=0o750, exist_ok=True)
-    for step_idx, pnode, _, fnode in G.nodes_iterator():
-        anode = pnode if not fnode else fnode
-        if isinstance(anode, FilterParameters):
-            cname = naming_convension.get_global_name(pnode.name, step_idx, pnode, "weights")
-            qrec = G.quantization[NodeId(pnode, fnode)]
-            weights_q = qrec.weights_q
-            with open(os.path.join(tensor_directory, cname + ".tensor"), 'wb') as t_fp:
-                weights_q.quantize(anode.weights)\
-                    .astype(weights_q.dtype, order='C', casting='no', copy=True)\
-                    .tofile(t_fp)
-
-            # biases are always generated even if they are 0
-            if anode.has_bias:
-                biases_q = qrec.biases_q
-                biases = biases_q.quantize(anode.biases)\
-                    .astype(biases_q.dtype, order='C', casting='no', copy=True)
-            else:
-                biases = np.zeros(weights_q.dtype, dtype=np.float32, order='C')
-
-            cname = naming_convension.get_global_name(pnode.name, step_idx, pnode, "biases")
-            with open(os.path.join(tensor_directory, cname + ".tensor"), 'wb') as t_fp:
-                biases.tofile(t_fp)
-
-            if isinstance(anode, MultiplicativeBiasParameters) and anode.has_mul_bias:
-                mul_biases_q = qrec.mul_biases_q
-                mul_biases = mul_biases_q.quantize(anode.mul_biases)\
-                    .astype(mul_biases_q.dtype, order='C', casting='no', copy=True)
-
-                cname = naming_convension.get_global_name(pnode.name, step_idx, pnode, "mul_biases")
-                with open(os.path.join(tensor_directory, cname + ".tensor"), 'wb') as t_fp:
-                    mul_biases.tofile(t_fp)
-        elif isinstance(anode, ConstantInputParameters):
-            out_edge = G.out_edges(anode.name)[0]
-            eparams = out_edge.params
-            cname = naming_convension.get_edge_name(eparams.creating_node.name,
-                                                    eparams.creating_step,
-                                                    eparams.edge_type,
-                                                    eparams.edge_order)
-            qrec = G.quantization[NodeId(pnode, fnode)]
-            constant_q = qrec.out_qs[0]
-            with open(os.path.join(tensor_directory, cname + ".tensor"), 'wb') as t_fp:
-                weights_q.quantize(anode.value)\
-                    .astype(constant_q.dtype, order='C', casting='no', copy=True)\
-                    .tofile(t_fp)
+    for global_rec in global_recs:
+        if global_rec.const_info is None:
+            continue
+        const_info = global_rec.const_info
+        with open(const_info.file_name, 'wb') as t_fp:
+            const_info.contents.astype(const_info.qtype.dtype, order='C', casting='no', copy=True)\
+                .tofile(t_fp)
diff --git a/tools/nntool/graph/dim.py b/tools/nntool/graph/dim.py
index 9ffe59f38..f7dbccf25 100644
--- a/tools/nntool/graph/dim.py
+++ b/tools/nntool/graph/dim.py
@@ -21,42 +21,52 @@
 from functools import reduce
 from math import ceil, floor
 
+
 class DimError(Exception):
     pass
 
+
 class NoSizeError(DimError):
     pass
 
+
 class DimUnknownError(DimError):
     pass
 
+
 class DimHasNoOrderError(DimError):
     pass
 
+
 class DimHasNoNamesError(DimError):
     pass
 
+
 class DimMissingKeyError(DimError):
     pass
 
+
 class DimIncorrectKeyError(DimError):
     pass
 
+
 class MissMatchedInputsError(DimError):
     pass
 
+
 class MoreThanOneInputError(DimError):
     pass
 
+
 class Dim():
     def __init__(self, shape=None, names=None, is_ordered=False, is_unknown=False):
         set_shape = shape if shape is not None else [] if names is None else [None] * len(names)
         super().__setattr__('_shape', set_shape)
         super().__setattr__('_names', names)
         super().__setattr__('_is_ordered', is_ordered)
-        super().__setattr__('_is_unknown', is_unknown or\
-            (shape is None) or\
-            any(elem is None for elem in set_shape))
+        super().__setattr__('_is_unknown', is_unknown or
+                            (shape is None) or
+                            any(elem is None for elem in set_shape))
         super().__setattr__('_is_named', names is not None)
 
     @classmethod
@@ -175,6 +185,11 @@ def order(self) -> list:
     def is_single_channel(self) -> bool:
         return self.is_named and self.has_key('c') and self.c == 1
 
+    @property
+    def layout_shape(self):
+        self._verify_is_ordered()
+        return tuple(sz for sz in self.shape if sz > 1)
+
     def transpose(self, order):
         '''transpose dimension in order which is a list of indexes or list of names'''
         self._verify_is_ordered()
@@ -189,11 +204,26 @@ def transpose(self, order):
             object.__setattr__(self, '_names', [self._names[i] for i in order])
         return self
 
+    def calc_transpose(self, order):
+        '''transpose dimension in order which is a list of indexes or list of names'''
+        self._verify_is_ordered()
+        if len(order) != len(self.shape):
+            raise MissMatchedInputsError()
+        # if the order is names then convert to indices
+        if isinstance(order[0], str):
+            self._verify_is_named()
+            order = [self.keys.index(k) for k in order]
+        res = self.clone()
+        object.__setattr__(res, '_shape', [self._shape[i] for i in order])
+        if self.is_named:
+            object.__setattr__(res, '_names', [self._names[i] for i in order])
+        return res
+
     def move_last_to_first(self):
         self._verify_is_ordered()
-        self._shape.append(self._shape.pop(0))
+        self._shape.insert(0, self._shape.pop())
         if self.is_named:
-            self._names.append(self._names.pop(0))
+            self._names.insert(0, self._names.pop())
 
     def apply_naming_hints(self, hint):
         self._verify_is_ordered()
@@ -342,8 +372,8 @@ def combine(dims: Iterable, axis) -> 'Dim':
             for i in range(1, len(dims)):
                 dim = dims[i]
                 if len(dim.shape) != len(base.shape) or\
-                    not all(dim.shape[j] == base.shape[j]\
-                        for j in range(len(base.shape)) if j != axis):
+                    not all(dim.shape[j] == base.shape[j]
+                            for j in range(len(base.shape)) if j != axis):
                     raise MissMatchedInputsError()
                 cnt += dim.shape[axis]
             base[axis] = cnt
@@ -493,16 +523,18 @@ def __str__(self):
             return "unknown"
         return 'x'.join([str(v) for v in self._shape])
 
+
 PAD_DIMS = ['t', 'b', 'l', 'r']
 PAD_VERT_DIMS = ['t', 'b']
 PAD_HORIZ_DIMS = ['l', 'r']
 
+
 class PadDim(Dim):
 
-    def __init__(self, *args, is_same=False):
+    def __init__(self, *args, same_type=None):
         if not args:
             super().__init__(names=PAD_DIMS.copy(), is_ordered=True, is_unknown=True)
-            object.__setattr__(self, '_same', is_same)
+            object.__setattr__(self, '_same_type', same_type)
         else:
             if not all(isinstance(i, int) for i in args):
                 raise TypeError("incorrect type for PadDim")
@@ -516,12 +548,23 @@ def __init__(self, *args, is_same=False):
                 super().__init__([args[0], args[1], args[2], args[3]], PAD_DIMS, is_ordered=True)
             else:
                 raise ValueError("incorrect pad argument length")
-            object.__setattr__(self, '_same', False)
+            object.__setattr__(self, '_same_type', same_type)
 
     def height_width(self) -> Dim:
         '''return a dim representing the width and height'''
         return Dim.named_ordered(h=self.h, w=self.w)
 
+    @property
+    def has_padding(self):
+        return self.t > 0 or self.b > 0 or self.l > 0 or self.r > 0
+
+    PadCompatibilityTypes = [
+        "left",
+        "right",
+        "balanced_left",
+        "balanced_right"
+    ]
+
     @classmethod
     def compute_pad_compatibility(cls, l, r):
         # left, right, balanced_left, balanced_right
@@ -563,7 +606,6 @@ def pad_compatibility_reduce(cls, *pad_compatibilities, err_msg=None):
             return None
         return reduction
 
-
     @property
     def pad_compatibility(self):
         return self.pad_compatibility_reduce(
@@ -584,17 +626,21 @@ def h(self) -> int:
         self._verify_is_known()
         return self.t + self.b
 
+    @property
+    def same_type(self):
+        return self._same_type
+
     def clone(self, keys=None):
         '''clone the paddim'''
         assert not keys
         if self.is_unknown:
-            return PadDim(is_same=self.is_same)
-        return PadDim(self.t, self.b, self.l, self.r, is_same=self.is_same)
+            return PadDim(same_type=self.same_type)
+        return PadDim(self.t, self.b, self.l, self.r, same_type=self.same_type)
 
     @classmethod
-    def same(cls) -> 'PadDim':
+    def same(cls, same_type="balanced_right") -> 'PadDim':
         '''return a same padding'''
-        return cls(is_same=True)
+        return cls(same_type=same_type)
 
     @classmethod
     def valid(cls) -> 'PadDim':
@@ -618,28 +664,62 @@ def numpy_pad_shape(self, in_dim: Dim) -> list:
     @property
     def is_same(self) -> bool:
         '''checks if PadDim is set same'''
-        return self._same
+        return self._same_type is not None
 
-    def calculate_same(self, in_dim, filt, stride) -> Dim:
+    def calculate_same(self, in_dim, filt, stride, dilation=None) -> Dim:
         '''calculates the actual padding from the input dimension'''
         out_height = ceil(float(in_dim.h) / float(stride.h))
         out_width = ceil(float(in_dim.w) / float(stride.w))
-
-        pad_along_height = max(
-            (out_height - 1) * stride.h + filt.h - in_dim.h,
-            0)
-        pad_along_width = max(
-            (out_width - 1) * stride.w + filt.w - in_dim.w,
-            0)
+        if dilation is None:
+            pad_along_height = max(
+                (out_height - 1) * stride.h + filt.h - in_dim.h,
+                0)
+            pad_along_width = max(
+                (out_width - 1) * stride.w + filt.w - in_dim.w,
+                0)
+        else:
+            pad_along_height = max(
+                (out_height - 1) * stride.h + filt.h + (filt.h - 1)*(dilation.h - 1) - in_dim.h,
+                0)
+            pad_along_width = max(
+                (out_width - 1) * stride.w + filt.w + (filt.w - 1)*(dilation.w - 1) - in_dim.w,
+                0)
+        if self._same_type == "left":
+            self.set(
+                t=pad_along_height,
+                b=0,
+                l=pad_along_width,
+                r=0
+            )
+            return self
+        elif self._same_type == "right":
+            self.set(
+                t=0,
+                b=pad_along_height,
+                l=0,
+                r=pad_along_width
+            )
+            return self
         pad_top = pad_along_height // 2
         pad_left = pad_along_width // 2
-        self.set(
-            t=pad_top,
-            b=pad_along_height - pad_top,
-            l=pad_left,
-            r=pad_along_width - pad_left
-        )
-        return self
+        if self._same_type == "balanced_right":
+            self.set(
+                t=pad_top,
+                b=pad_along_height - pad_top,
+                l=pad_left,
+                r=pad_along_width - pad_left
+            )
+            return self
+        elif self._same_type == "balanced_left":
+            self.set(
+                t=pad_along_height - pad_top,
+                b=pad_top,
+                l=pad_along_width - pad_left,
+                r=pad_left
+            )
+            return self
+        else:
+            raise ValueError("same padding is not set")
 
     @property
     def has_end_h_pad(self) -> bool:
@@ -655,12 +735,16 @@ def has_at_pad(self) -> bool:
         '''checks if padding is compatible with autotiler'''
         if self.t == 0 and self.b == 0 and self.l == 0 and self.r == 0:
             return False
-        if self.has_end_h_pad and self.has_end_w_pad and self.t == self.l:
+        if self._same_type is not None:
             return True
-        raise AttributeError("Padding is probably not compatible with AutoTiler")
+        if any(pad_type for pad_type in self.pad_compatibility):
+            return True
+        raise AttributeError("Padding is not same so not compatible with AutoTiler")
+
 
 DEFAULT_CONVFILTER_DIMS = ['out_c', 'in_c', 'h', 'w']
 
+
 class Conv2DFilterDim(Dim):
 
     def __init__(self, h, w, out_c, in_c=None, order=None):
@@ -676,8 +760,10 @@ def clone(self, keys=None) -> 'Conv2DFilterDim':
         assert not keys
         return Conv2DFilterDim(self.h, self.w, self.out_c, self.in_c, order=self.keys)
 
+
 DEFAULT_FCFILTER_DIMS = ['out_c', 'in_c', 'h', 'w']
 
+
 class FcFilterDim(Dim):
 
     def __init__(self, h, w, out_c, in_c=None, order=None):
@@ -721,8 +807,10 @@ def clone(self, keys=None) -> 'FcFilterDim':
         assert not keys
         return FcFilterDim(self.h, self.w, self.out_c, self.in_c, order=self.keys)
 
+
 DEFAULT_2DDIMS = ['h', 'w']
 
+
 class Dim2D(Dim):
 
     def __init__(self, *args, order=None):
@@ -739,14 +827,18 @@ def clone(self, keys=None) -> 'Dim2D':
         assert not keys
         return self.__class__(self.h, self.w, order=self.keys)
 
+
 class StrideDim(Dim2D):
     pass
 
+
 class PoolFilterDim(Dim2D):
     pass
 
+
 class ScaleDim(Dim2D):
     pass
 
+
 class DilationDim(Dim2D):
     pass
diff --git a/tools/nntool/graph/graph_identity.py b/tools/nntool/graph/graph_identity.py
index ae6209a0b..911bac28a 100644
--- a/tools/nntool/graph/graph_identity.py
+++ b/tools/nntool/graph/graph_identity.py
@@ -14,6 +14,7 @@
 # along with this program.  If not, see <https://www.gnu.org/licenses/>.
 
 import json
+import os
 
 import xxhash
 
@@ -21,6 +22,8 @@
 # This class tracks any changes to the graph that render it incompatible with a value cache entry
 class GraphIdentity():
     def __init__(self, filename):
+        if filename is not None:
+            filename = os.path.abspath(filename)
         self._identity = {'filename': filename, 'fusions': []}
 
     @property
@@ -74,6 +77,22 @@ def is_equalized(self):
     def set_equalized(self, threshold):
         self._identity['equalization'] = threshold
 
+    @property
+    def tflite_quantization(self):
+        return self._identity.get('tflite_quantization')
+
+    @tflite_quantization.setter
+    def tflite_quantization(self, val: bool):
+        self._identity['tflite_quantization'] = val
+
+    @property
+    def quantization_type(self):
+        return self._identity.get('quantization_type')
+
+    @quantization_type.setter
+    def quantization_type(self, val: str):
+        self._identity['quantization_type'] = val
+
     @property
     def hexdigest(self):
         h = xxhash.xxh64()
diff --git a/tools/nntool/graph/manipulations/adjust_order.py b/tools/nntool/graph/manipulations/adjust_order.py
index c7f87f1d2..63b3569f8 100644
--- a/tools/nntool/graph/manipulations/adjust_order.py
+++ b/tools/nntool/graph/manipulations/adjust_order.py
@@ -19,7 +19,7 @@
 from ..types import (ConcatParameters, ConstantInputParameters,
                      Conv2DParameters, FcParameters, InputBaseParameters,
                      OutputParameters, ReshapeParameters,
-                     UnconvertedOpParameters)
+                     UnconvertedOpParameters, ImageFormatParameters)
 from .dimensions import add_dimensions
 from .eliminate_transposes import eliminate_transposes
 
@@ -42,26 +42,29 @@ def maybe_transpose(cur, desired_order, tensor, reshape=None):
 def adjust_dims(step_idx, node, dims, hint, direction="input"):
     for idx, dim in enumerate(dims):
         if dim.just_has_keys(AT_ACTIVATION_ORD):
-            LOG.info("step %s: %s adjust %s %s %s => %s",
-                     step_idx, node.name, direction, idx, dim, " x ".join(AT_ACTIVATION_ORD))
+            LOG.debug("step %s: %s adjust %s %s %s => %s",
+                      step_idx, node.name, direction, idx, dim, " x ".join(AT_ACTIVATION_ORD))
             dim.impose_order(AT_ACTIVATION_ORD)
             if hint and hint[idx]:
                 hint[idx] = deepcopy(AT_ACTIVATION_ORD)
         elif len(dim) == 1:
-            LOG.info("step %s: %s %s is one dimensional so no adjustment",
-                     step_idx, node.name, direction)
+            LOG.debug("step %s: %s %s is one dimensional so no adjustment",
+                      step_idx, node.name, direction)
         else:
             dim.move_last_to_first()
 
 
-def adjust_order(G, reshape_weights=True):
+def adjust_order(G, reshape_weights=True, postprocess=True):
     for step_idx, node, fusion_idx, _ in G.nodes_iterator():
         assert not fusion_idx, "order must be adjusted before fusing"
         if isinstance(node, InputBaseParameters):
             if node.fixed_order:
-                node.transpose_out = node.last_first(node.dims)
-                if node.out_dims_hint and node.out_dims_hint[0]:
-                    node.out_dims_hint[0] = deepcopy(AT_ACTIVATION_ORD)
+                # Check if followed by an ImageFormat node in which case reordering will
+                # happen there and there should be no transform on the input
+                if not isinstance(G.out_edges(node.name)[0].to_node, ImageFormatParameters):
+                    node.transpose_out = node.last_first(node.dims)
+                    if node.out_dims_hint and node.out_dims_hint[0]:
+                        node.out_dims_hint[0] = deepcopy(AT_ACTIVATION_ORD)
             else:
                 if isinstance(node, ConstantInputParameters) and node.value is not None and reshape_weights:
                     node.value = maybe_transpose(node.dims, AT_ACTIVATION_ORD, node.value)
@@ -76,15 +79,15 @@ def adjust_order(G, reshape_weights=True):
                 node.dims = node.in_dims[0]
             continue
         elif isinstance(node, Conv2DParameters):
-            LOG.info("step %s: %s adjust weights %s => %s",
-                     step_idx, node.name, node.filter, " x ".join(AT_CONVFILTER_ORD))
+            LOG.debug("step %s: %s adjust weights %s => %s",
+                      step_idx, node.name, node.filter, " x ".join(AT_CONVFILTER_ORD))
             if node.weights is not None and reshape_weights:
                 node.weights = maybe_transpose(node.filter, AT_CONVFILTER_ORD,
                                                node.weights)
             node.filter.impose_order(AT_CONVFILTER_ORD)
         elif isinstance(node, FcParameters):
-            LOG.info("step %s: %s adjust weights %s => %s",
-                     step_idx, node.name, node.filter, " x ".join(AT_FCFILTER_EXP_ORD))
+            LOG.debug("step %s: %s adjust weights %s => %s",
+                      step_idx, node.name, node.filter, " x ".join(AT_FCFILTER_EXP_ORD))
             if node.weights is not None and reshape_weights:
                 exp_weights = node.weights.reshape(node.filter.shape)
                 node.weights = maybe_transpose(node.filter, AT_FCFILTER_EXP_ORD,
@@ -95,23 +98,34 @@ def adjust_order(G, reshape_weights=True):
             node.in_dims[0].impose_order(AT_ACTIVATION_ORD)
             continue
         elif isinstance(node, ConcatParameters):
-            if node.axis == len(node.in_dims[0].shape) - 1:
-                node.axis = 0
-            elif node.axis == 0:
-                node.transpose_in = node.first_last(node.in_dims[0])
-                node.transpose_out = node.last_first(node.out_dims[0])
-            else:
-                raise NotImplementedError("this needs to be implemented")
+            # if axis is last it will become first so this concat is valid without change
+            if node.axis != len(node.out_dims[0]) - 1:
+                # real axis will be one more since last axis will move to first
+                node.axis += 1
+                trans_length = len(node.out_dims[0])
+                # move concat axis first
+                node.transpose_in = [node.axis] + [i for i in range(trans_length)
+                                                   if i != node.axis]
+                # move concat axis back into original position
+                node.transpose_out = node.transpose_in.copy()
+            # axis is 0 in all cases
+            node.axis = 0
         elif isinstance(node, ReshapeParameters):
             in_dim = node.in_dims[0]
             out_dim = node.out_dims[0]
-            if (in_dim.shape[-1] == out_dim.shape[-1] or node.does_nothing() or
-                    (len(in_dim.shape) == 1 and out_dim.is_named and out_dim.c == 1)):
-                node.shape.move_last_to_first()
-                node.old_shape.move_last_to_first()
+            if in_dim.layout_shape != out_dim.layout_shape:
+                # These two tests look at whether the last dimension is 1
+                # in which case moving it first does not change the reshape
+                # or whether the layout_shape (shape with all 1 dimensions removed)
+                # has a single dimension in which case the reshape will also not
+                # change with the axis move
+                if in_dim.shape[-1] != 1 and len(in_dim.layout_shape) > 1:
+                    node.transpose_in = node.first_last(in_dim)
+                if out_dim.shape[-1] != 1 and len(out_dim.layout_shape) > 1:
+                    node.transpose_out = node.last_first(out_dim)
             else:
-                node.transpose_in = node.first_last(node.in_dims[0])
-                node.transpose_out = node.last_first(node.out_dims[0])
+                node.old_shape.move_last_to_first()
+                node.shape.move_last_to_first()
         elif isinstance(node, UnconvertedOpParameters):
             if node.indicated_outputs:
                 for out in node.indicated_outputs:
@@ -121,5 +135,6 @@ def adjust_order(G, reshape_weights=True):
         adjust_dims(step_idx, node, node.out_dims, node.out_dims_hint, direction="output")
 
     add_dimensions(G)
-    eliminate_transposes(G)
-    add_dimensions(G)
+    if postprocess:
+        eliminate_transposes(G)
+        add_dimensions(G)
diff --git a/tools/nntool/graph/manipulations/eliminate_transposes.py b/tools/nntool/graph/manipulations/eliminate_transposes.py
index 7e85b74cb..8d2e50cb9 100644
--- a/tools/nntool/graph/manipulations/eliminate_transposes.py
+++ b/tools/nntool/graph/manipulations/eliminate_transposes.py
@@ -15,173 +15,268 @@
 
 import logging
 
-from graph.types.others import ReshapeParameters
 from graph.types.base import SensitiveToOrder, Transposable
+from graph.types.others import ConcatParameters, ReshapeParameters
 
 LOG = logging.getLogger("nntool." + __name__)
 
-def add_sequence(trans_seqs, trans_nodes):
-    if trans_nodes and len(trans_nodes) > 1:
-        trans_seq = trans_seqs.get(trans_nodes[-1])
-        if not trans_seq:
-            trans_seq = []
-            trans_seqs[trans_nodes[-1]] = trans_seq
-        trans_seq.append(trans_nodes)
-
-def find_last_transpose(G, node, trans_seqs, trans_nodes=None):
-    if isinstance(node, str):
-        node = G.node(node)
-
-    if isinstance(node, SensitiveToOrder):
-        add_sequence(trans_seqs, trans_nodes)
-        trans_nodes = None
-    elif isinstance(node, Transposable):
-        if trans_nodes is None:
-            # new sequence
-            trans_nodes = []
-        trans_nodes.append(node)
-
-    out_edges = G.out_edges(node.name)
-
-    if len(out_edges) == 0:
-        add_sequence(trans_seqs, trans_nodes)
-        return
-
-    # Edges are visited in a repeatable order
-    out_edges.sort(key=lambda x: str(x.from_idx) + x.to_node.name + str(x.to_idx))
-
-    for edge in out_edges:
-        if trans_nodes:
-            if len(out_edges) > 1:
-                trans_nodes_copy = trans_nodes.copy()
+
+class Shape():
+    def __init__(self, shape):
+        self.shape = shape
+        self.idx = 0
+        self.inc = True
+        self.cur = 1
+
+
+def reverse_reshape(trans, from_shape, to_shape):
+    """reverses the effect of this reshape on the transpose"""
+    # The reshape goes from shape -> to shape. Find the equivalent transpose
+    # that can be examined for things in to shape or return None if the transpose
+    # cannot be converted. from shape may have smaller larger or the same dimensions
+    # as to shape.
+    shapes = [Shape(to_shape.shape),
+              Shape(from_shape.shape)]
+    # Build a mask containing the indexes of the from_shape in the
+    # shape of to_shape. Here we are looking for continuous sequences of combinations
+    # of the two masks
+    trans_mask = [[] for _ in shapes[0].shape]
+    filling_shape = None
+    while all(shape.idx < len(shape.shape) for shape in shapes):
+        # multiply the shapes of the indexes that have incremented
+        for shape in shapes:
+            if shape.inc:
+                shape.cur *= shape.shape[shape.idx]
+                shape.inc = False
+
+        # add the transpose index to the mask
+        trans_mask[shapes[0].idx].append(trans[shapes[1].idx])
+        if shapes[0].cur == shapes[1].cur:
+            # the shapes match so increment both indexes
+            for shape in shapes:
+                shape.idx += 1
+                shape.cur = 1
+                shape.inc = True
+            filling_shape = None
+        elif shapes[0].cur < shapes[1].cur:
+            if filling_shape is None or filling_shape == 0:
+                # look for a combination of axes in the shape before the reshape
+                shapes[0].idx += 1
+                shapes[0].inc = True
+                filling_shape = 0
             else:
-                trans_nodes_copy = trans_nodes
-            find_last_transpose(G, edge.to_node, trans_seqs, trans_nodes_copy)
+                return None
         else:
-            find_last_transpose(G, edge.to_node, trans_seqs)
-
-def find_last_transposes(G):
-    """Does a depth first search in the graph to discover transposable
-    nodes with no SensitiveToOrder nodes between them"""
-    LOG.info("finding transpose sequences")
-    trans_seqs = {}
-    for node in G.inputs_and_constants():
-        find_last_transpose(G, node, trans_seqs)
-    return trans_seqs
-
-def reverses_transpose(trans1, trans2):
-    """Checks if one transpose reverses another"""
+            if filling_shape is None or filling_shape == 1:
+                # look for a combination of axes in the shape after the reshape
+                shapes[1].idx += 1
+                shapes[1].inc = True
+                filling_shape = 1
+            else:
+                return None
+
+    # Either the mask will be complete or one of the two shapes will not have been
+    # consumed. Make sure that both shapes are fully used
+    for i in [0, 1]:
+        if shapes[i].idx < len(shapes[i].shape):
+            # can only add shapes that are 1 in length
+            if shapes[i].shape[shapes[i].idx] == 1:
+                idxes = [shape.idx if shape.idx < len(shape.shape) else -1 for shape in shapes]
+                trans_mask[idxes[0]].append(trans[idxes[1]])
+                shapes[i].idx += 1
+            else:
+                # no solution found transpose is modified by the reshape
+                return None
+    # Make sure the mask is in ascending order
+    trans_mask = [sorted(mask) for mask in trans_mask]
+
+    # now we have a mask of the form [[1], [0], [0]] or [[2], [0, 1]]
+    # turn this into [2, 0, 1] or [1, 0]
+    # old in this case is the shape after reshape
+    cur_old_idx = 0
+    mask_idx = 0
+    cur_new_idx = 0
+    new_trans = []
+    found_elem = False
+    while len(new_trans) < len(shapes[0].shape):
+        # if this mask element has not been consumed and its first element
+        # matches the index after reshape then consume it
+        if len(trans_mask[mask_idx]) > 0 and trans_mask[mask_idx][0] == cur_old_idx:
+            new_trans.append(mask_idx)
+            # the new old index is the last one in the mask
+            cur_old_idx = trans_mask[mask_idx][-1]
+            # consume the mask
+            trans_mask[mask_idx] = []
+            cur_new_idx += 1
+            # continue to loop
+            found_elem = True
+        mask_idx += 1
+        if mask_idx >= len(trans_mask):
+            # if we didn't find anything then the reshape modifies the transpose
+            mask_idx = 0
+            cur_old_idx += 1
+        if cur_old_idx >= len(shapes[1].shape):
+            if not found_elem:
+                return None
+            found_elem = False
+            cur_old_idx = 0
+
+
+    return new_trans
+
+
+def reverses_transpose(trans1, trans2, dim=None):
+    """Checks if one transpose reverses another. If a dim is provided then
+    look if the transpose sequence produces an equivalent dim to cope with 1s in
+    dimensions."""
     if trans1 is None or trans2 is None:
         return False
+    if dim and dim.layout_shape == dim.calc_transpose(trans1).calc_transpose(trans2).layout_shape:
+        return True
     for idx, val in enumerate(trans1):
         if trans2[val] != idx:
             return False
     return True
 
-def get_first_transposable(rseq, idx):
-    """Looks back in the string of transposables for a vlid transposable. Reshapes that are
-    not transposing are skipped but returned in an array"""
-    reshapes = []
-    while idx < len(rseq):
-        node = rseq[idx]
-        if isinstance(node, ReshapeParameters) and not node.has_transpose:
-            reshapes.append(rseq[idx])
-        elif isinstance(node, Transposable):
-            return node, reshapes, idx
-        idx += 1
-    return None, reshapes, idx
-
-def apply_reshape(trans, reshape):
-    """Create a new transpose if there are 1 sized dimensions in the reshape"""
-    if not reshape.does_nothing():
-        return trans
-
-    old_shape = reshape.old_shape.shape.copy()
-    trans = trans.copy()
-    while True:
-        change = False
-        idx = 0
-        while idx < len(trans):
-            dim_idx = trans[idx]
-            if old_shape[dim_idx] == 1:
-                change = True
-                del old_shape[dim_idx]
-                del trans[idx]
-                for jdx, dim_jdx in enumerate(trans):
-                    if dim_jdx > dim_idx:
-                        trans[jdx] -= 1
-                change = True
-                break
-            idx += 1
-        if not change:
-            break
 
-    return trans
-
-def apply_reshapes(trans, reshapes):
-    for reshape in reversed(reshapes):
-        trans = apply_reshape(trans, reshape)
-    return trans
-
-def process(seq, switchable):
-    rseq = seq[::-1]
-    idx = 0
-    while idx < len(rseq) - 1:
-        node = rseq[idx]
-        pnode, reshapes, idx = get_first_transposable(rseq, idx + 1)
-        sw_node = switchable.get(node)
-        if reverses_transpose(node.transpose_in, apply_reshapes(pnode.transpose_out, reshapes)):
-            if not sw_node:
-                switchable[node] = {
-                    'can_switch': True,
-                    'segments': {pnode: reshapes}
-                }
-            elif sw_node['can_switch']:
-                sw_node['segments'][pnode] = reshapes
+def search_up_for_reverse(G, visited_edges, node, out_idx, transpose, edge_list):
+    """Search up the graph for transpose sequences"""
+    if len(G.out_edges(node.name)) > 1 or isinstance(node, SensitiveToOrder):
+        return []
+
+    if isinstance(node, Transposable) and node.transpose_out:
+        if reverses_transpose(node.transpose_out, transpose, node.out_dims[out_idx]):
+            return [(node, edge_list, 'out')]
         else:
-            if not sw_node:
-                # This node cannot be switched so all the nodes that could
-                # switched cannot be
-                switchable[node] = {'can_switch': False, 'segments': {}}
-            elif sw_node['can_switch']:
-                sw_node['can_switch'] = False
-                sw_node['segments'].clear()
-
-def process_sequences(trans_seqs):
-    """Extracts nodes that are valid for transpose elimination"""
-    LOG.info("processing transpose sequences")
-    switchable = {}
-    for seqs in trans_seqs.values():
-        for seq in seqs:
-            process(seq, switchable)
-    return switchable
-
-def update_switchable(switchable):
-    """Updates the node transposes"""
-    LOG.info("updating nodes")
-    updated_reshapes = set()
-    for node, switch in switchable.items():
-        if not switch['can_switch']:
-            continue
-        for pnode, reshapes in switch['segments'].items():
-            for reshape in reshapes:
-                if reshape not in updated_reshapes:
-                    updated_reshapes.add(reshape)
-                    reshape.old_shape.transpose(pnode.transpose_out)
-                    reshape.shape.transpose(node.transpose_in)
-                    LOG.info("reshape %s modified", reshape.name)
-            pnode.transpose_out = None
-            LOG.info("transpose eliminated %s => %s", pnode.name, node.name)
-
-        node.transpose_in = None
+            return []
+
+    if isinstance(node, ReshapeParameters):
+        new_transpose = reverse_reshape(transpose, node.shape, node.old_shape)
+        if new_transpose is None:
+            return []
+        transpose = new_transpose
+        if node.transpose_in and reverses_transpose(node.transpose_in, transpose):
+            return [(node, edge_list, "in")]
+
+    if isinstance(node, Transposable) and node.transpose_in:
+        return []
+
+    return search_up_edges(G, visited_edges, node, transpose, edge_list)
+
+
+def search_up_edges(G, visited_edges, node, transpose, edge_list):
+    all_nodes = []
+    for edge in G.in_edges(node.name):
+        if edge in visited_edges:
+            return []
+        next_res = search_up_for_reverse(
+            G, visited_edges | {edge}, edge.from_node, edge.from_idx, transpose, edge_list + [edge])
+        if not next_res:
+            return []
+        all_nodes += next_res
+    return all_nodes
+
+
+def search_down_for_reverse(G, visited_edges, node, in_idx, transpose, edge_list=None):
+    """Search down the graph for transpose sequences"""
+    if len(G.in_edges(node.name)) > 1 or isinstance(node, SensitiveToOrder):
+        return []
+
+    if edge_list is None:
+        edge_list = []
+
+    if isinstance(node, Transposable) and node.transpose_in:
+        if reverses_transpose(transpose, node.transpose_in, node.in_dims[in_idx]):
+            return [(node, edge_list, "in")]
+        else:
+            return []
+
+    # if the node is a concat then we cannot proceed further since the
+    # concat must happen on axis 0 and the transposes were already set up for
+    # this to happen
+    if isinstance(node, ConcatParameters):
+        return []
+
+    # if there is a reshape then the dimensionality of the transpose
+    # that we are examining may change and that may or may not be compatible
+    # with reversing the transpose
+    if isinstance(node, ReshapeParameters):
+        new_transpose = reverse_reshape(transpose, node.old_shape, node.shape)
+        if new_transpose is None:
+            return []
+        transpose = new_transpose
+        if node.transpose_out and reverses_transpose(transpose, node.transpose_out):
+            return [(node, edge_list, "out")]
+
+    if isinstance(node, Transposable) and node.transpose_out:
+        return []
+
+    return search_down_edges(G, visited_edges, node, transpose, edge_list)
+
+
+def search_down_edges(G, visited_edges, node, transpose, edge_list):
+    all_nodes = []
+    for edge in G.out_edges(node.name):
+        if edge in visited_edges:
+            return []
+        next_res = search_down_for_reverse(
+            G, visited_edges | {edge}, edge.to_node, edge.to_idx, transpose, edge_list + [edge])
+        if not next_res:
+            return []
+        all_nodes += next_res
+    return all_nodes
+
+
+def search_for_reverses(G):
+    results = []
+    # visited edges contains all edges included in found transpose pairs
+    visited_edges = set()
+    for transpose_node in [node for node in G.nodes() if isinstance(node, Transposable)]:
+        # for each transpose node we look up and down from the transpose in and transpose out
+        # respectively to see if another transpose reverses this one with nothing
+        # inbetween that is transpose sensitive
+        if transpose_node.transpose_in:
+            result = search_up_edges(G, visited_edges, transpose_node,
+                                     transpose_node.transpose_in, [])
+            for r in result:
+                visited_edges |= set(r[1])
+                results.append(((r[0], r[2]), (transpose_node, 'in'), r[1]
+                                [::-1], getattr(r[0], "transpose_" + r[2])))
+        if transpose_node.transpose_out:
+            result = search_down_edges(G, visited_edges, transpose_node,
+                                       transpose_node.transpose_out, [])
+            for r in result:
+                visited_edges |= set(r[1])
+                results.append(
+                    ((transpose_node, 'out'), (r[0], r[2]), r[1], transpose_node.transpose_out))
+    return results
+
+
+def process_result(res):
+    LOG.info("eliminating transpose between %s[%s] and %s[%s]",
+             res[0][0].name, res[0][1], res[1][0].name, res[1][1]
+             )
+    transpose = res[3]
+    for edge in res[2]:
+        to_node = edge.to_node
+        if isinstance(to_node, ReshapeParameters) and not to_node.transpose_in:
+            LOG.info("eliminating input transpose on %s", to_node.name)
+            transpose = reverse_reshape(transpose, to_node.old_shape, to_node.shape)
+            to_node.shape.transpose(transpose)
+
+    for node, direction in [res[idx] for idx in range(2)]:
+        setattr(node, "transpose_"+direction, None)
+
 
 def eliminate_transposes(G):
     """Eliminates unnecessary transposes from the graph. Valid transposes are those that have no
     nodes that are sensitive to order between them and where one reverses the other"""
     LOG.info("eliminating unnecessary transposes")
-    trans_seqs = find_last_transposes(G)
-    if not trans_seqs:
-        LOG.info("no transpose sequences found")
-        return
-    switchable = process_sequences(trans_seqs)
-    update_switchable(switchable)
+    while True:
+        results = search_for_reverses(G)
+        if not results:
+            LOG.info("no further transpose sequences found")
+            break
+        for result in results:
+            process_result(result)
+        G.add_dimensions()
diff --git a/tools/nntool/graph/matches/equalize_sym_mult_concats.py b/tools/nntool/graph/matches/equalize_sym_mult_concats.py
new file mode 100644
index 000000000..a95435101
--- /dev/null
+++ b/tools/nntool/graph/matches/equalize_sym_mult_concats.py
@@ -0,0 +1,76 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+import logging
+from copy import deepcopy
+
+from graph.matches.matcher import Matcher
+from graph.types import ConcatParameters, ReshapeParameters, TransposeParameters
+from quantization.multiplicative.mult_quantization import MultQuantizationRecord, MultScalableFilterQuantizationRecord
+from quantization.multiplicative.symmetric.symmetric_mult_qtype import SymmetricMultQType
+from utils.graph import Edge, GraphView
+from utils.node_id import NodeId
+
+LOG = logging.getLogger("nntool." + __name__)
+
+CAN_PASS = (
+    ReshapeParameters,
+    TransposeParameters
+)
+
+def set_in_scale(qrec, index, scale):
+    in_q = qrec.in_qs[index]
+    assert isinstance(in_q, SymmetricMultQType), "not supported on other quantization types"
+    in_q.scale = scale
+
+def set_out_scale(qrec, index, scale):
+    out_q = qrec.out_qs[index]
+    assert isinstance(out_q, SymmetricMultQType), "not supported on other quantization types"
+    if isinstance(qrec, MultScalableFilterQuantizationRecord):
+        assert index == 0, "trying to set strange index on filter quantization record"
+        out_q.scale = scale
+        qrec.mul_biases_q.scale = qrec.in_qs[0].scale * qrec.weights_q.scale / out_q.scale
+    else:
+        out_q.scale = scale
+
+def propagate_qtype_up(G, qtype, edge: Edge):
+    LOG.info("propagating scale up from node %s to node %s", edge.to_node.name, edge.from_node.name)
+    qrec_out = G.quantization[NodeId(edge.from_node)]
+    set_out_scale(qrec_out, edge.from_idx, qtype.scale)
+    qrec_in = G.quantization[NodeId(edge.to_node)]
+    set_in_scale(qrec_in, edge.to_idx, qtype.scale)
+    if isinstance(edge.from_node, CAN_PASS):
+        for edge in G.in_edges(edge.from_node.name):
+            propagate_qtype_up(G, qtype, edge)
+
+class EqualizeSymmetricMultiplicativeQuantivedConcats(Matcher):
+    NAME = "equalize_sm_concats"
+    DESCRIPTION = """Equalize input quantization of concats with symmetric multiplicative quantization"""
+
+    def match(self, G: GraphView, set_identity: bool = True):
+        if not G.quantization:
+            return
+        concats = [node for node in G.nodes() if isinstance(node, ConcatParameters)]
+        qrecs = [G.quantization[NodeId(node)] for node in concats]
+        if not all(isinstance(qrec, MultQuantizationRecord) for qrec in qrecs):
+            return
+        for concat, qrec in zip(concats, qrecs):
+            out_q = qrec.out_qs[0]
+            for edge in G.in_edges(concat.name):
+                in_q = qrec.in_qs[edge.to_idx]
+                if in_q != out_q:
+                    propagate_qtype_up(G, out_q, edge)
+
+        if set_identity:
+            self.set_identity(G)
diff --git a/tools/nntool/graph/matches/expand_transposes.py b/tools/nntool/graph/matches/expand_transposes.py
index 5495d2e38..dd33a2410 100644
--- a/tools/nntool/graph/matches/expand_transposes.py
+++ b/tools/nntool/graph/matches/expand_transposes.py
@@ -14,18 +14,19 @@
 # along with this program.  If not, see <https://www.gnu.org/licenses/>.
 
 from utils.graph import GraphView
+from utils.node_id import NodeId
+from graph.types.base import Transposable
+from graph.types.others import TransposeParameters
 
-from ..types.base import Transposable
-from ..types.others import TransposeParameters
-
-from .matcher import Matcher
+from graph.matches.matcher import Matcher
 
 
 def apply_reverse_transpose_to_hint(hint, transpose):
-    reverse_transpose = {transpose[i] : v for i, v in enumerate(hint)}
+    reverse_transpose = {transpose[i]: v for i, v in enumerate(hint)}
     reversed_hint = [reverse_transpose[idx] for idx in range(len(hint))]
     return reversed_hint
 
+
 class ExpandTransposesMatcher(Matcher):
     NAME = "expand_transposes"
     DESCRIPTION = "Extract transposes from Transposable nodes for model generation"
@@ -33,8 +34,8 @@ class ExpandTransposesMatcher(Matcher):
     def match(self, G: GraphView, set_identity: bool = True):
         # get a list of all the nodes that are transposable but not transposes
         # Need to do this first to avoid mutating it when doing the modifications
-        tnodes = list(filter(lambda n: isinstance(n, Transposable) and\
-                                not isinstance(n, TransposeParameters),
+        tnodes = list(filter(lambda n: isinstance(n, Transposable) and
+                             not isinstance(n, TransposeParameters),
                              G.nodes()))
         for node in tnodes:
             if node.transpose_in:
@@ -47,6 +48,8 @@ def match(self, G: GraphView, set_identity: bool = True):
                         in_params.in_dims_hint = [in_hint.copy()]
                         in_params.out_dims_hint = [out_hint.copy()]
                         node.in_dims_hint[edge.to_idx] = out_hint
+                    if G.quantization:
+                        G.quantization.copy_to_node(node, in_params)
                     G.insert_node(in_params, edge.from_node.name, edge.to_node.name,
                                   from_idx=edge.from_idx, to_idx=edge.to_idx)
                 node.transpose_in = None
@@ -60,6 +63,8 @@ def match(self, G: GraphView, set_identity: bool = True):
                         out_params.in_dims_hint = [in_hint.copy()]
                         out_params.out_dims_hint = [out_hint.copy()]
                         node.out_dims_hint[edge.from_idx] = in_hint
+                    if G.quantization:
+                        G.quantization.copy_to_node(node, out_params)
                     G.insert_node(out_params, edge.from_node.name, edge.to_node.name,
                                   from_idx=edge.from_idx, to_idx=edge.to_idx)
                 node.transpose_out = None
diff --git a/tools/nntool/graph/matches/find_asymmetric_quantization.py b/tools/nntool/graph/matches/find_asymmetric_quantization.py
new file mode 100644
index 000000000..e21d72436
--- /dev/null
+++ b/tools/nntool/graph/matches/find_asymmetric_quantization.py
@@ -0,0 +1,203 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+import logging
+
+from graph.matches.matcher import Matcher
+from graph.types import (ActivationParameters, ConcatParameters,
+                         ConstantInputParameters, Conv2DParameters,
+                         ConvFusionParameters, FcParameters,
+                         GlobalPoolParameters, InputParameters,
+                         MatrixAddParameters, OutputParameters,
+                         PoolingParameters, ReshapeParameters)
+from quantization.multiplicative.symmetric.symmetric_mult_qtype_wrapper import \
+    SymmetricMultQTypeWrapper
+from utils.graph import GraphView
+from utils.node_id import NodeId
+
+LOG = logging.getLogger("nntool." + __name__)
+
+CAN_CHANGE_OUTPUT = (
+    InputParameters, ConstantInputParameters, Conv2DParameters,
+    ConvFusionParameters, FcParameters, MatrixAddParameters
+)
+
+CAN_CHANGE_INPUT = (
+    OutputParameters, Conv2DParameters, ConvFusionParameters,
+    FcParameters, MatrixAddParameters
+)
+
+CAN_PROPAGATE_INPUT = (
+    GlobalPoolParameters, ReshapeParameters, ConcatParameters, ActivationParameters, PoolingParameters
+)
+
+ARE_MULTI_INPUT = (
+    ConcatParameters
+)
+
+class FindAsymmetricQuantization(Matcher):
+    NAME = "find_asymmetric_quantization"
+    DESCRIPTION = """Find nodes that can have asymmetric quantization. Must run after padding has been fused."""
+
+    def can_change_input(self, G, node, exclude=None):
+        """Returns None or a list of tuples of (node, multi_input_node) where node is an
+        input of multi_input_node. An empty list is a confirmed string. A list that contains
+        multi input nodes needs to be reconciled. An empty list means that this node
+        cannot be changed."""
+
+        if isinstance(node, CAN_PROPAGATE_INPUT):
+            if exclude and node in exclude:
+                return None
+            nodes = []
+            for succ in [succ
+                         for succs in G.successors(node.name)
+                         for succ in succs]:
+                can_change = self.can_change_input(G, succ, exclude=exclude)
+                if can_change is None:
+                    return None
+                nodes += can_change
+                if isinstance(succ, ARE_MULTI_INPUT):
+                    nodes.append((node, succ))
+            return nodes
+        if not isinstance(node, CAN_CHANGE_INPUT):
+            return None
+        if isinstance(node, ConvFusionParameters):
+            filters = node.contained_filters()
+            if len(filters) == 1 and not filters[0].padding.has_padding:
+                return []
+            else:
+                return None
+        if isinstance(node, Conv2DParameters):
+            return None if node.padding.has_padding else []
+        return []
+
+    def can_change_output(self, node):
+        return isinstance(node, CAN_CHANGE_OUTPUT)
+
+    def validate_multi_input(self, G, input_dict):
+        # {start_node: [(pred, mi_node), ..]}
+        mi_nodes = {}
+        # index all of the predecessor nodes by mi node
+        for pr_node, mi_node in [match for matches in input_dict.values() for match in matches]:
+            pr_node_set = mi_nodes.get(mi_node)
+            if pr_node_set is None:
+                pr_node_set = set()
+                mi_nodes[mi_node] = pr_node_set
+            pr_node_set.add(pr_node)
+        bad_mi_nodes = []
+        # check that all the predecessors were OK
+        for mi_node, pr_nodes in mi_nodes.items():
+            if not all(node in pr_nodes for node in G.predecessors(mi_node)):
+                bad_mi_nodes.append(mi_node)
+        start_nodes = []
+        # find the records that have bad nodes in them
+        if bad_mi_nodes:
+            for start_node, matches in input_dict.items():
+                if any(mi_node in bad_mi_nodes for _, mi_node in matches):
+                    start_nodes.append(start_nodes)
+        for start_node in start_nodes:
+            del input_dict[start_node]
+            matches = self.can_change_input(G, start_node, exclude=bad_mi_nodes)
+            if matches is not None:
+                assert len(matches) == 0
+                input_dict[start_node] = []
+        return input_dict
+
+    def change_output_to_async(self, G, node, idx):
+        if isinstance(node, ConvFusionParameters):
+            changing = False
+            for fnode in node.contained_nodes():
+                if changing:
+                    nid = NodeId(node, fnode)
+                    qrec = G.quantization[nid]
+                    if isinstance(qrec.in_qs[0], SymmetricMultQTypeWrapper):
+                        qrec.in_qs[0] = qrec.in_qs[0].wrapped
+                    if isinstance(qrec.out_qs[0], SymmetricMultQTypeWrapper):
+                        qrec.out_qs[0] = qrec.out_qs[0].wrapped
+                elif isinstance(fnode, (Conv2DParameters, FcParameters)):
+                    changing = True
+                    nid = NodeId(node, fnode)
+                    qrec = G.quantization[nid]
+                    if isinstance(qrec.out_qs[0], SymmetricMultQTypeWrapper):
+                        qrec.out_qs[0] = qrec.out_qs[0].wrapped
+
+        nid = NodeId(node)
+        qrec = G.quantization[nid]
+        if isinstance(qrec.out_qs[idx], SymmetricMultQTypeWrapper):
+            qrec.out_qs[idx] = qrec.out_qs[idx].wrapped
+
+    def change_input_to_async(self, G, node, idx):
+        if isinstance(node, ConvFusionParameters):
+            for fnode in node.contained_nodes():
+                nid = NodeId(node, fnode)
+                qrec = G.quantization[nid]
+                if isinstance(fnode, (Conv2DParameters, FcParameters)):
+                    if isinstance(qrec.in_qs[0], SymmetricMultQTypeWrapper):
+                        qrec.in_qs[0] = qrec.in_qs[0].wrapped
+                        qrec.biases_q.link(qrec.weights_q, qrec.in_qs[0])
+                    return
+                if isinstance(qrec.in_qs[0], SymmetricMultQTypeWrapper):
+                    qrec.in_qs[0] = qrec.in_qs[0].wrapped
+                if isinstance(qrec.out_qs[0], SymmetricMultQTypeWrapper):
+                    qrec.out_qs[0] = qrec.out_qs[0].wrapped
+
+        nid = NodeId(node)
+        qrec = G.quantization[nid]
+        if isinstance(qrec.in_qs[idx], SymmetricMultQTypeWrapper):
+            qrec.in_qs[idx] = qrec.in_qs[idx].wrapped
+            if isinstance(node, (Conv2DParameters, FcParameters)):
+                qrec.biases_q.link(qrec.weights_q, qrec.in_qs[idx])
+        if isinstance(node, OutputParameters) and isinstance(qrec.out_qs[0], SymmetricMultQTypeWrapper):
+            qrec.out_qs[0] = qrec.out_qs[0].wrapped
+
+    def do_change(self, G, node, idx=0):
+        self.change_output_to_async(G, node, idx)
+        for edge in G.out_edges(node.name):
+            if isinstance(edge.to_node, CAN_PROPAGATE_INPUT):
+                self.change_input_to_async(G, edge.to_node, edge.to_idx)
+                self.do_change(G, edge.to_node, edge.from_idx)
+            else:
+                assert isinstance(edge.to_node, CAN_CHANGE_INPUT)
+                if isinstance(edge.to_node, ConvFusionParameters):
+                    filters = edge.to_node.contained_filters()
+                    assert len(filters) == 1 and not filters[0].padding.has_padding
+                if isinstance(edge.to_node, Conv2DParameters):
+                    assert not edge.to_node.padding.has_padding
+                self.change_input_to_async(G, edge.to_node, edge.to_idx)
+
+    def match(self, G: GraphView, set_identity: bool = True):
+        if not G.quantization:
+            return
+        input_dict = {}
+        for node in G.nodes():
+            if not self.can_change_output(node):
+                continue
+            all_matches = []
+            for succ in [succ for succs in G.successors(node.name) for succ in succs]:
+                matches = self.can_change_input(G, succ)
+                if matches is None:
+                    all_matches = None
+                    break
+                all_matches += matches
+            if all_matches is None:
+                continue
+            input_dict[node] = all_matches
+
+        input_dict = self.validate_multi_input(G, input_dict)
+        for node in input_dict:
+            # all nodes that can currently change output have one output
+            self.do_change(G, node)
+
+        if set_identity:
+            self.set_identity(G)
diff --git a/tools/nntool/graph/matches/find_hsigmoid.py b/tools/nntool/graph/matches/find_hsigmoid.py
new file mode 100644
index 000000000..1c2a1e7c6
--- /dev/null
+++ b/tools/nntool/graph/matches/find_hsigmoid.py
@@ -0,0 +1,208 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+import math
+from graph.types import MatrixMulParameters, ConvFusionParameters, FcParameters, HSigmoidActivationParameters, ConstantInputParameters, FilterParameters, ReluActivationParameters, MatrixBroadcastedLinearOpParameters, MatrixAddParameters, MatrixSubParameters, MatrixDivParameters, MatrixMulParameters
+
+from utils.graph import GraphView, Edge, Node
+from utils.graph_matcher import NodeMatch, MatchNodeByClass, EdgeMatch, GraphMatcher, MatchFinishSuccess
+from utils.node_id import NodeId
+from quantization.multiplicative.mult_quantization import MultQuantizationRecordBase
+from .matcher import Matcher, MatchNode, DefaultMatcher
+from quantization.symmetric.symmetric_quantization import (
+    SymmetricQuantizationRecord, SymmetricScalableFilterQuantizationRecord)
+from quantization.multiplicative.symmetric.symmetric_mult_qtype_wrapper import SymmetricMultQTypeWrapper
+from quantization.multiplicative.mult_quantization import (
+    MultQuantizationRecord, MultScalableFilterQuantizationRecord)
+from quantization.float32.float32_quantization import (
+    Float32QuantizationRecord, Float32ScalableFilterQuantizationRecord)
+
+LOG = logging.getLogger("nntool." + __name__)
+
+
+def check_equals(G, node, val):
+    if node.value is None or len(node.value) != 1:
+        return False
+
+    if G.has_quantized_parameters:
+        qrec = G.quantization[NodeId(node)]
+        if isinstance(qrec.out_qs[0], SymmetricMultQTypeWrapper):
+            node_val = qrec.out_qs[0].wrapped.dequantize(node.value)
+        else:
+            node_val = qrec.out_qs[0].dequantize(node.value)
+    else:
+        node_val = node.value
+    node_val = node_val.reshape((1,))[0]
+    if val < 0:
+        node_val = 1.0/node_val
+        val = 1.0/val
+    return math.floor(0.5 + node_val) == math.floor(0.5 + val)
+
+# Matches filter -> mul with 1/6th constant
+
+
+class MatchCloseHSigmoid(DefaultMatcher):
+    NAME = 'match_close_hsigmoid'
+    DESCRIPTION = 'Match relu6 followed by matmul with 1/6 constant and replaces with hsigmoid activation'
+
+    def match_function(self, G: GraphView):
+        sub = GraphView()
+        sub.add_node(MatchNode('0', matcher=lambda node:
+                               isinstance(node, ReluActivationParameters) and node.upper_bound == 6))
+        sub.add_node(MatchNode('1', matcher=lambda node:
+                               isinstance(node, MatrixMulParameters)))
+        sub.add_node(MatchNode('2', matcher=lambda node:
+                               isinstance(node, ConstantInputParameters) and check_equals(G, node, 1.0/6.0)))
+        sub.add_edge(Edge('0', '1', to_idx=0))
+        sub.add_edge(Edge('2', '1', to_idx=1))
+
+        return G.match_fragment(sub)
+
+    def replace_function(self, G: GraphView, subgraph: GraphView):
+        relu_node = None
+        constant_node = None
+        mul_node = None
+        for node in subgraph.nodes():
+            if isinstance(node, ReluActivationParameters):
+                relu_node = node
+            elif isinstance(node, ConstantInputParameters):
+                constant_node = node
+            elif isinstance(node, MatrixMulParameters):
+                mul_node = node
+
+        activation = HSigmoidActivationParameters(mul_node.name + "_fused_close_hsigmoid", offset=0)
+
+        if G.quantization:
+            reluqrec = G.quantization[NodeId(relu_node)]
+            mulqrec = G.quantization[NodeId(mul_node)]
+            del G.quantization[NodeId(constant_node)]
+            if isinstance(reluqrec, (SymmetricQuantizationRecord)):
+                pqrec = SymmetricQuantizationRecord(
+                    in_qs=reluqrec.in_qs, out_qs=mulqrec.out_qs)
+            elif isinstance(reluqrec, (MultQuantizationRecord)):
+                pqrec = MultQuantizationRecord(in_qs=reluqrec.in_qs, out_qs=mulqrec.out_qs)
+            elif isinstance(reluqrec, (Float32QuantizationRecord)):
+                pqrec = Float32QuantizationRecord(in_qs=reluqrec.in_qs, out_qs=mulqrec.out_qs)
+            else:
+                raise NotImplementedError()
+            G.quantization[NodeId(activation)] = pqrec
+        return activation
+
+
+def look_back(G, node, state=None):
+    # TODO - Pass through nodes that don't modify the tensor contents
+    if state is None:
+        state = {'relu1': None, 'add': None, 'relu2': None, 'mul': None, 'relu3': None}
+    qrec = G.quantization.get(NodeId(node))
+    if not isinstance(qrec, MultQuantizationRecordBase):
+        return None
+    if isinstance(node, ReluActivationParameters):
+        if state['add']:
+            state['relu1'] = None # (node, qrec)
+        elif node.upper_bound == 6:
+            state['relu2'] = (node, qrec)
+        else:
+            return None
+        return look_back(G, G.in_edges(node.name)[0].from_node, state=state)
+    elif isinstance(node, MatrixBroadcastedLinearOpParameters):
+        edges = G.in_edges(node.name)
+        if isinstance(edges[0].from_node, ConstantInputParameters):
+            const_edge_idx = 0
+            nonconst_edge = edges[1]
+        elif isinstance(edges[1].from_node, ConstantInputParameters):
+            const_edge_idx = 1
+            nonconst_edge = edges[0]
+        else:
+            return None
+        const_node = edges[const_edge_idx].from_node
+        if len(const_node.value) != 1:
+            return None
+        if isinstance(node, MatrixMulParameters):
+            if state['mul']:
+                return None
+            state['mul'] = (node, qrec, const_node)
+        elif isinstance(node, MatrixAddParameters):
+            if state['add'] or not check_equals(G, const_node, 3):
+                return None
+            state['add'] = (node, qrec, const_node)
+        else:
+            return None
+        return look_back(G, nonconst_edge.from_node, state=state)
+    else:
+        if state['add'] and state['relu2'] and state['mul']:
+            return state
+    return None
+
+
+def process_rec(G, oprec):
+    mul_node = oprec['mul'][0]
+    activation = HSigmoidActivationParameters(mul_node.name + "_fused_far_hsigmoid")
+    G.add_node(activation)
+    mulqrec = G.quantization[NodeId(mul_node)]
+    G.quantization[NodeId(activation)] = mulqrec
+    if oprec['relu1'] is not None:
+        mulqrec.in_qs = oprec['relu1'][1].in_qs
+        del G.quantization[NodeId(oprec['relu1'][0])]
+        for edge in G.in_edges(oprec['relu1'][0].name):
+            G.add_edge(Edge(from_node=edge.from_node, from_idx=edge.from_idx, to_node=activation.name))
+        G.remove(oprec['relu1'][0])
+    else:
+        mulqrec.in_qs = oprec['add'][1].in_qs
+        for edge in G.in_edges(oprec['add'][0].name):
+            G.add_edge(Edge(from_node=edge.from_node, from_idx=edge.from_idx, to_node=activation.name))
+    if oprec['relu3'] is not None:
+        mulqrec.out_qs = oprec['relu3'][1].out_qs
+        del G.quantization[NodeId(oprec['relu3'][0])]
+        for edge in G.out_edges(oprec['relu3'][0].name):
+            G.add_edge(Edge(to_node=edge.to_node, to_idx=edge.to_idx, from_node=activation.name))
+        G.remove(oprec['relu3'][0])
+    else:
+        for edge in G.out_edges(oprec['mul'][0].name):
+            G.add_edge(Edge(to_node=edge.to_node, to_idx=edge.to_idx, from_node=activation.name))
+
+    del G.quantization[NodeId(oprec['relu2'][0])]
+    G.remove(oprec['relu2'][0])
+    for node_type in ('add', 'mul'):
+        del G.quantization[NodeId(oprec[node_type][0])]
+        G.remove(oprec[node_type][0])
+        del G.quantization[NodeId(oprec[node_type][2])]
+        G.remove(oprec[node_type][2])
+
+
+class MatchFarHSigmoid(Matcher):
+    NAME = 'match_far_hsigmoid'
+    DESCRIPTION = 'Looks for quantized HSigmoid - [Relu] -> Add 3 -> Relu6 -> Mul 1/6 -> [Relu]'
+
+    def match(self, G: GraphView, set_identity: bool = True):
+        const_ops = [node for node in G.nodes()
+                     if isinstance(node, MatrixMulParameters)
+                     and any([isinstance(edge.from_node, ConstantInputParameters)
+                              and check_equals(G, edge.from_node, 1.0/6.0)
+                              for edge in G.in_edges(node.name)])]
+
+        oprecs = [oprec for oprec in (look_back(G, op)
+                                      for op in const_ops)
+                  if oprec is not None]
+        for oprec in oprecs:
+            mul_edge = G.out_edges(oprec['mul'][0].name)
+            if len(mul_edge) == 1:
+                mul_edge = mul_edge[0]
+                if isinstance(mul_edge.to_node, ReluActivationParameters):
+                    oprec['relu3'] = (mul_edge.to_node, G.quantization[NodeId(mul_edge.to_node)])
+            process_rec(G, oprec)
+
+        if set_identity:
+            self.set_identity(G)
diff --git a/tools/nntool/graph/matches/find_missing_quantization.py b/tools/nntool/graph/matches/find_missing_quantization.py
new file mode 100644
index 000000000..a0d0b846d
--- /dev/null
+++ b/tools/nntool/graph/matches/find_missing_quantization.py
@@ -0,0 +1,98 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+import logging
+from copy import deepcopy
+
+from graph.matches.matcher import Matcher
+from quantization.multiplicative.mult_quantization import MultQuantizationRecord
+from utils.graph import Edge, GraphView
+from utils.node_id import NodeId
+
+LOG = logging.getLogger("nntool." + __name__)
+
+def reduce_qtypes(qtypes):
+    max_idx = max(idx for idx, _ in qtypes)
+    res = [None] * (max_idx + 1)
+    for idx, qtype in qtypes:
+        if res[idx] is None:
+            res[idx] = qtype
+        elif qtype != res[idx]:
+            raise ValueError("qtypes are not compatible on index %s" % idx)
+    return res
+
+
+class FindMissingQuantization(Matcher):
+    NAME = "find_missing_quantization"
+    DESCRIPTION = """Propagate quantization to nodes that have none"""
+
+
+    def match(self, G: GraphView, set_identity: bool = True):
+        if not G.quantization:
+            return
+        for nid in [nid for nid, qrec in G.quantization.sorted_iterator(G) if qrec is None or not (qrec.in_qs and qrec.out_qs)]:
+            if nid.fnode_name:
+                LOG.warning("can't add quantization to fused node %s", nid.fnode_name)
+                continue
+            if nid.node_name not in G:
+                # previous fusions may have removed nodes from the graph
+                continue
+
+            node = nid.get_node(G)
+            predecessors = [NodeId(pred) for pred in G.predecessors(node.name)]
+            successors = [NodeId(succ) for succs in G.successors(node.name) for succ in succs]
+            go_back = not successors or (predecessors and all(pred in G.quantization for pred in predecessors))
+            go_forward = not predecessors or (successors and all(succ in G.quantization for succ in successors))
+
+            if not (go_back or go_forward):
+                LOG.warning("node %s is not connected to anything and has no quantization", node.name)
+                continue
+
+            if go_forward:
+                out_qrecs = set(G.quantization[nid] for nid in successors)
+                if not all(isinstance(out_qrec, MultQuantizationRecord) for out_qrec in out_qrecs):
+                    continue
+                out_qtypes = reduce_qtypes([(edge.from_idx, G.quantization[NodeId(edge.to_node)].in_qs[edge.to_idx])
+                                            for edge in G.out_edges(node.name)])
+            else:
+                out_qtypes = None
+            if go_back:
+                in_qrecs = set(G.quantization[nid] for nid in predecessors)
+                if not all(isinstance(in_qrec, MultQuantizationRecord) for in_qrec in in_qrecs):
+                    continue
+                in_qtypes = reduce_qtypes([(edge.to_idx, G.quantization[NodeId(edge.from_node)].out_qs[edge.from_idx])
+                                           for edge in G.in_edges(node.name)])
+            else:
+                in_qtypes = None
+
+            if not in_qtypes:
+                if not predecessors:
+                    LOG.info("setting quantization on input node %s", node.name)
+                    qrec = MultQuantizationRecord(in_qs=deepcopy(out_qtypes), out_qs=deepcopy(out_qtypes))
+                else:
+                    raise NotImplementedError("propagating qrecs not implemented")
+            elif not out_qtypes:
+                if not successors:
+                    LOG.info("setting quantization on output node %s", node.name)
+                    qrec = MultQuantizationRecord(in_qs=deepcopy(in_qtypes), out_qs=deepcopy(in_qtypes))
+                else:
+                    raise NotImplementedError("propagating qrecs not implemented")
+            else:
+                LOG.info("setting quantization on node %s", node.name)
+                qrec = MultQuantizationRecord(in_qs=deepcopy(in_qtypes), out_qs=deepcopy(out_qtypes))
+
+            G.quantization[nid] = qrec
+
+        if set_identity:
+            self.set_identity(G)
diff --git a/tools/nntool/graph/matches/fuse_pad.py b/tools/nntool/graph/matches/fuse_pad.py
index 68b9aad49..03c5eab7e 100644
--- a/tools/nntool/graph/matches/fuse_pad.py
+++ b/tools/nntool/graph/matches/fuse_pad.py
@@ -51,5 +51,6 @@ def replace_function(self, G: GraphView, subgraph: GraphView):
 
         filter_like_node.padding = pad_node.padding
         filter_like_node.pad_type = "zero"
-
+        if G.quantization:
+            G.quantization.remove_node(pad_node)
         return filter_like_node
diff --git a/tools/nntool/graph/matches/match_external_bias.py b/tools/nntool/graph/matches/match_external_bias.py
index 05383fe46..872b2428c 100644
--- a/tools/nntool/graph/matches/match_external_bias.py
+++ b/tools/nntool/graph/matches/match_external_bias.py
@@ -17,6 +17,7 @@
 
 from graph.types import  FilterParameters, MatrixAddParameters, ConstantInputParameters
 from utils.graph import MatchNode, GraphView, Edge
+from utils.node_id import NodeId
 
 from .matcher import DefaultMatcher, DontReplaceError
 
@@ -58,4 +59,65 @@ def replace_function(self, G: GraphView, subgraph: GraphView):
                 filter_node.biases = flattened_constant
         else:
             raise DontReplaceError()
+        if G.quantization:
+            fnid = NodeId(filter_node)
+            cnid = NodeId(constant_node)
+            if fnid in G.quantization and cnid in G.quantization:
+                G.quantization[fnid].biases_q = G.quantization[cnid].out_qs[0]
+        return filter_node
+
+class MatchExternalBiasSQ8(DefaultMatcher):
+    NAME = 'fuse_external_bias_sq8'
+    DESCRIPTION = 'Fuse bias addition after filter with filter bias'
+
+    def match_function(self, G: GraphView):
+        sub = GraphView()
+        sub.add_node(MatchNode('0', matcher=lambda node:\
+                isinstance(node, FilterParameters)))
+        sub.add_node(MatchNode('1', matcher=lambda node:\
+                isinstance(node, MatrixAddParameters)))
+        sub.add_node(MatchNode('2', matcher=lambda node:\
+                isinstance(node, ConstantInputParameters)))
+        sub.add_edge(Edge('0', '1', to_idx=0))
+        sub.add_edge(Edge('2', '1', to_idx=1))
+
+        return G.match_fragment(sub)
+
+    def replace_function(self, G: GraphView, subgraph: GraphView):
+        filter_node = None
+        constant_node = None
+        for node in subgraph.nodes():
+            if isinstance(node, FilterParameters):
+                filter_node = node
+            elif isinstance(node, ConstantInputParameters):
+                constant_node = node
+        flattened_constant = constant_node.value.flatten()
+        if G.quantization:
+            fnid = NodeId(filter_node)
+            cnid = NodeId(constant_node)
+            if fnid in G.quantization and cnid in G.quantization:
+                biases_q = G.quantization[fnid].biases_q
+                const_q = G.quantization[cnid].out_qs[0]
+
+        # shape needs to match
+        if flattened_constant.shape[0] == filter_node.filter.out_c:
+            if filter_node.has_bias:
+                assert filter_node.biases is not None, "can't absorb bias into filter. maybe weights are not loaded"
+                if G.quantization:
+                    #dequantize the constants
+                    flattened_constant_dq = const_q.get_dequantized(flattened_constant)
+                    biases_dq = biases_q.get_dequantized(filter_node.biases)
+                    #sum the floats and requantize at biases_q scale
+                    filter_node.biases = biases_q.quantize(flattened_constant_dq + biases_dq)
+                else:
+                    filter_node.biases += flattened_constant
+            else:
+                if G.quantization:
+                    #dequantize the constants
+                    flattened_constant_dq = const_q.get_dequantized(flattened_constant)
+                    filter_node.biases = biases_q.get_quantized(flattened_constant_dq)
+                else:
+                    filter_node.biases = flattened_constant
+        else:
+            raise DontReplaceError()
         return filter_node
diff --git a/tools/nntool/graph/matches/match_gap_conv.py b/tools/nntool/graph/matches/match_gap_conv.py
index bddb563ca..486f0324d 100644
--- a/tools/nntool/graph/matches/match_gap_conv.py
+++ b/tools/nntool/graph/matches/match_gap_conv.py
@@ -15,17 +15,26 @@
 
 import logging
 
-from graph.types import  Conv2DParameters, ConvFusionParameters, PoolingParameters, ActivationParameters
-from utils.graph import MatchNode, GraphView, Edge
-
-from .matcher import DefaultMatcher, MatchGroup, DontReplaceError
+from graph.types import (ActivationParameters, Conv2DParameters,
+                         ConvFusionParameters, PoolingParameters)
+from quantization.symmetric.symmetric_quantization import (
+    SymmetricQuantizationRecord, SymmetricScalableFilterQuantizationRecord)
+from quantization.multiplicative.mult_quantization import (
+    MultQuantizationRecord, MultScalableFilterQuantizationRecord)
+from quantization.float32.float32_quantization import (
+    Float32QuantizationRecord, Float32ScalableFilterQuantizationRecord)
+from utils.graph import Edge, GraphView, MatchNode
+from utils.node_id import NodeId
+
+from .matcher import DefaultMatcher, DontReplaceError, MatchGroup
 
 LOG = logging.getLogger("nntool." + __name__)
 
 
 class MatchGapConv(DefaultMatcher):
 
-    def __init__(self, match_activation=True, match_pool=False, pool_after_activation=False):
+    def __init__(self, *args, match_activation=True, match_pool=False, pool_after_activation=False, **kwargs):
+        super(MatchGapConv, self).__init__(*args, **kwargs)
         assert match_activation or match_pool, "not very interesting to just match conv"
         self.match_activation = match_activation
         self.match_pool = match_pool
@@ -118,7 +127,21 @@ def replace_function(self, G: GraphView, subgraph: GraphView):
         LOG.debug("fused nodes %s", ",".join((node.name for node in subgraph.nodes())))
         # simple node order is necessary because nodes() will not necessarily
         # be in order
-        return ConvFusionParameters(conv_name, self.fusion_type, subgraph)
+        pnode = ConvFusionParameters(conv_name, self.fusion_type, subgraph)
+        if G.quantization:
+            qrecs = G.quantization.get_all(subgraph.nodes())
+            if qrecs:
+                if isinstance(qrecs[0], (SymmetricQuantizationRecord, SymmetricScalableFilterQuantizationRecord)):
+                    prec = SymmetricQuantizationRecord(in_qs=qrecs[0].in_qs, out_qs=qrecs[-1].out_qs)
+                elif isinstance(qrecs[0], (MultQuantizationRecord, MultScalableFilterQuantizationRecord)):
+                    prec = MultQuantizationRecord(in_qs=qrecs[0].in_qs, out_qs=qrecs[-1].out_qs)
+                elif isinstance(qrecs[0], (Float32QuantizationRecord, Float32ScalableFilterQuantizationRecord)):
+                    prec = Float32QuantizationRecord(in_qs=qrecs[0].in_qs, out_qs=qrecs[-1].out_qs)
+                for node in subgraph.nodes():
+                    G.quantization.move_to_fusion(node, pnode)
+                G.quantization[NodeId(pnode)] = prec
+        return pnode
+
 
 class MatchAllGapConv(MatchGroup):
     NAME = 'fuse_gap_convs'
diff --git a/tools/nntool/graph/matches/match_gap_linear.py b/tools/nntool/graph/matches/match_gap_linear.py
index 663ca87ee..24d52a151 100644
--- a/tools/nntool/graph/matches/match_gap_linear.py
+++ b/tools/nntool/graph/matches/match_gap_linear.py
@@ -15,8 +15,17 @@
 
 import logging
 
-from graph.types import FcParameters, ActivationParameters, ConvFusionParameters
-from utils.graph import MatchNode, GraphView, Edge
+from graph.nngraph import NNGraph
+from graph.types import (ActivationParameters, ConvFusionParameters,
+                         FcParameters)
+from quantization.symmetric.symmetric_quantization import (
+    SymmetricQuantizationRecord, SymmetricScalableFilterQuantizationRecord)
+from quantization.multiplicative.mult_quantization import (
+    MultQuantizationRecord, MultScalableFilterQuantizationRecord)
+from quantization.float32.float32_quantization import (
+    Float32QuantizationRecord, Float32ScalableFilterQuantizationRecord)
+from utils.graph import Edge, GraphView, MatchNode
+from utils.node_id import NodeId
 
 from .matcher import DefaultMatcher
 
@@ -49,7 +58,7 @@ def match_function(self, G: GraphView):
         sub.add_edge(Edge('0', '1'))
         return G.match_fragment(sub)
 
-    def replace_function(self, G: GraphView, subgraph: GraphView):
+    def replace_function(self, G: NNGraph, subgraph: GraphView):
         step = 0
         for node in subgraph.nodes():
             node.step_idx = step
@@ -61,4 +70,18 @@ def replace_function(self, G: GraphView, subgraph: GraphView):
             (node.name for node in subgraph.nodes())))
         # simple node order is necessary because nodes() will not necessarily
         # be in order
-        return ConvFusionParameters(linear_name, "linear_active", subgraph)
+        pnode = ConvFusionParameters(linear_name, "linear_active", subgraph)
+        if G.quantization:
+            qrecs = G.quantization.get_all(subgraph.nodes())
+            if qrecs:
+                if isinstance(qrecs[0], (SymmetricQuantizationRecord, SymmetricScalableFilterQuantizationRecord)):
+                    prec = SymmetricQuantizationRecord(
+                        in_qs=qrecs[0].in_qs, out_qs=qrecs[-1].out_qs)
+                elif isinstance(qrecs[0], (MultQuantizationRecord, MultScalableFilterQuantizationRecord)):
+                    prec = MultQuantizationRecord(in_qs=qrecs[0].in_qs, out_qs=qrecs[-1].out_qs)
+                elif isinstance(qrecs[0], (Float32QuantizationRecord, Float32ScalableFilterQuantizationRecord)):
+                    prec = Float32QuantizationRecord(in_qs=qrecs[0].in_qs, out_qs=qrecs[-1].out_qs)
+                for node in subgraph.nodes():
+                    G.quantization.move_to_fusion(node, pnode)
+                G.quantization[NodeId(pnode)] = prec
+        return pnode
diff --git a/tools/nntool/graph/matches/match_gap_pool.py b/tools/nntool/graph/matches/match_gap_pool.py
index 4ea4cf2f8..4b252e2bc 100644
--- a/tools/nntool/graph/matches/match_gap_pool.py
+++ b/tools/nntool/graph/matches/match_gap_pool.py
@@ -15,8 +15,16 @@
 
 import logging
 
-from graph.types import PoolingParameters, ActivationParameters, ConvFusionParameters
-from utils.graph import MatchNode, GraphView, Edge
+from graph.types import (ActivationParameters, ConvFusionParameters,
+                         PoolingParameters)
+from quantization.symmetric.symmetric_quantization import (
+    SymmetricQuantizationRecord, SymmetricScalableFilterQuantizationRecord)
+from quantization.multiplicative.mult_quantization import (
+    MultQuantizationRecord, MultScalableFilterQuantizationRecord)
+from quantization.float32.float32_quantization import (
+    Float32QuantizationRecord, Float32ScalableFilterQuantizationRecord)
+from utils.graph import Edge, GraphView, MatchNode
+from utils.node_id import NodeId
 
 from .matcher import DefaultMatcher
 
@@ -61,4 +69,18 @@ def replace_function(self, G: GraphView, subgraph: GraphView):
             (node.name for node in subgraph.nodes())))
         # simple node order is necessary because nodes() will not necessarily
         # be in order
-        return ConvFusionParameters(pool_name, "pool_active", subgraph)
+        pnode = ConvFusionParameters(pool_name, "pool_active", subgraph)
+        if G.quantization:
+            qrecs = G.quantization.get_all(subgraph.nodes())
+            if qrecs:
+                if isinstance(qrecs[0], (SymmetricQuantizationRecord, SymmetricScalableFilterQuantizationRecord)):
+                    prec = SymmetricQuantizationRecord(
+                        in_qs=qrecs[0].in_qs, out_qs=qrecs[-1].out_qs)
+                elif isinstance(qrecs[0], (MultQuantizationRecord, MultScalableFilterQuantizationRecord)):
+                    prec = MultQuantizationRecord(in_qs=qrecs[0].in_qs, out_qs=qrecs[-1].out_qs)
+                elif isinstance(qrecs[0], (Float32QuantizationRecord, Float32ScalableFilterQuantizationRecord)):
+                    prec = Float32QuantizationRecord(in_qs=qrecs[0].in_qs, out_qs=qrecs[-1].out_qs)
+                for node in subgraph.nodes():
+                    G.quantization.move_to_fusion(node, pnode)
+                G.quantization[NodeId(pnode)] = prec
+        return pnode
diff --git a/tools/nntool/graph/matches/match_op_activation.py b/tools/nntool/graph/matches/match_op_activation.py
new file mode 100644
index 000000000..e72bc4de6
--- /dev/null
+++ b/tools/nntool/graph/matches/match_op_activation.py
@@ -0,0 +1,89 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+from abc import abstractclassmethod
+
+from graph.nngraph import NNGraph
+from graph.types import (ActivationFusion, ActivationParameters,
+                         GlobalPoolParameters, MatrixAddParameters,
+                         MatrixMulParameters, PoolingParameters)
+from quantization.float32.float32_quantization import (
+    Float32QuantizationRecord, Float32ScalableFilterQuantizationRecord)
+from quantization.multiplicative.mult_quantization import (
+    MultQuantizationRecord, MultScalableFilterQuantizationRecord)
+from quantization.symmetric.symmetric_quantization import (
+    SymmetricQuantizationRecord, SymmetricScalableFilterQuantizationRecord)
+from utils.graph import Edge, GraphView, MatchNode
+from utils.node_id import NodeId
+
+from .matcher import DefaultMatcher
+
+LOG = logging.getLogger("nntool." + __name__)
+
+
+class MatchOpActivation(DefaultMatcher):
+
+    @abstractclassmethod
+    def valid_node_classes(cls):
+        pass
+
+    def match_function(self, G: GraphView):
+        sub = GraphView()
+        sub.add_node(MatchNode('0',
+                               matcher=lambda node:
+                               isinstance(node, self.valid_node_classes())))
+        sub.add_node(MatchNode('1', matcher=lambda node:
+                               isinstance(node, ActivationParameters)))
+        sub.add_edge(Edge('0', '1'))
+        return G.match_fragment(sub)
+
+    def replace_function(self, G: NNGraph, subgraph: GraphView):
+        nodes = list(subgraph.nodes())
+        pnode = ActivationFusion(nodes[0].name + "fusion", nodes[0].op_name + "_active", subgraph)
+        nodes[0].step_idx = 0
+        nodes[1].step_idx = 1
+        LOG.debug("fused nodes %s", ",".join(
+            (node.name for node in nodes)))
+        if G.quantization:
+            qrecs = G.quantization.get_all(subgraph.nodes())
+            if qrecs:
+                if isinstance(qrecs[0], (SymmetricQuantizationRecord, SymmetricScalableFilterQuantizationRecord)):
+                    prec = SymmetricQuantizationRecord(
+                        in_qs=qrecs[0].in_qs, out_qs=qrecs[-1].out_qs)
+                elif isinstance(qrecs[0], (MultQuantizationRecord, MultScalableFilterQuantizationRecord)):
+                    prec = MultQuantizationRecord(in_qs=qrecs[0].in_qs, out_qs=qrecs[-1].out_qs)
+                elif isinstance(qrecs[0], (Float32QuantizationRecord, Float32ScalableFilterQuantizationRecord)):
+                    prec = Float32QuantizationRecord(in_qs=qrecs[0].in_qs, out_qs=qrecs[-1].out_qs)
+                for node in subgraph.nodes():
+                    G.quantization.move_to_fusion(node, pnode)
+                G.quantization[NodeId(pnode)] = prec
+        return pnode
+
+
+class MatchOpActivationScaleKernels(MatchOpActivation):
+    NAME = 'fuse_op_activation_scale8'
+    DESCRIPTION = 'Fuse non-filter nodes and activations to match GAP AutoTiler SQ8 kernels'
+    @classmethod
+    def valid_node_classes(cls):
+        return (PoolingParameters, GlobalPoolParameters, MatrixAddParameters, MatrixMulParameters)
+
+
+class MatchOpActivationPow2Kernels(MatchOpActivation):
+    NAME = 'fuse_op_activation_pow2'
+    DESCRIPTION = 'Fuse non-filter nodes and activations to match GAP AutoTiler POW2 kernels'
+    @classmethod
+    def valid_node_classes(cls):
+        return (PoolingParameters, MatrixAddParameters, MatrixMulParameters)
diff --git a/tools/nntool/graph/matches/matches.py b/tools/nntool/graph/matches/matches.py
index c3c8b2f62..0b8193d08 100644
--- a/tools/nntool/graph/matches/matches.py
+++ b/tools/nntool/graph/matches/matches.py
@@ -13,24 +13,43 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program.  If not, see <https://www.gnu.org/licenses/>.
 
-from .remove_unused_concats import RemoveUnusedConcats
-from .match_gap_conv import MatchAllGapConv
-from .fuse_pad import MatchFusePad
+from .equalize_sym_mult_concats import \
+    EqualizeSymmetricMultiplicativeQuantivedConcats
 from .expand_transposes import ExpandTransposesMatcher
-from .move_activation import MoveActivationsMatcher
+from .find_missing_quantization import FindMissingQuantization
+from .fuse_pad import MatchFusePad
+from .match_external_bias import MatchExternalBias, MatchExternalBiasSQ8
+from .match_gap_conv import MatchAllGapConv
 from .match_gap_linear import MatchGapLinear
 from .match_gap_pool import MatchGapPool
-from .match_external_bias import MatchExternalBias
-from .matscale import FuseMatScalePair, FuseMatScale
-
 from .matcher import MatchGroup
+from .matscale import FuseMatScale, FuseMatScalePair
+from .move_activation import MoveActivationsMatcherScale8, MoveActivationsMatcherPow2
+from .propagate_softmax_sym_mult_qrec import PropagateSoftmaxSymQrec
+from .remove_noops import RemoveNoOPs
+from .remove_unused_concats import RemoveUnusedConcats
+from .find_asymmetric_quantization import FindAsymmetricQuantization
+from .match_op_activation import MatchOpActivationPow2Kernels, MatchOpActivationScaleKernels
+from .find_hsigmoid import MatchCloseHSigmoid, MatchFarHSigmoid
+from .remove_relus import RemoveRelusMatch
 
-ALL_MATCH_CLASSES = [MatchExternalBias, MatchFusePad, RemoveUnusedConcats,
-                     MoveActivationsMatcher, MatchAllGapConv, MatchGapPool,
-                     MatchGapLinear, ExpandTransposesMatcher, FuseMatScalePair, FuseMatScale]
-STD_MATCH_CLASSES = [MatchExternalBias, MatchFusePad, RemoveUnusedConcats,
-                     MoveActivationsMatcher, MatchAllGapConv, ExpandTransposesMatcher,
+ALL_MATCH_CLASSES = [RemoveRelusMatch, RemoveNoOPs, MatchExternalBias, MatchFusePad, RemoveUnusedConcats,
+                     FindMissingQuantization, MatchFarHSigmoid, MatchCloseHSigmoid, MoveActivationsMatcherScale8,
+                     MoveActivationsMatcherPow2,
+                     EqualizeSymmetricMultiplicativeQuantivedConcats,
+                     MatchAllGapConv, MatchGapPool, MatchOpActivationScaleKernels,
+                     MatchOpActivationPow2Kernels,
+                     MatchGapLinear, ExpandTransposesMatcher, FindAsymmetricQuantization,
                      FuseMatScalePair, FuseMatScale]
+POW2_MATCH_CLASSES = [RemoveRelusMatch, RemoveNoOPs, MatchExternalBias, MatchFusePad,
+                      RemoveUnusedConcats, FindMissingQuantization, MatchCloseHSigmoid,
+                      MoveActivationsMatcherPow2, ExpandTransposesMatcher, MatchAllGapConv, MatchGapLinear,
+                      EqualizeSymmetricMultiplicativeQuantivedConcats]
+SCALE8_MATCH_CLASSES = [RemoveRelusMatch, RemoveNoOPs, MatchExternalBiasSQ8, MatchFusePad,
+                        RemoveUnusedConcats, FindMissingQuantization,
+                        MatchFarHSigmoid, MatchCloseHSigmoid, MoveActivationsMatcherScale8, ExpandTransposesMatcher,
+                        MatchAllGapConv, MatchGapLinear, MatchOpActivationScaleKernels, PropagateSoftmaxSymQrec,
+                        EqualizeSymmetricMultiplicativeQuantivedConcats]
 
 FUSION_LIST = [((match_class.NAME, match_class.DESCRIPTION), match_class())
                for match_class in ALL_MATCH_CLASSES]
@@ -40,16 +59,25 @@ def get_fusions():
     return [(match_class.NAME, match_class.DESCRIPTION) for match_class in ALL_MATCH_CLASSES]
 
 
-def get_std_match_group():
+def get_pow2_match_group():
+    return MatchGroup(
+        *[match_class() for match_class in POW2_MATCH_CLASSES],
+        identity="pow2_match_group"
+    )
+
+
+def get_scale8_match_group():
     return MatchGroup(
-        *[match_class() for match_class in STD_MATCH_CLASSES],
+        *[match_class() for match_class in SCALE8_MATCH_CLASSES],
         identity="std_match_group"
     )
 
 
 def get_fusion(name):
-    if name == "std_match_group":
-        return get_std_match_group()
+    if name in ["pow2_match_group"]:
+        return get_pow2_match_group()
+    if name in ["std_match_group", "scale8_match_group"]:
+        return get_scale8_match_group()
     match_class = next((match_class for match_class in ALL_MATCH_CLASSES
                         if match_class.NAME == name), None)
     if match_class is not None:
diff --git a/tools/nntool/graph/matches/move_activation.py b/tools/nntool/graph/matches/move_activation.py
index 37ebf0627..29ef7bfa0 100644
--- a/tools/nntool/graph/matches/move_activation.py
+++ b/tools/nntool/graph/matches/move_activation.py
@@ -13,19 +13,17 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program.  If not, see <https://www.gnu.org/licenses/>.
 import logging
+from copy import deepcopy
+from graph.types import (ActivationParameters, ConcatParameters,
+                         Conv2DParameters, FcParameters, GlobalPoolParameters,
+                         MatrixAddParameters, MatrixMulParameters,
+                         PoolingParameters, ReshapeParameters,
+                         TransposeParameters)
+from utils.graph import Edge, GraphView
+from utils.node_id import NodeId
 
-from utils.graph import GraphView, Edge
-
-from ..types.conv2d import Conv2DParameters
-from ..types.linear import FcParameters
-from ..types.others import (ActivationParameters, ConcatParameters,
-                            ReshapeParameters, TransposeParameters)
-from ..types.pooling import PoolingParameters
 from .matcher import Matcher
 
-VALID_FUSIONS = (Conv2DParameters, FcParameters, PoolingParameters)
-VALID_NODES_TO_PASS = (ReshapeParameters, TransposeParameters)
-
 LOG = logging.getLogger("nntool." + __name__)
 
 
@@ -34,9 +32,9 @@ class LocationNotFoundError(Exception):
 
 
 class MoveActivationsMatcher(Matcher):
-    NAME = "move_activations"
-    DESCRIPTION = "Tries to move activations so they are after layers that they can be fused with. \
-        Should be run before match_gap_* fusions."
+
+    ValidNodesToPass = None
+    ValidFusions = None
 
     def find_home_for_activation(self,
                                  G,
@@ -52,18 +50,20 @@ def find_home_for_activation(self,
                 yield from self.find_home_for_activation(G,
                                                          activation,
                                                          edge=in_edge)
-        elif isinstance(edge.from_node, VALID_NODES_TO_PASS):
+        elif isinstance(edge.from_node, self.ValidNodesToPass):
             in_edge = G.in_edges(edge.from_node.name)[0]
             yield from self.find_home_for_activation(G,
                                                      activation,
                                                      edge=in_edge)
-        elif isinstance(edge.from_node, VALID_FUSIONS):
+        elif isinstance(edge.from_node, self.ValidFusions):
             yield edge
         else:
             raise LocationNotFoundError()
 
     @staticmethod
     def move_activation(G, activation, edges):
+        nid = NodeId(activation)
+        qrec = G.quantization[nid] if G.quantization and nid in G.quantization else None
         ain_edge = G.in_edges(activation.name)[0]
         aout_edge = G.out_edges(activation.name)[0]
         G.remove(activation)
@@ -83,12 +83,19 @@ def move_activation(G, activation, edges):
             new_activation.out_dims = [edge.to_node.in_dims[edge.to_idx].clone()]
             G.insert_node(new_activation, edge.from_node, edge.to_node,
                           from_idx=edge.from_idx, to_idx=edge.to_idx)
+            if qrec:
+                from_qrec = G.quantization[NodeId(edge.from_node)]
+                new_qrec = deepcopy(qrec)
+                new_qrec.in_qs[0] = deepcopy(from_qrec.out_qs[edge.from_idx])
+                G.quantization[NodeId(new_activation)] = new_qrec
+                G.quantization.propagate(
+                    G, new_activation, new_edge.from_node, qtype=new_qrec.out_qs[0])
 
     def match(self, G: GraphView, set_identity: bool = True):
         activations = [node for node in G.nodes(
         ) if isinstance(node, ActivationParameters)]
         activations = filter(lambda n: not isinstance(
-            G.in_edges(n.name)[0].from_node, VALID_FUSIONS), activations)
+            G.in_edges(n.name)[0].from_node, self.ValidFusions), activations)
         can_be_moved = []
         for activation in activations:
             try:
@@ -104,6 +111,20 @@ def match(self, G: GraphView, set_identity: bool = True):
             self.set_identity(G)
 
 
-# Find activation
-# check node in front
-# if it isn't conv, linear or pool
+class MoveActivationsMatcherScale8(MoveActivationsMatcher):
+    NAME = "move_activations_scale8"
+    DESCRIPTION = "Tries to move activations so they are after layers that they can be fused with. \
+        Should be run before match_gap_* fusions. Compatible with AutoTiler SQ8 kernels."
+
+    ValidNodesToPass = (ReshapeParameters, TransposeParameters)
+    ValidFusions = (Conv2DParameters, FcParameters, PoolingParameters, PoolingParameters,
+                    GlobalPoolParameters, MatrixAddParameters, MatrixMulParameters)
+
+
+class MoveActivationsMatcherPow2(MoveActivationsMatcher):
+    NAME = "move_activations_pow2"
+    DESCRIPTION = "Tries to move activations so they are after layers that they can be fused with. \
+        Should be run before match_gap_* fusions. Compatible with AutoTiler POW2 kernels."
+
+    ValidNodesToPass = (ReshapeParameters, TransposeParameters)
+    ValidFusions = (Conv2DParameters, FcParameters, PoolingParameters)
diff --git a/tools/nntool/graph/matches/propagate_softmax_sym_mult_qrec.py b/tools/nntool/graph/matches/propagate_softmax_sym_mult_qrec.py
new file mode 100644
index 000000000..d1b535f71
--- /dev/null
+++ b/tools/nntool/graph/matches/propagate_softmax_sym_mult_qrec.py
@@ -0,0 +1,45 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+from graph.matches.matcher import Matcher
+from graph.types import SoftMaxParameters, OutputParameters
+from quantization.multiplicative.mult_quantization import MultQuantizationRecord
+from utils.graph import GraphView
+from utils.node_id import NodeId
+from .equalize_sym_mult_concats import propagate_qtype_up
+
+class PropagateSoftmaxSymQrec(Matcher):
+    NAME = "propagate_softmax_sym_qrec"
+    DESCRIPTION = """Set input qrec of softmaxes to pow2 and propagate up"""
+
+    def match(self, G: GraphView, set_identity: bool = True):
+        if not G.quantization:
+            return
+        softmaxes = [node for node in G.nodes() if isinstance(node, SoftMaxParameters)]
+        qrecs = [G.quantization[NodeId(node)] for node in softmaxes]
+        if not all(isinstance(qrec, MultQuantizationRecord) for qrec in qrecs):
+            return
+        for softmax, qrec in zip(softmaxes, qrecs):
+            in_q = qrec.in_qs[0]
+            in_q.scale_to_pow2()
+            for edge in G.in_edges(softmax.name):
+                propagate_qtype_up(G, in_q, edge)
+            for edge in G.out_edges(softmax.name):
+                assert isinstance(edge.to_node, OutputParameters), "Softmax is supported only at the end of the graph"
+                out_qrec = G.quantization[NodeId(edge.to_node)]
+                out_qrec.in_qs[0] = qrec.out_qs[0]
+                out_qrec.out_qs[0] = qrec.out_qs[0]
+
+        if set_identity:
+            self.set_identity(G)
diff --git a/tools/nntool/graph/matches/remove_noops.py b/tools/nntool/graph/matches/remove_noops.py
new file mode 100644
index 000000000..e1bd5cd68
--- /dev/null
+++ b/tools/nntool/graph/matches/remove_noops.py
@@ -0,0 +1,33 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from utils.graph import GraphView, MatchNode, Node, Edge
+from graph.types import NoOPParameters
+from .matcher import DefaultMatcher
+
+class NoOPMatcher(MatchNode):
+    def _match(self, G: GraphView, node: Node, edge: Edge):
+        return isinstance(node, NoOPParameters)
+
+class RemoveNoOPs(DefaultMatcher):
+    NAME = "remove_noops"
+    DESCRIPTION = "Remove noop nodes"
+    def match_function(self, G: GraphView):
+        sub = GraphView()
+        sub.add_node(NoOPMatcher('0'))
+        return G.match_fragment(sub)
+
+    def replace_function(self, G: GraphView, subgraph: GraphView):
+        return None
diff --git a/tools/nntool/graph/matches/remove_relus.py b/tools/nntool/graph/matches/remove_relus.py
new file mode 100644
index 000000000..e80571267
--- /dev/null
+++ b/tools/nntool/graph/matches/remove_relus.py
@@ -0,0 +1,121 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from graph.types import (ConstantInputParameters, HSigmoidActivationParameters,
+                         MatrixAddParameters, MatrixDivParameters,
+                         MatrixMulParameters, ReluActivationParameters,
+                         ReshapeParameters, TransposeParameters, PoolingParameters,
+                         ConcatParameters)
+from utils.graph import Edge, GraphView
+from utils.node_id import NodeId
+from .matcher import Matcher
+
+def reduce_edges(in_edges, visited_edges):
+    status = [None, None]
+    for edge in in_edges:
+        edge_rec = visited_edges.get(edge)
+        if edge_rec is None:
+            return None
+        if edge_rec[0] is False:
+            return [False, False]
+        status[0] = True
+        if edge_rec[1] is False:
+            status[1] = False
+        elif status[1] is None or (status[1] is not False and edge_rec[1] > status[1]):
+            status[1] = edge_rec[1]
+    return status
+
+
+def find_redundant_relus(G, node, visited_edges):
+    # status 0 is relued
+    # status 1 is upper bound
+    status = reduce_edges(G.in_edges(node.name), visited_edges)
+    if status is None:
+        return []
+    nodes_to_remove = []
+    if isinstance(node, ReluActivationParameters):
+        if status[0]:
+            # this relu has an upper bound
+            if node.upper_bound is not None:
+                # if we are already relued less than or equal to that bound
+                if status[1] is not False:
+                    if status[1] <= node.upper_bound:
+                        # remove this relu
+                        nodes_to_remove.append(node)
+                    else:
+                        status[1] = node.upper_bound
+                else:
+                    # new bound
+                    status[1] = node.upper_bound
+            else:
+                # we're already relued so this is redundant
+                nodes_to_remove.append(node)
+                if node.upper_bound is not None:
+                    if status[1] is False or status[1] > node.upper_bound:
+                        status[1] = node.upper_bound
+        else:
+            status[0] = True
+            if node.upper_bound is not None:
+                status[1] = node.upper_bound
+    elif isinstance(node, HSigmoidActivationParameters):
+        status[0] = True
+        if status[1] is None or status[1] > 1:
+            status[1] = 1
+    elif isinstance(node, (MatrixAddParameters, MatrixDivParameters, MatrixMulParameters)):
+        status[1] = False
+    elif not isinstance(node, (ConstantInputParameters, ReshapeParameters, TransposeParameters, PoolingParameters, ConcatParameters)):
+        status = [False, False]
+    for edge in G.out_edges(node.name):
+        visited_edges[edge] = status
+        nodes_to_remove += find_redundant_relus(G, edge.to_node, visited_edges)
+    return nodes_to_remove
+
+class RemoveRelusMatch(Matcher):
+    NAME = 'remove_relus'
+    DESCRIPTION = 'Finds redundant relus in graph'
+    def match(self, G: GraphView, set_identity: bool = True):
+        visited_edges = {}
+        nodes_to_remove = []
+        for node in G.inputs():
+            # check if constantinput. if is then check if positive and check max value
+            if isinstance(node, ConstantInputParameters):
+                if node.value is not None:
+                    if G.has_quantized_parameters:
+                        qrec = G.quantization[NodeId(node)]
+                        qtype = qrec.out_qs[0]
+                        if hasattr(qtype, 'wrapped'):
+                            qtype = qtype.wrapped
+                        val = qtype.dequantize(node.value)
+                    else:
+                        val = node.value
+                    if val.min() >= 0:
+                        status = (True, val.max())
+                    else:
+                        status = (False, False)
+            else:
+                status = (False, False)
+
+            for edge in G.out_edges(node.name):
+                visited_edges[edge] = status
+                nodes_to_remove += find_redundant_relus(G, edge.to_node, visited_edges)
+        for node in nodes_to_remove:
+            # Only relus so only one in edge
+            in_edge = G.in_edges(node.name)[0]
+            for edge in G.out_edges(node.name):
+                G.add_edge(Edge(from_node=in_edge.from_node,
+                                from_idx=in_edge.from_idx,
+                                to_node=edge.to_node,
+                                to_idx=edge.to_idx))
+            G.remove(node)
diff --git a/tools/nntool/graph/nngraph.py b/tools/nntool/graph/nngraph.py
index af4d63e5f..2042aa008 100644
--- a/tools/nntool/graph/nngraph.py
+++ b/tools/nntool/graph/nngraph.py
@@ -17,40 +17,55 @@
 import os
 from typing import Generator, Sequence, Union
 
+from graph.dim import Dim
+from graph.dump_tensor import PrintDumper, dump_tensor
+from graph.graph_identity import GraphIdentity
+from graph.manipulations import (add_dimensions, adjust_order,
+                                 balance_all_filters, balance_filter,
+                                 calculate_liveness)
+from graph.types import (ConstantInputParameters, ConvFusionParameters,
+                         InputBaseParameters, InputParameters,
+                         MultiplicativeBiasParameters, OutputParameters)
+from quantization.quantization_set import QuantizationSet
 from utils.graph import Graph, Node
 from utils.json_serializable import JsonSerializable
 from utils.node_id import NodeId
-
-from .dim import Dim
-from .dump_tensor import PrintDumper, dump_tensor
-from .graph_identity import GraphIdentity
-from .manipulations import add_dimensions, adjust_order, calculate_liveness, balance_filter, balance_all_filters
-from .types import (ConstantInputParameters, FilterParameters,
-                    ConvFusionParameters, InputBaseParameters, InputParameters,
-                    OutputParameters, MultiplicativeBiasParameters)
+from interpreter.commands.imageformat import insert_formatter
 
 LOG = logging.getLogger("nntool." + __name__)
 
+
 class NNGraphError(Exception):
     pass
 
+
 class GraphStepsNotCalculatedError(NNGraphError):
     pass
 
-class NNGraphAttributeChanges(JsonSerializable):
+
+class NNGraphChanges(JsonSerializable):
     def __init__(self, init=None):
         if init is not None:
             self._changes = init['changes']
+            self._image_format = init.get('image_format') or {}
             return
         self._changes = []
+        self._image_format = {}
 
     def _encapsulate(self):
-        return {'changes': self._changes}
+        return {'changes': self._changes, 'image_format': self._image_format}
 
     @classmethod
     def _dencapsulate(cls, val):
         return cls(init=val)
 
+    def image_format(self, input_node_name, formatter, normalizer):
+        if formatter is None and normalizer is None:
+            if input_node_name in self._image_format:
+                del self._image_format[input_node_name]
+            return
+        self._image_format[input_node_name] = {"formatter": formatter, "normalizer": normalizer}
+
     def modify(self, node, attr, val, fnode=None):
         nid = NodeId(node, fnode)
         self._changes.append({
@@ -66,6 +81,14 @@ def replay(self, G):
         for change in self._changes:
             node = change['nid'].get_node(G)
             setattr(node, change['attr'], change['val'])
+        graph_changed = False
+        for input_node_name, params in self._image_format.items():
+            graph_changed = True
+            out_edge = G.out_edges(input_node_name)[0]
+            insert_formatter(G, out_edge, params["formatter"], params["normalizer"])
+        if graph_changed:
+            G.add_dimensions()
+
 
 class NNGraphState():
     def __init__(self):
@@ -103,12 +126,13 @@ def has_quantization_info(self):
     def has_quantization_info(self, val):
         self._state['quantization'] = val
 
+
 class NNGraph(Graph):
-    def __init__(self, model=None, name=None,
-                 filename=None, value_cache=None,
+    def __init__(self,
+                 model=None,
+                 name=None,
+                 filename=None,
                  constant_store=None):
-        # TODO - Value caching disabled
-        del value_cache
         super().__init__()
 
         self.model = model
@@ -122,14 +146,11 @@ def __init__(self, model=None, name=None,
 
         self.load_function = None
         self.graphname = name
-        # disable value cache for now
-#        self.value_cache = value_cache
-        self.value_cache = None
         self.constant_store = constant_store
         self.graph_identity = GraphIdentity(filename)
         self._info = {
             'quantization': None,
-            'changes': NNGraphAttributeChanges()
+            'changes': NNGraphChanges()
         }
 
     @property
@@ -141,13 +162,21 @@ def info(self, val):
         self._info = val
 
     @property
-    def quantization(self):
-        return self._info['quantization']
+    def quantization(self) -> QuantizationSet:
+        return self._info.get('quantization')
 
     @quantization.setter
-    def quantization(self, val):
+    def quantization(self, val: QuantizationSet):
         self._info['quantization'] = val
 
+    @property
+    def has_quantized_parameters(self) -> bool:
+        return self._info.get('has_quantized_parameters')
+
+    @has_quantized_parameters.setter
+    def has_quantized_parameters(self, val: bool):
+        self._info['has_quantized_parameters'] = val
+
     @property
     def changes(self):
         return self._info['changes']
@@ -244,8 +273,8 @@ def nodes_iterator(self, yield_fusions=True):
             else:
                 yield (step_idx, node, None, None)
 
-    def adjust_order(self, reshape_weights=True):
-        adjust_order(self, reshape_weights)
+    def adjust_order(self, reshape_weights=True, postprocess=True):
+        adjust_order(self, reshape_weights=reshape_weights, postprocess=postprocess)
         LOG.info("adjusted order")
         self.graph_identity.is_adjusted = True
 
@@ -263,14 +292,16 @@ def balance_filters(self, step_idx=None, precision_threshold=0.20):
             if isinstance(pnode, ConvFusionParameters):
                 fnode = pnode.contained_filters()
                 if len(fnode) > 1:
-                    raise NotImplementedError("fusions with more than one contained filter is not supported")
+                    raise NotImplementedError(
+                        "fusions with more than one contained filter is not supported")
                 fnode = fnode[0]
                 node = fnode
             else:
                 node = pnode
                 fnode = None
             if not isinstance(node, MultiplicativeBiasParameters):
-                raise ValueError("weights can only be balanced on nodes that support multiplicative bias")
+                raise ValueError(
+                    "weights can only be balanced on nodes that support multiplicative bias")
             balance_filter(pnode, fnode=fnode, G=self)
         else:
             balance_all_filters(self, precision_threshold=precision_threshold)
@@ -282,11 +313,12 @@ def print_step(step, outs):
             print(node.name)
             for out_idx, out in enumerate(outs):
                 dims = node.out_dims[out_idx]
-                if order is not None and order != dims.order:
+                if order is not None and dims.is_named and order != dims.order and all(k in dims.order
+                                                                                       for k in order):
                     transpose = dims.transpose_to_order(order)
                     out = out.transpose(transpose)
                 if channel is not None:
-                    out = out[channel].reshape((1, dims.h, dims.w))
+                    out = out[channel:channel+1:1, ...]
                 dump_tensor(out, PrintDumper(out, width=width, precision=precision))
 
         if limit is not None:
diff --git a/tools/nntool/graph/types/__init__.py b/tools/nntool/graph/types/__init__.py
index acbc03696..831c25164 100644
--- a/tools/nntool/graph/types/__init__.py
+++ b/tools/nntool/graph/types/__init__.py
@@ -13,21 +13,31 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program.  If not, see <https://www.gnu.org/licenses/>.
 
-from .base import (EdgeParameters, FilterLikeParameters, FilterParameters,
-                   MultiplicativeBiasParameters, NNEdge, NodeOptions,
-                   Parameters, SameNumberOfDimensionsForInputs,
-                   SingleInputAndOutput)
-from .conv2d import Conv2DParameters
-from .linear import FcParameters
-from .others import (ActivationParameters, ConcatParameters,
-                     ConstantInputParameters, ConvFusionParameters, FusionBase,
-                     GlobalPoolParameters, GroupParameters,
-                     InputBaseParameters, InputParameters,
-                     MatScaleFusionParameters, MatrixAddParameters,
-                     MatrixBroadcastedLinearOpParameters, MatrixDivParameters,
-                     MatrixMulParameters, MatrixSubParameters,
-                     OutputParameters, PadParameters, ReshapeParameters,
-                     SoftMaxParameters, Transposable, TransposeParameters,
-                     UnconvertedOpParameters, UnexecutableOpParameters,
-                     UnknownOpParameters, UpsampleParameters, YoloParameters)
-from .pooling import PoolingParameters
+from graph.types.activations import (ActivationParameters,
+                                     HSigmoidActivationParameters,
+                                     HSwishActivationParameters,
+                                     LeakyActivationParameters,
+                                     ReluActivationParameters)
+from graph.types.base import (EdgeParameters, FilterLikeParameters,
+                              FilterParameters, MultiplicativeBiasParameters,
+                              NNEdge, NodeOptions, Parameters,
+                              SameNumberOfDimensionsForInputs,
+                              SingleInputAndOutput)
+from graph.types.conv2d import Conv2DParameters
+from graph.types.fusions import (ActivationFusion, ConvFusionParameters,
+                                 FusionBase, MatScaleFusionParameters)
+from graph.types.linear import FcParameters
+from graph.types.others import (ConcatParameters, ConstantInputParameters,
+                                GlobalPoolParameters, GroupParameters,
+                                ImageFormatParameters, InputBaseParameters,
+                                InputParameters, MatrixAddParameters,
+                                MatrixBroadcastedLinearOpParameters,
+                                MatrixDivParameters, MatrixMulParameters,
+                                MatrixSubParameters, NoOPParameters,
+                                OutputParameters, PadParameters,
+                                ReshapeParameters, SoftMaxParameters,
+                                Transposable, TransposeParameters,
+                                UnconvertedOpParameters,
+                                UnexecutableOpParameters, UnknownOpParameters,
+                                UpsampleParameters, YoloParameters)
+from graph.types.pooling import PoolingParameters
diff --git a/tools/nntool/graph/types/activations.py b/tools/nntool/graph/types/activations.py
new file mode 100644
index 000000000..fcd873bbf
--- /dev/null
+++ b/tools/nntool/graph/types/activations.py
@@ -0,0 +1,156 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+from .base import NoSizeChangeParameters, SingleInputAndOutput
+
+LOG = logging.getLogger("nntool." + __name__)
+
+#pylint: disable=abstract-method
+class ActivationParameters(NoSizeChangeParameters, SingleInputAndOutput):
+
+    def __init__(self, name):
+        super(ActivationParameters, self).__init__(name)
+
+    @classmethod
+    def get_activation(cls, activation_type: str, name: str):
+        if activation_type == "hsigmoid":
+            return HSigmoidActivationParameters(name)
+        if activation_type == "relu":
+            return ReluActivationParameters(name)
+        if activation_type == "relu6":
+            return ReluActivationParameters(name, upper_bound=6)
+        if activation_type == "hswish":
+            return HSwishActivationParameters(name)
+        raise ValueError("don't know how to create %s"%activation_type)
+
+    @property
+    def activation(self):
+        return self.op_name
+
+    def get_parameter_size(self):
+        return 0
+
+    def compute_load(self):
+        return 0
+
+    def __str__(self):
+        return "Activation {} {}".format(
+            self.op_name,
+            self.at_options
+        )
+
+class ReluActivationParameters(ActivationParameters):
+    def __init__(self, name, lower_bound=0, upper_bound=None):
+        super(ReluActivationParameters, self).__init__(name)
+        self._lower_bound = lower_bound
+        self._upper_bound = upper_bound
+
+    @property
+    def op_name(self):
+        if self._lower_bound == 0:
+            if self._upper_bound == 6:
+                return "relu6"
+            if self._upper_bound is None:
+                return "relu"
+            return "relun"
+        return "relunm"
+
+    @property
+    def lower_bound(self):
+        return self._lower_bound
+
+    @lower_bound.setter
+    def lower_bound(self, val):
+        self._lower_bound = val
+
+    @property
+    def upper_bound(self):
+        return self._upper_bound
+
+    @upper_bound.setter
+    def upper_bound(self, val):
+        self._upper_bound = val
+
+    def clone(self, name, groupn=None):
+        return ReluActivationParameters(name, self._lower_bound, self._upper_bound)
+
+    @property
+    def can_equalize(self):
+        return self.op_name == "relu"
+
+class LeakyActivationParameters(ActivationParameters):
+    def __init__(self, name, leak_factor=0.01):
+        super(LeakyActivationParameters, self).__init__(name)
+        self._leak_factor = leak_factor
+
+    @property
+    def leak_factor(self):
+        return self._leak_factor
+
+    @property
+    def op_name(self):
+        return "leaky"
+
+    def clone(self, name, groupn=None):
+        return LeakyActivationParameters(name, self._leak_factor)
+
+    @property
+    def can_equalize(self):
+        return False
+
+class HSigmoidActivationParameters(ActivationParameters):
+    def __init__(self, name, offset=3):
+        super(HSigmoidActivationParameters, self).__init__(name)
+        self._offset = offset
+
+    @property
+    def offset(self):
+        return self._offset
+
+    @offset.setter
+    def offset(self, val):
+        self._offset = val
+
+    @property
+    def op_name(self):
+        return "hsigmoid"
+
+    def clone(self, name, groupn=None):
+        return HSigmoidActivationParameters(name)
+
+    @property
+    def can_equalize(self):
+        return False
+
+    def __str__(self):
+        return "Activation {} offset={} {}".format(
+            self.op_name,
+            self.offset,
+            self.at_options
+        )
+
+class HSwishActivationParameters(ActivationParameters):
+    @property
+    def op_name(self):
+        return "hswish"
+
+    def clone(self, name, groupn=None):
+        return HSwishActivationParameters(name)
+
+    @property
+    def can_equalize(self):
+        return False
diff --git a/tools/nntool/graph/types/base.py b/tools/nntool/graph/types/base.py
index ecf6a97dd..26b5295cb 100644
--- a/tools/nntool/graph/types/base.py
+++ b/tools/nntool/graph/types/base.py
@@ -19,7 +19,7 @@
 
 from utils.graph import Edge, Node
 from utils.option_list import OptionList
-from generation.kernel_parameters import GenCtrl, CTRL_FEATURES
+from generation.at_types.gen_ctrl import GenCtrl, CTRL_FEATURES
 
 LOG = logging.getLogger("nntool." + __name__)
 
@@ -65,7 +65,7 @@ def get_gen_ctrl(self):
 
     @property
     def valid_at_options(self):
-        return self.valid_at_options
+        return self._valid_at_options
 
     @property
     def at_options(self):
@@ -148,6 +148,10 @@ def out_dims(self, value):
     def get_parameter_size(self):
         pass
 
+    @abstractmethod
+    def get_output_size(self, in_dims):
+        pass
+
     @property
     @abstractmethod
     def can_equalize(self):
@@ -166,7 +170,7 @@ def clone_dim_with_hints(self, dims, hint_dir="in"):
         assert hints is None or len(dims) == len(hints), "incorrect dimensions length"
         cloned_dims = []
         for dim_idx, dim in enumerate(dims):
-            if dim.is_named:
+            if dim.is_named and all(k in dim.keys for k in ['c', 'h', 'w']):
                 cloned_dims.append(dim.clone(['c', 'h', 'w']))
             else:
                 cloned_dim = dim.clone()
diff --git a/tools/nntool/graph/types/conv2d.py b/tools/nntool/graph/types/conv2d.py
index 91a8e5814..0f0604a08 100644
--- a/tools/nntool/graph/types/conv2d.py
+++ b/tools/nntool/graph/types/conv2d.py
@@ -112,6 +112,10 @@ def get_parameter_size(self):
             return 0
         return self.get_weights_count() + self.get_bias_count()
 
+    @property
+    def at_options(self):
+        return self._at_options
+
     def get_output_size(self, in_dims):
 
         assert len(in_dims) == 1,\
@@ -123,7 +127,7 @@ def get_output_size(self, in_dims):
             "The number of groups cannot be larger than the amount of input channels"
         self.filter.in_c = in_dims.c // self.groups
         if self.padding.is_same:
-            self.padding.calculate_same(in_dims, self.filter, self.stride)
+            self.padding.calculate_same(in_dims, self.filter, self.stride, dilation=self.dilation)
         filter_d = self.filter + (self.filter - 1) * (self.dilation - 1)
 
         pad = self.padding.height_width()
diff --git a/tools/nntool/graph/types/fusions.py b/tools/nntool/graph/types/fusions.py
new file mode 100644
index 000000000..93f94f4d4
--- /dev/null
+++ b/tools/nntool/graph/types/fusions.py
@@ -0,0 +1,116 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+from ..dim import Dim
+from .base import (Parameters, NodeOptions, FilterParameters, SingleInputAndOutput)
+
+LOG = logging.getLogger("nntool." + __name__)
+
+class FusionBase(Parameters):
+    fusion_op_name = "!!NOT SET!!"
+
+    def __init__(self, name, fusion_type, subgraph):
+        super(FusionBase, self).__init__(name)
+        self._subgraph = subgraph
+        nodes = self.contained_nodes()
+        self.in_dims_hint = nodes[0].in_dims_hint
+        self.out_dims_hint = nodes[-1].out_dims_hint
+        self.fusion_type = fusion_type
+
+    @property
+    def op_name(self):
+        return self.fusion_op_name + '_' + self.fusion_type
+
+    @property
+    def subgraph(self):
+        return self._subgraph
+
+    def contained_nodes(self):
+        return [node for node in self.subgraph.dfs()]
+
+    def get_contained_node(self, name):
+        return next((n for n in self.contained_nodes() if n.name == name), None)
+
+    @property
+    def can_equalize(self):
+        return all([param.can_equalize for param in self.contained_nodes()])
+
+    def clone(self, name, groupn=None):
+        return self.__class__(name, self.fusion_type, self._subgraph)
+
+    def get_parameter_size(self):
+        return 0
+
+    def get_output_size(self, in_dims):
+
+        out_dims = in_dims
+
+        for node in self.contained_nodes():
+            out_dims = node.get_output_size(out_dims)
+
+        return out_dims
+
+    def __str__(self):
+        return "{}".format(", ".join([str(node).strip() for node in self.contained_nodes()]))
+
+
+class MatScaleFusionParameters(FusionBase):
+    fusion_op_name = "matscale"
+
+    def __init__(self, *args, activation=None, **kwargs):
+        self.activation = activation
+        super(MatScaleFusionParameters, self).__init__(*args, **kwargs)
+
+    def get_output_size(self, in_dims):
+        return [Dim.broadcast(in_dims)]
+
+class ConvFusionParameters(FusionBase, SingleInputAndOutput):
+    '''Fusion of operators. At present restricted to single input and output but
+    this could be removed perhaps'''
+
+    fusion_op_name = "conv_fusion"
+
+    def _init_at_options(self):
+        if self._at_options is None:
+            self._at_options = NodeOptions(None)
+        self._at_options.extend(*[node.at_options for node in self.contained_nodes()])
+
+    @property
+    def at_options(self):
+        self._init_at_options()
+        return self._at_options
+
+    @at_options.setter
+    def gen_ctrl(self, val):
+        self._init_at_options()
+        self._at_options = val
+
+    def contained_filters(self):
+        return [x for x in self.contained_nodes() if isinstance(x, FilterParameters)]
+
+    def get_parameter_size(self):
+        return sum([node.get_parameter_size() for node in self.contained_nodes()])
+
+    def __str__(self):
+        return "{} {}".format(", ".join([str(node).strip() for node in self.contained_nodes()]), self.gen_ctrl or "")
+
+    def compute_load(self):
+        return sum([load if load else 0 for load in [node.compute_load()
+                                                     for node in self.contained_nodes()]])
+
+class ActivationFusion(FusionBase):
+    fusion_op_name = "activation_fusion"
diff --git a/tools/nntool/graph/types/linear.py b/tools/nntool/graph/types/linear.py
index 39518d81f..91547810c 100644
--- a/tools/nntool/graph/types/linear.py
+++ b/tools/nntool/graph/types/linear.py
@@ -16,16 +16,15 @@
 import logging
 
 from ..dim import Dim
-from .base import FilterParameters, SingleInputAndOutput
+from .base import MultiplicativeBiasParameters, SingleInputAndOutput
 
 LOG = logging.getLogger("nntool." + __name__)
 
-class FcParameters(FilterParameters, SingleInputAndOutput):
+class FcParameters(MultiplicativeBiasParameters, SingleInputAndOutput):
     op_name = "linear"
-    def __init__(self, name, **kwargs):
+    def __init__(self, *args, **kwargs):
 
-        super(FcParameters, self).__init__(name,
-                                           **kwargs)
+        super(FcParameters, self).__init__(*args, **kwargs)
         LOG.debug("created LINEAR %s", str(self))
 
     def get_parameter_size(self):
@@ -55,7 +54,7 @@ def clone(self, name, groupn=None):
         return FcParameters(name, filt=self.filter.clone(), has_bias=self.has_bias)
 
     def compute_load(self):
-        return self.in_dims[0].size() * self.filter.size()
+        return self.in_dims[0].size() * self.out_dims[0].c
 
     def __str__(self):
         return "F {} {}".format(self.filter, self.at_options or "")
diff --git a/tools/nntool/graph/types/others.py b/tools/nntool/graph/types/others.py
index e88a05ad6..245aaf04b 100644
--- a/tools/nntool/graph/types/others.py
+++ b/tools/nntool/graph/types/others.py
@@ -15,12 +15,15 @@
 
 import logging
 import sys
-from functools import reduce
 
-from ..dim import Dim
-from .base import (FilterParameters, NodeOptions, NoSizeChangeParameters,
-                   Parameters, SameNumberOfDimensionsForInputs,
-                   SensitiveToOrder, SingleInputAndOutput, Transposable)
+import numpy as np
+
+from graph.dim import Dim
+from utils.formatters import FORMAT_CHANGES, NORMALIZATIONS
+
+from .base import (NoSizeChangeParameters, Parameters,
+                   SameNumberOfDimensionsForInputs, SensitiveToOrder,
+                   SingleInputAndOutput, Transposable)
 
 LOG = logging.getLogger("nntool." + __name__)
 
@@ -127,6 +130,105 @@ def clone(self, name, groupn=None):
     #     self.out_q = get_quantization(self.activation_stats, None, self.out_q.bits * 2)
     #     return True
 
+class ImageFormatParameters(Parameters, SingleInputAndOutput, SensitiveToOrder):
+    op_name = "image_format"
+    NORMALIZATIONS = NORMALIZATIONS
+    FORMAT_CHANGES = FORMAT_CHANGES
+
+    def __init__(self, *args, norm_func=None, format_change=None, **kwargs):
+        self._norm_func = None
+        self._format_change = None
+        super(ImageFormatParameters, self).__init__(*args, **kwargs)
+        self.norm_func = norm_func
+        self.format_change = format_change
+
+    @property
+    def input_channels(self):
+        if self.format_change in ("RGB565_RGB888", "BW8", "BW16"):
+            return 1
+        if self.format_change in ("RGB888", "RGB16"):
+            return 3
+        return None
+
+    @property
+    def input_dtype(self):
+        if self.format_change == "RGB565_RGB888":
+            return np.uint16
+        if self.format_change in ("RGB888", "BW8", "BW16", "RGB16"):
+            return np.uint8
+        return None
+
+    @property
+    def output_channels(self):
+        if self.format_change in ("RGB565_RGB888", "RGB888", "RGB16"):
+            return 3
+        if self.format_change in ("BW8", "BW16"):
+            return 1
+        return None
+
+    @property
+    def output_dtype(self):
+        if self.norm_func in ("SHIFT_INT8", "OFFSET_INT8"):
+            return np.int8
+        if self.norm_func in "OUT_INT16":
+            return np.int16
+        return None
+
+    @property
+    def format_change(self):
+        # RGB565_RGB888
+        return self._format_change
+
+    @format_change.setter
+    def format_change(self, val):
+        val = val and val.upper()
+        if val is not None and val not in self.FORMAT_CHANGES:
+            raise ValueError("format change is not valid")
+        self._format_change = val
+
+    @property
+    def norm_func(self):
+        # None, "shift", "offset"
+        return self._norm_func
+
+    @norm_func.setter
+    def norm_func(self, val):
+        val = val and val.upper()
+        if val is not None and val not in self.NORMALIZATIONS:
+            raise ValueError("normalization is not valid")
+        self._norm_func = val
+
+    def get_parameter_size(self):
+        return 0
+
+    def get_output_size(self, in_dims):
+        assert len(in_dims) == 1
+        self.in_dims = self.clone_dim_with_hints(in_dims, hint_dir='in')
+        out_dim = self.clone_dim_with_hints(in_dims, hint_dir='out')[0]
+        if self.format_change == "RGB565_RGB888":
+            assert out_dim.is_named and out_dim.c == 1
+            out_dim.impose_order(self.out_dims_hint[0])
+            out_dim.c = 3
+        elif self.format_change in ("BW8", "BW16"):
+            assert out_dim.is_named and out_dim.c == 1
+            out_dim.impose_order(self.out_dims_hint[0])
+        elif self.format_change in ("RGB888", "RGB16"):
+            assert out_dim.is_named and out_dim.c == 3
+            out_dim.impose_order(self.out_dims_hint[0])
+        else:
+            raise ValueError("unknow format change")
+
+        return [out_dim]
+
+    @property
+    def can_equalize(self):
+        return False
+
+    def clone(self, name, groupn=None):
+        raise NotImplementedError()
+
+    def __str__(self):
+        return "FORMAT_CHANGE Fmt: {} Norm: {}".format(self.format_change, self.norm_func)
 
 class ConstantInputParameters(InputBaseParameters):
     op_name = "constant"
@@ -186,45 +288,6 @@ def clone(self, name, groupn=None):
         raise NotImplementedError()
 
 
-class ActivationParameters(NoSizeChangeParameters, SingleInputAndOutput):
-
-    def __init__(self, name, activation="relu", activation_params=None):
-        super(ActivationParameters, self).__init__(name)
-        self.activation = activation
-        self.activation_params = activation_params
-
-    @property
-    def op_name(self):
-        return self.activation
-
-    def get_parameter_size(self):
-        return 0
-
-    def clone(self, name, groupn=None):
-        return ActivationParameters(name, self.activation, self.activation_params)
-
-    @property
-    def can_equalize(self):
-        # Is leaky usable? Looks like it.
-        return self.activation == "relu" or self.activation == "leaky"\
-            or self.activation == "relu6" or self.activation == "relun"
-
-    def compute_load(self):
-        # TODO - Be more accurate with different activation types
-        return self.out_dims[0].size()
-
-    def activation_to_string(self):
-        if self.activation == "relun":
-            return "relun({})".format(self.activation_params)
-        return self.activation
-
-    def __str__(self):
-        return "Activation {} {}".format(
-            self.activation_to_string(),
-            self.at_options
-        )
-
-
 class TransposeParameters(Transposable, SingleInputAndOutput):
     op_name = "transpose"
 
@@ -242,24 +305,13 @@ def permute(self, val):
     def can_equalize(self):
         return False
 
-    def transpose_elements(self):
-        tin = self.transpose_in
-        elems = []
-        cur = []
-        for i in tin:
-            if len(cur) == 0 or cur[-1] + 1 == i:
-                cur.append(i)
-            else:
-                elems.append(cur)
-                cur = [i]
-        if len(cur) > 0:
-            elems.append(cur)
-        return elems
-
-    @property
-    def transpose_size(self):
-        dim = self.in_dims[0].shape
-        return [reduce(lambda x, y: x * dim[y], telem, 1) for telem in self.transpose_elements()]
+    def real_shape(self):
+        input_shape = self.in_dims[0].shape
+        cond_input_idx = [i for i, sz in enumerate(self.in_dims[0].shape) if sz != 1]
+        real_transpose = [i for i in self.transpose_in if i in cond_input_idx]
+        cond_input_shape = [input_shape[i] for i in cond_input_idx]
+        cond_transpose = [cond_input_idx.index(i) for i in real_transpose]
+        return tuple(cond_input_shape), tuple(cond_transpose)
 
     @property
     def transpose_dimension(self):
@@ -276,7 +328,7 @@ def transpose_out(self, val):
         self._transpose_in = val
 
     def get_output_size(self, in_dims):
-        self.in_dims = in_dims
+        self.in_dims = self.clone_dim_with_hints(in_dims)
         out_dim = in_dims[0].clone()
         if self.transpose_in:
             out_dim = out_dim.transpose(self.transpose_in)
@@ -318,7 +370,7 @@ def can_equalize(self):
     def get_output_size(self, in_dims):
         if in_dims[0].is_named and self._axis_hint:
             self._axis = in_dims[0].get_order_idx(self._axis_hint)
-        self.in_dims = in_dims
+        self.in_dims = self.clone_dim_with_hints(in_dims)
         if self.transpose_in:
             in_dims = [in_dim.clone().transpose(self.transpose_in) for in_dim in in_dims]
         out_dim = Dim.combine([in_dim for in_dim in in_dims], self.axis)
@@ -336,103 +388,6 @@ def __str__(self):
             self.at_options
         )
 
-class FusionBase(Parameters):
-    fusion_op_name = "!!NOT SET!!"
-
-    def __init__(self, name, fusion_type, subgraph):
-        super(FusionBase, self).__init__(name)
-        self._subgraph = subgraph
-        nodes = self.contained_nodes()
-        self.in_dims_hint = nodes[0].in_dims_hint
-        self.out_dims_hint = nodes[-1].out_dims_hint
-        self.fusion_type = fusion_type
-
-    @property
-    def op_name(self):
-        return self.fusion_op_name + '_' + self.fusion_type
-
-    @property
-    def subgraph(self):
-        return self._subgraph
-
-    def contained_nodes(self):
-        return [node for node in self.subgraph.dfs()]
-
-    def get_contained_node(self, name):
-        return next((n for n in self.contained_nodes() if n.name == name), None)
-
-    @property
-    def can_equalize(self):
-        return all([param.can_equalize for param in self.contained_nodes()])
-
-    def clone(self, name, groupn=None):
-        return self.__class__(name, self.fusion_type, self._subgraph)
-
-    def get_parameter_size(self):
-        return 0
-
-    def get_output_size(self, in_dims):
-
-        out_dims = in_dims
-
-        for node in self.contained_nodes():
-            out_dims = node.get_output_size(out_dims)
-
-        return out_dims
-
-    def __str__(self):
-        return "{}".format(", ".join([str(node).strip() for node in self.contained_nodes()]))
-
-
-class MatScaleFusionParameters(FusionBase):
-    fusion_op_name = "matscale"        
-
-    def __init__(self, *args, activation=None, **kwargs):
-        self.activation = activation
-        super(MatScaleFusionParameters, self).__init__(*args, **kwargs)
-
-    def get_output_size(self, in_dims):
-        return [Dim.broadcast(in_dims)]
-
-class ConvFusionParameters(FusionBase, SingleInputAndOutput):
-    '''Fusion of operators. At present restricted to single input and output but
-    this could be removed perhaps'''
-
-    fusion_op_name = "conv_fusion"
-
-    def _init_at_options(self):
-        if self._at_options is None:
-            self._at_options = NodeOptions(None)
-        self._at_options.extend(*[node.at_options for node in self.contained_nodes()])
-
-    @property
-    def at_options(self):
-        self._init_at_options()
-        return self._at_options
-
-    @at_options.setter
-    def gen_ctrl(self, val):
-        self._init_at_options()
-        self._at_options = val
-
-    def contained_filters(self):
-        return [x for x in self.contained_nodes() if isinstance(x, FilterParameters)]
-
-    def get_parameter_size(self):
-        return sum([node.get_parameter_size() for node in self.contained_nodes()])
-
-    def __str__(self):
-        return "{} {}".format(", ".join([str(node).strip() for node in self.contained_nodes()]), self.gen_ctrl or "")
-
-    # # Needs to be refactored out
-    # @property
-    # def params(self):
-    #     return self._nodes
-
-    def compute_load(self):
-        return sum([load if load else 0 for load in [node.compute_load()
-                                                     for node in self.contained_nodes()]])
-
 
 class GroupParameters(Parameters, SensitiveToOrder):
 
@@ -450,8 +405,8 @@ def get_parameter_size(self):
 
     def get_output_size(self, in_dims):
         assert len(in_dims) == 1
-        self.in_dims = in_dims
-        in_dims = in_dims[0]
+        self.in_dims = self.clone_dim_with_hints(in_dims)
+        in_dims = self.in_dims[0]
         assert in_dims.c % self.groups == 0
         out_edges = in_dims.c // self.groups
         out_c = in_dims.c // out_edges
@@ -482,6 +437,7 @@ def __init__(self, name, padding, in_dims_hint=None, out_dims_hint=None):
                                             in_dims_hint=in_dims_hint,
                                             out_dims_hint=out_dims_hint)
         self.padding = padding
+        self.pad_type = "zero"
 
     def get_parameter_size(self):
         return 0
@@ -555,7 +511,7 @@ def get_parameter_size(self):
     def get_output_size(self, in_dims):
 
         assert len(in_dims) == 1
-        self.in_dims = in_dims
+        self.in_dims = self.clone_dim_with_hints(in_dims)
         in_dims = in_dims[0]
 
         out_dim = in_dims.clone()
@@ -590,16 +546,17 @@ def __init__(self, *args, old_shape=None, shape=None, **kwargs):
         self._old_shape = old_shape
 
     def does_nothing(self):
-        return self.shape.shape == list(filter(lambda x: x != 1, self.old_shape.shape))
+        return self.shape.layout_shape == self.old_shape.layout_shape
 
     def get_parameter_size(self):
         return 0
 
     def get_output_size(self, in_dims):
         assert len(in_dims) == 1
-        self.in_dims = in_dims
-        in_dims = in_dims[0]
-        assert in_dims.size() == self.shape.size()
+        self.in_dims = self.clone_dim_with_hints(in_dims)
+        in_dim = in_dims[0]
+        self._old_shape = in_dim
+        assert in_dim.size() == self.shape.size(), "in shape does not match in size"
         out = self.shape.clone()
         if self.transpose_out:
             out.transpose(self.transpose_out)
@@ -677,8 +634,9 @@ def compute_load(self):
         return self.out_dims[0].size() * 2
 
     def get_output_size(self, in_dims):
-        max_idx, _ = max(enumerate(in_dims), key=lambda x: x[1].size())
-        return [in_dims[max_idx]]
+        self.in_dims = self.clone_dim_with_hints(in_dims)
+        max_idx, _ = max(enumerate(self.in_dims), key=lambda x: x[1].size())
+        return [self.in_dims[max_idx]]
 
     def __str__(self):
         return "{} {}".format(self.op_name, self.at_options)
@@ -730,6 +688,32 @@ def __str__(self):
 # pylint: disable=abstract-method
 
 
+class NoOPParameters(NoSizeChangeParameters, SingleInputAndOutput):
+    op_name = "noop"
+
+    def __init__(self, name, desc=""):
+        super(NoOPParameters, self).__init__(name)
+        self._desc = desc
+
+    def get_parameter_size(self):
+        return 0
+
+    @property
+    def can_equalize(self):
+        return False
+
+    def clone(self, name, groupn=None):
+        raise NotImplementedError()
+
+    def compute_load(self):
+        return 0
+
+    def __str__(self):
+        return "NOOP {}".format(
+            self._desc
+        )
+
+
 class UnexecutableOpParameters(Parameters):
     pass
 
@@ -750,8 +734,9 @@ def op_name(self):
     def get_output_size(self, in_dims):
         if self.indicated_outputs:
             return self.indicated_outputs
-        if len(in_dims) == 1:
-            return [in_dims[0]]
+        self.in_dims = self.clone_dim_with_hints(in_dims)
+        if len(self.in_dims) == 1:
+            return [self.in_dims[0]]
         return [Dim.unknown()]
 
     @property
@@ -775,8 +760,9 @@ def __init__(self, name, info):
         self.info = info
 
     def get_output_size(self, in_dims):
-        if len(in_dims) == 1:
-            return [in_dims[0]]
+        self.in_dims = self.clone_dim_with_hints(in_dims)
+        if len(self.in_dims) == 1:
+            return [self.in_dims[0]]
         return [Dim.unknown()]
 
     @property
diff --git a/tools/nntool/importer/tflite/new_tflite_graph_all.py b/tools/nntool/importer/tflite/new_tflite_graph_all.py
index 75786d85a..8b98f979c 100644
--- a/tools/nntool/importer/tflite/new_tflite_graph_all.py
+++ b/tools/nntool/importer/tflite/new_tflite_graph_all.py
@@ -32,6 +32,8 @@
 # };
 
 import logging
+import os
+from copy import deepcopy
 from functools import reduce
 
 import numpy as np
@@ -44,11 +46,25 @@
                          Conv2DParameters, FcParameters, GlobalPoolParameters,
                          MatrixAddParameters, MatrixDivParameters,
                          MatrixMulParameters, MatrixSubParameters, NNEdge,
-                         PadParameters, PoolingParameters, ReshapeParameters,
-                         SoftMaxParameters, UnconvertedOpParameters,
-                         UnknownOpParameters)
-from quantization.quantization_record import (FilterQuantizationRecord,
-                                              QuantizationRecord)
+                         NoOPParameters, PadParameters, PoolingParameters,
+                         ReshapeParameters, SoftMaxParameters,
+                         UnconvertedOpParameters, UnknownOpParameters)
+from quantization.multiplicative.asymmetric.asymmetric_mult_qtype import \
+    AsymmetricMultQType
+from quantization.multiplicative.mult_quantization import (
+    MultAddQuantizationRecord, MultConstantQuantizationRecord,
+    MultQuantizationRecord, MultQuantizationRecordBase,
+    MultScalableFilterQuantizationRecord)
+from quantization.multiplicative.symmetric.mult_mulbias_qtype_new import \
+    MultMulBiasScaleQType
+from quantization.multiplicative.symmetric.symmetric_mult_biases_qtype import \
+    SymmetricMultBiasesQType
+from quantization.multiplicative.symmetric.symmetric_mult_qtype import \
+    SymmetricMultQType
+from quantization.multiplicative.symmetric.symmetric_mult_qtype_wrapper import \
+    SymmetricMultQTypeWrapper
+from quantization.quantization_set import QuantizationSet
+from utils.add_sys_path import add_sys_path
 from utils.graph import Node
 from utils.node_id import NodeId
 from utils.sparse_list import SparseList
@@ -56,7 +72,6 @@
 from ..importer_base import ImporterBase
 from . import utils
 from .propagate_hints import propagate_hints
-from .tflite_qtype import TfliteQType
 from .tflite_schema_head import (ActivationFunctionType, AddOptions,
                                  ConcatenationOptions, Conv2DOptions,
                                  DepthwiseConv2DOptions, DivOptions,
@@ -84,13 +99,19 @@ class TFLiteImportException(Exception):
 }
 
 TF_ACTIVATION_OPERATORS = {
-    "LOGISTIC": "sigmoid",
+    "LOGISTIC": "hsigmoid",
     "RELU": "relu",
     "RELU6": "relu6",
     "TANH": "tanh",
     "HARD_SWISH": "hswish"
 }
 
+UNDIGNED_TO_SIGNED = {
+    np.uint8: np.int8,
+    np.uint16: np.int16,
+    np.uint32: np.int32
+}
+
 
 def check(condition, message):
     if not condition:
@@ -289,12 +310,12 @@ def get_fin_cput_size(subgraph, elem, idx):
 
 class TfliteTensorWrapper():
     TF_TO_NUMPY_TYPE = {
-        TensorType.TensorType.FLOAT32: np.dtype('<f4'),
-        TensorType.TensorType.FLOAT16: np.dtype('<f2'),
-        TensorType.TensorType.INT32: np.dtype('<i4'),
-        TensorType.TensorType.UINT8: np.dtype('<u1'),
-        TensorType.TensorType.INT8: np.dtype('<i1'),
-        TensorType.TensorType.INT64: np.dtype('<i8')
+        TensorType.TensorType.FLOAT32: np.float32,
+        TensorType.TensorType.FLOAT16: np.float16,
+        TensorType.TensorType.INT32: np.int32,
+        TensorType.TensorType.UINT8: np.uint8,
+        TensorType.TensorType.INT8: np.int8,
+        TensorType.TensorType.INT64: np.int64
     }
 
     def __init__(self, tensor):
@@ -352,18 +373,56 @@ def shape(self):
     def dtype(self):
         return self.TF_TO_NUMPY_TYPE[self._tensor.Type()]
 
+    @property
+    def scale(self):
+        return self._tensor.Quantization().ScaleAsNumpy()
+
+    @property
+    def zero_point(self):
+        return self._tensor.Quantization().ZeroPointAsNumpy()
+
+    @property
+    def min_val(self):
+        return self._tensor.Quantization().MinAsNumpy()
+
+    @property
+    def max_val(self):
+        return self._tensor.Quantization().MaxAsNumpy()
+
+    @property
+    def is_uint_symmetric(self):
+        quant = self._tensor.Quantization()
+        if quant is not None:
+            return (self.dtype == np.uint8 or self.dtype == np.uint16 or self.dtype == np.uint32) and \
+                np.all(quant.ZeroPointAsNumpy() == 128)
+        return False
+
     @property
     def qtype(self):
-        if self._tensor.Quantization() is not None:
-            return TfliteQType(self._tensor.Quantization(), self.dtype)
+        quant = self._tensor.Quantization()
+        if quant is not None:
+            if quant.ScaleLength() == 0 and quant.MinLength() == 0 and\
+                    quant.MaxLength() == 0 and quant.ZeroPointLength() == 0:
+                return None
+            if self.dtype == np.uint8 or self.dtype == np.uint16 or self.dtype == np.uint32:
+                if np.all(quant.ZeroPointAsNumpy() == 128):
+                    return SymmetricMultQType.from_tflite(quant, self.dtype)
+                return SymmetricMultQTypeWrapper(AsymmetricMultQType.from_tflite(quant,
+                                                                                 self.dtype))
+            elif self.dtype == np.int8 or self.dtype == np.int16 or self.dtype == np.int32:
+                if np.all(quant.ZeroPointAsNumpy() == 0):
+                    return SymmetricMultQType.from_tflite(quant, self.dtype)
+                return SymmetricMultQTypeWrapper(AsymmetricMultQType.from_tflite(quant,
+                                                                                 self.dtype))
+            return None
         return None
 
     def is_constant(self, model):
-        return self.buffer_idx == 0 or model.Buffers(self.buffer_idx).DataLength() != 0
+        return self.buffer_idx != 0 and model.Buffers(self.buffer_idx).DataLength() != 0
 
     def get_value(self, model):
         tf_buffer = model.Buffers(self.buffer_idx)
-        np_buffer = np.frombuffer(tf_buffer.DataAsNumpy(), dtype=self.dtype)
+        np_buffer = np.frombuffer(tf_buffer.DataAsNumpy(), dtype=self.dtype().newbyteorder('L'))
         np_buffer = np.resize(np_buffer, self.shape)
         return np_buffer
 
@@ -372,6 +431,10 @@ def shape_as(self, order):
         return {k: v for k, v in zip(order, self.shape)}
 
 
+class NoQuantizationError(Exception):
+    pass
+
+
 class TfliteImporter(ImporterBase):
 
     def __init__(self):
@@ -380,21 +443,44 @@ def __init__(self):
         self.tensors = None
         self.load_quantization = False
         self.load_tensors = False
-        self.qrecs = {}
+        self.load_dequantized = False
+        self.qrecs = QuantizationSet()
+        self.rescale_perchannel = True
 
     def fuse_activation(self, tfl_opts, name: str, node: Node):
+        if NodeId(node) in self.qrecs:
+            node_qrec = self.qrecs[NodeId(node)]
+        else:
+            node_qrec = None
         if tfl_opts.FusedActivationFunction() == ActivationFunctionType.ActivationFunctionType.NONE:
-            return add_node(self.G, node)
+            if node_qrec is not None and isinstance(node_qrec, MultQuantizationRecordBase):
+                # here we have no activation in an asymmetric qtype -> may be an omitted relu
+                if node_qrec.out_qs[0].min_val == 0:
+                    if np.all(np.round(node_qrec.out_qs[0].max_val) == 6):
+                        anode = ActivationParameters.get_activation('relu6', aname(name))
+                    else:
+                        anode = ActivationParameters.get_activation('relu', aname(name))
+                else:
+                    return add_node(self.G, node)
+            else:
+                return add_node(self.G, node)
+        else:
+            anode = ActivationParameters.get_activation(TF_ACTIVATIONS[tfl_opts.FusedActivationFunction()],
+                                                        aname(name))
 
-        activation = TF_ACTIVATIONS[tfl_opts.FusedActivationFunction()]
-        anode = ActivationParameters(aname(name), activation)
         if self.load_quantization:
+            # In between the fused operation and activation the
+            # transfer is in int32 representation
             node_qrec = self.qrecs[NodeId(node)]
-            self.qrecs[NodeId(anode)] = QuantizationRecord(
-                in_qs=[node_qrec.out_qs[0]], out_qs=[node_qrec.out_qs[0]])
+            outa_qtype = deepcopy(node_qrec.out_qs[0])
+            #node_qrec.out_qs[0].dtype = np.int32
+            ina_qtype = deepcopy(node_qrec.out_qs[0])
+            self.qrecs[NodeId(anode)] = MultQuantizationRecord(
+                in_qs=[ina_qtype], out_qs=[outa_qtype])
         return add_node(self.G, node, anode=anode)
 
     def add_unconverted(self, name, subgraph, op_name, op):
+        LOG.warning("graph has unknown operator %s and cannot be properly processed", op_name)
         node = add_node(self.G,
                         UnconvertedOpParameters(
                             name,
@@ -409,6 +495,182 @@ def add_unconverted(self, name, subgraph, op_name, op):
                         ))
         return node
 
+    def make_weights_symmetric(self, node, input_tensors):
+        biases_scales = input_tensors[2].scale if node.has_bias else np.array([1], dtype=np.int32)
+        # already symmetric or something we don't know
+        if input_tensors[1].dtype != np.uint8:
+            return input_tensors[1].scale, biases_scales, None, None
+        weights_scales = input_tensors[1].scale
+        # symmetric unsigned. just change zero point scale stays the same
+        if np.all(input_tensors[1].zero_point == 128):
+            node.weights = (node.weights.astype(np.int64) - 128).astype(np.int8)
+            return weights_scales, biases_scales, None, None
+        # asymmetric unsigned. change zero point and rescale
+        if self.rescale_perchannel:
+            return self.scale_weights_by_channel(node, weights_scales, biases_scales,
+                                                 input_tensors[0].qtype.scale,
+                                                 zero_point=input_tensors[1].zero_point)
+        else:
+            return self.scale_weights_by_tensor(node, weights_scales, biases_scales,
+                                                input_tensors[0].qtype.scale,
+                                                zero_point=input_tensors[1].zero_point)
+
+    def scale_weights_by_tensor(self, node, weights_scales, biases_scales, in_scale, zero_point=None):
+        if zero_point is None:
+            zero_point = np.array([0])
+        if node.has_bias:
+            dq_biases = node.biases * biases_scales
+        else:
+            dq_biases = np.array([0] * node.filter.out_c, dtype=np.float32)
+
+        if len(weights_scales) > 1:
+            raise ValueError('You should not rescale perchannel weights to pertensor format')
+
+        dq_weights = (node.weights.astype(np.float32) - zero_point) * weights_scales
+        w_min = min(np.min(dq_weights), 0)
+        w_max = max(np.max(dq_weights), 0)
+        w_max = w_max if w_min != w_max and w_max == 0 else 1
+
+        w_abs_max = max(w_max, np.abs(w_min))
+        new_weights_scale = w_abs_max / 127
+        int8_iinfo = np.iinfo(np.int8)
+        int32_iinfo = np.iinfo(np.int32)
+        new_biases_scale = new_weights_scale * in_scale
+        node.weights = np.clip(np.floor(dq_weights / new_weights_scale + 0.5),
+                               int8_iinfo.min,
+                               int8_iinfo.max).astype(np.int8)
+        node.biases = np.clip(np.floor(dq_biases / new_biases_scale + 0.5),
+                              int32_iinfo.min,
+                              int32_iinfo.max).astype(np.int32)
+        return np.array([new_weights_scale]), np.array([new_biases_scale]),\
+            np.array([w_min]), np.array([w_max])
+
+    def scale_weights_by_channel(self, node, weights_scales, biases_scales, in_scale, zero_point=None):
+        # scale weights by channel optionally correcting zero point
+        if zero_point is None:
+            zero_point = np.array([0])
+
+        out_idx = node.filter.get_order_idx('out_c')
+        actual_len = len(node.filter.actual_shape)
+        ones_shape = tuple(node.filter.out_c if idx == out_idx else 1 for idx in range(actual_len))
+        filter_axis = tuple(idx for idx in range(actual_len) if idx != out_idx)
+
+        if node.has_bias:
+            dq_biases = node.biases * biases_scales
+        else:
+            dq_biases = np.array([0] * node.filter.out_c, dtype=np.float32)
+
+        if len(weights_scales) > 1:
+            weights_scales = weights_scales.reshape(ones_shape)
+        if len(zero_point) > 1:
+            zero_point = zero_point.reshape(ones_shape)
+        dq_weights = (node.weights.astype(np.float32) - zero_point) * weights_scales
+
+        w_mins = np.minimum(np.min(dq_weights, axis=filter_axis), 0)
+        w_maxes = np.maximum(np.max(dq_weights, axis=filter_axis), 0)
+
+        w_zero_cond = np.logical_and(w_mins == w_maxes, w_maxes == 0)
+        w_maxes = np.where(w_zero_cond, 1, w_maxes)
+
+        w_abs_maxes = np.maximum(np.abs(w_mins), w_maxes)
+        new_weights_scales = w_abs_maxes / 127
+        int8_iinfo = np.iinfo(np.int8)
+        int32_iinfo = np.iinfo(np.int32)
+        new_biases_scales = new_weights_scales * in_scale
+        np.seterr(all='raise')
+        node.weights = np.clip(np.floor(dq_weights / new_weights_scales.reshape(ones_shape) + 0.5),
+                               int8_iinfo.min,
+                               int8_iinfo.max).astype(np.int8)
+        node.biases = np.clip(np.floor(dq_biases / new_biases_scales + 0.5),
+                              int32_iinfo.min,
+                              int32_iinfo.max).astype(np.int32)
+        return new_weights_scales, new_biases_scales, w_mins, w_maxes
+
+    def detect_small_scales(self, node, weights_scales, biases_scales, in_scale):
+        # at this point all tensors are in expected formats
+        # weights int8 biases int32 channel scaled
+        tiny_weight_scales = weights_scales < SymmetricMultQType.kNearZeroTolerance
+        if np.count_nonzero(tiny_weight_scales) == 0:
+            return weights_scales, biases_scales
+
+        out_idx = node.filter.get_order_idx('out_c')
+        shape = tuple(slice(None) if idx !=
+                      out_idx else tiny_weight_scales for idx in range(len(node.weights.shape)))
+
+        node.weights[shape] = 0
+        dq_biases = node.biases * biases_scales
+        weights_scales = np.where(tiny_weight_scales, 1, weights_scales)
+        biases_scales = in_scale * weights_scales
+        int32_iinfo = np.iinfo(np.int32)
+        node.biases = np.clip(np.floor(dq_biases / biases_scales + 0.5),
+                              int32_iinfo.min,
+                              int32_iinfo.max).astype(np.int32)
+        return weights_scales, biases_scales
+
+    def fix_weights_and_biases(self, node, input_tensors):
+        weights_scales, biases_scales, w_mins, w_maxes = self.make_weights_symmetric(
+            node, input_tensors)
+        if self.rescale_perchannel:
+            if len(weights_scales) != node.filter.out_c:
+                weights_scales, biases_scales, w_mins, w_maxes = self.scale_weights_by_channel(
+                    node, weights_scales, biases_scales, input_tensors[0].qtype.scale)
+            weights_scales, biases_scales = self.detect_small_scales(
+                node, weights_scales, biases_scales, input_tensors[0].scale)
+        if w_mins is None:
+            w_mins = input_tensors[1].min_val
+            w_maxes = input_tensors[1].max_val
+        return weights_scales, biases_scales, w_mins, w_maxes
+
+    def load_filter_parameters(self, node, input_tensors, output_tensors, converted_to_conv=False):
+        if self.load_tensors or self.load_quantization:
+            node.weights = input_tensors[1].get_value(self.model)
+            if converted_to_conv:
+                node.weights = node.weights.transpose(TF_LITE_DW_FILTER_TRANSPOSE)
+            if node.has_bias:
+                node.biases = input_tensors[2].get_value(self.model)
+
+        if self.load_quantization:
+            if input_tensors[0].qtype is None:
+                raise NoQuantizationError("quantization not present in tflite file")
+            weights_scales, biases_scales, w_mins, w_maxes = self.fix_weights_and_biases(
+                node, input_tensors)
+            biases_q = SymmetricMultBiasesQType(dtype=np.int32, scale=biases_scales)
+            weights_q = SymmetricMultQType(
+                dtype=np.int8, narrow_range=True, scale=weights_scales, min_val=w_mins, max_val=w_maxes)
+            in_q = input_tensors[0].qtype
+            out_q = output_tensors[0].qtype
+            mulbiases_q = MultMulBiasScaleQType.from_filter(in_q, weights_q, out_q, node)
+            qrec = MultScalableFilterQuantizationRecord(in_qs=[in_q],
+                                                        out_qs=[out_q],
+                                                        mul_biases_q=mulbiases_q,
+                                                        weights_q=weights_q,
+                                                        biases_q=biases_q)
+            self.qrecs[NodeId(node)] = qrec
+
+    def load_dequantized_filter_parameters(self, node, input_tensors, converted_to_conv=False, is_dw=False):
+        weights_scales = input_tensors[1].scale
+        in_scale = input_tensors[0].scale
+        weights_quant = input_tensors[1].get_value(self.model)
+        # save in the node the dequantized values
+        if len(weights_scales) > 1:  # tf2 conv and dw (fully connected should be per-tensor)
+            if is_dw:
+                # depthwise
+                shape_pc = tuple(size if idx == 3 else 1  # always along axis 3 from tflite quantization spec
+                                 for idx, size in enumerate(weights_quant.shape))
+            else:
+                # normal convolution
+                shape_pc = tuple(size if idx == 0 else 1  # always along axis 0 from tflite quantization spec
+                                 for idx, size in enumerate(weights_quant.shape))
+            node.weights = (weights_quant.astype(np.int64) - input_tensors[1].zero_point.reshape(shape_pc)) \
+                * weights_scales.reshape(shape_pc)
+        else:
+            node.weights = (weights_quant - input_tensors[1].zero_point) * weights_scales
+        if converted_to_conv:
+            node.weights = node.weights.transpose(TF_LITE_DW_FILTER_TRANSPOSE)
+        if node.has_bias:
+            biases_scales = weights_scales * in_scale
+            node.biases = input_tensors[2].get_value(self.model) * biases_scales
+
     def add_convolution(self, name, subgraph, _, op):
         del subgraph
         conv_opts = Conv2DOptions.Conv2DOptions()
@@ -441,17 +703,10 @@ def add_convolution(self, name, subgraph, _, op):
                                 out_dims_hint=SparseList([['h', 'w', 'c']]),
                                 constant_store=self.G.constant_store)
 
-        if self.load_quantization:
-            qrec = FilterQuantizationRecord(in_qs=[input_tensors[0].qtype],
-                                            out_qs=[output_tensors[0].qtype],
-                                            weights_q=input_tensors[1].qtype,
-                                            biases_q=input_tensors[2].qtype if len(input_tensors) > 2 else None)
-            self.qrecs[NodeId(node)] = qrec
-
-        if self.load_tensors:
-            node.weights = input_tensors[1].get_value(self.model)
-            if has_bias:
-                node.biases = input_tensors[2].get_value(self.model)
+        if self.load_dequantized:
+            self.load_dequantized_filter_parameters(node, input_tensors)
+        else:
+            self.load_filter_parameters(node, input_tensors, output_tensors)
 
         return self.fuse_activation(conv_opts, name, node)
 
@@ -515,19 +770,12 @@ def add_depthwise_convolution(self, name, subgraph, _, op):
                                     out_dims_hint=SparseList([['h', 'w', 'c']]),
                                     constant_store=self.G.constant_store)
 
-        if self.load_quantization:
-            qrec = FilterQuantizationRecord(in_qs=[input_tensors[0].qtype],
-                                            out_qs=[output_tensors[0].qtype],
-                                            weights_q=input_tensors[1].qtype,
-                                            biases_q=input_tensors[2].qtype if len(input_tensors) > 2 else None)
-            self.qrecs[NodeId(node)] = qrec
-        if self.load_tensors:
-            node.weights = input_tensors[1].get_value(self.model)
-            # If we've converted to a normal conv then change the weight order
-            if convert_to_conv:
-                node.weights = node.weights.transpose(TF_LITE_DW_FILTER_TRANSPOSE)
-            if has_bias:
-                node.biases = input_tensors[2].get_value(self.model)
+        if self.load_dequantized:
+            self.load_dequantized_filter_parameters(
+                node, input_tensors, convert_to_conv, is_dw=True)
+        else:
+            self.load_filter_parameters(node, input_tensors, output_tensors,
+                                        converted_to_conv=convert_to_conv)
 
         return self.fuse_activation(conv_opts, name, node)
 
@@ -572,17 +820,10 @@ def add_fully_connected(self, name, subgraph, _, op):
                             out_dims_hint=SparseList([['c']]),
                             constant_store=self.G.constant_store)
 
-        if self.load_quantization:
-            qrec = FilterQuantizationRecord(in_qs=[input_tensors[0].qtype],
-                                            out_qs=[output_tensors[0].qtype],
-                                            weights_q=input_tensors[1].qtype,
-                                            biases_q=input_tensors[2].qtype if len(input_tensors) > 2 else None)
-            self.qrecs[NodeId(node)] = qrec
-
-        if self.load_tensors:
-            node.weights = input_tensors[1].get_value(self.model)
-            if has_bias:
-                node.biases = input_tensors[2].get_value(self.model)
+        if self.load_dequantized:
+            self.load_dequantized_filter_parameters(node, input_tensors)
+        else:
+            self.load_filter_parameters(node, input_tensors, output_tensors)
 
         return self.fuse_activation(fc_opts, name, node)
 
@@ -592,10 +833,12 @@ def add_fully_connected(self, name, subgraph, _, op):
         "MAX_POOL_2D": "max"
     }
 
-    def load_tf_quantization(self, input_tensors, output_tensors, node):
-        qrec = QuantizationRecord(in_qs=[tensor.qtype for tensor in input_tensors],
-                                  out_qs=[tensor.qtype for tensor in output_tensors])
-        self.qrecs[NodeId(node)] = qrec
+    def load_tf_quantization(self, input_tensors, output_tensors, qrec_class=None):
+        if qrec_class is None:
+            qrec_class = MultQuantizationRecord
+        qrec = qrec_class(in_qs=[tensor.qtype for tensor in input_tensors],
+                          out_qs=[tensor.qtype for tensor in output_tensors])
+        return qrec
 
     # pylint: disable=unused-argument
 
@@ -633,7 +876,8 @@ def add_pool(self, name, subgraph, op_name, op):
                                      out_dims_hint=SparseList([['h', 'w', 'c']]))
 
         if self.load_quantization:
-            self.load_tf_quantization(input_tensors, get_output_tensors(self.tensors, op), node)
+            self.qrecs[NodeId(node)] = self.load_tf_quantization(
+                input_tensors, get_output_tensors(self.tensors, op))
 
         return self.fuse_activation(pool_opts, name, node)
 
@@ -644,8 +888,21 @@ def add_softmax(self, name, subgraph, _, op):
         softmax_opts.Init(op.BuiltinOptions().Bytes, op.BuiltinOptions().Pos)
         node = SoftMaxParameters(name, softmax_opts.Beta())
         if self.load_quantization:
-            self.load_tf_quantization(get_input_tensors(self.tensors, op),
-                                      get_output_tensors(self.tensors, op), node)
+            input_tensors = get_input_tensors(self.tensors, op)
+            iqtype = input_tensors[0].qtype
+            iqtype.scale_to_pow2()
+            oqtype = SymmetricMultQType(min_val=-1, max_val=1, dtype=np.int16, scale=2**(-15))
+            qrec = MultQuantizationRecord(in_qs=[iqtype],
+                                          out_qs=[oqtype])
+            self.qrecs[NodeId(node)] = qrec
+
+        return add_node(self.G, node)
+
+    def add_noop(self, name, subgraph, op_name, op):
+        node = NoOPParameters(name, desc=op_name)
+        if self.load_quantization:
+            self.qrecs[NodeId(node)] = self.load_tf_quantization(get_input_tensors(self.tensors, op),
+                                                                 get_output_tensors(self.tensors, op))
         return add_node(self.G, node)
 
     # pylint: disable=unused-argument
@@ -657,28 +914,44 @@ def add_concatenation(self, name, subgraph, _, op):
         input_tensors = get_input_tensors(self.tensors, op)
         output_tensors = get_output_tensors(self.tensors, op)
 
+        buffer_idxes = [tensor.buffer_idx for tensor in input_tensors]
+        if len(set(buffer_idxes)) != len(buffer_idxes):
+            raise NotImplementedError("concats with multiple versions of the same input are not supported. This is normally a graph design problem.")
+
         axis_hint = None
+        axis = None
         # nasty hack to try to figure out how the axis relates to our
         # internal axis representation
         if concat_opts.Axis() == 0:
             if len(output_tensors[0].shape) == 2:
                 axis_hint = 'c'
+                axis = 0
             elif len(output_tensors[0].shape) == 4:
                 axis_hint = 'h'
+                axis = 0
         elif concat_opts.Axis() == 1:
             if len(output_tensors[0].shape) == 2:
                 axis_hint = 'c'
+                axis = 0
+            elif len(output_tensors[0].shape) == 3:
+                axis = 0
             elif len(output_tensors[0].shape) == 4:
                 axis_hint = 'h'
+                axis = 0
+        elif concat_opts.Axis() == 2:
+            if all(tensor.shape[1] == 1 for tensor in input_tensors):
+                axis_hint = 'w'
+                axis = 1
         elif concat_opts.Axis() == 3:
             if len(output_tensors[0].shape) == 4:
                 axis_hint = 'c'
-
-        node = ConcatParameters(name, axis=max(concat_opts.Axis() - 1, 0), axis_hint=axis_hint)
+                axis = 2
+        if axis is None:
+            axis = concat_opts.Axis() - 1
+        node = ConcatParameters(name, axis=axis, axis_hint=axis_hint)
         if self.load_quantization:
-            self.load_tf_quantization(input_tensors,
-                                      output_tensors,
-                                      node)
+            self.qrecs[NodeId(node)] = self.load_tf_quantization(input_tensors,
+                                                                 output_tensors)
         return self.fuse_activation(concat_opts, name, node)
 
     # pylint: disable=unused-argument
@@ -703,7 +976,8 @@ def add_reshape(self, name, subgraph, _, op):
         new_shape = Dim.unnamed(remove_batch_dim(new_shape), is_ordered=True)
         node = ReshapeParameters(name, old_shape=old_shape, shape=new_shape)
         if self.load_quantization:
-            self.load_tf_quantization(input_tensors, get_output_tensors(self.tensors, op), node)
+            self.qrecs[NodeId(node)] = self.load_tf_quantization(
+                [input_tensors[0]], get_output_tensors(self.tensors, op))
         return add_node(self.G, node)
 
     # pylint: disable=unused-argument
@@ -711,11 +985,10 @@ def add_reshape(self, name, subgraph, _, op):
     def add_activation(self, name, subgraph, op_name, op):
         check(op.InputsLength() == 1,
               "Very odd " + str(op.InputsAsNumpy()))
-        activation = TF_ACTIVATION_OPERATORS[op_name]
-        node = ActivationParameters(name, activation)
+        node = ActivationParameters.get_activation(TF_ACTIVATION_OPERATORS[op_name], name)
         if self.load_quantization:
-            self.load_tf_quantization(get_input_tensors(self.tensors, op),
-                                      get_output_tensors(self.tensors, op), node)
+            self.qrecs[NodeId(node)] = self.load_tf_quantization(get_input_tensors(self.tensors, op),
+                                                                 get_output_tensors(self.tensors, op))
         return add_node(self.G, node)
 
     def add_pad(self, name, subgraph, op_name, op):
@@ -727,44 +1000,53 @@ def add_pad(self, name, subgraph, op_name, op):
         node = PadParameters(name,
                              PadDim(*pad_dim))
         if self.load_quantization:
-            self.load_tf_quantization(get_input_tensors(self.tensors, op),
-                                      get_output_tensors(self.tensors, op), node)
+            self.qrecs[NodeId(node)] = self.load_tf_quantization(get_input_tensors(self.tensors, op),
+                                                                 get_output_tensors(self.tensors, op))
         return add_node(self.G, node)
 
-    def add_broadcasted_op(self, name, subgraph, op_name, op, tf_opts, params):
+    def add_broadcasted_op(self, name, subgraph, op_name, op, tf_opts, params, qrec_class=None):
         tf_opts.Init(op.BuiltinOptions().Bytes, op.BuiltinOptions().Pos)
         inputs = get_all_const_broadcasted_inputs(
             self.G, self.model, self.tensors, subgraph, op, load_tensors=self.load_tensors)
         check(len(inputs) == 2,
-              "Very odd " + str(op.InputsAsNumpy()))
-        node_pair = self.fuse_activation(tf_opts, name, params)
+              "broadcasted ops should only have 2 inputs " + str(op.InputsAsNumpy()))
         if self.load_quantization:
-            self.load_tf_quantization(get_input_tensors(self.tensors, op),
-                                      get_output_tensors(self.tensors, op), node_pair[0])
+            self.qrecs[NodeId(params)] = self.load_tf_quantization(get_input_tensors(self.tensors, op),
+                                                                   get_output_tensors(
+                                                                       self.tensors, op),
+                                                                   qrec_class=qrec_class)
+        node_pair = self.fuse_activation(tf_opts, name, params)
         for idx, input_node in enumerate(inputs):
             if input_node[1] is not None:
                 if self.load_quantization:
                     node_qrec = self.qrecs[NodeId(params)]
-                    self.qrecs[NodeId(input_node[1])] = QuantizationRecord(
-                        in_qs=[], out_qs=[node_qrec.in_qs[idx]])
+                    self.qrecs[NodeId(input_node[1])] = MultConstantQuantizationRecord(
+                        in_qs=[node_qrec.in_qs[idx]],
+                        out_qs=[node_qrec.in_qs[idx]])
                 self.G.add_edge(NNEdge(input_node[1], node_pair[0], to_idx=idx))
         return node_pair
 
     def add_add(self, name, subgraph, op_name, op):
         return self.add_broadcasted_op(name, subgraph, op_name, op,
-                                       AddOptions.AddOptions(), MatrixAddParameters(name))
+                                       AddOptions.AddOptions(),
+                                       MatrixAddParameters(name),
+                                       MultAddQuantizationRecord)
 
     def add_div(self, name, subgraph, op_name, op):
         return self.add_broadcasted_op(name, subgraph, op_name, op,
-                                       DivOptions.DivOptions(), MatrixDivParameters(name))
+                                       DivOptions.DivOptions(),
+                                       MatrixDivParameters(name))
 
     def add_mul(self, name, subgraph, op_name, op):
         return self.add_broadcasted_op(name, subgraph, op_name, op,
-                                       MulOptions.MulOptions(), MatrixMulParameters(name))
+                                       MulOptions.MulOptions(),
+                                       MatrixMulParameters(name))
 
     def add_sub(self, name, subgraph, op_name, op):
         return self.add_broadcasted_op(name, subgraph, op_name, op,
-                                       SubOptions.SubOptions(), MatrixSubParameters(name))
+                                       SubOptions.SubOptions(),
+                                       MatrixSubParameters(name),
+                                       MultAddQuantizationRecord)
 
     def add_mean(self, name, subgraph, op_name, op):
         check(op.InputsLength() == 2,
@@ -785,8 +1067,8 @@ def add_mean(self, name, subgraph, op_name, op):
                                     in_dims_hint=SparseList([['h', 'w', 'c']]),
                                     out_dims_hint=SparseList([['h', 'w', 'c']]))
         if self.load_quantization:
-            self.load_tf_quantization(get_input_tensors(self.tensors, op),
-                                      get_output_tensors(self.tensors, op), node)
+            self.qrecs[NodeId(node)] = self.load_tf_quantization(get_input_tensors(self.tensors, op),
+                                                                 get_output_tensors(self.tensors, op))
 
         return add_node(self.G, node)
 
@@ -817,11 +1099,13 @@ def add_custom(self, name, subgraph, op_name, op):
         "MUL": add_mul,
         "SUB": add_sub,
         "DIV": add_div,
-        "MEAN": add_mean
+        "MEAN": add_mean,
+        "QUANTIZE": add_noop,
+        "DEQUANTIZE": add_noop
     }
 
-    for __op in TF_ACTIVATION_OPERATORS:
-        SWITCH_ADD_FUNCTIONS[__op] = add_activation
+    for operator in TF_ACTIVATION_OPERATORS:
+        SWITCH_ADD_FUNCTIONS[operator] = add_activation
 
     def add_operator(self, subgraph, subgraph_idx, op, op_idx):
         op_name, is_custom = utils.get_operator_name(self.model, op.OpcodeIndex())
@@ -848,15 +1132,16 @@ def create_subgraph(self, graph_index):
             node = self.G.add_input(Dim.unnamed(remove_batch_dim(dims)))
             tensor = self.tensors[graph.Inputs(i)]
             tensor.output = node.name
-            if self.load_quantization:
-                self.qrecs[NodeId(node)] = QuantizationRecord(in_qs=[], out_qs=[tensor.qtype])
+            if self.load_quantization and tensor.qtype:
+                self.qrecs[NodeId(node)] = MultQuantizationRecord(in_qs=[], out_qs=[tensor.qtype])
 
         for i in range(graph.OutputsLength()):
             node = self.G.add_output()
             tensor = self.tensors[graph.Outputs(i)]
             tensor.inputs.append((node.name, 0))
-            if self.load_quantization:
-                self.qrecs[NodeId(node)] = QuantizationRecord(in_qs=[tensor.qtype], out_qs=[])
+            if self.load_quantization and tensor.qtype:
+                self.qrecs[NodeId(node)] = MultQuantizationRecord(
+                    in_qs=[tensor.qtype], out_qs=[tensor.qtype])
 
         for i in range(graph.OperatorsLength()):
             op = graph.Operators(i)
@@ -876,16 +1161,22 @@ def create_subgraph(self, graph_index):
                 LOG.warning("unused tensors in graph")
 
     def create_graph(self, filename, opts):
+        add_sys_path(os.path.dirname(__file__))
         buf = open(filename, "rb").read()
         self.model = Model.Model.GetRootAsModel(buf, 0)
         self.load_quantization = opts.get('load_quantization')
         self.load_tensors = opts.get('load_tensors')
+        self.load_dequantized = opts.get('load_dequantized')
         LOG.info("Importing TFLITE model version %s", self.model.Version())
         check(self.model.Version() == 3, "Only support version 3 graphs at present")
         check(self.model.SubgraphsLength() == 1, "Only supports one subgraph at present")
         self.G = NNGraph(model=self.model, filename=filename, name=opts.get('name'),
-                         value_cache=opts.get('value_cache'), constant_store=ConstantStore())
+                         constant_store=ConstantStore())
         self.create_subgraph(0)
-        self.G.quantization = self.qrecs
+        if self.load_quantization:
+            self.G.quantization = self.qrecs
+            self.G.has_quantized_parameters = True
+            self.G.graph_identity.quantization_type = 'SQ8'
+
         propagate_hints(self.G)
         return self.G
diff --git a/tools/nntool/importer/tflite/propagate_hints.py b/tools/nntool/importer/tflite/propagate_hints.py
index abdcecbb6..36391dfee 100644
--- a/tools/nntool/importer/tflite/propagate_hints.py
+++ b/tools/nntool/importer/tflite/propagate_hints.py
@@ -20,7 +20,7 @@
 from graph.types import (ConstantInputParameters,
                          MatrixBroadcastedLinearOpParameters,
                          ReshapeParameters,
-                         InputParameters)
+                         InputParameters, ConcatParameters)
 from utils.sparse_list import SparseList
 
 
@@ -31,8 +31,8 @@ def propagate_downwards(G: NNGraph):
 
         if node.in_dims_hint is not None:
             if isinstance(node, ReshapeParameters):
-                assert len(node.old_shape) == len(node.in_dims_hint[0]), "reshape doesn't match input"
-                node.old_shape.apply_naming_hints(node.in_dims_hint[0])
+                if len(node.old_shape) == len(node.in_dims_hint[0]):
+                    node.old_shape.apply_naming_hints(node.in_dims_hint[0])
             elif isinstance(node, MatrixBroadcastedLinearOpParameters):
                 max_hint = None
                 for hint in node.in_dims_hint:
@@ -40,6 +40,14 @@ def propagate_downwards(G: NNGraph):
                         max_hint = hint
                 if max_hint is not None:
                     node.out_dims_hint = [max_hint]
+            elif isinstance(node, ConcatParameters):
+                # if any incoming edge of the concat doesn't have a hint
+                # set it the same as the others
+                any_in_hint = next((hint for hint in node.in_dims_hint if hint is not None), None)
+                if any_in_hint:
+                    for edge in G.in_edges(node.name):
+                        if not node.in_dims_hint[edge.to_idx]:
+                            node.in_dims_hint[edge.to_idx] = any_in_hint
             else:
                 if node.out_dims_hint is None:
                     node.out_dims_hint = deepcopy(node.in_dims_hint)
diff --git a/tools/nntool/interpreter/commands/__init__.py b/tools/nntool/interpreter/commands/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tools/nntool/interpreter/commands/adjust.py b/tools/nntool/interpreter/commands/adjust.py
new file mode 100644
index 000000000..ea83de8cc
--- /dev/null
+++ b/tools/nntool/interpreter/commands/adjust.py
@@ -0,0 +1,33 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from interpreter.nntool_shell_base import NNToolShellBase
+
+class AdjustCommand(NNToolShellBase):
+    # ADJUST COMMAND
+    # parser_adjust = Cmd2ArgumentParser("display statistics on globals")
+
+    # @with_argparser(parser_adjust)
+    def do_adjust(self, _):
+        """
+Adjust activation and parameter tensors to match AutoTiler order.
+Must be run before generating code."""
+        self._check_graph()
+        if self.is_adjusted:
+            self.perror("graph is already adjusted")
+            return
+        self.G.adjust_order()
+        self.G.add_dimensions()
+        
\ No newline at end of file
diff --git a/tools/nntool/interpreter/commands/aquant.py b/tools/nntool/interpreter/commands/aquant.py
new file mode 100644
index 000000000..acbc3115f
--- /dev/null
+++ b/tools/nntool/interpreter/commands/aquant.py
@@ -0,0 +1,92 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import argparse
+import logging
+
+from cmd2 import Cmd2ArgumentParser, with_argparser
+
+from graph.matches.propagate_softmax_sym_mult_qrec import PropagateSoftmaxSymQrec
+from graph.matches.equalize_sym_mult_concats import EqualizeSymmetricMultiplicativeQuantivedConcats
+from interpreter.nntool_shell_base import NNToolShellBase
+from interpreter.shell_utils import (glob_input_files, input_options)
+from quantization.multiplicative.mult_quantizer import MultQuantizer
+from quantization.symmetric.symmetric_quantizer import SymmetricQuantizer
+from stats.activation_stats_collector import ActivationStatsCollector
+from stats.filter_stats_collector import FilterStatsCollector
+from utils.data_importer import import_data
+from utils.stats_funcs import STATS_BITS
+
+LOG = logging.getLogger('nntool.'+__name__)
+
+QUANTIZATION_SCHEMES = ['SQ8', 'POW2']
+
+class AquantCommand(NNToolShellBase):
+    # AQUANT COMMAND
+    parser_aquant = Cmd2ArgumentParser()
+    parser_aquant_group = parser_aquant.add_mutually_exclusive_group(required=False)
+    parser_aquant_group.add_argument('-q', '--qsnr',
+                                     type=float, default=50.0, help='QSNR threshold in case of POW2 scheme')
+    parser_aquant_group.add_argument('-f', '--force_width',
+                                     choices=STATS_BITS, type=int, default=16,
+                                     help='force all layers to this bit-width in case of POW2 scheme, ' +
+                                     'SQ8 will automatically force 8-bits')
+    parser_aquant.add_argument('-s', '--scheme',
+                               type=str, choices=QUANTIZATION_SCHEMES, default='SQ8',
+                               help='quantize with scaling factors (TFlite quantization-like) [default] or POW2')
+    parser_aquant.add_argument('-d', '--quant_dimension',
+                               choices=['tensor', 'channel'], default='channel')
+    parser_aquant.add_argument('-r', '--relun_threshold',
+                               type=int, default=1, help='Threshold above floored max value to adjust relun\'s to.')
+    parser_aquant.add_argument('-n', '--no_narrow_weights',
+                               action='store_true', help='Don\'t quantize weights uniformly over negative/positive ' +
+                               'range. i.e. Avoid -128 vs 127')
+    input_options(parser_aquant)
+
+    @with_argparser(parser_aquant)
+    def do_aquant(self, args: argparse.Namespace):
+        """
+Attempt to calculate quantization for graph using one or more sample imput files."""
+        self._check_graph()
+        input_args = self._get_input_args(args)
+        processed_input = False
+        stats_collector = ActivationStatsCollector()
+        for file_per_input in glob_input_files(args.input_files, self.G.num_inputs):
+            LOG.info("input file %s", file_per_input)
+            processed_input = True
+            data = [import_data(input_file, **input_args) for input_file in file_per_input]
+            stats_collector.collect_stats(self.G, data)
+        if not processed_input:
+            self.perror("No imput files found")
+            return
+        astats = stats_collector.reduce_stats()
+        if args.scheme == 'SQ8':
+            quantizer = MultQuantizer(astats, 8,
+                                      quantized_dimension=args.quant_dimension,
+                                      narrow_weights=not args.no_narrow_weights)
+        else:
+            stats_collector = FilterStatsCollector()
+            fstats = stats_collector.collect_stats(self.G)
+            quantizer = SymmetricQuantizer(astats, fstats,
+                                           force_width=args.force_width,
+                                           min_qsnr=args.qsnr)
+        qrecs = quantizer.quantize(self.G)
+        self.G.quantization = qrecs
+        if args.scheme == 'SQ8':
+            concats_matcher = EqualizeSymmetricMultiplicativeQuantivedConcats()
+            concats_matcher.match(self.G, set_identity=False)
+            softmax_qrec_matcher = PropagateSoftmaxSymQrec()
+            softmax_qrec_matcher.match(self.G, set_identity=False)
+        LOG.info("Quantization set. Use qshow command to see it.")
diff --git a/tools/nntool/interpreter/commands/astats.py b/tools/nntool/interpreter/commands/astats.py
new file mode 100644
index 000000000..484113663
--- /dev/null
+++ b/tools/nntool/interpreter/commands/astats.py
@@ -0,0 +1,69 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import argparse
+import logging
+from cmd2 import Cmd2ArgumentParser, with_argparser
+from interpreter.nntool_shell_base import NNToolShellBase
+from interpreter.shell_utils import (output_table, table_options, input_options,
+                                     glob_input_files)
+from reports.activation_reporter import ActivationReporter
+from stats.activation_stats_collector import ActivationStatsCollector
+from utils.data_importer import import_data
+
+LOG = logging.getLogger("nntool")
+
+class AstatsCommand(NNToolShellBase):   
+    # ASTATS COMMAND
+    parser_astats = Cmd2ArgumentParser()
+    parser_astats.add_argument('-q', '--qsnr',
+                               type=float, default=30.0, help='QSNR threshold')
+    parser_astats.add_argument('-d', '--detail',
+                               action="store_true", help='Show fusions detail')
+    parser_astats.add_argument('-s',
+                               '--step',
+                               type=int,
+                               nargs=(1, 2),
+                               help='display information by channel for step. You can indicate a fusion step with two values. The step_idx and the idx of the node in the fusion.')
+    table_options(parser_astats, default_width=180)
+    input_options(parser_astats)
+
+    @with_argparser(parser_astats)
+    def do_astats(self, args: argparse.Namespace):
+        """
+Calculate activation statistics on one or more imput files."""
+        self._check_graph()
+        input_args = self._get_input_args(args)
+        stats_collector = ActivationStatsCollector()
+        step_idx = args.step
+        if step_idx is not None:
+            if len(step_idx) == 1:
+                step_idx = step_idx[0]
+            else:
+                step_idx = tuple(step_idx)
+        if len(args.input_files) == 0:
+            self.perror("You must enter some files to process")
+            return
+        for file_per_input in glob_input_files(args.input_files, self.G.num_inputs):
+            LOG.info("input file %s", file_per_input)
+            data = [import_data(input_file, **input_args) for input_file in file_per_input]
+            stats_collector.collect_stats(self.G, data)
+
+        fmt = ('tab' if args.output is None else args.output['fmt'])
+        tab = ActivationReporter(do_totals=(fmt != "csv"),
+                                 threshold=args.qsnr,
+                                 yield_fusions=args.detail or isinstance(step_idx, tuple)).report(self.G,
+                                                                                                  stats_collector.reduce_stats())
+        output_table(tab, args)
diff --git a/tools/nntool/interpreter/commands/dump.py b/tools/nntool/interpreter/commands/dump.py
new file mode 100644
index 000000000..fc31d70fb
--- /dev/null
+++ b/tools/nntool/interpreter/commands/dump.py
@@ -0,0 +1,229 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import argparse
+import logging
+import pickle
+
+import numpy as np
+from cmd2 import Cmd, Cmd2ArgumentParser, with_argparser
+
+from execution.graph_executer import GraphExecuter
+from execution.quantization_mode import QuantizationMode
+from graph.types import ConvFusionParameters, FilterParameters
+from interpreter.nntool_shell_base import NNToolShellBase
+from interpreter.shell_utils import (glob_input_files,
+                                     input_options)
+from utils.data_importer import import_data
+from utils.node_id import NodeId
+from utils.at_norm import set_do_rounding, get_do_rounding
+
+LOG = logging.getLogger('nntool.'+__name__)
+
+
+def format_dump_file(G, outputs, quantized, dequantize, quantize_step):
+    # simplify the output since we only have one for now and add weights
+    foutputs = []
+    for idx, out in enumerate(outputs):
+        if quantize_step == idx:
+            step_is_quantized = True
+            step_is_dequantized = True
+        elif quantized:
+            step_is_quantized = True
+            step_is_dequantized = dequantize
+        else:
+            step_is_quantized = False
+            step_is_dequantized = False
+
+        tensors = [out[0]]
+        node = G.graph_state.steps[idx]['node']
+        if isinstance(node, ConvFusionParameters):
+            for filt in node.contained_filters():
+                if step_is_quantized:
+                    qrec = G.quantization[NodeId(node, filt)]
+                    if G.has_quantized_parameters:
+                        if step_is_dequantized:
+                            qrec = G.quantization[NodeId(node, filt)]
+                            tensors.append(qrec.weights_q.get_dequantized(filt.weights))
+                            tensors.append(qrec.biases_q.get_dequantized(filt.biases))
+                        else:
+                            tensors.append(np.copy(filt.weights))
+                            tensors.append(qrec.biases_q.get_quantized(filt.biases))
+                    else:
+                        if step_is_dequantized:
+                            tensors.append(np.copy(filt.weights))
+                            tensors.append(np.copy(filt.biases))
+                        else:
+                            tensors.append(qrec.weights_q.quantize(filt.weights))
+                            tensors.append(qrec.biases_q.quantize(filt.biases))
+                else:
+                    if G.has_quantized_parameters:
+                        qrec = G.quantization[NodeId(node, filt)]
+                        tensors.append(qrec.weights_q.get_dequantized(filt.weights))
+                        tensors.append(qrec.biases_q.get_dequantized(filt.biases))
+                    else:
+                        tensors.append(np.copy(filt.weights))
+                        tensors.append(np.copy(filt.biases))
+        elif isinstance(node, FilterParameters):
+            if step_is_quantized:
+                qrec = G.quantization[NodeId(node, None)]
+                if G.has_quantized_parameters:
+                    if step_is_dequantized:
+                        tensors.append(qrec.weights_q.get_dequantized(node.weights))
+                        tensors.append(qrec.biases_q.get_dequantized(node.biases))
+                    else:
+                        tensors.append(np.copy(node.weights))
+                        tensors.append(qrec.biases_q.get_quantized(node.biases))
+                else:
+                    if step_is_dequantized:
+                        tensors.append(np.copy(node.weights))
+                        tensors.append(np.copy(node.biases))
+                    else:
+                        tensors.append(qrec.weights_q.quantize(node.weights))
+                        tensors.append(qrec.biases_q.quantize(node.biases))
+            else:
+                if G.has_quantized_parameters:
+                    qrec = G.quantization[NodeId(node, None)]
+                    tensors.append(qrec.weights_q.dequantize(node.weights))
+                    tensors.append(qrec.biases_q.dequantize(node.biases))
+                else:
+                    tensors.append(np.copy(node.weights))
+                    tensors.append(np.copy(node.biases))
+        else:
+            tensors.append(None)
+            tensors.append(None)
+        foutputs.append(tuple(tensors))
+    return foutputs
+
+
+class DumpCommand(NNToolShellBase):
+    # DUMP COMMAND
+    parser_dump = Cmd2ArgumentParser()
+    parser_dump.add_argument('-s', '--step',
+                             type=int, help='step to dump output of', default=None)
+    parser_dump.add_argument('-w', '--number_width',
+                             type=int, help='width of numbers', default=8)
+    parser_dump.add_argument('-p', '--precision',
+                             type=int, help='number of decimal places', default=4)
+    parser_dump.add_argument('-c', '--channel',
+                             type=int, help='channel to dump', default=None)
+    parser_dump.add_argument('-d', '--dequantize',
+                             action='store_true', help='dequantize result')
+    parser_dump.add_argument('--quantize_and_dequantize',
+                             action='store_true', help='quantize and dequantize float results')
+    parser_dump_group = parser_dump.add_mutually_exclusive_group(required=False)
+    parser_dump_group.add_argument('-q', '--quantize', action='store_true',
+                                   help='quantize the graph (must have already set quantization)')
+    parser_dump_group.add_argument('-Q', '--quantize_step', type=int,
+                                   help='quantize a step of the graph (must have already' +
+                                   ' set quantization)',
+                                   default=None)
+    parser_dump_group.add_argument('-A', '--quantize_all_steps',
+                                   action='store_true',
+                                   help='quantize all steps of the graph feeding' +
+                                   ' unquantized float data into each step')
+    parser_dump.add_argument('-P', '--pickle',
+                             completer_method=Cmd.path_complete,
+                             help='pickle all the outputed tensors to this file')
+    parser_dump.add_argument('-S', '--save',
+                             help='save the tensor to the tensors list')
+    input_options(parser_dump)
+
+    @with_argparser(parser_dump)
+    def do_dump(self, args: argparse.Namespace):
+        """
+Dump the activations resulting from running an input file through the graph.
+You can use the current quantization settings and can also just quantify one
+specific step of the graph."""
+        self._check_graph()
+        dequantize = args.dequantize if args.dequantize is not None\
+            else not (args.pickle or args.save)
+        if args.quantize or args.quantize_step or args.quantize_all_steps:
+            self._check_quantized()
+            if args.quantize:
+                if dequantize:
+                    qmode = QuantizationMode.all_dequantize()
+                else:
+                    qmode = QuantizationMode.all()
+            elif args.quantize_all_steps:
+                qmode = QuantizationMode.step_all()
+                dequantize = True
+            else:
+                qmode = QuantizationMode.step(args.quantize_step)
+        elif args.quantize_and_dequantize:
+            qmode = QuantizationMode.all_float_quantize_dequantize()
+        else:
+            qmode = QuantizationMode.none()
+        if args.step is not None:
+            step = args.step
+            num_steps = len(self.G.graph_state.steps)
+            if step < 0:
+                step = num_steps + step
+            if step < 0 or step > num_steps:
+                self.perror("step must be from {} to {}".format(-num_steps, num_steps))
+                return
+        else:
+            step = None
+
+        input_args = self._get_input_args(args)
+
+        pickles = []
+
+        for file_per_input in glob_input_files(args.input_files, self.G.num_inputs):
+            LOG.info("input file %s", file_per_input)            
+            data = [import_data(input_file, **input_args) for input_file in file_per_input]
+            executer = GraphExecuter(self.G, qrecs=self.G.quantization)
+            outputs = executer.execute(data, step_idx_limit=step,
+                                       qmode=qmode)
+
+            if args.pickle or self._in_py or args.save:
+                pickles.append(format_dump_file(self.G, outputs, not qmode.is_none,
+                                                args.dequantize, args.quantize_step))
+            else:
+                self.G.print_intermediates(outputs, limit=step, width=args.number_width,
+                                           precision=args.precision, channel=args.channel,
+                                           order=['c', 'h', 'w'])
+
+        if args.pickle or args.save or self._in_py:
+            if not pickles:
+                self.perror("no input files found")
+                return
+            if len(args.input_files) == 1:
+                pickles = pickles[0]
+            if args.pickle:
+                with open(args.pickle, 'wb') as pickle_fp:
+                    pickle.dump(pickles, pickle_fp)
+            if args.save:
+                self.tensor_store[args.save] = pickles
+
+        if self._in_py:
+            self.last_result = pickles
+
+
+class RoundingCommand(NNToolShellBase):
+    # ROUNDING COMMAND
+    parser_round = Cmd2ArgumentParser()
+    parser_round.add_argument('round',
+                              choices=['on', 'off'],
+                              nargs=(0, 1),
+                              help='switch rounding on or off')
+
+    @with_argparser(parser_round)
+    def do_rounding(self, args: argparse.Namespace):
+        """
+Switch rounding on and off in quantized calculations."""
+        if args.round is not None:
+            set_do_rounding(args.round == 'on')
+        LOG.info("rounding is %s", 'on' if get_do_rounding() else 'off')
diff --git a/tools/nntool/interpreter/commands/extract.py b/tools/nntool/interpreter/commands/extract.py
new file mode 100644
index 000000000..ce781d1ee
--- /dev/null
+++ b/tools/nntool/interpreter/commands/extract.py
@@ -0,0 +1,34 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from cmd2 import Cmd2ArgumentParser, with_argparser
+from interpreter.nntool_shell_base import NNToolShellBase
+from graph.manipulations.extract import extract_node
+
+class ExtractCommand(NNToolShellBase):
+    # EXTRACT COMMAND
+    parser_extract = Cmd2ArgumentParser()
+    parser_extract.add_argument('step',
+                                type=int,
+                                help='step number to extract')
+
+    @with_argparser(parser_extract)
+    def do_extract(self, args):
+        """
+Extracts a single step out of a graph and forms a new graph with inputs and outputs to this step."""
+        self._check_graph()
+        if args.step < 0 or args.step > len(self.G.graph_state.steps):
+            self.perror("step must be between 0 and {}".format(len(self.G.graph_state.steps)))
+        extract_node(self.G, self.G.graph_state.steps[args.step]['node'])
diff --git a/tools/nntool/interpreter/commands/fquant.py b/tools/nntool/interpreter/commands/fquant.py
new file mode 100644
index 000000000..03bf62594
--- /dev/null
+++ b/tools/nntool/interpreter/commands/fquant.py
@@ -0,0 +1,55 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import argparse
+import numpy as np
+from cmd2 import Cmd2ArgumentParser, with_argparser
+from interpreter.nntool_shell_base import NNToolShellBase
+from interpreter.shell_utils import output_table, table_options
+from quantization.symmetric.symmetric_quantizer import SymmetricQuantizer
+from reports.quantization_reporter import QuantizationReporter
+from stats.activation_stats_collector import ActivationStatsCollector
+from stats.fake_filter_stats_collector import FakeFilterStatsCollector
+from utils.stats_funcs import STATS_BITS
+
+class FquantCommand(NNToolShellBase):
+    #FQUANT COMMAND
+    parser_fquant = Cmd2ArgumentParser()
+    parser_fquant.add_argument('-f', '--force_width',
+                               choices=STATS_BITS, default=8, type=int, help='force all layers to this width')
+    table_options(parser_fquant, default_width=140)
+
+    @with_argparser(parser_fquant)
+    def do_fquant(self, args: argparse.Namespace):
+        """
+Attempt to calculate a fake quantization for graph using random tensors and parameters.
+This is intended to allow code generation for performance testing even if no real
+weights and input data are avalaible."""
+        self._check_graph()
+        self.G.constant_store.fake = True
+        stats_collector = ActivationStatsCollector()
+        input_tensors = [np.random.normal(0, 0.2, input.dims.shape)
+                         for input in self.G.input_nodes()]
+        stats_collector.collect_stats(self.G, input_tensors)
+        astats = stats_collector.reduce_stats()
+        stats_collector = FakeFilterStatsCollector()
+        fstats = stats_collector.collect_stats(self.G)
+        quantizer = SymmetricQuantizer(astats, fstats,
+                                       force_width=args.force_width)
+        qrecs = quantizer.quantize(self.G)
+        self.G.quantization = qrecs
+        tab = QuantizationReporter().report(self.G, qrecs)
+        output_table(tab, args)
+        self.G.constant_store.fake = False
diff --git a/tools/nntool/interpreter/commands/freeze.py b/tools/nntool/interpreter/commands/freeze.py
new file mode 100644
index 000000000..89e8ce514
--- /dev/null
+++ b/tools/nntool/interpreter/commands/freeze.py
@@ -0,0 +1,59 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+import argparse
+from itertools import chain
+from cmd2 import Cmd2ArgumentParser, with_argparser
+from utils.node_id import NodeId
+from interpreter.nntool_shell_base import NNToolShellBase
+from graph.types.others import InputOutputParameters
+
+
+LOG = logging.getLogger("nntool")
+
+
+class FreezeCommand(NNToolShellBase):
+    def inputs_and_outputs(self):
+        if self.G is None:
+            return []
+        return [node.name for node in chain(self.G.inputs_and_constants(), self.G.outputs())]
+
+    # FREEZE COMMAND
+    parser_freeze = Cmd2ArgumentParser("toggle freezing of channel order of inputs or outputs")
+    parser_freeze.add_argument('node_names',
+                               nargs='+',
+                               choices_method=inputs_and_outputs,
+                               help='input or output node names to toggle freeze')
+
+    @with_argparser(parser_freeze)
+    def do_freeze(self, args: argparse.Namespace):
+        """
+Toggle freezing of channel order on inputs and outputs. When graph is adjusted frozen nodes
+ will not change channel order."""
+        self._check_graph()
+        nodes = [self.G.node(node_name) for node_name in args.node_names]
+        if not all([isinstance(node, InputOutputParameters) for node in nodes]):
+            self.perror("all nodes should be inputs or outputs")
+            return
+
+        for node in nodes:
+            if node.fixed_order:
+                LOG.info("node %s is unfrozen", node.name)
+                node.fixed_order = False
+            else:
+                LOG.info("node %s is frozen", node.name)
+                node.fixed_order = True
+            self.G.node_options[NodeId(node)] = node.at_options
diff --git a/tools/nntool/interpreter/commands/fusions.py b/tools/nntool/interpreter/commands/fusions.py
new file mode 100644
index 000000000..77a16e5db
--- /dev/null
+++ b/tools/nntool/interpreter/commands/fusions.py
@@ -0,0 +1,68 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from cmd2 import Cmd2ArgumentParser, with_argparser
+
+from graph.matches.matches import get_fusion, get_fusions, get_pow2_match_group, get_scale8_match_group
+from interpreter.nntool_shell_base import NNToolShellBase
+
+
+class FusionsCommand(NNToolShellBase):
+    # FUSIONS COMMAND
+    def fusions_list(self):
+        return [elem[0] for elem in get_fusions()]
+
+    parser_fusions = Cmd2ArgumentParser("apply fusions to graph")
+    parser_fustions_exclusive = parser_fusions.add_mutually_exclusive_group()
+    parser_fustions_exclusive.add_argument('-l', '--list',
+                                           action='store_true',
+                                           help='list available fusions')
+    parser_fustions_exclusive.add_argument('-a', '--apply',
+                                           type=str,
+                                           nargs='+',
+                                           choices_method=fusions_list,
+                                           help='apply a fusion')
+    parser_fustions_exclusive.add_argument('--pow2',
+                                           action='store_true',
+                                           help='apply standard fusions for AutoTiler POW2 kernels')
+    parser_fustions_exclusive.add_argument('--scale8',
+                                           action='store_true',
+                                           help='apply standard fusions for AutoTiler SQ8 kernels')
+
+    @with_argparser(parser_fusions)
+    def do_fusions(self, args):
+        """
+Carry out the default set of fusions on the graph"""
+        self._check_graph()
+        if args.list:
+            self.ppaged("\n".join(["%s - %s" % (name, desc) for name, desc in get_fusions()]))
+            return
+        if args.apply:
+            fusions = [get_fusion(name) for name in args.apply]
+            if not fusions:
+                self.perror('fusion %s not found' % args.apply)
+                return
+        elif args.pow2:
+            fusions = [get_pow2_match_group()]
+        elif args.scale8:
+            fusions = [get_scale8_match_group()]
+        else:
+            self.perror("No fusion set selected. Nothing to do. Select --pow2 or --scale8.")
+            return
+        for fusion in fusions:
+            fusion.match(self.G)
+        self.G.add_dimensions()
+        if self.G.quantization and not self.G.quantization.verify_quantization(self.G):
+            self.G.quantization = None
diff --git a/tools/nntool/interpreter/commands/gen.py b/tools/nntool/interpreter/commands/gen.py
new file mode 100644
index 000000000..01c2eeef4
--- /dev/null
+++ b/tools/nntool/interpreter/commands/gen.py
@@ -0,0 +1,97 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import argparse
+import logging
+import os
+from cmd2 import Cmd, Cmd2ArgumentParser, with_argparser
+from interpreter.nntool_shell_base import NNToolShellBase
+from utils.data_importer import import_data
+from execution.graph_executer import GraphExecuter
+from execution.quantization_mode import QuantizationMode
+from generation.default_template import default_template, dynamic_template, header_template
+from generation.naming_convension import DefaultNamingConvension
+from generation.code_generator import CodeGenerator
+
+LOG = logging.getLogger("nntool")
+
+class GenCommand(NNToolShellBase):
+    # GEN COMMAND
+    parser_gen = Cmd2ArgumentParser()
+    parser_gen.add_argument('model_file',
+                            completer_method=Cmd.path_complete,
+                            nargs=argparse.OPTIONAL,
+                            help='file to write to, otherwise output to terminal')
+    parser_gen.add_argument('-T', '--tensor_directory',
+                            completer_method=Cmd.path_complete,
+                            help='path to tensor directory. full path will be created' +
+                            ' if it doesn\'t exist. If this parameter is given it will' +
+                            'update the settings saved with the graph state.')
+    parser_gen.add_argument('-M', '--model_directory',
+                            completer_method=Cmd.path_complete,
+                            help='path to model directory. full path will be created' +
+                            ' if it doesn\'t exist. If this parameter is given it will' +
+                            'update the settings saved with the graph state.')
+    parser_gen.add_argument('-t', '--output_tensors',
+                            action='store_true',
+                            help='write constants (weights, biases)')
+    parser_gen.add_argument('-c', '--checksums',
+                            completer_method=Cmd.path_complete,
+                            help='generate checksum tests in code for the given file')
+    parser_gen.add_argument('--header_file',
+                            completer_method=Cmd.path_complete,
+                            help='generate header file with layers information')
+
+    @with_argparser(parser_gen)
+    def do_gen(self, args):
+        """
+Generate AutoTiler model C code and optionally dump tensors. If no destination file is
+given the generated code will be outputed to the screen. Check the 'set' command for
+settings related to code generation."""
+        self._check_graph()
+        self._check_quantized()
+        self._check_adjusted()
+        if args.checksums:
+            input_args = self._get_input_args(None)
+            LOG.info("input file %s", args.checksums)
+            data = import_data(args.checksums, **input_args)
+            executer = GraphExecuter(self.G, qrecs=self.G.quantization)
+            executer.execute([data], qmode=QuantizationMode.all())
+            self.settings['checksum_file'] = args.checksums
+            self.settings['generate_checksums'] = True
+
+        if args.tensor_directory:
+            self.settings['tensor_directory'] = args.tensor_directory
+        if args.model_directory:
+            self.settings['model_directory'] = args.model_directory
+        code_gen = CodeGenerator(self.G, DefaultNamingConvension(self.G), self.settings)
+
+        if self.settings['template_file']:
+            code_template = dynamic_template(self.settings['template_file'])
+        else:
+            code_template = default_template
+
+        if args.model_file:
+            with open(os.path.join(self.settings['model_directory'],
+                                   args.model_file), "w") as output_fp:
+                output_fp.write(code_template(self.G, code_generator=code_gen))
+        else:
+            self.ppaged(code_template(self.G, code_generator=code_gen))
+        if args.output_tensors:
+            code_gen.write_constants()
+
+        if args.header_file:
+            with open(os.path.join(self.settings['model_directory'], args.header_file), "w") as output_fp:
+                output_fp.write(header_template(self.G, code_generator=code_gen))
diff --git a/tools/nntool/interpreter/commands/graph.py b/tools/nntool/interpreter/commands/graph.py
new file mode 100644
index 000000000..a8310a828
--- /dev/null
+++ b/tools/nntool/interpreter/commands/graph.py
@@ -0,0 +1,77 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import argparse
+from cmd2 import Cmd2ArgumentParser, with_argparser, CompletionItem
+from interpreter.shell_utils import output_table, table_options
+from interpreter.nntool_shell_base import NNToolShellBase
+from reports.graph_reporter import GraphReporter
+
+class GraphCommand(NNToolShellBase):
+    # GRAPH COMMAND
+
+    def other_open_graphs(self, only_open=False):
+        items = []
+        for graph_idx, graph in enumerate(self._graphs):
+            if graph_idx == self._graph_idx:
+                continue
+            if graph['G'] is None:
+                if only_open:
+                    continue
+                name = "No Graph"
+            else:
+                name = graph['G'].name
+            items.append(CompletionItem(graph_idx, name))
+        return items
+
+    parser_graph = Cmd2ArgumentParser("display graph")
+    parser_graph.add_argument('graph_number',
+                              nargs=argparse.OPTIONAL,
+                              type=int,
+                              choices_method=other_open_graphs,
+                              help='graph to select or nothing to show open graphs')
+
+    @with_argparser(parser_graph)
+    def do_graph(self, args: argparse.Namespace):
+        """
+Select actuve graphs"""
+        if args.graph_number is not None:
+            if args.graph_number < 0 or args.graph_number >= len(self._graphs):
+                self.perror("graph number is invalid")
+                return
+            self._graph_idx = args.graph_number
+            self.pfeedback("selected graph {}".format(self._graph_idx))
+            self._update_prompt()
+            self.py_locals['G'] = self.G
+        else:
+            for idx, rec in enumerate(self._graphs):
+                self.poutput("{:d} - {}".format(idx, rec['graph_file']))
+
+    # SHOW COMMAND
+    parser_show = Cmd2ArgumentParser("display graph")
+    table_options(parser_show, default_width=180)
+    parser_show.add_argument('step', type=int, nargs=(0, 1), help='Limit to step number')
+
+    @with_argparser(parser_show)
+    def do_show(self, args: argparse.Namespace):
+        """
+Display the structure of the graph"""
+        self._check_graph()
+        fmt = ('tab' if args.output is None else args.output['fmt'])
+        split_dims = fmt == "xls"
+        do_totals = fmt != "csv"
+        tab = GraphReporter(split_dims=split_dims, do_totals=do_totals,
+                            step=args.step).report(self.G, None)
+        output_table(tab, args)
diff --git a/tools/nntool/interpreter/commands/imageformat.py b/tools/nntool/interpreter/commands/imageformat.py
new file mode 100644
index 000000000..bf7df2bf8
--- /dev/null
+++ b/tools/nntool/interpreter/commands/imageformat.py
@@ -0,0 +1,141 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import argparse
+from copy import deepcopy
+
+from cmd2 import Cmd2ArgumentParser, with_argparser
+from quantization.multiplicative.mult_quantization import MultQuantizationRecordBase
+from quantization.multiplicative.asymmetric.asymmetric_mult_qtype import AsymmetricMultQType
+from quantization.symmetric.symmetric_quantization import SymmetricQuantizationBase
+from quantization.qtype import QType
+from graph.types import ImageFormatParameters
+from interpreter.nntool_shell_base import NNToolShellBase
+from utils.graph import Edge
+from utils.node_id import NodeId
+
+
+class ImageFormatCommand(NNToolShellBase):
+    def inputs_choices(self):
+        if self.G is None:
+            return []
+        return [node.name for node in self.G.inputs()]
+
+    def format_choices(self):
+        return [fmt.lower() for fmt in ImageFormatParameters.FORMAT_CHANGES] + ['none']
+
+    def norm_choices(self):
+        return [fmt.lower() for fmt in ImageFormatParameters.NORMALIZATIONS] + ['none']
+
+    # IMAGEFORMAT COMMAND
+    parser_imageformat = Cmd2ArgumentParser("inserts image format node into graphs")
+    parser_imageformat.add_argument('input_node',
+                                    choices_method=inputs_choices,
+                                    help='input node name to format')
+    parser_imageformat.add_argument('image_formatter',
+                                    choices_method=format_choices,
+                                    help='input node name to format')
+    parser_imageformat.add_argument('image_normalizer',
+                                    choices_method=norm_choices,
+                                    help='input node name to format')
+
+    @with_argparser(parser_imageformat)
+    def do_imageformat(self, args: argparse.Namespace):
+        """ Add or modify image format options."""
+        self._check_graph()
+        if args.input_node not in self.G:
+            self.perror("input node not found")
+            return
+        input_node = self.G[args.input_node]
+        out_edge = self.G.out_edges(input_node.name)[0]
+        if isinstance(out_edge.to_node, ImageFormatParameters):
+            self.G.changes.image_format(input_node.name, None, None)
+            remove_formatter(self.G, out_edge)
+            self.G.add_dimensions()
+            return
+        if args.image_formatter == "none" and args.image_normalizer == "none":
+            self.pfeedback("no formatting set")
+            self.G.add_dimensions()
+            return
+        self.G.changes.image_format(input_node.name, args.image_formatter, args.image_normalizer)
+        insert_formatter(self.G, out_edge, args.image_formatter, args.image_normalizer)
+        self.G.add_dimensions()
+
+
+def insert_formatter(G, out_edge, formatter, normalizer):
+    input_node = out_edge.from_node
+    format_node = ImageFormatParameters(input_node.name + "_formatter",
+                                        norm_func=normalizer.upper(),
+                                        format_change=formatter.upper())
+    # dims updated to reflect formatter
+    if format_node.output_channels is not None and format_node.input_channels is not None:
+        out_dim = input_node.get_output_size(None)[0]
+        if not out_dim.is_named or out_dim.c != format_node.output_channels:
+            raise ValueError(
+                "current graph input is not named or does not match formatter output channels")
+        if formatter.upper() in ("RGB16", "BW16") and normalizer.upper() != "OUT_INT16":
+            raise ValueError(
+                "rgb16 and bw16 formatters must have out_int16 as normalization function")
+        in_dim = out_dim.clone()
+        in_dim.c = format_node.input_channels
+        in_dim.impose_order(("h", "w", "c"))
+        format_node.out_dims_hint = input_node.out_dims_hint
+        input_node.out_dims_hint = [["h", "w", "c"]]
+        format_node.in_dims_hint = [["h", "w", "c"]]        
+        input_node.dims = in_dim
+        input_node.fixed_order = True
+    # qrec updated to reflect formatter
+    input_qrec = G.quantization and G.quantization.get(NodeId(input_node))
+    if input_qrec and format_node.input_dtype and format_node.output_dtype:
+        formatter_qrec = G.quantization.get(NodeId(format_node))
+        if not formatter_qrec:
+            if input_qrec.out_qs[0].dtype != format_node.output_dtype:
+                raise ValueError(
+                    "current graph input output quantization does not match formatter output")
+            formatter_qrec = deepcopy(input_qrec)
+            formatter_qrec.out_qs[0] = deepcopy(formatter_qrec.out_qs[0])
+            if isinstance(formatter_qrec, MultQuantizationRecordBase):
+                formatter_in_q = AsymmetricMultQType(scale=1, dtype=format_node.input_dtype)
+            elif isinstance(formatter_qrec, SymmetricQuantizationBase):
+                formatter_in_q = QType(q=0, dtype=format_node.input_dtype)
+            else:
+                raise NotImplementedError("quantization has unknown type")
+            if len(formatter_qrec.in_qs) > 0:
+                formatter_qrec.in_qs[0] = formatter_in_q
+                input_qrec.in_qs[0] = formatter_in_q
+            else:
+                formatter_qrec.in_qs.append(formatter_in_q)
+                input_qrec.in_qs.append(formatter_in_q)
+            input_qrec.out_qs[0] = formatter_in_q
+        G.quantization[NodeId(format_node)] = formatter_qrec
+
+    G.insert_node(format_node, out_edge.from_node.name,
+                  out_edge.to_node.name, to_idx=out_edge.to_idx)
+
+def remove_formatter(G, out_edge):
+    input_node = out_edge.from_node
+    fmt_node = out_edge.to_node
+    fmt_edge = G.out_edges(fmt_node.name)[0]
+    fmt_qrec = G.quantization and G.quantization.get(NodeId(fmt_node))
+    G.remove(fmt_node)
+    input_node.dims = fmt_node.out_dims[0]
+    input_node.out_dims_hint = fmt_node.out_dims_hint
+
+    G.add_edge(Edge(input_node, fmt_edge.to_node, to_idx=fmt_edge.to_idx))
+    if fmt_qrec:
+        input_qrec = G.quantization[NodeId(input_node)]
+        input_qrec.out_qs = fmt_qrec.out_qs
+        input_qrec.in_qs = fmt_qrec.out_qs
+        G.quantization.remove_node(fmt_node)
diff --git a/tools/nntool/interpreter/commands/nodeoption.py b/tools/nntool/interpreter/commands/nodeoption.py
new file mode 100644
index 000000000..7ebc5fd37
--- /dev/null
+++ b/tools/nntool/interpreter/commands/nodeoption.py
@@ -0,0 +1,89 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from cmd2 import Cmd2ArgumentParser, with_argparser
+from interpreter.nntool_shell_base import NNToolShellBase
+from utils.node_id import NodeId
+
+def nodeoption_choices_method(self, arg_tokens):
+    step_num = arg_tokens['step'][0]
+    if step_num == '*':
+        keys = []
+        for step in self.G.graph_state.steps:
+            node = step['node']
+            keys.extend(node.at_options.valid_options.keys())
+        return keys
+    try:
+        step_num = int(step_num)
+        node = self.G.graph_state.steps[step_num]['node']
+        return node.at_options.valid_options.keys()
+    except ValueError:
+        return []
+
+def nodename_choices_method(self, arg_tokens):
+    step_start = arg_tokens['step'][0]
+    try:
+        _ = int(step_start)
+        return []
+    except ValueError:
+        return [step['node'].name for step in self.G.graph_state.steps if step['node'].name.startswith(step_start)] + ["*"]
+
+class NodeoptionCommand(NNToolShellBase):
+    # nodeoption COMMAND
+    parser_nodeoption = Cmd2ArgumentParser()
+    parser_nodeoption.add_argument('step', nargs=(0, 1), choices_method=nodename_choices_method, help='Set this step number or name')
+    parser_nodeoption.add_argument('parameter', nargs=(
+        0, 1), choices_method=nodeoption_choices_method, help='Set this parameter')
+    parser_nodeoption.add_argument('value', nargs=(0, 1), help='Set the parameter to this value')
+
+    @with_argparser(parser_nodeoption)
+    def do_nodeoption(self, args):
+        """ Allows setting of autotiler generator control parameters and other code generation
+options such as the location of inputs and outputs. For a complete set of the parameters that
+can be set refer to the autotiler documentation."""
+        self._check_graph()
+        if args.step is None or (args.step == '*' and args.parameter is None):
+            for nodeid, elem in self.G.node_options.items():
+                print("{}: {}".format(nodeid, elem))
+            return
+
+        if args.step == '*':
+            nodes = [step['node'] for step in self.G.graph_state.steps]
+        else:
+            try:
+                try:
+                    step = int(args.step)
+                    nodes = [self.G.graph_state.steps[step]['node']]
+                except ValueError:
+                    nodes = [self.G[args.step]]
+            except (IndexError):
+                self.perror("%s is not a valid step or node to set %s"%(args.step, args.parameter))
+                return
+
+        if args.parameter is None:
+            node_options = self.G.node_options.get(NodeId(nodes[0]))
+            if node_options:
+                print(node_options)
+            else:
+                print("nothing set")
+            return
+        if args.value is None:
+            val = None
+        else:
+            val = int(args.value)
+        for node in nodes:
+            node_options = node.at_options
+            setattr(node_options, args.parameter, val)
+            self.G.node_options[NodeId(node)] = node_options
\ No newline at end of file
diff --git a/tools/nntool/interpreter/commands/open.py b/tools/nntool/interpreter/commands/open.py
new file mode 100644
index 000000000..7fe5d4857
--- /dev/null
+++ b/tools/nntool/interpreter/commands/open.py
@@ -0,0 +1,100 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import argparse
+import os
+import logging
+from cmd2 import Cmd, Cmd2ArgumentParser, with_argparser
+from utils.new_param_state import STATE_EXTENSION, load_state
+from importer.importer import create_graph
+from interpreter.nntool_shell_base import NNToolShellBase
+from quantization.cross_layer_range_eq import weight_equalization
+
+LOG = logging.getLogger("nntool")
+
+NO_GRAPH = {
+    'G': None,
+    'graph_file': "",
+    'tensor_file': ""
+}
+
+class OpenCommand(NNToolShellBase):
+# OPEN COMMAND
+    parser_open = Cmd2ArgumentParser("open a graph file")
+    parser_open.add_argument('nnfile',
+                             completer_method=Cmd.path_complete,
+                             help='graph or state file',
+                             metavar="INPUT_GRAPH or STATE_FILE")
+    parser_open.add_argument('tensor_file',
+                             nargs=argparse.OPTIONAL,
+                             completer_method=Cmd.path_complete,
+                             help='optional tensor file')
+    parser_open.add_argument('-q', '--load_quantization',
+                             help='load TFLite quantization information', action='store_true')
+    parser_open.add_argument('-d', '--load_dequantized',
+                             help='load dequantized constant values from TFLite quantized graph', action='store_true')
+    parser_open.add_argument('-n', '--new',
+                             help='open as new graph - keep existing graph open',
+                             action='store_true')
+
+    def __open_graph(self, graph_file, tensor_file, load_quantization, load_dequantized):
+
+        graph_file = os.path.expanduser(graph_file)
+
+        _, ext = os.path.splitext(graph_file)
+
+        if ext == STATE_EXTENSION:
+            LOG.info("opening state file %s", graph_file)
+            self.graph_file = graph_file
+            self.G, extra = load_state(graph_file, return_extra=True)
+            self.settings.update(extra)
+        else:
+            LOG.info("opening graph file %s", graph_file)
+            opts = {
+                'load_tensors': True,
+                'load_quantization': load_quantization,
+                'load_dequantized': load_dequantized
+            }
+
+            G = create_graph(graph_file, opts=opts)
+            G.add_dimensions()
+            if tensor_file:
+                G.load_tensors(tensor_file)
+            self.G = G
+            self.graph_file = graph_file
+            if tensor_file is not None:
+                self.tensor_file = tensor_file
+            self.settings['load_quantization'] = bool(load_quantization)
+            if self.settings['adjust_order']:
+                LOG.info("adjusting order")
+                self.execute_adjust_order()
+            if self.settings['weight_equalization']:
+                LOG.info("equalizing weights")
+                weight_equalization(self.G, self.settings['equalization_threshold'])
+
+    @with_argparser(parser_open)
+    def do_open(self, args: argparse.Namespace):
+        """
+Open a graph or state file"""
+        if args.new:
+            # reset the current graph
+            self._graphs.append(NO_GRAPH.copy())
+            self._graph_idx = len(self._graphs) - 1
+        else:
+            # reset the current graph
+            self._graphs[self._graph_idx] = NO_GRAPH.copy()
+        self.__open_graph(args.nnfile, args.tensor_file, args.load_quantization, args.load_dequantized)
+        self._update_prompt()
+        self.py_locals['G'] = self.G
diff --git a/tools/nntool/interpreter/commands/qerror.py b/tools/nntool/interpreter/commands/qerror.py
new file mode 100644
index 000000000..389ebf8ad
--- /dev/null
+++ b/tools/nntool/interpreter/commands/qerror.py
@@ -0,0 +1,69 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from cmd2 import Cmd2ArgumentParser, with_argparser
+from interpreter.nntool_shell_base import NNToolShellBase
+from interpreter.shell_utils import (glob_input_files, input_options,
+                                     output_table, table_options)
+from utils.data_importer import import_data
+from stats.step_error_stats_collector import StepErrorStatsCollector
+from stats.error_stats_collector import ErrorStatsCollector
+from reports.error_reporter import ErrorReporter
+
+
+class QerrorCommand(NNToolShellBase):
+    # QERROR COMMAND
+    parser_qerror = Cmd2ArgumentParser()
+    parser_qerror.add_argument('-s', '--step',
+                               action='store_true',
+                               help='evaluate quantization per step. i.e.\
+                                    individually quantize each layer')
+    parser_qerror.add_argument('--compare_quantized',
+                               action='store_true',
+                               help='quantize and dequantize the float output \
+                                   to give it the same error as the quantized output of the layer')
+    parser_qerror.add_argument('-r', '--report_lowest',
+                               type=int, help='QSNR threshold below which to report filename')
+    table_options(parser_qerror, default_width=140)
+    input_options(parser_qerror)
+
+    @with_argparser(parser_qerror)
+    def do_qerror(self, args):
+        """
+Show quantization error introduced by processing one or more input files."""
+        self._check_graph()
+        self._check_quantized()
+        fmt = ('tab' if args.output is None else args.output['fmt'])
+        input_args = self._get_input_args(args)
+        if args.step:
+            stats_collector = StepErrorStatsCollector(quant_compare=args.compare_quantized)
+        else:
+            stats_collector = ErrorStatsCollector(quant_compare=args.compare_quantized)
+        cnt = 0
+        for file_per_input in glob_input_files(args.input_files, self.G.num_inputs):
+            cnt += 1
+
+            data = [import_data(input_file, **input_args) for input_file in file_per_input]
+            stat = stats_collector.collect_stats(self.G, data)
+            if args.report_lowest is not None:
+                lowest = min((elem['qsnr'] for elem in stat.values()))
+                if lowest < args.report_lowest:
+                    self.pfeedback("{} had QSNR below threshold".format(file_per_input))
+        if not cnt:
+            self.perror("no files to process")
+            return
+        tab = ErrorReporter(do_totals=(fmt != "csv"), one_input=cnt <= 1, with_chan=args.step)\
+            .report(self.G, stats_collector.reduce_stats())
+        output_table(tab, args)
diff --git a/tools/nntool/interpreter/commands/qshow.py b/tools/nntool/interpreter/commands/qshow.py
new file mode 100644
index 000000000..a3b4c85b5
--- /dev/null
+++ b/tools/nntool/interpreter/commands/qshow.py
@@ -0,0 +1,44 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+from cmd2 import Cmd2ArgumentParser, with_argparser
+
+from interpreter.nntool_shell_base import NNToolShellBase
+from interpreter.shell_utils import output_table, table_options
+from reports.quantization_reporter import QuantizationReporter
+
+LOG = logging.getLogger('nntool.'+__name__)
+
+class QshowCommand(NNToolShellBase):
+    # QSHOW COMMAND
+    parser_qshow = Cmd2ArgumentParser()
+    table_options(parser_qshow)
+    parser_qshow.add_argument('step', type=int, nargs=(0, 1), help='Limit to step number')
+    parser_qshow.add_argument('-s', '--show_wrapped',
+                              action='store_true',
+                              help='show original quantization parameters on multiplicative quantization')
+
+    @with_argparser(parser_qshow)
+    def do_qshow(self, args):
+        """
+Show current quantization settings."""
+        self._check_graph()
+        self._check_quantized()
+        tab = QuantizationReporter(step=args.step,
+                                   emit_wrapped=args.show_wrapped).report(self.G,
+                                                                          self.G.quantization)
+        output_table(tab, args)
diff --git a/tools/nntool/interpreter/commands/qtune.py b/tools/nntool/interpreter/commands/qtune.py
new file mode 100644
index 000000000..5b7f381da
--- /dev/null
+++ b/tools/nntool/interpreter/commands/qtune.py
@@ -0,0 +1,53 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from cmd2 import Cmd2ArgumentParser, with_argparser
+from interpreter.nntool_shell_base import NNToolShellBase
+from quantization.tuneq import tuneq
+
+class QtuneCommand(NNToolShellBase):
+    # QTUNE COMMAND
+    parser_tune = Cmd2ArgumentParser()
+    parser_tune.add_argument('step',
+                             type=int, help='step to tune')
+    parser_tune.add_argument('parameter',
+                             choices=['acc', 'calc', 'weights', 'biases', 'dp', 'out'],
+                             help='which parameter to tune')
+    parser_tune.add_argument('X',
+                             nargs='?',
+                             default=0,
+                             type=int, help='X of QX.Y')
+    parser_tune.add_argument('Y',
+                             nargs='?',
+                             default=0,
+                             type=int, help='Y of QX.Y')
+    parser_tune.add_argument('index',
+                             nargs='?',
+                             default=0,
+                             type=int, help='edge index')
+    parser_tune.add_argument('-f',
+                             '--sub_step_fusion',
+                             type=int,
+                             help='index of the subnode for qtune inside of a fused one')
+
+    @with_argparser(parser_tune)
+    def do_qtune(self, args):
+        """
+Tune quantization of graph."""
+        self._check_graph()
+        self._check_quantized()
+
+        tuneq(self.G, self.G.quantization, args.step,
+              args.parameter, args.X, args.Y, index=args.index)
diff --git a/tools/nntool/interpreter/commands/range_equalization.py b/tools/nntool/interpreter/commands/range_equalization.py
new file mode 100644
index 000000000..b65e01702
--- /dev/null
+++ b/tools/nntool/interpreter/commands/range_equalization.py
@@ -0,0 +1,81 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import argparse
+from cmd2 import Cmd2ArgumentParser, with_argparser
+from interpreter.nntool_shell_base import NNToolShellBase
+from interpreter.shell_utils import glob_input_files, input_options
+from utils.data_importer import import_data
+from stats.step_error_stats_collector import StepErrorStatsCollector
+from quantization.cross_layer_range_eq import adjust_biases, weight_equalization
+
+class WeightEqualizationCommand(NNToolShellBase):
+    # WEIGHT_EQUALIZATION COMMAND
+    parser_we = Cmd2ArgumentParser()
+    parser_we.add_argument('threshold',
+                           type=float, default=0.1,
+                           help='convergence threshold')
+
+    def execute_weight_equalization(self, threshold):
+        if not (threshold > 0 and threshold < 10):
+            self.perror("threshold should be 10 > x > 0")
+        weight_equalization(self.G, threshold=threshold)
+
+    @with_argparser(parser_we)
+    def do_weight_equalization(self, args: argparse.Namespace):
+        """
+Run weight equalization on graph. This reduces variance between weight
+channels and may improve quantization accuracy."""
+        self._check_graph()
+        self.execute_weight_equalization(args.threshold)
+
+class BalanceFiltersCommand(NNToolShellBase):
+    # BALANCE_FILTERS COMMAND
+    parser_bf = Cmd2ArgumentParser()
+    parser_bf.add_argument('-s', '--step',
+                           type=int, help='step to balance. should be a convolution')
+    parser_bf.add_argument('-t', '--threshold',
+                           default=0.20,
+                           type=float, help='precision threshold of weights below which a layer should be balanced')
+
+    @with_argparser(parser_bf)
+    def do_balance_filters(self, args: argparse.Namespace):
+        """
+Balance filter weights. THis will reduce variance in weights and will result in
+a more balanced quantization at the expense of a multiplicative bias calculation."""
+        self._check_graph()
+        self.G.balance_filters(step_idx=args.step, precision_threshold=args.threshold)
+        self.G.quantization = None
+
+class BcorrCommand(NNToolShellBase):
+    # BCORR COMMAND
+    parser_bcorr = Cmd2ArgumentParser()
+    input_options(parser_bcorr)
+
+    @with_argparser(parser_bcorr)
+    def do_bcorr(self, args):
+        """
+Correct biases with average quantization error."""
+        self._check_graph()
+        self._check_quantized()
+        stats_collector = StepErrorStatsCollector()
+        input_args = self._get_input_args(args)
+        cnt = 0
+        for file_per_input in glob_input_files(args.input_files, self.G.num_inputs):
+            cnt += 1
+            data = [import_data(filename, **input_args) for filename in file_per_input]
+            stats_collector.collect_stats(self.G, data)
+
+        adjust_biases(self.G, stats_collector.reduce_stats())
diff --git a/tools/nntool/interpreter/commands/save_state.py b/tools/nntool/interpreter/commands/save_state.py
new file mode 100644
index 000000000..cf8b7765b
--- /dev/null
+++ b/tools/nntool/interpreter/commands/save_state.py
@@ -0,0 +1,47 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import argparse
+import configparser
+import os
+from functools import partial
+from cmd2 import Cmd, Cmd2ArgumentParser, with_argparser
+from interpreter.nntool_shell_base import NNToolShellBase
+from interpreter.shell_utils import filter_dirs
+from generation.autotiler_options import DEFAULT_GEN_OPTS
+from utils.new_param_state import dump_state
+
+class SaveStateCommand(NNToolShellBase):
+    # SAVE_STATE COMMAND
+    parser_save_state = Cmd2ArgumentParser()
+    parser_save_state.add_argument('output',
+                                   completer_method=Cmd.path_complete,
+                                   nargs=argparse.OPTIONAL,
+                                   help='file to write to')
+
+    @with_argparser(parser_save_state)
+    def do_save_state(self, args):
+        """
+Save the state of the transforms and quantization of the graph.
+This state file can be used to generate the model file as part of
+a build script. If no argument is given then the state files
+will be saved in the same directory as the graph. If a directory is
+given then the state files will be saved in it with the graph
+basename. If a filename is given, its basename will be used to
+save the state files."""
+        self._check_graph()
+        self._check_quantized()
+        gen_opts = {k: self.settings[k] for k in DEFAULT_GEN_OPTS}
+        dump_state(self.G, state_path=args.output, extra=gen_opts)
diff --git a/tools/nntool/interpreter/commands/stats.py b/tools/nntool/interpreter/commands/stats.py
new file mode 100644
index 000000000..03738d014
--- /dev/null
+++ b/tools/nntool/interpreter/commands/stats.py
@@ -0,0 +1,59 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import argparse
+from cmd2 import Cmd2ArgumentParser, with_argparser
+from interpreter.nntool_shell_base import NNToolShellBase
+from interpreter.shell_utils import output_table, table_options
+from reports.filter_reporter import (FilterDetailedStatsReporter,
+                                     FilterStatsReporter)
+from stats.filter_stats_collector import (FilterDetailedStatsCollector,
+                                          FilterStatsCollector)
+
+class StatsCommand(NNToolShellBase):
+    # STATS COMMAND
+    parser_stats = Cmd2ArgumentParser("display statistics on globals")
+    parser_stats.add_argument('-d', '--detailed',
+                              action="store_true", help='Dump detailed statistics')
+    parser_stats.add_argument('-q', '--qsnr',
+                              type=float, default=30.0, help='QSNR threshold')
+    parser_stats.add_argument('-s', '--step',
+                              type=int,
+                              nargs=(1, 2),
+                              help='display information by channel for step')
+    table_options(parser_stats, default_width=180)
+
+    @with_argparser(parser_stats)
+    def do_stats(self, args: argparse.Namespace):
+        """
+Display statistics on weights and biases"""
+        self._check_graph()
+        fmt = ('tab' if args.output is None else args.output['fmt'])
+        if args.detailed:
+            stats_collector = FilterDetailedStatsCollector()
+            stats = stats_collector.collect_stats(self.G)
+            tab = FilterDetailedStatsReporter().report(self.G, stats)
+        else:
+            step_idx = args.step
+            if step_idx is not None:
+                if len(step_idx) == 1:
+                    step_idx = step_idx[0]
+                else:
+                    step_idx = tuple(step_idx)
+            stats_collector = FilterStatsCollector()
+            stats = stats_collector.collect_stats(self.G, step_idx=step_idx)
+            tab = FilterStatsReporter(do_totals=(fmt != "csv"), threshold=args.qsnr, step_idx=step_idx)\
+                .report(self.G, stats)
+        output_table(tab, args)
diff --git a/tools/nntool/interpreter/commands/temps.py b/tools/nntool/interpreter/commands/temps.py
new file mode 100644
index 000000000..7c312d428
--- /dev/null
+++ b/tools/nntool/interpreter/commands/temps.py
@@ -0,0 +1,36 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from cmd2 import Cmd, Cmd2ArgumentParser, with_argparser
+from interpreter.nntool_shell_base import NNToolShellBase
+from interpreter.shell_utils import table_options, output_table
+from stats.temps_stats_collector import TempsStatsCollector
+from reports.temps_reporter import TempsReporter
+
+class TempsCommand(NNToolShellBase):
+    # TEMPS COMMAND
+    parser_temps = Cmd2ArgumentParser()
+    table_options(parser_temps, default_width=140)
+
+    @with_argparser(parser_temps)
+    def do_temps(self, args):
+        """
+Show statistics on activations."""
+        self._check_graph()
+        fmt = ('tab' if args.output is None else args.output['fmt'])
+        stats_collector = TempsStatsCollector()
+        stats = stats_collector.collect_stats(self.G)
+        tab = TempsReporter(do_totals=(fmt != "csv")).report(self.G, stats)
+        output_table(tab, args)
diff --git a/tools/nntool/interpreter/commands/tensors.py b/tools/nntool/interpreter/commands/tensors.py
new file mode 100644
index 000000000..025710c72
--- /dev/null
+++ b/tools/nntool/interpreter/commands/tensors.py
@@ -0,0 +1,197 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+import numpy as np
+from cmd2 import Cmd, Cmd2ArgumentParser, with_argparser
+
+from interpreter.nntool_shell_base import NNToolShellBase
+from interpreter.shell_utils import print_comparison
+from utils.gap_tensor_file import read_gap_tensors, write_gap_tensor
+from utils.stats_funcs import qsnr
+from utils.at_tensor_loader import at_map_tensors, at_tensor_loader
+
+LOG = logging.getLogger('nntool.'+__name__)
+
+
+class TensorsCommand(NNToolShellBase):
+    # TENSORS_COMMAND
+    parser_tensors = Cmd2ArgumentParser()
+    parser_tensors.add_argument('-c', '--channel',
+                                nargs=(1, 2),
+                                type=int,
+                                help='channel to compare')
+    parser_tensors.add_argument('-s', '--step',
+                                type=int,
+                                help='step to compare')
+    parser_outexclu = parser_tensors.add_mutually_exclusive_group()
+    parser_outexclu.add_argument('-Q', '--compare_qsnr',
+                                 action='store_true',
+                                 help='compare two tensors QSNR')
+    parser_outexclu.add_argument('-E', '--compare_error',
+                                 action='store_true',
+                                 help='compare two tensors error (first - second)')
+    parser_tensors.add_argument('-n', '--name',
+                                type=str,
+                                choices_method=lambda x: x.tensor_store_names,
+                                help='name to use for the tensor in the tensor store')
+    parser_tensors.add_argument('--write_numpy',
+                                type=str,
+                                completer_method=Cmd.path_complete,
+                                help='write a tensor in npy format. you must select a step. ' +
+                                'the output of this step is written. specify a single tensor with ' +
+                                'the -t option.')
+    parser_tensors.add_argument('-m', '--make_filename',
+                                type=str,
+                                completer_method=Cmd.path_complete,
+                                help='write a makefile including the dimensions of the tensor written ' +
+                                'and the dimensions of the input to the node that produced it.')
+    parser_texclu1 = parser_tensors.add_mutually_exclusive_group()
+    parser_texclu1.add_argument('-W', '--weights',
+                                action='store_true',
+                                help='compare weights')
+    parser_texclu1.add_argument('-B', '--biases',
+                                action='store_true',
+                                help='compare biases')
+    parser_texclu2 = parser_tensors.add_mutually_exclusive_group()
+    parser_texclu2.add_argument('-t', '--tensors',
+                                nargs=(1, 2),
+                                type=str,
+                                choices_method=lambda x: x.tensor_store_names,
+                                help='compare two tensors')
+    parser_texclu2.add_argument('-g', '--gap_load',
+                                completer_method=Cmd.path_complete,
+                                help='load tensors dumped by autotiler code. ' +
+                                'Supply the filename and' +
+                                ' an optional tensor store name. If none is given' +
+                                ' the filename will be used.')
+    parser_texclu2.add_argument('-X', '--clear',
+                                action='store_true',
+                                help='clears the tensor store')
+
+    @with_argparser(parser_tensors)
+    def do_tensors(self, args):
+        """
+Load and manipulate tensors. If no option is supplied the saved tensors will be listed.
+All the tensors in the store are available in dictionary 'tensors' in the python console
+accessed by the command 'py'. Tensors can be displayed side by side or the average absolute
+error or QSNR displayed. If a step is selected then the error by channel will be displayed."""
+        if args.clear:
+            self.pfeedback('tensor store cleared')
+            self.tensor_store.clear()
+            return
+        if args.gap_load:
+            store_name = args.gap_load if not args.name else args.name
+            self.tensor_store[store_name] = at_map_tensors(self.G, at_tensor_loader(args.gap_load))
+            return
+        if args.tensors:
+            if len(args.tensors) == 1:
+                tensor_name = args.tensors[0]
+                tensors = self.tensor_store.get(tensor_name)
+                if tensors is None:
+                    self.perror("{} not in store".format(tensor_name))
+                    return
+                if args.step is None:
+                    self.perror("you must select a step")
+                    return
+                if args.step >= len(tensors):
+                    self.perror("{} doesn't have that step".format(tensor_name))
+                    return
+                if tensors[args.step] is None:
+                    self.perror("{} doesn't have this tensor for that step".format(tensor_name))
+                    return
+                tensor = tensors[args.step]
+
+                if args.weights:
+                    tensor = tensor[1]
+                elif args.biases:
+                    tensor = tensor[2]
+                else:
+                    tensor = tensor[0]
+                if args.write_numpy:
+                    np.save(args.write_numpy, tensor)
+                else:
+                    self.perror("not sure what to do with this single tensor")
+                return
+
+            compare = args.tensors
+            tensors = [None]*2
+            for i in range(2):
+                tensors[i] = self.tensor_store.get(compare[i])
+                if tensors[i] is None:
+                    self.perror("{} not in store".format(compare[i]))
+                    return
+                if args.weights:
+                    tensors[i] = [t[1] for t in tensors[i]]
+                elif args.biases:
+                    tensors[i] = [t[2] for t in tensors[i]]
+                else:
+                    tensors[i] = [t[0] for t in tensors[i]]
+
+            if args.step is not None:
+                for i in range(2):
+                    if args.step >= len(tensors[i]):
+                        self.perror("{} doesn't have that step".format(compare[i]))
+                        return
+                    if tensors[i][args.step] is None:
+                        self.perror(
+                            "{} doesn't have this tensor for that step".format(compare[i]))
+                        return
+                    tensors[i] = [tensors[i][args.step]]
+
+            if args.channel is not None:
+                for i in range(2):
+                    for j, tensor in enumerate(tensors[i]):
+                        if len(tensor.shape) <= len(args.channel):
+                            self.perror("selected too many channels for this tensor")
+                        for c in args.channel:
+                            tensor = tensor[c]
+                        tensors[i][j] = tensor
+
+            if args.compare_qsnr or args.compare_error:
+                if args.compare_qsnr:
+                    def func(x, y):
+                        if x is not None and y is not None:
+                            return qsnr(x.astype(np.float), y.astype(np.float))
+                        return float('nan')
+                else:
+                    def func(x, y):
+                        if x is not None and y is not None:
+                            return np.abs(x - y)
+                        return float('nan')
+
+                if args.step is not None:
+                    print("error for step %s" % args.step)
+                    if args.channel is not None:
+                        print("error for dimensions [%s]" %
+                              (",".join([str(chan) for chan in args.channel])))
+#pylint: disable=unsubscriptable-object
+                    out = [func(tensors[0][0][i], tensors[1][0][i])
+                           for i in range(len(tensors[0][0]))]
+                else:
+                    out = [func(t1, t2)
+                           for t1, t2 in zip(*tensors)]
+                for idx, val in enumerate(out):
+                    if idx % 10 == 0:
+                        print("\n{:03d} {:03d}:  ".format(idx, idx+9), end='')
+                    print('{}{}'.format(val, "" if (idx + 1) % 10 == 0 else ", "), end='')
+                print()
+            else:
+                self.ppaged("\n".join(print_comparison(tensors)))
+            return
+
+        for idx, k in enumerate(self.tensor_store):
+            print("{:3d}) {}".format(idx, k))
diff --git a/tools/nntool/interpreter/commands/validation.py b/tools/nntool/interpreter/commands/validation.py
new file mode 100644
index 000000000..37fa53f1d
--- /dev/null
+++ b/tools/nntool/interpreter/commands/validation.py
@@ -0,0 +1,144 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import argparse
+import logging
+
+import numpy as np
+from cmd2 import Cmd, Cmd2ArgumentParser, with_argparser
+
+from execution.graph_executer import GraphExecuter
+from execution.quantization_mode import QuantizationMode
+from execution.execution_progress import ExecutionProgress
+from interpreter.nntool_shell_base import NNToolShellBase
+from interpreter.shell_utils import (glob_input_files,
+                                     input_options)
+from utils.data_importer import import_data
+from utils.validation_utils import ValidateFromJSON, ValidateFromName, ValidateFromClass, ValidateFromVWWInstances
+
+LOG = logging.getLogger('nntool.'+__name__)
+
+
+class ValidationCommand(NNToolShellBase):
+    # VAL COMMAND
+    parser_val = Cmd2ArgumentParser()
+    parser_val.add_argument('-q', '--quantize', action='store_true',
+                            help='quantize the graph (must have already set quantization)')
+    parser_val.add_argument('-s', '--silent', action='store_true',
+                            help='do not print progress for each input')
+    parser_val.add_argument('--dataset_dir',
+                            completer_method=Cmd.path_complete,
+                            help='path to the directory of samples for test')
+    parser_val_group = parser_val.add_mutually_exclusive_group(required=False)
+    parser_val_group.add_argument('--label_json',
+                                  default=None,
+                                  completer_method=Cmd.path_complete,
+                                  help='path to the .json object containing labels annotation \
+                                        { "filename0" : label0, "filename1": label1, ... }')
+    parser_val_group.add_argument('--class_number',
+                                  default=None,
+                                  type=int,
+                                  help='Number of a single class that all should match')
+    parser_val.add_argument('--progress_every',
+                            default=100,
+                            type=int,
+                            help='print accuracy every n computed predictions')
+    parser_val_group.add_argument('--vww_instances_file',
+                                  default=None,
+                                  completer_method=Cmd.path_complete,
+                                  help='path to the .json object containing labels instances\
+                                        with the visualwakewords format:\
+                                        instances = {images, annotations, categories}\
+                                        instances["images"] = { file_name:.., image_id:.. }\
+                                        instances["annotations"] = { image_id:.., label:..}')
+    input_options(parser_val)
+
+    @with_argparser(parser_val)
+    def do_validate(self, args: argparse.Namespace):
+        """
+Validate the model (quantized [-q] or not) in terms of prediction accuracy rate on a given dataset (images
+folder). Ground truth labels can be embedded in files names ("filename_03.[png, ppm, pgm]", the number of
+digits must be coherent with the number of networks outputs: e.g. in a 1000 classes problem the last digits
+must be 3, "file_45.png" will raise an error) or can be written in a .json object (example: {'file0':label0,
+'file1':label1, ...}) and given to the function with --label_json
+"""
+        self._check_graph()
+        if args.quantize:
+            qmode = QuantizationMode.all_dequantize()
+        else:
+            qmode = QuantizationMode.none()
+
+        LOG.info("quantization mode - %s", qmode)
+        input_args = self._get_input_args(args)
+
+        good_predictions = []
+        good_margin = 0
+        bad_margin = 0
+
+        number_samples = sum(1 for _ in glob_input_files(args.input_files))
+
+        if args.vww_instances_file:
+            validation = ValidateFromVWWInstances(args.vww_instances_file)
+        elif args.label_json:
+            validation = ValidateFromJSON(args.label_json)
+        elif args.class_number is not None:
+            validation = ValidateFromClass(args.class_number)
+        else:
+            validation = ValidateFromName()
+
+        try:
+            ExecutionProgress.start()
+            for i, file_per_input in enumerate(glob_input_files(args.input_files, self.G.num_inputs)):
+                if not args.silent:
+                    LOG.info("input file %s", file_per_input)            
+                data = [import_data(input_file, **input_args) for input_file in file_per_input]
+
+                executer = GraphExecuter(self.G, qrecs=self.G.quantization)
+                outputs = executer.execute(data, qmode=qmode, silent=args.silent)
+
+                good_prediction, class_predicted, real_class, margin = validation.validate(
+                    file_per_input[0], np.asarray(outputs[-1]))
+                good_predictions.append(good_prediction)
+                if good_prediction:
+                    good_margin += margin
+                else:
+                    bad_margin += margin
+
+                if not args.silent:
+                    LOG.info('Prediction is %s predicted %s correct %s margin %s',
+                             good_prediction, class_predicted, real_class, margin)
+                if not i % args.progress_every and i > 0:
+                    LOG.info('ACCURACY: %.3f %%', 100*sum(good_predictions)/len(good_predictions))
+
+                ExecutionProgress.progress(i, number_samples)
+            ExecutionProgress.end()
+
+        except (KeyboardInterrupt, SystemExit):
+            pass
+
+        self.py_locals['labels'] = validation.labels
+        self.py_locals['predictions'] = validation.predictions
+        cnt = len(good_predictions)
+        if cnt:
+            ngood = sum(good_predictions)
+            nbad = cnt - ngood
+            if nbad:
+                LOG.info("%s out of %s predicted falsly with %s average margin",
+                         nbad, cnt, bad_margin / nbad)
+            if ngood:
+                LOG.info("%s out of %s predicted correctly with %s average margin",
+                         ngood, cnt, good_margin / ngood)
+            accuracy_rate = 100*sum(good_predictions)/len(good_predictions)
+            LOG.info('Total accuracy: %.3f %%', accuracy_rate)
diff --git a/tools/nntool/interpreter/generator.py b/tools/nntool/interpreter/generator.py
index c66a95fc2..1de1571d3 100644
--- a/tools/nntool/interpreter/generator.py
+++ b/tools/nntool/interpreter/generator.py
@@ -20,7 +20,7 @@
 
 from generation.code_generator import CodeGenerator
 from generation.naming_convension import DefaultNamingConvension
-from generation.default_template import default_template, dynamic_template
+from generation.default_template import default_template, dynamic_template, header_template
 
 from utils.new_param_state import load_state
 
@@ -72,6 +72,9 @@ def generate_code(args):
         sys.exit(1)
     with open(model_path, "w") as output_fp:
         output_fp.write(model)
+    if args.header_file:
+        with open(os.path.join(opts['model_directory'], args.header_file), "w") as output_fp:
+            output_fp.write(header_template(G, code_generator=code_gen))
     if not args.dont_dump_tensors:
         LOG.info("Writing constants to %s", opts['model_directory'])
         code_gen.write_constants()
diff --git a/tools/nntool/interpreter/nntool_shell.py b/tools/nntool/interpreter/nntool_shell.py
index 1328ff0ca..9f7bd0470 100644
--- a/tools/nntool/interpreter/nntool_shell.py
+++ b/tools/nntool/interpreter/nntool_shell.py
@@ -13,75 +13,33 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program.  If not, see <https://www.gnu.org/licenses/>.
 
-import argparse
-import configparser
 import logging
-import os
-import pickle
-from functools import partial
-from itertools import chain
-import json
 
-import numpy as np
-from cmd2 import (Cmd, Cmd2ArgumentParser, CompletionItem, EmptyStatement,
-                  with_argparser)
-from cmd2.utils import cast as cmd2_cast
-
-from execution.execute_graph import ExecutionProgress, execute, execute_validation
-from execution.quantization_mode import QuantizationMode
-from generation.code_generator import (DEFAULT_GEN_OPTS,
-                                       DEFAULT_GEN_OPTS_DESCRIPTIONS,
-                                       CodeGenerator)
-from generation.default_template import default_template, dynamic_template, header_template
-from generation.naming_convension import DefaultNamingConvension
-from graph.matches.matches import get_fusion, get_fusions, get_std_match_group
-from graph.types.others import InputOutputParameters
-from graph.manipulations.extract import extract_node
-from importer.importer import create_graph
-from quantization.cross_layer_range_eq import (adjust_biases,
-                                               weight_equalization)
-from quantization.simple_auto_quantify import SimpleQuantizer
-from quantization.tuneq import tuneq
-from quantization.adjust_relun import adjust_relun
-from reports.activation_reporter import ActivationReporter
-from reports.error_reporter import ErrorReporter
-from reports.filter_reporter import (FilterDetailedStatsReporter,
-                                     FilterStatsReporter)
-from reports.graph_reporter import GraphReporter
-from reports.quantization_reporter import QuantizationReporter
-from reports.temps_reporter import TempsReporter
-from stats.activation_stats_collector import ActivationStatsCollector
-from stats.error_stats_collector import ErrorStatsCollector
-from stats.fake_filter_stats_collector import FakeFilterStatsCollector
-from stats.filter_stats_collector import (FilterDetailedStatsCollector,
-                                          FilterStatsCollector)
-from stats.step_error_stats_collector import StepErrorStatsCollector
-from stats.temps_stats_collector import TempsStatsCollector
-from utils.data_importer import MODES, import_data
-from utils.gap_tensor_file import read_gap_tensors, write_gap_tensor
-from utils.intermediate_cache import IntermediateCache
-from utils.new_param_state import STATE_EXTENSION, dump_state, load_state
-from utils.stats_funcs import STATS_BITS, qsnr
-from utils.node_id import NodeId
-from utils.validation_utils import ValidateFromName, ValidateFromJSON
-
-from .shell_utils import (NNToolShellLogHandler, filter_dirs, find_choice,
-                          format_dump_file, glob_input_files, input_options,
-                          output_table, print_comparison, table_options)
+from interpreter.nntool_shell_base import NNToolShellBase
+from .commands.dump import DumpCommand, RoundingCommand
+from .commands.tensors import TensorsCommand
+from .commands.validation import ValidationCommand
+from .commands.gen import GenCommand
+from .commands.nodeoption import NodeoptionCommand
+from .commands.adjust import AdjustCommand
+from .commands.freeze import FreezeCommand
+from .commands.fusions import FusionsCommand
+from .commands.graph import GraphCommand
+from .commands.imageformat import ImageFormatCommand
+from .commands.open import OpenCommand
+from .commands.save_state import SaveStateCommand
+from .commands.aquant import AquantCommand
+from .commands.fquant import FquantCommand
+from .commands.qerror import QerrorCommand
+from .commands.qtune import QtuneCommand
+from .commands.range_equalization import (
+    BalanceFiltersCommand, BcorrCommand, WeightEqualizationCommand)
+from .commands.qshow import QshowCommand
+from .commands.astats import AstatsCommand
+from .commands.temps import TempsCommand
 
 LOG = logging.getLogger("nntool")
 
-CHECK_GRAPH_ERROR = """
-A graph must be opened to use this command. Use the open command to open a graph.
-"""
-
-CHECK_QUANTIZED_ERROR = """
-The opened graph must be quantized to use this command. Run the aquant command.
-"""
-
-CHECK_ADJUSTED_ERROR = """
-The opened graph must be adjusted to use this command. Run the adjust command.
-"""
 
 VALID_LOG_LEVELS = [
     "INFO",
@@ -89,1627 +47,38 @@
     "WARNING"
 ]
 
-EXTRA_PROPERTIES = {
-    'log_level': 'set logging level (one of {} or number)'.format(", ".join(VALID_LOG_LEVELS)),
-    'enable_cache': 'enable value caching',
-    'load_quantization': 'load TFLITE quantization information',
-    'fusions': 'run standard graph fusions on graph load',
-    'adjust_order': 'adjust activation and parameter dimension order\
-         to match autotiler on graph load',
-    'weight_equalization': 'equalize weights on graph load',
-    'equalization_threshold': 'threshold for weight equalization convergence',
-    'adjust_image': 'adjust image input size and channels',
-    'image_width': 'input image width',
-    'image_height': 'input image height',
-    'image_mode': 'input image mode (one of {})'.format(", ".join(MODES.keys())),
-    'input_divisor': "divide input tensor values by this value",
-    'input_offset': "add this value to input tensor values",
-    'input_norm_func': "lambda function in the form x: fn(x) where x is any input",
-    'graph_name': 'name of the graph used for code generation',
-    'template_file': 'template file used for code generation'
-}
+COMMANDS = [
+    AquantCommand,
+    QshowCommand,
+    DumpCommand,
+    TensorsCommand,
+    ValidationCommand,
+    WeightEqualizationCommand,
+    OpenCommand,
+    SaveStateCommand,
+    GenCommand,
+    NodeoptionCommand,
+    AdjustCommand,
+    FreezeCommand,
+    FusionsCommand,
+    GraphCommand,
+    FquantCommand,
+    QerrorCommand,
+    BalanceFiltersCommand,
+    BcorrCommand,
+    AstatsCommand,
+    TempsCommand,
+    RoundingCommand,
+    QtuneCommand,
+    ImageFormatCommand
+]
 
-NO_GRAPH = {
-    'G': None,
-    'graph_file': "",
-    'tensor_file': ""
-}
 
-# pylint: disable=too-many-public-methods
+class CommandMixer(type):
+    def __new__(cls, name, base, ns):
+        return type.__new__(cls, name, tuple(COMMANDS + list(base)), ns)
 
 
-class NNToolShell(Cmd):
+class NNToolShell(NNToolShellBase, metaclass=CommandMixer):
     intro = 'Welcome to NNTOOL. Type help or ? to list commands.\n'
     prompt = '(NNT) '
-
-    def __init__(self, args, nntool_workdir, *rest, **kwargs):
-        super().__init__(*rest, **kwargs)
-        self._nntool_workdir = nntool_workdir
-        self.settable.update(EXTRA_PROPERTIES)
-        self.settable.update(DEFAULT_GEN_OPTS_DESCRIPTIONS)
-
-        self.settings = {
-            'enable_cache': True,
-            'cache_dir': './.value_cache',
-            'load_quantization': False,
-            'fusions': False,
-            'adjust_order': False,
-            'weight_equalization': False,
-            'equalization_threshold': 0.1,
-            'adjust_image': False,
-            'image_width': -1,
-            'image_height': -1,
-            'image_mode': "",
-            'image_transpose': False,
-            'input_norm_func': "",
-            'input_divisor': 128,
-            'input_offset': -1,
-            'input_shift': 0,
-            'log_level': 'INFO',
-            'graph_file': "",
-            'tensor_file': "",
-            'template_file': ""
-        }
-
-        self.settings.update(DEFAULT_GEN_OPTS)
-
-        self.execute_load_settings()
-
-        if args and args.log_level is not None:
-            self.settings['log_level'] = args.log_level.upper()
-
-        self._graph_idx = 0
-        self._tensor_store = {}
-        self.py_locals['tensors'] = self._tensor_store
-
-        self.astats_collector = None
-
-        # settings overide graph file
-        graph_file = self.settings['graph_file']
-        tensor_file = self.settings['tensor_file']
-
-        # command line overides that
-        if args:
-            if args.graph_file:
-                graph_file = args.graph_file
-
-            if args.tensor_file:
-                tensor_file = args.tensor_file
-
-            if args.template_file:
-                self.settings['template_file'] = args.template_file
-
-            if args.tf_quant:
-                self.settings['load_quantization'] = args.tf_quant
-
-        if 'log_level' not in self.settings:
-            self.settings['log_level'] = "INFO"
-
-        if graph_file:
-            self._graphs = []
-            self._startup_commands.append(self.__build_open_graph(
-                graph_file,
-                tensor_file,
-                self.load_quantization
-            ))
-        else:
-            self._graphs = [
-                NO_GRAPH.copy()
-            ]
-
-        ExecutionProgress().listen(partial(NNToolShell.progress, self))
-        LOG.propagate = False
-        handler = NNToolShellLogHandler(self)
-        formatter = logging.Formatter('%(module)s - %(message)s')
-        handler.setFormatter(formatter)
-        LOG.addHandler(handler)
-        LOG.setLevel(self.settings['log_level'])
-
-    @property
-    def tensor_store_names(self):
-        return self._tensor_store.keys()
-
-    def progress(self, step_idx, name, is_cached=False):
-        del is_cached
-        if not step_idx:
-            return
-        print("{}\r{} {}\r".format(" " * 70, step_idx, name), end="")
-
-    def __getattr__(self, k):
-        if k in DEFAULT_GEN_OPTS:
-            return self.settings[k]
-
-    def __setattr__(self, k, val):
-        if k in DEFAULT_GEN_OPTS:
-            self.settings[k] = val
-        super(NNToolShell, self).__setattr__(k, val)
-
-    def run_script(self, script_path):
-        expanded_path = os.path.abspath(os.path.expanduser(script_path))
-
-        # Make sure the path exists and we can access it
-        if not os.path.exists(expanded_path):
-            self.perror("'{}' does not exist or cannot be accessed".format(expanded_path))
-            return
-
-        # Make sure expanded_path points to a file
-        if not os.path.isfile(expanded_path):
-            self.perror("'{}' is not a file".format(expanded_path))
-            return
-
-        # An empty file is not an error, so just return
-        if os.path.getsize(expanded_path) == 0:
-            return
-
-        try:
-            # Read all lines of the script
-            with open(expanded_path, encoding='utf-8') as target:
-                script_commands = target.read().splitlines()
-        except OSError as ex:  # pragma: no cover
-            self.pexcept("Problem accessing script from '{}': {}".format(expanded_path, ex))
-            return
-
-        orig_script_dir_count = len(self._script_dir)
-
-        try:
-            self.runcmds_plus_hooks(self._startup_commands)
-            self._startup_commands.clear()
-            self._script_dir.append(os.path.dirname(expanded_path))
-            return self.runcmds_plus_hooks(script_commands)
-
-        finally:
-            with self.sigint_protection:
-                # Check if a script dir was added before an exception occurred
-                if orig_script_dir_count != len(self._script_dir):
-                    self._script_dir.pop()
-
-    # HELPERS / Properties
-
-    @property
-    def G(self):
-        return self._graphs[self._graph_idx]['G']
-
-    @G.setter
-    def G(self, val):
-        self._graphs[self._graph_idx]['G'] = val
-
-    @property
-    def graph_name(self):
-        if self._graph_idx is None:
-            return ""
-        return self._graphs[self._graph_idx]['G'].name
-
-    @graph_name.setter
-    def graph_name(self, val):
-        if self._graph_idx is None:
-            return
-        self._graphs[self._graph_idx]['G'].name = val
-
-    @property
-    def is_quantized(self):
-        return self._graphs[self._graph_idx]['G'].quantization is not None
-
-    @property
-    def is_adjusted(self):
-        return self._graphs[self._graph_idx]['G'].graph_identity.is_adjusted
-
-    @property
-    def is_equalized(self):
-        return self._graphs[self._graph_idx]['G'].graph_identity.is_equalized
-
-    @property
-    def graph_file(self):
-        return self._graphs[self._graph_idx]['graph_file']
-
-    @graph_file.setter
-    def graph_file(self, val):
-        self._graphs[self._graph_idx]['graph_file'] = val
-
-    @property
-    def tensor_file(self):
-        return self._graphs[self._graph_idx]['tensor_file']
-
-    @tensor_file.setter
-    def tensor_file(self, val):
-        self._graphs[self._graph_idx]['tensor_file'] = val
-
-    def inputs_and_outputs(self):
-        if self.G is None:
-            return []
-        return [node.name for node in chain(self.G.inputs_and_constants(), self.G.outputs())]
-
-    def other_open_graphs(self, only_open=False):
-        items = []
-        for graph_idx, graph in enumerate(self._graphs):
-            if graph_idx == self._graph_idx:
-                continue
-            if graph['G'] is None:
-                if only_open:
-                    continue
-                name = "No Graph"
-            else:
-                name = graph['G'].name
-            items.append(CompletionItem(graph_idx, name))
-        return items
-
-    def _check_graph(self):
-        if self.G is None:
-            self.perror(CHECK_GRAPH_ERROR)
-            raise EmptyStatement()
-
-    def _check_quantized(self):
-        if not self.is_quantized:
-            self.perror(CHECK_QUANTIZED_ERROR)
-            raise EmptyStatement()
-
-    def _update_prompt(self):
-        self.prompt = "(NNT {} {}) ".format(os.path.basename(self.graph_file),
-                                            self._graph_idx)
-
-    def _check_adjusted(self):
-        if not self.is_adjusted:
-            self.perror(CHECK_ADJUSTED_ERROR)
-            raise EmptyStatement()
-
-    def _get_input_args(self, args):
-        res = {}
-        if self.settings['adjust_image']:
-            res['width'] = self.settings['image_width']
-            res['height'] = self.settings['image_height']
-            res['mode'] = self.settings['image_mode']
-        else:
-            res['width'] = res['height'] = -1
-            res['mode'] = None
-        if args:
-            if args.width is not None:
-                res['width'] = args.width
-            if args.height is not None:
-                res['height'] = args.height
-            if args.mode is not None:
-                res['mode'] = args.mode
-
-#           res['shift'] = self.settings['input_shift'] if args.bit_shift
-#           is None else args.bit_shift
-            res['divisor'] = self.settings['input_divisor']\
-                if args.divisor is None else args.divisor
-            res['offset'] = self.settings['input_offset']\
-                if args.offset is None else args.offset
-            res['transpose'] = self.settings['image_transpose'] if args.transpose is None\
-                else args.transpose
-            res['norm_func'] = self.settings['input_norm_func'] if args.norm_func is None\
-                else args.norm_func
-        else:
-            #            res['shift'] = self.settings['input_shift']
-            res['divisor'] = self.settings['input_divisor']
-            res['offset'] = self.settings['input_offset']
-            res['transpose'] = self.settings['image_transpose']
-            res['norm_func'] = self.settings['input_norm_func']
-
-        if args.nptype:
-            res['nptype'] = args.nptype
-
-        return res
-
-    # STATUS COMMAND
-    def do_status(self, _):
-        """
-Show current graph status
-"""
-        if self.G is None:
-            self.poutput("No graph loaded")
-            return
-        self.poutput("graph file: {}".format(self.graph_file))
-        if self.tensor_file:
-            self.poutput("tensor file: {}".format(self.tensor_file))
-        self.poutput("is_quantized: {}".format(self.is_quantized))
-        for k in ['is_adjusted', 'is_equalized', 'is_fused']:
-            self.poutput("{}: {}".format(k, getattr(self.G.graph_identity, k)))
-
-    # SAVING AND LOADING SETTINGS
-    def execute_save_settings(self, dirname=None):
-        config = configparser.ConfigParser()
-        config['NNTOOL'] = {k: str(getattr(self, k))
-                            for k in self.settable if k != "prompt"}
-        config['GRAPH'] = {k: getattr(self, k) for k in ['graph_file', 'tensor_file']}
-        if dirname is None:
-            dirname = self._nntool_workdir
-        with open(os.path.join(dirname, 'nntool.ini'), 'w') as config_fp:
-            config.write(config_fp)
-
-    def execute_load_settings(self, filepath=None):
-        nntool_home = os.path.join(self._nntool_workdir, 'nntool.ini')
-        if filepath is None:
-            if os.path.isfile('nntool.ini'):
-                filepath = 'nntool.ini'
-            elif os.path.isfile(nntool_home):
-                filepath = nntool_home
-            else:
-                return
-        config = configparser.ConfigParser()
-        config.read(filepath)
-        for key in config['NNTOOL']:
-            if key == "prompt":
-                continue
-            elif key in self.settings:
-                orig_val = self.settings[key]
-                self.settings[key] = cmd2_cast(orig_val, config['NNTOOL'][key])
-            else:
-                orig_val = getattr(self, key)
-                setattr(self, key, cmd2_cast(orig_val, config['NNTOOL'][key]))
-
-        self.settings["graph_file"] = config['GRAPH']['graph_file']
-        self.settings["tensor_file"] = config['GRAPH']['tensor_file']
-
-    # CACHE PROPERTIES
-    def update_cache(self):
-        if self.G is None:
-            return
-        if self.settings['enable_cache']:
-            self.G.value_cache = IntermediateCache(self.settings['cache_dir'])
-        else:
-            self.G.value_cache = None
-
-    @property
-    def enable_cache(self):
-        return self.settings['enable_cache']
-
-    @enable_cache.setter
-    def enable_cache(self, val):
-        self.settings['enable_cache'] = val
-        self.update_cache()
-
-    # CACHE_DIR COMMAND
-    cache_dir_parser = Cmd2ArgumentParser(description="set value cache directory")
-    cache_dir_parser.add_argument('value', nargs=argparse.OPTIONAL,
-                                  help='the directory for the cache dir',
-                                  completer_method=partial(Cmd.path_complete,
-                                                           path_filter=filter_dirs))
-
-    @property
-    def cache_dir(self):
-        return self.settings['cache_dir']
-
-    @cache_dir.setter
-    def cache_dir(self, val):
-        if self.settings['cache_dir'] != val:
-            self.settings['cache_dir'] = val
-            self.update_cache()
-
-    @with_argparser(cache_dir_parser)
-    def do_cache_dir(self, args: argparse.Namespace):
-        """
-Sets the directory for the value cache
-"""
-        self.cache_dir = args.value
-
-    # SAVE_SETTINGS COMMAND
-    save_settings_parser = Cmd2ArgumentParser(description="set value cache directory")
-    save_settings_parser.add_argument('value', nargs=argparse.OPTIONAL,
-                                      help='the directory for the settings file',
-                                      completer_method=partial(Cmd.path_complete,
-                                                               path_filter=filter_dirs))
-
-    @with_argparser(save_settings_parser)
-    def do_save_settings(self, args: argparse.Namespace):
-        """
-Save the current settings. If no directory is given then they are saved
-in the ~/.nntool directory"""
-        self.execute_save_settings(args.value)
-
-    # LOG_LEVEL PROPERTY
-
-    @property
-    def log_level(self):
-        return self.settings['log_level']
-
-    @log_level.setter
-    def log_level(self, val):
-        try:
-            val = int(val)
-            self.settings['log_level'] = val
-        except ValueError:
-            val = val.upper()
-            val = find_choice(VALID_LOG_LEVELS, val)
-
-        self.settings['log_level'] = val
-        LOG.setLevel(self.settings['log_level'])
-        LOG.info("set log level to %s", val)
-
-    # load_quantization PROPERTY
-
-    @property
-    def load_quantization(self):
-        return self.settings['load_quantization']
-
-    @load_quantization.setter
-    def load_quantization(self, val):
-        self.settings['load_quantization'] = bool(val)
-
-    # FUSIONS PROPERTY
-
-    @property
-    def fusions(self):
-        return self.settings['fusions']
-
-    @fusions.setter
-    def fusions(self, val):
-        self.settings['fusions'] = bool(val)
-
-    # ADJUST_ORDER PROPERTY
-
-    @property
-    def adjust_order(self):
-        return self.settings['adjust_order']
-
-    @adjust_order.setter
-    def adjust_order(self, val):
-        self.settings['adjust_order'] = bool(val)
-
-    # WEIGHT_EQUALIZATION PROPERTY
-
-    @property
-    def weight_equalization(self):
-        return self.settings['weight_equalization']
-
-    @weight_equalization.setter
-    def weight_equalization(self, val):
-        self.settings['weight_equalization'] = bool(val)
-
-    # EQUALIZATION_THRESHOLD PROPERTY
-
-    @property
-    def equalization_threshold(self):
-        return self.settings['equalization_threshold']
-
-    @equalization_threshold.setter
-    def equalization_threshold(self, val):
-        self.settings['equalization_threshold'] = float(val)
-
-    # IMAGE ADJUSTMENT SETTINGS
-
-    # ADJUST_IMAGE PROPERTY
-
-    @property
-    def adjust_image(self):
-        return self.settings['adjust_image']
-
-    @adjust_image.setter
-    def adjust_image(self, val):
-        self.settings['adjust_image'] = bool(val)
-
-    # IMAGE_WIDTH PROPERTY
-
-    @property
-    def image_width(self):
-        return self.settings['image_width']
-
-    @image_width.setter
-    def image_width(self, val):
-        try:
-            val = int(val)
-            if val <= 0:
-                raise ValueError()
-        except ValueError:
-            raise ValueError("value should be positive integer")
-        self.settings['image_width'] = bool(val)
-
-    # IMAGE_HEIGHT PROPERTY
-
-    @property
-    def image_height(self):
-        return self.settings['image_height']
-
-    @image_height.setter
-    def image_height(self, val):
-        try:
-            val = int(val)
-            if val <= 0:
-                raise ValueError()
-        except ValueError:
-            raise ValueError("value should be positive integer")
-        self.settings['image_height'] = bool(val)
-
-    # IMAGE_MODE PROPERTY
-
-    @property
-    def image_mode(self):
-        return self.settings['image_mode']
-
-    @image_mode.setter
-    def image_mode(self, val):
-        val = find_choice(MODES.keys(), val)
-        self.settings['image_mode'] = bool(val)
-
-    # INPUT_DIVISOR PROPERTY
-
-    @property
-    def input_divisor(self):
-        return self.settings['input_divisor']
-
-    @input_divisor.setter
-    def input_divisor(self, val):
-        self.settings['input_divisor'] = int(val)
-
-    # INPUT_NORM_FUNC PROPERTY
-
-    @property
-    def input_norm_func(self):
-        return self.settings['input_norm_func']
-
-    @input_norm_func.setter
-    def input_norm_func(self, val):
-        self.settings['input_norm_func'] = str(val)
-
-    # INPUT_OFFSET PROPERTY
-
-    @property
-    def input_offset(self):
-        return self.settings['input_offset']
-
-    @input_offset.setter
-    def input_offset(self, val):
-        self.settings['input_offset'] = int(val)
-
-    @property
-    def template_file(self):
-        return self.settings['template_file']
-
-    @template_file.setter
-    def template_file(self, val):
-        self.settings['template_file'] = val
-
-    # OPEN COMMAND
-    parser_open = Cmd2ArgumentParser("open a graph file")
-    parser_open.add_argument('nnfile',
-                             completer_method=Cmd.path_complete,
-                             help='graph or state file',
-                             metavar="INPUT_GRAPH or STATE_FILE")
-    parser_open.add_argument('tensor_file',
-                             nargs=argparse.OPTIONAL,
-                             completer_method=Cmd.path_complete,
-                             help='optional tensor file')
-    parser_open.add_argument('-q', '--load_quantization',
-                             help='load TFLite quantization information', action='store_true')
-    parser_open.add_argument('-n', '--new',
-                             help='open as new graph - keep existing graph open',
-                             action='store_true')
-
-    @staticmethod
-    def __build_open_graph(graph_file, tensor_file, load_quantization):
-        command = ["open", graph_file, "-n"]
-        if tensor_file:
-            command.append("-t {}".format(tensor_file))
-        if load_quantization:
-            command.append("-q")
-        return " ".join(command)
-
-    def __open_graph(self, graph_file, tensor_file, load_quantization):
-
-        value_cache = IntermediateCache(self.settings['cache_dir'])\
-            if self.settings['enable_cache'] else None
-
-        graph_file = os.path.expanduser(graph_file)
-
-        _, ext = os.path.splitext(graph_file)
-
-        if ext == STATE_EXTENSION:
-            LOG.info("opening state file %s", graph_file)
-            self.graph_file = graph_file
-            self.G, extra = load_state(graph_file, value_cache=value_cache, return_extra=True)
-            self.settings.update(extra)
-        else:
-            LOG.info("opening graph file %s", graph_file)
-            opts = {
-                'load_tensors': True,
-                'load_quantization': load_quantization,
-                'value_cache': value_cache,
-            }
-
-            G = create_graph(graph_file, opts=opts)
-            G.add_dimensions()
-            if tensor_file:
-                G.load_tensors(tensor_file)
-            self.G = G
-            self.graph_file = graph_file
-            if tensor_file is not None:
-                self.tensor_file = tensor_file
-            self.settings['load_quantization'] = bool(load_quantization)
-            if self.settings['adjust_order']:
-                LOG.info("adjusting order")
-                self.execute_adjust_order()
-            if self.settings['fusions']:
-                LOG.info("applying standard fusions")
-                self.apply_standard_fusions()
-            if self.settings['weight_equalization']:
-                LOG.info("equalizing weights")
-                weight_equalization(self.G, self.settings['equalization_threshold'])
-
-    @with_argparser(parser_open)
-    def do_open(self, args: argparse.Namespace):
-        """
-Open a graph or state file"""
-        if args.new:
-            # reset the current graph
-            self._graphs.append(NO_GRAPH.copy())
-            self._graph_idx = len(self._graphs) - 1
-        else:
-            # reset the current graph
-            self._graphs[self._graph_idx] = NO_GRAPH.copy()
-        self.__open_graph(args.nnfile, args.tensor_file, args.load_quantization)
-        self._update_prompt()
-        self.py_locals['G'] = self.G
-
-    # GRAPH COMMAND
-    parser_graph = Cmd2ArgumentParser("display graph")
-    parser_graph.add_argument('graph_number',
-                              nargs=argparse.OPTIONAL,
-                              type=int,
-                              choices_method=other_open_graphs,
-                              help='graph to select or nothing to show open graphs')
-
-    @with_argparser(parser_graph)
-    def do_graph(self, args: argparse.Namespace):
-        """
-Select actuve graphs"""
-        if args.graph_number is not None:
-            if args.graph_number < 0 or args.graph_number >= len(self._graphs):
-                self.perror("graph number is invalid")
-                return
-            self._graph_idx = args.graph_number
-            self.pfeedback("selected graph {}".format(self._graph_idx))
-            self._update_prompt()
-            self.py_locals['G'] = self.G
-        else:
-            for idx, rec in enumerate(self._graphs):
-                self.poutput("{:d} - {}".format(idx, rec['graph_file']))
-
-    # SHOW COMMAND
-    parser_show = Cmd2ArgumentParser("display graph")
-    table_options(parser_show, default_width=180)
-    parser_show.add_argument('step', type=int, nargs=(0, 1), help='Limit to step number')
-
-    @with_argparser(parser_show)
-    def do_show(self, args: argparse.Namespace):
-        """
-Display the structure of the graph"""
-        self._check_graph()
-        fmt = ('tab' if args.output is None else args.output['fmt'])
-        split_dims = fmt == "xls"
-        do_totals = fmt != "csv"
-        tab = GraphReporter(split_dims=split_dims, do_totals=do_totals,
-                            step=args.step).report(self.G, None)
-        output_table(tab, args)
-
-    # STATS COMMAND
-    parser_stats = Cmd2ArgumentParser("display statistics on globals")
-    parser_stats.add_argument('-d', '--detailed',
-                              action="store_true", help='Dump detailed statistics')
-    parser_stats.add_argument('-q', '--qsnr',
-                              type=float, default=30.0, help='QSNR threshold')
-    parser_stats.add_argument('-s', '--step',
-                              type=int,
-                              nargs=(1, 2),
-                              help='display information by channel for step')
-    table_options(parser_stats, default_width=180)
-
-    @with_argparser(parser_stats)
-    def do_stats(self, args: argparse.Namespace):
-        """
-Display statistics on weights and biases"""
-        self._check_graph()
-        fmt = ('tab' if args.output is None else args.output['fmt'])
-        if args.detailed:
-            stats_collector = FilterDetailedStatsCollector()
-            stats = stats_collector.collect_stats(self.G)
-            tab = FilterDetailedStatsReporter().report(self.G, stats)
-        else:
-            step_idx = args.step
-            if step_idx is not None:
-                if len(step_idx) == 1:
-                    step_idx = step_idx[0]
-                else:
-                    step_idx = tuple(step_idx)
-            stats_collector = FilterStatsCollector()
-            stats = stats_collector.collect_stats(self.G, step_idx=step_idx)
-            tab = FilterStatsReporter(do_totals=(fmt != "csv"), threshold=args.qsnr, step_idx=step_idx)\
-                .report(self.G, stats)
-        output_table(tab, args)
-
-    # FREEZE COMMAND
-    parser_freeze = Cmd2ArgumentParser("toggle freezing of channel order of inputs or outputs")
-    parser_freeze.add_argument('node_names',
-                               nargs='+',
-                               choices_method=inputs_and_outputs,
-                               help='input or output node names to toggle freeze')
-
-    @with_argparser(parser_freeze)
-    def do_freeze(self, args: argparse.Namespace):
-        """
-Toggle freezing of channel order on inputs and outputs. When graph is adjusted frozen nodes
- will not change channel order."""
-        self._check_graph()
-        nodes = [self.G.node(node_name) for node_name in args.node_names]
-        if not all([isinstance(node, InputOutputParameters) for node in nodes]):
-            self.perror("all nodes should be inputs or outputs")
-            return
-
-        for node in nodes:
-            if node.fixed_order:
-                LOG.info("node %s is unfrozen", node.name)
-                node.fixed_order = False
-            else:
-                LOG.info("node %s is frozen", node.name)
-                node.fixed_order = True
-            self.G.node_options[NodeId(node)] = node.at_options
-
-    # FUSIONS COMMAND
-    def fusions_list(self):
-        return [elem[0] for elem in get_fusions()]
-
-    parser_fusions = Cmd2ArgumentParser("apply fusions to graph")
-    parser_fustions_exclusive = parser_fusions.add_mutually_exclusive_group()
-    parser_fustions_exclusive.add_argument('-l', '--list',
-                                           action='store_true',
-                                           help='list available fusions')
-    parser_fustions_exclusive.add_argument('-a', '--apply',
-                                           type=str,
-                                           choices_method=fusions_list,
-                                           help='apply a fusion')
-
-    def apply_standard_fusions(self):
-        get_std_match_group().match(self.G)
-        self.G.add_dimensions()
-
-    @with_argparser(parser_fusions)
-    def do_fusions(self, args):
-        """
-Carry out the default set of fusions on the graph"""
-        self._check_graph()
-        if args.list:
-            self.ppaged("\n".join(["%s - %s" % (name, desc) for name, desc in get_fusions()]))
-            return
-        if args.apply:
-            fusion = get_fusion(args.apply)
-            if not fusion:
-                self.perror('fusion %s not found' % args.apply)
-                return
-        else:
-            fusion = get_std_match_group()
-
-        fusion.match(self.G)
-        self.G.add_dimensions()
-        self.G.quantization = None
-
-    # ADJUST COMMAND
-    # parser_adjust = Cmd2ArgumentParser("display statistics on globals")
-
-    def execute_adjust_order(self):
-        self.G.adjust_order()
-        self.G.add_dimensions()
-
-    # @with_argparser(parser_adjust)
-    def do_adjust(self, _):
-        """
-Adjust activation and parameter tensors to match AutoTiler order.
-Must be run before generating code."""
-        self._check_graph()
-        if self.is_adjusted:
-            self.perror("graph is already adjusted")
-            return
-        self.execute_adjust_order()
-
-    # WEIGHT_EQUALIZATION COMMAND
-    parser_we = Cmd2ArgumentParser()
-    parser_we.add_argument('threshold',
-                           type=float, default=0.1,
-                           help='convergence threshold')
-    parser_we.add_argument('-n', '--relun',
-                           action='store_true', help='process relun activations. not currently supported \
-            by autotiler kernels')
-
-    def execute_weight_equalization(self, threshold, do_relun=False):
-        if not (threshold > 0 and threshold < 10):
-            self.perror("threshold should be 10 > x > 0")
-        weight_equalization(self.G, threshold=threshold, do_relun=do_relun)
-
-    @with_argparser(parser_we)
-    def do_weight_equalization(self, args: argparse.Namespace):
-        """
-Run weight equalization on graph. This reduces variance between weight
-channels and may improve quantization accuracy."""
-        self._check_graph()
-        self.execute_weight_equalization(args.threshold, args.relun)
-
-    # BALANCE_FILTERS COMMAND
-    parser_bf = Cmd2ArgumentParser()
-    parser_bf.add_argument('-s', '--step',
-                           type=int, help='step to balance. should be a convolution')
-    parser_bf.add_argument('-t', '--threshold',
-                           default=0.20,
-                           type=float, help='precision threshold of weights below which a layer should be balanced')
-
-    @with_argparser(parser_bf)
-    def do_balance_filters(self, args: argparse.Namespace):
-        """
-Balance filter weights. THis will reduce variance in weights and will result in
-a more balanced quantization at the expense of a multiplicative bias calculation."""
-        self._check_graph()
-        self.G.balance_filters(step_idx=args.step, precision_threshold=args.threshold)
-        self.G.quantization = None
-
-    # ASTATS COMMAND
-    parser_astats = Cmd2ArgumentParser()
-    parser_astats.add_argument('-q', '--qsnr',
-                               type=float, default=30.0, help='QSNR threshold')
-    parser_astats.add_argument('-d', '--detail',
-                               action="store_true", help='Show fusions detail')
-    parser_astats.add_argument('-s',
-                               '--step',
-                               type=int,
-                               nargs=(1, 2),
-                               help='display information by channel for step. You can indicate a fusion step with two values. The step_idx and the idx of the node in the fusion.')
-    table_options(parser_astats, default_width=180)
-    input_options(parser_astats)
-
-    @with_argparser(parser_astats)
-    def do_astats(self, args: argparse.Namespace):
-        """
-Calculate activation statistics on one or more imput files."""
-        self._check_graph()
-        input_args = self._get_input_args(args)
-        stats_collector = ActivationStatsCollector()
-        step_idx = args.step
-        if step_idx is not None:
-            if len(step_idx) == 1:
-                step_idx = step_idx[0]
-            else:
-                step_idx = tuple(step_idx)
-        if len(args.input_files) == 0:
-            self.perror("You must enter some files to process")
-            return
-        for input_file in glob_input_files(args.input_files):
-            LOG.info("input file %s", input_file)
-            data = import_data(input_file, **input_args)
-            data = stats_collector.collect_stats(self.G, [data], step_idx=step_idx)
-
-        fmt = ('tab' if args.output is None else args.output['fmt'])
-        tab = ActivationReporter(do_totals=(fmt != "csv"),
-                                 threshold=args.qsnr,
-                                 yield_fusions=args.detail or isinstance(step_idx, tuple)).report(self.G,
-                                                                                                  stats_collector.reduce_stats())
-        output_table(tab, args)
-
-    # FQUANT COMMAND
-    parser_fquant = Cmd2ArgumentParser()
-    parser_fquant.add_argument('-f', '--force_width',
-                               choices=STATS_BITS, default=8, type=int, help='force all layers to this width')
-    table_options(parser_fquant, default_width=140)
-
-    @with_argparser(parser_fquant)
-    def do_fquant(self, args: argparse.Namespace):
-        """
-Attempt to calculate a fake quantization for graph using random tensors and parameters.
-This is intended to allow code generation for performance testing even if no real
-weights and input data are avalaible."""
-        self._check_graph()
-        self.G.constant_store.fake = True
-        stats_collector = ActivationStatsCollector()
-        input_tensors = [np.random.normal(0, 0.2, input.dims.shape)
-                         for input in self.G.input_nodes()]
-        stats_collector.collect_stats(self.G, input_tensors)
-        astats = stats_collector.reduce_stats()
-        stats_collector = FakeFilterStatsCollector()
-        fstats = stats_collector.collect_stats(self.G)
-        quantizer = SimpleQuantizer(astats, fstats,
-                                    force_width=args.force_width)
-        qrecs = quantizer.quantize(self.G)
-        self.G.quantization = qrecs
-        tab = QuantizationReporter().report(self.G, qrecs)
-        output_table(tab, args)
-        self.G.constant_store.fake = False
-
-    # AQUANT COMMAND
-    parser_aquant = Cmd2ArgumentParser()
-    parser_aquant_group = parser_aquant.add_mutually_exclusive_group(required=True)
-    parser_aquant_group.add_argument('-q', '--qsnr',
-                                     type=float, default=50.0, help='QSNR threshold')
-    parser_aquant_group.add_argument('-f', '--force_width',
-                                     choices=STATS_BITS, type=int, help='force all layers to this width')
-    parser_aquant.add_argument('-a', '--adjust_relun',
-                               action='store_true', help='Adjust relu N activations to match dynamic in test data.')
-    parser_aquant.add_argument('-i', '--init',
-                               action='store_true', help='Initialize activations statistics')
-    parser_aquant.add_argument('-r', '--relun_threshold',
-                               type=int, default=1, help='Threshold above floored max value to adjust relun\'s to.')
-    table_options(parser_aquant, default_width=140)
-    input_options(parser_aquant)
-
-    @with_argparser(parser_aquant)
-    def do_aquant(self, args: argparse.Namespace):
-        """
-Attempt to calculate quantization for graph using one or more sample imput files."""
-        self._check_graph()
-        input_args = self._get_input_args(args)
-        processed_input = False
-        if self.astats_collector is None or args.init:
-            self.astats_collector = ActivationStatsCollector()
-
-        for input_file in glob_input_files(args.input_files):
-            LOG.info("input file %s", input_file)
-            processed_input = True
-            data = import_data(input_file, **input_args)
-            self.astats_collector.collect_stats(self.G, [data])
-        if not processed_input:
-            self.perror("No imput files found")
-            return
-        astats = self.astats_collector.reduce_stats()
-        if args.adjust_relun:
-            adjust_relun(self.G, astats, threshold=args.relun_threshold)
-        stats_collector = FilterStatsCollector()
-        fstats = stats_collector.collect_stats(self.G)
-        quantizer = SimpleQuantizer(astats, fstats,
-                                    force_width=args.force_width,
-                                    min_qsnr=args.qsnr)
-        qrecs = quantizer.quantize(self.G)
-        self.G.quantization = qrecs
-        tab = QuantizationReporter().report(self.G, qrecs)
-        output_table(tab, args)
-
-    # DUMP COMMAND
-    parser_dump = Cmd2ArgumentParser()
-    parser_dump.add_argument('-s', '--step',
-                             type=int, help='step to dump output of', default=None)
-    parser_dump.add_argument('-w', '--number_width',
-                             type=int, help='width of numbers', default=8)
-    parser_dump.add_argument('-p', '--precision',
-                             type=int, help='number of decimal places', default=4)
-    parser_dump.add_argument('-c', '--channel',
-                             type=int, help='channel to dump', default=None)
-    parser_dump.add_argument('-d', '--dequantize',
-                             action='store_true', help='dequantize result')
-    parser_dump_group = parser_dump.add_mutually_exclusive_group(required=False)
-    parser_dump_group.add_argument('-q', '--quantize', action='store_true',
-                                   help='quantize the graph (must have already set quantization)')
-    parser_dump_group.add_argument('-Q', '--quantize_step', type=int,
-                                   help='quantize a step of the graph (must have already' +
-                                   ' set quantization)',
-                                   default=None)
-    parser_dump.add_argument('-P', '--pickle',
-                             completer_method=Cmd.path_complete,
-                             help='pickle all the outputed tensors to this file')
-    parser_dump.add_argument('-S', '--save',
-                             help='save the tensor to the tensors list')
-    input_options(parser_dump)
-
-    @with_argparser(parser_dump)
-    def do_dump(self, args: argparse.Namespace):
-        """
-Dump the activations resulting from running an input file through the graph.
-You can use the current quantization settings and can also just quantify one
-specific step of the graph."""
-        self._check_graph()
-        if args.quantize or args.quantize_step:
-            self._check_quantized()
-            if args.quantize:
-                qmode = QuantizationMode.all()
-            else:
-                qmode = QuantizationMode.step(args.quantize_step)
-        else:
-            qmode = QuantizationMode.none()
-        if args.step is not None:
-            step = args.step
-            num_steps = len(self.G.graph_state.steps)
-            if step < 0:
-                step = num_steps + step
-            if step < 0 or step > num_steps:
-                self.perror("step must be from {} to {}".format(-num_steps, num_steps))
-                return
-        else:
-            step = None
-
-        input_args = self._get_input_args(args)
-
-        pickles = []
-        dequantize = args.dequantize if args.dequantize is not None\
-            else not (args.pickle or args.save)
-
-        for input_file in glob_input_files(args.input_files):
-            LOG.info("input file %s", input_file)
-
-            data = import_data(input_file, **input_args)
-            outputs = execute(self.G, [data], limit=step, qrecs=self.G.quantization,
-                              qmode=qmode,
-                              dequantize=dequantize)
-
-            if args.pickle or self._in_py or args.save:
-                pickles.append(format_dump_file(self.G, outputs, not qmode.is_none))
-            else:
-                self.G.print_intermediates(outputs, limit=step, width=args.number_width,
-                                           precision=args.precision, channel=args.channel,
-                                           order=['c', 'h', 'w'])
-
-        if args.pickle or args.save or self._in_py:
-            if not pickles:
-                self.perror("no input files found")
-                return
-            if len(args.input_files) == 1:
-                pickles = pickles[0]
-            if args.pickle:
-                with open(args.pickle, 'wb') as pickle_fp:
-                    pickle.dump(pickles, pickle_fp)
-            if args.save:
-                self._tensor_store[args.save] = pickles
-
-        if self._in_py:
-            self.last_result = pickles
-
-    # VAL COMMAND
-    parser_val = Cmd2ArgumentParser()
-    parser_val.add_argument('-q', '--quantize', action='store_true',
-                             help='quantize the graph (must have already set quantization)')
-    parser_val.add_argument('-s', '--silent', action='store_true',
-                             help='do not print progress for each input')
-    parser_val.add_argument('-P', '--pickle',
-                             completer_method=Cmd.path_complete,
-                             help='pickle all the outputed tensors to this file')
-    parser_val.add_argument('-S', '--save',
-                             help='save the tensor to the tensors list')
-    parser_val.add_argument('--dataset_dir',
-                             completer_method=Cmd.path_complete,
-                             help='path to the directory of samples for test')
-    parser_val.add_argument('--label_json',
-                             default=None,
-                             completer_method=Cmd.path_complete,
-                             help='path to the .json object containing labels annotation \
-                             { "filename0" : label0, "filename1": label1, ... }')
-    #parser_val.add_argument('--num_classes',
-    #                         default=None,
-    #                         type=int,
-    #                         help='number of classes of the dataset')
-    #parser_val.add_argument('-E', '--emulation_mode',
-    #                         action='store_true',
-    #                         help='do the validation with the GAP emulator running on host')
-    #parser_val.add_argument('--AT_model_file',
-    #                         completer_method=Cmd.path_complete,
-    #                         help='path to the AT model to compile and run if emulation mode is on')
-    #parser_val.add_argument('--extra_flags',
-    #                         default='',
-    #                         help='extra flag for AT_model compiler')
-    #parser_val.add_argument('--AT_exe',
-    #                         default='Gentile',
-    #                         help='name of the autotiler executable file generated after model compile')
-    #parser_val.add_argument('--gen_files_dir',
-    #                         completer_method=Cmd.path_complete,
-    #                         default='./',
-    #                         help='path to the directory to store AT generated files')
-    input_options(parser_val)
-
-    @with_argparser(parser_val)
-    def do_validate(self, args: argparse.Namespace):
-        """
-Validate the model (quantized [-q] or not) in terms of prediction accuracy rate on a given dataset (images 
-folder). Ground truth labels can be embedded in files names ("filename_03.[png, ppm, pgm]", the number of 
-digits must be coherent with the number of networks outputs: e.g. in a 1000 classes problem the last digits 
-must be 3, "file_45.png" will raise an error) or can be written in a .json object (example: {'file0':label0,
-'file1':label1, ...}) and given to the function with --label_json
-"""
-        self._check_graph()
-        if args.quantize:
-            self._check_quantized()
-            qmode = QuantizationMode.all()
-        else:
-            qmode = QuantizationMode.none()
-
-        LOG.info("quantization mode - %s", qmode)
-        input_args = self._get_input_args(args)
-
-        # TODO - compile and run ATmodel (ok)
-        #      - generate mainfile for validation or use AT generated functions in .so 
-        #      - compile and run mainfile for the validation
-        #if args.emulation_mode:
-        #   assert args.AT_model_file is not None
-        #   compile_and_run_AT_model(model=args.AT_model_file, output_exe=args.AT_exe,
-        #                            output_dir=args.gen_files_dir, extra_flags=args.extra_flags)
-        #   test_dataset = test_dataset_4_eval(folder_path=args.dataset_dir, num_classes=args.num_classes)
-        #   write_test_main_template(self.G, test_dataset, (238,208,3), args.gen_files_dir+'/validation_main.c')
-        #   compile_and_run_test_main(model_name=self.G.name, mainfile=args.gen_files_dir+'/validation_main.c', 
-        #                               output_exe=self.G.name+'_emul',
-        #                               output_dir=args.gen_files_dir, extra_flags=args.extra_flags)
-        #    return
-
-        good_predictions = []
-
-        input_dir_paths = []
-        for path in args.input_files:   
-            input_dir_paths.append(os.path.split(path)[0])
-
-        number_samples = 0
-        for input_dir_path in input_dir_paths:
-            number_samples += len([name for name in os.listdir(input_dir_path) if os.path.isfile(input_dir_path + '/' + name)])
-
-        if args.label_json:
-            validation = ValidateFromJSON(args.label_json)
-        else:
-            validation = ValidateFromName()
-
-        ExecutionProgress.start()
-        for i,input_file in enumerate(glob_input_files(args.input_files)):
-            if not args.silent:
-                LOG.info("input file %s", input_file)
-
-            data = import_data(input_file, **input_args)
-            outputs = execute_validation(self.G, [data], qrecs=self.G.quantization,
-                              qmode=qmode, validation=True, silent=args.silent)
-
-            good_prediction, label = validation.validate(input_file, np.asarray(outputs[-1]))
-            good_predictions.append(good_prediction)
-
-            if not args.silent:
-                LOG.info('Prediction is %s', good_prediction)
-            if not i % 100 and i > 0:
-                LOG.info('ACCURACY: %.3f %%', 100*sum(good_predictions)/len(good_predictions))
-
-            ExecutionProgress.progress(i, number_samples)
-        ExecutionProgress.end()
-
-        self.py_locals['labels'] = validation.labels
-        self.py_locals['predictions'] = validation.predictions
-        accuracy_rate = 100*sum(good_predictions)/len(good_predictions)
-        LOG.info('ACCURACY: %.3f %%', accuracy_rate)
-        
-
-    # TENSORS_COMMAND
-    parser_tensors = Cmd2ArgumentParser()
-    parser_tensors.add_argument('-c', '--channel',
-                                nargs=(1, 2),
-                                type=int,
-                                help='channel to compare')
-    parser_tensors.add_argument('-s', '--step',
-                                type=int,
-                                help='step to compare')
-    parser_outexclu = parser_tensors.add_mutually_exclusive_group()
-    parser_outexclu.add_argument('-Q', '--compare_qsnr',
-                                 action='store_true',
-                                 help='compare two tensors QSNR')
-    parser_outexclu.add_argument('-E', '--compare_error',
-                                 action='store_true',
-                                 help='compare two tensors error (first - second)')
-    parser_tensors.add_argument('-n', '--name',
-                                type=str,
-                                choices_method=lambda x: x.tensor_store_names,
-                                help='name to use for the tensor in the tensor store')
-    parser_tensors.add_argument('-f', '--write_filename',
-                                type=str,
-                                completer_method=Cmd.path_complete,
-                                help='write a tensor in gap helpers format. you must select a step. ' +
-                                'the output of this step is written. specify a single tensor with ' +
-                                'the -t option.')
-    parser_tensors.add_argument('-m', '--make_filename',
-                                type=str,
-                                completer_method=Cmd.path_complete,
-                                help='write a makefile including the dimensions of the tensor written ' +
-                                'and the dimensions of the input to the node that produced it.')
-    parser_texclu1 = parser_tensors.add_mutually_exclusive_group()
-    parser_texclu1.add_argument('-W', '--weights',
-                                action='store_true',
-                                help='compare weights')
-    parser_texclu1.add_argument('-B', '--biases',
-                                action='store_true',
-                                help='compare biases')
-    parser_texclu2 = parser_tensors.add_mutually_exclusive_group()
-    parser_texclu2.add_argument('-t', '--tensors',
-                                nargs=(1, 2),
-                                type=str,
-                                choices_method=lambda x: x.tensor_store_names,
-                                help='compare two tensors')
-    parser_texclu2.add_argument('-g', '--gap_load',
-                                completer_method=Cmd.path_complete,
-                                help='load tensors dumped by autotiler code. ' +
-                                'Supply the filename and' +
-                                ' an optional tensor store name. If none is given' +
-                                ' the filename will be used.')
-    parser_texclu2.add_argument('-X', '--clear',
-                                action='store_true',
-                                help='clears the tensor store')
-
-    @with_argparser(parser_tensors)
-    def do_tensors(self, args):
-        """
-Load and manipulate tensors. If no option is supplied the saved tensors will be listed.
-All the tensors in the store are available in dictionary 'tensors' in the python console
-accessed by the command 'py'. Tensors can be displayed side by side or the average absolute
-error or QSNR displayed. If a step is selected then the error by channel will be displayed."""
-        if args.clear:
-            self.pfeedback('tensor store cleared')
-            self._tensor_store.clear()
-            return
-        if args.gap_load:
-            store_name = args.gap_load if not args.name else args.name
-            self._tensor_store[store_name] = read_gap_tensors(args.gap_load)
-            return
-        if args.tensors:
-            if len(args.tensors) == 1:
-                tensor_name = args.tensors[0]
-                tensors = self._tensor_store.get(tensor_name)
-                if tensors is None:
-                    self.perror("{} not in store".format(tensor_name))
-                    return
-                if args.step is None:
-                    self.perror("you must select a step")
-                    return
-                if args.step >= len(tensors):
-                    self.perror("{} doesn't have that step".format(tensor_name))
-                    return
-                if tensors[args.step] is None:
-                    self.perror("{} doesn't have this tensor for that step".format(tensor_name))
-                    return
-                tensor = tensors[args.step]
-
-                if args.weights:
-                    tensor = tensor[1]
-                elif args.biases:
-                    tensors = tensor[2]
-                else:
-                    tensors = tensor[0]
-                if args.write_filename:
-                    if args.make_filename:
-                        node = self.G.graph_state.steps[args.step]['node']
-                        in_edge = self.G.in_edges(node.name)[0]
-                        in_step = in_edge.from_node.step_idx
-                        all_tensors = self._tensor_store.get(tensor_name)
-                        write_gap_tensor(args.write_filename, tensor, step=args.step,
-                                         output_tensor=all_tensors[in_step][0], make_file=args.make_filename)
-                    else:
-                        write_gap_tensor(args.write_filename, tensor, step=args.step)
-                else:
-                    self.perror("not sure what to do with this single tensor")
-                return
-
-            compare = args.tensors
-            tensors = [None]*2
-            for i in range(2):
-                tensors[i] = self._tensor_store.get(compare[i])
-                if tensors[i] is None:
-                    self.perror("{} not in store".format(compare[i]))
-                    return
-                if args.weights:
-                    tensors[i] = [t[1] for t in tensors[i]]
-                elif args.biases:
-                    tensors[i] = [t[2] for t in tensors[i]]
-                else:
-                    tensors[i] = [t[0] for t in tensors[i]]
-
-            if args.step is not None:
-                for i in range(2):
-                    if args.step >= len(tensors[i]):
-                        self.perror("{} doesn't have that step".format(compare[i]))
-                        return
-                    if tensors[i][args.step] is None:
-                        self.perror(
-                            "{} doesn't have this tensor for that step".format(compare[i]))
-                        return
-                    tensors[i] = [tensors[i][args.step]]
-
-            if args.channel is not None:
-                for i in range(2):
-                    for j, tensor in enumerate(tensors[i]):
-                        if len(tensor.shape) <= len(args.channel):
-                            self.perror("selected too many channels for this tensor")
-                        for c in args.channel:
-                            tensor = tensor[c]
-                        tensors[i][j] = tensor
-
-            if args.compare_qsnr or args.compare_error:
-                if args.compare_qsnr:
-                    def func(x, y):
-                        return qsnr(x.astype(np.float), y.astype(np.float))
-                else:
-                    def func(x, y):
-                        return np.average(np.abs(x - y))
-                if args.step is not None:
-                    print("error for step %s" % args.step)
-                    if args.channel is not None:
-                        print("error for dimensions [%s]" %
-                              (",".join([str(chan) for chan in args.channel])))
-#pylint: disable=unsubscriptable-object
-                    out = [func(tensors[0][0][i], tensors[1][0][i])
-                           for i in range(len(tensors[0][0]))]
-                else:
-                    out = [func(t1, t2)
-                           for t1, t2 in zip(*tensors)]
-                for idx, val in enumerate(out):
-                    if idx % 10 == 0:
-                        print("\n{:03d} {:03d}:  ".format(idx, idx+9), end='')
-                    print('{:3.0f}{}'.format(val, "" if (idx + 1) % 10 == 0 else ", "), end='')
-                print()
-            else:
-                self.ppaged("\n".join(print_comparison(tensors)))
-            return
-
-        for idx, k in enumerate(self._tensor_store):
-            print("{:3d}) {}".format(idx, k))
-
-    def nodeoption_choices_method(self, arg_tokens):
-        step_num = arg_tokens['step'][0]
-        if step_num == '*':
-            keys = []
-            for step in self.G.graph_state.steps:
-                node = step['node']
-                keys.extend(node.at_options.valid_options.keys())
-            return keys
-        try:
-            step_num = int(step_num)
-            node = self.G.graph_state.steps[step_num]['node']
-            return node.at_options.valid_options.keys()
-        except ValueError:
-            return []
-
-    # nodeoption COMMAND
-    parser_nodeoption = Cmd2ArgumentParser()
-    parser_nodeoption.add_argument('step', nargs=(0, 1), help='Set this step number')
-    parser_nodeoption.add_argument('parameter', nargs=(
-        0, 1), choices_method=nodeoption_choices_method, help='Set this parameter')
-    parser_nodeoption.add_argument('value', nargs=(0, 1), help='Set the parameter to this value')
-
-    @with_argparser(parser_nodeoption)
-    def do_nodeoption(self, args):
-        """ Allows setting of autotiler generator control parameters and other code generation
-options such as the location of inputs and outputs. For a complete set of the parameters that
-can be set refer to the autotiler documentation."""
-        self._check_graph()
-        if args.step is None or (args.step == '*' and args.parameter is None):
-            for nodeid, elem in self.G.node_options.items():
-                print("{}: {}".format(nodeid, elem))
-            return
-
-        if args.step == '*':
-            nodes = [step['node'] for step in self.G.graph_state.steps]
-        else:
-            try:
-                step = int(args.step)
-                nodes = [self.G.graph_state.steps[step]['node']]
-            except ValueError:
-                self.perror("that's not a valid step")
-
-        if args.parameter is None:
-            node_options = self.G.node_options.get(NodeId(nodes[0]))
-            if node_options:
-                print(node_options)
-            else:
-                print("nothing set")
-            return
-        if args.value is None:
-            val = None
-        else:
-            val = int(args.value)
-        for node in nodes:
-            node_options = node.at_options
-            setattr(node_options, args.parameter, val)
-            self.G.node_options[NodeId(node)] = node_options
-
-    # QSHOW COMMAND
-    parser_qshow = Cmd2ArgumentParser()
-    table_options(parser_qshow)
-    parser_qshow.add_argument('step', type=int, nargs=(0, 1), help='Limit to step number')
-
-    @with_argparser(parser_qshow)
-    def do_qshow(self, args):
-        """
-Show current quantization settings."""
-        self._check_graph()
-        self._check_quantized()
-        tab = QuantizationReporter(step=args.step).report(self.G, self.G.quantization)
-        output_table(tab, args)
-
-    # EXTRACT COMMAND
-    parser_extract = Cmd2ArgumentParser()
-    parser_extract.add_argument('step',
-                                type=int,
-                                help='step number to extract')
-
-    @with_argparser(parser_extract)
-    def do_extract(self, args):
-        """
-Extracts a single step out of a graph and forms a new graph with inputs and outputs to this step."""
-        self._check_graph()
-        if args.step < 0 or args.step > len(self.G.graph_state.steps):
-            self.perror("step must be between 0 and {}".format(len(self.G.graph_state.steps)))
-        extract_node(self.G, self.G.graph_state.steps[args.step]['node'])
-
-    # GEN COMMAND
-    parser_gen = Cmd2ArgumentParser()
-    parser_gen.add_argument('model_file',
-                            completer_method=Cmd.path_complete,
-                            nargs=argparse.OPTIONAL,
-                            help='file to write to, otherwise output to terminal')
-    parser_gen.add_argument('-T', '--tensor_directory',
-                            completer_method=Cmd.path_complete,
-                            help='path to tensor directory. full path will be created' +
-                            ' if it doesn\'t exist. If this parameter is given it will' +
-                            'update the settings saved with the graph state.')
-    parser_gen.add_argument('-M', '--model_directory',
-                            completer_method=Cmd.path_complete,
-                            help='path to model directory. full path will be created' +
-                            ' if it doesn\'t exist. If this parameter is given it will' +
-                            'update the settings saved with the graph state.')
-    parser_gen.add_argument('-t', '--output_tensors',
-                            action='store_true',
-                            help='write constants (weights, biases)')
-    parser_gen.add_argument('-c', '--checksums',
-                            completer_method=Cmd.path_complete,
-                            help='generate checksum tests in code for the given file')
-    parser_gen.add_argument('--header_file', 
-                            action='store_true',
-                            help='generate header file with quantization information for each layer')
-
-    @with_argparser(parser_gen)
-    def do_gen(self, args):
-        """
-Generate AutoTiler model C code and optionally dump tensors. If no destination file is
-given the generated code will be outputed to the screen. Check the 'set' command for
-settings related to code generation."""
-        self._check_graph()
-        self._check_quantized()
-        self._check_adjusted()
-        if args.checksums:
-            input_args = self._get_input_args(None)
-            LOG.info("input file %s", args.checksums)
-            data = import_data(args.checksums, **input_args)
-            execute(self.G, [data], qrecs=self.G.quantization, qmode=QuantizationMode.all())
-            self.settings['checksum_file'] = args.checksums
-            self.settings['generate_checksums'] = True
-
-        if args.tensor_directory:
-            self.settings['tensor_directory'] = args.tensor_directory
-        if args.model_directory:
-            self.settings['model_directory'] = args.model_directory
-        code_gen = CodeGenerator(self.G, DefaultNamingConvension(self.G), self.settings)
-
-        if self.settings['template_file']:
-            code_template = dynamic_template(self.settings['template_file'])
-        else:
-            code_template = default_template
-
-        if args.model_file:
-            with open(os.path.join(self.settings['model_directory'],
-                                   args.model_file), "w") as output_fp:
-                output_fp.write(code_template(self.G, code_generator=code_gen))
-        else:
-            self.ppaged(code_template(self.G, code_generator=code_gen))
-        if args.output_tensors:
-            code_gen.write_constants()
-
-        if args.header_file:
-            if args.model_file:
-                with open(os.path.join(self.settings['model_directory'], os.path.splitext(args.model_file)[0]+'.h'), "w") as output_fp:
-                    output_fp.write(header_template(self.G, code_generator=code_gen))
-            else:
-                self.ppaged(header_template(self.G, code_generator=code_gen))
-
-    # SAVE_STATE COMMAND
-    parser_save_state = Cmd2ArgumentParser()
-    parser_save_state.add_argument('output',
-                                   completer_method=Cmd.path_complete,
-                                   nargs=argparse.OPTIONAL,
-                                   help='file to write to')
-
-    @with_argparser(parser_save_state)
-    def do_save_state(self, args):
-        """
-Save the state of the transforms and quantization of the graph.
-This state file can be used to generate the model file as part of
-a build script. If no argument is given then the state files
-will be saved in the same directory as the graph. If a directory is
-given then the state files will be saved in it with the graph
-basename. If a filename is given, its basename will be used to
-save the state files."""
-        self._check_graph()
-        self._check_quantized()
-        gen_opts = {k: self.settings[k] for k in DEFAULT_GEN_OPTS}
-        dump_state(self.G, state_path=args.output, extra=gen_opts)
-
-    # BCORR COMMAND
-    parser_bcorr = Cmd2ArgumentParser()
-    input_options(parser_bcorr)
-
-    @with_argparser(parser_bcorr)
-    def do_bcorr(self, args):
-        """
-Correct biases with average quantization error."""
-        self._check_graph()
-        self._check_quantized()
-        stats_collector = StepErrorStatsCollector()
-        input_args = self._get_input_args(args)
-        cnt = 0
-        for filename in glob_input_files(args.input_files):
-            cnt += 1
-            data = import_data(filename, **input_args)
-            stats_collector.collect_stats(self.G, [data])
-
-        adjust_biases(self.G, stats_collector.reduce_stats())
-
-    # QERROR COMMAND
-    parser_qerror = Cmd2ArgumentParser()
-    parser_qerror.add_argument('-s', '--step',
-                               action='store_true',
-                               help='evaluate quantization per step. i.e.\
-                                    individually quantize each layer')
-    parser_qerror.add_argument('-r', '--report_lowest',
-                               type=int, help='QSNR threshold below which to report filename')
-    table_options(parser_qerror, default_width=140)
-    input_options(parser_qerror)
-
-    @with_argparser(parser_qerror)
-    def do_qerror(self, args):
-        """
-Show quantization error introduced by processing one or more input files."""
-        self._check_graph()
-        self._check_quantized()
-        fmt = ('tab' if args.output is None else args.output['fmt'])
-        input_args = self._get_input_args(args)
-        if args.step:
-            stats_collector = StepErrorStatsCollector()
-        else:
-            stats_collector = ErrorStatsCollector()
-        cnt = 0
-        for filename in glob_input_files(args.input_files):
-            cnt += 1
-            data = import_data(filename, **input_args)
-            stat = stats_collector.collect_stats(self.G, [data])
-            if args.report_lowest is not None:
-                lowest = min((elem['qsnr'] for elem in stat.values()))
-                if lowest < args.report_lowest:
-                    self.pfeedback("{} had QSNR below threshold".format(filename))
-
-        tab = ErrorReporter(do_totals=(fmt != "csv"), one_input=cnt <= 1, with_chan=args.step)\
-            .report(self.G, stats_collector.reduce_stats())
-        output_table(tab, args)
-
-    # QTUNE COMMAND
-    parser_tune = Cmd2ArgumentParser()
-    parser_tune.add_argument('step',
-                             type=int, help='step to tune')
-    parser_tune.add_argument('parameter',
-                             choices=['acc', 'calc', 'weights', 'biases', 'dp', 'out'],
-                             help='which parameter to tune')
-    parser_tune.add_argument('X',
-                             nargs='?',
-                             default=0,
-                             type=int, help='X of QX.Y')
-    parser_tune.add_argument('Y',
-                             nargs='?',
-                             default=0,
-                             type=int, help='Y of QX.Y')
-    parser_tune.add_argument('index',
-                             nargs='?',
-                             default=0,
-                             type=int, help='edge index')
-    parser_tune.add_argument('-f',
-                             '--sub_step_fusion',
-                             type=int,
-                             help='index of the subnode for qtune inside of a fused one')
-
-    @with_argparser(parser_tune)
-    def do_qtune(self, args):
-        """
-Tune quantization of graph."""
-        self._check_graph()
-        self._check_quantized()
-
-        tuneq(self.G, self.G.quantization, args.step,
-              args.parameter, args.X, args.Y, index=args.index)
-
-    # TEMPS COMMAND
-    parser_temps = Cmd2ArgumentParser()
-    table_options(parser_temps, default_width=140)
-
-    @with_argparser(parser_temps)
-    def do_temps(self, args):
-        """
-Show statistics on activations."""
-        self._check_graph()
-        fmt = ('tab' if args.output is None else args.output['fmt'])
-        stats_collector = TempsStatsCollector()
-        stats = stats_collector.collect_stats(self.G)
-        tab = TempsReporter(do_totals=(fmt != "csv")).report(self.G, stats)
-        output_table(tab, args)
diff --git a/tools/nntool/interpreter/nntool_shell_base.py b/tools/nntool/interpreter/nntool_shell_base.py
new file mode 100644
index 000000000..583cd035f
--- /dev/null
+++ b/tools/nntool/interpreter/nntool_shell_base.py
@@ -0,0 +1,256 @@
+import os
+import logging
+from itertools import chain
+from cmd2 import Cmd, CompletionItem
+from execution.execution_progress import ExecutionProgress
+from .shell_utils import NNToolShellLogHandler
+from .settings import NNToolShellSettings
+
+CHECK_GRAPH_ERROR = """
+A graph must be opened to use this command. Use the open command to open a graph.
+"""
+
+CHECK_QUANTIZED_ERROR = """
+The opened graph must be quantized to use this command. Run the aquant command.
+"""
+
+CHECK_ADJUSTED_ERROR = """
+The opened graph must be adjusted to use this command. Run the adjust command.
+"""
+
+LOG = logging.getLogger("nntool")
+
+NO_GRAPH = {
+    'G': None,
+    'graph_file': "",
+    'tensor_file': ""
+}
+
+
+def progress(step_idx, name):
+    if not step_idx:
+        return
+    print("{}\r{} {}\r".format(" " * 70, step_idx, name), end="")
+    return
+
+
+class GraphNotReadyException(Exception):
+    pass
+
+
+class NNToolShellBase(NNToolShellSettings, Cmd):
+    def __init__(self, args, nntool_workdir, *rest, **kwargs):
+        self._nntool_workdir = nntool_workdir
+        self._graph_idx = 0
+        self._graphs = []
+        self._settings = []
+        self._tensor_store = {}
+        super(NNToolShellBase, self).__init__(*rest, **kwargs)
+        self.py_locals['tensors'] = self._tensor_store
+
+        if args and args.log_level is not None:
+            self.settings['log_level'] = args.log_level.upper()
+
+        self._graph_idx = 0
+
+        # settings overide graph file
+        graph_file = self.settings['graph_file']
+        tensor_file = self.settings['tensor_file']
+
+        # command line overides that
+        if args:
+            if args.graph_file:
+                graph_file = args.graph_file
+
+            if args.tensor_file:
+                tensor_file = args.tensor_file
+
+            if args.template_file:
+                self.settings['template_file'] = args.template_file
+
+            if args.tf_quant:
+                self.settings['load_quantization'] = args.tf_quant
+
+            if args.dequant_tf:
+                self.settings['load_dequantized'] = args.dequant_tf
+
+        if 'log_level' not in self.settings:
+            self.settings['log_level'] = "INFO"
+
+        if graph_file:
+            self._graphs = []
+            self._startup_commands.append(
+                self.__build_open_graph(graph_file,
+                                        tensor_file,
+                                        self.load_quantization,
+                                        load_dequantized=self.settings.get('load_dequantized'))
+            )
+        else:
+            self._graphs = [
+                NO_GRAPH.copy()
+            ]
+
+        ExecutionProgress().listen(progress)
+        LOG.propagate = False
+        handler = NNToolShellLogHandler(self)
+        formatter = logging.Formatter('%(module)s - %(message)s')
+        handler.setFormatter(formatter)
+        LOG.addHandler(handler)
+        LOG.setLevel(self.settings['log_level'])
+
+    def run_script(self, script_path):
+        expanded_path = os.path.abspath(os.path.expanduser(script_path))
+
+        # Make sure the path exists and we can access it
+        if not os.path.exists(expanded_path):
+            self.perror("'{}' does not exist or cannot be accessed".format(expanded_path))
+            return
+
+        # Make sure expanded_path points to a file
+        if not os.path.isfile(expanded_path):
+            self.perror("'{}' is not a file".format(expanded_path))
+            return
+
+        # An empty file is not an error, so just return
+        if os.path.getsize(expanded_path) == 0:
+            return
+
+        try:
+            # Read all lines of the script
+            with open(expanded_path, encoding='utf-8') as target:
+                script_commands = target.read().splitlines()
+        except OSError as ex:  # pragma: no cover
+            self.pexcept("Problem accessing script from '{}': {}".format(expanded_path, ex))
+            return
+
+        orig_script_dir_count = len(self._script_dir)
+
+        try:
+            self.runcmds_plus_hooks(self._startup_commands)
+            self._startup_commands.clear()
+            self._script_dir.append(os.path.dirname(expanded_path))
+            return self.runcmds_plus_hooks(script_commands)
+
+        finally:
+            with self.sigint_protection:
+                # Check if a script dir was added before an exception occurred
+                if orig_script_dir_count != len(self._script_dir):
+                    self._script_dir.pop()
+
+    def other_open_graphs(self, only_open=False):
+        items = []
+        for graph_idx, graph in enumerate(self._graphs):
+            if graph_idx == self._graph_idx:
+                continue
+            if graph['G'] is None:
+                if only_open:
+                    continue
+                name = "No Graph"
+            else:
+                name = graph['G'].name
+            items.append(CompletionItem(graph_idx, name))
+        return items
+
+    def inputs_and_outputs(self):
+        if self.G is None:
+            return []
+        return [node.name for node in chain(self.G.inputs_and_constants(), self.G.outputs())]
+
+    def _check_adjusted(self):
+        if not self.is_adjusted:
+            raise GraphNotReadyException(CHECK_ADJUSTED_ERROR)
+
+    def _check_graph(self):
+        if self.G is None:
+            raise GraphNotReadyException(CHECK_GRAPH_ERROR)
+
+    def _check_quantized(self):
+        if not self.is_quantized:
+            raise GraphNotReadyException(CHECK_QUANTIZED_ERROR)
+
+    @staticmethod
+    def __build_open_graph(graph_file, tensor_file, load_quantization, load_dequantized=False):
+        command = ["open", graph_file, "-n"]
+        if tensor_file:
+            command.append("-t {}".format(tensor_file))
+        if load_quantization:
+            command.append("-q")
+        if load_dequantized:
+            command.append("-d")
+        return " ".join(command)
+
+    def execute_adjust_order(self):
+        self.G.adjust_order()
+        self.G.add_dimensions()
+
+    def _update_prompt(self):
+        self.prompt = "(NNT {} {}) ".format(os.path.basename(self.graph_file),
+                                            self._graph_idx)
+
+    @property
+    def settings(self):
+        return self._settings
+
+    @settings.setter
+    def settings(self, val):
+        self._settings = val
+
+    @property
+    def G(self):
+        return self._graphs[self._graph_idx]['G']
+
+    @G.setter
+    def G(self, val):
+        self._graphs[self._graph_idx]['G'] = val
+
+    @property
+    def graph_name(self):
+        if self._graph_idx is None:
+            return ""
+        return self._graphs[self._graph_idx]['G'].name
+
+    @graph_name.setter
+    def graph_name(self, val):
+        if self._graph_idx is None:
+            return
+        self._graphs[self._graph_idx]['G'].name = val
+
+    @property
+    def is_quantized(self):
+        return self._graphs[self._graph_idx]['G'].quantization is not None
+
+    @property
+    def is_adjusted(self):
+        return self._graphs[self._graph_idx]['G'].graph_identity.is_adjusted
+
+    @property
+    def is_equalized(self):
+        return self._graphs[self._graph_idx]['G'].graph_identity.is_equalized
+
+    @property
+    def graph_file(self):
+        return self._graphs[self._graph_idx]['graph_file']
+
+    @graph_file.setter
+    def graph_file(self, val):
+        self._graphs[self._graph_idx]['graph_file'] = val
+
+    @property
+    def tensor_file(self):
+        return self._graphs[self._graph_idx]['tensor_file']
+
+    @tensor_file.setter
+    def tensor_file(self, val):
+        self._graphs[self._graph_idx]['tensor_file'] = val
+
+    @property
+    def tensor_store(self):
+        return self._tensor_store
+
+    @tensor_store.setter
+    def tensor_store(self, val):
+        self._tensor_store = val
+
+    @property
+    def tensor_store_names(self):
+        return self._tensor_store.keys()
diff --git a/tools/nntool/interpreter/settings.py b/tools/nntool/interpreter/settings.py
new file mode 100644
index 000000000..aaa6a4c4d
--- /dev/null
+++ b/tools/nntool/interpreter/settings.py
@@ -0,0 +1,278 @@
+
+import logging
+from cmd2 import Cmd, Settable
+from generation.autotiler_options import DEFAULT_GEN_OPTS, DEFAULT_GEN_OPTS_DESCRIPTIONS
+from utils.data_importer import MODES
+from .shell_utils import find_choice
+
+LOG = logging.getLogger("nntool")
+
+VALID_LOG_LEVELS = [
+    "INFO",
+    "DEBUG",
+    "WARNING"
+]
+
+DEFAULT_OPT_DESCRIPTIONS = {
+    'log_level': {'type': str, 'descr': 'set logging level (one of {} or number)'.format(", ".join(VALID_LOG_LEVELS))},
+    'load_quantization': {'type': bool, 'descr': 'load TFLITE quantization information'},
+    'load_dequantized': {'type': bool, 'descr': 'load the dequantized constant values from tflite quantized graph'},
+    'fusions': {'type': bool, 'descr': 'run standard graph fusions on graph load'},
+    'adjust_order': {'type': bool, 'descr': 'adjust activation and parameter dimension order\
+         to match autotiler on graph load'},
+    'weight_equalization': {'type': bool, 'descr': 'equalize weights on graph load'},
+    'equalization_threshold': {'type': float, 'descr': 'threshold for weight equalization convergence'},
+    'adjust_image': {'type': bool, 'descr': 'adjust image input size and channels'},
+    'image_width': {'type': int, 'descr': 'input image width'},
+    'image_height': {'type': int, 'descr': 'input image height'},
+    'image_mode': {'type': str, 'descr': 'input image mode (one of {})'.format(", ".join(MODES.keys()))},
+    'input_divisor': {'type': float, 'descr': 'divide input tensor values by this value'},
+    'input_offset': {'type': float, 'descr': 'add this value to input tensor values'},
+    'input_norm_func': {'type': str, 'descr': 'lambda function in the form x: fn(x) where x is any input'},
+    'graph_name': {'type': str, 'descr': 'name of the graph used for code generation'},
+    'template_file': {'type': str, 'descr': 'template file used for code generation'},
+}
+
+
+class NNToolShellSettings(Cmd):
+    '''
+    This class have all the settings and properties that can be set up from the NNToolShell
+    To see the Code Generation settings, please refer to generation/autotiler_options.py
+    '''
+    def __init__(self, *args, **kwargs):
+        super(NNToolShellSettings, self).__init__(*args, **kwargs)
+        for k, v in DEFAULT_OPT_DESCRIPTIONS.items():
+            self.add_settable(Settable(k, v['type'], v['descr']))
+        for k, v in DEFAULT_GEN_OPTS_DESCRIPTIONS.items():
+            self.add_settable(Settable(k, v['type'], v['descr']))
+        self.settings = {
+            'load_quantization': False,
+            'fusions': False,
+            'adjust_order': False,
+            'weight_equalization': False,
+            'equalization_threshold': 0.1,
+            'adjust_image': False,
+            'image_width': -1,
+            'image_height': -1,
+            'image_mode': "",
+            'image_transpose': False,
+            'input_norm_func': "",
+            'input_divisor': 1,
+            'input_offset': 0,
+            'input_shift': 0,
+            'log_level': 'INFO',
+            'graph_file': "",
+            'tensor_file': "",
+            'template_file': ""
+        }
+        self.settings.update(DEFAULT_GEN_OPTS)
+
+    # LOG_LEVEL PROPERTY
+
+    @property
+    def log_level(self):
+        return self.settings['log_level']
+
+    @log_level.setter
+    def log_level(self, val):
+        try:
+            val = int(val)
+            self.settings['log_level'] = val
+        except ValueError:
+            val = val.upper()
+            val = find_choice(VALID_LOG_LEVELS, val)
+
+        self.settings['log_level'] = val
+        LOG.setLevel(self.settings['log_level'])
+        LOG.info("set log level to %s", val)
+
+    def __getattr__(self, k):
+        if k in DEFAULT_GEN_OPTS:
+            return self.settings[k]
+
+    def __setattr__(self, k, val):
+        if k in DEFAULT_GEN_OPTS:
+            self.settings[k] = val
+        super(NNToolShellSettings, self).__setattr__(k, val)
+
+    # load_quantization PROPERTY
+
+    @property
+    def load_quantization(self):
+        return self.settings['load_quantization']
+
+    @load_quantization.setter
+    def load_quantization(self, val):
+        self.settings['load_quantization'] = bool(val)
+
+    # FUSIONS PROPERTY
+
+    @property
+    def fusions(self):
+        return self.settings['fusions']
+
+    @fusions.setter
+    def fusions(self, val):
+        self.settings['fusions'] = bool(val)
+
+    # ADJUST_ORDER PROPERTY
+
+    @property
+    def adjust_order(self):
+        return self.settings['adjust_order']
+
+    @adjust_order.setter
+    def adjust_order(self, val):
+        self.settings['adjust_order'] = bool(val)
+
+    # WEIGHT_EQUALIZATION PROPERTY
+
+    @property
+    def weight_equalization(self):
+        return self.settings['weight_equalization']
+
+    @weight_equalization.setter
+    def weight_equalization(self, val):
+        self.settings['weight_equalization'] = bool(val)
+
+    # EQUALIZATION_THRESHOLD PROPERTY
+
+    @property
+    def equalization_threshold(self):
+        return self.settings['equalization_threshold']
+
+    @equalization_threshold.setter
+    def equalization_threshold(self, val):
+        self.settings['equalization_threshold'] = float(val)
+
+    # IMAGE ADJUSTMENT SETTINGS
+
+    # ADJUST_IMAGE PROPERTY
+
+    @property
+    def adjust_image(self):
+        return self.settings['adjust_image']
+
+    @adjust_image.setter
+    def adjust_image(self, val):
+        self.settings['adjust_image'] = bool(val)
+
+    # IMAGE_WIDTH PROPERTY
+
+    @property
+    def image_width(self):
+        return self.settings['image_width']
+
+    @image_width.setter
+    def image_width(self, val):
+        try:
+            val = int(val)
+            if val <= 0:
+                raise ValueError()
+        except ValueError:
+            raise ValueError("value should be positive integer")
+        self.settings['image_width'] = bool(val)
+
+    # IMAGE_HEIGHT PROPERTY
+
+    @property
+    def image_height(self):
+        return self.settings['image_height']
+
+    @image_height.setter
+    def image_height(self, val):
+        try:
+            val = int(val)
+            if val <= 0:
+                raise ValueError()
+        except ValueError:
+            raise ValueError("value should be positive integer")
+        self.settings['image_height'] = bool(val)
+
+    # IMAGE_MODE PROPERTY
+
+    @property
+    def image_mode(self):
+        return self.settings['image_mode']
+
+    @image_mode.setter
+    def image_mode(self, val):
+        val = find_choice(MODES.keys(), val)
+        self.settings['image_mode'] = str(val)
+
+    # INPUT_DIVISOR PROPERTY
+
+    @property
+    def input_divisor(self):
+        return self.settings['input_divisor']
+
+    @input_divisor.setter
+    def input_divisor(self, val):
+        self.settings['input_divisor'] = int(val)
+
+    # INPUT_NORM_FUNC PROPERTY
+
+    @property
+    def input_norm_func(self):
+        return self.settings['input_norm_func']
+
+    @input_norm_func.setter
+    def input_norm_func(self, val):
+        self.settings['input_norm_func'] = str(val)
+
+    # INPUT_OFFSET PROPERTY
+
+    @property
+    def input_offset(self):
+        return self.settings['input_offset']
+
+    @input_offset.setter
+    def input_offset(self, val):
+        self.settings['input_offset'] = int(val)
+
+    @property
+    def template_file(self):
+        return self.settings['template_file']
+
+    @template_file.setter
+    def template_file(self, val):
+        self.settings['template_file'] = val
+
+    def _get_input_args(self, args):
+        res = {}
+        if self.settings['adjust_image']:
+            res['width'] = self.settings['image_width']
+            res['height'] = self.settings['image_height']
+            res['mode'] = self.settings['image_mode']
+        else:
+            res['width'] = res['height'] = -1
+            res['mode'] = None
+        if args:
+            if args.width is not None:
+                res['width'] = args.width
+            if args.height is not None:
+                res['height'] = args.height
+            if args.mode is not None:
+                res['mode'] = args.mode
+
+#           res['shift'] = self.settings['input_shift'] if args.bit_shift
+#           is None else args.bit_shift
+            res['divisor'] = self.settings['input_divisor']\
+                if args.divisor is None else args.divisor
+            res['offset'] = self.settings['input_offset']\
+                if args.offset is None else args.offset
+            res['transpose'] = self.settings['image_transpose'] if args.transpose is None\
+                else args.transpose
+            res['norm_func'] = self.settings['input_norm_func'] if args.norm_func is None\
+                else args.norm_func
+        else:
+            #            res['shift'] = self.settings['input_shift']
+            res['divisor'] = self.settings['input_divisor']
+            res['offset'] = self.settings['input_offset']
+            res['transpose'] = self.settings['image_transpose']
+            res['norm_func'] = self.settings['input_norm_func']
+
+        if args.nptype:
+            res['nptype'] = args.nptype
+
+        return res
diff --git a/tools/nntool/interpreter/shell_utils.py b/tools/nntool/interpreter/shell_utils.py
index 018944f75..45875e372 100644
--- a/tools/nntool/interpreter/shell_utils.py
+++ b/tools/nntool/interpreter/shell_utils.py
@@ -96,10 +96,16 @@ def output_table(table, args):
 def filter_dirs(path: str) -> bool:
     return os.path.isdir(path)
 
-def glob_input_files(input_files):
+def glob_input_files(input_files, graph_inputs=1):
+    input_files_list = []
     for file in input_files:
         for globbed_file in glob(file):
-            yield globbed_file
+            input_files_list.append(globbed_file)
+    if len(input_files_list) % graph_inputs:
+        return ValueError("input files number is not divisible for graph inputs {}".format(graph_inputs))
+    shard = int(len(input_files_list) / graph_inputs)
+    return [[input_files_list[i+j] for i in range(0, len(input_files_list), shard)] \
+                for j in range(shard)]
 
 def find_choice(choices, val):
     hits = [p for p in choices if p.startswith(val)]
@@ -121,7 +127,7 @@ def emit(self, record: logging.LogRecord):
         else:
             self.__shell.pfeedback(ansi.style_success(output))
 
-def format_dump_file(G, outputs, quantized):
+def format_dump_file(G, outputs, quantized, dequantize):
     # simplify the output since we only have one for now and add weights
     foutputs = []
     for idx, out in enumerate(outputs):
@@ -131,19 +137,54 @@ def format_dump_file(G, outputs, quantized):
             for filt in node.contained_filters():
                 if quantized:
                     qrec = G.quantization[NodeId(node, filt)]
-                    tensors.append(qrec.weights_q.quantize(filt.weights))
-                    tensors.append(qrec.biases_q.quantize(filt.biases))
+                    if G.has_quantized_parameters:
+                        if dequantize:
+                            qrec = G.quantization[NodeId(node, filt)]
+                            tensors.append(qrec.weights_q.get_dequantized(filt.weights))
+                            tensors.append(qrec.biases_q.get_dequantized(filt.biases))
+                        else:
+                            tensors.append(np.copy(filt.weights))
+                            tensors.append(qrec.biases_q.get_quantized(filt.biases))
+                    else:
+                        if dequantize:
+                            tensors.append(np.copy(filt.weights))
+                            tensors.append(np.copy(filt.biases))
+                        else:
+                            tensors.append(qrec.weights_q.quantize(filt.weights))
+                            tensors.append(qrec.biases_q.quantize(filt.biases))
                 else:
-                    tensors.append(np.copy(filt.weights))
-                    tensors.append(np.copy(filt.biases))
+                    if G.has_quantized_parameters:
+                        qrec = G.quantization[NodeId(node, filt)]
+                        tensors.append(qrec.weights_q.get_dequantized(filt.weights))
+                        tensors.append(qrec.biases_q.get_dequantized(filt.biases))
+                    else:
+                        tensors.append(np.copy(filt.weights))
+                        tensors.append(np.copy(filt.biases))
         elif isinstance(node, FilterParameters):
             if quantized:
                 qrec = G.quantization[NodeId(node, None)]
-                tensors.append(qrec.weights_q.quantize(node.weights))
-                tensors.append(qrec.biases_q.quantize(node.biases))
+                if G.has_quantized_parameters:
+                    if dequantize:
+                        tensors.append(qrec.weights_q.get_dequantized(node.weights))
+                        tensors.append(qrec.biases_q.get_dequantized(node.biases))
+                    else:
+                        tensors.append(np.copy(node.weights))
+                        tensors.append(qrec.biases_q.get_quantized(node.biases))
+                else:
+                    if dequantize:
+                        tensors.append(np.copy(node.weights))
+                        tensors.append(np.copy(node.biases))
+                    else:
+                        tensors.append(qrec.weights_q.quantize(node.weights))
+                        tensors.append(qrec.biases_q.quantize(node.biases))
             else:
-                tensors.append(np.copy(node.weights))
-                tensors.append(np.copy(node.biases))
+                if G.has_quantized_parameters:
+                    qrec = G.quantization[NodeId(node, None)]
+                    tensors.append(qrec.weights_q.dequantize(node.weights))
+                    tensors.append(qrec.biases_q.dequantize(node.biases))
+                else:
+                    tensors.append(np.copy(node.weights))
+                    tensors.append(np.copy(node.biases))
         else:
             tensors.append(None)
             tensors.append(None)
@@ -158,7 +199,7 @@ def print_comparison(tensors):
     out = [[printt(t) for t in tensors[i]] for i in range(2)]
     max_len = max((len(l) for i in range(2) for o in out[i] for l in o))
     make_len = lambda a: a + " "*(max_len - len(a))
-    combine = lambda a, b: a if b is None else " "*max_len+1 + b if a is None\
+    combine = lambda a, b: a if b is None else " "*(max_len+1) + b if a is None\
         else make_len(a) + " " + b
     all_outs = [combine(l0, l1) for (o0, o1) in zip_longest(*out, fillvalue=[])\
         for (l0, l1) in zip_longest(o0, o1)]
diff --git a/tools/nntool/nntool b/tools/nntool/nntool
index 697bf357f..7398b1163 100755
--- a/tools/nntool/nntool
+++ b/tools/nntool/nntool
@@ -27,7 +27,7 @@ def create_parser():
     parser = argparse.ArgumentParser(prog='nntool')
 
     parser.add_argument('graph_file',
-                        help='graph file - Darknet .cfg file, TFLite file or JSON state file',
+                        help='graph file - TFLite file or JSON state file',
                         metavar="INPUT_GRAPH or STATE_FILE",
                         nargs=argparse.OPTIONAL,
                         default="")
@@ -45,6 +45,8 @@ def create_parser():
     parser.add_argument('-s', '--script_file',
                         help='run script and exit',
                         metavar="SCRIPT_FILE")
+    parser.add_argument('-H', '--header_file',
+                        help='write graph information to header file')
     parser.add_argument('-m', '--model_file',
                         help='override model file in state file')
     parser.add_argument('-M', '--model_directory',
@@ -62,6 +64,9 @@ def create_parser():
     parser.add_argument('-q', '--tf_quant',
                         action='store_true',
                         help='load tflite quantization parameters')
+    parser.add_argument('--dequant_tf',
+                        action='store_true',
+                        help='dequantize the tflite quantizated parameters')
 
     return parser
 
diff --git a/tools/nntool/quantization/cross_layer_range_eq.py b/tools/nntool/quantization/cross_layer_range_eq.py
index d74c2ca55..67adf25b6 100644
--- a/tools/nntool/quantization/cross_layer_range_eq.py
+++ b/tools/nntool/quantization/cross_layer_range_eq.py
@@ -28,7 +28,25 @@
 
 LOG = logging.getLogger('nntool.'+__name__)
 
-def discover_groups(G, do_relun=False):
+
+def process_node(node, last_neuron, group, groups, neurons):
+    if not node.can_equalize:
+        group = add_group(group, groups, neurons)
+        return True, None, group
+
+    if isinstance(node, FilterParameters):
+        last_neuron = add_neuron(node.name, node, last_neuron, neurons, group)
+        return True, last_neuron, group
+
+    if isinstance(node, ActivationParameters) and\
+            last_neuron is not None and node.activation == 'relu':
+        assert 'activation' not in last_neuron, "weird 2 activations after conv"
+        last_neuron['activation'] = node
+        return True, last_neuron, group
+    return False, last_neuron, group
+
+
+def discover_groups(G):
     groups = []
     group = []
     neurons = []
@@ -40,41 +58,23 @@ def discover_groups(G, do_relun=False):
             last_neuron = None
             group = add_group(group, groups, neurons)
             continue
-        # can equalize indicates that the node can be included in the group
-        if not node.can_equalize:
-            last_neuron = None
-            group = add_group(group, groups, neurons)
-            continue
-
-        if isinstance(node, FilterParameters):
-            last_neuron = add_neuron(node.name, node, last_neuron, neurons, group)
-            continue
 
-        if isinstance(node, ActivationParameters) and\
-           last_neuron is not None and\
-           (node.activation == 'relu6' or node.activation == 'relun'):
-            # To implement for RELU6 requires a RELUN with a per channel N
-            # which doesn't have a generator as yet so this is just for testing
-            # at present
-            if not do_relun:
-                last_neuron = None
-                group = add_group(group, groups, neurons)
-                continue
-            assert 'activation' not in last_neuron, "weird 2 activations after conv"
-            last_neuron['activation'] = node
+        should_continue, last_neuron, group = process_node(node, last_neuron, group,
+                                                           groups, neurons)
+        if should_continue:
             continue
 
         if isinstance(node, ConvFusionParameters):
-            # TODO - Add reluN support for fusions
-            filters = node.contained_filters()
-            if len(filters) == 1:
-                last_neuron = add_neuron(node.name, filters[0], last_neuron, neurons, group)
+            for fnode in node.contained_nodes():
+                _, last_neuron, group = process_node(fnode, last_neuron, group,
+                                                     groups, neurons)
 
     if group:
         add_group(group, groups, neurons)
 
     return groups, neurons
 
+
 def add_group(group, groups, neurons):
     if group:
         LOG.info("Adding group with %d neuron pairs", len(group))
@@ -83,6 +83,7 @@ def add_group(group, groups, neurons):
         group = []
     return group
 
+
 def add_neuron(node_name, node, last_neuron, neurons, group):
     new_neuron = {'name': node_name, 'node': node,
                   'weights': None, 'biases': None}
@@ -93,14 +94,17 @@ def add_neuron(node_name, node, last_neuron, neurons, group):
     last_neuron = new_neuron
     return last_neuron
 
+
 def calculate_s(range_1, range_2):
     assert len(range_1) == len(range_2)
     # note: the paper is wrong. It should be 1/range2 not 1/range1
     return [(1/range_2[i]) * math.sqrt(range_1[i] * range_2[i]) for i in range(len(range_1))]
 
+
 class QuantizationError(Exception):
     pass
 
+
 def calculate_precisions(step):
     nn_0 = step[0]
     nn_1 = step[1]
@@ -110,6 +114,7 @@ def calculate_precisions(step):
     prec_1 = ranges_1/max_1
     return prec_0, prec_1
 
+
 def process_group(group, threshold):
     total_precision = 0
     cycles = 0
@@ -138,40 +143,28 @@ def process_group(group, threshold):
             ranges_0, _ = Ranges.range_output(nn_0['node'], weights=nn_0['weights'])
             ranges_1, _ = Ranges.range_input(nn_1['node'], weights=nn_1['weights'])
             scale = calculate_s(ranges_0, ranges_1)
-            if 'activation' in nn_0:
-                if 'relun' not in nn_0:
-                    if nn_0['activation'].activation == "relu6":
-                        nn_0['relun'] = [6.0] * len(scale)
-                    elif nn_0['activation'].activation == "relun":
-                        if isinstance(nn_0['activation'].activation_params, list):
-                            nn_0['relun'] = copy(nn_0['activation'].activation_params)
-                        else:
-                            nn_0['relun'] = [nn_0['activation'].activation_params] * len(scale)
-                nn_0['relun'] = [relun/s for relun, s in zip(nn_0['relun'], scale)]
             # now apply the scale to the output and input channels
             nn_0['weights'], nn_0['biases'] =\
                 Scales.scale_output(nn_0['node'], scale, nn_0['weights'], nn_0['biases'])
             nn_1['weights'] = Scales.scale_input(nn_1['node'], scale, nn_1['weights'])
 
+
 def process_groups(groups, threshold=0.01):
     for group in groups:
         LOG.info("processing group")
         process_group(group, float(threshold))
 
+
 def update_parameters(neurons):
     for neuron in neurons:
         params = neuron['node']
         params.weights = neuron['weights']
         if neuron['biases'] is not None:
             params.biases = neuron['biases']
-        if 'relun' in neuron:
-            act = neuron['activation']
-            act.activation = 'relun'
-            act.activation_params = neuron['relun']
 
-def weight_equalization(G, threshold=0.01, do_relun=False):
+def weight_equalization(G, threshold=0.01):
     LOG.info("discovering groups")
-    groups, neurons = discover_groups(G, do_relun=do_relun)
+    groups, neurons = discover_groups(G)
     if groups and neurons:
         LOG.info("found %d groups and %d neurons", len(groups), len(neurons))
         process_groups(groups, threshold)
@@ -180,6 +173,7 @@ def weight_equalization(G, threshold=0.01, do_relun=False):
     else:
         LOG.warning("no groups to equalize found")
 
+
 def adjust_biases(G, stats):
     for nid, stat in stats.items():
         node = nid.get_node(G)
diff --git a/tools/nntool/quantization/float32/__init__.py b/tools/nntool/quantization/float32/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tools/nntool/quantization/float32/float32_quantization.py b/tools/nntool/quantization/float32/float32_quantization.py
new file mode 100644
index 000000000..baf1cb693
--- /dev/null
+++ b/tools/nntool/quantization/float32/float32_quantization.py
@@ -0,0 +1,112 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+#pylint: disable=no-self-use
+#pylint: disable=too-many-ancestors
+
+from typing import Sequence
+
+import numpy as np
+
+from graph.types import (Conv2DParameters, MultiplicativeBiasParameters,
+                         Parameters)
+from quantization.quantization_record_base import (QuantizationRecordBase,
+                                                   FilterQuantizationRecordBase, InputOutputQuantizationRecordBase,
+                                                   ScalableFilterQuantizationRecordBase)
+
+
+class ShouldNotBeCalledError(Exception):
+    pass
+
+
+class QuantizationMixin(QuantizationRecordBase):
+    def prepare_inputs(self,
+                       params: Parameters,
+                       input_tensors: Sequence[np.ndarray], ktype: str = None) -> Sequence[np.ndarray]:
+        del params
+        assert ktype == "float32", "incorrect kernel functions for this qrec type"
+        return input_tensors
+
+    def get_outputs(self,
+                    params: Parameters,
+                    output_tensors: Sequence[np.ndarray], ktype: str = None) -> Sequence[np.ndarray]:
+        del params
+        assert ktype == "float32", "incorrect kernel functions for this qrec type"
+        return output_tensors
+
+    @property
+    def auto_dequantize_outputs(self):
+        return False
+
+    @auto_dequantize_outputs.setter
+    def auto_dequantize_outputs(self, val):
+        raise ShouldNotBeCalledError()
+
+    @property
+    def auto_quantize_inputs(self):
+        return False
+
+    @auto_quantize_inputs.setter
+    def auto_quantize_inputs(self, val):
+        raise ShouldNotBeCalledError()
+
+    @property
+    def constants_are_quantized(self) -> bool:
+        return False
+
+
+class Float32QuantizationRecord(QuantizationMixin, InputOutputQuantizationRecordBase):
+    pass
+
+
+class FilterQuantizationMixin(QuantizationMixin):
+
+    def gen_weights(self, params: Parameters, weights: np.ndarray) -> np.ndarray:
+        raise ShouldNotBeCalledError()
+
+    def gen_biases(self, biases: np.ndarray) -> np.ndarray:
+        raise ShouldNotBeCalledError()
+
+    def prepare_weights(self, params: Parameters, weights: np.ndarray, ktype: str = None) -> np.ndarray:
+        del params
+        assert ktype == "float32", "incorrect kernel functions for this qrec type"
+        return weights.astype(np.float32)
+
+    def prepare_biases(self, params: Parameters, biases: np.ndarray,
+                       weights: np.ndarray, ktype: str = None) -> np.ndarray:
+        del params, weights
+        assert ktype == "float32", "incorrect kernel functions for this qrec type"
+        return biases.astype(np.float32)
+
+
+class Float32FilterQuantizationRecord(FilterQuantizationMixin, FilterQuantizationRecordBase):
+    pass
+
+
+class Float32ScalableFilterQuantizationRecord(FilterQuantizationMixin, ScalableFilterQuantizationRecordBase):
+
+    def gen_mul_biases(self, params: MultiplicativeBiasParameters) -> np.ndarray:
+        raise ShouldNotBeCalledError()
+
+    def apply_multiplicative_bias(self,
+                                  params: Conv2DParameters,
+                                  input_tensor: np.ndarray,
+                                  axis: int,
+                                  ktype: str = None):
+        assert ktype == "float32", "incorrect kernel functions for this qrec type"
+        if params.has_mul_bias:
+            shape = [params.filter.out_c if idx == axis else 1 for idx in range(3)]
+            input_tensor *= params.mul_biases.reshape(shape)
+        return input_tensor
diff --git a/tools/nntool/quantization/float32/float_kernet_set.py b/tools/nntool/quantization/float32/float_kernet_set.py
new file mode 100644
index 000000000..a841d6ae0
--- /dev/null
+++ b/tools/nntool/quantization/float32/float_kernet_set.py
@@ -0,0 +1,128 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from quantization.float32.kernels.activations import relu, leaky, hsigmoid, hswish
+from quantization.float32.kernels.fast_conv import faster_conv
+from quantization.float32.kernels.linear import linear
+from quantization.float32.kernels.matrix_operations import matscale, piecewise
+from quantization.float32.kernels.pad import pad
+from quantization.float32.kernels.pool import (av_global_pool, av_pool,
+                                               max_global_pool, max_pool)
+from quantization.float32.kernels.softmax import softmax
+from quantization.float32.kernels.tensor_functions import (concat,
+                                                           constant_input,
+                                                           graph_input, graph_output,
+                                                           reshape, transpose)
+from quantization.float32.kernels.image_format import image_format
+from quantization.kernels.kernel_function import (KernelFunction,
+                                                  KernelFunctionSetBase)
+
+
+class Float32KernelSet(KernelFunctionSetBase):
+    @property
+    def graph_input(self) -> KernelFunction:
+        return graph_input
+
+    @property
+    def graph_output(self) -> KernelFunction:
+        return graph_output
+
+    @property
+    def constant_input(self) -> KernelFunction:
+        return constant_input
+
+    @property
+    def leaky(self) -> KernelFunction:
+        return leaky
+
+    @property
+    def hswish(self) -> KernelFunction:
+        return hswish
+
+    @property
+    def hsigmoid(self) -> KernelFunction:
+        return hsigmoid
+
+    @property
+    def relu(self) -> KernelFunction:
+        return relu
+
+    @property
+    def matscale(self) -> KernelFunction:
+        return matscale
+
+    @property
+    def matadd(self) -> KernelFunction:
+        return piecewise
+
+    @property
+    def matsub(self) -> KernelFunction:
+        return piecewise
+
+    @property
+    def matdiv(self) -> KernelFunction:
+        return piecewise
+
+    @property
+    def matmul(self) -> KernelFunction:
+        return piecewise
+
+    @property
+    def conv2d(self) -> KernelFunction:
+        return faster_conv
+
+    @property
+    def linear(self) -> KernelFunction:
+        return linear
+
+    @property
+    def softmax(self) -> KernelFunction:
+        return softmax
+
+    @property
+    def reshape(self) -> KernelFunction:
+        return reshape
+
+    @property
+    def transpose(self) -> KernelFunction:
+        return transpose
+
+    @property
+    def concat(self) -> KernelFunction:
+        return concat
+
+    @property
+    def av_pool(self) -> KernelFunction:
+        return av_pool
+
+    @property
+    def av_global_pool(self) -> KernelFunction:
+        return av_global_pool
+
+    @property
+    def max_pool(self) -> KernelFunction:
+        return max_pool
+
+    @property
+    def max_global_pool(self) -> KernelFunction:
+        return max_global_pool
+
+    @property
+    def pad(self) -> KernelFunction:
+        return pad
+
+    @property
+    def image_format(self) -> KernelFunction:
+        return image_format
diff --git a/tools/nntool/quantization/float32/kernels/__init__.py b/tools/nntool/quantization/float32/kernels/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tools/nntool/quantization/float32/kernels/activations.py b/tools/nntool/quantization/float32/kernels/activations.py
new file mode 100644
index 000000000..e0200f3a4
--- /dev/null
+++ b/tools/nntool/quantization/float32/kernels/activations.py
@@ -0,0 +1,80 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import numpy as np
+
+from quantization.quantization_record_base import QuantizationRecordBase
+from quantization.float32.float32_quantization import Float32QuantizationRecord
+from graph.types import ReluActivationParameters
+
+
+def hswish(params,
+           in_tensors,
+           qrec: QuantizationRecordBase,
+           details=None):
+    del details
+    if qrec is None:
+        qrec = Float32QuantizationRecord()
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="float32")[0]
+    return qrec.get_outputs(params, [in_tensor * np.minimum(np.maximum(in_tensor + 3, 0), 6) / 6], ktype="float32")
+
+
+def hsigmoid(params,
+             in_tensors,
+             qrec: QuantizationRecordBase,
+             details=None):
+    del details
+    if qrec is None:
+        qrec = Float32QuantizationRecord()
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="float32")[0]
+    return qrec.get_outputs(params, [np.minimum(np.maximum(in_tensor + params.offset, 0), 6) / 6], ktype="float32")
+
+
+def sigmoid(params,
+            in_tensors,
+            qrec: QuantizationRecordBase,
+            details=None):
+    del details
+    if qrec is None:
+        qrec = Float32QuantizationRecord()
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="float32")[0]
+    return qrec.get_outputs(params, [1/(1 + np.exp(-in_tensor))], ktype="float32")
+
+
+def relu(params: ReluActivationParameters,
+         in_tensors,
+         qrec: QuantizationRecordBase,
+         details=None):
+    del details
+    if qrec is None:
+        qrec = Float32QuantizationRecord()
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="float32")[0]
+    if params.upper_bound == None:
+        return qrec.get_outputs(params,
+                                [np.maximum(in_tensor,
+                                            params.lower_bound)],
+                                ktype="float32")
+    return qrec.get_outputs(params,
+                            [np.minimum(np.maximum(in_tensor,
+                                                   params.lower_bound),
+                                        params.upper_bound)],
+                            ktype="float32")
+
+
+def leaky(params,
+          in_tensors,
+          qrec: QuantizationRecordBase,
+          details=None):
+    raise NotImplementedError()
diff --git a/tools/nntool/quantization/float32/kernels/fast_conv.py b/tools/nntool/quantization/float32/kernels/fast_conv.py
new file mode 100644
index 000000000..833d8b13d
--- /dev/null
+++ b/tools/nntool/quantization/float32/kernels/fast_conv.py
@@ -0,0 +1,130 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+import numpy as np
+
+from quantization.quantization_record_base import ScalableFilterQuantizationRecordBase
+from quantization.float32.float32_quantization import Float32ScalableFilterQuantizationRecord
+# pylint: disable=invalid-name
+
+LOG = logging.getLogger("nntool." + __name__)
+
+def faster_conv(params,
+                in_tensors,
+                qrec: ScalableFilterQuantizationRecordBase,
+                details=None):
+    '''3D convolution by sub-matrix summing.
+    '''
+    if qrec is None:
+        qrec = Float32ScalableFilterQuantizationRecord()
+    in_dims = params.in_dims[0]
+    out_dims = params.out_dims[0]
+    weights = qrec.prepare_weights(params, params.weights, ktype="float32")
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="float32")[0]
+
+    if details is not None:
+        details['min_acc'] = float("Infinity")
+        details['max_acc'] = float("-Infinity")
+        details['pre_mul_bias_min'] = float("Infinity")
+        details['pre_mul_bias_max'] = float("-Infinity")
+
+    in_tensor = in_tensor.transpose(in_dims.transpose_to_order(['h', 'w', 'c'])).astype(np.float32)
+    if params.padding.h + params.padding.w > 0:
+        in_tensor = np.pad(in_tensor,
+                           ([params.padding.t,
+                             params.padding.b],
+                            [params.padding.l,
+                             params.padding.r])
+                           + ([0, 0], ) * (np.ndim(in_tensor)-2),
+                           mode='constant',
+                           constant_values=0.0)
+        pad_w = params.padding.w
+        pad_h = params.padding.h
+    else:
+        pad_w = pad_h = 0
+
+    weights = weights.transpose(params.filter.transpose_to_order(['out_c', 'h', 'w', 'in_c'])).astype(np.float32)
+
+    filt_w = params.filter.w
+    filt_h = params.filter.h
+
+    in_w = in_dims.w
+    in_h = in_dims.h
+    out_c = params.filter.out_c
+
+    in_c_per_group = in_dims.c // params.groups
+    out_c_per_group = out_c // params.groups
+    in_c_off = 0
+    out_c_cnt = 0
+
+
+    dillated_filter_w = filt_w if params.dilation.w == 1 else filt_w * params.dilation.w - 1
+    dillated_filter_h = filt_h if params.dilation.h == 1 else filt_w * params.dilation.h - 1
+
+    out_w = ((in_w - dillated_filter_w + pad_w)) // params.stride.w + 1
+    out_h = ((in_h - dillated_filter_h + pad_h)) // params.stride.h + 1
+
+    if params.has_bias:
+        biases = qrec.prepare_biases(params, params.biases, params.weights, ktype="float32")
+        result = np.ones((out_c, out_h, out_w),
+                         dtype=np.float32) * biases.reshape(out_c, 1, 1)
+    else:
+        result = np.zeros((out_c, out_h, out_w),
+                          dtype=np.float32)
+
+    const_h = pad_h + in_h - dillated_filter_h + 1
+    const_w = pad_w + in_w - dillated_filter_w + 1
+    for out_c_i in range(out_dims.c):
+        for cur_h in range(filt_h):
+            for cur_w in range(filt_w):
+
+                # selects all elements that the filter element needs to multiply
+                slabhw = np.multiply(in_tensor[cur_h * params.dilation.h:
+                                               const_h + cur_h * params.dilation.h:
+                                               params.stride.h,
+                                               cur_w * params.dilation.w:
+                                               const_w + cur_w * params.dilation.w:
+                                               params.stride.w,
+                                               in_c_off:
+                                               in_c_off + in_c_per_group:
+                                               1],
+                                     weights[out_c_i, cur_h, cur_w],
+                                     dtype=np.float32)
+
+                # add depthwise
+                slabhw = slabhw.sum(axis=-1)
+                # add to the previous filter elements
+                result[out_c_i] += slabhw
+
+                if details is not None:
+                    details['min_acc'] = min(np.min(result[out_c_i]), details['min_acc'])
+                    details['max_acc'] = max(np.max(result[out_c_i]), details['max_acc'])
+
+        out_c_cnt += 1
+        if out_c_cnt >= out_c_per_group:
+            out_c_cnt = 0
+            in_c_off += in_c_per_group
+
+    if details is not None:
+        details['pre_mul_bias_min'] = min(np.min(result), details['pre_mul_bias_min'])
+        details['pre_mul_bias_max'] = max(np.max(result), details['pre_mul_bias_max'])
+
+    result = qrec.apply_multiplicative_bias(params, result, axis=0, ktype="float32")
+
+    result = result.transpose(out_dims.transpose_from_order(['c', 'h', 'w']))
+
+    return qrec.get_outputs(params, [result], ktype="float32")
diff --git a/tools/nntool/quantization/float32/kernels/image_format.py b/tools/nntool/quantization/float32/kernels/image_format.py
new file mode 100644
index 000000000..d4415360d
--- /dev/null
+++ b/tools/nntool/quantization/float32/kernels/image_format.py
@@ -0,0 +1,25 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from utils.formatters import FORMAT_CHANGES, NORMALIZATIONS
+
+def image_format(params, in_tensors, qrec, details):
+    del details
+    in_dim = params.in_dims[0]
+    out_dim = params.out_dims[0]
+    res = in_tensors[0]
+    res = FORMAT_CHANGES[params.format_change](res, in_dim, out_dim)
+    res = NORMALIZATIONS[params.norm_func](res)
+    return [qrec.out_qs[0].dequantize(res)]
diff --git a/tools/nntool/quantization/float32/kernels/linear.py b/tools/nntool/quantization/float32/kernels/linear.py
new file mode 100644
index 000000000..ad3ad9b5a
--- /dev/null
+++ b/tools/nntool/quantization/float32/kernels/linear.py
@@ -0,0 +1,75 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+import numpy as np
+
+from quantization.quantization_record_base import ScalableFilterQuantizationRecordBase
+from quantization.float32.float32_quantization import Float32ScalableFilterQuantizationRecord
+
+LOG = logging.getLogger("nntool." + __name__)
+
+
+def linear(params,
+           in_tensors,
+           qrec: ScalableFilterQuantizationRecordBase,
+           details=None):
+
+    if qrec is None:
+        qrec = Float32ScalableFilterQuantizationRecord()
+
+    in_dims = params.in_dims[0]
+    out_dims = params.out_dims[0]
+    weights = qrec.prepare_weights(params, params.weights, ktype="float32")
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="float32")[0]
+
+    if details is not None:
+        details['min_acc'] = float("Infinity")
+        details['max_acc'] = float("-Infinity")
+
+    if params.has_bias:
+        biases = qrec.prepare_biases(params, params.biases, params.weights, ktype="float32")
+        acc_tensor = np.ones((out_dims.c, out_dims.h, out_dims.w),
+                             dtype=np.float32) * biases.reshape((out_dims.c, out_dims.h, out_dims.w))
+        acc_tensor = acc_tensor.transpose(out_dims.transpose_from_order(('c', 'h', 'w')))
+    else:
+        acc_tensor = np.zeros(out_dims.shape,
+                              dtype=np.float32)
+
+    in_tensor = in_tensor.reshape((in_dims.size()))
+    filt = params.filter.get_filter_dims()
+    for out_c in range(out_dims.c):
+        # Expand and normalize the accumulator
+
+        w_slice = weights[filt.srange(out_c=out_c)].reshape((in_dims.size()))
+
+        res = np.dot(in_tensor, w_slice)
+
+        if details is not None:
+            details['min_acc'] = min(np.sum(res[res < 0]), details['min_acc'])
+            details['max_acc'] = min(np.sum(res[res > 0]), details['max_acc'])
+
+        acc_slice = acc_tensor[out_dims.srange(c=out_c, h=0, w=0)]
+        acc_slice += res
+
+        if details is not None:
+            details['min_acc'] = min(np.min(acc_slice), details['min_acc'])
+            details['max_acc'] = max(np.max(acc_slice), details['max_acc'])
+
+    acc_tensor = qrec.apply_multiplicative_bias(
+        params, acc_tensor, out_dims.get_order_idx('c'), ktype="float32")
+
+    return qrec.get_outputs(params, [acc_tensor], ktype="float32")
diff --git a/tools/nntool/quantization/float32/kernels/matrix_operations.py b/tools/nntool/quantization/float32/kernels/matrix_operations.py
new file mode 100644
index 000000000..b07b0d5a3
--- /dev/null
+++ b/tools/nntool/quantization/float32/kernels/matrix_operations.py
@@ -0,0 +1,54 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import numpy as np
+
+from graph.types import (MatrixAddParameters, MatrixDivParameters,
+                         MatrixMulParameters, MatrixSubParameters)
+from quantization.quantization_record_base import QuantizationRecordBase
+from quantization.float32.float32_quantization import Float32QuantizationRecord
+
+PIECEWISE_OPS = {
+    MatrixAddParameters: {'op': lambda x, y: x + y},
+    MatrixMulParameters: {'op': lambda x, y: np.multiply(x, y, dtype=np.float)},
+    MatrixSubParameters: {'op': lambda x, y: x - y},
+    MatrixDivParameters: {'op': lambda x, y: x / y},
+}
+
+
+def piecewise(params,
+              in_tensors,
+              qrec: QuantizationRecordBase,
+              details=None):
+    del details
+    if qrec is None:
+        qrec = Float32QuantizationRecord()
+    func = PIECEWISE_OPS[params.__class__]
+    op = func['op']
+    in_tensors = qrec.prepare_inputs(params, in_tensors, ktype="float32")
+    return qrec.get_outputs(params, [op(in_tensors[0], in_tensors[1])], ktype="float32")
+
+
+def matscale(params,
+             in_tensors,
+             qrec: QuantizationRecordBase,
+             details=None):
+    del details
+    if qrec is None:
+        qrec = Float32QuantizationRecord()
+    in_tensors = qrec.prepare_inputs(params, in_tensors, ktype="float32")
+    if len(params.in_dims) == 3:
+        return qrec.get_outputs(params, [in_tensors[0] * in_tensors[1] * in_tensors[2]], ktype="float32")
+    return qrec.get_outputs(params, [in_tensors[0] * in_tensors[1]], ktype="float32")
diff --git a/tools/nntool/quantization/float32/kernels/pad.py b/tools/nntool/quantization/float32/kernels/pad.py
new file mode 100644
index 000000000..1a339671d
--- /dev/null
+++ b/tools/nntool/quantization/float32/kernels/pad.py
@@ -0,0 +1,29 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import numpy as np
+
+from quantization.quantization_record_base import QuantizationRecordBase
+
+
+def pad(params,
+        in_tensors,
+        qrec: QuantizationRecordBase,
+        details=None):
+    del qrec, details
+    if params.pad_type == "zero":
+        return [np.pad(in_tensors[0], params.padding.numpy_pad_shape(params.in_dims[0]),
+                       'constant', constant_values=0)]
+    raise NotImplementedError()
diff --git a/tools/nntool/quantization/float32/kernels/pool.py b/tools/nntool/quantization/float32/kernels/pool.py
new file mode 100644
index 000000000..429bc0751
--- /dev/null
+++ b/tools/nntool/quantization/float32/kernels/pool.py
@@ -0,0 +1,153 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+import numpy as np
+
+from quantization.quantization_record_base import QuantizationRecordBase
+from quantization.float32.float32_quantization import Float32QuantizationRecord
+
+LOG = logging.getLogger("nntool." + __name__)
+
+# pylint: disable=too-many-arguments, too-many-locals
+
+
+def av_pool(params,
+            in_tensors,
+            qrec: QuantizationRecordBase,
+            details=None):
+    del details
+
+    if qrec is None:
+        qrec = Float32QuantizationRecord()
+
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="float32")[0]
+    in_dims = params.in_dims[0]
+    out_dims = params.out_dims[0]
+    filter_sz = params.filter.h * params.filter.w
+
+    pool_factor = 1.0/filter_sz
+
+    out_tensor = np.zeros(out_dims.shape, dtype=np.float32)
+
+    if params.padding.h + params.padding.w > 0:
+        in_tensor = np.pad(in_tensor,
+                           params.padding.numpy_pad_shape(in_dims),
+                           mode='constant',
+                           constant_values=0.0)
+        pad_w = params.padding.w
+        pad_h = params.padding.h
+    else:
+        pad_w = pad_h = 0
+
+    for in_c in range(out_dims.c):
+
+        out_h = 0
+        for h_idx in range(0, in_dims.h - params.filter.h + pad_h + 1,
+                           params.stride.h):
+            out_w = 0
+            for w_idx in range(0, in_dims.w - params.filter.w + pad_w + 1,
+                               params.stride.w):
+                # accumulate - potentially with different Q
+                in_slice_args = in_dims.srange(c=[in_c, in_c + 1, 1],
+                                               h=[h_idx, h_idx + params.filter.h, 1],
+                                               w=[w_idx, w_idx + params.filter.w, 1])
+
+                sum_filter = np.sum(in_tensor[in_slice_args], dtype=np.float32)
+                sum_filter = np.multiply(sum_filter, pool_factor, dtype=np.float32)
+                out_tensor[out_dims.srange(c=in_c, h=out_h, w=out_w)] = sum_filter
+                out_w += 1
+            out_h += 1
+
+    return qrec.get_outputs(params, [out_tensor], ktype="float32")
+
+
+def max_pool(params,
+             in_tensors,
+             qrec: QuantizationRecordBase,
+             details=None):
+
+    del details
+    if qrec is None:
+        qrec = Float32QuantizationRecord()
+
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="float32")[0]
+    in_dims = params.in_dims[0]
+    out_dims = params.out_dims[0]
+
+    out_tensor = np.zeros(out_dims.shape, dtype=np.float32)
+
+    if params.padding.h + params.padding.w > 0:
+        in_tensor = np.pad(in_tensor,
+                           params.padding.numpy_pad_shape(in_dims),
+                           mode='constant',
+                           constant_values=0.0)
+        pad_w = params.padding.w
+        pad_h = params.padding.h
+    else:
+        pad_w = pad_h = 0
+
+    for in_c in range(out_dims.c):
+        out_h = 0
+        for h_idx in range(0, in_dims.h - params.filter.h + pad_h + 1,
+                           params.stride.h):
+            out_w = 0
+            for w_idx in range(0, in_dims.w - params.filter.w + pad_w + 1,
+                               params.stride.w):
+                # accumulate - potentially with different Q
+                out_slice_args = out_dims.srange(c=in_c, h=out_h, w=out_w)
+                in_slice_args = in_dims.srange(c=[in_c, in_c + 1, 1],
+                                               h=[h_idx, h_idx + params.filter.h, 1],
+                                               w=[w_idx, w_idx + params.filter.w, 1])
+
+                out_tensor[out_slice_args] = np.max(in_tensor[in_slice_args].view(np.ndarray))
+                out_w += 1
+            out_h += 1
+
+    return qrec.get_outputs(params, [out_tensor], ktype="float32")
+
+
+def av_global_pool(params,
+                   in_tensors,
+                   qrec: QuantizationRecordBase,
+                   details=None):
+    del details
+    if qrec is None:
+        qrec = Float32QuantizationRecord()
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="float32")[0]
+
+    sum_by_chan = np.sum(in_tensor, dtype=np.float32, axis=(
+        params.in_dims[0].get_order_idx('w'), params.in_dims[0].get_order_idx('h')))
+
+    return qrec.get_outputs(params,
+                            [(sum_by_chan / (params.in_dims[0].h * params.in_dims[0].w)
+                              ).reshape(params.out_dims[0].shape)],
+                            ktype="float32")
+
+
+def max_global_pool(params,
+                    in_tensors,
+                    qrec: QuantizationRecordBase,
+                    details=None):
+    del details
+    if qrec is None:
+        qrec = Float32QuantizationRecord()
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="float32")[0]
+
+    return qrec.get_outputs(params, [np.max(in_tensor,
+                                            axis=(params.in_dims[0].get_order_idx('w'),
+                                                  params.in_dims[0].get_order_idx('h')),
+                                            keepdims=True)], ktype="float32")
diff --git a/tools/nntool/quantization/float32/kernels/readme.md b/tools/nntool/quantization/float32/kernels/readme.md
new file mode 100644
index 000000000..d7b516efb
--- /dev/null
+++ b/tools/nntool/quantization/float32/kernels/readme.md
@@ -0,0 +1,7 @@
+# Float32 Kernels
+
+These kernels expect float32s as inputs and calculate float32s as outputs in float32 precision.
+
+They can be used with values quantized with other schemes by passing the appropriate quantization record.
+
+By default they expect parameters and constant inputs to be in float32 format.
\ No newline at end of file
diff --git a/tools/nntool/quantization/float32/kernels/softmax.py b/tools/nntool/quantization/float32/kernels/softmax.py
new file mode 100644
index 000000000..28c24a371
--- /dev/null
+++ b/tools/nntool/quantization/float32/kernels/softmax.py
@@ -0,0 +1,34 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import numpy as np
+import scipy.special
+
+from quantization.quantization_record_base import QuantizationRecordBase
+from quantization.float32.float32_quantization import Float32QuantizationRecord
+
+def softmax_func(v):
+    return scipy.special.softmax(v)
+
+def softmax(params,
+            in_tensors,
+            qrec: QuantizationRecordBase,
+            details=None):
+    del details
+    if qrec is None:
+        qrec = Float32QuantizationRecord()
+    np.seterr(over='raise')
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="float32")[0]
+    return qrec.get_outputs(params, [softmax_func(in_tensor)], ktype="float32")
diff --git a/tools/nntool/quantization/float32/kernels/tensor_functions.py b/tools/nntool/quantization/float32/kernels/tensor_functions.py
new file mode 100644
index 000000000..01c7265c4
--- /dev/null
+++ b/tools/nntool/quantization/float32/kernels/tensor_functions.py
@@ -0,0 +1,104 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import numpy as np
+from skimage.transform import resize
+
+from quantization.quantization_record_base import QuantizationRecordBase
+from quantization.float32.float32_quantization import Float32QuantizationRecord
+
+
+def graph_input(params,
+                in_tensors,
+                qrec: QuantizationRecordBase,
+                details=None):
+    del details
+    if qrec is None:
+        qrec = Float32QuantizationRecord()
+    in_tensor = in_tensors[params.index]
+    if in_tensor.size == params.dims.size():
+        in_tensor = in_tensor.reshape(params.dims.shape)
+    else:
+        in_tensor = resize(in_tensor, params.dims.shape)
+    if params.transpose_out:
+        in_tensor = np.transpose(in_tensor, params.transpose_out)
+    return qrec.get_outputs(params, [in_tensor], ktype="float32")
+
+
+def graph_output(params,
+                 in_tensors,
+                 qrec: QuantizationRecordBase,
+                 details=None):
+    del details, qrec
+    in_tensor = in_tensors[0]
+    if params.transpose_in:
+        in_tensor = np.transpose(in_tensor, params.transpose_in)
+    return [in_tensor]
+
+
+
+def constant_input(params,
+                   in_tensors,
+                   qrec: QuantizationRecordBase,
+                   details=None):
+    del in_tensors, details
+    if qrec is None:
+        qrec = Float32QuantizationRecord()
+    return qrec.get_outputs(params, [params.value], ktype="float32")
+
+
+def concat(params,
+           in_tensors,
+           qrec: QuantizationRecordBase,
+           details=None):
+    del details
+    if qrec is None:
+        qrec = Float32QuantizationRecord()
+    in_tensors = qrec.prepare_inputs(params, in_tensors, ktype="float32")
+    if params.transpose_in:
+        in_tensors = [np.transpose(qrec.in_tensor, params.transpose_in) for in_tensor in in_tensors]
+    out_tensor = np.concatenate(in_tensors, params.axis)
+    if params.transpose_out:
+        out_tensor = np.transpose(out_tensor, params.transpose_out)
+    return qrec.get_outputs(params, [out_tensor], ktype="float32")
+
+
+def reshape(params,
+            in_tensors,
+            qrec: QuantizationRecordBase,
+            details=None):
+    del details
+    if qrec is None:
+        qrec = Float32QuantizationRecord()
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="float32")[0]
+    if params.transpose_in:
+        in_tensor = np.transpose(in_tensor, params.transpose_in)
+    in_tensor = np.reshape(in_tensor, params.shape)
+    if params.transpose_out:
+        in_tensor = np.transpose(in_tensor, params.transpose_out)
+    return qrec.get_outputs(params, [in_tensor], ktype="float32")
+
+
+def transpose(params,
+              in_tensors,
+              qrec: QuantizationRecordBase,
+              details=None):
+    del details
+    if qrec is None:
+        qrec = Float32QuantizationRecord()
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="float32")[0]
+    if params.transpose_in:
+        in_tensor = np.transpose(in_tensor, params.transpose_in)
+    return qrec.get_outputs(params, [in_tensor], ktype="float32")
diff --git a/tools/nntool/quantization/kernels/__init__.py b/tools/nntool/quantization/kernels/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tools/nntool/quantization/kernels/kernel_function.py b/tools/nntool/quantization/kernels/kernel_function.py
new file mode 100644
index 000000000..b1cce89d7
--- /dev/null
+++ b/tools/nntool/quantization/kernels/kernel_function.py
@@ -0,0 +1,129 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from abc import ABC, abstractproperty
+from typing import Callable, Iterable, NewType, Mapping, Any, Optional
+
+import numpy as np
+
+from graph.types import Parameters
+from quantization.quantization_record_base import QuantizationRecordBase
+
+KernelFunction = NewType('KernelFunction',
+                         Callable[
+                             [Parameters,
+                              Iterable[np.ndarray],
+                              QuantizationRecordBase,
+                              Optional[Mapping[Any, Any]]],
+                             Iterable[np.ndarray]
+                         ])
+
+class KernelFunctionSetBase(ABC):
+
+    @abstractproperty
+    def graph_input(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def graph_output(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def constant_input(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def relu(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def leaky(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def hswish(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def hsigmoid(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def matadd(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def matsub(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def matdiv(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def matmul(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def matscale(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def conv2d(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def linear(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def softmax(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def reshape(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def transpose(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def concat(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def av_pool(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def av_global_pool(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def max_pool(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def max_global_pool(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def pad(self) -> KernelFunction:
+        pass
+
+    @abstractproperty
+    def image_format(self) -> KernelFunction:
+        pass
diff --git a/tools/nntool/quantization/kernels/kernel_switch.py b/tools/nntool/quantization/kernels/kernel_switch.py
new file mode 100644
index 000000000..cf5c9ca8e
--- /dev/null
+++ b/tools/nntool/quantization/kernels/kernel_switch.py
@@ -0,0 +1,99 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from abc import ABC, abstractmethod
+from typing import Sequence
+
+import numpy as np
+
+from graph.types import (ActivationParameters, ConcatParameters,
+                         ConstantInputParameters, Conv2DParameters,
+                         FcParameters, GlobalPoolParameters, InputParameters,
+                         MatrixAddParameters,
+                         MatrixDivParameters, MatrixMulParameters,
+                         MatrixSubParameters, MatScaleFusionParameters,
+                         OutputParameters, PadParameters, Parameters,
+                         PoolingParameters, ReshapeParameters,
+                         SoftMaxParameters, TransposeParameters,
+                         ReluActivationParameters, LeakyActivationParameters,
+                         HSwishActivationParameters, HSigmoidActivationParameters,
+                         ImageFormatParameters)
+from quantization.quantization_record_base import QuantizationRecordBase
+
+
+class KernelSwitchBase(ABC):
+    @abstractmethod
+    def execute(self, params: Parameters, input_tensors: Sequence[np.ndarray],
+                qrec: QuantizationRecordBase, details: str = None) -> Sequence[np.ndarray]:
+        pass
+
+
+class DefaultKernelSwitch(KernelSwitchBase):
+    FUNCTION_MAPPING = {
+        Conv2DParameters: "conv2d",
+        FcParameters: "linear",
+        PoolingParameters: "pool_switch",
+        InputParameters: "graph_input",
+        OutputParameters: "graph_output",
+        ReluActivationParameters: "relu",
+        LeakyActivationParameters: "leaky",
+        HSigmoidActivationParameters: "hsigmoid",
+        HSwishActivationParameters: "hswish",
+        PadParameters: "pad",
+        SoftMaxParameters: "softmax",
+        ReshapeParameters: "reshape",
+        MatrixAddParameters: "matadd",
+        MatrixDivParameters: "matdiv",
+        MatrixMulParameters: "matmul",
+        MatrixSubParameters: "matsub",
+        ConcatParameters: "concat",
+        TransposeParameters: "transpose",
+        ConstantInputParameters: "constant_input",
+        MatScaleFusionParameters: "matscale",
+        GlobalPoolParameters: "globalpool_switch",
+        ImageFormatParameters: "image_format"
+    }
+
+    def __init__(self, kernel_functions):
+        super(DefaultKernelSwitch, self).__init__()
+        self._kernel_functions = kernel_functions
+
+    def execute(self, params: Parameters, input_tensors: Sequence[np.ndarray],
+                qrec: QuantizationRecordBase, details: str = None) -> Sequence[np.ndarray]:
+        if params.__class__ in self.FUNCTION_MAPPING:
+            func = self.FUNCTION_MAPPING[params.__class__]
+            if hasattr(self, func):
+                return getattr(self, func)(params, input_tensors, qrec, details=details)
+            if hasattr(self._kernel_functions, func):
+                return getattr(self._kernel_functions, func)(params, input_tensors,
+                                                             qrec, details=details)
+            raise NotImplementedError("Implementation for %s not found" % func)
+        raise NotImplementedError("Unknown parameter type %s" % params.__class__.name)
+
+    def pool_switch(self, params: Parameters, input_tensors: Sequence[np.ndarray],
+                    qrec: QuantizationRecordBase, details: str = None) -> Sequence[np.ndarray]:
+        if params.pool_type == "average":
+            return self._kernel_functions.av_pool(params, input_tensors, qrec, details=details)
+        if params.pool_type == "max":
+            return self._kernel_functions.max_pool(params, input_tensors, qrec, details=details)
+        raise NotImplementedError("unknown pool type %s" % params.pool_type)
+
+    def globalpool_switch(self, params: Parameters, input_tensors: Sequence[np.ndarray],
+                          qrec: QuantizationRecordBase, details: str = None) -> Sequence[np.ndarray]:
+        if params.pool_type == "average":
+            return self._kernel_functions.av_global_pool(params, input_tensors, qrec, details=details)
+        if params.pool_type == "max":
+            return self._kernel_functions.max_global_pool(params, input_tensors, qrec, details=details)
+        raise NotImplementedError("unknown pool type %s" % params.pool_type)
diff --git a/tools/nntool/quantization/multiplicative/__init__.py b/tools/nntool/quantization/multiplicative/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tools/nntool/quantization/multiplicative/asymmetric/__init__.py b/tools/nntool/quantization/multiplicative/asymmetric/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tools/nntool/quantization/multiplicative/asymmetric/asymmetric_mult_qtype.py b/tools/nntool/quantization/multiplicative/asymmetric/asymmetric_mult_qtype.py
new file mode 100644
index 000000000..d13f0f697
--- /dev/null
+++ b/tools/nntool/quantization/multiplicative/asymmetric/asymmetric_mult_qtype.py
@@ -0,0 +1,196 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import math
+
+import numpy as np
+
+from quantization.multiplicative.mult_qtype_base import MultQTypeBase
+
+VALID_DTYPES = [
+    np.int8,
+    np.int16,
+    np.int32,
+    np.uint8,
+    np.uint16,
+    np.uint32
+]
+
+SIGNED_DTYPES = [
+    np.int8,
+    np.int16,
+    np.int32,
+]
+# template <ArrayDataType A>
+# QuantizationPoints GetQuantizationPoints() {
+#   QuantizationPoints qp;
+#   using Integer = DataType<A>;
+#   qp.min_value = std::numeric_limits<Integer>::min();
+#   qp.max_value = std::numeric_limits<Integer>::max();
+#   // eg [-128,127]...
+#   qp.central_value = (qp.min_value / 2 +        // -128 -> -64.
+#                       (qp.max_value - 1) / 2 +  // 127 -> 63.
+#                       1);
+#   return qp;
+# }
+
+
+class AsymmetricMultQType(MultQTypeBase):
+    def __init__(self, *args, zero_point=0, init=None, **kwargs):
+        super(AsymmetricMultQType, self).__init__(*args, init=init, **kwargs)
+        if init is None:
+            self.zero_point = self.init_array(zero_point)
+
+    @classmethod
+    def from_tflite(cls, tf_qps, dtype):
+        res = cls(zero_point=tf_qps.ZeroPointAsNumpy() if tf_qps.ZeroPointLength() > 0 else None)
+        res.min_val = tf_qps.MinAsNumpy() if tf_qps.MinLength() > 0 else None
+        res.max_val = tf_qps.MaxAsNumpy() if tf_qps.MaxLength() > 0 else None
+        res.scale = tf_qps.ScaleAsNumpy() if tf_qps.ScaleLength() > 0 else None
+        res.zero_point = tf_qps.ZeroPointAsNumpy() if tf_qps.ZeroPointLength() > 0 else None
+        res.quantized_dimension = tf_qps.QuantizedDimension()
+        res.dtype = dtype
+        return res
+
+    @classmethod
+    def from_array(cls, arr: np.ndarray, dtype=np.uint8,
+                   quantized_dimension=None, narrow_range=False):
+        rmin = np.min(arr)
+        rmax = np.max(arr)
+        return cls.from_min_max(rmin, rmax, dtype=dtype, quantized_dimension=quantized_dimension,
+                                narrow_range=narrow_range)
+
+    @classmethod
+    def from_min_max(cls, rmin, rmax, dtype=np.uint8,
+                     quantized_dimension=None, narrow_range=False):
+        iinfo = np.iinfo(dtype)
+        qmin = iinfo.min + (1 if narrow_range else 0)
+        qmax = iinfo.max
+        if rmin == rmax:
+            if rmin == 0:
+                return cls(min_val=0, max_val=0, scale=0, zero_point=0,
+                           quantized_dimension=quantized_dimension, dtype=dtype)
+            elif rmin < 0:
+                rmax = -rmin
+            else:
+                rmin = -rmax
+        # we must represent 0
+        if rmin > 0:
+            rmin = 0
+        scale = (rmax - rmin) / (qmax - qmin)
+        zero_point_from_min = qmin - rmin / scale
+        zero_point_from_max = qmax - rmax / scale
+        zero_point_from_min_error = qmin + abs(rmin / scale)
+        zero_point_from_max_error = qmax + abs(rmax / scale)
+        if zero_point_from_min_error < zero_point_from_max_error:
+            zero_point = zero_point_from_min
+        else:
+            zero_point = zero_point_from_max
+
+        nudged_zero_point = 0
+        if zero_point < qmin:
+            nudged_zero_point = qmin
+        elif zero_point > qmax:
+            nudged_zero_point = qmax
+        else:
+            nudged_zero_point = math.floor(zero_point + 0.5)
+
+        return cls(min_val=rmin, max_val=rmax, scale=scale, zero_point=nudged_zero_point,
+                   quantized_dimension=quantized_dimension, dtype=dtype)
+
+    @property
+    def central(self):
+        iinfo = np.iinfo(self.dtype)
+        if iinfo.min == 0:
+            return iinfo.min // 2 + (iinfo.max - 1) // 2 + 1
+        return 0
+
+    @property
+    def min(self):
+        return self.min_val
+
+    @property
+    def max(self):
+        return self.max_val
+
+    def get_quantized_scale(self):
+        return [0], [0]
+
+    def dtype_is_valid(self):
+        return self.dtype in VALID_DTYPES
+
+    def _encapsulate(self):
+        return {
+            "min_val": self.min_val,
+            "max_val": self.max_val,
+            "scale": self.scale,
+            "zero_point": self.zero_point,
+            "dim": self.quantized_dimension,
+            "dtype": self.dtype.__name__
+        }
+
+    @classmethod
+    def _dencapsulate(cls, val):
+        return cls(init={
+            "min_val": val['min_val'],
+            "max_val": val['max_val'],
+            "scale": val['scale'],
+            "zero_point": val['zero_point'],
+            "quantized_dimension": val['dim'] if 'dim' in val else None,
+            "dtype": getattr(np, val['dtype'])
+        })
+
+    @property
+    def pad_zero_point(self):
+        return self.zero_point[0]
+
+    @property
+    def zero_point(self):
+        return self._info['zero_point']
+
+    @zero_point.setter
+    def zero_point(self, val):
+        self._info['zero_point'] = val
+
+    def quantize(self, arr: np.array) -> np.array:
+        arr = np.floor(arr/self.scale + 0.5) + self.zero_point
+        return self.clip(arr)
+
+    def dequantize(self, arr: np.array) -> np.array:
+
+        shape = tuple(dim if idx == self.quantized_dimension
+                      else 1 for idx, dim in enumerate(arr.shape))
+        if len(self.zero_point) > 1:
+            zero_point = self.zero_point.reshape(shape)
+        else:
+            zero_point = self.zero_point
+
+        if len(self.scale) > 1:
+            scale = self.scale.reshape(shape)
+        else:
+            scale = self.scale
+
+        arr = (arr.astype(np.float32) - zero_point) * scale
+        return arr
+
+    def get_dequantized(self, arr, container_is_quantized=True):
+        if container_is_quantized:
+            return self.dequantize(arr)
+        return arr
+
+    def get_quantized(self, arr: np.array, container_is_quantized=True) -> np.array:
+        if not container_is_quantized:
+            return self.quantize(arr)
+        return arr
diff --git a/tools/nntool/quantization/multiplicative/mult_mulbias_qtype.py b/tools/nntool/quantization/multiplicative/mult_mulbias_qtype.py
new file mode 100644
index 000000000..b989dba09
--- /dev/null
+++ b/tools/nntool/quantization/multiplicative/mult_mulbias_qtype.py
@@ -0,0 +1,126 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import math
+
+import numpy as np
+
+from quantization.qtype_base import QTypeBase
+from utils.json_serializable import JsonSerializable
+
+NUM_BITS = {
+    np.int8: 8,
+    np.int16: 16,
+    np.int32: 32,
+    np.uint8: 8,
+    np.uint16: 16,
+    np.uint32: 32,
+}
+
+SIGNED = [
+    np.int8,
+    np.int16,
+    np.int32
+]
+
+class MultMulBiasQType(QTypeBase, JsonSerializable):
+    def __init__(self, dtype=None, init=None):
+        if init:
+            self._info = init
+        else:
+            self._info = {
+                'dtype': dtype if dtype is not None else np.int16,
+                'shift': None
+            }
+
+    @property
+    def q(self):
+        return self._info['shift']
+
+    @property
+    def bits(self):
+        return NUM_BITS[self.dtype]
+
+    @property
+    def signed(self):
+        return self.dtype in SIGNED
+
+    @property
+    def shift_is_set(self):
+        return self.q is not None
+
+    @property
+    def dtype(self):
+        return self._info['dtype']
+
+    @property
+    def pad_zero_point(self):
+        return 0
+
+    def _encapsulate(self):
+        return {
+            'dtype': self.dtype.__name__,
+            'shift': self.q
+        }
+
+    @classmethod
+    def _dencapsulate(cls, val):
+        return cls(init={
+            'dtype': getattr(np, val['dtype']),
+            'shift': val['shift']
+        })
+
+    @property
+    def pre_normalization(self):
+        return self._info.get('pre_normalization') or 0
+
+    @pre_normalization.setter
+    def pre_normalization(self, val):
+        self._info['pre_normalization'] = val
+
+    def quantize_elem(self, val: np.float64):
+        return self.normalize(val)
+
+    def quantize(self, arr: np.array) -> np.array:
+        return np.array([self.normalize(elem) for elem in arr]).astype(self.dtype)
+
+    def dequantize_elem(self, val):
+        return val * 1.0/(1 << self.q)
+
+    def dequantize(self, arr: np.array) -> np.array:
+        return arr.astype(np.float32) * 1/(1 << self.q)
+
+    def get_shift(self, max_num):
+        (val, shift) = math.frexp(max_num)
+        if val > ((self.bits - 2)/(self.bits - 1)):
+            val /= 2
+            shift += 1
+        shift = shift - (self.bits - 1)
+        return val, shift
+
+    def set_shift(self, max_num):
+        _, shift = self.get_shift(max_num)
+        shift = shift - self.pre_normalization
+        assert shift <= 0, "number cannot be represented with a right shift"
+        self._info['shift'] = -shift
+
+    def normalize(self, fnum):
+        val, shift = self.get_shift(fnum)
+        cor = shift + self.q - self.pre_normalization
+        assert cor <= 0, "correction should never be positive"
+        return math.floor((val * (1 << (self.bits - 1 + cor))) + 0.5)
+
+    def __str__(self):
+        return "{}b>>{}".format(self.bits, self.q)
diff --git a/tools/nntool/quantization/multiplicative/mult_qtype_base.py b/tools/nntool/quantization/multiplicative/mult_qtype_base.py
new file mode 100644
index 000000000..0295b7cba
--- /dev/null
+++ b/tools/nntool/quantization/multiplicative/mult_qtype_base.py
@@ -0,0 +1,249 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import math
+import numbers
+from abc import ABC, abstractmethod, abstractproperty
+
+import numpy as np
+
+from quantization.qtype import QType
+from quantization.qtype_base import QTypeBase
+from utils.json_serializable import JsonSerializable
+
+#pylint: disable=abstract-method
+
+SIGNED = [
+    np.int8,
+    np.int16,
+    np.int32
+]
+
+DTYPE_STR = {
+    np.int8: 'i8',
+    np.int16: 'i16',
+    np.int32: 'i32',
+    np.uint8: 'u8',
+    np.uint16: 'u16',
+    np.uint32: 'u32',
+}
+
+DTYPE_CTYPE = {
+    np.int8: 'int8',
+    np.int16: 'int16',
+    np.int32: 'int32',
+    np.uint8: 'uint8',
+    np.uint16: 'uint16',
+    np.uint32: 'uint32',
+}
+
+
+class WrapperMixin(ABC):
+    @property
+    def wrapped(self):
+        return self._wrapped
+
+    def quantize_wrapped(self, arr: np.array) -> np.array:
+        return self._wrapped.quantize(arr)
+
+    def dequantize_wrapped(self, arr: np.array) -> np.array:
+        return self._wrapped.dequantize(arr)
+
+    def requantize(self, arr: np.array) -> np.array:
+        return self.quantize(self._wrapped.dequantize(arr))
+
+
+class MultQTypeBase(QTypeBase, JsonSerializable):
+    def __init__(self, *args, min_val=None, max_val=None, scale=None,
+                 quantized_dimension=0, dtype=None, init=None, **kwargs):
+        super(MultQTypeBase, self).__init__(*args, **kwargs)
+        if init:
+            self._info = init
+        else:
+            self._info = {}
+            self.min_val = self.init_array(min_val)
+            self.max_val = self.init_array(max_val)
+            self.quantized_dimension = quantized_dimension
+            self.dtype = dtype if dtype is not None else np.int8
+            self.scale = self.init_array(scale)
+        # if not self.dtype_is_valid():
+        #     raise ValueError("dtype %s is not valid for %s" % (self.dtype, self.__class__.__name__))
+
+
+    @property
+    def ctype(self):
+        return DTYPE_CTYPE[self.dtype]
+
+    @abstractmethod
+    def dtype_is_valid(self):
+        pass
+
+    @staticmethod
+    def init_array(val, key=None):
+        if key is not None:
+            val = val.get(key)
+        if isinstance(val, np.ndarray):
+            return val
+        elif isinstance(val, (numbers.Real, np.float)):
+            return np.array([val])
+        elif isinstance(val, list):
+            return np.array(val)
+        elif val is None:
+            return None
+        else:
+            raise ValueError("invalid scale")
+
+    @property
+    def signed(self):
+        return self.dtype in SIGNED
+
+    @property
+    def q(self):  # in mulbias scheme all Qs are zero except the mulbias
+        return 0
+
+    @property
+    def bits(self):
+        return self.dtype().itemsize * 8
+
+    @abstractproperty
+    def zero_point(self):
+        pass
+
+    @abstractmethod
+    @zero_point.setter
+    def zero_point(self, val):
+        pass
+
+    @abstractproperty
+    def min(self):
+        pass
+
+    @property
+    def min_val(self):
+        return self._info['min_val']
+
+    @min_val.setter
+    def min_val(self, val):
+        self._info['min_val'] = val
+
+    @abstractproperty
+    def max(self):
+        pass
+
+    @property
+    def max_val(self):
+        return self._info['max_val']
+
+    @max_val.setter
+    def max_val(self, val):
+        self._info['max_val'] = val
+
+    @property
+    def range(self):
+        if self.max is None and self.min is None:
+            return None
+        assert np.all(self.max >= self.min)
+        return self.max - self.min
+
+    kNearZeroTolerance = 1.0e-6
+
+    @property
+    def scale(self):
+        return self._info['scale']
+
+    @scale.setter
+    def scale(self, val):
+        if isinstance(val, np.ndarray):
+            self._info['scale'] = np.where(val < self.kNearZeroTolerance, 1, val)
+        elif val is not None and val < self.kNearZeroTolerance:
+            self._info['scale'] = 1
+        else:
+            self._info['scale'] = val
+
+    @property
+    def quantized_dimension(self):
+        return self._info['quantized_dimension']
+
+    @quantized_dimension.setter
+    def quantized_dimension(self, val):
+        self._info['quantized_dimension'] = val
+
+    @property
+    def dtype(self):
+        return self._info['dtype']
+
+    @dtype.setter
+    def dtype(self, val):
+        self._info['dtype'] = val
+
+    @property
+    def pad_zero_point(self):
+        return 0
+
+    @abstractmethod
+    def get_quantized(self, arr, container_is_quantized=True):
+        pass
+
+    @abstractmethod
+    def get_dequantized(self, arr, container_is_quantized=True):
+        pass
+
+    def expand_from(self, arr: np.array, from_qtype: QTypeBase) -> np.array:
+        #if self.dtype != from_qtype.dtype:
+        return arr.astype(self.dtype)
+
+    def reduce_from(self, arr: np.array, from_qtype: QTypeBase) -> np.array:
+        #if self.dtype != from_qtype.dtype:
+        return self.clip(arr)
+
+    @staticmethod
+    def str_fmt(val, extend=False):
+        if val is None:
+            return "unkn"
+        if isinstance(val, int) or isinstance(val, float) or isinstance(val, np.floating):
+            return val
+        return "chan" if len(val) > 1 else ("{:0.2f}".format(val[0]) if not extend else "{:0.8f}".format(val[0]))
+
+    def __eq__(self, other):
+        if isinstance(other, QType):
+            return self.bits == other.bits
+        if isinstance(other, MultQTypeBase):
+            return self.scale == other.scale and\
+                self.dtype == other.dtype and\
+                self.quantized_dimension == other.quantized_dimension and\
+                self.zero_point == other.zero_point
+        return False
+
+    @property
+    def dtype_str(self):
+        return DTYPE_STR[self.dtype]
+
+    def str_by_chan(self, chan: int):
+        return "{}<({}-{})*{}<{}".format(
+            self.str_fmt(self.min[chan]),
+            self.dtype_str,
+            self.str_fmt(self.zero_point[chan]),
+            self.str_fmt(self.scale[chan]),
+            self.str_fmt(self.max[chan]),
+        )
+
+    def __str__(self):
+        return "{}<({}-{})*{}<{}".format(
+            self.str_fmt(self.min),
+            self.dtype_str,
+            self.str_fmt(self.zero_point),
+            self.str_fmt(self.scale, extend=True),
+            self.str_fmt(self.max),
+        )
diff --git a/tools/nntool/quantization/multiplicative/mult_quantization.py b/tools/nntool/quantization/multiplicative/mult_quantization.py
new file mode 100644
index 000000000..1654a2109
--- /dev/null
+++ b/tools/nntool/quantization/multiplicative/mult_quantization.py
@@ -0,0 +1,388 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import math
+from functools import reduce
+from typing import Sequence
+
+import numpy as np
+
+from graph.types import (FilterParameters, MultiplicativeBiasParameters,
+                         Parameters)
+from quantization.multiplicative.mult_qtype_base import (MultQTypeBase,
+                                                         WrapperMixin)
+from quantization.multiplicative.symmetric.mult_mulbias_qtype_new import (
+    MultMulBiasQType, MultMulBiasScaleQType)
+from quantization.multiplicative.symmetric.symmetric_mult_biases_qtype import \
+    SymmetricMultBiasesQType
+from quantization.qtype import QType
+from quantization.quantization_record_base import (
+    ConstantQuantizationRecordBase, InputOutputQuantizationRecordBase,
+    QuantizationRecordBase, ScalableFilterQuantizationRecordBase)
+
+
+class MultQuantizationRecordBase(QuantizationRecordBase):
+    def __init__(self, *args, quant_mode="symmetric", info=None, **kwargs):
+        super(MultQuantizationRecordBase, self).__init__(*args, info=info, **kwargs)
+        if info is None:
+            self._info['quant_mode'] = quant_mode
+        self._cache = {}
+
+    def clear_cache(self):
+        self._cache = {}
+
+    def check_cache(self, name):
+        return self._cache.get(name)
+
+    def dequantize_as(self, tensor: np.ndarray, key_name: str, idx: int = None) -> np.ndarray:
+        qtype = getattr(self, key_name)
+        if idx is not None:
+            qtype = qtype[idx]
+        return qtype.dequantize(tensor)
+
+    def quantize_as(self, tensor: np.ndarray, key_name: str, idx: int = None) -> np.ndarray:
+        qtype = getattr(self, key_name)
+        if idx is not None:
+            qtype = qtype[idx]
+        return qtype.quantize(tensor)
+
+    def dequantize_wrapped(self, tensor: np.ndarray, key_name: str, idx: int = None) -> np.ndarray:
+        qtype = getattr(self, key_name)
+        if idx is not None:
+            qtype = qtype[idx]
+        if isinstance(qtype, WrapperMixin):
+            return qtype.wrapped.dequantize(tensor)
+        return qtype.dequantize(tensor)
+
+    def quantize_wrapped(self, tensor: np.ndarray, key_name: str, idx: int = None) -> np.ndarray:
+        qtype = getattr(self, key_name)
+        if idx is not None:
+            qtype = qtype[idx]
+        if isinstance(qtype, WrapperMixin):
+            return qtype.wrapped.quantize(tensor)
+        return qtype.quantize(tensor)
+
+    def requantize(self, tensor: np.ndarray, key_name: str, idx: int = None) -> np.ndarray:
+        qtype = getattr(self, key_name)
+        if idx is not None:
+            qtype = qtype[idx]
+
+        if isinstance(qtype, WrapperMixin):
+            tensor_fp = self.dequantize_wrapped(tensor, key_name, idx=idx)
+            tensor_sym = qtype.quantize(tensor_fp)
+            return tensor_sym
+        if tensor.dtype == np.float32:
+            return qtype.quantize(tensor)
+        return tensor
+
+    def confirm_dimension(self, out_c_idx: int, key_name: str):
+        qtype = getattr(self, key_name)
+        qtype.quantized_dimension = out_c_idx
+
+
+class InputQuantizationMixin(MultQuantizationRecordBase):
+    def __init__(self, *args, auto_quantize_inputs=False, auto_dequantize_inputs=False, **kwargs):
+        super(InputQuantizationMixin, self).__init__(*args, **kwargs)
+        self._auto_quantize_inputs = auto_quantize_inputs
+        self._auto_dequantize_inputs = auto_dequantize_inputs
+
+    @property
+    def auto_quantize_inputs(self):
+        return self._auto_quantize_inputs
+
+    @auto_quantize_inputs.setter
+    def auto_quantize_inputs(self, val):
+        self._auto_quantize_inputs = val
+
+    @property
+    def auto_dequantize_inputs(self):
+        return self._auto_dequantize_inputs
+
+    @auto_quantize_inputs.setter
+    def auto_quantize_inputs(self, val):
+        self._auto_dequantize_inputs = val
+
+    def prepare_inputs(self, params: Parameters,
+                       input_tensors: Sequence[np.ndarray], ktype: str = None) -> Sequence[np.ndarray]:
+        del params
+        if ktype == 'float32' and self.auto_dequantize_inputs:
+            return [self.dequantize_wrapped(input_tensor, "in_qs", idx=idx)
+                    for idx, input_tensor in enumerate(input_tensors)]
+        if ktype == 'symmetric' and self.auto_quantize_inputs:
+            return [self.quantize_as(input_tensor, "in_qs", idx=idx) for idx, input_tensor in enumerate(input_tensors)]
+        return input_tensors
+
+
+class OutputQuantizationMixin(MultQuantizationRecordBase):
+    def __init__(self, *args, auto_dequantize_outputs=False, auto_quantize_outputs=False, **kwargs):
+        super(OutputQuantizationMixin, self).__init__(*args, **kwargs)
+        self._auto_quantize_outputs = auto_quantize_outputs
+        self._auto_dequantize_outputs = auto_dequantize_outputs
+
+    @property
+    def auto_dequantize_outputs(self):
+        return self._auto_dequantize_outputs
+
+    @auto_dequantize_outputs.setter
+    def auto_dequantize_outputs(self, val):
+        self._auto_dequantize_outputs = val
+
+    @property
+    def auto_quantize_outputs(self):
+        return self._auto_dequantize_outputs
+
+    @auto_quantize_outputs.setter
+    def auto_quantize_outputs(self, val):
+        self._auto_dequantize_outputs = val
+
+    def get_outputs(self, params: Parameters,
+                    output_tensors: Sequence[np.ndarray], ktype: str = None) -> Sequence[np.ndarray]:
+        del params
+        if ktype == 'symmetric':
+            if self._auto_dequantize_outputs:
+                return [self.dequantize_as(output_tensor, "out_qs", idx=idx)
+                        for idx, output_tensor in enumerate(output_tensors)]
+            output_tensors = [self.out_qs[idx].clip(output_tensor)
+                              for idx, output_tensor in enumerate(output_tensors)]
+        return output_tensors
+
+
+class MultQuantizationRecord(InputQuantizationMixin, OutputQuantizationMixin, InputOutputQuantizationRecordBase):
+    def __init__(self, *args, scale_mul_biases_q=None, info=None, **kwargs):
+        super(MultQuantizationRecord, self).__init__(*args, info=info, **kwargs)
+        if info is None:
+            self.scale_mul_biases_q = scale_mul_biases_q
+
+    @property
+    def scale_mul_biases_q(self):
+        mul_biases_q = self._info.get('scale_mul_biases_q')
+        if mul_biases_q is None:
+            mul_biases_q = MultMulBiasScaleQType(dtype=np.uint8)
+            self.scale_mul_biases_q = mul_biases_q
+        return mul_biases_q
+
+    @scale_mul_biases_q.setter
+    def scale_mul_biases_q(self, val):
+        self._info['scale_mul_biases_q'] = val
+
+    def set_scale(self, in_idx=0, out_idx=0, extra_scale=1):
+        if isinstance(in_idx, int):
+            in_scale = self.in_qs[in_idx].scale
+        else:
+            in_scale = reduce(lambda x, y: x * y, [self.in_qs[idx].scale for idx in in_idx])
+        if isinstance(out_idx, int):
+            out_scale = self.out_qs[out_idx].scale
+        else:
+            out_scale = reduce(lambda x, y: x * y, [self.out_qs[idx].scale for idx in out_idx])
+        scale_mul_biases_q = self.scale_mul_biases_q
+        scale = in_scale * extra_scale / out_scale
+        scale_mul_biases_q.scale = scale
+
+
+class MultAddQuantizationRecord(MultQuantizationRecord):
+    def __init__(self, *args, scale_in_mul_biases_q=None, info=None, **kwargs):
+        super(MultAddQuantizationRecord, self).__init__(*args, info=info, **kwargs)
+        if info is None:
+            self._info['scale_in_mul_biases_q'] = scale_in_mul_biases_q
+
+    @property
+    def scale_in_mul_biases_q(self):
+        mul_biases_q = self._info.get('scale_in_mul_biases_q')
+        if mul_biases_q is None:
+            mul_biases_q = MultMulBiasScaleQType(dtype=np.uint8)
+            self.scale_in_mul_biases_q = mul_biases_q
+        return mul_biases_q
+
+    @scale_in_mul_biases_q.setter
+    def scale_in_mul_biases_q(self, val):
+        self._info['scale_in_mul_biases_q'] = val
+
+    @property
+    def scaled_idx(self):
+        return 1 if self.in_qs[1].scale > self.in_qs[0].scale else 0
+
+    def set_add_scale(self):
+        self.set_scale(in_idx=0 if self.scaled_idx else 1)
+        scale_in_mul_biases_q = self.scale_in_mul_biases_q
+        scaled_idx = self.scaled_idx
+        not_scaled_idx = 0 if scaled_idx else 1
+        scale = self.in_qs[scaled_idx].scale / self.in_qs[not_scaled_idx].scale
+        scale_in_mul_biases_q.scale = scale
+
+
+class MultConstantQuantizationRecord(InputQuantizationMixin, InputOutputQuantizationRecordBase,
+                                     OutputQuantizationMixin, ConstantQuantizationRecordBase):
+    def gen_value(self, value):
+        return self.out_qs[0].get_quantized(value, container_is_quantized=self.constants_are_quantized)
+
+
+class FilterQuantizationMixin(MultQuantizationRecord):
+    @property
+    def calc_q(self) -> MultQTypeBase:
+        return QType(bits=32, q=0, signed=True)
+
+    @property
+    def acc_q(self) -> MultQTypeBase:
+        return QType(bits=32, q=0, signed=True)
+
+    @property
+    def biases_q(self) -> SymmetricMultBiasesQType:
+        return self._info.get('biases_q')
+
+    @property
+    def weights_q(self) -> MultQTypeBase:
+        return self._info.get('weights_q')
+
+    @calc_q.setter
+    def calc_q(self, val: MultQTypeBase):
+        pass
+
+    @acc_q.setter
+    def acc_q(self, val: MultQTypeBase):
+        pass
+
+    @biases_q.setter
+    def biases_q(self, val: SymmetricMultBiasesQType):
+        self._info['biases_q'] = val
+
+    @weights_q.setter
+    def weights_q(self, val: MultQTypeBase):
+        self._info['weights_q'] = val
+
+    @staticmethod
+    def rescale(arr, from_scale, to_scale):
+        return np.floor((arr * from_scale/to_scale) + 0.5).astype(arr.dtype)
+
+
+class MultScalableFilterQuantizationRecord(FilterQuantizationMixin, ScalableFilterQuantizationRecordBase):
+    def __init__(self, *args,
+                 weights_q: MultQTypeBase = None,
+                 biases_q: SymmetricMultBiasesQType = None,
+                 mul_biases_q: Sequence[MultMulBiasQType] = None,
+                 calc_q: QType = None,
+                 acc_q: QType = None,
+                 enable_prenorm=False,
+                 info=None,
+                 **kwargs):
+        super(MultScalableFilterQuantizationRecord, self).__init__(*args, info=info, **kwargs)
+        if info is None:
+            self._info['calc_q'] = calc_q
+            self._info['acc_q'] = acc_q
+            self._info['biases_q'] = biases_q
+            self._info['weights_q'] = weights_q
+            self._info['mul_biases_q'] = mul_biases_q
+            self._info['enable_prenorm'] = enable_prenorm
+        self.biases_q.link(self.weights_q, self.in_qs[0])
+
+    @property
+    def unwrap(self):
+        return self._unwrap
+
+    @unwrap.setter
+    def unwrap(self, val):
+        self._unwrap = val
+        self.biases_q.link(self.weights_q, self.in_qs[0])
+
+    def compute_prenorm(self, params: FilterParameters):
+        if not self.enable_prenorm:
+            return 0
+        max_bits = self.in_qs[0].bits - 1 + self.weights_q.bits - 1 + 1 + \
+            math.ceil(math.log2(params.filter.in_c * params.filter.h * params.filter.w))
+        spare_bits = 31 - max_bits
+        if self.mul_biases_q.dtype == np.int8:
+            bits = 7
+        elif self.mul_biases_q.dtype == np.uint8:
+            bits = 8
+        return max(0, bits - spare_bits)
+
+    @property
+    def enable_prenorm(self) -> bool:
+        return self._info.get('enable_prenorm')
+
+    @enable_prenorm.setter
+    def enable_prenorm(self, val: bool):
+        self._info['enable_prenorm'] = val
+
+    @property
+    def mul_biases_q(self) -> MultMulBiasQType:
+        return self._info.get('mul_biases_q')
+
+    @mul_biases_q.setter
+    def mul_biases_q(self, val: MultMulBiasQType):
+        self._info['mul_biases_q'] = val
+
+    def get_quantized_bias_offset(self, params, weights):
+        # input zero correction is sum(W * Zin) by out_c if weights are channel scaled
+        axis = tuple([idx for idx in range(4) if idx != params.filter.get_order_idx('out_c')])
+        return np.sum(np.multiply(self.in_qs[0].zero_point,
+                                  weights,
+                                  dtype=np.int32),
+                      dtype=np.int32,
+                      axis=axis)
+
+    @property
+    def biases_zero_correction(self):
+        # output zero correction is So/(Si * Sw) * ZPo by out_c if weights are channel scaled
+        scale = self.out_qs[0].scale / (self.in_qs[0].scale * self.weights_q.scale)
+        return np.floor((self.out_qs[0].zero_point * scale) + 0.5).astype(np.int32)
+
+    def prepare_biases(self, params: Parameters, biases: np.ndarray,
+                       weights: np.ndarray, ktype: str = None) -> np.ndarray:
+        if ktype == 'float32':
+            return self.biases_q.get_dequantized(biases,
+                                                 container_is_quantized=self.constants_are_quantized).astype(np.float32)
+        if ktype == 'symmetric':
+            return self.gen_biases(params, biases, weights)
+        raise ValueError()
+
+    def prepare_weights(self, params: Parameters,
+                        weights: np.ndarray, ktype: str = None) -> np.ndarray:
+        self.confirm_dimension(params.filter.get_order_idx('out_c'), 'weights_q')
+        if ktype == 'float32':
+            weights = self.weights_q.get_dequantized(weights,
+                                                     container_is_quantized=self.constants_are_quantized)
+            return weights.astype(np.float32)
+        if ktype == 'symmetric':
+            return self.gen_weights(params, weights)
+        raise ValueError()
+
+    def gen_weights(self, params: Parameters, weights: np.ndarray) -> np.ndarray:
+        return self.weights_q.get_quantized(weights,
+                                            container_is_quantized=self.constants_are_quantized)
+
+    def gen_biases(self, params: Parameters, biases: np.ndarray, weights: np.ndarray) -> np.ndarray:
+        biases = self.biases_q.get_quantized(
+            biases, container_is_quantized=self.constants_are_quantized)
+        if self.in_qs[0].zero_point != 0:
+            biases -= self.get_quantized_bias_offset(params,
+                                                     self.requantize(weights, 'weights_q'))
+        if self.out_qs[0].zero_point != 0:
+            biases += self.biases_zero_correction
+        return biases
+
+    def gen_mul_biases(self, params: MultiplicativeBiasParameters) -> np.ndarray:
+        if isinstance(self.mul_biases_q, MultMulBiasQType):
+            self.mul_biases_q.pre_normalization = self.compute_prenorm(params)
+        return self.mul_biases_q.qbiases
+
+    def apply_multiplicative_bias(self, params: FilterParameters, input_tensor: np.ndarray,
+                                  axis: int, ktype: str = None):
+        if ktype == 'float32':
+            return input_tensor
+        if ktype == 'symmetric':
+            if isinstance(self.mul_biases_q, MultMulBiasQType):
+                self.mul_biases_q.pre_normalization = self.compute_prenorm(params)
+            input_tensor = self.mul_biases_q.apply_scales(input_tensor, axis)
+            return input_tensor.astype(np.int32)
diff --git a/tools/nntool/quantization/multiplicative/mult_quantizer.py b/tools/nntool/quantization/multiplicative/mult_quantizer.py
new file mode 100644
index 000000000..3d13231f8
--- /dev/null
+++ b/tools/nntool/quantization/multiplicative/mult_quantizer.py
@@ -0,0 +1,212 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+from collections import OrderedDict
+
+import numpy as np
+
+from graph.nngraph import NNGraph
+from graph.types import (ConstantInputParameters, Conv2DParameters,
+                         ConvFusionParameters, FcParameters, InputParameters,
+                         MatrixAddParameters, ActivationFusion,
+                         MatrixBroadcastedLinearOpParameters,
+                         MatrixSubParameters, MatScaleFusionParameters,
+                         PoolingParameters, SoftMaxParameters, GlobalPoolParameters,
+                         OutputParameters)
+from quantization.multiplicative.mult_quantization import (
+    MultAddQuantizationRecord, MultConstantQuantizationRecord,
+    MultQuantizationRecord, MultScalableFilterQuantizationRecord)
+from quantization.multiplicative.symmetric.symmetric_mult_biases_qtype import \
+    SymmetricMultBiasesQType
+from quantization.multiplicative.symmetric.symmetric_mult_qtype import \
+    SymmetricMultQType
+from quantization.multiplicative.symmetric.mult_mulbias_qtype_new import MultMulBiasScaleQType
+from quantization.quantization_set import QuantizationSet
+from quantization.quantizer import Quantizer
+from utils.json_serializable import JsonSerializable
+from utils.node_id import NodeId, convert_keys_to_str, convert_str_to_keys
+
+LOG = logging.getLogger('nntool.' + __name__)
+
+WIDTH_TO_DTYPE = {
+    8: np.int8,
+    16: np.int16
+}
+
+
+class MultQuantizer(Quantizer, JsonSerializable):
+    def __init__(self, activation_stats, force_width=None, quantized_dimension=None, narrow_weights=False):
+        self._activation_stats = activation_stats
+        self._force_width = force_width
+        self._quantized_dimension = quantized_dimension
+        self._narrow_weights = narrow_weights
+
+    # for tests
+    def __eq__(self, value):
+        return self._activation_stats == value._activation_stats and \
+            self._force_width == value._force_width
+
+    def _encapsulate(self):
+        return {
+            'activation_stats': convert_keys_to_str(self._activation_stats),
+            'force_width': self._force_width,
+            'quantized_dimension': self._quantized_dimension
+        }
+
+    @classmethod
+    def _dencapsulate(cls, val):
+        return MultQuantizer(convert_str_to_keys(val['activation_stats']),
+                             val['force_width'],
+                             val['quantized_dimension'])
+
+    @staticmethod
+    def get_in_qs(G, edge_recs, node):
+        if isinstance(node, InputParameters):
+            in_qs = []
+        else:
+            in_qs = [edge_recs[edge.params]
+                     for edge in G.indexed_in_edges(node.name)]
+        return in_qs
+
+    def get_quantized_dimension(self, node):
+        if self._quantized_dimension == 'tensor':
+            return None
+        elif self._quantized_dimension == 'channel':
+            return node.filter.get_order_idx('out_c')
+        return None
+
+    def calculate_q(self, G, node, astats, in_qs, dtype, out_dtype=None):
+        del G
+        if out_dtype is None:
+            out_dtype = dtype
+        if isinstance(node, (PoolingParameters, OutputParameters)):
+            o_q = in_qs[0]
+        elif isinstance(node, SoftMaxParameters):
+            o_q = SymmetricMultQType(min_val=-1, max_val=1, dtype=np.int16, scale=2**(-15))
+        else:
+            o_q = SymmetricMultQType.from_min_max(min_val=astats['min'],
+                                                  max_val=astats['max'],
+                                                  dtype=out_dtype)
+
+        if isinstance(node, (MatrixAddParameters, MatrixSubParameters)):
+            qrec = MultAddQuantizationRecord(in_qs=in_qs, out_qs=[o_q])
+
+        elif isinstance(node, (MatrixBroadcastedLinearOpParameters, MatScaleFusionParameters, GlobalPoolParameters)):
+            qrec = MultQuantizationRecord(in_qs=in_qs, out_qs=[o_q])
+
+        elif isinstance(node, ConstantInputParameters):
+            qrec = MultConstantQuantizationRecord(out_qs=[o_q],
+                                                  constants_are_quantized=False)
+
+        elif isinstance(node, (FcParameters, Conv2DParameters)):
+            weights_q = SymmetricMultQType.from_array(arr=node.weights,
+                                                      quantized_dimension=self.get_quantized_dimension(node),
+                                                      dtype=dtype, narrow_range=self._narrow_weights)
+            if node.has_bias:
+                biases_q = SymmetricMultBiasesQType(dtype=np.int32, scale=weights_q.scale * in_qs[0].scale)
+            else:
+                biases_q = SymmetricMultBiasesQType(dtype=np.int32, scale=np.array([1], dtype=np.int32))
+            mul_biases_q = MultMulBiasScaleQType.from_filter(in_qs[0], weights_q, o_q, node)
+            qrec = MultScalableFilterQuantizationRecord(in_qs=[in_qs[0]],
+                                                        out_qs=[o_q],
+                                                        weights_q=weights_q,
+                                                        biases_q=biases_q,
+                                                        mul_biases_q=mul_biases_q,
+                                                        constants_are_quantized=False)
+            LOG.debug("filter %s qrec %s", node.name, qrec)
+        else:
+            qrec = MultQuantizationRecord(in_qs=in_qs, out_qs=[o_q])
+        return qrec
+
+    def quantize_fusion(self, G, node, in_qs, dtype):
+        result = OrderedDict()
+        fin_qs = in_qs
+        nodes = node.contained_nodes()
+        if node.fusion_type in ['conv_active_pool', 'conv_active']:
+            conv_node = nodes[0]
+            act_node = nodes[1]
+            act_astats = self._activation_stats.get(NodeId(node, act_node))
+            conv_qrec = self.calculate_q(G,
+                                         conv_node,
+                                         act_astats,
+                                         fin_qs,
+                                         dtype,
+                                         out_dtype=np.int8)
+            result[NodeId(node, conv_node)] = conv_qrec
+            fin_qs = conv_qrec.out_qs
+            nodes = nodes[1:]
+        for fnode in nodes:
+            qrec = self.calculate_q(G,
+                                    fnode,
+                                    self._activation_stats.get(NodeId(node, fnode)),
+                                    fin_qs,
+                                    dtype)
+            result[NodeId(node, fnode)] = qrec
+            fin_qs = qrec.out_qs
+        return MultQuantizationRecord(in_qs=in_qs, out_qs=fin_qs), result
+
+    def quantize_forward(self, G: NNGraph, edge_recs, dtype=np.int8, result=None):
+        if result is None:
+            result = QuantizationSet()
+        for node in [step['node'] for step in G.graph_state.steps]:
+            LOG.debug("quantize forward %s", node.name)
+            in_qs = self.get_in_qs(G, edge_recs, node)
+            if isinstance(node, (ConvFusionParameters, ActivationFusion)):
+                qrec, qrecs = self.quantize_fusion(G, node, in_qs, dtype)
+                for node_id, fqrec in qrecs.items():
+                    result[node_id] = fqrec
+            else:
+                qrec = self.calculate_q(G,
+                                        node,
+                                        self._activation_stats.get(
+                                            NodeId(node, None)),
+                                        in_qs,
+                                        dtype)
+            result[NodeId(node, None)] = qrec
+            if not qrec:
+                break
+
+            for edges in G.indexed_out_edges(node.name):
+                for edge in edges:
+                    edge_recs[edge.params] = qrec.out_qs[edge.from_idx]
+        return result
+
+    def dequantize(self, G: NNGraph):
+        qrecs = G.quantization
+        LOG.info("dequantizing graph parameters")
+        for _, node, _, fnode in G.nodes_iterator():
+            qrec = qrecs[NodeId(node, fnode)]
+            if isinstance(node, ConstantInputParameters):
+                node.value = qrec.out_q[0].dequantize(node.value)
+            else:
+                anode = node if fnode is None else fnode
+                if isinstance(anode, (FcParameters, Conv2DParameters)):
+                    if anode.has_bias:
+                        anode.biases = qrec.biases_q.dequantize(anode.biases)
+                    anode.weights = qrec.weights_q.dequantize(anode.weights)
+
+    def quantize(self, G: NNGraph) -> OrderedDict:
+        '''quantize the graph'''
+        if G.has_quantized_parameters:
+            self.dequantize(G)
+            G.has_quantized_parameters = False
+            G.quantization = None
+        edge_recs = {}
+        dtype = WIDTH_TO_DTYPE[self._force_width]
+        qrecs = self.quantize_forward(G, edge_recs, dtype)
+        qrecs['__quantizer'] = self
+        G.graph_identity.quantization_type = 'SQ8'
+        return qrecs
diff --git a/tools/nntool/quantization/multiplicative/mult_utils.py b/tools/nntool/quantization/multiplicative/mult_utils.py
new file mode 100644
index 000000000..3327ab74a
--- /dev/null
+++ b/tools/nntool/quantization/multiplicative/mult_utils.py
@@ -0,0 +1,38 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import math
+
+import numpy as np
+
+
+def spare_bits(params, dtype, bits):
+    iinfo = np.iinfo(dtype)
+    max_bits = math.ceil(math.log2(iinfo.max * params.filter.in_c * params.filter.h * params.filter.w))
+    return bits - max_bits
+
+
+def compute_mul_bias(scales):
+    factors = np.array([math.frexp(scale) for scale in scales], dtype=[("scale", "f4"), ("norm", "i1")])
+    qmults = np.floor(factors['scale'] * math.pow(2, 7) + 0.5)
+    qnorms = -(factors["norm"] - 7)
+    qnorms[qmults >= 128] += 1
+    qmults[qmults >= 128] = 64
+    return qmults, qnorms
+
+def compute_32bit_mul_bias(scales):
+    qmults = np.floor(scales * math.pow(2, 32) + 0.5)
+    iinfo = np.iinfo(np.uint32)
+    return np.minimum(qmults, iinfo.max).astype(np.uint32)
diff --git a/tools/nntool/quantization/multiplicative/symmetric/__init__.py b/tools/nntool/quantization/multiplicative/symmetric/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tools/nntool/quantization/multiplicative/symmetric/mult_mulbias_qtype_new.py b/tools/nntool/quantization/multiplicative/symmetric/mult_mulbias_qtype_new.py
new file mode 100644
index 000000000..bb96cde06
--- /dev/null
+++ b/tools/nntool/quantization/multiplicative/symmetric/mult_mulbias_qtype_new.py
@@ -0,0 +1,265 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import math
+from abc import abstractmethod, abstractclassmethod
+
+import numpy as np
+
+from graph.types import FilterParameters
+from quantization.multiplicative.symmetric.symmetric_mult_qtype import \
+    SymmetricMultQType
+from quantization.qtype import QType
+from utils.at_norm import at_norm
+
+NUM_BITS = {
+    np.int8: 8,
+    np.int16: 16,
+    np.int32: 32,
+    np.uint8: 8,
+    np.uint16: 16,
+    np.uint32: 32,
+}
+
+SIGNED = [
+    np.int8,
+    np.int16,
+    np.int32
+]
+
+
+class MultMulBiasQType(SymmetricMultQType):
+    @abstractmethod
+    def apply_scales(self, arr: np.ndarray, axis: int = None):
+        pass
+
+    @property
+    def has_scale(self):
+        scale = self.scale
+        if isinstance(scale, np.ndarray):
+            return np.any(self.scale != 1)
+        return self.scale != 1
+
+    @abstractclassmethod
+    def from_filter(cls, in_q, weights_q, out_q, params, dtype=None):
+        pass
+
+class MultMulBiasScaleQType(MultMulBiasQType):
+    def __init__(self, *args, dtype=np.uint8, available_bits=8, init=None, **kwargs):
+        self._available_bits = available_bits
+        super(MultMulBiasScaleQType, self).__init__(*args, dtype=dtype, init=init, **kwargs)
+        if init:
+            self._info = init
+
+    @classmethod
+    def from_filter(cls, in_q, weights_q, out_q, params, dtype=np.uint8):
+        available_bits = (
+            31 - (math.ceil(math.log2(params.filter.in_c * params.filter.h * params.filter.w)) + 7 + 7))
+        qtype = cls(dtype=dtype, available_bits=available_bits)
+        qtype.scale = in_q.scale * weights_q.scale / out_q.scale
+        return qtype
+
+    @property
+    def shift_ctype(self):
+        return "int8"
+
+    @property
+    def shift_qtype(self):
+        return QType(q=0, bits=8, signed=True)
+
+    @property
+    def qnorms(self):
+        return self._info['qnorms'] - self.pre_normalization
+
+    @property
+    def qbiases(self):
+        return self._info['qbiases']
+
+    @property
+    def pre_normalization(self):
+        return self._info.get('pre_normalization') or 0
+
+    @pre_normalization.setter
+    def pre_normalization(self, val):
+        self._info['pre_normalization'] = val
+
+    def _encapsulate(self):
+        return {
+            "qnorms": self.qnorms,
+            "qbiases": self.qbiases,
+            "scale": self.scale,
+            "pre_normalization": self.pre_normalization,
+            "dtype": self.dtype.__name__
+        }
+
+    @classmethod
+    def _dencapsulate(cls, val):
+        return cls(init={
+            "qnorms": val['qnorms'],
+            "qbiases": val['qbiases'],
+            "scale": val['scale'],
+            "pre_normalization": val['pre_normalization'] if 'pre_normalization' in val else None,
+            "dtype": getattr(np, val['dtype'])
+        })
+
+    @property
+    def scale(self):
+        return self._info['scale']
+
+    @scale.setter
+    def scale(self, val):
+        if val is not None:
+            if not isinstance(val, np.ndarray):
+                val = np.array([val])
+            assert np.all(val >= 0), "scale should be positive"
+            self._info['scale'] = val
+            self.compute_scales()
+        else:
+            self._info['scale'] = val
+
+    def compute_scales(self):
+        if not self.has_scale:
+            return
+        if self.dtype == np.int8:
+            bits = min(7, self._available_bits)
+        elif self.dtype == np.uint8:
+            bits = min(8, self._available_bits)
+        max_val = math.pow(2, bits)
+        factors = np.array([math.frexp(scale) for scale in self.scale],
+                           dtype=[("scale", "f4"), ("norm", "i1")])
+        qbiases = np.floor(factors['scale'] * max_val + 0.5)
+        qnorms = -(factors["norm"] - bits)
+        overflow = qbiases >= max_val
+        qnorms[overflow] -= 1
+        qbiases = np.where(overflow, qbiases // 2, qbiases)
+        self._info['qnorms'] = qnorms
+        self._info['qbiases'] = qbiases.astype(self.dtype)
+
+    def apply_scales(self, arr: np.ndarray, axis: int = None):
+        if self.pre_normalization > 0:
+            arr = at_norm(arr, self.pre_normalization)
+        if not self.has_scale:
+            return arr
+        if axis is None:
+            mul_biases = self.qbiases
+            mul_biases_norm = self.qnorms
+            assert len(mul_biases) == 1 and len(
+                mul_biases_norm) == 1, "no axis set. should have single scale"
+        else:
+            shape = [len(self.qbiases) if idx == axis else 1 for idx in range(len(arr.shape))]
+            mul_biases = self.qbiases.reshape(shape)
+            mul_biases_norm = self.qnorms.reshape(shape)
+        return at_norm(np.multiply(arr, mul_biases, dtype=np.int32), mul_biases_norm)
+
+    def str_by_chan(self, chan: int):
+        return "{}b>>{} {:0.3f}".format(self.bits, self.qnorms[chan], self.qbiases[chan])
+
+    def __str__(self):
+        qnorms = self.qnorms
+        if len(self.qnorms) == 1:
+            return "{}b>>{} {:0.3f}".format(self.bits, qnorms[0], self.qbiases[0])
+        return "{}b>>chan".format(self.bits)
+
+
+class MultFractionalMulBiasQType(MultMulBiasQType):
+    def __init__(self, *args, init=None, **kwargs):
+        kwargs['dtype'] = np.uint32
+        # force to uint32
+        super(MultFractionalMulBiasQType, self).__init__(*args, init=init, **kwargs)
+        if init:
+            self._info = init
+
+    @classmethod
+    def from_filter(cls, in_q, weights_q, out_q, params, dtype=None):
+        return cls(scale=in_q.scale * weights_q.scale / out_q.scale)
+
+    @property
+    def qnorms(self):
+        return self._info['qnorms']
+
+    @property
+    def qbiases(self):
+        return self._info['qbiases']
+
+    def _encapsulate(self):
+        return {
+            "qbiases": self.max_val.tolist() if self.qbiases else None,
+            "scale": self.scale.tolist() if self.scale else None,
+            "dtype": self.dtype.__name__
+        }
+
+    @classmethod
+    def _dencapsulate(cls, val):
+        return cls(None, None, init={
+            "qbiases": cls.init_array(val, 'qbiases'),
+            "scale": cls.init_array(val, 'scale'),
+            "dtype": getattr(np, val['dtype'])
+        })
+
+    @property
+    def scale(self):
+        return self._info['scale']
+
+    @scale.setter
+    def scale(self, val):
+        if val is not None:
+            if not isinstance(val, np.ndarray):
+                val = np.array([val])
+            assert np.all(val >= 0) and np.all(val <= 1), "scale should be positive and fractional"
+            self._info['scale'] = val
+            self.compute_scales()
+        else:
+            self._info['scale'] = val
+
+    def compute_scales(self):
+        if not self.has_scale:
+            return
+        factors = np.array([math.frexp(scale) for scale in self.scale],
+                           dtype=[("scale", "f4"), ("norm", "i1")])
+        qbiases = np.floor(factors['scale'] * math.pow(2, 32) + 0.5)
+        qnorms = -(factors["norm"])
+        overflow = qbiases >= math.pow(2, 32)
+        qnorms[overflow] -= 1
+        qbiases[overflow] //= 2
+        self._info['qnorms'] = qnorms
+        #qmults = np.floor(self.scale * math.pow(2, 32) + 0.5)
+        iinfo = np.iinfo(self.dtype)
+        self._info['qbiases'] = np.minimum(qbiases, iinfo.max).astype(self.dtype)
+
+    def apply_scales(self, arr: np.ndarray, axis: int = None):
+        if not self.has_scale:
+            return arr.astype(np.int32)
+        if axis is None:
+            mul_biases = self.qbiases
+            mul_biases_norm = self.qnorms
+            assert len(mul_biases) == 1 and len(
+                mul_biases_norm) == 1, "no axis set. should have single scale"
+        else:
+            shape = [len(self.qbiases) if idx == axis else 1 for idx in range(len(arr.shape))]
+            mul_biases = self.qbiases.reshape(shape)
+            mul_biases_norm = self.qnorms.reshape(shape)
+
+        #arr = np.multiply(arr, mul_biases, dtype=np.int64) >> 32
+        arr = at_norm(np.multiply(arr, mul_biases, dtype=np.int64), 32 + mul_biases_norm)
+        return arr.astype(np.int32)
+
+    def str_by_chan(self, chan: int):
+        return "{}b{:0.6f}".format(self.bits, self.qbiases[chan])
+
+    def __str__(self):
+        qbiases = self.qbiases
+        if len(self.qbiases) == 1:
+            return "{}b{:0.6f}".format(self.bits, qbiases[0])
+        return "{}bchan".format(self.bits)
diff --git a/tools/nntool/quantization/multiplicative/symmetric/symmetric_mult_biases_qtype.py b/tools/nntool/quantization/multiplicative/symmetric/symmetric_mult_biases_qtype.py
new file mode 100644
index 000000000..8fa76f8de
--- /dev/null
+++ b/tools/nntool/quantization/multiplicative/symmetric/symmetric_mult_biases_qtype.py
@@ -0,0 +1,58 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import numpy as np
+from quantization.multiplicative.symmetric.symmetric_mult_qtype import SymmetricMultQType
+
+# Has internal scale and external scale
+# Internal scale is the set scale at creation. This is assumed to be the scale of any contained parameters
+# The set in_q and weights_q is the scale that will be used when quantized bias is requested
+
+class SymmetricMultBiasesQType(SymmetricMultQType):
+    def __init__(self, *args, init=None, **kwargs):
+        self._set_scale = None
+        super(SymmetricMultBiasesQType, self).__init__(*args, init=init, **kwargs)
+
+    def link(self, weights_q, in_q):
+        self._set_scale = weights_q.scale * in_q.scale
+
+    @property
+    def scale(self):
+        return self._set_scale if self._set_scale is not None else super().scale
+
+    @scale.setter
+    def scale(self, val):
+        self._info['scale'] = val
+
+    def dequantize(self, arr):
+        return self.dequantize_at_scale(arr, super().scale)
+
+    def get_dequantized(self, arr, container_is_quantized=True):
+        if container_is_quantized:
+            return self.dequantize_at_scale(arr, super().scale)
+        return arr
+
+    def quantize(self, arr: np.array) -> np.array:
+        return self.quantize_at_scale(arr, super().scale)
+
+    def get_quantized(self, arr: np.array, container_is_quantized=True) -> np.array:
+        if container_is_quantized:
+            if self._set_scale is not None and not np.array_equal(self._set_scale, super().scale):
+                return self.quantize_at_scale(self.dequantize_at_scale(arr, super().scale), self._set_scale)
+            return arr
+        else:
+            if self._set_scale is not None and not np.array_equal(self._set_scale, super().scale):
+                return self.quantize_at_scale(arr, self._set_scale)
+            return self.quantize_at_scale(arr, super().scale)
diff --git a/tools/nntool/quantization/multiplicative/symmetric/symmetric_mult_qtype.py b/tools/nntool/quantization/multiplicative/symmetric/symmetric_mult_qtype.py
new file mode 100644
index 000000000..bcbd33db7
--- /dev/null
+++ b/tools/nntool/quantization/multiplicative/symmetric/symmetric_mult_qtype.py
@@ -0,0 +1,232 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import math
+
+import numpy as np
+
+from quantization.multiplicative.mult_qtype_base import MultQTypeBase
+
+VALID_DTYPES = [
+    np.int8,
+    np.int16,
+    np.int32
+]
+
+
+class SymmetricMultQType(MultQTypeBase):
+    def __init__(self, *args, narrow_range=False, init=None, **kwargs):
+        super(SymmetricMultQType, self).__init__(*args, init=init, **kwargs)
+        if init is None:
+            self._info['narrow_range'] = narrow_range
+
+    SYMMETRIC_UINT = {
+        np.uint8: (128, np.int8)
+    }
+
+    def dtype_is_valid(self):
+        return self.dtype in VALID_DTYPES
+
+    def verify(self, arr, dimension):
+        """Verify that any 0 filters have a 1 scale"""
+        dq_arr = self.dequantize(arr)
+        axes = tuple(axis for axis in range(len(dq_arr.shape)) if axis != dimension)
+        rmin = np.min(dq_arr, axis=axes)
+        rmax = np.min(dq_arr, axis=axes)
+        self.scale = np.where((rmin == 0) & (rmax == 0), 1, self.scale)
+
+    @classmethod
+    def from_tflite(cls, tf_qps, dtype):
+        res = cls()
+        res.min_val = tf_qps.MinAsNumpy() if tf_qps.MinLength() > 0 else None
+        res.max_val = tf_qps.MaxAsNumpy() if tf_qps.MaxLength() > 0 else None
+        if res.min_val is not None and res.max_val is not None \
+                                        and np.all(np.abs(res.min_val) == res.max_val):
+            res.narrow_range = True
+        res.scale = tf_qps.ScaleAsNumpy() if tf_qps.ScaleLength() > 0 else None
+        res.quantized_dimension = tf_qps.QuantizedDimension()
+        if dtype in cls.SYMMETRIC_UINT:
+            zero_point, signed_dtype = cls.SYMMETRIC_UINT[dtype]
+            assert np.all(tf_qps.ZeroPointAsNumpy() == zero_point)
+            res.dtype = signed_dtype
+        else:
+            res.dtype = dtype
+        return res
+
+    @classmethod
+    def from_array(cls, arr: np.ndarray, dtype=np.int8,
+                   quantized_dimension=None, narrow_range=False):
+
+        if quantized_dimension is not None:
+            axes = tuple(axis for axis in range(len(arr.shape)) if axis != quantized_dimension)
+        else:
+            axes = None
+        rmin = np.min(arr, axis=axes)
+        rmax = np.max(arr, axis=axes)
+        return cls.from_min_max(rmin, rmax, dtype=dtype,
+                                quantized_dimension=quantized_dimension,
+                                narrow_range=narrow_range)
+
+    @classmethod
+    def from_min_max(cls, min_val, max_val, dtype=np.int8, quantized_dimension=None, narrow_range=False):
+        val = cls(min_val=min_val, max_val=max_val,
+                  quantized_dimension=quantized_dimension, dtype=dtype,
+                  narrow_range=narrow_range)
+        iinfo = np.iinfo(dtype)
+
+        if narrow_range:
+            ranges = iinfo.max - (iinfo.min + 1)
+        else:
+            ranges = iinfo.max - iinfo.min
+        val.scale = val.range / ranges
+        return val
+
+    def scale_to_pow2(self):
+        # closest above pow2
+        self.scale = 2**np.ceil(np.log2(self.scale))
+
+    def _encapsulate(self):
+        return {
+            "min_val": self.min,
+            "max_val": self.max,
+            "scale": self.scale,
+            "dim": self.quantized_dimension,
+            "narrow_range": self.narrow_range,
+            "dtype": self.dtype.__name__
+        }
+
+    @classmethod
+    def _dencapsulate(cls, val):
+        return cls(init={
+            "min_val": val['min_val'],
+            "max_val": val['max_val'],
+            "scale": val['scale'],
+            "quantized_dimension": val['dim'] if 'dim' in val else None,
+            "narrow_range": val['narrow_range'],
+            "dtype": getattr(np, val['dtype'])
+        })
+
+    @property
+    def narrow_range(self):
+        return self._info.get('narrow_range')
+
+    @narrow_range.setter
+    def narrow_range(self, val):
+        self._info['narrow_range'] = val
+
+    @property
+    def min(self):
+        if self.max is None:
+            return None
+        if (not self.narrow_range) and (self.max_val != self.min_val).all():
+            dtype_info = np.iinfo(self.dtype)
+            max_calc = - np.abs(self.max_val) * np.abs(dtype_info.min) / dtype_info.max
+            min_val_is_min = np.less_equal(self.max_val * dtype_info.max / np.abs(dtype_info.min), np.abs(self.min_val))
+            #min_val_is_min = np.less(self.max_val, np.abs(self.min_val))
+            max_calc = np.where(min_val_is_min, self.min_val, max_calc)
+            return max_calc
+        return self.max * -1
+
+    @property
+    def max(self):
+        if self.min_val is None or self.max_val is None:
+            return None
+        if (not self.narrow_range) and (self.max_val != self.min_val).all():
+            dtype_info = np.iinfo(self.dtype)
+            max_calc = np.abs(self.min_val) * dtype_info.max / np.abs(dtype_info.min)
+            max_val_is_max = np.greater(self.max_val * dtype_info.max / np.abs(dtype_info.min), np.abs(self.min_val))
+            #max_val_is_max = np.greater_equal(self.max_val, np.abs(self.min_val))
+            max_calc = np.where(max_val_is_max, self.max_val, max_calc)
+            return max_calc
+
+        max_calc = np.maximum(np.abs(self.min_val), np.abs(self.max_val))
+        max_calc[max_calc == 0] = 1
+        return max_calc
+
+    @property
+    def zero_point(self):
+        return np.array([0])
+
+    @zero_point.setter
+    def zero_point(self, val):
+        raise ValueError()
+
+    def get_quantized_scale(self):
+        max_val = math.pow(2, 8)
+        factors = np.array([math.frexp(scale) for scale in self.scale],
+                           dtype=[("scale", "f4"), ("norm", "i1")])
+        qscales = np.floor(factors['scale'] * max_val + 0.5)
+        qnorms = -factors["norm"]
+        overflow = qscales >= max_val
+        qnorms[overflow] -= 1
+        qscales = np.where(overflow, qscales // 2, qscales)
+        return qscales.astype(np.uint8), qnorms
+
+    def dequantize_at_scale(self, arr: np.array, scale: np.array) -> np.array:
+        arr = arr.astype(np.float32)
+        if len(scale) > 1 and arr.shape != scale.shape:
+            return arr * scale.reshape(tuple(size if idx == self.quantized_dimension else 1
+                                             for idx, size in enumerate(arr.shape)))
+        return arr * scale
+
+    def quantize_at_scale(self, arr: np.array, scale: np.array) -> np.array:
+        if len(scale) > 1 and arr.shape != scale.shape:
+            arr = np.floor(0.5 + arr * 1 / scale.reshape(tuple(size if idx == self.quantized_dimension else 1
+                                                               for idx, size in enumerate(arr.shape))))
+        else:
+            arr = np.floor(arr/scale + 0.5)
+        return self.clip(arr, narrow_range=self.narrow_range)
+
+    def quantize(self, arr: np.array) -> np.array:
+        return self.quantize_at_scale(arr, self.scale)
+
+    def dequantize(self, arr: np.array) -> np.array:
+        return self.dequantize_at_scale(arr, self.scale)
+
+    def get_dequantized(self, arr, container_is_quantized=True):
+        if container_is_quantized:
+            return self.dequantize_at_scale(arr, self.scale)
+        return arr
+
+    def get_quantized(self, arr: np.array, container_is_quantized=True) -> np.array:
+        if not container_is_quantized:
+            return self.quantize_at_scale(arr, self.scale)
+        return arr
+
+    def str_by_chan(self, chan: int):
+        if self.min is None and self.max is None:
+            return "{}*{}".format(
+                self.dtype_str,
+                self.str_fmt(self.scale[chan], extend=True),
+            )
+        return "{}<{}*{}<{}".format(
+            self.str_fmt(self.min[chan]),
+            self.dtype_str,
+            self.str_fmt(self.scale[chan], extend=True),
+            self.str_fmt(self.max[chan]),
+        )
+
+    def __str__(self):
+        if self.min is None and self.max is None:
+            return "{}*{}".format(
+                self.dtype_str,
+                self.str_fmt(self.scale, extend=True),
+            )
+        return "{}<{}*{}<{}".format(
+            self.str_fmt(self.min),
+            self.dtype_str,
+            self.str_fmt(self.scale, extend=True),
+            self.str_fmt(self.max),
+        )
diff --git a/tools/nntool/quantization/multiplicative/symmetric/symmetric_mult_qtype_wrapper.py b/tools/nntool/quantization/multiplicative/symmetric/symmetric_mult_qtype_wrapper.py
new file mode 100644
index 000000000..6476bca77
--- /dev/null
+++ b/tools/nntool/quantization/multiplicative/symmetric/symmetric_mult_qtype_wrapper.py
@@ -0,0 +1,123 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import math
+
+import numpy as np
+
+from quantization.multiplicative.symmetric.symmetric_mult_qtype import SymmetricMultQType
+from quantization.multiplicative.asymmetric.asymmetric_mult_qtype import AsymmetricMultQType
+from quantization.multiplicative.mult_qtype_base import WrapperMixin
+
+VALID_DTYPES = [
+    np.int8,
+    np.int16,
+    np.int32
+]
+
+UNSIGNED_TO_SIGNED = {
+    np.uint8: np.int8,
+    np.uint16: np.int16,
+    np.uint32: np.int32,
+    np.int8: np.int8,
+    np.int16: np.int16,
+    np.int32: np.int32,
+}
+
+class SymmetricMultQTypeWrapper(WrapperMixin, SymmetricMultQType):
+    def __init__(self, wrapped, *args, scale=None, dtype=None, **kwargs):
+        # need to set wrapped before constructor
+        self._wrapped = wrapped
+        super(SymmetricMultQTypeWrapper, self).__init__(*args, **kwargs)
+        self._info['scale'] = scale
+        self._info['dtype'] = dtype
+
+    def dtype_is_valid(self):
+        return self.dtype in VALID_DTYPES
+
+    def _encapsulate(self):
+        #pylint: disable=protected-access
+        return {
+            "wrapped": AsymmetricMultQType._encapsulate(self),
+            "scale": self.scale,
+            "dtype": self.dtype.__name__ if self.dtype is not None else None
+        }
+
+    @classmethod
+    def _dencapsulate(cls, val):
+        #pylint: disable=protected-access
+        dtype = getattr(np, val['dtype']) if val['dtype'] is not None else None
+        return cls(AsymmetricMultQType._dencapsulate(val['wrapped']), scale=val['scale'], dtype=dtype)
+
+    @property
+    def min_val(self):
+        return self._wrapped.min_val
+
+    @min_val.setter
+    def min_val(self, val):
+        pass
+
+    @property
+    def max_val(self):
+        return self._wrapped.max_val
+
+    @max_val.setter
+    def max_val(self, val):
+        pass
+
+    @property
+    def scale(self):
+        if self._info['scale'] is None:
+            # return the bits from the wrapped type. The dtype is only set
+            # by the importer to keep the container size between layers
+            # fused with activations and should not change the scale of the
+            # output.
+            if self.range is None:
+                return None
+            return self.range / (math.pow(2, self._wrapped.bits) - 1)
+        return self._info['scale']
+
+    def get_dequantized(self, arr, container_is_quantized=True):
+        if container_is_quantized:
+            return self._wrapped.dequantize(arr)
+        return arr
+
+    def get_quantized(self, arr: np.array, container_is_quantized=True) -> np.array:
+        if container_is_quantized:
+            return self.quantize(self._wrapped.dequantize(arr))
+        return self.quantize(arr)
+
+    @scale.setter
+    def scale(self, val):
+        # scale can be overriden (this is the case in biases for example)
+        self._info['scale'] = val
+
+    @property
+    def quantized_dimension(self):
+        return self._wrapped.quantized_dimension
+
+    @quantized_dimension.setter
+    def quantized_dimension(self, val):
+        self._wrapped.quantized_dimension = val
+
+    @property
+    def dtype(self):
+        if self._info['dtype'] is not None:
+            return self._info['dtype']
+        return UNSIGNED_TO_SIGNED[self.wrapped.dtype]
+
+    @dtype.setter
+    def dtype(self, val):
+        self._info['dtype'] = val
diff --git a/tools/nntool/quantization/qtype.py b/tools/nntool/quantization/qtype.py
index 40f0bbbdb..55516ce98 100644
--- a/tools/nntool/quantization/qtype.py
+++ b/tools/nntool/quantization/qtype.py
@@ -16,6 +16,7 @@
 import numpy as np
 
 from utils.json_serializable import JsonSerializable
+from utils.at_norm import at_norm
 
 from .qtype_base import QTypeBase
 
@@ -32,6 +33,16 @@
     }
 }
 
+DTYPES = {
+    np.uint8: (8, False),
+    np.uint16: (16, False),
+    np.uint32: (32, False),
+    np.int8: (8, True),
+    np.int16: (16, True),
+    np.int32: (32, True),
+}
+
+
 def get_dtype(length, signed):
     if signed:
         return np.dtype("i"+str(int(length)))
@@ -51,10 +62,22 @@ def normalize(obj, n_bits):
         return obj
     if n_bits < 0:
         return obj << -n_bits
-    return obj >> n_bits
+    return at_norm(obj, n_bits)
+
+def calc_int_bits(arr, signed=True):
+    abs_num = np.floor(np.abs(arr))
+    # calculate number of bits to represent absolute number
+    if signed:
+        if abs_num == 0:
+            return 1
+        return np.ceil(np.log(abs_num) / np.log(2)) + 1
+    else:
+        if abs_num == 0:
+            return 0
+        return np.ceil(np.log(abs_num) / np.log(2))
 
 class QType(QTypeBase, JsonSerializable):
-    def __init__(self, *args, bits=None, q=None, signed=None):
+    def __init__(self, *args, bits=None, q=None, signed=None, dtype=None):
         if args:
             if isinstance(args[0], QType):
                 proto = args[0]
@@ -74,13 +97,19 @@ def __init__(self, *args, bits=None, q=None, signed=None):
 
         if signed is not None:
             self._quant[2] = signed
+        
+        if dtype is not None:
+            self._quant[0], self._quant[2] = DTYPES[dtype]
 
     def _encapsulate(self):
         return self._quant
 
     @classmethod
     def _dencapsulate(cls, val):
-        return QType(*val)
+        try:
+            return QType(*val)
+        except Exception as ex:
+            x = 0
 
     def increase_precision(self):
         return QType(self.bits * 2, self.q, self.signed)
@@ -136,15 +165,16 @@ def signed(self):
     def signed(self, val):
         self._quant[2] = val
 
+    @property
+    def pad_zero_point(self):
+        return 0
+
     def double_precision(self):
         return QType(self.bits * 2, self.q, self.signed)
 
     def quantize(self, arr):
         arr = np.floor((arr * 2.0 ** self.q) + 0.5)
-        max_value = 2**(self.bits - 1) - 1
-        min_value = -max_value - 1
-        arr = np.clip(arr, min_value, max_value)
-        return np.array(arr, copy=True, dtype=self.dtype)
+        return self.clip(arr)
 
     def dequantize(self, arr):
         return arr / (2.0**self.q)
@@ -153,26 +183,19 @@ def expand_normalize(self, arr: np.ndarray, cur_qtype: 'QType'):
         assert cur_qtype.length <= self.length, "must expand into something bigger"
         return normalize(arr.astype(self.dtype), cur_qtype.q - self.q)
 
-    def clip(self, arr: np.array, change_type=True):
-        min_v, max_v = max_min(self.bits, self.signed)
-        ret = np.clip(arr, min_v, max_v)
-        if change_type:
-            ret = ret.astype(self.dtype)
-        return ret
-
     def round_normalize(self, arr, cur_qtype: 'QType'):
         scale = cur_qtype.q - self.q
         # arr = arr + (1<<(scale - 1))
         arr = normalize(arr, scale)
         return arr
 
-    def round_normalize_clip(self, arr, from_qtype, change_type=True):
+    def round_normalize_clip(self, arr, from_qtype):
         to_qtype = self
         scale = from_qtype.q - to_qtype.q
         # if scale > 0:
         #     arr = arr + (1<<(scale - 1))
         arr = normalize(arr, scale)
-        arr = self.clip(arr, change_type)
+        arr = self.clip(arr)
         return arr
 
     def expand_from(self, arr, from_qtype):
@@ -185,8 +208,12 @@ def __add__(self, other):
         return QType(max(self.bits, other.bits), self.q + other.q, self.signed or other.signed)
 
     def __eq__(self, other):
-        return self.q == other.q and\
-            self.bits == other.bits and self.signed == other.signed
+        if isinstance(other, QType):
+            return self.q == other.q and\
+                self.bits == other.bits and self.signed == other.signed
+        return other.__eq__(self)
 
     def __str__(self):
+        if self.q > self.bits:
+            return "M{}>>{}".format(self.bits, self.q)
         return "Q{}.{}".format(self.bits - self.q, self.q)
diff --git a/tools/nntool/quantization/qtype_base.py b/tools/nntool/quantization/qtype_base.py
index 69d495c4b..3c474382a 100644
--- a/tools/nntool/quantization/qtype_base.py
+++ b/tools/nntool/quantization/qtype_base.py
@@ -13,25 +13,45 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program.  If not, see <https://www.gnu.org/licenses/>.
 
-from abc import ABC, abstractmethod
+from abc import ABC, abstractmethod, abstractproperty
 
-from numpy import array
+import numpy as np
 
 
 class QTypeBase(ABC):
 
     @abstractmethod
-    def quantize(self, arr: array) -> array:
+    def quantize(self, arr: np.ndarray) -> np.ndarray:
         pass
 
     @abstractmethod
-    def dequantize(self, arr: array) -> array:
+    def dequantize(self, arr: np.ndarray) -> np.ndarray:
         pass
 
-    @abstractmethod
-    def expand_from(self, arr: array, from_qtype: 'QTypeBase') -> array:
+    @abstractproperty
+    def dtype(self):
         pass
 
-    @abstractmethod
-    def reduce_from(self, arr: array, from_qtype: 'QTypeBase') -> array:
+    @abstractproperty
+    def q(self) -> int:
         pass
+
+    @abstractproperty
+    def bits(self) -> int:
+        pass
+
+    @abstractproperty
+    def signed(self) -> bool:
+        pass
+
+    @abstractproperty
+    def pad_zero_point(self) -> int:
+        pass
+
+    def clip(self, arr: np.ndarray, dtype=None, narrow_range=False):
+        if dtype is None:
+            dtype = self.dtype
+        iinfo = np.iinfo(dtype)
+        qmax = iinfo.max
+        qmin = iinfo.min + (1 if narrow_range else 0)
+        return np.minimum(np.maximum(arr, qmin), qmax).astype(dtype)
diff --git a/tools/nntool/quantization/quantization_record_base.py b/tools/nntool/quantization/quantization_record_base.py
new file mode 100644
index 000000000..7e3cf6963
--- /dev/null
+++ b/tools/nntool/quantization/quantization_record_base.py
@@ -0,0 +1,202 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+#pylint: disable=abstract-method
+
+from abc import abstractmethod, abstractproperty
+from typing import Sequence
+
+import numpy as np
+
+from graph.types import Parameters, MultiplicativeBiasParameters
+from utils.json_serializable import JsonSerializable
+
+from quantization.qtype_base import QTypeBase
+from quantization.multiplicative.mult_qtype_base import WrapperMixin
+
+
+class QuantizationRecordBase(JsonSerializable):
+    def __init__(self, info=None):
+        self._unwrap = False
+        if info is None:
+            self._info = {}
+        else:
+            self._info = info
+
+    @property
+    def unwrap(self):
+        return self._unwrap
+
+    @unwrap.setter
+    def unwrap(self, val):
+        self._unwrap = val
+
+    def unwrapped(self, val):
+        if self.unwrap:
+            if isinstance(val, list):
+                return [self.unwrapped(v) for v in val]
+            if isinstance(val, WrapperMixin):
+                return val.wrapped
+        return val
+
+    def _encapsulate(self):
+        return self._info
+
+    @classmethod
+    def _dencapsulate(cls, val):
+        return cls(info=val)
+
+    def __eq__(self, value):
+        # pylint: disable=protected-access
+        return value._info == self._info
+
+    @staticmethod
+    def ql_str(l):
+        return ",".join([str(qtype) for qtype in l])
+
+    def __hash__(self):
+        return object.__hash__(self)
+
+class InputQuantizationRecordBase(QuantizationRecordBase):
+
+    def __init__(self, *args, in_qs: QTypeBase = None, info=None, **kwargs):
+        super(InputQuantizationRecordBase, self).__init__(*args, info=info, **kwargs)
+        if info is None:
+            self._info['in_qs'] = in_qs
+
+    @abstractmethod
+    def prepare_inputs(self,
+                       params: Parameters,
+                       input_tensors: Sequence[np.ndarray], ktype: str = None) -> Sequence[np.ndarray]:
+        """Prepares the inputs before calculation"""
+
+    @property
+    def in_qs(self) -> Sequence[QTypeBase]:
+        if 'in_qs' in self._info:
+            return self.unwrapped(self._info['in_qs'])
+        return None
+
+    @in_qs.setter
+    def in_qs(self, value: Sequence[QTypeBase]):
+        self._info['in_qs'] = value
+
+    @abstractproperty
+    def auto_quantize_inputs(self):
+        """Do whatever is necessary to quantize float inputs"""
+
+    @abstractmethod
+    @auto_quantize_inputs.setter
+    def auto_quantize_inputs(self, val):
+        pass
+
+    def __str__(self):
+        return "i:({})".format(self.ql_str(self.in_qs))
+
+
+class OutputQuantizationRecordBase(QuantizationRecordBase):
+
+    def __init__(self, *args, out_qs: QTypeBase = None, info=None, **kwargs):
+        super(OutputQuantizationRecordBase, self).__init__(*args, info=info, **kwargs)
+        if info is None:
+            self._info['out_qs'] = out_qs
+
+    @abstractmethod
+    def get_outputs(self,
+                    params: Parameters,
+                    output_tensors: Sequence[np.ndarray],
+                    ktype: str = None) -> Sequence[np.ndarray]:
+        """Produces the output from the result"""
+
+    @property
+    def out_qs(self) -> Sequence[QTypeBase]:
+        if 'out_qs' in self._info:
+            return self.unwrapped(self._info['out_qs'])
+        return None
+
+    @out_qs.setter
+    def out_qs(self, value: Sequence[QTypeBase]):
+        self._info['out_qs'] = value
+
+    @abstractproperty
+    def auto_dequantize_outputs(self):
+        """Do whatever is necessary to dequantize outputs to float"""
+
+    @abstractmethod
+    @auto_dequantize_outputs.setter
+    def auto_dequantize_outputs(self, val):
+        pass
+
+    def __str__(self):
+        return "o:({})".format(self.ql_str(self.out_qs))
+
+
+class HasConstantsBase(OutputQuantizationRecordBase):
+    def __init__(self, *args, constants_are_quantized: bool = True, info=None, **kwargs):
+        super(HasConstantsBase, self).__init__(*args, info=info, **kwargs)
+        if info is None:
+            self._info['constants_are_quantized'] = constants_are_quantized
+
+    @property
+    def constants_are_quantized(self) -> bool:
+        return self._info['constants_are_quantized']
+
+
+class ConstantQuantizationRecordBase(HasConstantsBase):
+
+    @abstractmethod
+    def gen_value(self, value) -> np.ndarray:
+        """does whatever is necessary to return real value that can be dumped"""
+
+class InputOutputQuantizationRecordBase(InputQuantizationRecordBase, OutputQuantizationRecordBase):
+
+    def __init__(self, *args, info=None, **kwargs):
+        super(InputOutputQuantizationRecordBase, self).__init__(*args, info=info, **kwargs)
+
+    def __str__(self):
+        return "i:({}) o:({})".format(self.ql_str(self.in_qs), self.ql_str(self.out_qs))
+
+
+class FilterQuantizationRecordBase(InputOutputQuantizationRecordBase, HasConstantsBase):
+    """The base FilterQuantization record does not have weights_q and biases_q since
+    they may not be needed. It does however have properties for code generation.
+    __str__ needs to be overidden if there is more info to print about these. So it
+    has no constructor by default."""
+
+    @abstractmethod
+    def gen_weights(self, params: Parameters, weights) -> np.ndarray:
+        """does whatever is necessary to return real weights that can be dumped"""
+
+    @abstractmethod
+    def gen_biases(self, params: Parameters, biases: np.ndarray, weights: np.ndarray) -> np.ndarray:
+        """does whatever is necessary to return real biases that can be dumped"""
+
+    @abstractmethod
+    def prepare_weights(self, params, weights: np.ndarray, ktype: str = None) -> np.ndarray:
+        """Prepares the weights before calculation"""
+
+    @abstractmethod
+    def prepare_biases(self, params, biases: np.ndarray, weights: np.ndarray, ktype: str = None) -> np.ndarray:
+        """Prepares the biases before calculation"""
+
+class ScalableFilterQuantizationRecordBase(FilterQuantizationRecordBase):
+
+    @abstractmethod
+    def gen_mul_biases(self, params: MultiplicativeBiasParameters) -> np.ndarray:
+        """Returns the actual multiplicative biases for the filter"""
+
+    @abstractmethod
+    def apply_multiplicative_bias(self, params: Parameters, input_tensor: np.ndarray, axis: int, ktype: str = None):
+        """Applies the multiplicative bias during an internel kernel operation on axis of tensor. The mulbias
+        may be a function of the quantization or may be in the params."""
diff --git a/tools/nntool/quantization/quantization_set.py b/tools/nntool/quantization/quantization_set.py
new file mode 100644
index 000000000..b250f46ad
--- /dev/null
+++ b/tools/nntool/quantization/quantization_set.py
@@ -0,0 +1,130 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from collections.abc import MutableMapping
+from copy import deepcopy
+from typing import Sequence
+
+from graph.types import Parameters
+from utils.json_serializable import JsonSerializable
+from utils.node_id import NodeId, convert_keys_to_str, convert_str_to_keys
+from quantization.quantization_record_base import QuantizationRecordBase
+
+class QuantizationSet(MutableMapping, JsonSerializable):
+    def __init__(self, *args, unwrap=False, init: dict = None, **kwargs):
+        super(QuantizationSet, self).__init__(*args, **kwargs)
+        if init is None:
+            self._init = {
+                'unwrap': unwrap,
+                'qset': {}
+            }
+        else:
+            self._init = init
+
+    @property
+    def qset(self):
+        return self._init['qset']
+
+    def __delitem__(self, key):
+        del self.qset[key]
+
+    def __getitem__(self, key):
+        item = self.qset[key]
+        if self.unwrap:
+            item.unwrap = self.unwrap
+        return item
+
+    def __iter__(self):
+        return self.qset.__iter__()
+
+    def __len__(self):
+        return len(self.qset)
+
+    def __setitem__(self, key, item):
+        self.qset[key] = item
+
+    def _encapsulate(self):
+        return convert_keys_to_str(self._init)
+
+    def sorted_iterator(self, G):
+        node_ids = [NodeId(pnode, fnode) for _, pnode, _, fnode in G.nodes_iterator()]
+        return [(nid, self.qset[nid]) if nid in self.qset else (nid, None) for nid in node_ids]
+
+    @classmethod
+    def _dencapsulate(cls, val):
+        return cls(init=convert_str_to_keys(val))
+
+    @property
+    def unwrap(self):
+        return self._init['unwrap']
+
+    @unwrap.setter
+    def unwrap(self, val):
+        self._init['unwrap'] = val
+
+    def verify_quantization(self, G):
+        """Verify that all nodes have a quantization record"""
+        return all(NodeId(pnode, fnode) in self.qset for _, pnode, _, fnode in G.nodes_iterator())
+
+    def get_all(self, nodes: Sequence[Parameters]) -> Sequence[QuantizationRecordBase]:
+        """Get all the quantization records for a sequence of nodes"""
+        if self.all_have_quantization(nodes):
+            return [self.qset[NodeId(node)] for node in nodes]
+        return None
+
+    def all_have_quantization(self, nodes: Sequence[Parameters]) -> bool:
+        """Check that a sequence of nodes all have quantization records"""
+        return all(NodeId(node) in self.qset for node in nodes)
+
+    def propagate(self, G, from_node, to_node, from_idx=None, qtype=None):
+        """propagate the output quantization of from_node's output
+        all the way to to_node's output"""
+        if qtype is None:
+            assert from_idx is not None
+            qtype = self.qset[NodeId(from_node)].out_qs[from_idx]
+        for edge in G.out_edges(from_node.name):
+            if from_idx is None or edge.from_idx == from_idx:
+                transit_node_qrec = self.qset[NodeId(edge.to_node)]
+                transit_node_qrec.in_qs[edge.to_idx] = deepcopy(qtype)
+                transit_node_qrec.out_qs = [deepcopy(qtype)] * len(transit_node_qrec.out_qs)
+                if edge.to_node != to_node:
+                    self.propagate(G, edge.to_node, to_node, qtype=qtype)
+
+    def move_to_fusion(self, node: Parameters, new_pnode: Parameters):
+        nid = NodeId(node)
+        if nid in self.qset:
+            self.qset[NodeId(new_pnode, node)] = self.qset[nid]
+            del self.qset[nid]
+
+    def move_to_node(self, node: Parameters, new_pnode: Parameters):
+        nid = NodeId(node)
+        if nid in self.qset:
+            self.qset[NodeId(new_pnode)] = self.qset[nid]
+            del self.qset[nid]
+
+    def copy_to_fusion(self, node: Parameters, new_pnode: Parameters, new_fnode: Parameters):
+        nid = NodeId(node)
+        if nid in self.qset:
+            self.qset[NodeId(new_pnode, new_fnode)] = deepcopy(self.qset[nid])
+
+    def copy_to_node(self, node: Parameters, new_pnode: Parameters):
+        nid = NodeId(node)
+        if nid in self.qset:
+            self.qset[NodeId(new_pnode)] = deepcopy(self.qset[nid])
+
+    def remove_node(self, node: Parameters):
+        nid = NodeId(node)
+        if nid in self.qset:
+            del self.qset[nid]
diff --git a/tools/nntool/quantization/quantizer.py b/tools/nntool/quantization/quantizer.py
index d168e16ef..53d7ea480 100644
--- a/tools/nntool/quantization/quantizer.py
+++ b/tools/nntool/quantization/quantizer.py
@@ -15,12 +15,12 @@
 
 from abc import ABC, abstractmethod
 
-from typing import Mapping
 from graph.nngraph import NNGraph
-from graph.types import Parameters
-from .quantization_record import QuantizationRecord
+from quantization.quantization_record_base import QuantizationRecordBase
+from quantization.quantization_set import QuantizationSet
+
 
 class Quantizer(ABC):
     @abstractmethod
-    def quantize(self, G: NNGraph) -> Mapping[Parameters, QuantizationRecord]:
+    def quantize(self, G: NNGraph) -> QuantizationSet:
         pass
diff --git a/tools/nntool/quantization/symmetric/__init__.py b/tools/nntool/quantization/symmetric/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tools/nntool/quantization/symmetric/kernels/__init__.py b/tools/nntool/quantization/symmetric/kernels/__init__.py
new file mode 100644
index 000000000..e69de29bb
diff --git a/tools/nntool/quantization/symmetric/kernels/activations.py b/tools/nntool/quantization/symmetric/kernels/activations.py
new file mode 100644
index 000000000..84699a327
--- /dev/null
+++ b/tools/nntool/quantization/symmetric/kernels/activations.py
@@ -0,0 +1,176 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import numpy as np
+
+from quantization.multiplicative.mult_quantization import \
+    MultQuantizationRecord
+from quantization.qtype import QType
+from quantization.quantization_record_base import QuantizationRecordBase
+from utils.at_norm import at_norm
+
+FORCE_RELU = False
+
+def leaky(params,
+          in_tensors,
+          qrec: QuantizationRecordBase,
+          details=None):
+    raise NotImplementedError()
+
+
+def sigmoid(params,
+            in_tensors,
+            qrec: QuantizationRecordBase,
+            details=None):
+    del details
+    if isinstance(qrec, MultQuantizationRecord):
+        raise NotImplementedError()
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="symmetric")[0]
+    dqinput = qrec.in_qs[0].dequantize(in_tensor)
+    return qrec.get_outputs(params, [qrec.out_qs[0].quantize(1/(1 + np.exp(-dqinput)))], ktype="symmetric")
+
+
+def relu_mult(params,
+              in_tensors,
+              qrec: QuantizationRecordBase,
+              details=None):
+    del details
+
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="symmetric")[0]
+    qrec.set_scale()
+    relu_lb = qrec.in_qs[0].quantize(params.lower_bound)
+    in_tensor = np.maximum(in_tensor, relu_lb)
+    if params.upper_bound is not None and not FORCE_RELU:
+        relu_ub = qrec.in_qs[0].quantize(params.upper_bound)
+        in_tensor = np.minimum(in_tensor, relu_ub)
+    in_tensor = qrec.scale_mul_biases_q.apply_scales(in_tensor)
+    if qrec.out_qs[0] != qrec.in_qs[0]:
+        return qrec.get_outputs(params, [qrec.out_qs[0].reduce_from(in_tensor, qrec.in_qs[0])], ktype="symmetric")
+    return qrec.get_outputs(params, [in_tensor], ktype="symmetric")
+
+
+def relu(params,
+         in_tensors,
+         qrec: QuantizationRecordBase,
+         details=None):
+
+    if isinstance(qrec, MultQuantizationRecord):
+        return relu_mult(params, in_tensors, qrec, details=details)
+
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="symmetric")[0]
+
+    relu_lb = qrec.in_qs[0].quantize(params.lower_bound)
+    in_tensor = np.maximum(in_tensor, relu_lb)
+    if params.upper_bound is not None:
+        relu_ub = qrec.in_qs[0].quantize(params.upper_bound)
+        in_tensor = np.minimum(in_tensor, relu_ub)
+
+    if qrec.out_qs[0] != qrec.in_qs[0]:
+        return qrec.get_outputs(params, [qrec.out_qs[0].reduce_from(in_tensor, qrec.in_qs[0])], ktype="symmetric")
+    return qrec.get_outputs(params, [in_tensor], ktype="symmetric")
+
+
+def hsigmoid_mult_gen_factors(params, qrec):
+    in_q = qrec.in_qs[0]
+    fac_1 = in_q.quantize(np.array([params.offset]))
+    qrec.set_scale(extra_scale=1/6)
+    upper_bound = in_q.quantize([6.])
+    lower_bound = in_q.quantize([0.])
+    return fac_1, upper_bound, lower_bound
+
+
+def hsigmoid_mult(params,
+                  in_tensors,
+                  qrec: MultQuantizationRecord,
+                  details=None):
+    del details
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="symmetric")[0]
+    fac_1, upper_bound, lower_bound = hsigmoid_mult_gen_factors(params, qrec)
+    in_tensor = in_tensor.astype(np.int32)
+    in_tensor_relued = np.minimum(np.maximum(in_tensor + fac_1, lower_bound), upper_bound)
+    in_tensor = qrec.scale_mul_biases_q.apply_scales(in_tensor_relued)
+    return qrec.get_outputs(params,
+                            [in_tensor],
+                            ktype="symmetric")
+
+
+def hsigmoid(params,
+             in_tensors,
+             qrec: QuantizationRecordBase,
+             details=None):
+    if isinstance(qrec, MultQuantizationRecord):
+        return hsigmoid_mult(params, in_tensors, qrec, details=details)
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="symmetric")[0]
+
+    calc_q = QType(bits=32, q=qrec.in_qs[0].q + 15, signed=True)
+
+    fac_1 = qrec.in_qs[0].quantize(np.array([params.offset]))
+    fac_2 = (1 << 15) // 6
+    upper_bound = qrec.in_qs[0].quantize(np.array([6.]))
+    lower_bound = qrec.in_qs[0].quantize(np.array([0.]))
+    in_tensor = in_tensor.astype(np.int32)
+    in_tensor = np.multiply(np.minimum(np.maximum(in_tensor + fac_1, lower_bound),
+                                       upper_bound), fac_2, dtype=np.int32)
+    return qrec.get_outputs(params, [qrec.out_qs[0].reduce_from(in_tensor, calc_q)], ktype="symmetric")
+
+
+def hswish_mult_gen_factors(qrec):
+    in_q = qrec.in_qs[0]
+    fac_1 = in_q.quantize(np.array([3.]))
+    # The scale of the result is actually in in_scale * in_scale since it is multiplied by itself
+    qrec.set_scale(extra_scale=qrec.in_qs[0].scale * 1/6)
+    upper_bound = in_q.quantize([6.])
+    lower_bound = in_q.quantize([0.])
+    return fac_1, upper_bound, lower_bound
+
+
+def hswish_mult(params,
+                in_tensors,
+                qrec: MultQuantizationRecord,
+                details=None):
+    del details
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="symmetric")[0]
+    fac_1, upper_bound, lower_bound = hswish_mult_gen_factors(qrec)
+    in_tensor = in_tensor.astype(np.int32)
+    in_tensor_relued = np.minimum(np.maximum(in_tensor + fac_1, lower_bound), upper_bound)
+    in_tensor = qrec.scale_mul_biases_q.apply_scales(in_tensor * in_tensor_relued)
+    return qrec.get_outputs(params,
+                            [in_tensor],
+                            ktype="symmetric")
+
+
+def hswish(params,
+           in_tensors,
+           qrec: QuantizationRecordBase,
+           details=None):
+
+    if isinstance(qrec, MultQuantizationRecord):
+        return hswish_mult(params, in_tensors, qrec, details=details)
+
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="symmetric")[0]
+
+    calc_q = QType(bits=32, q=qrec.in_qs[0].q + 15, signed=True)
+    fac_1 = qrec.in_qs[0].quantize(np.array([3.]))
+    fac_2 = (1 << 15) // 6
+    upper_bound = qrec.in_qs[0].quantize([6.])
+    lower_bound = qrec.in_qs[0].quantize([0.])
+    in_tensor = in_tensor.astype(np.int32)
+    in_tensor = at_norm(np.multiply(np.minimum(np.maximum(in_tensor + fac_1, lower_bound), upper_bound),
+                                    in_tensor,
+                                    dtype=np.int32), qrec.in_qs[0].q)
+    return qrec.get_outputs(params,
+                            [qrec.out_qs[0].reduce_from(np.multiply(
+                                in_tensor, fac_2, dtype=np.int32), calc_q)],
+                            ktype="symmetric")
diff --git a/tools/nntool/quantization/symmetric/kernels/fast_conv.py b/tools/nntool/quantization/symmetric/kernels/fast_conv.py
new file mode 100644
index 000000000..9088b026f
--- /dev/null
+++ b/tools/nntool/quantization/symmetric/kernels/fast_conv.py
@@ -0,0 +1,139 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+import numpy as np
+
+from quantization.quantization_record_base import \
+    ScalableFilterQuantizationRecordBase
+
+FORCE_INT64 = False
+
+# pylint: disable=invalid-name
+
+LOG = logging.getLogger("nntool." + __name__)
+
+def faster_conv(params,
+                in_tensors,
+                qrec: ScalableFilterQuantizationRecordBase,
+                details=None):
+    '''3D convolution by sub-matrix summing.
+    '''
+    in_dims = params.in_dims[0]
+    out_dims = params.out_dims[0]
+    weights = qrec.prepare_weights(params, params.weights, ktype="symmetric")
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="symmetric")[0]
+
+    if details is not None:
+        details['min_acc'] = float("Infinity")
+        details['max_acc'] = float("-Infinity")
+
+    in_tensor = in_tensor.transpose(in_dims.transpose_to_order(['h', 'w', 'c']))
+    if params.padding.h + params.padding.w > 0:
+        if hasattr(qrec.in_qs[0], 'zero_point'):
+            const_pad = qrec.in_qs[0].zero_point[0]
+        else:
+            const_pad = 0
+        in_tensor = np.pad(in_tensor,
+                           ([params.padding.t,
+                             params.padding.b],
+                            [params.padding.l,
+                             params.padding.r])
+                           + ([0, 0], ) * (np.ndim(in_tensor)-2),
+                           mode='constant',
+                           constant_values=const_pad)
+        pad_w = params.padding.w
+        pad_h = params.padding.h
+    else:
+        pad_w = pad_h = 0
+
+    weights = weights.transpose(params.filter.transpose_to_order(['out_c', 'h', 'w', 'in_c']))
+
+    filt_w = params.filter.w
+    filt_h = params.filter.h
+
+    in_w = in_dims.w
+    in_h = in_dims.h
+    out_c = params.filter.out_c
+
+    in_c_per_group = in_dims.c // params.groups
+    out_c_per_group = out_c // params.groups
+    in_c_off = 0
+    out_c_cnt = 0
+
+
+    dillated_filter_w = filt_w if params.dilation.w == 1 else filt_w * params.dilation.w - 1
+    dillated_filter_h = filt_h if params.dilation.h == 1 else filt_w * params.dilation.h - 1
+
+    out_w = ((in_w - dillated_filter_w + pad_w)) // params.stride.w + 1
+    out_h = ((in_h - dillated_filter_h + pad_h)) // params.stride.h + 1
+
+    if params.has_bias:
+        biases = qrec.prepare_biases(params, params.biases, params.weights, ktype="symmetric")
+        if qrec.acc_q != qrec.biases_q:
+            biases = qrec.acc_q.expand_from(biases, qrec.biases_q)
+        result = np.ones((out_c, out_h, out_w),
+                         dtype=qrec.acc_q.dtype) * biases.reshape(out_c, 1, 1)
+    else:
+        result = np.zeros((out_c, out_h, out_w),
+                          dtype=qrec.acc_q.dtype)
+
+    const_h = pad_h + in_h - dillated_filter_h + 1
+    const_w = pad_w + in_w - dillated_filter_w + 1
+    if FORCE_INT64:
+        result = result.astype(np.int64)
+    for out_c_i in range(out_dims.c):
+        for cur_h in range(filt_h):
+            for cur_w in range(filt_w):
+
+                # selects all elements that the filter element needs to multiply
+                slabhw = np.multiply(in_tensor[cur_h * params.dilation.h:
+                                               const_h + cur_h * params.dilation.h:
+                                               params.stride.h,
+                                               cur_w * params.dilation.w:
+                                               const_w + cur_w * params.dilation.w:
+                                               params.stride.w,
+                                               in_c_off:
+                                               in_c_off + in_c_per_group:
+                                               1],
+                                     weights[out_c_i, cur_h, cur_w],
+                                     dtype=np.int64 if FORCE_INT64 else qrec.calc_q.dtype)
+
+                if qrec.calc_q != qrec.acc_q:
+                    slabhw = qrec.acc_q.reduce_from(slabhw, qrec.calc_q)
+
+                # add depthwise
+                slabhw = slabhw.sum(axis=-1, dtype=np.int64 if FORCE_INT64 else qrec.calc_q.dtype)
+                # add to the previous filter elements
+                result[out_c_i] += slabhw
+
+                if details is not None:
+                    details['min_acc'] = min(np.min(result[out_c_i]), details['min_acc'])
+                    details['max_acc'] = max(np.max(result[out_c_i]), details['max_acc'])
+
+        out_c_cnt += 1
+        if out_c_cnt >= out_c_per_group:
+            out_c_cnt = 0
+            in_c_off += in_c_per_group
+
+    result = qrec.apply_multiplicative_bias(params, result, 0, ktype="symmetric")
+
+    result = result.transpose(out_dims.transpose_from_order(['c', 'h', 'w']))
+
+    if qrec.out_qs[0] != qrec.acc_q:
+        result = qrec.out_qs[0].reduce_from(result, qrec.acc_q)
+
+    return qrec.get_outputs(params, [result], ktype="symmetric")
diff --git a/tools/nntool/quantization/symmetric/kernels/image_format.py b/tools/nntool/quantization/symmetric/kernels/image_format.py
new file mode 100644
index 000000000..bd89bca57
--- /dev/null
+++ b/tools/nntool/quantization/symmetric/kernels/image_format.py
@@ -0,0 +1,25 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from utils.formatters import FORMAT_CHANGES, NORMALIZATIONS
+
+def image_format(params, in_tensors, qrec, details):
+    del qrec, details
+    in_dim = params.in_dims[0]
+    out_dim = params.out_dims[0]
+    res = in_tensors[0]
+    res = FORMAT_CHANGES[params.format_change](res, in_dim, out_dim)
+    res = NORMALIZATIONS[params.norm_func](res)
+    return [res]
diff --git a/tools/nntool/quantization/symmetric/kernels/linear.py b/tools/nntool/quantization/symmetric/kernels/linear.py
new file mode 100644
index 000000000..8af128830
--- /dev/null
+++ b/tools/nntool/quantization/symmetric/kernels/linear.py
@@ -0,0 +1,87 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+import numpy as np
+
+from quantization.quantization_record_base import ScalableFilterQuantizationRecordBase
+
+LOG = logging.getLogger("nntool." + __name__)
+
+
+def linear(params,
+           in_tensors,
+           qrec: ScalableFilterQuantizationRecordBase,
+           details=None):
+
+    in_dims = params.in_dims[0]
+    out_dims = params.out_dims[0]
+    weights = qrec.prepare_weights(params, params.weights, ktype="symmetric")
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="symmetric")[0]
+
+    if details is not None:
+        details['min_acc'] = float("Infinity")
+        details['max_acc'] = float("-Infinity")
+
+    if params.has_bias:
+        biases = qrec.prepare_biases(params, params.biases, params.weights, ktype="symmetric")
+        if qrec.acc_q != qrec.biases_q:
+            biases = qrec.acc_q.expand_from(biases, qrec.biases_q)
+        acc_tensor = np.ones((out_dims.c, out_dims.h, out_dims.w),
+                             dtype=qrec.acc_q.dtype) * biases.reshape((out_dims.c, out_dims.h, out_dims.w))
+        acc_tensor = acc_tensor.transpose(out_dims.transpose_from_order(('c', 'h', 'w')))
+    else:
+        acc_tensor = np.zeros(out_dims.shape,
+                              dtype=qrec.acc_q.dtype)
+
+    # force the bit dimension of the input tensor to the bit width of the calc
+    # so that the dot product occurs in this precision
+    in_tensor = in_tensor.astype(qrec.calc_q.dtype)
+
+    in_tensor = in_tensor.reshape((in_dims.size()))
+    filt = params.filter.get_filter_dims()
+    for out_c in range(out_dims.c):
+        # Expand and normalize the accumulator
+        if qrec.calc_q != qrec.acc_q:
+            acc_tensor = qrec.calc_q.expand_from(acc_tensor, qrec.acc_q)
+
+        w_slice = weights[filt.srange(out_c=out_c)].reshape((in_dims.size()))
+
+        res = np.dot(in_tensor, w_slice)
+
+        if details is not None:
+            details['min_acc'] = min(np.sum(res[res < 0]), details['min_acc'])
+            details['max_acc'] = min(np.sum(res[res > 0]), details['max_acc'])
+
+        acc_slice = acc_tensor[out_dims.srange(c=out_c, h=0, w=0)]
+        acc_slice += res
+
+        if qrec.calc_q != qrec.acc_q:
+            acc_tensor = qrec.acc_q.reduce_from(acc_tensor, qrec.calc_q)
+
+        if details is not None:
+            details['min_acc'] = min(np.min(acc_slice), details['min_acc'])
+            details['max_acc'] = max(np.max(acc_slice), details['max_acc'])
+
+    # details['acc_before'] = acc_tensor.copy()
+    acc_tensor = qrec.apply_multiplicative_bias(
+        params, acc_tensor, out_dims.get_order_idx('c'), ktype="symmetric")
+    # details['acc_after'] = acc_tensor.copy()
+
+    if qrec and qrec.out_qs[0] != qrec.acc_q:
+        acc_tensor = qrec.out_qs[0].reduce_from(acc_tensor, qrec.acc_q)
+
+    return qrec.get_outputs(params, [acc_tensor], ktype="symmetric")
diff --git a/tools/nntool/quantization/symmetric/kernels/matrix_operations.py b/tools/nntool/quantization/symmetric/kernels/matrix_operations.py
new file mode 100644
index 000000000..0e5aefbf9
--- /dev/null
+++ b/tools/nntool/quantization/symmetric/kernels/matrix_operations.py
@@ -0,0 +1,131 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+import numpy as np
+
+from graph.types import (MatrixAddParameters, MatrixDivParameters,
+                         MatrixMulParameters, MatrixSubParameters)
+from quantization.multiplicative.mult_quantization import (
+    MultAddQuantizationRecord, MultQuantizationRecord)
+from quantization.qtype import QType
+from quantization.quantization_record_base import QuantizationRecordBase
+from utils.at_norm import at_norm
+
+PIECEWISE_OPS = {
+    MatrixAddParameters: {'op': lambda x, y, dtype: x + y, 'is_mult': False},
+    MatrixMulParameters: {'op': lambda x, y, dtype: np.multiply(x, y, dtype=dtype), 'is_mult': True},
+    MatrixSubParameters: {'op': lambda x, y, dtype: x - y, 'is_mult': False},
+    MatrixDivParameters: {'op': lambda x, y, dtype: x / y, 'is_mult': True},
+}
+
+LOG = logging.getLogger("nntool." + __name__)
+
+
+def piecewise_mult(params,
+                   in_tensors,
+                   qrec: MultQuantizationRecord,
+                   details=None):
+    del details
+    in_tensors = qrec.prepare_inputs(params, in_tensors, ktype="symmetric")
+    func = PIECEWISE_OPS[params.__class__]
+    op = func['op']
+    if func['is_mult']:
+        qrec.set_scale(in_idx=(0, 1), out_idx=0)
+        i1 = in_tensors[0].astype(np.int32)
+        i2 = in_tensors[1].astype(np.int32)
+        res = qrec.scale_mul_biases_q.apply_scales(op(i1, i2, np.int32))
+    else:
+        # larger scale should be scaled
+        qrec.set_add_scale()
+        if qrec.scaled_idx:
+            i1 = in_tensors[0].astype(np.int32)
+            i2 = qrec.scale_in_mul_biases_q.apply_scales(in_tensors[1])
+        else:
+            i1 = qrec.scale_in_mul_biases_q.apply_scales(in_tensors[0])
+            i2 = in_tensors[1].astype(np.int32)
+
+        res = qrec.scale_mul_biases_q.apply_scales(op(i1, i2, None))
+    return qrec.get_outputs(params, [qrec.out_qs[0].clip(res)], ktype="symmetric")
+
+
+def piecewise(params,
+              in_tensors,
+              qrec: QuantizationRecordBase,
+              details=None):
+
+    if isinstance(qrec, (MultQuantizationRecord, MultAddQuantizationRecord)):
+        return piecewise_mult(params, in_tensors, qrec, details=details)
+
+    in_tensors = qrec.prepare_inputs(params, in_tensors, ktype="symmetric")
+    func = PIECEWISE_OPS[params.__class__]
+    op = func['op']
+    if func['is_mult']:
+        i1 = in_tensors[0].astype(np.int32)
+        i2 = in_tensors[1].astype(np.int32)
+        res = op(i1, i2, np.int32)
+    else:
+        off_in = abs(qrec.in_qs[0].q - qrec.in_qs[1].q)
+        if qrec.in_qs[0].q > qrec.in_qs[1].q:
+            i1 = at_norm(in_tensors[0].astype(np.int32), off_in)
+            i2 = in_tensors[1].astype(np.int32)
+        else:
+            i1 = in_tensors[0].astype(np.int32)
+            i2 = at_norm(in_tensors[1].astype(np.int32), off_in)
+        res = op(i1, i2, None)
+    return qrec.get_outputs(params, [res], ktype="symmetric")
+
+
+def matscale3(in_tensors, qrec):
+    assert qrec.in_qs[0].bits == qrec.in_qs[1].bits
+    assert qrec.in_qs[1].bits == qrec.in_qs[2].bits
+    if qrec.in_qs[0].bits == 8:
+        q_calc = QType(bits=32, q=qrec.in_qs[0].q + qrec.in_qs[1].q + qrec.in_qs[2].q, signed=True)
+        res = np.multiply(np.multiply(in_tensors[0], in_tensors[1],
+                                      dtype=np.int32),
+                          in_tensors[2],
+                          dtype=np.int32)
+        res = qrec.out_qs[0].reduce_from(res, q_calc)
+    elif qrec.in_qs[0].bits == 16:
+        q_calc = QType(bits=32, q=qrec.in_qs[0].q + qrec.in_qs[1].q, signed=True)
+        res = np.multiply(in_tensors[0], in_tensors[1], dtype=np.int32)
+        res = qrec.out_qs[0].reduce_from(res, q_calc)
+        q_calc = QType(bits=32, q=qrec.in_qs[2].q + qrec.out_qs[0].q, signed=True)
+        res = np.multiply(res, in_tensors[2], dtype=np.int32)
+        res = qrec.out_qs[0].reduce_from(res, q_calc)
+    return res
+
+
+def matscale2(in_tensors, qrec=None):
+    assert qrec.in_qs[0].bits == qrec.in_qs[1].bits
+    q_calc = QType(bits=32, q=qrec.in_qs[0].q + qrec.in_qs[1].q, signed=True)
+    res = np.multiply(in_tensors[0], in_tensors[1], dtype=np.int32)
+    res = qrec.out_qs[0].reduce_from(res, q_calc)
+    return res
+
+
+def matscale(params,
+             in_tensors,
+             qrec: QuantizationRecordBase,
+             details=None):
+    del details
+    in_tensors = qrec.prepare_inputs(params, in_tensors, ktype="symmetric")
+    LOG.debug("matscale input %s", ",".join([t.dtype.name for t in in_tensors]))
+    if len(params.in_dims) == 3:
+        output_tensor = matscale3(in_tensors, qrec)
+    else:
+        output_tensor = matscale2(in_tensors, qrec)
+    return qrec.get_outputs(params, [output_tensor], ktype="symmetric")
diff --git a/tools/nntool/quantization/symmetric/kernels/pad.py b/tools/nntool/quantization/symmetric/kernels/pad.py
new file mode 100644
index 000000000..1a339671d
--- /dev/null
+++ b/tools/nntool/quantization/symmetric/kernels/pad.py
@@ -0,0 +1,29 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import numpy as np
+
+from quantization.quantization_record_base import QuantizationRecordBase
+
+
+def pad(params,
+        in_tensors,
+        qrec: QuantizationRecordBase,
+        details=None):
+    del qrec, details
+    if params.pad_type == "zero":
+        return [np.pad(in_tensors[0], params.padding.numpy_pad_shape(params.in_dims[0]),
+                       'constant', constant_values=0)]
+    raise NotImplementedError()
diff --git a/tools/nntool/quantization/symmetric/kernels/pool.py b/tools/nntool/quantization/symmetric/kernels/pool.py
new file mode 100644
index 000000000..3a151df4e
--- /dev/null
+++ b/tools/nntool/quantization/symmetric/kernels/pool.py
@@ -0,0 +1,188 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+
+import numpy as np
+
+from quantization.multiplicative.mult_quantization import \
+    MultQuantizationRecord
+from quantization.quantization_record_base import QuantizationRecordBase
+from utils.at_norm import at_norm
+
+LOG = logging.getLogger("nntool." + __name__)
+
+# pylint: disable=too-many-arguments, too-many-locals
+
+
+def av_pool(params,
+            in_tensors,
+            qrec: QuantizationRecordBase,
+            details=None):
+    del details
+    # Prepare the quantization levels
+
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="symmetric")[0]
+    in_dims = params.in_dims[0]
+    out_dims = params.out_dims[0]
+    filter_sz = params.filter.h * params.filter.w
+
+    pool_factor = (1 << 16)//filter_sz
+
+    out_tensor = np.zeros(out_dims.shape, dtype=np.int32)
+
+    if params.padding.h + params.padding.w > 0:
+        in_tensor = np.pad(in_tensor,
+                           params.padding.numpy_pad_shape(in_dims),
+                           mode='constant',
+                           constant_values=qrec.in_qs[0].pad_zero_point)
+        pad_w = params.padding.w
+        pad_h = params.padding.h
+    else:
+        pad_w = pad_h = 0
+
+    for in_c in range(out_dims.c):
+
+        out_h = 0
+        for h_idx in range(0, in_dims.h - params.filter.h + pad_h + 1,
+                           params.stride.h):
+            out_w = 0
+            for w_idx in range(0, in_dims.w - params.filter.w + pad_w + 1,
+                               params.stride.w):
+                # accumulate - potentially with different Q
+                in_slice_args = in_dims.srange(c=[in_c, in_c + 1, 1],
+                                               h=[h_idx, h_idx + params.filter.h, 1],
+                                               w=[w_idx, w_idx + params.filter.w, 1])
+
+                sum_filter = np.sum(in_tensor[in_slice_args], dtype=np.int32)
+                sum_filter = np.multiply(sum_filter, pool_factor, dtype=np.int32)
+                out_tensor[out_dims.srange(c=in_c, h=out_h, w=out_w)] = sum_filter
+                out_w += 1
+            out_h += 1
+
+    return qrec.get_outputs(params, [qrec.out_qs[0].clip(at_norm(out_tensor, 16), qrec.out_qs[0].dtype)], ktype="symmetric")
+
+
+def max_pool(params,
+             in_tensors,
+             qrec: QuantizationRecordBase,
+             details=None):
+
+    del details
+    # Prepare the quantization levels
+
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="symmetric")[0]
+    in_dims = params.in_dims[0]
+    out_dims = params.out_dims[0]
+
+    out_tensor = np.zeros(out_dims.shape, dtype=qrec.out_qs[0].dtype)
+
+    if params.padding.h + params.padding.w > 0:
+        in_tensor = np.pad(in_tensor,
+                           params.padding.numpy_pad_shape(in_dims),
+                           mode='constant',
+                           constant_values=qrec.in_qs[0].pad_zero_point)
+        pad_w = params.padding.w
+        pad_h = params.padding.h
+    else:
+        pad_w = pad_h = 0
+
+    for in_c in range(out_dims.c):
+        out_h = 0
+        for h_idx in range(0, in_dims.h - params.filter.h + pad_h + 1,
+                           params.stride.h):
+            out_w = 0
+            for w_idx in range(0, in_dims.w - params.filter.w + pad_w + 1,
+                               params.stride.w):
+                # accumulate - potentially with different Q
+                out_slice_args = out_dims.srange(c=in_c, h=out_h, w=out_w)
+                in_slice_args = in_dims.srange(c=[in_c, in_c + 1, 1],
+                                               h=[h_idx, h_idx + params.filter.h, 1],
+                                               w=[w_idx, w_idx + params.filter.w, 1])
+
+                out_tensor[out_slice_args] = np.max(in_tensor[in_slice_args].view(np.ndarray))
+                out_w += 1
+            out_h += 1
+
+    return qrec.get_outputs(params, [out_tensor], ktype="symmetric")
+
+
+def gap_clb(sum_):
+    '''Count Leading 0s or 1s'''
+    sum_bin = [np.binary_repr(sum_elem, width=32) for sum_elem in sum_]
+    return [len(s) - len(s.lstrip(s[0])) - 1 for s in sum_bin]
+
+
+def av_global_pool_mult(params,
+                        in_tensors,
+                        qrec: MultQuantizationRecord,
+                        details=None):
+
+    # Prepare the quantization levels
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="symmetric")[0]
+    in_dims = params.in_dims[0]
+    out_dims = params.out_dims[0]
+    qrec.set_scale(in_idx=0, out_idx=0)
+
+    sum_by_chan = np.sum(in_tensor, dtype=np.int32, axis=(
+        in_dims.get_order_idx('w'), in_dims.get_order_idx('h')))
+
+    res = at_norm((sum_by_chan << 7) // (in_dims.h * in_dims.w), 7)
+    res = out_tensor = qrec.scale_mul_biases_q.apply_scales(res)
+    return qrec.get_outputs(params,
+                            [out_tensor.reshape(out_dims.shape)],
+                            ktype="symmetric")
+
+
+def av_global_pool(params,
+                   in_tensors,
+                   qrec: QuantizationRecordBase,
+                   details=None):
+
+    if isinstance(qrec, MultQuantizationRecord):
+        return av_global_pool_mult(params, in_tensors, qrec, details=details)
+
+    # Prepare the quantization levels
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="symmetric")[0]
+    in_dims = params.in_dims[0]
+    out_dims = params.out_dims[0]
+
+    sum_by_chan = np.sum(in_tensor, dtype=np.int32, axis=(
+        in_dims.get_order_idx('w'), in_dims.get_order_idx('h')))
+
+    norm = (np.array([31], dtype=np.int32) - gap_clb(sum_by_chan)).astype(np.int32)
+    inv_wh = (1 << norm) // (in_dims.h * in_dims.w)
+    out_tensor = at_norm((inv_wh * sum_by_chan), norm)
+    return qrec.get_outputs(params,
+                            [qrec.out_qs[0].clip(out_tensor).reshape(out_dims.shape)],
+                            ktype="symmetric")
+
+
+def max_global_pool(params,
+                    in_tensors,
+                    qrec: QuantizationRecordBase,
+                    details=None):
+
+    del details
+
+    # Prepare the quantization levels
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="symmetric")[0]
+    if isinstance(qrec, MultQuantizationRecord):
+        qrec.set_scale(in_idx=0, out_idx=0)
+    in_dims = params.in_dims[0]
+    return qrec.get_outputs(params, [np.max(in_tensor,
+                                            axis=(in_dims.get_order_idx('w'),
+                                                  in_dims.get_order_idx('h')),
+                                            keepdims=True)], ktype="symmetric")
diff --git a/tools/nntool/quantization/symmetric/kernels/softmax.py b/tools/nntool/quantization/symmetric/kernels/softmax.py
new file mode 100644
index 000000000..085540cc3
--- /dev/null
+++ b/tools/nntool/quantization/symmetric/kernels/softmax.py
@@ -0,0 +1,58 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import numpy as np
+
+from quantization.quantization_record_base import QuantizationRecordBase
+from quantization.multiplicative.mult_quantization import MultQuantizationRecordBase
+from utils.exp_17_15 import exp_fp_17_15
+
+
+def softmax_func(v):
+    max_v = np.max(v)
+    v = v - max_v
+    return np.exp(v)/np.sum(np.exp(v))
+
+
+def softmax(params,
+            in_tensors,
+            qrec: QuantizationRecordBase,
+            details=None):
+    if isinstance(qrec, MultQuantizationRecordBase):
+        return softmax_sq8(params, in_tensors, qrec, details=details)
+
+    np.seterr(over='raise')
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="symmetric")[0]
+    # TODO - Implement properly quantized version
+    in_tensor = qrec.in_qs[0].dequantize(in_tensor)
+    return qrec.get_outputs(params, [qrec.out_qs[0].quantize(softmax_func(in_tensor))], ktype="symmetric")
+
+
+# void KerParSoftMax_SQ8(KerSoftMax_SQ8_T *Arg)
+def softmax_sq8(params,
+                in_tensors,
+                qrec: QuantizationRecordBase,
+                details=None):
+    del details
+    in_tensor = in_tensors[0].flatten()
+    max_val = np.max(in_tensor)
+    norm = 15 + np.ceil(np.log2(qrec.in_qs[0].scale)).astype(np.int32)
+    exp = exp_fp_17_15((in_tensor.astype(np.int32) - max_val) << (norm))
+    sum_exp = np.sum(exp)
+    inv_sum = (np.array([(1 << 15)-1], dtype=np.uint32) << 15)//sum_exp
+    res = np.abs((exp * inv_sum + (1 << 14)) >> 15)
+    iinfo = np.iinfo(np.int16)
+    res = np.clip(res, iinfo.min, iinfo.max).astype(np.int16).reshape(params.out_dims[0].shape)
+    return qrec.get_outputs(params, [res], ktype="symmetric")
diff --git a/tools/nntool/quantization/symmetric/kernels/tensor_functions.py b/tools/nntool/quantization/symmetric/kernels/tensor_functions.py
new file mode 100644
index 000000000..a77ea774a
--- /dev/null
+++ b/tools/nntool/quantization/symmetric/kernels/tensor_functions.py
@@ -0,0 +1,98 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import numpy as np
+from skimage.transform import resize
+
+from quantization.quantization_record_base import QuantizationRecordBase
+
+
+def graph_input(params,
+                in_tensors,
+                qrec: QuantizationRecordBase,
+                details=None):
+    del details
+    # all graph inputs are passed all of the inputs of the graph
+    # params.index indicates the index of the input that this node should output
+    in_tensor = in_tensors[params.index]
+    if in_tensor.size == params.dims.size():
+        in_tensor = in_tensor.reshape(params.dims.shape)
+    else:
+        in_tensor = resize(in_tensor, params.dims.shape)
+    if params.transpose_out:
+        in_tensor = np.transpose(in_tensor, params.transpose_out)
+    # output_tensors = qrec.get_outputs(params, [in_tensor], ktype="symmetric")
+    return [qrec.out_qs[0].quantize(in_tensor)]
+
+
+def graph_output(params,
+                 in_tensors,
+                 qrec: QuantizationRecordBase,
+                 details=None):
+    del details, qrec
+    in_tensor = in_tensors[0]
+    if params.transpose_in:
+        in_tensor = np.transpose(in_tensor, params.transpose_in)
+    return [in_tensor]
+
+
+def constant_input(params,
+                   in_tensors,
+                   qrec: QuantizationRecordBase,
+                   details=None):
+    del in_tensors, details
+    # output_tensors = qrec.get_outputs(params, [params.value], ktype="symmetric")
+    return [qrec.out_qs[0].quantize(params.value)]
+
+
+def concat(params,
+           in_tensors,
+           qrec: QuantizationRecordBase,
+           details=None):
+    del details
+    in_tensors = qrec.prepare_inputs(params, in_tensors, ktype="symmetric")
+    assert all(qrec.in_qs[0] == qrec.in_qs[idx]
+               for idx in range(1, len(qrec.in_qs))), "input is incorrectly quantized"
+    if params.transpose_in:
+        in_tensors = [np.transpose(qrec.in_tensor, params.transpose_in) for in_tensor in in_tensors]
+    out_tensor = np.concatenate(in_tensors, params.axis)
+    if params.transpose_out:
+        out_tensor = np.transpose(out_tensor, params.transpose_out)
+    return qrec.get_outputs(params, [out_tensor], ktype="symmetric")
+
+
+def reshape(params,
+            in_tensors,
+            qrec: QuantizationRecordBase,
+            details=None):
+    del details
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="symmetric")[0]
+    if params.transpose_in:
+        in_tensor = np.transpose(in_tensor, params.transpose_in)
+    in_tensor = np.reshape(in_tensor, params.shape)
+    if params.transpose_out:
+        in_tensor = np.transpose(in_tensor, params.transpose_out)
+    return qrec.get_outputs(params, [in_tensor], ktype="symmetric")
+
+
+def transpose(params,
+              in_tensors,
+              qrec: QuantizationRecordBase,
+              details=None):
+    del details
+    in_tensor = qrec.prepare_inputs(params, in_tensors, ktype="symmetric")[0]
+    if params.transpose_in:
+        in_tensor = np.transpose(in_tensor, params.transpose_in)
+    return qrec.get_outputs(params, [in_tensor], ktype="symmetric")
diff --git a/tools/nntool/quantization/symmetric/symmetric_kernet_set.py b/tools/nntool/quantization/symmetric/symmetric_kernet_set.py
new file mode 100644
index 000000000..099827288
--- /dev/null
+++ b/tools/nntool/quantization/symmetric/symmetric_kernet_set.py
@@ -0,0 +1,130 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from quantization.kernels.kernel_function import (KernelFunction,
+                                                  KernelFunctionSetBase)
+from quantization.symmetric.kernels.activations import relu, hswish, hsigmoid, leaky
+from quantization.symmetric.kernels.fast_conv import faster_conv
+from quantization.symmetric.kernels.linear import linear
+from quantization.symmetric.kernels.matrix_operations import (matscale,
+                                                              piecewise)
+from quantization.symmetric.kernels.pad import pad
+from quantization.symmetric.kernels.pool import (av_global_pool, av_pool,
+                                                 max_global_pool, max_pool)
+from quantization.symmetric.kernels.softmax import softmax
+from quantization.symmetric.kernels.tensor_functions import (concat,
+                                                             constant_input,
+                                                             graph_input, graph_output,
+                                                             reshape,
+                                                             transpose)
+from quantization.symmetric.kernels.image_format import image_format
+
+
+class SymmetricKernelSet(KernelFunctionSetBase):
+    @property
+    def graph_input(self) -> KernelFunction:
+        return graph_input
+
+    @property
+    def graph_output(self) -> KernelFunction:
+        return graph_output
+
+    @property
+    def constant_input(self) -> KernelFunction:
+        return constant_input
+
+    @property
+    def relu(self) -> KernelFunction:
+        return relu
+
+    @property
+    def leaky(self) -> KernelFunction:
+        return leaky
+
+    @property
+    def hswish(self) -> KernelFunction:
+        return hswish
+
+    @property
+    def hsigmoid(self) -> KernelFunction:
+        return hsigmoid
+
+    @property
+    def matscale(self) -> KernelFunction:
+        return matscale
+
+    @property
+    def matadd(self) -> KernelFunction:
+        return piecewise
+
+    @property
+    def matsub(self) -> KernelFunction:
+        return piecewise
+
+    @property
+    def matdiv(self) -> KernelFunction:
+        return piecewise
+
+    @property
+    def matmul(self) -> KernelFunction:
+        return piecewise
+
+    @property
+    def conv2d(self) -> KernelFunction:
+        return faster_conv
+
+    @property
+    def linear(self) -> KernelFunction:
+        return linear
+
+    @property
+    def softmax(self) -> KernelFunction:
+        return softmax
+
+    @property
+    def reshape(self) -> KernelFunction:
+        return reshape
+
+    @property
+    def transpose(self) -> KernelFunction:
+        return transpose
+
+    @property
+    def concat(self) -> KernelFunction:
+        return concat
+
+    @property
+    def av_pool(self) -> KernelFunction:
+        return av_pool
+
+    @property
+    def av_global_pool(self) -> KernelFunction:
+        return av_global_pool
+
+    @property
+    def max_pool(self) -> KernelFunction:
+        return max_pool
+
+    @property
+    def max_global_pool(self) -> KernelFunction:
+        return max_global_pool
+
+    @property
+    def pad(self) -> KernelFunction:
+        return pad
+
+    @property
+    def image_format(self) -> KernelFunction:
+        return image_format
diff --git a/tools/nntool/quantization/symmetric/symmetric_quantization.py b/tools/nntool/quantization/symmetric/symmetric_quantization.py
new file mode 100644
index 000000000..2fe86f028
--- /dev/null
+++ b/tools/nntool/quantization/symmetric/symmetric_quantization.py
@@ -0,0 +1,208 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+from typing import Sequence
+
+import numpy as np
+
+from graph.types import (Conv2DParameters, MatrixAddParameters,
+                         MatrixDivParameters, MatrixMulParameters,
+                         MatrixSubParameters, MultiplicativeBiasParameters,
+                         Parameters)
+from quantization.qtype import QType
+from quantization.quantization_record_base import (
+    FilterQuantizationRecordBase, InputOutputQuantizationRecordBase,
+    ScalableFilterQuantizationRecordBase)
+from utils.at_norm import at_norm
+
+
+class SymmetricQuantizationBase(InputOutputQuantizationRecordBase):
+    def __init__(self, *args, auto_quantize_inputs=False, auto_dequantize_outputs=False, **kwargs):
+        super(SymmetricQuantizationBase, self).__init__(*args, **kwargs)
+        self._auto_quantize_inputs = auto_quantize_inputs
+        self._auto_dequantize_outputs = auto_dequantize_outputs
+
+    def dequantize_as(self, tensor: np.ndarray, key_name: str, idx: int = None) -> np.ndarray:
+        qtype = self._info[key_name]
+        if idx:
+            qtype = qtype[idx]
+        return qtype.dequantize(tensor)
+
+    def quantize_as(self, tensor: np.ndarray, key_name: str, idx: int = None) -> np.ndarray:
+        qtype = self._info[key_name]
+        if idx:
+            qtype = qtype[idx]
+        return qtype.quantize(tensor)
+
+    @property
+    def auto_quantize_inputs(self):
+        return self._auto_quantize_inputs
+
+    @auto_quantize_inputs.setter
+    def auto_quantize_inputs(self, val):
+        self._auto_quantize_inputs = val
+
+    @property
+    def auto_dequantize_outputs(self):
+        return self._auto_dequantize_outputs
+
+    @auto_dequantize_outputs.setter
+    def auto_dequantize_outputs(self, val):
+        self._auto_dequantize_outputs = val
+
+    def prepare_inputs(self, params: Parameters,
+                       input_tensors: Sequence[np.ndarray], ktype: str = None) -> Sequence[np.ndarray]:
+        del params
+        if ktype == "symmetric" and self._auto_quantize_inputs:
+            return [self.in_qs[idx].quantize(input_tensor) for idx, input_tensor in enumerate(input_tensors)]
+        return input_tensors
+
+    def get_outputs(self, params: Parameters,
+                    output_tensors: Sequence[np.ndarray], ktype: str = None) -> Sequence[np.ndarray]:
+        if ktype == "symmetric":
+            if isinstance(params, (MatrixAddParameters, MatrixSubParameters)):
+                q_calc = QType(bits=32, q=min(self.in_qs[0].q, self.in_qs[1].q), signed=True)
+                output_tensors = [self.out_qs[0].reduce_from(output_tensors[0], q_calc)]
+            elif isinstance(params, (MatrixMulParameters, MatrixDivParameters)):
+                q_calc = QType(bits=32, q=self.in_qs[0].q+self.in_qs[1].q, signed=True)
+                output_tensors = [self.out_qs[0].reduce_from(output_tensors[0], q_calc)]
+            if self._auto_dequantize_outputs:
+                return [self.out_qs[idx].dequantize(output_tensor) for idx, output_tensor in enumerate(output_tensors)]
+        return output_tensors
+
+
+class SymmetricQuantizationRecord(SymmetricQuantizationBase):
+    pass
+
+
+class FilterSymmetricQuantizationBase(SymmetricQuantizationBase):
+    @property
+    def calc_q(self) -> QType:
+        return self._info.get('calc_q')
+
+    @property
+    def acc_q(self) -> QType:
+        return self._info.get('acc_q')
+
+    @property
+    def biases_q(self) -> QType:
+        return self._info.get('biases_q')
+
+    @property
+    def weights_q(self) -> QType:
+        return self._info.get('weights_q')
+
+    @calc_q.setter
+    def calc_q(self, val: QType):
+        self._info['calc_q'] = val
+
+    @acc_q.setter
+    def acc_q(self, val: QType):
+        self._info['acc_q'] = val
+
+    @biases_q.setter
+    def biases_q(self, val: QType):
+        self._info['biases_q'] = val
+
+    @weights_q.setter
+    def weights_q(self, val: QType):
+        self._info['weights_q'] = val
+
+    def gen_weights(self, params, weights: np.ndarray) -> np.ndarray:
+        return self.quantize_as(weights, 'weights_q')
+
+    def gen_biases(self, params: Parameters, biases: np.ndarray, weights: np.ndarray) -> np.ndarray:
+        del params, weights
+        return self.quantize_as(biases, 'biases_q')
+
+    def prepare_weights(self, params: Parameters, weights: np.ndarray, ktype: str = None) -> np.ndarray:
+        if ktype == "symmetric":
+            return self.gen_weights(params, weights)
+        if ktype == "float32":
+            return weights
+        raise NotImplementedError()
+
+    def prepare_biases(self, params: Parameters, biases: np.ndarray,
+                       weights: np.ndarray, ktype: str = None) -> np.ndarray:
+        if ktype == "symmetric":
+            return self.gen_biases(params, biases, weights)
+        if ktype == "float32":
+            return biases
+        raise NotImplementedError()
+
+
+class SymmetricFilterQuantizationRecord(FilterSymmetricQuantizationBase, FilterQuantizationRecordBase):
+    def __init__(self, *args,
+                 weights_q: QType = None,
+                 biases_q: QType = None,
+                 calc_q: QType = None,
+                 acc_q: QType = None,
+                 info=None,
+                 **kwargs):
+        super(SymmetricFilterQuantizationRecord, self).__init__(*args, info=info, **kwargs)
+        if info is None:
+            self._info['calc_q'] = calc_q
+            self._info['acc_q'] = acc_q
+            self._info['biases_q'] = biases_q
+            self._info['weights_q'] = weights_q
+            self._info['weights_q'] = weights_q
+
+
+class SymmetricScalableFilterQuantizationRecord(FilterSymmetricQuantizationBase, ScalableFilterQuantizationRecordBase):
+    def __init__(self, *args,
+                 weights_q: QType = None,
+                 biases_q: QType = None,
+                 mul_biases_q: QType = None,
+                 calc_q: QType = None,
+                 acc_q: QType = None,
+                 info=None,
+                 **kwargs):
+        super(SymmetricScalableFilterQuantizationRecord, self).__init__(*args, info=info, **kwargs)
+        if info is None:
+            self._info['calc_q'] = calc_q
+            self._info['acc_q'] = acc_q
+            self._info['biases_q'] = biases_q
+            self._info['weights_q'] = weights_q
+            self._info['mul_biases_q'] = mul_biases_q
+            self._info['weights_q'] = weights_q
+
+    @property
+    def mul_biases_q(self) -> QType:
+        return self._info.get('mul_biases_q')
+
+    @mul_biases_q.setter
+    def mul_biases_q(self, val: QType):
+        self._info['mul_biases_q'] = val
+
+    def gen_mul_biases(self, params: MultiplicativeBiasParameters) -> np.ndarray:
+        if params.has_mul_bias:
+            return self.quantize_as(params.mul_biases, 'mul_biases_q')
+        return None
+
+    def apply_multiplicative_bias(self, params: Conv2DParameters, input_tensor: np.ndarray,
+                                  axis: int, ktype: str = None):
+        if ktype == "symmetric":
+            if params.has_mul_bias:
+                mul_biases = self.quantize_as(params.mul_biases, 'mul_biases_q')
+                shape = [params.filter.out_c if idx == axis else 1 for idx in range(3)]
+                input_tensor *= mul_biases.reshape(shape)
+                input_tensor = at_norm(input_tensor, self.mul_biases_q.q)
+            return input_tensor
+        if ktype == "float32":
+            if params.has_mul_bias:
+                shape = [params.filter.out_c if idx == axis else 1 for idx in range(3)]
+                input_tensor *= params.mul_biases.reshape(shape)
+            return input_tensor
+        raise NotImplementedError()
diff --git a/tools/nntool/quantization/symmetric/symmetric_quantizer.py b/tools/nntool/quantization/symmetric/symmetric_quantizer.py
new file mode 100644
index 000000000..6aa86c4bd
--- /dev/null
+++ b/tools/nntool/quantization/symmetric/symmetric_quantizer.py
@@ -0,0 +1,607 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+from collections import OrderedDict
+
+from graph.nngraph import NNGraph
+from graph.types import (ActivationParameters, ConcatParameters,
+                         ConstantInputParameters, Conv2DParameters,
+                         ConvFusionParameters, FcParameters, InputParameters,
+                         MatrixBroadcastedLinearOpParameters,
+                         MatScaleFusionParameters,
+                         MultiplicativeBiasParameters, Parameters,
+                         SoftMaxParameters)
+from quantization.qtype import QType
+from quantization.quantizer import Quantizer
+from quantization.quantization_set import QuantizationSet
+from quantization.symmetric.symmetric_quantization import (
+    SymmetricFilterQuantizationRecord, SymmetricQuantizationRecord,
+    SymmetricScalableFilterQuantizationRecord)
+from utils.json_serializable import JsonSerializable
+from utils.node_id import NodeId, convert_keys_to_str, convert_str_to_keys
+from utils.stats_funcs import STATS_BITS, bits, calc_bits
+
+LOG = logging.getLogger('nntool.' + __name__)
+
+
+class SymmetricQuantizer(Quantizer, JsonSerializable):
+    def __init__(self, activation_stats, filter_stats, min_qsnr=None, force_width=None):
+        self._activation_stats = activation_stats
+        self._filter_stats = filter_stats
+        self._min_qsnr = min_qsnr
+        self._force_width = force_width
+
+    # for tests
+    def __eq__(self, value):
+        return self._activation_stats == value._activation_stats and \
+            self._filter_stats == value._filter_stats and self._min_qsnr == value._min_qsnr and \
+            self._force_width == value._force_width
+
+    def _encapsulate(self):
+        return {
+            'activation_stats': convert_keys_to_str(self._activation_stats),
+            'filter_stats': convert_keys_to_str(self._filter_stats),
+            'min_qsnr': self._min_qsnr,
+            'force_width': self._force_width
+        }
+
+    @classmethod
+    def _dencapsulate(cls, val):
+        return SymmetricQuantizer(convert_str_to_keys(val['activation_stats']),
+                                  convert_str_to_keys(val['filter_stats']),
+                                  val['min_qsnr'],
+                                  val['force_width'])
+
+    # pylint: disable=too-many-locals
+    def calculate_filter_q(self,
+                           node: Parameters,
+                           astats,
+                           fstats,
+                           in_q: QType,
+                           min_qsnr=None,
+                           force_width=None,
+                           force_out=None,
+                           out_as_acc=False,
+                           biases_bits_as_acc=False):
+
+        w_q = self.get_quantization(fstats['weights'], min_qsnr, force_width)
+
+        calc_width = 32
+        calc_q = in_q.q + w_q.q
+
+        acc_bits = bits(astats['max_acc'], astats['min_acc'])
+        act_bits = bits(astats['max'], astats['min'])
+        act_acc_bits = max(acc_bits, act_bits)
+
+        calc_int_bits = calc_width - calc_q
+        if calc_int_bits < act_acc_bits:
+            # we don't have enough space for the integer portion so reduce the precision of
+            # the weights
+            missing_bits = act_acc_bits - calc_int_bits
+            # TODO - This needs improving
+            assert w_q.q >= missing_bits, "no space in weights to reduce precision"
+            w_q.q = w_q.q - missing_bits
+            calc_q = in_q.q + w_q.q
+            calc_int_bits = calc_width - calc_q
+
+        c_q = acc_q = QType(bits=calc_width, q=calc_q, signed=True)
+
+        if out_as_acc:
+            o_q = c_q
+            if 'biases' in fstats:
+                b_q = self.get_quantization(fstats['biases'], min_qsnr, force_width)
+            else:
+                b_q = o_q
+        else:
+            # The output size is requested to be force_out_width size
+            if force_out and force_out.bits:
+                # The output fixed point position is also forced
+                if force_out.q:
+                    if (force_out.bits - force_out.q) < act_acc_bits:
+                        # clipping so cannot completely satisfy
+                        o_q = QType(bits=force_out.bits,
+                                    q=force_out.bits - act_acc_bits,
+                                    signed=True)
+                    else:
+                        if force_out.q > calc_q:
+                            # We cannot shift left in the kernel
+                            # TODO - This should try to increase the input q
+                            # Unlikely to happen
+                            raise NotImplementedError()
+                        # We can satisfy the force
+                        o_q = QType(bits=force_out.bits,
+                                    q=force_out.q,
+                                    signed=True)
+                else:
+                    # Only the width is forced
+                    o_q = self.get_quantization(astats, None, force_out.bits)
+            else:
+                # The output width is not forced so calculate the output q normally
+                o_q = self.get_quantization(astats, min_qsnr, force_width)
+                if force_out and force_out.q:
+                    # The output fixed point position is forced
+                    if force_out.q > calc_q:
+                        # We cannot shift left in the kernel
+                        # TODO - This should try to increase the input q
+                        # Unlikely to happen
+                        raise NotImplementedError()
+                    o_q.q = force_out.q
+
+            if 'biases' in fstats:
+                if biases_bits_as_acc:
+                    b_q = self.get_quantization(fstats['biases'], None, calc_width)
+                else:
+                    # if we are forcing width then match the output size which might
+                    # have been promoted if the activation didn't fit
+                    b_q = self.get_quantization(fstats['biases'], None, o_q.bits)
+            else:
+                b_q = o_q
+        # make sure that the biases are not stored more precisily than the accumulator. It's pointless and will
+        # cause a negative shift
+        if b_q.q > acc_q.q:
+            b_q.q = acc_q.q
+
+        if isinstance(node, MultiplicativeBiasParameters):
+            if node.has_mul_bias:
+                mb_q = self.get_quantization(fstats['mul_biases'], min_qsnr, force_width)
+            else:
+                mb_q = None
+            qrec = SymmetricScalableFilterQuantizationRecord(in_qs=[in_q], out_qs=[o_q], calc_q=c_q,
+                                                             acc_q=acc_q, biases_q=b_q, weights_q=w_q,
+                                                             mul_biases_q=mb_q,
+                                                             constants_are_quantized=False)
+        else:
+            qrec = SymmetricFilterQuantizationRecord(in_qs=[in_q], out_qs=[o_q], calc_q=c_q,
+                                                     acc_q=acc_q, biases_q=b_q, weights_q=w_q,
+                                                     constants_are_quantized=False)
+
+        LOG.debug("filter %s qrec %s", node.name, qrec)
+        return qrec
+
+    # pylint: disable=too-many-locals
+    def calculate_output_q(self,
+                           node: Parameters,
+                           astats,
+                           in_qs,
+                           min_qsnr=None,
+                           force_width=None,
+                           force_out=None):
+        del node
+        if force_out:
+            if force_out.bits:
+                if force_out.q:
+                    o_q = QType(bits=force_out.bits,
+                                q=force_out.q,
+                                signed=True)
+                else:
+                    o_q = self.get_quantization(astats, None, force_out.bits)
+            elif force_out.q:
+                o_q = self.get_quantization(astats, min_qsnr, force_width)
+                o_q.q = force_out.q
+        else:
+            o_q = self.get_quantization(astats, min_qsnr, force_width)
+        return SymmetricQuantizationRecord(in_qs=in_qs,
+                                           out_qs=[o_q])
+
+    @staticmethod
+    def get_quantization(stats, min_qsnr, force_width):
+        qstats = stats['qstats']
+        if force_width is not None:
+            return QType(bits=force_width,
+                         q=qstats[force_width]['q'],
+                         signed=True)
+        for width in STATS_BITS:
+            if qstats[width]['qsnr'] > min_qsnr:
+                return QType(bits=width,
+                             q=qstats[width]['q'],
+                             signed=True)
+        raise ValueError("no solution for this QSNR could be found")
+
+    def calculate_q(self,
+                    node,
+                    astats,
+                    fstats,
+                    in_qs,
+                    min_qsnr,
+                    force_width,
+                    force_out=None):
+
+        if isinstance(node, (InputParameters, MatrixBroadcastedLinearOpParameters,
+                             ConstantInputParameters, MatScaleFusionParameters)):
+            qrec = self.calculate_output_q(node,
+                                           astats,
+                                           in_qs,
+                                           min_qsnr=min_qsnr,
+                                           force_width=force_width,
+                                           force_out=force_out)
+        elif isinstance(node, Conv2DParameters):
+            qrec = self.calculate_filter_q(node,
+                                           astats,
+                                           fstats,
+                                           in_q=in_qs[0],
+                                           min_qsnr=min_qsnr,
+                                           force_width=force_width,
+                                           force_out=force_out,
+                                           biases_bits_as_acc=False)
+        elif isinstance(node, FcParameters):
+            qrec = self.calculate_filter_q(node,
+                                           astats,
+                                           fstats,
+                                           in_q=in_qs[0],
+                                           min_qsnr=min_qsnr,
+                                           force_width=force_width,
+                                           force_out=force_out,
+                                           biases_bits_as_acc=False)
+        elif isinstance(node, SoftMaxParameters):
+            # softmax always outputs Q15
+            qrec = SymmetricQuantizationRecord(in_qs=in_qs, out_qs=[QType(16, 15, True)])
+        elif isinstance(node, ActivationParameters):
+            qrec = SymmetricQuantizationRecord(in_qs=in_qs,
+                                               out_qs=[self.compute_activation_out_qtype(node, in_qs[0])])
+        else:
+            qrec = SymmetricQuantizationRecord(in_qs=in_qs, out_qs=in_qs)
+        return qrec
+
+    @staticmethod
+    def compute_activation_out_maxq(node, num_bits):
+        relun = None
+        if node.activation == "relu6":
+            relun = 6
+        elif node.activation == "relun":
+            relun = node.activation_params
+            if isinstance(relun, list):
+                relun = max(relun)
+        if relun is None:
+            return None
+        relu_bits = calc_bits(relun)
+        return num_bits - relu_bits
+
+    def compute_activation_out_qtype(self, node, in_q):
+        max_q = self.compute_activation_out_maxq(node, in_q.bits)
+        if max_q is None:
+            return in_q
+
+        return QType(bits=in_q.bits,
+                     q=min(in_q.q, max_q),
+                     signed=True)
+
+    def default_quantize_fusion(self,
+                                G: NNGraph,
+                                node: ConvFusionParameters,
+                                in_qs,
+                                force_out=None) -> SymmetricQuantizationRecord:
+        del G
+        result = OrderedDict()
+        fin_qs = in_qs
+        for fnode in node.contained_nodes():
+            qrec = self.calculate_q(
+                fnode,
+                self._activation_stats.get(NodeId(node, fnode)),
+                self._filter_stats.get(NodeId(node, fnode)),
+                fin_qs,
+                self._min_qsnr,
+                self._force_width,
+                force_out=force_out)
+            result[NodeId(node, fnode)] = qrec
+            fin_qs = qrec.out_qs
+        return SymmetricQuantizationRecord(in_qs=in_qs, out_qs=fin_qs), result
+
+    def quantize_fusion(self,
+                        G: NNGraph,
+                        node: ConvFusionParameters,
+                        in_qs,
+                        force_out=None) -> SymmetricQuantizationRecord:
+        if node.fusion_type == 'conv_active':
+            result = OrderedDict()
+            nodes = node.contained_nodes()
+            conv_node = nodes[0]
+            conv_astats = self._activation_stats.get(NodeId(node, conv_node))
+            conv_qrec = self.calculate_filter_q(conv_node,
+                                                conv_astats,
+                                                self._filter_stats.get(NodeId(node, conv_node)),
+                                                in_q=in_qs[0],
+                                                min_qsnr=self._min_qsnr,
+                                                force_width=self._force_width,
+                                                biases_bits_as_acc=False,
+                                                out_as_acc=True)
+            result[NodeId(node, conv_node)] = conv_qrec
+            act_node = nodes[1]
+            act_astats = self._activation_stats.get(NodeId(node, act_node))
+            if force_out and force_out.bits:
+                act_max_q = self.compute_activation_out_maxq(act_node, force_out.bits)
+                if force_out.q is not None:
+                    if (act_max_q is not None and force_out.q > act_max_q) or force_out.q > conv_qrec.out_qs[0].q:
+                        # We cannot shift left in the kernel
+                        # TODO - This should try to increase the input q and perhaps the width
+                        # Unlikely to happen
+                        raise NotImplementedError()
+                    act_o_q = QType(bits=force_out.bits,
+                                    q=force_out.q,
+                                    signed=True)
+                else:
+                    act_o_q = self.get_quantization(act_astats,
+                                                    None,
+                                                    force_out.bits)
+                    if act_max_q is not None:
+                        act_o_q.q = min(act_max_q, act_o_q.q)
+            else:
+                act_o_q = self.get_quantization(act_astats,
+                                                self._min_qsnr,
+                                                self._force_width)
+                act_max_q = self.compute_activation_out_maxq(act_node, act_o_q.bits)
+                # check that the output q is less than or equal to the filter output q
+                if act_max_q is not None:
+                    act_o_q.q = min(act_o_q.q, conv_qrec.out_qs[0].q, act_max_q)
+                else:
+                    act_o_q.q = min(act_o_q.q, conv_qrec.out_qs[0].q)
+                if force_out and force_out.q:
+                    if force_out.q > act_max_q or force_out.q > conv_qrec.out_qs[0].q:
+                        # We cannot shift left in the kernel
+                        # TODO - This should try to increase the input q and perhaps the width
+                        # Unlikely to happen
+                        raise NotImplementedError()
+                    act_o_q.q = force_out.q
+            act_qrec = SymmetricQuantizationRecord(in_qs=conv_qrec.out_qs,
+                                                   out_qs=[act_o_q])
+            result[NodeId(node, act_node)] = act_qrec
+            return SymmetricQuantizationRecord(in_qs=in_qs, out_qs=act_qrec.out_qs), result
+        else:
+            return self.default_quantize_fusion(G, node, in_qs, force_out=force_out)
+
+    @staticmethod
+    def get_in_qs(G, edge_recs, node):
+        if isinstance(node, InputParameters):
+            in_qs = []
+        else:
+            in_qs = [edge_recs[edge.params]
+                     for edge in G.indexed_in_edges(node.name)]
+        return in_qs
+
+    @staticmethod
+    def is_filter_node(node):
+        conv_fusion_types = set(['conv_active_pool',
+                                 'conv_pool_active',
+                                 'conv_active',
+                                 'conv_pool'])
+        return (isinstance(node, ConvFusionParameters) and node.fusion_type in conv_fusion_types) or\
+            isinstance(node, (Conv2DParameters, FcParameters))
+
+    @staticmethod
+    def satisfied(x, y):
+        return x is None or x == y
+
+    def satisfied_force(self, force_out, o_q):
+        return not force_out or\
+            (self.satisfied(force_out.q, o_q.q) and self.satisfied(force_out.bits, o_q.bits))
+
+    def quantize_backward(self,
+                          G: NNGraph,
+                          result,
+                          edge_recs,
+                          node,
+                          force_out=None):
+
+        LOG.debug("quantize backwards %s", node.name)
+        recalculated = False
+        while True:
+            in_qs = self.get_in_qs(G, edge_recs, node)
+            if self.is_filter_node(node):
+                if isinstance(node, ConvFusionParameters):
+                    qrec, qrecs = self.quantize_fusion(G,
+                                                       node,
+                                                       in_qs,
+                                                       force_out=force_out)
+                    for node_id, fqrec in qrecs.items():
+                        result[node_id] = fqrec
+                else:
+                    qrec = self.calculate_q(node,
+                                            self._activation_stats.get(NodeId(node, None)),
+                                            self._filter_stats.get(NodeId(node, None)),
+                                            in_qs,
+                                            self._min_qsnr,
+                                            self._force_width,
+                                            force_out=force_out)
+
+                if force_out and force_out.q is not None and qrec.out_qs[0].q < force_out.q:
+                    if recalculated:
+                        raise NotImplementedError("no quantization solution found")
+                    bits_to_gain = force_out.q - qrec.q
+                    if bits_to_gain > in_qs[0].q:
+                        raise NotImplementedError()
+                    # Try to adjust the inputs to satisfy and then
+                    # recalculate
+                    pnode = G.in_edges(node.name)[0].from_node
+                    self.quantize_backward(G,
+                                           result,
+                                           edge_recs,
+                                           pnode,
+                                           force_out=QType(bits=force_out.bits,
+                                                           q=in_qs[0].q - bits_to_gain,
+                                                           signed=True))
+            elif isinstance(node, ConcatParameters):
+                assert not recalculated
+                max_width = max(in_q.bits for in_q in in_qs)
+                min_q = min(in_q.q for in_q in in_qs)
+                if force_out:
+                    if not self.satisfied(force_out.bits, max_width):
+                        max_width = force_out.bits
+                    if not self.satisfied(force_out.q, min_q):
+                        min_q = force_out.q
+                LOG.debug("normalizing concat to %s", QType(bits=max_width, q=min_q, signed=True))
+                for pidx, pnode in enumerate([edge.from_node for edge in G.in_edges(node.name)]):
+                    pqrec = in_qs[pidx]
+                    if pqrec.q != min_q or pqrec.bits != max_width:
+                        self.quantize_backward(G,
+                                               result,
+                                               edge_recs,
+                                               pnode,
+                                               force_out=QType(bits=max_width,
+                                                               q=min_q,
+                                                               signed=True))
+                o_q = QType(bits=max_width,
+                            q=min_q,
+                            signed=True)
+                qrec = SymmetricQuantizationRecord(
+                    in_qs=self.get_in_qs(G, edge_recs, node), out_qs=[o_q])
+            elif isinstance(node, SoftMaxParameters):
+                raise NotImplementedError("softmax kernel cannot change width or q")
+            else:
+                if isinstance(node, ConvFusionParameters):
+                    qrec, qrecs = self.quantize_fusion(G,
+                                                       node,
+                                                       in_qs,
+                                                       force_out=force_out)
+                    for node_id, fqrec in qrecs.items():
+                        result[node_id] = fqrec
+                else:
+                    qrec = self.calculate_q(node,
+                                            self._activation_stats.get(NodeId(node, None)),
+                                            self._filter_stats.get(NodeId(node, None)),
+                                            in_qs,
+                                            self._min_qsnr,
+                                            self._force_width,
+                                            force_out=force_out)
+                o_q = qrec.out_qs[0]
+                if not(self.satisfied(force_out.q, o_q.q) and
+                       self.satisfied(force_out.bits, o_q.bits)):
+                    if recalculated:
+                        raise NotImplementedError("no quantization solution found")
+                    if len(G.in_edges(node.name)) > 1:
+                        raise NotImplementedError("Nodes with multiple input edges \
+                            need custom handling")
+                    pnode = G.in_edges(node.name)[0].from_node
+                    self.quantize_backward(G,
+                                           result,
+                                           edge_recs,
+                                           pnode,
+                                           force_out=force_out)
+
+            for edges in G.indexed_out_edges(node.name):
+                for edge in edges:
+                    edge_recs[edge.params] = qrec.out_qs[edge.from_idx]
+
+            result[NodeId(node, None)] = qrec
+
+            o_q = qrec.out_qs[0]
+            if self.satisfied_force(force_out, o_q):
+                break
+            if recalculated:
+                raise NotImplementedError("no quantization solution found")
+            LOG.debug("recalculate %s", node.name)
+            recalculated = True
+        LOG.debug("back complete %s %s", node.name, qrec)
+        return qrec
+
+    def quantize_forward(self, G: NNGraph, edge_recs, result=None):
+        if result is None:
+            result = QuantizationSet()
+        for node in [step['node'] for step in G.graph_state.steps]:
+            LOG.debug("quantize forward %s", node.name)
+            in_qs = self.get_in_qs(G, edge_recs, node)
+            if isinstance(node, ConvFusionParameters):
+                qrec, qrecs = self.quantize_fusion(G, node, in_qs)
+                for node_id, fqrec in qrecs.items():
+                    result[node_id] = fqrec
+            elif isinstance(node, ConcatParameters):
+                qrec = self.quantize_backward(G,
+                                              result,
+                                              edge_recs,
+                                              node)
+            else:
+                qrec = self.calculate_q(
+                    node,
+                    self._activation_stats.get(NodeId(node, None)),
+                    self._filter_stats.get(NodeId(node, None)),
+                    in_qs,
+                    self._min_qsnr,
+                    self._force_width)
+            result[NodeId(node, None)] = qrec
+            if not qrec:
+                break
+
+            for edges in G.indexed_out_edges(node.name):
+                for edge in edges:
+                    edge_recs[edge.params] = qrec.out_qs[edge.from_idx]
+        return result
+
+    @staticmethod
+    def initialize_edge_recs(G: NNGraph, qrecs):
+        '''Initialize edge rec dictionary to current quantization settings'''
+        edge_recs = {}
+        for node in [step['node'] for step in G.graph_state.steps]:
+            nodeid = NodeId(node)
+            qrec = qrecs[nodeid]
+            for edges in G.indexed_out_edges(node.name):
+                for edge in edges:
+                    edge_recs[edge.params] = qrec.out_qs[edge.from_idx]
+        return edge_recs
+
+    def propagate_forward(self, G: NNGraph, edge_recs, start_node, new_out_qrec, result):
+        '''Propagate a new output qrec at node start_node in the graph'''
+        found_node = False
+        for node in [step['node'] for step in G.graph_state.steps]:
+            if found_node:
+                LOG.debug("propagate forwards %s", node.name)
+                in_qs = self.get_in_qs(G, edge_recs, node)
+                if isinstance(node, ConvFusionParameters):
+                    qrec, qrecs = self.quantize_fusion(G, node, in_qs)
+                    for node_id, fqrec in qrecs.items():
+                        result[node_id] = fqrec
+                elif isinstance(node, ConcatParameters):
+                    qrec = self.quantize_backward(G,
+                                                  result,
+                                                  edge_recs,
+                                                  node)
+                else:
+                    qrec = self.calculate_q(
+                        node,
+                        self._activation_stats.get(NodeId(node, None)),
+                        self._filter_stats.get(NodeId(node, None)),
+                        in_qs,
+                        self._min_qsnr,
+                        self._force_width)
+            else:
+                if node == start_node:
+                    found_node = True
+                    qrec = self.quantize_backward(G,
+                                                  result,
+                                                  edge_recs,
+                                                  node,
+                                                  force_out=new_out_qrec)
+                else:
+                    continue
+
+            result[NodeId(node, None)] = qrec
+            if not qrec:
+                break
+
+            for edges in G.indexed_out_edges(node.name):
+                for edge in edges:
+                    edge_recs[edge.params] = qrec.out_qs[edge.from_idx]
+
+    def quantize(self, G: NNGraph) -> OrderedDict:
+        '''quantize the graph'''
+        edge_recs = {}
+        qrecs = self.quantize_forward(G, edge_recs)
+        qrecs['__quantizer'] = self
+        G.graph_identity.quantization_type = 'POW2'
+        return qrecs
+
+    @classmethod
+    def propagate(cls, G: NNGraph, current_qrecs, start_node, new_out_qrec) -> OrderedDict:
+        '''propagate new quantization record new_out_qrec at start node through the graph'''
+        edge_recs = cls.initialize_edge_recs(G, current_qrecs)
+        return current_qrecs['__quantizer'].propagate_forward(G, edge_recs, start_node, new_out_qrec, current_qrecs)
diff --git a/tools/nntool/quantization/tuneq.py b/tools/nntool/quantization/tuneq.py
index 146a06ba1..d1224bbdb 100644
--- a/tools/nntool/quantization/tuneq.py
+++ b/tools/nntool/quantization/tuneq.py
@@ -14,7 +14,7 @@
 # along with this program.  If not, see <https://www.gnu.org/licenses/>.
 
 from quantization.qtype import QType
-from quantization.simple_auto_quantify import SimpleQuantizer
+from quantization.symmetric.symmetric_quantizer import SymmetricQuantizer
 from utils.node_id import NodeId
 from utils.stats_funcs import STATS_BITS
 from graph.types import ConvFusionParameters
@@ -30,6 +30,7 @@ def get_qtype(qparam1, qparam2):
     return QType(STATS_BITS[bits_idx], qparam2, True)
 
 def tuneq(G, qrecs, step_num, param, qparam1, qparam2, index=0):
+    del index
     step = G.graph_state.steps[step_num]
     node = step['node']
     if param == 'dp':
@@ -37,7 +38,7 @@ def tuneq(G, qrecs, step_num, param, qparam1, qparam2, index=0):
 
     if param == "out":
         qtype = get_qtype(qparam1, qparam2)
-        SimpleQuantizer.propagate(G, qrecs, node, qtype)
+        SymmetricQuantizer.propagate(G, qrecs, node, qtype)
     else:
         if isinstance(node, ConvFusionParameters):
             for subnode in node.subgraph.nodes():
@@ -45,9 +46,9 @@ def tuneq(G, qrecs, step_num, param, qparam1, qparam2, index=0):
                 if hasattr(qrec, param + '_q'):
                     setattr(qrec, param + '_q', get_qtype(qparam1, qparam2))
                     return
-            raise TuneError("parameter " + param + " not found")       
-        else:
-            qrec = qrecs[NodeId(node, None)]
-            if not hasattr(qrec, param + '_q'):
-                raise TuneError("parameter " + param + " not found")
-            setattr(qrec, param + '_q', get_qtype(qparam1, qparam2))
+            raise TuneError("parameter " + param + " not found")
+
+        qrec = qrecs[NodeId(node, None)]
+        if not hasattr(qrec, param + '_q'):
+            raise TuneError("parameter " + param + " not found")
+        setattr(qrec, param + '_q', get_qtype(qparam1, qparam2))
diff --git a/tools/nntool/reports/error_reporter.py b/tools/nntool/reports/error_reporter.py
index 9eb3e3f0c..136ba9f1f 100644
--- a/tools/nntool/reports/error_reporter.py
+++ b/tools/nntool/reports/error_reporter.py
@@ -43,10 +43,6 @@ def do_dheader(table, one_input, with_chan):
             TabularColumn("min QSNR", fmt=">.0f"),
         ])
 
-    header.extend([
-        TabularColumn("OverF dot", fmt=">d"),
-        TabularColumn("OverF acc", fmt=">d"),
-    ])
     table.add_row(header)
 
 def do_drow(table, stat, cols):
@@ -54,14 +50,13 @@ def do_drow(table, stat, cols):
 
 class ErrorReporter(Reporter):
     ONE_INPUT_COLS = ['name', 'op_name', 'step', 'av_err', 'max_err',\
-            'min_err', 'qsnr', 'overflow_dot', 'overflow_acc']
+            'min_err', 'qsnr']
     ONE_INPUT_WCHAN_COLS = ['name', 'op_name', 'step', 'av_err', 'max_err',\
-            'min_err', 'max_chan_err', 'qsnr', 'overflow_dot', 'overflow_acc']
+            'min_err', 'max_chan_err', 'qsnr']
     COLS = ['name', 'op_name', 'step', 'av_err', 'max_err',\
-            'min_err', 'qsnr', 'max_qsnr', 'min_qsnr', 'overflow_dot', 'overflow_acc']
+            'min_err', 'qsnr', 'max_qsnr', 'min_qsnr']
     WCHAN_COLS = ['name', 'op_name', 'step', 'av_err', 'max_err',\
-            'min_err', 'max_chan_err', 'qsnr', 'max_qsnr', 'min_qsnr',\
-            'overflow_dot', 'overflow_acc']
+            'min_err', 'max_chan_err', 'qsnr', 'max_qsnr', 'min_qsnr']
 
     def __init__(self, do_totals=True, threshold=30.0, one_input=False, with_chan=False):
         print('with chan', with_chan, one_input)
diff --git a/tools/nntool/reports/filter_reporter.py b/tools/nntool/reports/filter_reporter.py
index 6cea6a991..79dbb5bf7 100644
--- a/tools/nntool/reports/filter_reporter.py
+++ b/tools/nntool/reports/filter_reporter.py
@@ -134,7 +134,7 @@ def do_row_item(self, table, step_idx, node_name, var, total, op_name, vartype):
         return total
 
     def do_row(self, table, step_idx, node_name, stat, total, op_name="", by_channel=False):
-        for vartype in ['weights', 'biases']:
+        for vartype in ['weights', 'biases', 'mul_biases']:
             if vartype not in stat:
                 continue
             var = stat[vartype]
diff --git a/tools/nntool/reports/graph_reporter.py b/tools/nntool/reports/graph_reporter.py
index a9e5c52a5..abfa85843 100644
--- a/tools/nntool/reports/graph_reporter.py
+++ b/tools/nntool/reports/graph_reporter.py
@@ -95,7 +95,7 @@ def report(self, G: NNGraph, stats) -> Tabular:
         steps = G.graph_state.steps
         liveness = G.graph_state.liveness
         first_node = steps[0]['node']
-        active_order = "x".join(first_node.in_dims[0].order)
+        active_order = "x".join(first_node.out_dims[0].order)
         tab = Tabular()
         self.do_headers(active_order, tab)
 
diff --git a/tools/nntool/reports/quantization_reporter.py b/tools/nntool/reports/quantization_reporter.py
index abfadfdd8..ca261a511 100644
--- a/tools/nntool/reports/quantization_reporter.py
+++ b/tools/nntool/reports/quantization_reporter.py
@@ -13,33 +13,41 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program.  If not, see <https://www.gnu.org/licenses/>.
 
-from utils.tabular import Tabular, TabularColumn
-
-from graph.types import FilterParameters
+from quantization.symmetric.symmetric_quantization import \
+    SymmetricScalableFilterQuantizationRecord
+from quantization.multiplicative.mult_quantization import MultScalableFilterQuantizationRecord
+from quantization.multiplicative.mult_qtype_base import WrapperMixin
+from graph.types import ConstantInputParameters
 from utils.node_id import NodeId
-from quantization.qtype import QType
-from quantization.quantization_record import FilterQuantizationRecord
-from importer.tflite.tflite_qtype import TfliteQType
+from utils.tabular import Tabular, TabularColumn
 
 from .reporter import Reporter
 
 DEFAULT_ACC_BITS = 32
 
-def emit_q(qtype):
-    if qtype is None:
-        return ""
-    if isinstance(qtype, TfliteQType):
-        return ', '.join(map(str, ["{} = {}".format(x, y) for x,y \
-                in zip(qtype.report_columns(), qtype.to_report())]))
-    return "Q{}.{}".format(qtype.bits - qtype.q, qtype.q)
-
-def emit_qs(qtypes):
-    return ",".join([emit_q(qtype) for qtype in qtypes])
 
 class QuantizationReporter(Reporter):
-    def __init__(self, step=None):
+    def __init__(self, step=None, emit_wrapped=True):
         super(QuantizationReporter).__init__()
         self._step = step
+        self._emit_wrapped = emit_wrapped
+
+    def emit_qs(self, qtypes, limit=True):
+        if limit and len(qtypes) > 10:
+            qtypes = qtypes[0:10]
+            extra = " ..."
+        else:
+            extra = ""
+        if self._emit_wrapped:
+            return (",".join([str(qtype.wrapped) if isinstance(qtype, WrapperMixin)
+                              else str(qtype) for qtype in qtypes])) + extra
+        return (",".join([str(qtype) for qtype in qtypes])) + extra
+
+    def emit_q_chan(self, qtype, chan):
+        if self._emit_wrapped:
+            return (qtype.wrapped.str_by_chan(chan) if isinstance(qtype, WrapperMixin)
+                    else qtype.str_by_chan(chan))
+        return qtype.str_by_chan(chan)
 
     def report(self, G, stats):
         table = Tabular()
@@ -55,7 +63,7 @@ def report(self, G, stats):
             TabularColumn("Acc"),
         ])
 
-        for key, qrec in stats.items():
+        for key, qrec in stats.sorted_iterator(G):
             if not isinstance(key, NodeId):
                 continue
             node = G.node(key.node_name)
@@ -64,11 +72,51 @@ def report(self, G, stats):
             fnode = node.get_contained_node(key.fnode_name) if key.fnode_name else None
             step_idx = node.step_idx
             node = fnode or node
-            row = [step_idx, node.name, emit_qs(qrec.in_qs), emit_qs(qrec.out_qs)]
-            if isinstance(qrec, FilterQuantizationRecord):
-                for i in ["weights", "biases", "mul_biases", "calc", "acc"]:
-                    row.append(emit_q(getattr(qrec, i+'_q')))
+            if qrec:
+                if self._step is None or not isinstance(qrec, MultScalableFilterQuantizationRecord) or len(qrec.weights_q.scale) == 1:
+                    if isinstance(node, ConstantInputParameters):
+                        row = [step_idx, node.name,
+                               "",
+                               self.emit_qs(qrec.out_qs,
+                                            limit=self._step is None),
+                               "", "", "", "", ""]
+                    else:
+                        row = [step_idx, node.name,
+                               self.emit_qs(qrec.in_qs,
+                                            limit=self._step is None),
+                               self.emit_qs(qrec.out_qs,
+                                            limit=self._step is None)]
+                        if isinstance(qrec, (SymmetricScalableFilterQuantizationRecord, MultScalableFilterQuantizationRecord)):
+                            for i in ["weights", "biases", "mul_biases", "calc", "acc"]:
+                                row.append(self.emit_qs([getattr(qrec, i+'_q')]))
+                        else:
+                            row += ["", "", "", "", ""]
+                else:
+                    first = True
+                    for chan in range(len(qrec.weights_q.scale)):
+                        if first:
+                            row = [step_idx, node.name,
+                                   self.emit_qs(qrec.in_qs,
+                                                limit=self._step is None),
+                                   self.emit_qs(qrec.out_qs,
+                                                limit=self._step is None),
+                                   self.emit_q_chan(qrec.weights_q, chan),
+                                   self.emit_q_chan(qrec.biases_q, chan),
+                                   self.emit_q_chan(qrec.mul_biases_q, chan),
+                                   str(qrec.calc_q),
+                                   str(qrec.acc_q),
+                                   ]
+                            first = False
+                        else:
+                            row = [chan, "", "", "",
+                                   self.emit_q_chan(qrec.weights_q, chan),
+                                   self.emit_q_chan(qrec.biases_q, chan),
+                                   self.emit_q_chan(qrec.mul_biases_q, chan),
+                                   "", ""
+                                   ]
+                        table.add_row(row)
+                    continue
             else:
-                row += ["", "", "", "", ""]
+                row = [step_idx, node.name, "None", "None", "", "", "", "", ""]
             table.add_row(row)
         return table
diff --git a/tools/nntool/requirements.txt b/tools/nntool/requirements.txt
index 00347a09b..7d6f176d9 100644
--- a/tools/nntool/requirements.txt
+++ b/tools/nntool/requirements.txt
@@ -3,10 +3,10 @@ typing==3.7.4.1
 pytest==5.0.1
 XlsxWriter==1.1.5
 texttable==1.6.2
-cmd2==0.9.24
+cmd2==1.0.2
 numpy==1.16.2
 Pillow==6.2.0
-Keras==2.2.4
-tensorflow==1.14.0
+Keras==2.3.1
+tensorflow==1.15.0
 numpy==1.16.2
 argcomplete==1.10.0
diff --git a/tools/nntool/stats/activation_stats_collector.py b/tools/nntool/stats/activation_stats_collector.py
index 3110011c2..aba2d760e 100644
--- a/tools/nntool/stats/activation_stats_collector.py
+++ b/tools/nntool/stats/activation_stats_collector.py
@@ -16,7 +16,7 @@
 from collections import OrderedDict
 from typing import Mapping, Sequence
 
-from execution.execute_graph import execute_iterator
+from execution.graph_executer import GraphExecuter
 from graph.types import FilterParameters, InputParameters, MultiplicativeBiasParameters
 from utils.node_id import NodeId
 from utils.stats_funcs import astats, calculate_qsnrs
@@ -32,22 +32,32 @@ def gather_stats(activation, force_ideal=False, channel_dim=None, channel_detail
 class ActivationStatsCollector(ReductionStatsCollector):
     def __init__(self, graph_execution=None):
         super(ActivationStatsCollector, self).__init__()
-        self._graph_execution = execute_iterator if graph_execution is None else graph_execution
+        self._graph_execution = graph_execution
 
     def _collect(self, G, input_tensors, step_idx):
+        if self._graph_execution is None:
+            if G.has_quantized_parameters:
+                quantization = G.quantization
+            else:
+                quantization = None
+            graph_executor = GraphExecuter(G, qrecs=quantization)
+            graph_execution = graph_executor.execute_iterator
+        else:
+            graph_execution = self._graph_execution
+
         stats = OrderedDict()
         limit = step_idx[0] if isinstance(step_idx, tuple) else step_idx
-        for _, _, node, output, _, fusion_node, details in\
-                self._graph_execution(G, input_tensors, disable_cache=True, limit=limit):
-            if not self.matches_step(step_idx, node, fusion_node):
+        for _, node, fnode, output_tensors, details in\
+                graph_execution(input_tensors, step_idx_limit=limit, yield_fusions=True, yield_details=True):
+            if not self.matches_step(step_idx, node, fnode):
                 continue
-            key = NodeId(node, fusion_node)
-            node = (node if fusion_node is None else fusion_node)
+            key = NodeId(node, fnode)
+            node = (node if fnode is None else fnode)
             if node.out_dims[0].is_named and node.out_dims[0].has_key('c'):
                 channel_dim = node.out_dims[0].get_order_idx('c')
             else:
                 channel_dim = 0
-            stat = gather_stats(output[0],
+            stat = gather_stats(output_tensors[0],
                                 force_ideal=not isinstance(node, InputParameters),
                                 channel_dim=channel_dim,
                                 channel_details=step_idx is not None)
diff --git a/tools/nntool/stats/error_stats_collector.py b/tools/nntool/stats/error_stats_collector.py
index 404baf97f..fe2236dd2 100644
--- a/tools/nntool/stats/error_stats_collector.py
+++ b/tools/nntool/stats/error_stats_collector.py
@@ -14,7 +14,6 @@
 # along with this program.  If not, see <https://www.gnu.org/licenses/>.
 
 import logging
-import math
 from collections import OrderedDict
 from typing import Mapping
 
@@ -23,49 +22,43 @@
 from utils.stats_funcs import qsnr
 from utils.node_id import NodeId
 
-from execution.execute_graph import execute, execute_iterator
+from execution.graph_executer import GraphExecuter
 from execution.quantization_mode import QuantizationMode
 
-from graph.types import FilterParameters
-
-from .stats_collector import ReductionStatsCollector
+from stats.stats_collector import ReductionStatsCollector
 
 LOG = logging.getLogger('nntool.' + __name__)
 
+
 class ErrorStatsCollector(ReductionStatsCollector):
-    def __init__(self, limit=None):
+    def __init__(self, limit=None, quant_compare=False):
         super().__init__()
         self._limit = limit
+        self._quant_compare = quant_compare
 
     def _prepare(self, G):
         pass
 
-
-    def _collect_execution(self, G, tensors, qrecs=None, qmode=None):
+    def _collect_execution(self, executer, tensors, qrecs, qmode=None):
+        del qrecs
         outputs = []
         fusion_outputs = []
-        for step_idx, step, node, output, fusion_op_name, fusion_node, details in\
-            execute_iterator(G, tensors, limit=self._limit, qrecs=qrecs, qmode=qmode):
-            if qrecs:
-                qrec = qrecs[NodeId(node, fusion_node)]
-                output = [qrec.out_qs[i].dequantize(out) for i, out in enumerate(output)]
-            else:
-                output = output.copy()
+        for step_idx, pnode, fnode, output, details in\
+                executer.execute_iterator(tensors, step_idx_limit=self._limit, qmode=qmode):
 
-            del step, fusion_op_name
-            if fusion_node:
+            if fnode:
                 fusion_outputs.append({
                     "name": "",
                     "step_idx": "{}_{}".format(step_idx, len(fusion_outputs)),
-                    "node": fusion_node,
+                    "node": fnode,
                     "output": output,
                     "details": details
                 })
             else:
                 stat = {
-                    "name": node.name,
+                    "name": pnode.name,
                     "step_idx": str(step_idx),
-                    "node": node,
+                    "node": pnode,
                     "output": output,
                     "details": details,
                     "fusion_outputs": []
@@ -77,17 +70,13 @@ def _collect_execution(self, G, tensors, qrecs=None, qmode=None):
         return outputs
 
     @staticmethod
-    def _collect_one(fstat, qstat):
-        fout = fstat['output']
-        qout = qstat['output']
-        error_ = np.abs(fout[0] - qout[0])
+    def _collect_one(fstat, qstat, qrec, quant_compare=False):
+        fout = fstat['output'][0]
+        if quant_compare:
+            fout = qrec.out_qs[0].dequantize(qrec.out_qs[0].quantize(fout))
+        qout = qstat['output'][0]
+        error_ = np.abs(fout - qout)
         node = fstat['node']
-        details = qstat['details']
-        if details:
-            overflow_dot = details['overflow_dot']
-            overflow_acc = details['overflow_acc']
-        else:
-            overflow_dot = overflow_acc = ""
 
         stat = {
             'name': fstat['name'],
@@ -96,28 +85,40 @@ def _collect_one(fstat, qstat):
             'av_err': np.mean(error_),
             'max_err': np.max(error_),
             'min_err': np.min(error_),
-            'qsnr': qsnr(fout[0], qout[0]),
-            'overflow_dot' : overflow_dot,
-            'overflow_acc' : overflow_acc,
+            'qsnr': qsnr(fout, qout),
         }
 
         return stat
 
     def _collect(self, G, input_tensors, step_idx) -> Mapping[NodeId, Mapping]:
         LOG.debug("gather quantization statistics")
-        foutputs = self._collect_execution(G, input_tensors)
-        qoutputs = self._collect_execution(G,
+        if G.has_quantized_parameters:
+            quantization = G.quantization
+        else:
+            quantization = None
+        executer = GraphExecuter(G, qrecs=quantization)
+        foutputs = self._collect_execution(executer, input_tensors, quantization)
+        executer = GraphExecuter(G, qrecs=G.quantization)
+        qoutputs = self._collect_execution(executer,
                                            input_tensors,
-                                           qrecs=G.quantization,
-                                           qmode=QuantizationMode.all())
+                                           G.quantization,
+                                           qmode=QuantizationMode.all_dequantize())
         stats = OrderedDict()
         for idx, fstat in enumerate(foutputs):
             qstat = qoutputs[idx]
             if fstat['fusion_outputs']:
                 for jdx, ffstat in enumerate(fstat['fusion_outputs']):
-                    stats[NodeId(fstat['node'], ffstat['node'])] =\
-                        self._collect_one(ffstat, qstat['fusion_outputs'][jdx])
-            stats[NodeId(fstat['node'], None)] = self._collect_one(fstat, qstat)
+                    nid = NodeId(fstat['node'], ffstat['node'])
+                    stats[nid] =\
+                        self._collect_one(ffstat,
+                                          qstat['fusion_outputs'][jdx],
+                                          G.quantization[nid],
+                                          quant_compare=self._quant_compare)
+            nid = NodeId(fstat['node'], None)
+            stats[nid] = self._collect_one(fstat,
+                                           qstat,
+                                           G.quantization[nid],
+                                           quant_compare=self._quant_compare)
 
         return stats
 
@@ -134,8 +135,6 @@ def _reduce_prepare(self, all_stats):
     def _reduce(self, _, base: Mapping, stat: Mapping):
         for k in ['av_err', 'qsnr']:
             base[k].append(stat[k])
-        for k in ['overflow_dot', 'overflow_acc']:
-            base[k] += stat[k]
         for k in [('max_err', 'max_err')]:
             base[k[0]] = max(base[k[0]], abs(stat[k[1]]))
         for k in [('min_err', 'min_err')]:
diff --git a/tools/nntool/stats/filter_stats_collector.py b/tools/nntool/stats/filter_stats_collector.py
index bd115a9cf..fb6c1ec7d 100644
--- a/tools/nntool/stats/filter_stats_collector.py
+++ b/tools/nntool/stats/filter_stats_collector.py
@@ -21,27 +21,45 @@
                          MultiplicativeBiasParameters)
 from utils.node_id import NodeId
 from utils.stats_funcs import astats, calculate_qsnrs
+from quantization.multiplicative.mult_quantization import MultScalableFilterQuantizationRecord
 
 from .ranges import Ranges
 from .stats_collector import StatsCollector
 
 LOG = logging.getLogger("nntool." + __name__)
 
-def filter_stats(pnode, fnode, anode, channel_details=None):
+
+def filter_stats(pnode, fnode, anode, channel_details=None, qrec=None):
     stats = {}
-    if isinstance(anode, MultiplicativeBiasParameters) and anode.has_mul_bias:
-        stats['mul_biases'] = mul_biases = astats(anode.mul_biases)
-        mul_biases['qstats'] = calculate_qsnrs(anode.mul_biases,
-                                               mul_biases['ibits'],
-                                               force_ideal=False)
+    if isinstance(anode, MultiplicativeBiasParameters):
+        if anode.has_mul_bias:
+            stats['mul_biases'] = mul_biases = astats(anode.mul_biases)
+            mul_biases['qstats'] = calculate_qsnrs(anode.mul_biases,
+                                                   mul_biases['ibits'],
+                                                   force_ideal=False)
+        elif isinstance(qrec, MultScalableFilterQuantizationRecord):
+            stats['mul_biases'] = mul_biases = astats(qrec.mul_biases_fps)
+            mul_biases['qstats'] = calculate_qsnrs(qrec.mul_biases_fps,
+                                                   mul_biases['ibits'],
+                                                   force_ideal=False)
     if anode.has_bias:
-        stats['biases'] = biases = astats(anode.biases)
-        biases['qstats'] = calculate_qsnrs(anode.biases,
+        if qrec:
+            qbiases = qrec.prepare_biases(anode, anode.biases, anode.weights, ktype="float32")
+        else:
+            qbiases = anode.biases
+
+        stats['biases'] = biases = astats(qbiases)
+        biases['qstats'] = calculate_qsnrs(qbiases,
                                            biases['ibits'],
                                            force_ideal=False)
+    if qrec:
+        qweights = qrec.prepare_weights(anode, anode.weights, ktype="float32")
+    else:
+        qweights = anode.weights
+
     stats['weights'] = weights = astats(
-        anode.weights, channel_dim=anode.filter.get_order_idx('out_c'), channel_details=channel_details)
-    weights['qstats'] = calculate_qsnrs(anode.weights, weights['ibits'],
+        qweights, channel_dim=anode.filter.get_order_idx('out_c'), channel_details=channel_details)
+    weights['qstats'] = calculate_qsnrs(qweights, weights['ibits'],
                                         force_ideal=False)
     # store the statistics into the graph for later use
     anode.stats = stats
@@ -65,11 +83,17 @@ def _collect(self, G, step_idx):
             if not self.matches_step(step_idx, pnode, fnode):
                 continue
 
-            key = NodeId(pnode, fnode)
+            nid = NodeId(pnode, fnode)
+            if G.quantization and G.has_quantized_parameters:
+                qrec = G.quantization[nid]
+            else:
+                qrec = None
+
             anode = pnode if fnode is None else fnode
             LOG.debug("collecting stats for %s step %s", anode.name, pnode.step_idx)
             if anode.__class__ in STATS_FUNCTIONS:
-                stats[key] = STATS_FUNCTIONS[anode.__class__](pnode, fnode, anode, channel_details=step_idx is not None)
+                stats[nid] = STATS_FUNCTIONS[anode.__class__](
+                    pnode, fnode, anode, channel_details=step_idx is not None, qrec=qrec)
         return stats
 
 
diff --git a/tools/nntool/stats/step_error_stats_collector.py b/tools/nntool/stats/step_error_stats_collector.py
index 98876d85d..77b562756 100644
--- a/tools/nntool/stats/step_error_stats_collector.py
+++ b/tools/nntool/stats/step_error_stats_collector.py
@@ -23,29 +23,28 @@
 from utils.stats_funcs import qsnr
 from utils.node_id import NodeId
 
-from execution.execute_graph import execute_qnoq_iterator
-from execution.quantization_mode import QuantizationMode
-
-from graph.types import FilterParameters
+from execution.graph_executer import GraphExecuter
 
 from .stats_collector import ReductionStatsCollector
 
 LOG = logging.getLogger('nntool.' + __name__)
 
+
 class StepErrorStatsCollector(ReductionStatsCollector):
-    def __init__(self, limit=None):
+    def __init__(self, limit=None, quant_compare=False):
         super().__init__()
         self._limit = limit
+        self._quant_compare = quant_compare
 
     def _prepare(self, G):
         pass
 
-
     def _collect_execution(self, G, tensors, qrecs):
         outputs = []
         fusion_outputs = []
+        executer = GraphExecuter(G, qrecs)
         for step_idx, node, output, details, qoutput, qdetails, fusion_node in\
-            execute_qnoq_iterator(G, tensors, qrecs):
+                executer.execute_qnoq_iterator(tensors):
             output = [np.copy(out) for out in output]
             qoutput = [np.copy(out) for out in qoutput]
 
@@ -77,17 +76,14 @@ def _collect_execution(self, G, tensors, qrecs):
         return outputs
 
     @staticmethod
-    def _collect_one(out):
-        fout = out['output']
-        qout = out['qoutput']
-        error_ = np.abs(fout[0] - qout[0])
+    def _collect_one(out, qrec, quant_compare=False):
+        fout = out['output'][0]
+        if quant_compare:
+            fout = qrec.out_qs[0].dequantize(qrec.out_qs[0].quantize(fout))
+        qout = out['qoutput'][0]
+
+        error_ = np.abs(fout - qout)
         node = out['node']
-        qdetails = out['qdetails']
-        if qdetails:
-            overflow_dot = qdetails['overflow_dot']
-            overflow_acc = qdetails['overflow_acc']
-        else:
-            overflow_dot = overflow_acc = ""
 
         stat = {
             'name': out['name'],
@@ -96,9 +92,7 @@ def _collect_one(out):
             'av_err': np.mean(error_),
             'max_err': np.max(error_),
             'min_err': np.min(error_),
-            'qsnr': qsnr(fout[0], qout[0]),
-            'overflow_dot' : overflow_dot,
-            'overflow_acc' : overflow_acc,
+            'qsnr': qsnr(fout, qout),
             'chan_err': []
         }
 
@@ -108,7 +102,7 @@ def _collect_one(out):
             dim = node.out_dims[0]
             for i in range(dim.c):
                 srange = dim.srange(c=i)
-                channel_error.append(np.average(fout[0][srange] - qout[0][srange]))
+                channel_error.append(np.average(fout[srange] - qout[srange]))
             stat['chan_err'] = channel_error
 
         return stat
@@ -122,9 +116,15 @@ def _collect(self, G, input_tensors, step_idx) -> Mapping[NodeId, Mapping]:
         for out in outputs:
             if out['fusion_outputs']:
                 for fout in out['fusion_outputs']:
-                    stats[NodeId(out['node'], fout['node'])] =\
-                        self._collect_one(fout)
-            stats[NodeId(out['node'], None)] = self._collect_one(out)
+                    nid = NodeId(out['node'], fout['node'])
+                    stats[nid] =\
+                        self._collect_one(fout,
+                                          G.quantization[nid],
+                                          quant_compare=self._quant_compare)
+            nid = NodeId(out['node'], None)
+            stats[nid] = self._collect_one(out,
+                                           G.quantization[nid],
+                                           quant_compare=self._quant_compare)
 
         return stats
 
@@ -141,8 +141,6 @@ def _reduce_prepare(self, all_stats):
     def _reduce(self, _, base: Mapping, stat: Mapping):
         for k in ['av_err', 'qsnr', 'chan_err']:
             base[k].append(stat[k])
-        for k in ['overflow_dot', 'overflow_acc']:
-            base[k] += stat[k]
         for k in [('max_err', 'max_err')]:
             base[k[0]] = max(base[k[0]], abs(stat[k[1]]))
         for k in [('min_err', 'min_err')]:
diff --git a/tools/nntool/tests/conftest.py b/tools/nntool/tests/conftest.py
index ed02aee5f..844657c11 100644
--- a/tools/nntool/tests/conftest.py
+++ b/tools/nntool/tests/conftest.py
@@ -6,18 +6,24 @@
 import numpy as np
 import pytest
 
-from graph.dim import Conv2DFilterDim, Dim, FcFilterDim, PadDim, StrideDim
-from graph.matches.matches import get_std_match_group
+from graph.dim import Conv2DFilterDim, Dim, PadDim, StrideDim
+from graph.matches.matches import get_pow2_match_group
 from graph.nngraph import NNGraph
-from graph.types import Conv2DParameters, FcParameters, NNEdge
+from graph.types import (Conv2DParameters, NNEdge, MatrixAddParameters,
+                         ReluActivationParameters)
 from importer.importer import create_graph
-from quantization.simple_auto_quantify import SimpleQuantizer
+from quantization.symmetric.symmetric_quantizer import SymmetricQuantizer
 from stats.activation_stats_collector import ActivationStatsCollector
 from stats.filter_stats_collector import FilterStatsCollector
 from utils.data_importer import import_data
-from utils.intermediate_cache import IntermediateCache
 from utils.new_param_state import dump_state
 from utils.sparse_list import SparseList
+from utils.node_id import NodeId
+from quantization.quantization_set import QuantizationSet
+from quantization.multiplicative.mult_quantization import (MultScalableFilterQuantizationRecord,
+                                                           MultAddQuantizationRecord)
+from quantization.multiplicative.symmetric.symmetric_mult_biases_qtype import SymmetricMultBiasesQType
+from quantization.multiplicative.symmetric.symmetric_mult_qtype import SymmetricMultQType
 
 MNIST_GRAPH = 'tests/graph/mnist_model.tflite'
 IR_GRAPH = 'tests/graph/ir_model.tflite'
@@ -28,10 +34,16 @@
 CONCAT_TEST_GRAPH = 'tests/graph/concat_test.tflite'
 QVISUAL_GRAPH = 'tests/graph/model_quantized.tflite'
 MN3_GRAPH = 'tests/graph/v3-large_224_1.0_float.tflite'
+MN2_VWW_SYM_Q_GRAPH = "tests/mobv2_valid/mobv2_vww_quant_sym.tflite"
 MN3Q_GRAPH = 'tests/graph/v3-large_224_1.0_uint8.tflite'
 MN3Q2_GRAPH = 'tests/graph/mn3_large_quant_tf2_no_train.tflite'
+MN2_GRAPH = 'tests/graph/vergesense_mnv2.tflite'
+MN1Q_GRAPH = 'tests/graph/mobv1_quant.tflite'
+MN1F_GRAPH = 'tests/graph/mobv1_float.tflite'
+LPRNET_Q_GRAPH = 'tests/graph/lprnet.tflite'
+SQUEEZE_GRAPH = 'tests/graph/squeezenet.tflite'
 
-MNIST_IMAGES = glob('tests/images/*.pgm')
+MNIST_IMAGES = glob('tests/images/136.pgm')
 VWW_IMAGES = glob('tests/vwwimages/*.png')
 
 def save_state(temp_dir, width, fusions=False, adjust=False):
@@ -41,7 +53,7 @@ def save_state(temp_dir, width, fusions=False, adjust=False):
     if adjust:
         G.adjust_order()
     if fusions:
-        get_std_match_group().match(G)
+        get_pow2_match_group().match(G)
         G.add_dimensions()
     stats_collector = ActivationStatsCollector()
     for input_file in MNIST_IMAGES:
@@ -52,7 +64,7 @@ def save_state(temp_dir, width, fusions=False, adjust=False):
     astats = stats_collector.reduce_stats()
     stats_collector = FilterStatsCollector()
     fstats = stats_collector.collect_stats(G)
-    quantizer = SimpleQuantizer(astats, fstats, force_width=width)
+    quantizer = SymmetricQuantizer(astats, fstats, force_width=width)
     qrecs = quantizer.quantize(G)
     G.quantization = qrecs
     dump_state(G, include_parameters=True, state_path=file_name)
@@ -95,6 +107,54 @@ def two_conv_graph():
     G.add_dimensions()
     yield G
 
+@pytest.fixture()
+def actfusion_graph():
+    G = NNGraph(name='actfusion_graph')
+    ti1 = G.add_input(Dim.unnamed([10, 10, 2])).name
+    ti2 = G.add_input(Dim.unnamed([10, 10, 2])).name
+    c1filt = Conv2DFilterDim(3, 3, 2, in_c=2)
+    c1filt.impose_order(['out_c', 'h', 'w', 'in_c'])
+    n1 = Conv2DParameters("node1",
+                          filt=c1filt,
+                          stride=StrideDim(1, 1),
+                          padding=PadDim(0),
+                          in_dims_hint=SparseList([['h', 'w', 'c']]),
+                          out_dims_hint=SparseList([['h', 'w', 'c']]))
+    G.add_node(n1)
+    w1 = [[0.25, 0.25], [0.25, 0.25], [0.25, 0.25]]
+    w1 = [w1, w1, w1]
+    w2 = [[0.75, 0.75], [0.75, 0.75], [0.75, 0.75]]
+    w2 = [w2, w2, w2]
+    n1.weights = np.array([w1, w2])
+    n1a = ReluActivationParameters("node1a")
+    G.add_node(n1a)
+    c2filt = Conv2DFilterDim(3, 3, 2, in_c=2)
+    c2filt.impose_order(['out_c', 'h', 'w', 'in_c'])
+    n2 = Conv2DParameters("node2",
+                          filt=c2filt,
+                          stride=StrideDim(1, 1),
+                          padding=PadDim(0),
+                          in_dims_hint=SparseList([['h', 'w', 'c']]),
+                          out_dims_hint=SparseList([['h', 'w', 'c']]))
+    G.add_node(n2)
+    w3 = [[0.75, 0.25], [0.75, 0.25], [0.75, 0.25]]
+    w3 = [w3, w3, w3]
+    n2.weights = np.array([w3, w3])
+    n3 = MatrixAddParameters("node3")
+    G.add_node(n3)
+    n4 = ReluActivationParameters("node4")
+    G.add_node(n4)
+    to = G.add_output()
+    G.add_edge(NNEdge(ti1, n1))
+    G.add_edge(NNEdge(n1, n1a))
+    G.add_edge(NNEdge(ti2, n2))
+    G.add_edge(NNEdge(n1a, n3, to_idx=0))
+    G.add_edge(NNEdge(n2, n3, to_idx=1))
+    G.add_edge(NNEdge(n3, n4))
+    G.add_edge(NNEdge(n4, to))
+    G.add_dimensions()
+    yield G
+
 @pytest.fixture(scope="session")
 def mnist_unfused_16bit_state():
     temp_dir = mkdtemp()
@@ -113,12 +173,6 @@ def mnist_fused_8bit_state():
     yield save_state(temp_dir, 8, True, True)
     rmtree(temp_dir)
 
-@pytest.fixture(scope="session")
-def value_cache():
-    temp_dir = mkdtemp()
-    yield IntermediateCache(temp_dir)
-    rmtree(temp_dir)
-
 @pytest.fixture(scope="session")
 def vww_graph():
     yield VISUAL_GRAPH
@@ -127,6 +181,10 @@ def vww_graph():
 def qvww_graph():
     yield QVISUAL_GRAPH
 
+@pytest.fixture(scope="session")
+def mobv2_symq_graph():
+    yield MN2_VWW_SYM_Q_GRAPH
+
 @pytest.fixture(scope="session")
 def mnist_graph():
     yield MNIST_GRAPH
@@ -163,6 +221,26 @@ def mn3q_graph():
 def mn3q2_graph():
     yield MN3Q2_GRAPH
 
+@pytest.fixture(scope="session")
+def mn2_graph():
+    yield MN2_GRAPH
+
+@pytest.fixture(scope="session")
+def mn1q_graph():
+    yield MN1Q_GRAPH
+
+@pytest.fixture(scope="session")
+def mn1f_graph():
+    yield MN1F_GRAPH
+
+@pytest.fixture(scope="session")
+def lprnet_graph():
+    yield LPRNET_Q_GRAPH
+
+@pytest.fixture(scope="session")
+def squeezenet_graph():
+    yield SQUEEZE_GRAPH
+
 @pytest.fixture(scope="session")
 def ir_images():
     yield [
diff --git a/tools/nntool/tests/graph/mobv1_quant.tflite b/tools/nntool/tests/graph/mobv1_quant.tflite
index 5745b810a582b89e763d510ba0ec6cac9ebcaacc..945bd1e88a31d4a1c15e82591d14d1d68993722d 100644
GIT binary patch
delta 1011
zcma*ke@xVM9LMqZmpkS7<sm1*83u<3f*>4x@A!PbeD4?M*<q>3)*qNDZSW5W5e%!z
z7RUI~)dG`&oK91tKX7X0mhxpN_r(P|nx?|mECgLtvyDG&1sl|&*CqYg)@OU{vwgn%
zJU^d(zN6<(M~s4B=Hv)jBWvX~@>)6aimtb_buN=A*~SsZXxLkBBK|x_2bP|#z4sDP
z^PBiW<fc*$O-4o#y~fd_`x^4Etf*Cy96d2==-X+muQm?9K@|BmNAEu6s4t779i>Ei
z577rXMBks{sK-n6hnJ&+$8H4-T{?(@Xo!JWh=X;Yhj>^I31EN?kO<E~5+s8WHp26e
z0-N9kNQE>oK{{*(Gh{#}Y=JDuhOLkTxv&lLARjDH0ENJV6>Lxh3<MCN7$mTR1DxPe
z3|;P-Bj(AKXCwSX;dj;EoOOifn%usU@O<I0{zmYrt|T?U>q@`_+ZA5t9d9xHyZ68L
zWdyqiJShR2?1deQO@1+_BV+Zv6}103u+2~QaDd3~TAkIj@WzeG*(hH**SgS@C`|qJ
zBimki!y;2hzAJIPuw;D9>L1@_7f0$XqTMLYIEIDtz;s^vFU^eIRvG0#VwLsR`LRNw
zV2jx(Ol}RZHOt3Y!pT%ifBM&!2_Yc#jf^p?U&D_6oF!~9aAH}iR`eE}6LadunOggu
z5d7j5W+n>u40w{2K#XrUS246u!?(@!N>j#aY3^gUwY^2lXUoT=S+P>;j4zYs@6Pjo
z_MfnyX&3Di7hf$De*dkwHr6HGD?2FtdRb!KM-*$shbN?gPuEJ()rrzOOK14jik;SA
zZk#W-;*RM_5qW=dE=PAc2U1kl+0<V2+5W4}ENRMdsOgS#*J3TJZ~oksym^nSaq)p|
z{?J#B@}nb8OV2~+N8)ht>6jwnKoaMAy|2T0#nj;FxVDLXGk%K&FR#`IZ+>Y|&zAoX
zLR~?9&{U;YYg=YQ`}CiLP*(;UlSYH_Ln`W5_r^AbaKn&0;pNbShWEquq4|AD>T+G{
bh)3)Vp{}5=1g-0Qm(2g?uPR!-&(8e~uU&9G

delta 953
zcmcK1T}V@57zgn8%&$2=Hl1r~md=mTG&eo-V|%wVH?0McHV|}#8stryNYX_lq~;lm
za;796i_o$Qp)8~=7sWm*EC>q0n<6z4yeTh|qClehZ=<`q?7;7N-uL0W|HI)8-n=0S
zLO;*&B0h?b=41F+KF%W^8|tekgmj5e2nmJ^pfpAi@*P6^ag_D&lGF&Xgrr3i@&xbS
zjSCNhDOl?<_r*l^sKHf~EzCEN(TF~Zy#tznVs;7Lg?a19OQ+l=hIo)b0wh8bB!d)W
zkOHY7hcr;Y4p2fmWI!hDge=$vyCEBLKn1yw2l-F{dtfgVLJ{nPVkm+APzq|$KpB(+
z3tFgvN~nTr(19K(7{CY|n7ndV&C0p_55FQ0ew;AyhM6^n`uUC~bEsEd_!$&Fi_O_i
zR%`|f)OuNQ-9oSG&)I*SD-cF!ELqM9z77s}EBJ%O4q-9gEK?BDZwj3vq^~y83CRh)
zo#~y5x7wJ-ft4}3l+jLW+n#E8;!qdyBXm{QMu%h#^p3Af^J99#Fgd6**qrZ6tG|BH
zcO;tVVnZw4nxj<<<<(`P%M*0wb}W^&D`@JqY|V7;D~(W+WG!U!BcE|5SdTEx*VjI(
z|JSEVn%_xIvZQW<+m^UEe%YiQ{1(ODJNA$(q)W!mp4Xgu{S(`D=DsOCuij)?w3lyo
zJ~!HieVpd%GIvGySl{++UfZH%OvlF^oJZAdT(eKIEyIVj!d#LyobG<%mItP6>wctr
zknUEUkOn$>SNwMAEkDxT^QV<TLG~zs^an>1d;AJ|)?br)*#EZsVkq6SX;%iePxbjM
cx-mb}-AMNc+GOi&_?puGc1_-Bsnx*z1~bb<f&c&j

diff --git a/tools/nntool/tests/test_cmds.py b/tools/nntool/tests/test_cmds.py
index 6e64654e5..319a00d8a 100644
--- a/tools/nntool/tests/test_cmds.py
+++ b/tools/nntool/tests/test_cmds.py
@@ -5,5 +5,3 @@ def test_cmd1():
     with tempfile.TemporaryDirectory() as temp_directory:
         shell = NNToolShell({}, temp_directory, startup_script="tests/cmd_scripts/test1.txt")
         shell.cmdloop()
-        
-        
\ No newline at end of file
diff --git a/tools/nntool/tests/test_cross_layer_range_eq.py b/tools/nntool/tests/test_cross_layer_range_eq.py
index ca74673f3..6cfef2696 100644
--- a/tools/nntool/tests/test_cross_layer_range_eq.py
+++ b/tools/nntool/tests/test_cross_layer_range_eq.py
@@ -16,19 +16,20 @@
 import numpy as np
 
 from importer.importer import create_graph
-from execution.execute_graph import execute
+from execution.graph_executer import GraphExecuter
 from graph.matches.match_gap_conv import MatchAllGapConv
 from utils.data_importer import import_data
 from quantization import cross_layer_range_eq as cl
 
 def test_cross_mini(two_conv_graph):
     G = two_conv_graph
-    output1 = execute(G, [np.full([10, 10, 2], 1)])
+    executer = GraphExecuter(G)
+    output1 = executer.execute([np.full([10, 10, 2], 1)])
     groups, neurons = cl.discover_groups(G)
     assert groups and neurons, "Nothing discovered"
     cl.process_groups(groups)
     cl.update_parameters(neurons)
-    output2 = execute(G, [np.full([10, 10, 2], 1)])
+    output2 = executer.execute([np.full([10, 10, 2], 1)])
     assert np.max(np.abs(output1[3][0] - output2[3][0])) < 0.00001
 
 def test_cross_simple(mnist_graph):
@@ -49,19 +50,3 @@ def test_cross_fused(mnist_graph):
     assert groups and neurons, "Nothing discovered"
     cl.process_groups(groups)
     cl.update_parameters(neurons)
-
-def test_cross_large(vww_graph, vww_images):
-    G = create_graph(vww_graph, opts={"load_tensors":True})
-    G.add_dimensions()
-    input_tensor = import_data(vww_images[4], offset=0, divisor=255)
-    output1 = execute(G, [input_tensor])
-    groups, neurons = cl.discover_groups(G, do_relun=True)
-    group_inputs = [G.in_edges(grp[0][0]['name'])[0].from_node.step_idx for grp in groups]
-    group_outputs = [grp[-1][-1]['node'].step_idx for grp in groups]
-    assert groups and neurons, "Nothing discovered"
-    cl.process_groups(groups, threshold=0.0001)
-    cl.update_parameters(neurons)
-    output2 = execute(G, [input_tensor])
-    assert max([np.max(np.abs(output1[i][0] - output2[i][0])) for i in group_inputs]) < 0.0001
-    assert max([np.max(np.abs(output1[i][0] - output2[i][0])) for i in group_outputs]) < 0.0001
-    assert np.max(np.abs(output1[-1][0] - output2[-1][0])) < 0.0001
diff --git a/tools/nntool/tests/test_execution.py b/tools/nntool/tests/test_execution.py
index 357c61e0a..7fba74f06 100644
--- a/tools/nntool/tests/test_execution.py
+++ b/tools/nntool/tests/test_execution.py
@@ -19,14 +19,14 @@
 
 import numpy as np
 
-from execution.execute_graph import execute, execute_iterator
+from execution.graph_executer import GraphExecuter
 from execution.quantization_mode import QuantizationMode
 from generation.code_generator import CodeGenerator
 from generation.default_template import default_template
 from generation.naming_convension import DefaultNamingConvension
-from graph.matches.matches import get_std_match_group
+from graph.matches.matches import get_pow2_match_group
 from importer.importer import create_graph
-from quantization.simple_auto_quantify import SimpleQuantizer
+from quantization.symmetric.symmetric_quantizer import SymmetricQuantizer
 from stats.activation_stats_collector import ActivationStatsCollector
 from stats.filter_stats_collector import FilterStatsCollector
 from utils.data_importer import import_data
@@ -41,88 +41,90 @@ def test_graph_calc(mnist_graph, mnist_images):
     normal_steps = 0
     fusion_steps = 0
     # pylint: disable=unused-variable
-    for step_idx, step, node, output, fusion_op_name, fusion_params, details in\
-        execute_iterator(G, [input_tensor]):
-        if fusion_op_name is not None:
+    executer = GraphExecuter(G)
+    for step_idx, pnode, fnode, output_tensors, details in\
+        executer.execute_iterator([input_tensor]):
+        if fnode is not None:
             fusion_steps += 1
         else:
             normal_steps += 1
     assert normal_steps == 10 and fusion_steps == 0
 
-def test_graph_calc_iterator_cached(value_cache, mnist_graph, mnist_images):
-    G = create_graph(mnist_graph, opts={"load_tensors":True})
-    G.add_dimensions()
-    input_tensor = import_data(mnist_images[0], height=28, width=28, offset=0, divisor=255)
-    input_tensor = input_tensor.reshape((28, 28, 1))
-    normal_steps = 0
-    fusion_steps = 0
-    # pylint: disable=unused-variable
-    for step_idx, step, node, output, fusion_op_name, fusion_params, details in\
-        execute_iterator(G, [input_tensor], value_cache=value_cache):
-        if fusion_op_name is not None:
-            fusion_steps += 1
-        else:
-            normal_steps += 1
-    assert normal_steps == 10 and fusion_steps == 0
-
-def test_graph_calc_quantized16(value_cache, mnist_unfused_16bit_state, mnist_images):
-    G = load_state(mnist_unfused_16bit_state, value_cache=value_cache)
+def test_graph_calc_quantized16(mnist_unfused_16bit_state, mnist_images):
+    G = load_state(mnist_unfused_16bit_state)
     input_tensor = import_data(mnist_images[0], height=28, width=28, divisor=255, offset=0)
     input_tensor = input_tensor.reshape((28, 28, 1))
-    output1 = execute(G, [input_tensor], limit=7)
+    executer = GraphExecuter(G, qrecs=G.quantization)
+    output1 = executer.execute([input_tensor], step_idx_limit=7)
     input_tensor = import_data(mnist_images[0], height=28, width=28, divisor=255, offset=0)
     input_tensor = input_tensor.reshape((28, 28, 1))
-    output2 = execute(G, [input_tensor], qrecs=G.quantization, limit=7, dequantize=True)
+    output2 = executer.execute([input_tensor], qmode=QuantizationMode.all_dequantize(), step_idx_limit=7)
     diffs = []
     for i in range(8):
         diffs.append(output1[i][0] - output2[i][0])
     assert np.max(np.abs(diffs[7])) < 0.03
 
-def test_graph_calc_quantized8(value_cache, mnist_unfused_8bit_state, mnist_images):
-    G = load_state(mnist_unfused_8bit_state, value_cache=value_cache)
+def test_graph_calc_quantized8(mnist_unfused_8bit_state, mnist_images):
+    G = load_state(mnist_unfused_8bit_state)
     input_tensor = import_data(mnist_images[0], height=28, width=28, offset=0, divisor=255)
     input_tensor = input_tensor.reshape((28, 28, 1))
-    output1 = execute(G, [input_tensor], limit=7)
+    executer = GraphExecuter(G, qrecs=G.quantization)
+    output1 = executer.execute([input_tensor], step_idx_limit=7)
     input_tensor = import_data(mnist_images[0], height=28, width=28, offset=0, divisor=255)
     input_tensor = input_tensor.reshape((28, 28, 1))
-    output2 = execute(G, [input_tensor], qrecs=G.quantization, limit=7, dequantize=True)
+    output2 = executer.execute([input_tensor], qmode=QuantizationMode.all_dequantize(), step_idx_limit=7)
     diffs = []
     for i in range(8):
         diffs.append(output1[i][0] - output2[i][0])
     assert np.max(np.abs(diffs[7])) < 9
 
-def test_graph_calc_quantize_one(value_cache, mnist_unfused_16bit_state, mnist_images):
-    G = load_state(mnist_unfused_16bit_state, value_cache=value_cache)
+def test_graph_calc_quantize_one(mnist_unfused_16bit_state, mnist_images):
+    G = load_state(mnist_unfused_16bit_state)
     input_tensor = import_data(mnist_images[0], height=28, width=28, offset=0, divisor=255)
     input_tensor = input_tensor.reshape((28, 28, 1))
-    output1 = execute(G, [input_tensor])
+    executer = GraphExecuter(G, qrecs=G.quantization)
+    output1 = executer.execute([input_tensor])
     input_tensor = import_data(mnist_images[0], height=28, width=28, offset=0, divisor=255)
     input_tensor = input_tensor.reshape((28, 28, 1))
-    output2 = execute(G, [input_tensor], qmode=QuantizationMode.step(1), qrecs=G.quantization)
+    output2 = executer.execute([input_tensor], qmode=QuantizationMode.step(1))
     diffs = []
     for i, out1 in enumerate(output1):
         diffs.append(out1[0] - output2[i][0])
     assert np.min(diffs[7]) > -2 and np.max(diffs[7]) < 2
 
-def test_graph_calc_quantize_one_2(value_cache, mnist_unfused_16bit_state, mnist_images):
-    G = load_state(mnist_unfused_16bit_state, value_cache=value_cache)
+def test_graph_calc_quantize_one_2(mnist_unfused_16bit_state, mnist_images):
+    G = load_state(mnist_unfused_16bit_state)
     input_tensor = import_data(mnist_images[0], height=28, width=28, offset=0, divisor=255)
     input_tensor = input_tensor.reshape((28, 28, 1))
-    output1 = execute(G, [input_tensor])
+    executer = GraphExecuter(G, qrecs=G.quantization)
+    output1 = executer.execute([input_tensor])
     input_tensor = import_data(mnist_images[0], height=28, width=28, offset=0, divisor=255)
     input_tensor = input_tensor.reshape((28, 28, 1))
-    output2 = execute(G, [input_tensor], qmode=QuantizationMode.step(4), qrecs=G.quantization)
+    output2 = executer.execute([input_tensor], qmode=QuantizationMode.step(4))
     diffs = []
     for i, out1 in enumerate(output1):
         diffs.append(out1[0] - output2[i][0])
     assert np.min(diffs[7]) > -2 and np.max(diffs[7]) < 2
 
+def test_graph_calc_quantized8_qnoq(mnist_unfused_8bit_state, mnist_images):
+    G = load_state(mnist_unfused_8bit_state)
+    input_tensor = import_data(mnist_images[0], height=28, width=28, offset=0, divisor=255)
+    input_tensor = input_tensor.reshape((28, 28, 1))
+    executer = GraphExecuter(G, qrecs=G.quantization)
+    diffs = []
+    for step_idx, pnode, output, details, qoutput, qdetails, fnode in\
+        executer.execute_qnoq_iterator([input_tensor]):
+        del step_idx, pnode, details, qdetails, fnode
+        diffs.append(output[0] - qoutput[0])
+    assert np.max(np.abs(diffs[7])) < 9
+
 def test_graph_execute_complex(ir_graph, ir_images):
     G = create_graph(ir_graph, opts={"load_tensors":True})
     G.add_dimensions()
     input_tensor = import_data(ir_images[0], offset=0, divisor=255)
     input_tensor = input_tensor.reshape((80, 80, 1))
-    execute(G, [input_tensor])
+    executer = GraphExecuter(G)
+    executer.execute([input_tensor])
 
 def test_graph_kws(kws_graph, kws_sounds):
     G = create_graph(kws_graph, opts={"load_tensors":True})
@@ -131,9 +133,10 @@ def test_graph_kws(kws_graph, kws_sounds):
     normal_steps = 0
     fusion_steps = 0
     # pylint: disable=unused-variable
-    for step_idx, step, node, output, fusion_op_name, fusion_params, details in\
-        execute_iterator(G, [input_tensor]):
-        if fusion_op_name is not None:
+    executer = GraphExecuter(G)
+    for step_idx, node, fnode, output_tensors, details in\
+        executer.execute_iterator([input_tensor]):
+        if fnode is not None:
             fusion_steps += 1
         else:
             normal_steps += 1
@@ -143,7 +146,7 @@ def test_graph_kws_auto_quant(kws_graph, kws_sounds):
     G = create_graph(kws_graph, opts={"load_tensors":True})
     G.add_dimensions()
     G.adjust_order()
-    get_std_match_group().match(G)
+    get_pow2_match_group().match(G)
     G.add_dimensions()
     stats_collector = ActivationStatsCollector()
     for input_file in kws_sounds:
@@ -152,15 +155,36 @@ def test_graph_kws_auto_quant(kws_graph, kws_sounds):
     astats = stats_collector.reduce_stats()
     stats_collector = FilterStatsCollector()
     fstats = stats_collector.collect_stats(G)
-    quantizer = SimpleQuantizer(astats, fstats, force_width=16)
+    quantizer = SymmetricQuantizer(astats, fstats, force_width=16)
+    qrecs = quantizer.quantize(G)
+    G.quantization = qrecs
+
+def test_graph_imu_auto_quant_and_execute_quant():
+    G = create_graph("tests/graph/imu.tflite", opts={"load_tensors":True})
+    G.add_dimensions()
+    G.adjust_order()
+    get_pow2_match_group().match(G)
+    G.add_dimensions()
+    stats_collector = ActivationStatsCollector()
+    for input_file in ['tests/images/imu0.pgm']:
+        input_tensor = import_data(input_file, offset=0, divisor=256, nptype='int16')
+        stats_collector.collect_stats(G, [input_tensor])
+    astats = stats_collector.reduce_stats()
+    stats_collector = FilterStatsCollector()
+    fstats = stats_collector.collect_stats(G)
+    quantizer = SymmetricQuantizer(astats, fstats, force_width=16)
     qrecs = quantizer.quantize(G)
     G.quantization = qrecs
+    executer = GraphExecuter(G, qrecs=qrecs)
+    for input_file in ['tests/images/imu0.pgm']:
+        input_tensor = import_data(input_file, offset=0, divisor=256, nptype='int16')
+        output_ = executer.execute([input_tensor], qmode=QuantizationMode.all())
 
 def test_fake_values_concat(concat_test_graph):
     G = create_graph(concat_test_graph, opts={"load_tensors":True})
     G.add_dimensions()
     G.adjust_order()
-    matcher = get_std_match_group()
+    matcher = get_pow2_match_group()
     matcher.match(G)
     G.add_dimensions()
     G.constant_store.fake = True
@@ -169,7 +193,7 @@ def test_fake_values_concat(concat_test_graph):
     astats = stats_collector.reduce_stats()
     stats_collector = FilterStatsCollector()
     fstats = stats_collector.collect_stats(G)
-    quantizer = SimpleQuantizer(astats, fstats, force_width=8)
+    quantizer = SymmetricQuantizer(astats, fstats, force_width=8)
     qrecs = quantizer.quantize(G)
     G.quantization = qrecs
     with tempfile.TemporaryDirectory() as tempdir:
@@ -177,7 +201,7 @@ def test_fake_values_concat(concat_test_graph):
             'default_input_location': 'ARG_LOC_L2',
             'default_output_location': 'ARG_LOC_L2',
             'default_global_location': 'ARG_LOC_L3_HFLASH',
-            'default_local_location': '0',
+            'default_local_location': 'AT_MEM_UNDEF',
             'at_ver': 3,
             'tensor_directory': tempdir
         }
@@ -185,8 +209,8 @@ def test_fake_values_concat(concat_test_graph):
         print(default_template(G, code_generator=code_gen))
         code_gen.write_constants()
 
-# This test requires make test_files to be run in the sample project
-# directory. With the 8 bit config
+# # This test requires make test_files to be run in the sample project
+# # directory. With the 8 bit config
 
 def test_equivalence(mnist_graph, mnist_images):
     G = create_graph(mnist_graph, opts={"load_tensors":True})
@@ -195,7 +219,8 @@ def test_equivalence(mnist_graph, mnist_images):
     G.add_dimensions()
     input_tensor = import_data(mnist_images[0], height=28, width=28,
                                divisor=255, offset=0, transpose=False)
-    output_ = execute(G, [input_tensor])
+    executer = GraphExecuter(G)
+    output_ = executer.execute([input_tensor])
     with open("tests/h5_pickles/weights.pickle", 'rb') as fp:
         verif_weights = pickle.load(fp)
     assert np.array_equal(verif_weights[0]['weights'], G.graph_state.steps[1]['node'].weights)
diff --git a/tools/nntool/tests/test_fusions.py b/tools/nntool/tests/test_fusions.py
index 1c2736d8a..a20c2d063 100644
--- a/tools/nntool/tests/test_fusions.py
+++ b/tools/nntool/tests/test_fusions.py
@@ -1,6 +1,11 @@
+import numpy as np
+from PIL import Image
+
 from importer.tflite.new_tflite_graph_all import TfliteImporter
 from graph.matches.match_gap_conv import MatchAllGapConv
-from graph.matches.matches import get_std_match_group
+from graph.matches.matches import get_pow2_match_group, get_scale8_match_group
+from execution.graph_executer import GraphExecuter
+from execution.quantization_mode import QuantizationMode
 
 def test_fusions1(mnist_graph):
     tfi = TfliteImporter()
@@ -31,6 +36,26 @@ def test_fusions4(ssd_graph):
     tfi = TfliteImporter()
     G = tfi.create_graph(ssd_graph, {})
     G.add_dimensions()
-    matcher = get_std_match_group()
+    matcher = get_pow2_match_group()
+    matcher.match(G)
+    G.add_dimensions()
+
+def test_external_biases_sq8(qvww_graph):
+    # this model has at the end an external biases layer as constant add
+    tfi = TfliteImporter()
+    G = tfi.create_graph(qvww_graph, {"load_quantization": True, "load_tensors": True})
+    G.add_dimensions()
+    matcher = get_scale8_match_group()
     matcher.match(G)
     G.add_dimensions()
+    image = 'tests/vwwimages/COCO_val2014_000000174838_1.png'
+    img_in = Image.open(image)
+    img_in = img_in.resize((238, 208))
+    input_tensor = np.array(img_in, dtype=np.uint8)
+    input_tensor = (input_tensor.astype(np.float32) - 128) / 128
+    executer = GraphExecuter(G, qrecs=G.quantization)
+    # check if nntool can execute
+    qoutput_tensors = executer.execute([input_tensor], qmode=QuantizationMode.all_dequantize())
+    foutput_tensors = executer.execute([input_tensor], qmode=None)
+    diff = [q[0]-f[0] for q,f in zip(qoutput_tensors, foutput_tensors)]
+    assert max([np.max(d) for d in diff]) < 2.2
diff --git a/tools/nntool/tests/test_generator.py b/tools/nntool/tests/test_generator.py
index 30c126682..47c60d88c 100644
--- a/tools/nntool/tests/test_generator.py
+++ b/tools/nntool/tests/test_generator.py
@@ -2,52 +2,56 @@
 import logging
 import os
 import tempfile
+import numpy as np
 
 from generation.code_generator import CodeGenerator
-from generation.code_generators import gen_conv_pool_relu
+# from generation.code_generators import gen_conv_pool_relu
 from generation.default_template import default_template
 from generation.naming_convension import DefaultNamingConvension
 from utils.new_param_state import load_state
-from utils.node_id import NodeId
+from importer.tflite.new_tflite_graph_all import TfliteImporter
+from graph.matches.matches import get_fusion, get_scale8_match_group
+from quantization.multiplicative.mult_quantizer import MultQuantizer
+from stats.activation_stats_collector import ActivationStatsCollector
 
-def test_conv_pool_relu_kernel_gen(mnist_unfused_8bit_state):
-    G = load_state(mnist_unfused_8bit_state)
-    conv_params = G.graph_state.steps[1]['node']
-    relu_params = G.graph_state.steps[2]['node']
-    pool_params = G.graph_state.steps[3]['node']
-    conv_q = G.quantization[NodeId(conv_params)]
-    pool_q = G.quantization[NodeId(pool_params)]
-    relu_q = G.quantization[NodeId(relu_params)]
-    code_block = gen_conv_pool_relu("Test", conv_params, conv_q, None, None, None, None)
-    assert str(code_block) ==\
-'CNN_ConvolutionPoolReLU("Test", 0, 1, 1, 1, 1, 7, 7, 7, 6, 1, 1, 1, 1, 1, 32, 28, 28,\n    KOP_CONV_DP, 5, 5, 1, 1, 1, 1, 0,\n    KOP_NONE, 0, 0, 0, 0, 0, 0, 0, KOP_NONE);'
-    code_block = gen_conv_pool_relu("Test", conv_params, conv_q, pool_params, pool_q, relu_params, relu_q)
-    assert str(code_block) ==\
-'CNN_ConvolutionPoolReLU("Test", 0, 1, 1, 1, 1, 7, 7, 7, 6, 1, 1, 1, 1, 1, 32, 28, 28,\n    KOP_CONV_DP, 5, 5, 1, 1, 1, 1, 0,\n    KOP_MAXPOOL, 2, 2, 1, 1, 2, 2, 0, KOP_RELU);'
-    code_block = gen_conv_pool_relu("Test", conv_params, conv_q, None, None, relu_params, relu_q)
-    assert str(code_block) ==\
-'CNN_ConvolutionPoolReLU("Test", 0, 1, 1, 1, 1, 7, 7, 7, 6, 1, 1, 1, 1, 1, 32, 28, 28,\n    KOP_CONV_DP, 5, 5, 1, 1, 1, 1, 0,\n    KOP_NONE, 0, 0, 0, 0, 0, 0, 0, KOP_RELU);'
-    code_block = gen_conv_pool_relu("Test", conv_params, conv_q, pool_params, pool_q, None, None)
-    assert str(code_block) ==\
-'CNN_ConvolutionPoolReLU("Test", 0, 1, 1, 1, 1, 7, 7, 7, 6, 1, 1, 1, 1, 1, 32, 28, 28,\n    KOP_CONV_DP, 5, 5, 1, 1, 1, 1, 0,\n    KOP_MAXPOOL, 2, 2, 1, 1, 2, 2, 0, KOP_NONE);'
-    code_block = gen_conv_pool_relu("Test", None, None, pool_params, pool_q, relu_params, relu_q)
-    assert str(code_block) ==\
-'CNN_PoolReLU("Test", 0, 1, 1, 6, 6, 1, 1, 32, 32, 24, 24,\n    KOP_MAXPOOL, 2, 2, 1, 1, 2, 2, 0, KOP_RELU);'
-    code_block = gen_conv_pool_relu("Test", None, None, None, None, relu_params, relu_q)
-    assert str(code_block) ==\
-'CNN_PoolReLU("Test", 0, 1, 1, 6, 6, 1, 1, 32, 32, 24, 24,\n    KOP_NONE, 0, 0, 0, 0, 0, 0, 0, KOP_RELU);'
+# def test_conv_pool_relu_kernel_gen(mnist_unfused_8bit_state):
+#     G = load_state(mnist_unfused_8bit_state)
+#     conv_params = G.graph_state.steps[1]['node']
+#     relu_params = G.graph_state.steps[2]['node']
+#     pool_params = G.graph_state.steps[3]['node']
+#     conv_q = G.quantization[NodeId(conv_params)]
+#     pool_q = G.quantization[NodeId(pool_params)]
+#     relu_q = G.quantization[NodeId(relu_params)]
+#     code_block = gen_conv_pool_relu("Test", conv_params, conv_q, None, None, None, None)
+#     assert str(code_block) ==\
+# 'CNN_ConvolutionPoolReLU("Test", 0, 1, 1, 1, 1, 7, 7, 7, 6, 1, 1, 1, 1, 1, 32, 28, 28,\n    KOP_CONV_DP, 5, 5, 1, 1, 1, 1, 0,\n    KOP_NONE, 0, 0, 0, 0, 0, 0, 0, KOP_NONE);'
+#     code_block = gen_conv_pool_relu("Test", conv_params, conv_q, pool_params, pool_q, relu_params, relu_q)
+#     assert str(code_block) ==\
+# 'CNN_ConvolutionPoolReLU("Test", 0, 1, 1, 1, 1, 7, 7, 7, 6, 1, 1, 1, 1, 1, 32, 28, 28,\n    KOP_CONV_DP, 5, 5, 1, 1, 1, 1, 0,\n    KOP_MAXPOOL, 2, 2, 1, 1, 2, 2, 0, KOP_RELU);'
+#     code_block = gen_conv_pool_relu("Test", conv_params, conv_q, None, None, relu_params, relu_q)
+#     assert str(code_block) ==\
+# 'CNN_ConvolutionPoolReLU("Test", 0, 1, 1, 1, 1, 7, 7, 7, 6, 1, 1, 1, 1, 1, 32, 28, 28,\n    KOP_CONV_DP, 5, 5, 1, 1, 1, 1, 0,\n    KOP_NONE, 0, 0, 0, 0, 0, 0, 0, KOP_RELU);'
+#     code_block = gen_conv_pool_relu("Test", conv_params, conv_q, pool_params, pool_q, None, None)
+#     assert str(code_block) ==\
+# 'CNN_ConvolutionPoolReLU("Test", 0, 1, 1, 1, 1, 7, 7, 7, 6, 1, 1, 1, 1, 1, 32, 28, 28,\n    KOP_CONV_DP, 5, 5, 1, 1, 1, 1, 0,\n    KOP_MAXPOOL, 2, 2, 1, 1, 2, 2, 0, KOP_NONE);'
+#     code_block = gen_conv_pool_relu("Test", None, None, pool_params, pool_q, relu_params, relu_q)
+#     assert str(code_block) ==\
+# 'CNN_PoolReLU("Test", 0, 1, 1, 6, 6, 1, 1, 32, 32, 24, 24,\n    KOP_MAXPOOL, 2, 2, 1, 1, 2, 2, 0, KOP_RELU);'
+#     code_block = gen_conv_pool_relu("Test", None, None, None, None, relu_params, relu_q)
+#     assert str(code_block) ==\
+# 'CNN_PoolReLU("Test", 0, 1, 1, 6, 6, 1, 1, 32, 32, 24, 24,\n    KOP_NONE, 0, 0, 0, 0, 0, 0, 0, KOP_RELU);'
 
 def test_unfused_operational(caplog, mnist_unfused_8bit_state):
-    caplog.set_level(logging.INFO)
+    caplog.set_level(logging.DEBUG)
     G = load_state(mnist_unfused_8bit_state)
     opts = {
         'default_input_location': 'ARG_LOC_L2',
         'default_output_location': 'ARG_LOC_L2',
         'default_global_location': 'ARG_LOC_L3_HFLASH',
-        'default_local_location': '0',
+        'default_local_location': 'AT_MEM_UNDEF',
     }
     code_gen = CodeGenerator(G, DefaultNamingConvension(G), opts)
-    default_template(G, code_generator=code_gen)
+    print(default_template(G, code_generator=code_gen))
 
 def test_fused_operational(caplog, mnist_fused_8bit_state):
     caplog.set_level(logging.INFO)
@@ -56,7 +60,7 @@ def test_fused_operational(caplog, mnist_fused_8bit_state):
         'default_input_location': 'ARG_LOC_L2',
         'default_output_location': 'ARG_LOC_L2',
         'default_global_location': 'ARG_LOC_L3_HFLASH',
-        'default_local_location': '0',
+        'default_local_location': 'AT_MEM_UNDEF',
     }
     code_gen = CodeGenerator(G, DefaultNamingConvension(G), opts)
     default_template(G, code_generator=code_gen)
@@ -68,16 +72,123 @@ def test_tensor_dump(mnist_fused_8bit_state):
             'default_input_location': 'ARG_LOC_L2',
             'default_output_location': 'ARG_LOC_L2',
             'default_global_location': 'ARG_LOC_L3_HFLASH',
-            'default_local_location': '0',
+            'default_local_location': 'AT_MEM_UNDEF',
             'tensor_directory': tempdir
         }
         code_gen = CodeGenerator(G, DefaultNamingConvension(G), opts)
         default_template(G, code_generator=code_gen)
         code_gen.write_constants()
         files_list = [f for f in os.listdir(tempdir) if os.path.isfile(os.path.join(tempdir, f))]
-        assert set(files_list) == set(['Step2Weights.tensor',
-                                       'Step1Weights.tensor',
-                                       'Step1Biases.tensor',
-                                       'Step3Weights.tensor',
-                                       'Step2Biases.tensor',
-                                       'Step3Biases.tensor'])
+        assert set(files_list) == set(['S2_Weights.tensor',
+                                       'S1_Weights.tensor',
+                                       'S1_Biases.tensor',
+                                       'S3_Weights.tensor',
+                                       'S2_Biases.tensor',
+                                       'S3_Biases.tensor'])
+
+
+def test_gen_vergesense(caplog):
+    caplog.set_level(logging.DEBUG)
+    tfi = TfliteImporter()
+    G = tfi.create_graph("tests/graph/marco_17_04.tflite", {'load_tensors': True, 'load_quantization': True})
+    G.add_dimensions()
+    G.adjust_order()
+    matcher = get_scale8_match_group()
+    matcher.match(G)
+    G.add_dimensions()
+    with tempfile.TemporaryDirectory() as tempdir:
+        opts = {
+            'default_input_location': 'ARG_LOC_L2',
+            'default_output_location': 'ARG_LOC_L2',
+            'default_global_location': 'ARG_LOC_L3_HFLASH',
+            'default_local_location': 'AT_MEM_UNDEF',
+            'tensor_directory': tempdir
+        }
+        code_gen = CodeGenerator(G, DefaultNamingConvension(G), opts)
+        default_template(G, code_generator=code_gen)
+        code_gen.write_constants()
+
+def test_gen_mobv2_quant_from_keras(caplog):
+    caplog.set_level(logging.DEBUG)
+    tfi = TfliteImporter()
+    G = tfi.create_graph("tests/graph/model_quantized.tflite", {'load_tensors': True, 'load_quantization': True})
+    G.add_dimensions()
+    G.adjust_order()
+    matcher = get_scale8_match_group()
+    matcher.match(G)
+    G.add_dimensions()
+    with tempfile.TemporaryDirectory() as tempdir:
+        opts = {
+            'default_input_location': 'ARG_LOC_L2',
+            'default_output_location': 'ARG_LOC_L2',
+            'default_global_location': 'ARG_LOC_L3_HFLASH',
+            'default_local_location': 'AT_MEM_UNDEF',
+            'tensor_directory': tempdir
+        }
+        code_gen = CodeGenerator(G, DefaultNamingConvension(G), opts)
+        default_template(G, code_generator=code_gen)
+        code_gen.write_constants()
+
+def test_gen_ssdlite(caplog):
+    caplog.set_level(logging.DEBUG)
+    tfi = TfliteImporter()
+    G = tfi.create_graph("tests/graph/ssdlite_v2_quant_ocr_nopostprocess.tflite", {'load_tensors': True, 'load_quantization': True})
+    G.add_dimensions()
+    G.adjust_order()
+    matcher = get_scale8_match_group()
+    matcher.match(G)
+    G.add_dimensions()
+    with tempfile.TemporaryDirectory() as tempdir:
+        opts = {
+            'default_input_location': 'ARG_LOC_L2',
+            'default_output_location': 'ARG_LOC_L2',
+            'default_global_location': 'ARG_LOC_L3_HFLASH',
+            'default_local_location': 'AT_MEM_UNDEF',
+            'tensor_directory': tempdir
+        }
+        code_gen = CodeGenerator(G, DefaultNamingConvension(G), opts)
+        default_template(G, code_generator=code_gen)
+        code_gen.write_constants()
+
+def test_gen_mobv2_pool_with_actfusions(caplog):
+    caplog.set_level(logging.DEBUG)
+    tfi = TfliteImporter()
+    G = tfi.create_graph("tests/mobv2_valid/mobv2_vwwvehicle_quant_asym.tflite", {'load_tensors': True, 'load_quantization': True})
+    G.add_dimensions()
+    G.adjust_order()
+    matcher = get_scale8_match_group()
+    matcher.match(G)
+    G.add_dimensions()
+    with tempfile.TemporaryDirectory() as tempdir:
+        opts = {
+            'default_input_location': 'ARG_LOC_L2',
+            'default_output_location': 'ARG_LOC_L2',
+            'default_global_location': 'ARG_LOC_L3_HFLASH',
+            'default_local_location': 'AT_MEM_UNDEF',
+            'tensor_directory': tempdir
+        }
+        code_gen = CodeGenerator(G, DefaultNamingConvension(G), opts)
+        default_template(G, code_generator=code_gen)
+        code_gen.write_constants()
+
+def test_activatiofusion(actfusion_graph):
+    G = actfusion_graph
+    matcher = get_fusion('scale8_match_group')
+    matcher.match(G)
+    G.add_dimensions()
+    astat_col = ActivationStatsCollector()
+    astats = astat_col.collect_stats(G, [np.full([10, 10, 2], 1), np.full([10, 10, 2], 1)])
+    astats = astat_col.reduce_stats()
+    quantizer = MultQuantizer(astats, force_width=8, quantized_dimension="channel")
+    G.quantization = quantizer.quantize(G)
+    with tempfile.TemporaryDirectory() as tempdir:
+        opts = {
+            'default_input_location': 'ARG_LOC_L2',
+            'default_output_location': 'ARG_LOC_L2',
+            'default_global_location': 'ARG_LOC_L3_HFLASH',
+            'default_local_location': 'AT_MEM_UNDEF',
+            'tensor_directory': tempdir
+        }
+        code_gen = CodeGenerator(G, DefaultNamingConvension(G), opts)
+        ATModel_code = default_template(G, code_generator=code_gen)
+        #code_gen.write_constants()
diff --git a/tools/nntool/tests/test_matcher.py b/tools/nntool/tests/test_matcher.py
index 3a3fc587e..472b9a160 100644
--- a/tools/nntool/tests/test_matcher.py
+++ b/tools/nntool/tests/test_matcher.py
@@ -19,9 +19,8 @@
 from utils.graph import Edge, Graph, Node
 from utils.graph_matcher import (GraphMatcher, MatchEdgeByIdx,
                                  MatchEdgeInputsGroupFactory, MatchNodeByName,
-                                 MatchNodeByNameSet, NodeMatch, MatchNodeByClass)
-from graph.matches.matscale import MatScalePairMatchFactory, FuseMatScalePair, FuseMatScale, MatScaleNodeMatch
-from graph.types import MatrixMulParameters
+                                 NodeMatch)
+from graph.matches.matscale import MatScalePairMatchFactory, FuseMatScalePair, MatScaleNodeMatch
 
 
 def test_match1():
diff --git a/tools/nntool/tests/test_new_paramstate.py b/tools/nntool/tests/test_new_paramstate.py
index 820e57b89..9ba1a3bc4 100644
--- a/tools/nntool/tests/test_new_paramstate.py
+++ b/tools/nntool/tests/test_new_paramstate.py
@@ -5,7 +5,7 @@
 from importer.importer import create_graph
 from utils.data_importer import import_data
 from utils.new_param_state import load_state, dump_state
-from quantization.simple_auto_quantify import SimpleQuantizer
+from quantization.symmetric.symmetric_quantizer import SymmetricQuantizer
 from stats.activation_stats_collector import ActivationStatsCollector
 from stats.filter_stats_collector import FilterStatsCollector
 
@@ -31,7 +31,7 @@ def test_graph_calc(mnist_graph, mnist_images):
     stats_collector = FilterStatsCollector()
     fstats = stats_collector.collect_stats(G)
 
-    quantizer = SimpleQuantizer(astats, fstats, force_width=8)
+    quantizer = SymmetricQuantizer(astats, fstats, force_width=8)
     qrecs = quantizer.quantize(G)
 
     G.quantization = qrecs
diff --git a/tools/nntool/tests/test_nngraph.py b/tools/nntool/tests/test_nngraph.py
index 8556e9d82..12aa65f0a 100644
--- a/tools/nntool/tests/test_nngraph.py
+++ b/tools/nntool/tests/test_nngraph.py
@@ -13,13 +13,19 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program.  If not, see <https://www.gnu.org/licenses/>.
 
+import logging
+
+import numpy as np
+
+from execution.graph_executer import GraphExecuter
+from execution.quantization_mode import QuantizationMode
 from graph.manipulations import add_dimensions, calculate_liveness
-from graph.matches.matches import get_std_match_group, get_fusion
+from graph.matches.matches import get_fusion, get_pow2_match_group, get_scale8_match_group
 from graph.types import Parameters, Transposable
 from importer.tflite.new_tflite_graph_all import TfliteImporter
 from reports.graph_reporter import GraphReporter
-from utils.tabular import TextTableRenderer
 from utils.node_id import NodeId
+from utils.tabular import TextTableRenderer
 
 
 def verify_steps(steps, cnt):
@@ -71,17 +77,25 @@ def test_load7(qvww_graph):
     assert G
 
 
-def test_load10():
+def test_load8(mn2_graph):
     tfi = TfliteImporter()
-    G = tfi.create_graph("tests/graph/xor.tflite", {'load_tensors': True})
-    steps = add_dimensions(G)
+    G = tfi.create_graph(mn2_graph, {'load_tensors': True, 'load_quantization': True})
+    for node in G.nodes():
+        assert NodeId(node) in G.quantization, "node %s doesn't have a qrec" % (node.name)
     assert G
 
-def test_load12():
+
+def test_load9(mn1q_graph):
     tfi = TfliteImporter()
-    G = tfi.create_graph("tests/graph/imu.tflite", {'load_tensors': True})
+    G = tfi.create_graph(mn1q_graph, {'load_tensors': True, 'load_quantization': True})
+    assert G
+
+
+def test_load10():
+    tfi = TfliteImporter()
+    G = tfi.create_graph("tests/graph/xor.tflite", {'load_tensors': True})
     steps = add_dimensions(G)
-    verify_steps(steps, 8)
+    verify_steps(steps, 6)
     assert G
 
 
@@ -92,6 +106,15 @@ def test_load11():
     verify_steps(steps, 11)
     assert G
 
+
+def test_load12():
+    tfi = TfliteImporter()
+    G = tfi.create_graph("tests/graph/imu.tflite", {'load_tensors': True})
+    steps = add_dimensions(G)
+    verify_steps(steps, 8)
+    assert G
+
+
 def test_add_dimension1(mnist_graph):
     tfi = TfliteImporter()
     G = tfi.create_graph(mnist_graph, {})
@@ -243,14 +266,37 @@ def test_adjust5(kws_graph):
     assert all([not (node.transpose_in or node.transpose_out)
                 for node in G.nodes() if isinstance(node, Transposable)]), "shouldn't have transposes"
 
-# TODO - fix when balance filter is rewritten
-# def test_adjust6(vww_graph):
-#     tfi = TfliteImporter()
-#     G = tfi.create_graph(vww_graph, {'load_tensors': True})
-#     G.add_dimensions()
-#     G.adjust_order()
-#     G.balance_filter(32)
 
+def test_adjust6():
+    tfi = TfliteImporter()
+    try:
+        G = tfi.create_graph("tests/graph/character_recogniction_cnn_ocr.tflite",
+                             {'load_tensors': True})
+        # This graph has an insance concat which multiplies the output of a linear
+        # layer. It will never be supported.
+        G.add_dimensions()
+        error = False
+        G.adjust_order()
+    except NotImplementedError:
+        error = True
+    assert error
+
+
+def test_adjust_new():
+    tfi = TfliteImporter()
+    G = tfi.create_graph("tests/graph/ocr_cnn_notile_fquant.tflite",
+                         {'load_tensors': True, 'load_quantization': True})
+    G.add_dimensions()
+    G.adjust_order()
+
+def test_adjust_new2():
+    tfi = TfliteImporter()
+    G = tfi.create_graph("tests/graph/ssdlite_v2_quant_ocr_nopostprocess.tflite",
+                         {'load_tensors': True, 'load_quantization': True})
+    G.add_dimensions()
+    G['output_1'].fixed_order = True
+    G['output_2'].fixed_order = True
+    G.adjust_order()
 
 def test_adjust7(concat_test_graph):
     tfi = TfliteImporter()
@@ -260,7 +306,7 @@ def test_adjust7(concat_test_graph):
     G.node('output_2').fixed_order = True
     G.add_dimensions()
     G.adjust_order()
-    matcher = get_std_match_group()
+    matcher = get_pow2_match_group()
     matcher.match(G)
     G.add_dimensions()
     report = GraphReporter().report(G, None)
@@ -278,11 +324,151 @@ def test_adjust8(qvww_graph):
     matcher.match(G)
     G.add_dimensions()
 
-# def test_adjust9(mn3q2_graph):
-#     tfi = TfliteImporter()
-#     G = tfi.create_graph(mn3q2_graph, {'load_tensors': True})
-#     G.add_dimensions()
-#     G.adjust_order()
-#     matcher = get_fusion("fuse_external_bias")
-#     matcher.match(G)
-#     G.add_dimensions()
\ No newline at end of file
+
+def test_adjust9(mn3q_graph, caplog):
+    caplog.set_level(logging.INFO)
+    tfi = TfliteImporter()
+    G = tfi.create_graph(mn3q_graph, {'load_tensors': True, 'load_quantization': True})
+    G.add_dimensions()
+    G.adjust_order()
+    matcher = get_scale8_match_group()
+    matcher.match(G)
+    G.add_dimensions()
+
+
+def test_adjust10(caplog):
+    caplog.set_level(logging.INFO)
+    tfi = TfliteImporter()
+    G = tfi.create_graph("tests/graph/ssdlite_v2_quant_ocr_nopostprocess.tflite",
+                         {'load_tensors': True, 'load_quantization': True})
+    G.add_dimensions()
+    G.adjust_order()
+    matcher = get_scale8_match_group()
+    matcher.match(G)
+    G.add_dimensions()
+
+
+def test_adjust11():
+    tfi = TfliteImporter()
+    G = tfi.create_graph("tests/graph/imu.tflite", {'load_tensors': True})
+    G.add_dimensions()
+    G.adjust_order()
+    assert all([not (node.transpose_in or node.transpose_out)
+                for node in G.nodes() if isinstance(node, Transposable)]), "shouldn't have transposes"
+
+
+def test_validate_mn1_float(mn1f_graph):
+    tfi = TfliteImporter()
+    G = tfi.create_graph(mn1f_graph, {'load_tensors': True})
+    G.add_dimensions()
+    matcher = get_pow2_match_group()
+    matcher.match(G)
+    G.add_dimensions()
+    input_tensor = np.load('tests/mobv1_valid/COCO_val2014_000000362331_0.npy')
+    input_tensor = input_tensor.reshape((224, 224, 3))
+    executer = GraphExecuter(G, qrecs=G.quantization)
+    routput_tensors = executer.execute([input_tensor])
+    output_tensor = np.load('tests/mobv1_valid/output_COCO_val2014_000000362331_0_float.npy')
+    assert np.max(np.abs(routput_tensors[-1][0] - output_tensor[0])) < 0.0001
+
+
+def test_min(mn1q_graph):
+    tfi = TfliteImporter()
+    G = tfi.create_graph(mn1q_graph, {'load_tensors': True, 'load_quantization': True})
+
+
+def test_validate_mn1_quantized1(mn1q_graph, mn1f_graph):
+    tfi = TfliteImporter()
+    Gf = tfi.create_graph(mn1f_graph, {'load_tensors': True})
+    Gf.add_dimensions()
+    Gf.adjust_order()
+    matcher = get_pow2_match_group()
+    matcher.match(Gf)
+    Gf.add_dimensions()
+
+    tfi = TfliteImporter()
+    G = tfi.create_graph(mn1q_graph, {'load_tensors': True, 'load_quantization': True})
+    G.add_dimensions()
+    G.adjust_order()
+    matcher = get_pow2_match_group()
+    matcher.match(G)
+    G.add_dimensions()
+
+    fpnode = Gf.graph_state.steps[2]['node']
+    fpcnode = fpnode.contained_filters()[0]
+    qpnode = G.graph_state.steps[2]['node']
+    qpcnode = qpnode.contained_filters()[0]
+    nid = NodeId(qpnode, qpcnode)
+    qrec = G.quantization[nid]
+    dqbiases = qrec.biases_q.get_dequantized(qpcnode.biases)
+    assert np.max(np.abs(fpcnode.biases - dqbiases)) < 0.1
+    input_tensor = np.load('tests/mobv1_valid/COCO_val2014_000000362331_0.npy')
+    input_tensor = input_tensor.reshape((224, 224, 3)).transpose((2, 0, 1))
+
+    executer = GraphExecuter(Gf)
+    foutput_tensors = executer.execute([input_tensor])
+    foutput_tensor = np.load('tests/mobv1_valid/output_COCO_val2014_000000362331_0_float.npy')
+    assert np.max(np.abs(foutput_tensors[-1][0] - foutput_tensor[0])) < 0.0001
+
+    executer = GraphExecuter(G, qrecs=G.quantization)
+    qfroutput_tensors = executer.execute([input_tensor], qmode=QuantizationMode.none())
+    assert np.max(np.abs(qfroutput_tensors[-1][0] - foutput_tensor[0])) < 0.2
+
+    executer = GraphExecuter(G, qrecs=G.quantization)
+    qroutput_tensors = executer.execute([input_tensor], qmode=QuantizationMode.all_dequantize())
+
+    output_tensor = np.load('tests/mobv1_valid/output_COCO_val2014_000000362331_0_quant.npy')
+    # assert np.max(np.abs(qroutput_tensors[-1][0] - output_tensor[0])) < 0.16
+    assert np.max(np.abs(qroutput_tensors[-1][0] - output_tensor[0])) < 0.28
+
+
+def test_validate_mn1_quantized2(mn1q_graph):
+    tfi = TfliteImporter()
+    G = tfi.create_graph(mn1q_graph, {'load_tensors': True, 'load_quantization': True})
+    G.add_dimensions()
+    G.adjust_order()
+    matcher = get_pow2_match_group()
+    matcher.match(G)
+    G.add_dimensions()
+
+
+def test_validate_mn1_dequant_quantfloat(mn1q_graph):
+    # load dequantized graph same results as quant graph and float execution
+    tfi = TfliteImporter()
+    G = tfi.create_graph(mn1q_graph, {'load_tensors': True, 'load_quantization': True})
+    G.add_dimensions()
+    G.adjust_order()
+    matcher = get_pow2_match_group()
+    matcher.match(G)
+    G.add_dimensions()
+
+    Gdq = tfi.create_graph(mn1q_graph, {'load_tensors': True, 'load_dequantized': True})
+    Gdq.add_dimensions()
+    Gdq.adjust_order()
+    matcher = get_pow2_match_group()
+    matcher.match(Gdq)
+    Gdq.add_dimensions()
+
+    input_tensor = np.load('tests/mobv1_valid/COCO_val2014_000000362331_0.npy')
+    input_tensor = input_tensor.reshape((224, 224, 3)).transpose((2, 0, 1))
+
+    executer = GraphExecuter(G, qrecs=G.quantization)
+    qfoutput_tensors = executer.execute([input_tensor], qmode=QuantizationMode.none())
+
+    executer = GraphExecuter(Gdq)
+    dfoutput_tensors = executer.execute([input_tensor])
+
+    diff_list = [np.abs(df[0] - qf[0]) for df, qf in zip(dfoutput_tensors, qfoutput_tensors)]
+    max_diff = [np.max(elem) for elem in diff_list]
+    assert max(max_diff) < 0.003
+
+
+def test_mobv2_quant_asym_tf1_15_vwwvehicle():
+    graph = 'tests/mobv2_valid/mobv2_vwwvehicle_quant_asym.tflite'
+    tfi = TfliteImporter()
+    G = tfi.create_graph(graph, {'load_tensors': True, 'load_quantization': True})
+    G.add_dimensions()
+    G.adjust_order()
+    matcher = get_scale8_match_group()
+    matcher.match(G)
+    G.add_dimensions()
diff --git a/tools/nntool/tests/test_quantize.py b/tools/nntool/tests/test_quantize.py
index ddc932e81..039085e8d 100644
--- a/tools/nntool/tests/test_quantize.py
+++ b/tools/nntool/tests/test_quantize.py
@@ -1,19 +1,21 @@
-import numpy as np
-from utils.data_importer import import_data
-from utils.stats_funcs import bits
+# Copyright (C) 2020  GreenWaves Technologies, SAS
 
-IMAGE_FILE = "examples/0/136.pgm"
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
 
-# def test_quantization():
-#     arr = np.array([0.5])
-#     qarr = NumpyFloatToFixConverter(True, 16, 13)(arr)
-#     dqarr = NumpyFixToFloatConverter(13)(qarr)
-#     assert dqarr == arr
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
 
-# def test_image_scale():
-#     input_tensor = import_data(IMAGE_FILE, height=28, width=28, divisor=128, offset=-1)
-#     qinput_tensor = quantize(input_tensor, QType(bits=8, q=7, signed=True))
-#     print(qinput_tensor[0][5])
+from utils.stats_funcs import bits
+
+IMAGE_FILE = "examples/0/136.pgm"
 
 def test_bits():
     assert bits(0.081599854, -0.07628916) == 1
diff --git a/tools/nntool/tests/test_reports.py b/tools/nntool/tests/test_reports.py
index 59cce4913..debafdade 100644
--- a/tools/nntool/tests/test_reports.py
+++ b/tools/nntool/tests/test_reports.py
@@ -15,7 +15,7 @@
 
 
 from importer.importer import create_graph
-from quantization.simple_auto_quantify import SimpleQuantizer
+from quantization.symmetric.symmetric_quantizer import SymmetricQuantizer
 from reports.activation_reporter import ActivationReporter
 from reports.error_reporter import ErrorReporter
 from reports.filter_reporter import (FilterDetailedStatsReporter,
@@ -61,8 +61,8 @@ def test_filter_detailed_report(mnist_graph):
     renderer = TextTableRenderer(maxwidth=200)
     print(report.render(renderer))
 
-def test_error_report(value_cache, mnist_unfused_8bit_state, mnist_images):
-    G = load_state(mnist_unfused_8bit_state, value_cache=value_cache)
+def test_error_report(mnist_unfused_8bit_state, mnist_images):
+    G = load_state(mnist_unfused_8bit_state)
     G.add_dimensions()
     input_tensor = import_data(mnist_images[0], height=28, width=28, offset=0, divisor=255)
     input_tensor = input_tensor.reshape((28, 28, 1))
@@ -82,8 +82,8 @@ def test_temps_report(mnist_graph):
     renderer = TextTableRenderer(maxwidth=200)
     print(report.render(renderer))
 
-def test_temps_report_quantized(value_cache, mnist_unfused_8bit_state):
-    G = load_state(mnist_unfused_8bit_state, value_cache=value_cache)
+def test_temps_report_quantized(mnist_unfused_8bit_state):
+    G = load_state(mnist_unfused_8bit_state)
     G.add_dimensions()
     stats_collector = TempsStatsCollector(qrecs=G.quantization)
     stats = stats_collector.collect_stats(G)
@@ -108,7 +108,7 @@ def test_simple_quantization(mnist_graph, mnist_images):
     astats = stats_collector.reduce_stats()
     stats_collector = FilterStatsCollector()
     fstats = stats_collector.collect_stats(G)
-    quantizer = SimpleQuantizer(astats, fstats, force_width=8)
+    quantizer = SymmetricQuantizer(astats, fstats, force_width=8)
     qrecs = quantizer.quantize(G)
     assert len(qrecs) == 11 # One more for saved quantizer
     report = QuantizationReporter().report(G, qrecs)
diff --git a/tools/nntool/tests/test_sparse_list.py b/tools/nntool/tests/test_sparse_list.py
index 6a2cf1622..4a96932c3 100644
--- a/tools/nntool/tests/test_sparse_list.py
+++ b/tools/nntool/tests/test_sparse_list.py
@@ -16,17 +16,17 @@
 from utils.sparse_list import SparseList
 
 def test1():
-    sl = SparseList()
-    sl[2] = True
-    assert sl[1] is None
-    assert len(sl) == 3
-    assert sl[2] == True
-    sl[5] = False
-    assert len(sl) == 6
-    assert sl[5] == False
-    del sl[2]
-    assert len(sl) == 5
-    assert sl[2] is None
-    assert sl[4] == False
-    tl = [v for v in sl]
-    assert tl == [None, None, None, None, False]
+    sparse_list = SparseList()
+    sparse_list[2] = True
+    assert sparse_list[1] is None
+    assert len(sparse_list) == 3
+    assert sparse_list[2]
+    sparse_list[5] = False
+    assert len(sparse_list) == 6
+    assert not sparse_list[5]
+    del sparse_list[2]
+    assert len(sparse_list) == 5
+    assert sparse_list[2] is None
+    assert not sparse_list[4]
+    iter_sparse_list = [v for v in sparse_list]
+    assert iter_sparse_list == [None, None, None, None, False]
diff --git a/tools/nntool/utils/add_sys_path.py b/tools/nntool/utils/add_sys_path.py
new file mode 100644
index 000000000..b12d1774f
--- /dev/null
+++ b/tools/nntool/utils/add_sys_path.py
@@ -0,0 +1,16 @@
+import sys
+import os
+
+
+def add_sys_path(new_path):
+
+    if not os.path.exists(new_path):
+        return False
+
+    new_path = os.path.abspath(new_path)
+    for x in sys.path:
+        x = os.path.abspath(x)
+        if new_path in (x, x + os.sep):
+            return True
+    sys.path.append(new_path)
+    return True
diff --git a/tools/nntool/utils/at_norm.py b/tools/nntool/utils/at_norm.py
new file mode 100644
index 000000000..4860d83e6
--- /dev/null
+++ b/tools/nntool/utils/at_norm.py
@@ -0,0 +1,43 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import numpy as np
+
+class Rounding:
+    DO_ROUNDING = True
+
+def set_do_rounding(do_rounding: bool):
+    Rounding.DO_ROUNDING = do_rounding
+
+def get_do_rounding():
+    return Rounding.DO_ROUNDING
+
+def at_norm(val, norm):
+    if isinstance(norm, np.ndarray):
+        if np.any(norm < 0):
+            raise ValueError("negative normalization")
+        if Rounding.DO_ROUNDING:
+            return (val + np.left_shift(1, norm - 1, dtype=val.dtype)) >> norm
+            # broadcast = np.broadcast(val, norm)
+            # res = np.empty(broadcast.shape, dtype=val.dtype)
+            # res.flat = [(v + (1 << n - 1)) >> n if n > 0 else v for v, n in broadcast]
+            # return res
+        return val >> norm
+    else:
+        if norm < 0:
+            raise ValueError("negative normalization")
+        if Rounding.DO_ROUNDING and norm > 0:
+            return (val + (1 << (norm - 1))) >> norm
+        return val >> norm
diff --git a/tools/nntool/utils/at_tensor_loader.py b/tools/nntool/utils/at_tensor_loader.py
new file mode 100644
index 000000000..37a652d26
--- /dev/null
+++ b/tools/nntool/utils/at_tensor_loader.py
@@ -0,0 +1,190 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+import logging
+import re
+
+import numpy as np
+from generation.generators.globals.global_names import BIASES, WEIGHTS
+from graph.types import InputParameters, OutputParameters
+
+LOG = logging.getLogger("nntool." + __name__)
+
+
+def find_next_dim(shape, next_idx):
+    for i in range(len(shape) - 1, -1, -1):
+        if shape[i] != next_idx[i]:
+            return i
+    return None
+
+
+def at_tensor_loader(filename):
+    re_head = re.compile(
+        r'^Node: (?P<node_name>[a-zA-Z_][a-zA-Z0-9_]*)'
+        r', Argument: (?P<arg_name>[a-zA-Z_][a-zA-Z0-9_]*)'
+        r', Dim: (?P<dims>\d+)'
+        r', \[(?P<d0>\d+)\]\[(?P<d1>\d+)\]\[(?P<d2>\d+)\]\[(?P<d3>\d+)\]\[(?P<d4>\d+)\]'
+        r' ItemSize: (?P<item_size>\d+)$')
+    re_cont = re.compile(
+        r'^D(?P<dim>\d+): (?P<dim_idx>\d+)$')
+    re_last2 = re.compile(
+        r'^D(?P<dim_pen>\d+): (?P<dim_pen_start>\d+)'
+        r' - D(?P<dim_last>\d+):(?P<dim_last_start>\d+)\.\.(?P<dim_last_end>\d+)$')
+    re_last1 = re.compile(
+        r'^D(?P<dim_last>\d+):(?P<dim_last_start>\d+)\.\.(?P<dim_last_end>\d+)$')
+    state = 'start'
+    tensors = {}
+    line_num = -1
+    with open(filename, "r") as pfile:
+        for line in pfile:
+            line_num += 1
+            if state == 'start':
+                match = re_head.search(line)
+                if not match:
+                    continue
+                header = match.group('node_name', 'arg_name', 'dims', 'd0',
+                                     'd1', 'd2', 'd3', 'd4', 'item_size')
+                shape = [int(i) for i in [header[3], header[4], header[5],
+                                          header[6], header[7]]]
+                dims = int(header[2])
+                shape = shape[(5-dims):]
+                next_idx = [-1] * dims
+                node_name = header[0]
+                node_tensors = tensors.get(node_name)
+                if not node_tensors:
+                    node_tensors = {}
+                    tensors[node_name] = node_tensors
+                arg_name = header[1]
+                item_size = int(header[8])
+                dims_read = 0
+                value = []
+                state = 'read_dims'
+            elif state == 'read_dims' and dims >= 2 and (dims - dims_read) == 2:
+                match = re_last2.search(line)
+                if not match:
+                    state = 'start'
+                    node_tensors[arg_name] = '[%s] bad_tensor - expecting last dim' % line_num
+                    LOG.warning(node_tensors[arg_name])
+                    continue
+                header = [int(elem) for elem in match.group('dim_pen', 'dim_pen_start', 'dim_last',
+                                                            'dim_last_start', 'dim_last_end')]
+                if header[0] != dims_read or header[2] != dims_read + 1:
+                    node_tensors[arg_name] = 'bad_tensor - wrong dim' % line_num
+                    LOG.warning(node_tensors[arg_name])
+                    state = 'start'
+                    continue
+                next_idx[header[0]] = header[1] + 1
+                next_idx[header[2]] = header[4]
+                cur_block_len = header[4] - header[3]
+                cur_block_read = 0
+                state = 'read_data'
+            elif state == 'read_dims' and dims == 1 and dims_read == 0:
+                match = re_last1.search(line)
+                if not match:
+                    state = 'start'
+                    node_tensors[arg_name] = '[%s] bad_tensor - expecting last dim' % line_num
+                    LOG.warning(node_tensors[arg_name])
+                    continue
+                header = [int(elem) for elem in match.group(
+                    'dim_last', 'dim_last_start', 'dim_last_end')]
+                if header[0] != dims_read:
+                    node_tensors[arg_name] = '[%s] bad_tensor - wrong dim' % line_num
+                    LOG.warning(node_tensors[arg_name])
+                    state = 'start'
+                    continue
+                next_idx[header[0]] = header[2]
+                cur_block_len = header[2] - header[1]
+                cur_block_read = 0
+                state = 'read_data'
+            elif state == 'read_dims':
+                match = re_cont.search(line)
+                if not match:
+                    node_tensors[arg_name] = '[%s] bad_tensor - expecting dim' % line_num
+                    LOG.warning(node_tensors[arg_name])
+                    state = 'start'
+                    continue
+                header = [int(elem) for elem in match.group('dim', 'dim_idx')]
+                if header[0] != dims_read:
+                    node_tensors[arg_name] = '[%s] bad_tensor - wrong dim' % line_num
+                    LOG.warning(node_tensors[arg_name])
+                    state = 'start'
+                    continue
+                next_idx[header[0]] = header[1] + 1
+                dims_read += 1
+            elif state == 'read_data':
+                read = 0
+                try:
+                    for i in line.split():
+                        value.append(i)
+                        read += 1
+                except ValueError:
+                    node_tensors[arg_name] = '[%s] bad_tensor - read error' % line_num
+                    LOG.warning(node_tensors[arg_name])
+                    state = 'start'
+                    continue
+
+                cur_block_read += read
+
+                if cur_block_read == cur_block_len:
+                    state = 'read_dims'
+                    dims_read = find_next_dim(shape, next_idx)
+                    if dims_read is None:
+                        state = 'start'
+                        if arg_name in node_tensors.keys():
+                            node_tensors[arg_name] = np.concatenate((node_tensors[arg_name],
+                                np.array(value, dtype=np.dtype('i'+str(item_size))).reshape(shape)), axis=0)
+                        else:
+                            node_tensors[arg_name] = np.array(
+                                value, dtype=np.dtype('i'+str(item_size))).reshape(shape)
+                    else:
+                        state = 'read_dims'
+                elif cur_block_read > cur_block_len:
+                    node_tensors[arg_name] = '[%s] bad_tensor - too long' % line_num
+                    LOG.warning(node_tensors[arg_name])
+                    state = 'start'
+                    continue
+    return tensors
+
+def at_map_tensors(G, tensors):
+    re_snum = re.compile(
+        r'^S(?P<step>\d+)_')
+    steps = G.graph_state.steps
+    result = [[None, None, None] for _ in steps]
+    for cname, tset in tensors.items():
+        match = re_snum.search(cname)
+        if not match:
+            raise ValueError("tensor name in unexpected format")
+        step_idx = int(match.group('step'))
+        node = steps[step_idx]['node']
+        for tname, tensor in tset.items():
+            tname = tname.lower()
+            if tname.startswith('input'):
+                for edge in G.in_edges(node.name):
+                    if isinstance(edge.from_node, InputParameters):
+                        result[edge.from_node.step_idx][0] = tensor.reshape(node.in_dims[0].shape)
+                        break
+            elif tname.startswith('output'):
+                for edge in G.out_edges(node.name):
+                    if isinstance(edge.to_node, OutputParameters):
+                        result[edge.to_node.step_idx][0] = tensor.reshape(node.out_dims[0].shape)
+                        break
+                result[step_idx][0] = tensor.reshape(node.out_dims[0].shape)
+            elif tname == "s%s_output"%step_idx:
+                result[step_idx][0] = tensor.reshape(node.out_dims[0].shape)
+            elif tname.endswith(WEIGHTS):
+                result[step_idx][1] = tensor
+            elif tname.endswith(BIASES):
+                result[step_idx][2] = tensor
+    return result
diff --git a/tools/nntool/utils/data_importer.py b/tools/nntool/utils/data_importer.py
index 1b91de880..f162f748a 100644
--- a/tools/nntool/utils/data_importer.py
+++ b/tools/nntool/utils/data_importer.py
@@ -18,6 +18,7 @@
 
 import numpy as np
 from PIL import Image
+from utils.at_norm import at_norm
 
 LOG = logging.getLogger('nntool.'+__name__)
 
@@ -35,43 +36,18 @@
     'F': 1,     # (32-bit floating point pixels)
 }
 
-VALID_IMAGE_EXTENSIONS = ['.pgm', '.png', '.ppm']
+VALID_IMAGE_EXTENSIONS = ['.pgm', '.png', '.ppm', '.jpg', '.jpeg']
 VALID_SOUND_EXTENSIONS = ['.raw', '.pcm']
+VALID_DATA_IMPORT_EXTENSIONS = ['.npy']
 
-def import_image_data(filename, **kwargs):
-    img_in = Image.open(filename)
-    if 'width' not in kwargs or kwargs['width'] == -1:
-        width = img_in.width
-    else:
-        width = kwargs['width']
-
-    if 'height' not in kwargs or kwargs['height'] == -1:
-        height = img_in.height
-    else:
-        height = kwargs['height']
-
-    if width != img_in.width or height != img_in.height:
-        img_in = img_in.resize((width, height))
-
-    if 'mode' in kwargs:
-        img_in.convert(mode=kwargs['mode'])
-
-    if 'nptype' in kwargs:
-        nptype = getattr(np, kwargs['nptype'])
-    else:
-        nptype = np.uint8
-
-    channels = MODES[img_in.mode]
-    # TODO - this needs to be smarter for different image pixel types
-    img_in = np.array(img_in, dtype=nptype)
-
+def postprocess(img_in, h, w, c, **kwargs):
     if kwargs.get('transpose'):
-        if channels == 1:
-            img_in = img_in.transpose((1, 0)).reshape((channels, height, width))
+        if c == 1:
+            img_in = img_in.transpose((1, 0)).reshape((c, h, w))
         else:
             img_in = img_in.transpose((2, 0, 1)).copy()
-    elif channels == 1:
-        img_in = img_in.reshape((channels, width, height))
+    elif c == 1:
+        img_in = img_in.reshape((c, w, h))
 
     divisor = kwargs.get('divisor') or 1
     offset = kwargs.get('offset') or 0
@@ -79,7 +55,7 @@ def import_image_data(filename, **kwargs):
 
     if shift:
         if shift < 0:
-            img_in = img_in >> int(-shift)
+            img_in = at_norm(img_in, int(-shift))
         else:
             img_in = img_in << int(shift)
 
@@ -98,14 +74,51 @@ def import_image_data(filename, **kwargs):
 
     return img_in
 
+def import_image_data(filename, **kwargs):
+    img_in = Image.open(filename)
+    if 'width' not in kwargs or kwargs['width'] == -1:
+        width = img_in.width
+    else:
+        width = kwargs['width']
+
+    if 'height' not in kwargs or kwargs['height'] == -1:
+        height = img_in.height
+    else:
+        height = kwargs['height']
+
+    if width != img_in.width or height != img_in.height:
+        img_in = img_in.resize((width, height))
+
+    if 'mode' in kwargs:
+        img_in = img_in.convert(mode=kwargs['mode'])
+
+    if 'nptype' in kwargs:
+        nptype = getattr(np, kwargs['nptype'])
+    else:
+        nptype = np.uint8
+
+    channels = MODES[img_in.mode]
+    # TODO - this needs to be smarter for different image pixel types
+    img_in = np.array(img_in, dtype=nptype)
+    return postprocess(img_in, height, width, channels, **kwargs)
+
+def import_tensor_data(filename, **kwargs):
+    img_in = np.load(filename)
+    if len(img_in.shape) == 4 and img_in.shape[0] == 1:
+        img_in = img_in.reshape(img_in.shape[1:])
+    return postprocess(img_in, img_in.shape[0], img_in.shape[1], img_in.shape[2], **kwargs)
+
 def import_sound_data(filename, **kwargs):
     raise NotImplementedError()
 
 def import_data(filename, **kwargs):
     _, ext = os.path.splitext(filename)
+    ext = ext.lower()
     if ext in VALID_IMAGE_EXTENSIONS:
         return import_image_data(filename, **kwargs)
     if ext in VALID_SOUND_EXTENSIONS:
         return import_sound_data(filename, **kwargs)
+    if ext in VALID_DATA_IMPORT_EXTENSIONS:
+        return import_tensor_data(filename, **kwargs)
     LOG.debug("no import tool for file %s with extension %s", filename, ext)
     raise NotImplementedError('unknown file extension for import data')
diff --git a/tools/nntool/utils/exp_17_15.py b/tools/nntool/utils/exp_17_15.py
new file mode 100644
index 000000000..a54d6a1a7
--- /dev/null
+++ b/tools/nntool/utils/exp_17_15.py
@@ -0,0 +1,95 @@
+# #define Abs(a)      (((int)(a)<0)?(-(a)):(a))
+# #define Min(a, b)   (((a)<(b))?(a):(b))
+# #define Max(a, b)   (((a)>(b))?(a):(b))
+
+import numpy as np
+
+# static unsigned short int IntegerExpLUT[] =
+# {
+INTEGER_EXP_LUT = np.array([0x0001, 0x0002, 0x0007, 0x0014, 0x0036, 0x0094,
+                            0x0193, 0x0448, 0x0BA4, 0x1FA7, 0x560A, 0xE9E2], dtype=np.uint16)
+# };
+
+# static unsigned short int FractionExpLUT[] =
+# {
+FRACTION_EXP_LUT = np.array([0x0000, 0x5BF1, 0x31CD, 0x0AF3, 0x4C90, 0x34E2,
+                             0x36E3, 0x510B, 0x7A9F, 0x0ABE, 0x3B9F, 0x1224], dtype=np.uint16)
+# };
+
+# /* 17.15 fixed point format */
+# static unsigned short int ExpCoeffLUT[] =
+# {
+EXP_COEFF_LUT = np.array([0x7FFF, 0x7FFF, 0x4000, 0x1555, 0x0555, 0x0111, 0x002E, 0x0007, 0x0001])
+# };
+
+
+def gap_bitextractu(x, size, off):
+    mask = (np.array([1], dtype=np.uint32) << size) - 1
+    return (x >> off) & mask
+
+
+def gap_mulsRN(x, y, n):
+    rounding = np.array([1], dtype=np.int32) << (n - 1)
+    return (np.multiply(x.astype(np.int16),
+                        y.astype(np.int16), dtype=np.int32) + rounding) >> n
+
+
+def gap_mulRN(x, y, n):
+    rounding = np.array([1], dtype=np.int32) << (n - 1)
+    return (np.multiply(x.astype(np.uint16),
+                        y.astype(np.uint16), dtype=np.int32) + rounding) >> n
+
+
+def gap_roundnorm(x, scale):
+    rounding = np.array([1], dtype=np.int32) << (scale - 1)
+    return (x.astype(np.int32) + rounding) >> scale
+
+
+def exp_fp_17_15(X):
+    X = X.astype(np.uint32)
+    result = np.zeros(X.shape, dtype=np.int32)
+    zero_mask = X == 0
+    result[zero_mask] = 0x8000
+    non_zero_mask = np.logical_not(zero_mask)
+    Y = np.ndarray(X.shape, dtype=np.int32)
+    Y[non_zero_mask] = np.abs(X[non_zero_mask].astype(np.int32))
+
+    int_x = np.ndarray(X.shape, dtype=np.int32)
+    int_x[non_zero_mask] = Y[non_zero_mask] >> 15
+
+    overflow_mask = np.logical_and(int_x >= (len(INTEGER_EXP_LUT) - 1), non_zero_mask)
+    result[np.logical_and(X == Y, overflow_mask)] = 0x7FFFFFF
+    result[np.logical_and(X != Y, overflow_mask)] = 0
+
+    non_zero_mask[overflow_mask] = False
+
+    fract_x = np.ndarray(X.shape, dtype=np.int32)
+    fract_x[non_zero_mask] = Y[non_zero_mask] & 0x7FFF
+
+    bit_extract_mask = np.logical_and(non_zero_mask, gap_bitextractu(fract_x, 1, 14))
+    fract_x[bit_extract_mask] -= 0x8000
+    int_x[bit_extract_mask] += 1
+
+    scaled_int = np.ndarray(X.shape, dtype=np.int32)
+    scaled_int[non_zero_mask] = INTEGER_EXP_LUT[int_x[non_zero_mask]]
+
+    scaled_fract = np.ndarray(X.shape, dtype=np.uint16)
+    scaled_fract[non_zero_mask] = FRACTION_EXP_LUT[int_x[non_zero_mask]]
+
+    fract_x_s = fract_x.astype(np.int16)
+    z_s = fract_x.astype(np.int16)
+    for i in range(1, len(EXP_COEFF_LUT)):
+        result[non_zero_mask] += z_s[non_zero_mask].astype(np.int32) * EXP_COEFF_LUT[i]
+        z_s[non_zero_mask] = gap_mulsRN(z_s[non_zero_mask], fract_x_s[non_zero_mask], 15)
+
+    result[non_zero_mask] = gap_roundnorm(result[non_zero_mask], 15) + EXP_COEFF_LUT[0]
+
+    unsigned_res = result.astype(np.uint16)
+
+    result[non_zero_mask] = (gap_mulRN(unsigned_res[non_zero_mask],
+                                       scaled_fract[non_zero_mask], 15)\
+                                           + unsigned_res[non_zero_mask] * scaled_int[non_zero_mask])
+    neg_mask = np.logical_and(np.logical_and(non_zero_mask, result != 0), X > 0x7FFFFFFF)
+    result[neg_mask] = ((0x7FFFFFFF)//result[neg_mask]) >> 1
+
+    return result.astype(np.uint32)
diff --git a/tools/nntool/utils/formatters.py b/tools/nntool/utils/formatters.py
new file mode 100644
index 000000000..b9a092e38
--- /dev/null
+++ b/tools/nntool/utils/formatters.py
@@ -0,0 +1,37 @@
+import numpy as np
+from graph.dim import Dim
+
+def rgb565_rgb888(input_tensor: np.ndarray, in_dim: Dim, out_dim: Dim):
+    assert in_dim.is_named and in_dim.c == 1 and out_dim.is_named and out_dim.c == 3
+    input_tensor = np.repeat(input_tensor.transpose(in_dim.transpose_to_order(("h", "w", "c"))), 3, axis=2)
+    input_tensor[:, :, 1] = (input_tensor[:, :, 0] & (63 << 5)) >> 3
+    input_tensor[:, :, 2] = (input_tensor[:, :, 0] & 31) << 3
+    input_tensor[:, :, 0] = (input_tensor[:, :, 0] & (31 << 11)) >> 8
+    return input_tensor.astype(np.uint8).transpose(out_dim.transpose_from_order(("h", "w", "c")))
+
+def from_hwc(input_tensor: np.ndarray, in_dim: Dim, out_dim: Dim):
+    del in_dim
+    return input_tensor.astype(np.uint8).transpose(out_dim.transpose_from_order(("h", "w", "c")))
+
+def out_int16(input_tensor: np.ndarray):
+    return input_tensor.astype(np.int16) << 7
+
+def shift_int8(input_tensor):
+    return (input_tensor >> 1).astype(np.int8)
+
+def offset_int8(input_tensor):
+    return (input_tensor.astype(np.int16) - 128).astype(np.int8)
+
+FORMAT_CHANGES = {
+    "RGB565_RGB888": rgb565_rgb888,
+    "RGB888": from_hwc,
+    "RGB16": from_hwc,
+    "BW8": from_hwc,
+    "BW16": from_hwc
+}
+
+NORMALIZATIONS = {
+    "SHIFT_INT8": shift_int8,
+    "OFFSET_INT8": offset_int8,
+    "OUT_INT16": out_int16
+}
diff --git a/tools/nntool/utils/fuzzy.py b/tools/nntool/utils/fuzzy.py
new file mode 100644
index 000000000..e1753e967
--- /dev/null
+++ b/tools/nntool/utils/fuzzy.py
@@ -0,0 +1,61 @@
+# Copyright (C) 2020  GreenWaves Technologies, SAS
+
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+
+# You should have received a copy of the GNU Affero General Public License
+# along with this program.  If not, see <https://www.gnu.org/licenses/>.
+
+class Fuzzy():
+    def __init__(self, val):
+        self._val = val
+
+    @classmethod
+    def maybe_yes(cls, maybe=False):
+        if maybe:
+            return cls.maybe
+        return cls.yes
+
+    @classmethod
+    def yes(cls):
+        return cls("yes")
+
+    @classmethod
+    def no(cls):
+        return cls("no")
+
+    @classmethod
+    def maybe(cls):
+        return cls("maybe")
+
+    @property
+    def is_yes(self):
+        return self._val == "yes"
+
+    @property
+    def is_maybe(self):
+        return self._val == "maybe"
+
+    @property
+    def is_no(self):
+        return self._val == "no"
+
+    @classmethod
+    def all(cls, gen):
+        is_maybe = False
+        for elem in gen:
+            if elem.is_no:
+                return cls.no()
+            if elem.is_maybe:
+                is_maybe = True
+        return cls.maybe_yes(maybe=is_maybe)
+
+    def __bool__(self):
+        return self.is_maybe or self.is_yes
diff --git a/tools/nntool/utils/graph.py b/tools/nntool/utils/graph.py
index b282ce648..2d9f899af 100644
--- a/tools/nntool/utils/graph.py
+++ b/tools/nntool/utils/graph.py
@@ -199,13 +199,13 @@ def __add_in_edge(self, edge: Edge, update=False):
         if edge_list is None:
             edge_list = []
             edges[edge.from_node.name] = edge_list
-        try:
-            edge_idx = edge_list.index(edge)
+        edge_idx = next((i for i, x in enumerate(edge_list) if x == edge), -1)
+        if edge_idx >= 0:
             if update:
                 edge_list[edge_idx] = edge
             else:
                 raise EdgeExistsError()
-        except ValueError:
+        else:
             edge_list.append(edge)
 
     def __add_out_edge(self, edge: Edge, update=False):
@@ -217,13 +217,13 @@ def __add_out_edge(self, edge: Edge, update=False):
         if edge_list is None:
             edge_list = []
             edges[edge.to_node.name] = edge_list
-        try:
-            edge_idx = edge_list.index(edge)
+        edge_idx = next((i for i, x in enumerate(edge_list) if x == edge), -1)
+        if edge_idx >= 0:
             if update:
                 edge_list[edge_idx] = edge
             else:
                 raise EdgeExistsError()
-        except ValueError:
+        else:
             edge_list.append(edge)
 
     def verify_edges(self):
@@ -345,6 +345,15 @@ def in_edges(self, node_name: str) -> Sequence[Edge]:
         return list(edge for edge_list in self._in_edges[node_name].values()
                     for edge in edge_list)
 
+    def in_edges_idx(self, node_name: str, to_idx: int) -> Edge:
+        '''Input edge at index to a node'''
+        if node_name not in self._in_edges:
+            return None
+
+        edges = list(edge for edge_list in self._in_edges[node_name].values()
+                     for edge in edge_list if edge.to_idx == to_idx)
+        return edges[0] if len(edges) == 1 else None
+
     @staticmethod
     def index_edges_by_from(edges):
         indexed_edges = []
@@ -758,5 +767,6 @@ def __getitem__(self, key):
     def __iter__(self):
         return self._nodes.__iter__()
 
+
 class Graph(GraphView):
     pass
diff --git a/tools/nntool/utils/json_serializable.py b/tools/nntool/utils/json_serializable.py
index ef13434c2..7bfa74589 100644
--- a/tools/nntool/utils/json_serializable.py
+++ b/tools/nntool/utils/json_serializable.py
@@ -51,6 +51,12 @@ def default(self, o):
             return int(o)
         if isinstance(o, np.floating):
             return float(o)
+        if isinstance(o, np.ndarray):
+            return {
+                '__type': 'numpy.ndarray',
+                '__contents': o.tolist(),
+                '__dtype': o.dtype.name
+            }
 
         # Let the base class default method raise the 
         try:
@@ -69,6 +75,8 @@ def __init__(self, *args, object_hook=None, **kwargs):
 # pylint: disable=no-self-use, method-hidden
     def object_hook(self, obj):
         if '__type' in obj:
+            if obj['__type'] == 'numpy.ndarray':
+                return np.array(obj['__contents'], dtype=np.dtype(obj['__dtype']))
             if obj['__type'] == 'JsonSerializable':
                 return JsonSerializable.from_dict(obj)
         return obj
diff --git a/tools/nntool/utils/new_param_state.py b/tools/nntool/utils/new_param_state.py
index 6e1386638..510791ebd 100644
--- a/tools/nntool/utils/new_param_state.py
+++ b/tools/nntool/utils/new_param_state.py
@@ -120,8 +120,7 @@ def set_options(G, node_options, graph_node_options=None):
             graph_node_options[nodeid] = G.node(nodeid.node_name).at_options
 
 
-def load_state(graph_file: str, value_cache=None, return_extra=False):
-    #state_dir = os.path.dirname(os.path.abspath(graph_file))
+def load_state(graph_file: str, return_extra=False):
     graph_base, _ = os.path.splitext(graph_file)
     state_filename = graph_base + STATE_EXTENSION
     state_file = Path(state_filename)
@@ -150,15 +149,20 @@ def load_state(graph_file: str, value_cache=None, return_extra=False):
         parameters = None
 
     # Here load the orignal graph and replay the transforms that were done to it
-    opts = {
-        'load_tensors': False,
-    }
+    if info_state['info'].get('has_quantized_parameters'):
+        opts = {
+            'load_tensors': True,
+            'load_quantization': True
+        }
+    else:
+        opts = {
+            'load_tensors': False,
+        }
     # Retrieve the identity of the saved state
     identity = GraphIdentity(None)
     identity.identity = info_state['identity']
 
     LOG.info("loading graph from %s", identity.filename)
-    #G = create_graph(os.path.join(state_dir, os.path.split(identity.filename)[-1]), opts=opts)
     G = create_graph(identity.filename, opts=opts)
     if 'name' in info_state:
         G.name = info_state['name']
@@ -184,7 +188,6 @@ def load_state(graph_file: str, value_cache=None, return_extra=False):
     G.info = info_state['info']
     G.changes.replay(G)
     G.graph_identity = identity
-    G.value_cache = value_cache
     G.node_options = info_state['node_options']
     set_options(G, info_state['node_options'], info_state['node_options'])
 
diff --git a/tools/nntool/utils/node_id.py b/tools/nntool/utils/node_id.py
index 5148c0bbb..66b56be93 100644
--- a/tools/nntool/utils/node_id.py
+++ b/tools/nntool/utils/node_id.py
@@ -15,6 +15,7 @@
 
 from utils.json_serializable import JsonSerializable
 
+
 class NodeId(JsonSerializable):
     def __init__(self, node, fnode=None):
         if isinstance(node, list):
@@ -58,7 +59,6 @@ def __str__(self):
             return "_".join(self._id)
         return self._id[0]
 
-from utils.node_id import NodeId
 
 def convert_node_id_to_str(nodeid):
     if isinstance(nodeid, NodeId):
@@ -86,4 +86,4 @@ def convert_str_to_keys(info):
     if isinstance(info, dict):
         return {convert_str_to_node_id(k):
                 convert_str_to_keys(v) for k, v in info.items()}
-    return info
\ No newline at end of file
+    return info
diff --git a/tools/nntool/utils/option_list.py b/tools/nntool/utils/option_list.py
index d16ba7257..c6b5a1221 100644
--- a/tools/nntool/utils/option_list.py
+++ b/tools/nntool/utils/option_list.py
@@ -38,7 +38,8 @@ def __setattr__(self, name, value):
         upper_name = name.upper()
         if upper_name in self._valid_options:
             if value is None:
-                del self._options[upper_name]
+                if upper_name in self._options:
+                    del self._options[upper_name]
                 return
             elif not isinstance(value, self._valid_options[upper_name]):
                 value = self._valid_options[upper_name](value)
diff --git a/tools/nntool/utils/validation_utils.py b/tools/nntool/utils/validation_utils.py
index 568708477..b008f145e 100644
--- a/tools/nntool/utils/validation_utils.py
+++ b/tools/nntool/utils/validation_utils.py
@@ -1,48 +1,82 @@
-import numpy as np
-import logging
 import json
 import os
 from abc import ABC, abstractmethod
+import numpy as np
 
-SUPPORTED_PREDICTION = {'classification'} #add 'object-detection', 'segmentation'
+SUPPORTED_PREDICTION = {'classification'} #add 'object-detection'
 
 class ValidateBase(ABC):
-	def __init__(self, type_of_prediction='classification'):
-		if type_of_prediction not in SUPPORTED_PREDICTION:
-			raise NotImplementedError("type_of_prediction must be in %r, %s not supported" %SUPPORTED_PREDICTION, type_of_prediction)
-		self.labels = []
-		self.predictions = []
+    def __init__(self, type_of_prediction='classification'):
+        if type_of_prediction not in SUPPORTED_PREDICTION:
+            raise NotImplementedError("type_of_prediction must be in %r, %s not supported" %SUPPORTED_PREDICTION, type_of_prediction)
+        self.labels = []
+        self.predictions = []
+
+    @abstractmethod
+    def validate(self, input_name, predicted):
+        pass
 
-	@abstractmethod
-	def validate(self, input_name, predicted):
-		pass
+class ValidateFromClass(ValidateBase):
+    def __init__(self, class_number, type_of_prediction='classification'):
+        super().__init__(type_of_prediction=type_of_prediction)
+        self._class_number = class_number
+
+#the label are all the same
+    def validate(self, input_name, predicted):
+        predicted = predicted.flatten()
+        class_predicted = int(np.argmax(predicted))
+        margin = predicted[class_predicted] - np.average(np.delete(predicted, [class_predicted]))
+        self.predictions.append(class_predicted)
+        self.labels.append(self._class_number)
+        return class_predicted == self._class_number, class_predicted, self._class_number, margin
 
 class ValidateFromName(ValidateBase):
-	#the label are the last digits in the filename
-	def validate(self, input_name, predicted):
-		num_classes = predicted.size
-		filename, _ = os.path.splitext(input_name)
-		num_classes_digits = len(str(num_classes))
-		label = int(filename[-(num_classes_digits):])
-		class_predicted = int(np.argmax(predicted))
-		self.predictions.append(class_predicted)
-		self.labels.append(label)
-		return class_predicted == label, label
+#the label are the last digits in the filename
+    def validate(self, input_name, predicted):
+        num_classes = predicted.size
+        filename, _ = os.path.splitext(input_name)
+        num_classes_digits = len(str(num_classes-1))
+        label = int(filename[-(num_classes_digits):])
+        predicted = predicted.flatten()
+        class_predicted = int(np.argmax(predicted))
+        margin = predicted[class_predicted] - np.average(np.delete(predicted, [class_predicted]))
+        self.predictions.append(class_predicted)
+        self.labels.append(label)
+        return class_predicted == label, class_predicted, label, margin
 
 class ValidateFromJSON(ValidateBase):
-	def __init__(self, json_file):
-		super().__init__()
-		with open(json_file) as file:
-			self.annotations = json.load(file)
-
-	def validate(self, input_name, predicted):
-		num_classes = predicted.size
-		path, file = os.path.split(input_name)
-		label = self.annotations[file]
-		class_predicted = int(np.argmax(predicted))
-		self.predictions.append(class_predicted)
-		self.labels.append(label)
-		return class_predicted == label, label
+    def __init__(self, json_file):
+        super().__init__()
+        with open(json_file) as file:
+            self.annotations = json.load(file)
 
+    def validate(self, input_name, predicted):
+        #num_classes = predicted.size
+        _, file = os.path.split(input_name)
+        label = self.annotations[file]
+        predicted = predicted.flatten()
+        class_predicted = int(np.argmax(predicted))
+        self.predictions.append(class_predicted)
+        margin = predicted[class_predicted] - np.average(np.delete(predicted, [class_predicted]))
+        self.labels.append(label)
+        return class_predicted == label, class_predicted, label, margin
 
+class ValidateFromVWWInstances(ValidateBase):
+    def __init__(self, instances_file):
+        super().__init__()
+        with open(instances_file) as file:
+            self.instances = json.load(file)
 
+    def validate(self, input_name, predicted):
+        _, file_name = os.path.split(input_name)
+        for image in self.instances['images']:
+            if image['file_name'] == file_name:
+                idx = image['id']
+                label = self.instances['annotations'][str(idx)]['label']
+                break
+        predicted = predicted.flatten()
+        class_predicted = int(np.argmax(predicted))
+        self.predictions.append(class_predicted)
+        margin = predicted[class_predicted] - np.average(np.delete(predicted, [class_predicted]))
+        self.labels.append(label)
+        return class_predicted == label, class_predicted, label, margin
diff --git a/tools/rules/pulp_rules.mk b/tools/rules/pulp_rules.mk
index f96edd6ce..e7f761451 100644
--- a/tools/rules/pulp_rules.mk
+++ b/tools/rules/pulp_rules.mk
@@ -108,8 +108,12 @@ BOOTFLAGS	  = -Os -g -DUSE_AES -fno-jump-tables -Wextra -Wall -Wno-unused-parame
 CFLAGS        = $(COMMON) -MMD -MP -c
 
 ifeq '$(platform)' 'board'
+ifeq '$(TARGET_CHIP)' 'GAP9'
+io ?= bridge
+else
 io ?= host
 endif
+endif
 
 ifeq '$(io)' 'host'
 PULP_CFLAGS += -D__RT_IODEV__=2