��Hello AI��ʹ��AIACC-Training MXNet��-��ƿ��

��MXNet֧��KVStore��Horovod��ֲַ�ʽѵ��ʽ��AIACC-Training 1.5�ܹ�֧��ʹ��KVStore�ķ�ʽ��MXNet�ֲ�ʽѵ��м��٣�ͬʱ֧��Horovod�ķֲ�ʽѵ��ʽ��ܹ��޷��Horovod��API�汾��

��

��AIACC-Training�ķ�ʽ��Horovodһ�£��֮ǰ��ѵ��ʹ��Horovod��зֲ�ʽѵ��ֻ��Ҫ�滻importһ�м��ɡ��滻��£�

import perseus.mxnet as hvd

��̣��μ��Horovod��API��
��ѵ��KVStore��зֲ�ʽѵ��޸Ĵ��ľ��μ��KVStore��API��

ʾ��

AIACC-Training��Ϊ��ṩ��ʾ��롣��ͨ��²��ѵ��̡�

��ʾ��Ŀ¼��

cd `echo $(python -c "import perseus; print(perseus)") | cut -d\' -f 4 | sed "s/\_\_init\_\_\.py//"`examples/

��ֲ�ʽѵ��

��8��MNiSTѵ��ģ��Ϊ��ʾ��£�

perseusrun -np 8 -H localhost:8 python $examples_path/mxnet_mnist.py

��MXNet

��KVStore��API

Ϊ��֧��InsightFace��+ģ�Ͳ��У�Perseus KVStore��API��

local_rank��ص�ǰGPU worker�ڱ��ڵ��ڲ��ı�ţ��Դ˱��Ӧ��gpu context��Python�ڲ��ֱ��ʹ��local_rank��Ϊ��ǰ��GPU ID��context��Shell�ű��л�õ�ǰ��GPU��Ϊ��Python��ʾ��˷�ʽ��Ϊ��ݡ�
init(key_name, ndarray, param_only = false)�� init��Ӳ��param_only��ȡֵ˵��£�

true��ʾ��ͬ��Ҫһ��ͬ��feature map��ݡ�AllReduce��ݵȲ��ʱ��ߵ��ʹ��KVStore��в��ʱ��Ҫ��param_only��Ϊtrue��
false��ʾ��ͨ��ݶ�ͬ��

push(key_name, ndarray, op = PerseusOp.Sum)��push��ͬ��Softmax layer��op��ò��ȡֵ��Χ��Sum��Max��Min��Ĭ��ֵΪSum��

ʹ��Perseus KVStore��

��Ҫ�ο��ʾ��޸��ѵ��룬��+��import perseus mxnet module��ɾ��-��룬�滻ΪKVStore��ɡ�ʾ��£�

diff --git a/example/image-classification/common/fit.py b/example/image-classification/common/fit.py
index 9412b6f..3a6e9a0 100755
--- a/example/image-classification/common/fit.py
+++ b/example/image-classification/common/fit.py
@@ -22,6 +22,7 @@ import time
 import re
 import math
 import mxnet as mx
+import perseus.mxnet as perseus_kv
 def _get_lr_scheduler(args, kv):
@@ -146,7 +147,8 @@ def fit(args, network, data_loader, **kwargs):
     # kvstore
-    kv = mx.kvstore.create(args.kv_store)
+    kv = perseus_kv.create(args.kv_store) if args.kv_store == dist_sync_perseus else mx.kvstore.create(args.kv_store)
     if args.gc_type != 'none':
         kv.set_gradient_compression({'type': args.gc_type,
                                      'threshold': args.gc_threshold})

��̰��GPU��

AIACC-Trainingͨ��KVStoreʵ��˶�MXNet�ֲ�ʽѵ��֧�֣��API��ԭ��KVStore��ݣ�ʹ��AIACC-Training��ֻ��Ҫ��ģ�ʹ��е�ctx�趨��޸ģ��̰��GPU��ϼ��ɡ�

��´��Ƭ��Ϊ��ʹ��Perseus KVStore��API local_rank��ǰprocess�󶨵�kv.local_rank��Ӧ��GPU��ϡ�

ctx = []
cvd = os.environ['DEVICES'].strip()
if 'perseus' in args.kv_store:
    import perseus.mxnet as perseus
    ctx.append(mx.gpu(kv.local_rank))

��ֲ�ʽѵ��

��ƣ�Perseus��MPI��ʽ��࿨��࿨�ķ�ʽ��һ�£��֧��ԭ��MXNet�µĵ��࿨�ڵ�һProcess�е�ģʽ��²��4��8��ֲ�ʽѵ��Ϊ��̡�

׼��ѵ��ű�config.sh��

��ڸýű�Ҫʹ��mpirun��У��Ҫʹ��MPI�Ļ��Ƶ��˽��Ӧ��GPU�豸ID��Ȼ��趨�˻��ID��Ϊ��ݵ�module��ȥ��Ӧ��ctx��ű�ʾ��£�

#!/bin/sh
let GPU=OMPI_COMM_WORLD_RANK % OMPI_COMM_WORLD_LOCAL_SIZE
export OMP_NUM_THREADS=4
MXNET_VISIBLE_DEVICE=$GPU python train_imagenet.py \
                                 --network resnet \
                                 --num-layers 50 \
                                 --kv-store dist_sync_perseus \
                                 --gpus $GPU ��

ִ����ѵ��ű��

mpirun -np 32 -npernode 8 -hostfile mpi_host.txt  ./config.sh

��У�mpi_host.txtΪ��ͨ��MPI machinefile��MXNet��SSHLauncher��host file��ƣ��ʾ��£�

192.168.0.1
192.168.0.2
192.168.0.3
192.168.0.4

��ʼѵ��֮��ÿ��GPU��һ��Ľ��̣��и��Ե��鿴��ÿ��Ϊ��е��ܵ��ܺ͡�

��Դ�汾MXNet��Ĭ��ռ��ϵͳ��е�CPU��Դ��׶Σ��ռ�ý϶��CPUʱ�䣬��ٶȽ��ͨ��»��⡣

export MXNET_USE_OPERATOR_TUNING=0
export MXNET_USE_NUM_CORES_OPERATOR_TUNING=1
export OMP_NUM_THREADS=1

��Horovod��API

��С�ڽ��ʹ��Horovod��API��MXNet�ֲ�ʽѵ��Ļ��裬��²��Ϊԭʼѵ��䵽AIACC-Traninig��һ��̡�

AIACC-Training for MXNet֧��Horovod API��AIACC-Training�ķ�ʽ��Horovodһ�£��֮ǰ��ʹ��Horovod��зֲ�ʽѵ��ֻ��滻importģ�鼴�ɡ��滻��£�

import perseus.mxnet as hvd

��ѵ��ǷǷֲ�ʽ��룬��Բο��²��轫ѵ��ΪHorovod�ӿڵķֲ�ʽѵ��롣

��main��Ŀ�ͷ��֣�ִ����ʼ��Perseus Horovodģ�顣

˵��:��ʹ��Perseus API֮ǰ��е��á�

hvd.init()

��ǰ��̰󶨶�Ӧ��GPU��

# rank and size
rank = hvd.rank()
num_workers = hvd.size()
local_rank = hvd.local_rank()
# Horovod: pin GPU to local rank
context = mx.gpu(local_rank)

��Optimizer��

ͨ��£�ģ�͵�ѧϰ��Ҫ��hvd.size()��

˵��:��ģ�Ͳ��Ҫ��ѧϰ�ʣ��BERTģ�ͣ��ѵ��жϡ�

learning_rate = ...
optimizer_params = {'learning_rate': learning_rate * hvd.size()}
opt = mx.optimizer.create(optimizer, **optimizer_params)

�㲥��

# Horovod: fetch and broadcast parameters
params = net.collect_params()
if params is not None:
    hvd.broadcast_parameters(params)

��Optimizer��

# Horovod: create DistributedTrainer, a subclass of gluon.Trainer
trainer = hvd.DistributedTrainer(params, opt)

��ѵ��

��4��8��ѵ��Ϊ��ʾ��£�

mpirun -np 32 -npernode 8 -hostfile mpi_host.txt  ./train.sh

��У�mpi_host.txtΪ��ͨ��MPI machinefile��MXNet��SSHLauncher��host file��ƣ��ʾ��£�

192.168.0.1
192.168.0.2
192.168.0.3
192.168.0.4

��ʼѵ��֮��ÿ��GPU��һ��Ľ��̣��и��Ե��ȶ��ÿ��Ϊ��е�process��ܵ��ܺ͡�

ʹ��SyncBatchNorm

Perseus��SyncBatchNormʵ�ֻ��MXNet�ٷ��src/operator/contrib/sync_batch_norm-inl.h�ļ��߼��ͨ��libperseus_MXNet.so��Perseusͨ�ŵ�API��operator�ڲ�ʵ��SyncBatchNorm��֧�ֵ��localģʽ�Լ�ȫ��globalģʽ��

��Ϣ

��object-detection��СBatch Size��ʹ��ÿ��GPU��BatchNorm��mean��var��Ϣ�нϴ��ƫ���һ��ľ��ʧ��ͨ��ʹ��SyncBatchNorm��ֲ��ͳ��Ϣ��ڲ�ƫ�ƣ��BN��ã��ʹ�ڴ��ģ�ֲ�ʽ��Ҳ�ܴﵽ��ߵ��ȡ��ԭʼBatchNorm��SyncBatchNorm�ܹ��ں��ĳЩѵ��ܵ��£��ȵ��ޡ�

��

ʹ��perseus-MXNet-sync-bn.patch��

patch -p1 < perseus-mxnet-sync-bn.patch

��MXNetԴ�롣

make USE_OPENCV=1 USE_BLAS=openblas USE_CUDA=1 USE_CUDA_PATH=/usr/local/cuda USE_CUDNN=1 USE_DIST_KVSTORE=1 USE_NCCL=1 USE_LIBJPEG_TURBO=1 MPI_ROOT=/usr/local -j24

��SyncBatchNormģ�͡�

Perseus��SyncBatchNormʵ�ֻ��ԭʼMXNet�ٷ��룬��˼��SyncBatchNorm��ԭʼʹ�÷��ֻ�轫��ƴ�SyncBatchNorm�޸�ΪPerseusSyncBatchNorm��Ӳ��comm_scope��޸�ģʽ��mx.gluon.contrib.nn.PerseusSyncBatchNorm(comm_scope=0), mx.sym.contrib.PerseusSyncBatchNorm(comm_scope=0)��

�޸�ģʽ��

ģʽ˵��£�

local��ֲ�ƽ��ÿ��forward��backward��ֵ�ͷ��ֻ�ڵ��ڲ��GPU�Ϸֱ��ͬ��Ĭ��Ϊ��ģʽ��ΪPerseusSyncBatchNorm(comm_scope=0)��
global��ȫ��ƽ��ÿ��forward��backward��ľ�ֵ�ͷ��ȫ�ֽ��ͬ��Ҫ�޸�BN��Ĳ��ΪPerseusSyncBatchNorm(comm_scope=1)��

��Ծ��

�Ե��Batch SizeΪ2��8��ѵ��Ϊ��ʹ�û��GluonCVʵ�ֵ�Faster RCNNģ��Perseus��Ȼ��ԭʼBatchNorm��PerseusSyncBatchNorm�ľ��ȶԱȣ��Ч��ͼ��£�

��ͼ��ʾ��ӵ�1��Epoch��ʼ��20��Epoch��PerseusSyncBatchNorm�ﵽ�ľ��Ⱦ��BatchNorm��ߵ�mAP��31.3%��34.6%��

��

��Դ�ռ��

�Ե��8��Ϊ��0�ſ��7��process��ռ��200 MB��500 MB�Դ棬�Ӷ��0�ſ��Դ汻�ľ��

��ĸ��MXNet�ڲ��cpu_pinned memory��Ĭ��ʹ��0�ſ��Բο��2��°�GPU��

��ʱ��ʾUndefined symbols

��ʱ��ʾNDArray��ص�symbolû�ж��壬��Undefined symbols��

��pip��װ��1.4֮ǰ�汾��MXNet��û�е��libMXNet.so�ж��Perseus��Ҫ��symbol��Խ�MXNet��1.4��ϰ汾��Ҳ��±��밲װMXNet��

��ٶȽ��

��Գ��·��Ƹ��⣺

��CPU�ĸ��أ��ռ�Ⱥܸ߿ɳ��Խ��ã�

export MXNET_USE_OPERATOR_TUNING=0
export MXNET_USE_NUM_CORES_OPERATOR_TUNING=1
export OMP_NUM_THREADS=1

��Сpreprocess��߳��

Perseus��ѵ��ģʽΪ��process��GPU��Ĭ��߳��ù��󣬿��Ը��ݵ��ڵ��GPU��Ŀ��ȱ��Сpreprocess��߳��preprocess��߳��Ĭ��ֵΪ24��ڵ�GPU��ĿΪ8��ô��Խ�preprocess��߳��Ϊ3��4��

��ʱ��ʱ�쳣�˳�

��Ϊ��¶��д��ѵ��Ļ��ж��ᷢ��create cusolver handle failed��ʹ��mpirunִ��nvidia-smi��Ƿ��еĻ��

��С��ķ��Ϊֹ��Ǹ��ӭ��԰��Ʋ�Ʒ��롢�Թ��ܵĽ��߸��²ۣ��ɨ��ύ�ʾ��ֻ��Ʒһ�ݡ�https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

��ɨ��д�Ϸ��ʾ��

��ӭÿλ��Լ��Ŀ��Ŷ~

��Hello AI��ʹ��AIACC-Training MXNet��

��

��

ʾ��

��MXNet

��KVStore��API

��Horovod��API

ʹ��SyncBatchNorm

��Ϣ

��

��Ծ��

��

��Դ�ռ��

��ʱ��ʾUndefined symbols

��ٶȽ��

��ʱ��ʱ�쳣�˳�

�Ʒ��ECS

��

��

��ؿγ�

��ص��

��ʵ�鳡��

��Hello AI��ʹ��AIACC-Training MXNet��

��������

��������������

ʾ������

����MXNet

�������KVStore��API

�������Horovod��API

ʹ��SyncBatchNorm

������Ϣ

��������

���Ծ���

��������

�����Դ�ռ������

����ʱ��ʾUndefined symbols

�����ٶȽ���

����ʱ���������ʱ�쳣�˳�

�Ʒ�����ECS

��������

��������

��ؿγ�

��ص�����

���ʵ�鳡��

��

��

ʾ��

��MXNet

��KVStore��API

��Horovod��API

��Ϣ

��

��Ծ��

��

��Դ�ռ��

��ʱ��ʾUndefined symbols

��ٶȽ��

��ʱ��ʱ�쳣�˳�

�Ʒ��ECS

��

��

��ص��

��ʵ�鳡��