910b3 适配 verl 中的 HCCL 问题

一、问题现象：
按照 [VeRL For Pytorch](https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/PyTorch/built-in/rl/VeRL_for_PyTorch) 的配置方法安装后，测试 GRPO 脚本时，在 Warmup 时出现可复现的 Failed to initialize the HCCP process 问题：

```
...
ray.exceptions.RayTaskError(RuntimeError): ray::WorkerDict.ref_init_model() (pid=324545, ip=10.0.1.3, actor_id=49a34dc51198d5e78bac638c01000000, repr=<verl.single_controller.ray.base.WorkerDict object at 0xffcfccff1bd0>)
  File "/data/verl/verl/single_controller/ray/base.py", line 663, in func
    return getattr(self.worker_dict[key], name)(*args, **kwargs)
  File "/data/verl/verl/single_controller/base/decorator.py", line 540, in inner
    return func(*args, **kwargs)
  File "/data/verl/verl/workers/fsdp_workers.py", line 557, in init_model
    self.ref_module_fsdp = self._build_model_optimizer(
  File "/data/verl/verl/workers/fsdp_workers.py", line 316, in _build_model_optimizer
    actor_module_fsdp = FSDP(
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py", line 483, in __init__
    _auto_wrap(
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/fsdp/_wrap_utils.py", line 101, in _auto_wrap
    _recursive_wrap(**recursive_wrap_kwargs, **root_kwargs)  # type: ignore[arg-type]
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/fsdp/wrap.py", line 545, in _recursive_wrap
    wrapped_child, num_wrapped_params = _recursive_wrap(
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/fsdp/wrap.py", line 545, in _recursive_wrap
    wrapped_child, num_wrapped_params = _recursive_wrap(
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/fsdp/wrap.py", line 545, in _recursive_wrap
    wrapped_child, num_wrapped_params = _recursive_wrap(
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/fsdp/wrap.py", line 563, in _recursive_wrap
    return _wrap(module, wrapper_cls, **kwargs), nonwrapped_numel
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/fsdp/wrap.py", line 492, in _wrap
    return wrapper_cls(module, **kwargs)
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py", line 509, in __init__
    _init_param_handle_from_module(
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/fsdp/_init_utils.py", line 629, in _init_param_handle_from_module
    _sync_module_params_and_buffers(
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/fsdp/_init_utils.py", line 1126, in _sync_module_params_and_buffers
    _sync_params_and_buffers(
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/utils.py", line 328, in _sync_params_and_buffers
    dist._broadcast_coalesced(
RuntimeError: create_config:build/CMakeFiles/torch_npu.dir/compiler_depend.ts:102 HCCL function error: hcclCommInitRootInfoConfig(numRanks, &rootInfo, rank, config, &(comm->hcclComm_)), error code is 7
[ERROR] 2025-06-25-04:36:39 (PID:324545, Device:0, RankID:0) ERR02200 DIST call hccl api failed.
EJ0001: [PID: 324545] 2025-06-25-04:36:39.622.433 Failed to initialize the HCCP process. Reason: Maybe the last training process is running.
        Solution: Wait for 10s after killing the last training process and try again.
        TraceBack (most recent call last):
        tsd client wait response fail, hostpid:2626876, device response code[1]. unknown device error.[FUNC:WaitRsp][FILE:process_mode_manager.cpp][LINE:270]

Set the environment variable HYDRA_FULL_ERROR=1 for a complete stack trace.
...
```

二、软件版本:
- CANN==8.1.RC1
- python==3.10
- vllm==v0.7.3
- vllm-ascend==v0.7.3
- torch==2.5.1
- torch-npu==2.5.1
- ray==2.46.0
- transformers==4.52.4
- ubuntu22.04

三、硬件版本：
910B3 * 8

四、测试步骤：
基础镜像：swr.cn-south-1.myhuaweicloud.com/ascendhub/cann:8.1.rc1-910b-ubuntu22.04-py3.10

Docker启动脚本：

```
docker run -it --privileged --user root --network host \
    --shm-size 500g \
    --device=/dev/davinci0 \
    --device=/dev/davinci1 \
    --device=/dev/davinci2 \
    --device=/dev/davinci3 \
    --device=/dev/davinci4 \
    --device=/dev/davinci5 \
    --device=/dev/davinci6 \
    --device=/dev/davinci7 \
    --device /dev/davinci_manager \
    --device /dev/devmm_svm \
    --device /dev/hisi_hdc \
    -v /usr/local/dcmi:/usr/local/dcmi \
    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
    -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
    -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
    -v /etc/ascend_install.info:/etc/ascend_install.info \
    swr.cn-south-1.myhuaweicloud.com/ascendhub/cann:8.1.rc1-910b-ubuntu22.04-py3.10 bash
```

verl 测试脚本：
```
set -x

export VLLM_ATTENTION_BACKEND=XFORMERS

python3 -m verl.trainer.main_ppo \
    algorithm.adv_estimator=grpo \
    data.train_files=/data/verl/data/gsm8k/train.parquet \
    data.val_files=/data/verl/data/gsm8k/test.parquet \
    data.train_batch_size=128 \
    data.max_prompt_length=512 \
    data.max_response_length=128 \
    data.filter_overlong_prompts=True \
    data.truncation='error' \
    actor_rollout_ref.model.path=/data/Qwen2.5-0.5B \
    actor_rollout_ref.actor.optim.lr=5e-7 \
    actor_rollout_ref.model.use_remove_padding=False \
    actor_rollout_ref.actor.entropy_coeff=0.001 \
    actor_rollout_ref.actor.ppo_mini_batch_size=64 \
    actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=20 \
    actor_rollout_ref.actor.use_kl_loss=True \
    actor_rollout_ref.actor.kl_loss_coef=0.001 \
    actor_rollout_ref.actor.kl_loss_type=low_var_kl \
    actor_rollout_ref.model.enable_gradient_checkpointing=True \
    actor_rollout_ref.actor.fsdp_config.param_offload=False \
    actor_rollout_ref.actor.fsdp_config.optimizer_offload=False \
    actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=40 \
    actor_rollout_ref.rollout.enable_chunked_prefill=False \
    actor_rollout_ref.rollout.tensor_model_parallel_size=2 \
    actor_rollout_ref.rollout.name=vllm \
    actor_rollout_ref.rollout.gpu_memory_utilization=0.6 \
    actor_rollout_ref.rollout.n=5 \
    actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=40 \
    actor_rollout_ref.ref.fsdp_config.param_offload=True \
    algorithm.kl_ctrl.kl_coef=0.001 \
    trainer.critic_warmup=0 \
    trainer.logger=['console'] \
    trainer.project_name='verl_grpo_example_gsm8k' \
    trainer.experiment_name='qwen2_7b_function_rm' \
    trainer.n_gpus_per_node=8 \
    trainer.nnodes=1 \
    trainer.save_freq=-1 \
    trainer.test_freq=5 \
    trainer.total_epochs=1 $@
```

五、完整日志信息:
```
+ export VLLM_ATTENTION_BACKEND=XFORMERS
+ VLLM_ATTENTION_BACKEND=XFORMERS
+ python3 -m verl.trainer.main_ppo algorithm.adv_estimator=grpo data.train_files=/data/verl/data/gsm8k/train.parquet data.val_files=/data/verl/data/gsm8k/test.parquet data.train_batch_size=128 data.max_prompt_length=512 data.max_response_length=128 data.filter_overlong_prompts=True data.truncation=error actor_rollout_ref.model.path=/data/Qwen2.5-0.5B actor_rollout_ref.actor.optim.lr=5e-7 actor_rollout_ref.model.use_remove_padding=False actor_rollout_ref.actor.entropy_coeff=0.001 actor_rollout_ref.actor.ppo_mini_batch_size=64 actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=20 actor_rollout_ref.actor.use_kl_loss=True actor_rollout_ref.actor.kl_loss_coef=0.001 actor_rollout_ref.actor.kl_loss_type=low_var_kl actor_rollout_ref.model.enable_gradient_checkpointing=True actor_rollout_ref.actor.fsdp_config.param_offload=False actor_rollout_ref.actor.fsdp_config.optimizer_offload=False actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=40 actor_rollout_ref.rollout.enable_chunked_prefill=False actor_rollout_ref.rollout.tensor_model_parallel_size=2 actor_rollout_ref.rollout.name=vllm actor_rollout_ref.rollout.gpu_memory_utilization=0.6 actor_rollout_ref.rollout.n=5 actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=40 actor_rollout_ref.ref.fsdp_config.param_offload=True algorithm.kl_ctrl.kl_coef=0.001 trainer.critic_warmup=0 'trainer.logger=[console]' trainer.project_name=verl_grpo_example_gsm8k trainer.experiment_name=qwen2_7b_function_rm trainer.n_gpus_per_node=8 trainer.nnodes=1 trainer.save_freq=-1 trainer.test_freq=5 trainer.total_epochs=1 trainer.device=npu
2025-06-25 04:35:33,459 INFO worker.py:1879 -- Started a local Ray instance. View the dashboard at 127.0.0.1:8265
(TaskRunner pid=314652) TaskRunner hostname: 910b-2, PID: 314652
(TaskRunner pid=314652) {'actor_rollout_ref': {'actor': {'checkpoint': {'load_contents': ['model',
(TaskRunner pid=314652)                                                                   'optimizer',
(TaskRunner pid=314652)                                                                   'extra'],
(TaskRunner pid=314652)                                                 'save_contents': ['model',
(TaskRunner pid=314652)                                                                   'optimizer',
(TaskRunner pid=314652)                                                                   'extra']},
(TaskRunner pid=314652)                                  'clip_ratio': 0.2,
(TaskRunner pid=314652)                                  'clip_ratio_c': 3.0,
(TaskRunner pid=314652)                                  'clip_ratio_high': 0.2,
(TaskRunner pid=314652)                                  'clip_ratio_low': 0.2,
(TaskRunner pid=314652)                                  'entropy_checkpointing': False,
(TaskRunner pid=314652)                                  'entropy_coeff': 0.001,
(TaskRunner pid=314652)                                  'entropy_from_logits_with_chunking': False,
(TaskRunner pid=314652)                                  'fsdp_config': {'forward_prefetch': False,
(TaskRunner pid=314652)                                                  'fsdp_size': -1,
(TaskRunner pid=314652)                                                  'offload_policy': False,
(TaskRunner pid=314652)                                                  'optimizer_offload': False,
(TaskRunner pid=314652)                                                  'param_offload': False,
(TaskRunner pid=314652)                                                  'reshard_after_forward': True,
(TaskRunner pid=314652)                                                  'wrap_policy': {'min_num_params': 0}},
(TaskRunner pid=314652)                                  'grad_clip': 1.0,
(TaskRunner pid=314652)                                  'kl_loss_coef': 0.001,
(TaskRunner pid=314652)                                  'kl_loss_type': 'low_var_kl',
(TaskRunner pid=314652)                                  'loss_agg_mode': 'token-mean',
(TaskRunner pid=314652)                                  'optim': {'lr': 5e-07,
(TaskRunner pid=314652)                                            'lr_warmup_steps': -1,
(TaskRunner pid=314652)                                            'lr_warmup_steps_ratio': 0.0,
(TaskRunner pid=314652)                                            'min_lr_ratio': 0.0,
(TaskRunner pid=314652)                                            'num_cycles': 0.5,
(TaskRunner pid=314652)                                            'total_training_steps': -1,
(TaskRunner pid=314652)                                            'warmup_style': 'constant',
(TaskRunner pid=314652)                                            'weight_decay': 0.01},
(TaskRunner pid=314652)                                  'ppo_epochs': 1,
(TaskRunner pid=314652)                                  'ppo_max_token_len_per_gpu': 16384,
(TaskRunner pid=314652)                                  'ppo_micro_batch_size': None,
(TaskRunner pid=314652)                                  'ppo_micro_batch_size_per_gpu': 20,
(TaskRunner pid=314652)                                  'ppo_mini_batch_size': 64,
(TaskRunner pid=314652)                                  'profiler': {'all_ranks': False,
(TaskRunner pid=314652)                                               'discrete': False,
(TaskRunner pid=314652)                                               'ranks': None},
(TaskRunner pid=314652)                                  'shuffle': False,
(TaskRunner pid=314652)                                  'strategy': 'fsdp',
(TaskRunner pid=314652)                                  'ulysses_sequence_parallel_size': 1,
(TaskRunner pid=314652)                                  'use_dynamic_bsz': False,
(TaskRunner pid=314652)                                  'use_kl_loss': True,
(TaskRunner pid=314652)                                  'use_torch_compile': True},
(TaskRunner pid=314652)                        'hybrid_engine': True,
(TaskRunner pid=314652)                        'model': {'enable_activation_offload': False,
(TaskRunner pid=314652)                                  'enable_gradient_checkpointing': True,
(TaskRunner pid=314652)                                  'external_lib': None,
(TaskRunner pid=314652)                                  'fused_kernel_options': {'impl_backend': 'torch'},
(TaskRunner pid=314652)                                  'lora_alpha': 16,
(TaskRunner pid=314652)                                  'lora_rank': 0,
(TaskRunner pid=314652)                                  'override_config': {},
(TaskRunner pid=314652)                                  'path': '/data/Qwen2.5-0.5B',
(TaskRunner pid=314652)                                  'target_modules': 'all-linear',
(TaskRunner pid=314652)                                  'trust_remote_code': False,
(TaskRunner pid=314652)                                  'use_fused_kernels': False,
(TaskRunner pid=314652)                                  'use_liger': False,
(TaskRunner pid=314652)                                  'use_remove_padding': False,
(TaskRunner pid=314652)                                  'use_shm': False},
(TaskRunner pid=314652)                        'ref': {'entropy_checkpointing': False,
(TaskRunner pid=314652)                                'entropy_from_logits_with_chunking': False,
(TaskRunner pid=314652)                                'fsdp_config': {'forward_prefetch': False,
(TaskRunner pid=314652)                                                'param_offload': True,
(TaskRunner pid=314652)                                                'reshard_after_forward': True,
(TaskRunner pid=314652)                                                'wrap_policy': {'min_num_params': 0}},
(TaskRunner pid=314652)                                'log_prob_max_token_len_per_gpu': 16384,
(TaskRunner pid=314652)                                'log_prob_micro_batch_size': None,
(TaskRunner pid=314652)                                'log_prob_micro_batch_size_per_gpu': 40,
(TaskRunner pid=314652)                                'log_prob_use_dynamic_bsz': False,
(TaskRunner pid=314652)                                'profiler': {'all_ranks': False,
(TaskRunner pid=314652)                                             'discrete': False,
(TaskRunner pid=314652)                                             'ranks': None},
(TaskRunner pid=314652)                                'strategy': 'fsdp',
(TaskRunner pid=314652)                                'ulysses_sequence_parallel_size': 1,
(TaskRunner pid=314652)                                'use_torch_compile': True},
(TaskRunner pid=314652)                        'rollout': {'calculate_log_probs': False,
(TaskRunner pid=314652)                                    'disable_log_stats': True,
(TaskRunner pid=314652)                                    'do_sample': True,
(TaskRunner pid=314652)                                    'dtype': 'bfloat16',
(TaskRunner pid=314652)                                    'enable_chunked_prefill': False,
(TaskRunner pid=314652)                                    'enforce_eager': True,
(TaskRunner pid=314652)                                    'engine_kwargs': {'sglang': {'attention_backend': None},
(TaskRunner pid=314652)                                                      'vllm': {'disable_mm_preprocessor_cache': False,
(TaskRunner pid=314652)                                                               'swap_space': None}},
(TaskRunner pid=314652)                                    'free_cache_engine': True,
(TaskRunner pid=314652)                                    'gpu_memory_utilization': 0.6,
(TaskRunner pid=314652)                                    'ignore_eos': False,
(TaskRunner pid=314652)                                    'layered_summon': False,
(TaskRunner pid=314652)                                    'load_format': 'dummy_dtensor',
(TaskRunner pid=314652)                                    'log_prob_max_token_len_per_gpu': 16384,
(TaskRunner pid=314652)                                    'log_prob_micro_batch_size': None,
(TaskRunner pid=314652)                                    'log_prob_micro_batch_size_per_gpu': 40,
(TaskRunner pid=314652)                                    'log_prob_use_dynamic_bsz': False,
(TaskRunner pid=314652)                                    'max_model_len': None,
(TaskRunner pid=314652)                                    'max_num_batched_tokens': 8192,
(TaskRunner pid=314652)                                    'max_num_seqs': 1024,
(TaskRunner pid=314652)                                    'mode': 'sync',
(TaskRunner pid=314652)                                    'multi_turn': {'completion_callback': None,
(TaskRunner pid=314652)                                                   'enable': False,
(TaskRunner pid=314652)                                                   'enable_tokenization_sanity_check': True,
(TaskRunner pid=314652)                                                   'max_turns': None,
(TaskRunner pid=314652)                                                   'tool_config_path': None,
(TaskRunner pid=314652)                                                   'use_inference_chat_template': False},
(TaskRunner pid=314652)                                    'n': 5,
(TaskRunner pid=314652)                                    'name': 'vllm',
(TaskRunner pid=314652)                                    'profiler': {'all_ranks': False,
(TaskRunner pid=314652)                                                 'discrete': False,
(TaskRunner pid=314652)                                                 'ranks': None},
(TaskRunner pid=314652)                                    'prompt_length'
(TaskRunner pid=314652) :
(TaskRunner pid=314652) 512,
(TaskRunner pid=314652)                                    'response_length': 128,
(TaskRunner pid=314652)                                    'temperature': 1.0,
(TaskRunner pid=314652)                                    'tensor_model_parallel_size': 2,
(TaskRunner pid=314652)                                    'top_k': -1,
(TaskRunner pid=314652)                                    'top_p': 1,
(TaskRunner pid=314652)                                    'use_fire_sampling': False,
(TaskRunner pid=314652)                                    'val_kwargs': {'do_sample': False,
(TaskRunner pid=314652)                                                   'n': 1,
(TaskRunner pid=314652)                                                   'temperature': 0,
(TaskRunner pid=314652)                                                   'top_k': -1,
(TaskRunner pid=314652)                                                   'top_p': 1.0}}},
(TaskRunner pid=314652)  'algorithm': {'adv_estimator': 'grpo',
(TaskRunner pid=314652)                'gamma': 1.0,
(TaskRunner pid=314652)                'kl_ctrl': {'horizon': 10000,
(TaskRunner pid=314652)                            'kl_coef': 0.001,
(TaskRunner pid=314652)                            'target_kl': 0.1,
(TaskRunner pid=314652)                            'type': 'fixed'},
(TaskRunner pid=314652)                'kl_penalty': 'kl',
(TaskRunner pid=314652)                'lam': 1.0,
(TaskRunner pid=314652)                'norm_adv_by_std_in_grpo': True,
(TaskRunner pid=314652)                'pf_ppo': {'reweight_method': 'pow', 'weight_pow': 2.0},
(TaskRunner pid=314652)                'use_kl_in_reward': False,
(TaskRunner pid=314652)                'use_pf_ppo': False},
(TaskRunner pid=314652)  'critic': {'checkpoint': {'load_contents': ['model', 'optimizer', 'extra'],
(TaskRunner pid=314652)                            'save_contents': ['model', 'optimizer', 'extra']},
(TaskRunner pid=314652)             'cliprange_value': 0.5,
(TaskRunner pid=314652)             'forward_max_token_len_per_gpu': 32768,
(TaskRunner pid=314652)             'forward_micro_batch_size': None,
(TaskRunner pid=314652)             'forward_micro_batch_size_per_gpu': None,
(TaskRunner pid=314652)             'grad_clip': 1.0,
(TaskRunner pid=314652)             'loss_agg_mode': 'token-mean',
(TaskRunner pid=314652)             'model': {'enable_activation_offload': False,
(TaskRunner pid=314652)                       'enable_gradient_checkpointing': True,
(TaskRunner pid=314652)                       'external_lib': None,
(TaskRunner pid=314652)                       'fsdp_config': {'forward_prefetch': False,
(TaskRunner pid=314652)                                       'fsdp_size': -1,
(TaskRunner pid=314652)                                       'offload_policy': False,
(TaskRunner pid=314652)                                       'optimizer_offload': False,
(TaskRunner pid=314652)                                       'param_offload': False,
(TaskRunner pid=314652)                                       'reshard_after_forward': True,
(TaskRunner pid=314652)                                       'wrap_policy': {'min_num_params': 0}},
(TaskRunner pid=314652)                       'lora_alpha': 16,
(TaskRunner pid=314652)                       'lora_rank': 0,
(TaskRunner pid=314652)                       'override_config': {},
(TaskRunner pid=314652)                       'path': '~/models/deepseek-llm-7b-chat',
(TaskRunner pid=314652)                       'target_modules': 'all-linear',
(TaskRunner pid=314652)                       'tokenizer_path': '/data/Qwen2.5-0.5B',
(TaskRunner pid=314652)                       'trust_remote_code': False,
(TaskRunner pid=314652)                       'use_remove_padding': False,
(TaskRunner pid=314652)                       'use_shm': False},
(TaskRunner pid=314652)             'optim': {'lr': 1e-05,
(TaskRunner pid=314652)                       'lr_warmup_steps_ratio': 0.0,
(TaskRunner pid=314652)                       'min_lr_ratio': None,
(TaskRunner pid=314652)                       'total_training_steps': -1,
(TaskRunner pid=314652)                       'warmup_style': 'constant',
(TaskRunner pid=314652)                       'weight_decay': 0.01},
(TaskRunner pid=314652)             'ppo_epochs': 1,
(TaskRunner pid=314652)             'ppo_max_token_len_per_gpu': 32768,
(TaskRunner pid=314652)             'ppo_micro_batch_size': None,
(TaskRunner pid=314652)             'ppo_micro_batch_size_per_gpu': None,
(TaskRunner pid=314652)             'ppo_mini_batch_size': 64,
(TaskRunner pid=314652)             'profiler': {'all_ranks': False, 'discrete': False, 'ranks': None},
(TaskRunner pid=314652)             'rollout_n': 5,
(TaskRunner pid=314652)             'shuffle': False,
(TaskRunner pid=314652)             'strategy': 'fsdp',
(TaskRunner pid=314652)             'ulysses_sequence_parallel_size': 1,
(TaskRunner pid=314652)             'use_dynamic_bsz': False},
(TaskRunner pid=314652)  'custom_reward_function': {'name': 'compute_score', 'path': None},
(TaskRunner pid=314652)  'data': {'custom_cls': {'name': None, 'path': None},
(TaskRunner pid=314652)           'filter_overlong_prompts': True,
(TaskRunner pid=314652)           'filter_overlong_prompts_workers': 1,
(TaskRunner pid=314652)           'image_key': 'images',
(TaskRunner pid=314652)           'max_prompt_length': 512,
(TaskRunner pid=314652)           'max_response_length': 128,
(TaskRunner pid=314652)           'prompt_key': 'prompt',
(TaskRunner pid=314652)           'return_full_prompt': False,
(TaskRunner pid=314652)           'return_raw_chat': False,
(TaskRunner pid=314652)           'return_raw_input_ids': False,
(TaskRunner pid=314652)           'reward_fn_key': 'data_source',
(TaskRunner pid=314652)           'shuffle': True,
(TaskRunner pid=314652)           'tokenizer': None,
(TaskRunner pid=314652)           'train_batch_size': 128,
(TaskRunner pid=314652)           'train_files': '/data/verl/data/gsm8k/train.parquet',
(TaskRunner pid=314652)           'truncation': 'error',
(TaskRunner pid=314652)           'trust_remote_code': False,
(TaskRunner pid=314652)           'use_shm': False,
(TaskRunner pid=314652)           'val_batch_size': None,
(TaskRunner pid=314652)           'val_files': '/data/verl/data/gsm8k/test.parquet',
(TaskRunner pid=314652)           'validation_shuffle': False,
(TaskRunner pid=314652)           'video_key': 'videos'},
(TaskRunner pid=314652)  'ray_init': {'num_cpus': None, 'timeline_json_file': None},
(TaskRunner pid=314652)  'reward_model': {'enable': False,
(TaskRunner pid=314652)                   'forward_max_token_len_per_gpu': 32768,
(TaskRunner pid=314652)                   'launch_reward_fn_async': False,
(TaskRunner pid=314652)                   'max_length': None,
(TaskRunner pid=314652)                   'micro_batch_size': None,
(TaskRunner pid=314652)                   'micro_batch_size_per_gpu': None,
(TaskRunner pid=314652)                   'model': {'external_lib': None,
(TaskRunner pid=314652)                             'fsdp_config': {'forward_prefetch': False,
(TaskRunner pid=314652)                                             'fsdp_size': -1,
(TaskRunner pid=314652)                                             'param_offload': False,
(TaskRunner pid=314652)                                             'reshard_after_forward': True,
(TaskRunner pid=314652)                                             'wrap_policy': {'min_num_params': 0}},
(TaskRunner pid=314652)                             'input_tokenizer': '/data/Qwen2.5-0.5B',
(TaskRunner pid=314652)                             'path': '~/models/FsfairX-LLaMA3-RM-v0.1',
(TaskRunner pid=314652)                             'trust_remote_code': False,
(TaskRunner pid=314652)                             'use_fused_kernels': False,
(TaskRunner pid=314652)                             'use_remove_padding': False,
(TaskRunner pid=314652)                             'use_shm': False},
(TaskRunner pid=314652)                   'profiler': {'all_ranks': False,
(TaskRunner pid=314652)                                'discrete': False,
(TaskRunner pid=314652)                                'ranks': None},
(TaskRunner pid=314652)                   'reward_manager': 'naive',
(TaskRunner pid=314652)                   'sandbox_fusion': {'max_concurrent': 64, 'url': None},
(TaskRunner pid=314652)                   'strategy': 'fsdp',
(TaskRunner pid=314652)                   'ulysses_sequence_parallel_size': 1,
(TaskRunner pid=314652)                   'use_dynamic_bsz': False},
(TaskRunner pid=314652)  'trainer': {'balance_batch': True,
(TaskRunner pid=314652)              'controller_nsight_options': {'cuda-graph-trace': 'graph',
(TaskRunner pid=314652)                                            'cuda-memory-usage': 'true',
(TaskRunner pid=314652)                                            'trace': 'cuda,nvtx,cublas,ucx'},
(TaskRunner pid=314652)              'critic_warmup': 0,
(TaskRunner pid=314652)              'default_hdfs_dir': None,
(TaskRunner pid=314652)              'default_local_dir': 'checkpoints/verl_grpo_example_gsm8k/qwen2_7b_function_rm',
(TaskRunner pid=314652)              'del_local_ckpt_after_load': False,
(TaskRunner pid=314652)              'device': 'npu',
(TaskRunner pid=314652)              'experiment_name': 'qwen2_7b_function_rm',
(TaskRunner pid=314652)              'log_val_generations': 0,
(TaskRunner pid=314652)              'logger': ['console'],
(TaskRunner pid=314652)              'max_actor_ckpt_to_keep': None,
(TaskRunner pid=314652)              'max_critic_ckpt_to_keep': None,
(TaskRunner pid=314652)              'n_gpus_per_node': 8,
(TaskRunner pid=314652)              'nnodes': 1,
(TaskRunner pid=314652)              'profile_steps': None,
(TaskRunner pid=314652)              'project_name': 'verl_grpo_example_gsm8k',
(TaskRunner pid=314652)              'ray_wait_register_center_timeout': 300,
(TaskRunner pid=314652)              'resume_from_path': None,
(TaskRunner pid=314652)              'resume_mode': 'auto',
(TaskRunner pid=314652)              'rollout_data_dir': None,
(TaskRunner pid=314652)              'save_freq': -1,
(TaskRunner pid=314652)              'test_freq': 5,
(TaskRunner pid=314652)              'total_epochs': 1,
(TaskRunner pid=314652)              'total_training_steps': None,
(TaskRunner pid=314652)              'val_before_train': True,
(TaskRunner pid=314652)              'val_only': False,
(TaskRunner pid=314652)              'validation_data_dir': None,
(TaskRunner pid=314652)              'worker_nsight_options': {'capture-range': 'cudaProfilerApi',
(TaskRunner pid=314652)                                        'capture-range-end': None,
(TaskRunner pid=314652)                                        'cuda-graph-trace': 'graph',
(TaskRunner pid=314652)                                        'cuda-memory-usage': 'true',
(TaskRunner pid=314652)                                        'kill': 'none',
(TaskRunner pid=314652)                                        'trace': 'cuda,nvtx,cublas,ucx'}}}
(TaskRunner pid=314652) Using dataset class: RLHFDataset
(TaskRunner pid=314652) dataset len: 7473
Filtering prompts longer than 512 tokens:   0%|          | 0/7473 [00:00<?, ? examples/s]
Filtering prompts longer than 512 tokens:  13%|█▎        | 1000/7473 [00:00<00:04, 1354.50 examples/s]
Filtering prompts longer than 512 tokens:  27%|██▋       | 2000/7473 [00:01<00:03, 1460.33 examples/s]
Filtering prompts longer than 512 tokens:  40%|████      | 3000/7473 [00:02<00:02, 1505.57 examples/s]
Filtering prompts longer than 512 tokens:  54%|█████▎    | 4000/7473 [00:02<00:02, 1529.54 examples/s]
Filtering prompts longer than 512 tokens:  67%|██████▋   | 5000/7473 [00:03<00:01, 1542.71 examples/s]
Filtering prompts longer than 512 tokens:  80%|████████  | 6000/7473 [00:03<00:00, 1551.34 examples/s]
Filtering prompts longer than 512 tokens:  94%|█████████▎| 7000/7473 [00:04<00:00, 1559.23 examples/s]
Filtering prompts longer than 512 tokens: 100%|██████████| 7473/7473 [00:04<00:00, 1530.32 examples/s]
(TaskRunner pid=314652) filter dataset len: 7473
(TaskRunner pid=314652) Using dataset class: RLHFDataset
(TaskRunner pid=314652) dataset len: 1319
Filtering prompts longer than 512 tokens:   0%|          | 0/1319 [00:00<?, ? examples/s]
Filtering prompts longer than 512 tokens:  76%|███████▌  | 1000/1319 [00:00<00:00, 1546.76 examples/s]
Filtering prompts longer than 512 tokens: 100%|██████████| 1319/1319 [00:00<00:00, 1533.98 examples/s]
(TaskRunner pid=314652) filter dataset len: 1319
(TaskRunner pid=314652) [validate_config] All configuration checks passed successfully!
(TaskRunner pid=314652) DeprecationWarning: `ray.state.available_resources_per_node` is a private attribute and access will be removed in a future Ray version.
(TaskRunner pid=314652) Size of train dataloader: 58, Size of val dataloader: 1
(TaskRunner pid=314652) Total training steps: 58
(TaskRunner pid=314652) colocated worker base class <class 'verl.single_controller.base.worker.Worker'>
(TaskRunner pid=314652) WARNING:2025-06-25 04:36:00,838:Waiting for register center actor vx7Ymm_register_center to be ready. Elapsed time: 0 seconds out of 300 seconds.
(WorkerDict pid=324767) Skipping monkey patch for Qwen2ForCausalLM as use_fused_kernels is False or fused_kernels_backend is torch
(WorkerDict pid=324545) Model config after override: Qwen2Config {
(WorkerDict pid=324545)   "architectures": [
(WorkerDict pid=324545)     "Qwen2ForCausalLM"
(WorkerDict pid=324545)   ],
(WorkerDict pid=324545)   "attention_dropout": 0.0,
(WorkerDict pid=324545)   "eos_token_id": 151643,
(WorkerDict pid=324545)   "hidden_act": "silu",
(WorkerDict pid=324545)   "hidden_size": 896,
(WorkerDict pid=324545)   "initializer_range": 0.02,
(WorkerDict pid=324545)   "intermediate_size": 4864,
(WorkerDict pid=324545)   "max_position_embeddings": 32768,
(WorkerDict pid=324545)   "max_window_layers": 24,
(WorkerDict pid=324545)   "model_type": "qwen2",
(WorkerDict pid=324545)   "num_attention_heads": 14,
(WorkerDict pid=324545)   "num_hidden_layers": 24,
(WorkerDict pid=324545)   "num_key_value_heads": 2,
(WorkerDict pid=324545)   "pad_token_id": 151643,
(WorkerDict pid=324545)   "rms_norm_eps": 1e-06,
(WorkerDict pid=324545)   "rope_scaling": null,
(WorkerDict pid=324545)   "rope_theta": 1000000.0,
(WorkerDict pid=324545)   "sliding_window": 32768,
(WorkerDict pid=324545)   "tie_word_embeddings": true,
(WorkerDict pid=324545)   "torch_dtype": "bfloat16",
(WorkerDict pid=324545)   "transformers_version": "4.52.4",
(WorkerDict pid=324545)   "use_cache": true,
(WorkerDict pid=324545)   "use_mrope": false,
(WorkerDict pid=324545)   "use_sliding_window": false,
(WorkerDict pid=324545)   "vocab_size": 151936
(WorkerDict pid=324545) }
(WorkerDict pid=324545)
(WorkerDict pid=324771) Skipping monkey patch for Qwen2ForCausalLM as use_fused_kernels is False or fused_kernels_backend is torch [repeated 6x across cluster] (Ray deduplicates logs by default. Set RAY_DEDUP_LOGS=0 to disable log deduplication, or see https://docs.ray.io/en/master/ray-observability/user-guides/configure-logging.html#log-deduplication for more options.)
(WorkerDict pid=324545) Qwen2ForCausalLM contains 494.03M parameters
(WorkerDict pid=324545) wrap_policy: functools.partial(<function _or_policy at 0xffcffa869b40>, policies=[functools.partial(<function transformer_auto_wrap_policy at 0xffcffa869a20>, transformer_layer_cls={<class 'transformers.models.qwen2.modeling_qwen2.Qwen2DecoderLayer'>})])
Error executing job with overrides: ['algorithm.adv_estimator=grpo', 'data.train_files=/data/verl/data/gsm8k/train.parquet', 'data.val_files=/data/verl/data/gsm8k/test.parquet', 'data.train_batch_size=128', 'data.max_prompt_length=512', 'data.max_response_length=128', 'data.filter_overlong_prompts=True', 'data.truncation=error', 'actor_rollout_ref.model.path=/data/Qwen2.5-0.5B', 'actor_rollout_ref.actor.optim.lr=5e-7', 'actor_rollout_ref.model.use_remove_padding=False', 'actor_rollout_ref.actor.entropy_coeff=0.001', 'actor_rollout_ref.actor.ppo_mini_batch_size=64', 'actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=20', 'actor_rollout_ref.actor.use_kl_loss=True', 'actor_rollout_ref.actor.kl_loss_coef=0.001', 'actor_rollout_ref.actor.kl_loss_type=low_var_kl', 'actor_rollout_ref.model.enable_gradient_checkpointing=True', 'actor_rollout_ref.actor.fsdp_config.param_offload=False', 'actor_rollout_ref.actor.fsdp_config.optimizer_offload=False', 'actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=40', 'actor_rollout_ref.rollout.enable_chunked_prefill=False', 'actor_rollout_ref.rollout.tensor_model_parallel_size=2', 'actor_rollout_ref.rollout.name=vllm', 'actor_rollout_ref.rollout.gpu_memory_utilization=0.6', 'actor_rollout_ref.rollout.n=5', 'actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=40', 'actor_rollout_ref.ref.fsdp_config.param_offload=True', 'algorithm.kl_ctrl.kl_coef=0.001', 'trainer.critic_warmup=0', 'trainer.logger=[console]', 'trainer.project_name=verl_grpo_example_gsm8k', 'trainer.experiment_name=qwen2_7b_function_rm', 'trainer.n_gpus_per_node=8', 'trainer.nnodes=1', 'trainer.save_freq=-1', 'trainer.test_freq=5', 'trainer.total_epochs=1', 'trainer.device=npu']

return fn(*args, **kwargs)
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/ray/_private/client_mode_hook.py", line 103, in wrapper
    return func(*args, **kwargs)
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/ray/_private/worker.py", line 2822, in get
    values, debugger_breakpoint = worker.get_objects(object_refs, timeout=timeout)
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/ray/_private/worker.py", line 930, in get_objects
    raise value.as_instanceof_cause()
ray.exceptions.RayTaskError(RuntimeError): ray::TaskRunner.run() (pid=314652, ip=10.0.1.3, actor_id=affbfc24ca431907d03116f201000000, repr=<main_ppo.TaskRunner object at 0xffcfd9653550>)
  File "/data/verl/verl/trainer/main_ppo.py", line 188, in run
    trainer.init_workers()
  File "/data/verl/verl/trainer/ppo/ray_trainer.py", line 766, in init_workers
    self.ref_policy_wg.init_model()
  File "/data/verl/verl/single_controller/ray/base.py", line 51, in __call__
    output = ray.get(output)
ray.exceptions.RayTaskError(RuntimeError): ray::WorkerDict.ref_init_model() (pid=324545, ip=10.0.1.3, actor_id=49a34dc51198d5e78bac638c01000000, repr=<verl.single_controller.ray.base.WorkerDict object at 0xffcfccff1bd0>)
  File "/data/verl/verl/single_controller/ray/base.py", line 663, in func
    return getattr(self.worker_dict[key], name)(*args, **kwargs)
  File "/data/verl/verl/single_controller/base/decorator.py", line 540, in inner
    return func(*args, **kwargs)
  File "/data/verl/verl/workers/fsdp_workers.py", line 557, in init_model
    self.ref_module_fsdp = self._build_model_optimizer(
  File "/data/verl/verl/workers/fsdp_workers.py", line 316, in _build_model_optimizer
    actor_module_fsdp = FSDP(
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py", line 483, in __init__
    _auto_wrap(
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/fsdp/_wrap_utils.py", line 101, in _auto_wrap
    _recursive_wrap(**recursive_wrap_kwargs, **root_kwargs)  # type: ignore[arg-type]
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/fsdp/wrap.py", line 545, in _recursive_wrap
    wrapped_child, num_wrapped_params = _recursive_wrap(
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/fsdp/wrap.py", line 545, in _recursive_wrap
    wrapped_child, num_wrapped_params = _recursive_wrap(
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/fsdp/wrap.py", line 545, in _recursive_wrap
    wrapped_child, num_wrapped_params = _recursive_wrap(
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/fsdp/wrap.py", line 563, in _recursive_wrap
    return _wrap(module, wrapper_cls, **kwargs), nonwrapped_numel
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/fsdp/wrap.py", line 492, in _wrap
    return wrapper_cls(module, **kwargs)
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py", line 509, in __init__
    _init_param_handle_from_module(
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/fsdp/_init_utils.py", line 629, in _init_param_handle_from_module
    _sync_module_params_and_buffers(
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/fsdp/_init_utils.py", line 1126, in _sync_module_params_and_buffers
    _sync_params_and_buffers(
  File "/home/ma-user/miniconda3/lib/python3.10/site-packages/torch/distributed/utils.py", line 328, in _sync_params_and_buffers
    dist._broadcast_coalesced(
RuntimeError: create_config:build/CMakeFiles/torch_npu.dir/compiler_depend.ts:102 HCCL function error: hcclCommInitRootInfoConfig(numRanks, &rootInfo, rank, config, &(comm->hcclComm_)), error code is 7
[ERROR] 2025-06-25-04:36:39 (PID:324545, Device:0, RankID:0) ERR02200 DIST call hccl api failed.
EJ0001: [PID: 324545] 2025-06-25-04:36:39.622.433 Failed to initialize the HCCP process. Reason: Maybe the last training process is running.
        Solution: Wait for 10s after killing the last training process and try again.
        TraceBack (most recent call last):
        tsd client wait response fail, hostpid:2626876, device response code[1]. unknown device error.[FUNC:WaitRsp][FILE:process_mode_manager.cpp][LINE:270]

Set the environment variable HYDRA_FULL_ERROR=1 for a complete stack trace.
(WorkerDict pid=324545) Skipping monkey patch for Qwen2ForCausalLM as use_fused_kernels is False or fused_kernels_backend is torch
```

六、其他
- 已尝试 pkill -9 python，但仍然可以复现相同的错误；
- npu-smi info 可以正常识别 devices

Ascend/ModelZoo-PyTorch

内容风险标识

评论 (0)

Ascend/ModelZoo-PyTorch .gitee-modal { width: 500px !important; }

内容风险标识