附件中使用test_fused_rms_norm_rope.py,调用fused_rms_norm_rope.py中算子。 fused_rms_norm_rope-tl版本使用triton-ascend环境,原始版本使用dlcompiler。 bind_sub_block为true的情况下,triton-ascend精度能过,dlcompiler有误差。 [rms_norm_rope.zip](https://github.com/user-attachments/files/24121673/rms_norm_rope.zip)