我想在奖励函数中用LLM来实现结果的判断,我有标准答案,但是标准答案latex可以有多种,期望用LLM来判断等价性,又因为grpo脚本是--vllm_mode colocate 且为了显存考虑,只想调用部署的这个vllm,该怎么改代码呢?