How to use llm as a reward func？

我想在奖励函数中用LLM来实现结果的判断，我有标准答案，但是标准答案latex可以有多种，期望用LLM来判断等价性，又因为grpo脚本是--vllm_mode colocate  且为了显存考虑，只想调用部署的这个vllm，该怎么改代码呢？