对于Sdpa 与Flash Attention显存计算问题

我注意到在[pyramidkv_utils.py](https://github.com/Zefan-Cai/KVCache-Factory/blob/main/pyramidkv/pyramidkv_utils.py)中首先计算了一遍attention，然后进行indices的选择，然而在取代的attention计算中，又由于计算了一遍attention，反而这样的显存占用会比fullkv高，请问这个能改进嘛？