Update reading list

gwsshs22 · gwsshs22 · commit 3cc087a544cc · 2025-08-19T11:50:23.000-05:00
diff --git a/_data/papers.yaml b/_data/papers.yaml
@@ -22,6 +22,12 @@ wlbllm-osdi25:
   booktitle: "OSDI 25"
   url: "https://www.usenix.org/conference/osdi25/presentation/wang-zheng"
 
+hotspa-sosp24:
+  title: "Enabling Parallelism Hot Switching for Efficient Training of Large Language Models"
+  authors: "Hao Ge, Fangcheng Fu, Haoyang Li, Xuanyu Wang, Sheng Lin, Yujie Wang, Xiaonan Nie, Hailin Zhang, Xupeng Miao, and Bin Cui"
+  booktitle: "SOSP 24"
+  url: "https://dl.acm.org/doi/abs/10.1145/3694715.3695969"
+
 llama3-2024:
   title: "The Llama 3 Herd of Models"
   authors: "Aaron Grattafiori et al."
@@ -100,6 +106,12 @@ areal-arxiv25:
   booktitle: "Arxiv 2025"
   url: "https://arxiv.org/pdf/2505.24298"
 
+asyncrlhf-iclr25:
+  title: "Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models"
+  authors: "Michael Noukhovitch, Shengyi Huang, Sophie Xhonneux, Arian Hosseini, Rishabh Agarwal, Aaron Courville"
+  booktitle: "ICLR 25"
+  url: "https://arxiv.org/abs/2410.18252"
+
 hybridflow-eurosys25:
   title: "HybridFlow: A Flexible and Efficient RLHF Framework"
   authors: "Guangming Sheng, Chi Zhang, Zilingfeng Ye, Xibin Wu, Wang Zhang, Ru Zhang, Yanghua Peng, Haibin Lin, and Chuan Wu"
@@ -112,12 +124,36 @@ pagedattention-sosp23:
   booktitle: "SOSP 23"
   url: "https://arxiv.org/pdf/2309.06180.pdf"
 
+orca-osdi22:
+  title: "Orca: A Distributed Serving System for Transformer-Based Generative Models"
+  authors: "Gyeong-In Yu, Joo Seong Jeong, Geon-Woo Kim, Soojeong Kim, and Byung-Gon Chun"
+  booktitle: "OSDI 22"
+  url: "https://www.usenix.org/conference/osdi22/presentation/yu"
+
 distserve-osdi24:
   title: "DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving"
   authors: "Yinmin Zhong, Shengyu Liu, Junda Chen, Jianbo Hu, Yibo Zhu, Xuanzhe Liu, Xin Jin, and Hao Zhang"
   booktitle: OSDI 24
   url: https://www.usenix.org/conference/osdi24/presentation/zhong-yinmin
 
+loongserve-sosp24:
+  title: "LoongServe: Efficiently Serving Long-Context Large Language Models with Elastic Sequence Parallelism"
+  authors: "Bingyang Wu, Shengyu Liu, Yinmin Zhong, Peng Sun, Xuanzhe Liu, and Xin Jin"
+  booktitle: "SOSP 24"
+  url: "https://dl.acm.org/doi/pdf/10.1145/3694715.3695948"
+
+waferllm-osdi25:
+  title: "WaferLLM: Large Language Model Inference at Wafer Scale"
+  authors: "Congjie He, Yeqi Huang, Pei Mu, Ziming Miao, Jilong Xue, Lingxiao Ma, Fan Yang, Luo Mai"
+  booktitle: "OSDI 25"
+  url: "https://www.usenix.org/system/files/osdi25-he.pdf"
+
+aqua-asplos25:
+  title: "Aqua: Network-Accelerated Memory Offloading for LLMs in Scale-Up GPU Domains"
+  authors: "Abhishek Vijaya Kumar, Gianni Antichi, and Rachee Singh"
+  booktitle: "ASPLOS 25"
+  url: "https://dl.acm.org/doi/abs/10.1145/3676641.3715983"
+
 splitwise-isca24:
   title: "SplitWise: Efficient Generative LLM Inference Using Phase Splitting"
   authors: "Pratyush Patel, Esha Choukse, Chaojie Zhang, Aashaka Shah, Íñigo Goiri, Saeed Maleki, and Ricardo Bianchini"
@@ -166,6 +202,12 @@ tutel-mlsys23:
   booktitle: "MLSys 23"
   url: "https://proceedings.mlsys.org/paper_files/paper/2023/hash/5616d34cf8ff73942cfd5aa922842556-Abstract-mlsys2023.html"
 
+megablock-mlsys23:
+  title: "MegaBlocks: Efficient Sparse Training with Mixture-of-Experts"
+  authors: "Trevor Gale, Deepak Narayanan, Cliff Young, and Matei Zaharia"
+  booktitle: "MLSys 23"
+  url: "https://proceedings.mlsys.org/paper_files/paper/2023/hash/5a54f79333768effe7e8927bcccffe40-Abstract-mlsys2023.html"
+
 moelight-asplos25:
   title: "MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs"
   authors: "Shiyi Cao, Shu Liu, Tyler Griggs, Peter Schafhalter, Xiaoxuan Liu, Ying Sheng, Joseph E. Gonzalez, Matei Zaharia, and Ion Stoica"
diff --git a/_includes/paper_item.html b/_includes/paper_item.html
@@ -1,5 +1,5 @@
 {% assign p = site.data.papers[include.key] %}
 <li markdown="span">
-  {% if include.required %} <b>(Required)</b> {% endif %} <a href="{{ p.url }}">{{ p.title }}</a>
+  {% if include.required %} {% if include.required != true %} <b>(Required - {{ include.required }})</b> {% else %} <b>(Required)</b> {% endif %} {% endif %} <a href="{{ p.url }}">{{ p.title }}</a>
   {% if p.authors != "" %} <br/> <em>{{ p.authors }}</em>. {% endif %} {% if p.booktitle != "" %} {{ p.booktitle }}. {% endif %}
 </li>
diff --git a/_pages/about.md b/_pages/about.md
@@ -22,7 +22,7 @@ See the [**Logistics**]({{ '/logistics/' | relative_url }}) tab for detailed inf
 
 ### What We Will Cover
 
-A tentative reading list lives on the [**Reading List**]({{ '/reading-list/' | relative_url }}) tab and draws heavily from OSDI/SOSP, ASPLOS, SIGCOMM, NSDI, MLSys and Nature papers.
+A tentative reading list lives on the [**Reading List**]({{ '/reading-list/' | relative_url }}) tab and draws heavily from top systems and ML venues, including OSDI/SOSP, ASPLOS, SIGCOMM, NSDI, MLSys, ICLR, and NeurIPS.
 
 #### Part 1 – LLMs as the Backbone of Modern AI  
 * Parallel & elastic training (3D, MoE, fault-tolerance)  
diff --git a/_pages/reading_list.md b/_pages/reading_list.md
@@ -12,56 +12,62 @@ title: ""
     <b>(Required)</b> <a href="https://arxiv.org/pdf/2407.21783">The Llama 3 Herd of Models</a> (Sections 2, 3.3, and 4.1), <br/><em>Llama Team, AI @ Meta</em>
   </li>
   {% include paper_item.html key="megatron-sc21" required=true %}
-  {% include paper_item.html key="wlbllm-osdi25" required=false %}
 </ul>
 
+
 #### Scaling LLM Pre-Training
 <ul>
-  {% include paper_item.html key="alpa-osdi22" required=true %}
-  {% include paper_item.html key="partir-asplos25" required=false %}
-  {% include paper_item.html key="rdma-sigcomm24" required=true %}
-  {% include paper_item.html key="cassini-nsdi24" required=false %}
-  {% include paper_item.html key="traincheck-osdi25" required=true %}
-  {% include paper_item.html key="superbench-atc24" required=false %}
-  {% include paper_item.html key="oobleck-sosp23" required=true %}
-  {% include paper_item.html key="tenplex-sosp24" required=false %}
+  {% include paper_item.html key="wlbllm-osdi25" required="Context Parallelism" %}
+  {% include paper_item.html key="hotspa-sosp24" %}
+  {% include paper_item.html key="alpa-osdi22" required="Auto Parallelism" %}
+  {% include paper_item.html key="partir-asplos25" %}
+  {% include paper_item.html key="rdma-sigcomm24" required="Network" %}
+  {% include paper_item.html key="cassini-nsdi24" %}
+  {% include paper_item.html key="traincheck-osdi25" required="Silent Data Corruption" %}
+  {% include paper_item.html key="superbench-atc24" %}
+  {% include paper_item.html key="oobleck-sosp23" required="Fault-Tolerance" %}
+  {% include paper_item.html key="tenplex-sosp24" %}
 </ul>
 
 #### LLM Post-Training for Alignment
 <ul>
-  {% include paper_item.html key="rlhfuse-nsdi25" required=true %}
-  {% include paper_item.html key="hybridflow-eurosys25" required=false %}
-  {% include paper_item.html key="areal-arxiv25" required=true %}
+  {% include paper_item.html key="hybridflow-eurosys25" required="Resource Efficiency" %}
+  {% include paper_item.html key="rlhfuse-nsdi25" %}
+  {% include paper_item.html key="areal-arxiv25" required="Async RL" %}
+  {% include paper_item.html key="asyncrlhf-iclr25" %}
 </ul>
 
 #### Efficient LLM Serving
 <ul>
-  {% include paper_item.html key="pagedattention-sosp23" required=true %}
-  {% include paper_item.html key="nanoflow-osdi25" required=true %}
-  {% include paper_item.html key="sarathiserve-osdi24" required=false %}
-  {% include paper_item.html key="distserve-osdi24" required=true %}
-  {% include paper_item.html key="llumnix-osdi24" required=true %}
+  {% include paper_item.html key="pagedattention-sosp23" required="KV Cache Management" %}
+  {% include paper_item.html key="orca-osdi22" %}
+  {% include paper_item.html key="nanoflow-osdi25" required="Optimal Throughput" %}
+  {% include paper_item.html key="sarathiserve-osdi24" %}
+  {% include paper_item.html key="distserve-osdi24" required="Prefill/Decode Disaggregation" %}
+  {% include paper_item.html key="loongserve-sosp24" %}
+  {% include paper_item.html key="waferllm-osdi25" required="New Hardware" %}
+  {% include paper_item.html key="aqua-asplos25" %}
 </ul>
 
 #### Mixture-of-Experts
 <ul>
-  {% include paper_item.html key="switch-jmlr22" required=true %}
-  {% include paper_item.html key="moe-iclr17" required=false %}
-  {% include paper_item.html key="fsmoe-asplos25" required=true %}
-  {% include paper_item.html key="tutel-mlsys23" required=false %}
-  {% include paper_item.html key="moelight-asplos25" required=true %}
-  {% include paper_item.html key="pregatedmoe-isca24" required=false %}
-  {% include paper_item.html key="readme-neurips24" required=false %}
+  {% include paper_item.html key="switch-jmlr22" required="MoE Motivation and Architecture" %}
+  {% include paper_item.html key="moe-iclr17" %}
+  {% include paper_item.html key="fsmoe-asplos25" required="Training" %}
+  {% include paper_item.html key="megablock-mlsys23" %}
+  {% include paper_item.html key="moelight-asplos25" required="Serving" %}
+  {% include paper_item.html key="pregatedmoe-isca24" %}
+  {% include paper_item.html key="readme-neurips24" %}
 </ul>
 
 ## Part 2 - GenAI: Beyond Simple Text Generation
 #### Multi-Modal Generation
 <ul>
   {% include paper_item.html key="illstablediff" required=true %}
-  {% include paper_item.html key="approxcache-nsdi24" required=true %}
-  {% include paper_item.html key="diffserve-mlsys24" required=false %}
-  {% include paper_item.html key="cogvideox-iclr25" required=true %}
-  {% include paper_item.html key="moviegen-arxiv24" required=false %}
+  {% include paper_item.html key="approxcache-nsdi24" required="Diffusion Model Serving" %}
+  {% include paper_item.html key="diffserve-mlsys24" %}
+  {% include paper_item.html key="cogvideox-iclr25" required="Video Gen Model" %}
+  {% include paper_item.html key="moviegen-arxiv24" %}
 </ul>
 
 #### Retrieval-Augmented Generation