Osdi 24 Llumnix Dynamic Scheduling

Media Summary: 서울대학교 데이터사이언스대학원 Data Lakehouse Systems for Data Science 연구실 2024.09.13 Mini-Conference MonoNN: Enabling a New Monolithic Optimization Space for Neural Network Inference Tasks on Modern GPU-Centric ... Kamino: Efficient VM Allocation at Scale with Latency-Driven Cache-Aware

Osdi 24 Llumnix Dynamic Scheduling - Detailed Analysis & Overview

서울대학교 데이터사이언스대학원 Data Lakehouse Systems for Data Science 연구실 2024.09.13 Mini-Conference MonoNN: Enabling a New Monolithic Optimization Space for Neural Network Inference Tasks on Modern GPU-Centric ... Kamino: Efficient VM Allocation at Scale with Latency-Driven Cache-Aware A Tale of Two Paths: Toward a Hybrid Data Plane for Efficient Far-Memory Applications Lei Chen, University of Chinese Academy ... Enabling Tensor Language Model to Assist in Generating High-Performance Tensor Programs for Deep Learning Yi Zhai, ... DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving Yinmin Zhong and ...

ServerlessLLM: Low-Latency Serverless Inference for Large Language Models Yao Fu, Leyang Xue, Yeqi Huang, and ... Low End-to-End Latency atop a Speculative Shared Log with Fix-Ante Ordering Shreesha G. Bhat, Tony Hong, Xuhao Luo, Jiyu ... nnScaler: Constraint-Guided Parallelization Plan Generation for Deep Learning Training Zhiqi Lin, University of Science and ... Optimizing Resource Allocation in Hyperscale Datacenters: Scalability, Usability, and Experiences Neeraj Kumar, Pol Mauri Ruiz, ... DecDEC: A Systems Approach to Advancing Low-Bit LLM Quantization Yeonhong Park, Jake Hyun, Hojoon Kim, and Jae W. Lee, ...

Photo Gallery

OSDI '24 - Llumnix: Dynamic Scheduling for Large Language Model Serving

[LLM Serving] Llumnix: Dynamic Scheduling for Large Language Model Serving (OSDI 2024)

Dynamic Scheduling for Large Language Model Serving | Ray Summit 2024

OSDI '24 - MonoNN: Enabling a New Monolithic Optimization Space for Neural Network Inference...

OSDI '25 - Kamino: Efficient VM Allocation at Scale with Latency-Driven Cache-Aware Scheduling

OSDI '24 - A Tale of Two Paths: Toward a Hybrid Data Plane for Efficient Far-Memory Applications

OSDI '24 - Enabling Tensor Language Model to Assist in Generating High-Performance Tensor...

OSDI '24 - DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language...

OSDI '24 - ServerlessLLM: Low-Latency Serverless Inference for Large Language Models

OSDI '25 - Low End-to-End Latency atop a Speculative Shared Log with Fix-Ante Ordering

OSDI '24 - nnScaler: Constraint-Guided Parallelization Plan Generation for Deep Learning Training

OSDI '24 - Optimizing Resource Allocation in Hyperscale Datacenters: Scalability, Usability, and...

View Detailed Profile

OSDI '24 - Llumnix: Dynamic Scheduling for Large Language Model Serving

OSDI '24 - Llumnix: Dynamic Scheduling for Large Language Model Serving

Llumnix

[LLM Serving] Llumnix: Dynamic Scheduling for Large Language Model Serving (OSDI 2024)

[LLM Serving] Llumnix: Dynamic Scheduling for Large Language Model Serving (OSDI 2024)

서울대학교 데이터사이언스대학원 Data Lakehouse Systems for Data Science 연구실 2024.09.13 Mini-Conference

Dynamic Scheduling for Large Language Model Serving | Ray Summit 2024

Dynamic Scheduling for Large Language Model Serving | Ray Summit 2024

Hanyu Zhao from Alibaba Group presents

OSDI '24 - MonoNN: Enabling a New Monolithic Optimization Space for Neural Network Inference...

OSDI '24 - MonoNN: Enabling a New Monolithic Optimization Space for Neural Network Inference...

MonoNN: Enabling a New Monolithic Optimization Space for Neural Network Inference Tasks on Modern GPU-Centric ...

OSDI '25 - Kamino: Efficient VM Allocation at Scale with Latency-Driven Cache-Aware Scheduling

OSDI '25 - Kamino: Efficient VM Allocation at Scale with Latency-Driven Cache-Aware Scheduling

Kamino: Efficient VM Allocation at Scale with Latency-Driven Cache-Aware

OSDI '24 - A Tale of Two Paths: Toward a Hybrid Data Plane for Efficient Far-Memory Applications

OSDI '24 - A Tale of Two Paths: Toward a Hybrid Data Plane for Efficient Far-Memory Applications

A Tale of Two Paths: Toward a Hybrid Data Plane for Efficient Far-Memory Applications Lei Chen, University of Chinese Academy ...

OSDI '24 - Enabling Tensor Language Model to Assist in Generating High-Performance Tensor...

OSDI '24 - Enabling Tensor Language Model to Assist in Generating High-Performance Tensor...

Enabling Tensor Language Model to Assist in Generating High-Performance Tensor Programs for Deep Learning Yi Zhai, ...

OSDI '24 - DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language...

OSDI '24 - DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language...

DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving Yinmin Zhong and ...

OSDI '24 - ServerlessLLM: Low-Latency Serverless Inference for Large Language Models

OSDI '24 - ServerlessLLM: Low-Latency Serverless Inference for Large Language Models

ServerlessLLM: Low-Latency Serverless Inference for Large Language Models Yao Fu, Leyang Xue, Yeqi Huang, and ...

OSDI '25 - Low End-to-End Latency atop a Speculative Shared Log with Fix-Ante Ordering

OSDI '25 - Low End-to-End Latency atop a Speculative Shared Log with Fix-Ante Ordering

Low End-to-End Latency atop a Speculative Shared Log with Fix-Ante Ordering Shreesha G. Bhat, Tony Hong, Xuhao Luo, Jiyu ...

OSDI '24 - nnScaler: Constraint-Guided Parallelization Plan Generation for Deep Learning Training

OSDI '24 - nnScaler: Constraint-Guided Parallelization Plan Generation for Deep Learning Training

nnScaler: Constraint-Guided Parallelization Plan Generation for Deep Learning Training Zhiqi Lin, University of Science and ...

OSDI '24 - Optimizing Resource Allocation in Hyperscale Datacenters: Scalability, Usability, and...

OSDI '24 - Optimizing Resource Allocation in Hyperscale Datacenters: Scalability, Usability, and...

Optimizing Resource Allocation in Hyperscale Datacenters: Scalability, Usability, and Experiences Neeraj Kumar, Pol Mauri Ruiz, ...

OSDI '25 - DecDEC: A Systems Approach to Advancing Low-Bit LLM Quantization

OSDI '25 - DecDEC: A Systems Approach to Advancing Low-Bit LLM Quantization

DecDEC: A Systems Approach to Advancing Low-Bit LLM Quantization Yeonhong Park, Jake Hyun, Hojoon Kim, and Jae W. Lee, ...