Hanchen Li

All Stories

CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion

Article • ACM Transactions on Computer Systems, March 2026, ACM (Association for Computing Machinery)

Hanchen Li
CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion

Article • March 2025, ACM (Association for Computing Machinery)

Hanchen Li
Eloquent: A More Robust Transmission Scheme for LLM Token Streaming

Article • August 2024, ACM (Association for Computing Machinery)

Hanchen Li
CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving

Article • August 2024, ACM (Association for Computing Machinery)

Ganesh Ananthanarayanan, Hanchen Li
Optimizing Real-Time Video Experience with Data Scalable Codec

Article • September 2023, ACM (Association for Computing Machinery)

Hanchen Li