个人简介

胡一涛，天津大学智能与计算学部，教授，天津市TANKLAB实验室李克秋教授团队成员。博士毕业于美国南加州大学，导师为Ramesh Govindan教授。本科毕业于上海交通大学，导师为王新兵教授。研究方向包括大语言模型（LLM）系统、生成检索增强（RAG）和 AI for Science (AI4Science)。近期主要致力于大语言模型和 AI4Science 应用在云端 GPU 集群的部署与推理优化，旨在通过计算加速、并行优化和资源编排等技术实现高性能、高效率和高可扩的人工智能系统。通过与 IBM Watson 研究院、三星研究院、微软研究院等研究机构的合作，在 SoCC、Ubicomp、INFOCOM、IWQoS、ASPLOS、SIGCOMM、TPDS 和 TC 等高水平会议/期刊上发表论文十余篇。研究获得NSFC等机构资助，并获得天津大学 U35 优秀青年人才奖、SoCC'24 最佳论文奖等荣誉。

带领团队开发了全国首个高校问答大模型“天问”（Twen.ai）。基于RAG检索增强技术，天问在学习生活、升学就业、科研学术、奖学金申请等方面为天大师生提供咨询服务。天问于24年4月正式发布，每日服务数千咨询问题。近期，配合推动建设天津大学 AI 辅导员“小天老师”，预计25年9月上线，实现 AI 赋能学生成长。

欢迎有自驱力、编程能力强、对大语言模型系统和 AI4Science 感兴趣的学生与我邮件联系。请邮件附上简历/简介！

研究内容

目前我主要研究大语言模型和 AI4Science 应用在云端 GPU 集群的部署与推理优化，旨在实现高性能、高效率和高可扩的人工智能系统。

大语言模型（LLM）系统
- 大模型推理服务：巨大的内存消耗和不可预测的输出长度，为 LLM 应用带来了新的挑战。我们设计了 LLM 推理系统（qLLM、tgLLM），降低了 LLM 请求的作业完成时间，并提高了模型吞吐量和资源利用率。我们还构建了多个推理系统（InferRAG、InferMM）来管理 RAG 和多模态等场景下的GPU计算资源。
- 大模型架构及应用: 近期 LLM 架构的创新也带来了新的挑战。我们设计了推理系统（SuperSpec、ParaMoE）来优化推测解码和混合专家的推理效率。此外，我们还研究了前向解码、LoRA 服务、kv-cache 压缩等优化问题。
深度学习（DNN）系统
- 低时延推理服务：为了保证良好的用户体验，基于 DNN 的应用通常有一个时延目标。我们设计了多个 DNN 推理系统（Harpagon、DeepLat、TopInfer），通过动态批处理、请求分派和配置解耦等技术，最大限度地降低了延迟目标下的服务成本。我们还构建了多个弹性扩缩容系统（SLOpt、DeepChain），通过 AoT 编译和模型预热等技术，在突发工作负载下最大化系统吞吐量。
- 复杂应用场景：在不同场景下，基于 DNN 的应用程序面临着各种部署要求。我们设计了多级推理系统（Scrooge、Rim、Olympian），通过批处理和模型动态升/降级等技术来管理云边端 GPU 集群中的 DNN 模型。我们还构建了多个专用系统（ALPS、HRL）来处理复杂的场景，例如多模态输入和异构硬件。

代表论文

[TC 25] TightLLM: Maximizing Throughput for LLM Inference via Adaptive Offloading Policy (CCF-A)
[TC 25] SLOpt: Serving Real-Time Inference Pipeline with Strict Latency Constraint (CCF-A)
[INFOCOM 25] Harpagon: Minimizing DNN Serving Cost via Efficient Dispatching, Scheduling and Splitting (CCF-A)
[INFOCOM 25] Lark: A Buffer-aware Building Block for Programmable Packet Scheduling in Datacenters (CCF-A)
[SoCC 24] Pre-Warming is Not Enough: Accelerating Serverless Inference With Opportunistic Pre-Loading (CCF-B, Best Paper Award)
[SIGCOMM 24] PPT: A Pragmatic Transport for Datacenters (CCF-A)
[ASPLOS 24] FUYAO: DPU-enabled Direct Data Transfer for Serverless Computing (CCF-A)
[IWQoS 23] High-throughput Sampling, Communicating and Training for Reinforcement Learning Systems (CCF-B)
[TPDS 23] Accelerating Data Delivery of Latency-Sensitive Applications in Container Overlay Network (CCF-A)
[SoCC 21] Scrooge: A Cost-Effective Deep Learning Inference System (CCF-B)
[Middleware 18] Olympian: Scheduling GPU Usage in a Deep Neural Network Model Serving System (CCF-B)
[Ubicomp 16] ALPS: Accurate Landmark Positioning at City Scales (CCF-A)
[INFOCOM 14] Critical Sensing Range for Mobile Heterogeneous Camera Sensor Networks (CCF-A)

荣誉奖励

U35 优秀青年人才奖，天津大学，2025
最佳论文奖，SoCC，2024
优秀青年学术人才奖，天津大学，2024
启明学者，天津大学，2023
䇹政学者（交大首位），上海交通大学，2014
SEIEE 毕业生代表，上海交通大学，2014

教学课程

计算机系统基础，天津大学，23年春，24年春，25年春
算法分析与设计，天津大学，23年秋，25年春
Introduction to Internetworking，美国南加州大学，16年春

学生

博士生

赵志新 (2022 - Now)¹
杨国涛 (2023 - Now)¹
郑梁 (2024 - Now)²

硕士

龚子淇 (2023 - Now)
申晨 (2023 - Now)
肖景元 (2024 - Now)
易锦均 (2024 - Now)
王正超 (2024 - Now)²
王涛 (2024 - Now)¹
王永峰 (2025 - Now)
陈市 (2025 - Now)
回凯宁 (2025 - Now)
贺思为 (2025 - Now)
叶佳宁 (2025 - Now)
史博文 (2025 - Now)

本科生

纪明方 (2023 - Now)
曾凯 (2023 - Now)
钟震屹 (2024 - Now)
王科 (2024 - Now)
李俊豪 (2024 - Now)
丁昊 (2024 - Now)
郑君慧 (2024 - Now)
郭睿 (2024 - Now)
陈昊 (2024 - Now)
林阳 (2024 - Now)
程阳 (2024 - Now)
王鑫培 (2025 - Now)
严科 (2025 - Now)
赵明熙 (2025 - Now)
张正阳 (2025 - Now)

毕业生

硕士

高家珩 (硕士, 2025) → 腾讯
李林轩 (硕士, 2025) → 阿里
陈应钦 (硕士, 2024)² → 中国移动

本科生

朱文鑫 (本科, 2025) → 清华读研
王永峰 (本科, 2025) → 天大读研
陈市 (本科, 2025) → 天大读研
王荣伟 (本科, 2024) → 清华读研
肖景元 (本科, 2024) → 天大读研

1. 与曲雯毓教授共同指导

2. 与李克秋教授共同指导

胡一涛

个人简介

研究内容

大语言模型（LLM）系统

深度学习（DNN）系统

代表论文

荣誉奖励

教学课程

学生

毕业生