llm.run
→ step
→ run_workers("execute_model")
→ worker.execute_model
→ modelrunner.execute_model
→ decode_seq
→ stop_seq
→ free_finished_seq
block_tables 即一个字典,将所有的序列ID映射到对应的块表block_table,block_table实际上就是List[PhysicalTokenBlock]
如何将序列组的数据封装为神经网络的输入参数?
执行模型时的参数都是什么?各有什么含义?
input_ids 的类型为 torch.Tensor,应该就是将