基于你上传的 9 秒视频,抽取建筑、行人、树木、路桩、招牌、平面、空间路线和禁入区,把语义图层直接叠加在真实画面上,渲染成类智能驾驶 / 机器人导航界面的 3D 感知视频。
不是抽象低模盒子,而是真实视频每一帧上的语义分层 + 检测框 + 空间网格 + 路线,严格同步 9 秒。
建筑 / 行人 / 物体 / 空间四类机器人可用要素,每一层都能落到结构化标签和碰撞摘要。
城墙、城楼、门洞、双层屋顶作为固定结构和定位地标。
游客群体作为动态障碍,渲染为可避让对象和高代价区域。
路桩、街灯、树、招牌、车辆区作为碰撞 / 限制要素。
石板广场、机器人路线、禁入区、可行走网格同步展示。