Midscene 是一款以视觉模型为核心、支持全平台的 UI 自动化 SDK。ByteDance Web Infra 团队正式推出 Midscene v1.0,全面拥抱视觉理解技术路线,为 UI 自动化带来更高稳定性与更强适应性。
视觉模型具备如下核心优势:
渲染内容,只要能获取屏幕图像,Midscene 即可实现精准交互 除基础交互外,Midscen
e 还引入 Planning(任务规划)与 Insight(界面洞察)两类高级意图,并支持为不同意图配置专属模型。例如:使用 GPT 系列模型负责高层动作编排,而由 Doubao 模型专注执行元素识别与定位。
多模型协同机制,让开发者可根据任务复杂度灵活调配算力资源,兼顾效率与精度。
针对运行时性能,v1.0 做出多项关键优化:
回放报告作为开发者高频使用的调试利器,本次也迎来全面升级:
Midscene MCP 服务的定位同步更新:其核心使命聚焦于“视觉驱动的 UI 操作抽象”。通过将 iOS / Android / Web 各端设备的 Action Space 中每一个原子操作封装为标准 MCP 工具,MCP 层向上统一暴露能力接口。
这一设计使开发者得以专注于构建具备业务语义的高阶 Agent,彻底摆脱底层 UI 控制细节的束缚,同时持续获得高成功率保障。
iOS 方面优化
Android 方面优化
runAdbShell 指令支持,扩展底层调试与控制能力 跨平台增强
方法名称变更:
aiAction() → aiAct()(旧方法仍可用,但会触发弃用警告) logScreenshot() → recordToReport()(旧方法保留,附带弃用提示)环境变量名称变更:
OPENAI_API_KEY → MODEL_API_KEY(优先读取新变量,旧变量作为兜底选项) OPENAI_BASE_URL → MODEL_BASE_URL(新变量优先生效,旧变量兼容保留)源码地址:点击下载