智谱 AI 推出全球领先智能体 AutoGLM:一句话即可完成手机操作,全面解放双手
00 min
2024-10-29
2024-11-18
type
status
date
summary
tags
category
slug
icon
password
公众号
关键词
小宇宙播客
小红书
数字人视频号
笔记

智谱 AI 再次引领全球创新:发布AutoGLM,一句话就能让手机帮你点外卖、订酒店、购物

近日,智谱 AI 重磅推出了全新的智能体——AutoGLM,真正实现了“一句话搞定手机操作”。这个智能体不仅可以帮你完成点外卖、订酒店等常见任务,还能模拟人类操作界面,为用户提供前所未有的便捷体验。

智能体 AutoGLM:不止是代替点击,还能模拟人类操作

AutoGLM 是一个手机和网页操作的 AI 助手,不再需要用户亲自点按繁琐的步骤。只需简单说出你的需求,AutoGLM 就能像人一样快速自动执行所有指令。比如:
  • 在微信上为老板的朋友圈点赞并评论
  • 在淘宝上复购历史订单
  • 在携程上预订酒店
  • 在美团上下单外卖
  • 在小红书上自动点赞关注
这款智能体帮助用户在做饭、开车、工作等不便操作手机的情境中,轻松完成各种手机任务。

核心技术创新:AutoGLM 让智能体更像“真人”

AutoGLM 的背后是智谱团队的技术突破,使其不仅限于简单的操作,还能够灵活适应复杂场景。其核心创新包括:
  1. 任务规划与动作执行的解耦
    1. AutoGLM 将“任务规划”(想干什么)和“动作执行”(怎么操作)分开,结合自然语言桥接两者。这种架构让每一步执行更精准,避免误触,从而更好地完成任务。
  1. 自我学习和进化
    1. AutoGLM 采用“自进化在线课程强化学习框架”,使其能在不断的学习中提升自己,适应多种应用场景,比如在淘宝购物和订酒店时,通过“刷题”式的自我改进机制,确保每次任务的成功率不断提高。

AutoGLM 解决的关键问题

  • 动作执行精度提升:通过解耦的设计,AutoGLM 可以准确点击界面元素,减少误操作。
  • 任务规划灵活性:自进化学习框架使其在复杂任务中更灵活应对,不再“卡住”。

评测基准中的优异表现

AutoGLM 在多种评测基准中表现出色:
  • AndroidLab 评测中,AutoGLM 的任务执行成功率优于 GPT-4o 和 Claude-3.5-Sonnet。
  • WebArena-Lite 评测中,AutoGLM 的任务成功率相对 GPT-4o 提升了约200%,大幅缩小了人类与 AI 之间的差距。

开放内测申请

目前,AutoGLM 的网页能力已经开放给公众使用,而手机端也已面向部分安卓用户开放内测。感兴趣的安卓用户可以通过此链接申请体验,感受智能生活的便捷。
更令人兴奋的是,智谱 AI 还与荣耀等手机厂商达成合作,未来将有更多手机内置 AutoGLM,让每个人都能享受到这一极致 AI 助手带来的便利。

GLM-4-Voice:情感语音模型带来全新互动体验

除了 AutoGLM,智谱 AI 还发布了GLM-4-Voice,一个具备情感理解和表达能力的多模态语音模型。它实现了无缝的文字到语音转换,减少信息损失与延迟,为用户带来更自然的互动体验。其核心亮点包括:
  • 情感表达:可模拟高兴、悲伤、害怕等多种情感。
  • 调节语速:在同一对话中实现快速或慢速输出。
  • 多语言、多方言支持:涵盖中英文及多种地方方言(如粤语、重庆话)。
  • 灵活输入与实时响应:根据用户指令调整输出,支持视频通话,即将实现“能看也能说”的 AI 助手。
GLM-4-Voice 以其12.5Hz音频token建模,确保了低延迟的端到端语音生成能力。

代码开源

智谱 AI 将 GLM-4-Voice 的代码开源,欢迎开发者在 GitHub 查看:GitHub 仓库
AutoGLM 与 GLM-4-Voice 的推出,再次展现了智谱 AI 的技术实力。未来,我们期待这些创新技术为更多人带来更加便捷、智能的数字生活。
上一篇
17岁高中生的百万美元AI App:独立开发者的春天来了吗?
下一篇
Deepgram推出AI语音代理API:实时对话的未来