数字人 | Tags | AI博士Charlii

ElevenLabs 发布全新 AI 语音生成工具 Voice Design：通过文本提示创建个性化语音

ElevenLabs 推出新 AI 语音生成工具 Voice Design，通过简单的文本提示即可生成个性化语音。用户可自定义语音的年龄、口音、性别、语调等特征，还能创建具有神话或科幻角色特征的声音，广泛适用于广告、游戏、播客等场景。工具支持语音微调功能，并与 ElevenLabs 的文本转语音平台无缝整合，未来还将提供 API 支持和实时语音生成功能。

大模型

数字人

近日，字节跳动发布了其通用图像编辑模型——SeedEdit，引起了业界的广泛关注。作为一款高度创新的编辑模型，SeedEdit不仅可以生成图像，还能基于生成的图像进行多种编辑操作，比如修图、换装、美化、风格转换，以及在指定区域添加或删除元素等。

OpenAI最近发布了一款名为OpenAI Swarm的开源工具，旨在简化多智能体系统的设计和管理。Swarm框架专为开发人员提供轻量级、易于控制的工具集，用于协作处理复杂的工作流和任务。本文将介绍Swarm的核心概念、功能以及其在多步骤任务处理中的应用场景，并探讨如何利用这一工具优化AI智能体的协作效率。

数字人

自动化

Ultralight-Digital-Human 是一个全新开源项目，旨在让数字人技术在移动设备上实时运行，具备高效的轻量级模型，能够满足社交、游戏和虚拟现实等多种应用需求。该项目提供了详细的训练和推理步骤，支持 Wenet 和 Hubert 两种音频特征提取方式，以适应不同场景。通过模型压缩和剪枝，大幅减少资源需求，使其在低功耗设备上也能流畅操作。创新之处在于实现了数字人效果在智能手机上的普及性，并支持多平台和操作系统。项目已在 GitHub 上开源，方便开发者体验和定制。

数字营销

数字人

StoryMaker 是一款开源 AI 写作工具，通过上传角色照片生成故事内容，确保角色的面部、服装、发型和身体特征与照片高度一致。适用于小说创作、品牌宣传和游戏设计等场景，StoryMaker 能使内容更加个性化、生动真实，支持定制化开发，为创作者提供强大支持。

数字人

研究

PortraitGen 是一款高保真开源肖像视频编辑工具，支持多参数控制和100 FPS渲染。适用于视频创作、虚拟人物设计等，满足高效、真实感强的个性化创意需求。

数字人

研究

谷歌通过随机电路采样（RCS）算法，再次达成量子霸权。最新的研究表明，Sycamore量子计算机在噪声环境下也能超越经典计算机，在相同保真度下，电路体积比2019年翻倍。这一进展标志着量子计算在复杂任务处理上的新突破，并为未来实际应用奠定了基础。

数字人

完整保留排版的 PDF 文档全文双语翻译，支持Google，DeepL，Ollama，OpenAI 翻译

实用教程

数字人

Hunyuan3D-1.0 是腾讯推出的一款功能强大的3D生成模型，支持文本和图像输入，能够快速生成高质量的3D资产。Hunyuan3D-1.0 采用两阶段生成方法，首先通过多视角扩散模型生成多视角RGB图像，然后使用基于Transformer的稀疏视角大规模重建模型，将这些图像转换为3D模型。该模型有轻量版和标准版可选，轻量版适合快速建模，标准版则能生成更高质量的3D模型。

数字人

数字营销