最近,Stability AI做出了一个重大决策,修改了其社区许可协议,允许Stable Diffusion 3 Medium(简称SD3-M)模型商业化使用。如果企业或个人开发者年收入不超过100万美元(约726万人民币),只需向Stability AI提交申请,即可免费将SD3-M用于商业目的,如数据微调和生成式AI应用开发。
根据最新的协议,100万美元的收入门槛是硬性条件,不论收入是否直接来自SD3-M的使用。Stability AI还承诺,将在未来几周内发布一个更大版本的模型,并继续与社区分享,意味着该模型将会持续开源。
SD3-M模型拥有20亿参数,生成图片时间平均为2至10秒,推理效率高,对硬件要求低,适合在多种设备上运行。相较于前几代,它在图片质量、文本语义、光影和色彩表现上有显著提升,特别是在文本嵌入方面改进明显,提高了字体识别和嵌入的准确性。
训练过程中,SD3-M使用了包含10亿张图片的公开和合成数据集进行预训练,另外还使用了3000万张特定艺术风格和领域的图片进行微调,以及300万张偏好图片。
开源地址:https://huggingface.co/stabilityai/stable-diffusion-3-medium 填写申请地址:https://stability.ai/community-license
今天发现了一个声音克隆的好东西,我刚刚挖到的Fish Speech这个工具,不仅生成速度快到飞起,而且克隆出的声音也很真实,支持文字转语音功能,非常的好用!
Fish Speech 是一款由fishaudio开发的全新文本转语音(TTS)工具,具有强大的语音克隆能力。用户只需提供一段参考语音,系统便能迅速进行语音克隆,无需繁琐的训练过程。
该工具支持中文、英语和日语等多种语言,并且在语音处理上的能力接近人类水平。 Fish Speech采用了先进的AI技术,包括VQ-GAN、Llama和VITS等,能够将文本转换成逼真的语音。它还采用了Flash-Attn算法,以提高处理大规模数据的效率和稳定性。这些技术使得Fish Speech不仅在语音合成方面表现出色,还在语音克隆方面具有显著的优势。
Fish Speech的语音克隆功能特别适合内容创作者使用,他们可以利用这一工具快速生成各种声音效果,用于视频配音、播客制作等场景。
试玩地址:https://fish.audio/zh-CN/
上半年 Sora 爆火到现在,AI 在视频领域的发展越来越强了,近日,Runway 的 Gen-3 Alpha 文字转视频功能向所有人开放了。
Runway Gen-3 Alpha 的文字转视频功能是其核心功能之一。用户只需输入文字描述或关键词,Gen-3 Alpha 就能够通过其强大的深度学习算法,自动生成与之相关的视频作品。这一功能不仅支持简单的文本到视频转换,还提供了多种高级创作工具,如运动画笔、相机控制和导演模式等,进一步提升了视频制作的专业度和灵活性。
Runway Gen-3 Alpha 在保真度、一致性和运动表现上均实现了显著的突破,能够生成高保真的视频片段,最长可达10秒。用户可以选择生成5秒或10秒的视频,并且可以根据需要调整视频的详细程度和风格。
Runway Gen-3 Alpha 的文字转视频功能不仅强大且灵活,能够满足各种创意需求,还在技术上取得了显著的进步,成为AI视频生成领域的一大亮点。
但是目前想体验还是需要开通12美元的会员~
Solos 是一家专门生产智能眼镜的公司,近日它们推出了 Solos AirGo Vision 智能眼镜,这是全球首款集成 GPT-4o 技术的可穿戴设备,让你随时随地都能体验到人工智能的魅力!
更多功能和特点包括: - 提供实时多语言翻译 - 与 ChatGPT 通过自然对话交互 - 可自行选择镜框。包括日常眼镜、太阳镜和运动太阳镜等样式 - 通过触摸传感器向上或向下更改音量 - 通过虚拟按键一键连接 Solos 智能眼镜 - 通过USB-C 连接口充电 - 具有 IP67 级防水功能,可户外活动佩戴 - 可持续 10 小时播放音乐或 7 小时通话
官网地址:https://solosglasses.com/
近日,美国 NBC(全国广播环球公司)宣布了其在美国通过电视网络和 Peacock 流媒体平台服务报道奥运会的计划。也就是说,万众期待的2024年巴黎奥运会,解说员将由AI担任。你敢信吗?
NBC 此次宣布,Peacock 流媒体平台将启用基于真人体育主播的 AI 生成语音,用于播报、解说“Peacock Your Daily Olympic Recap on Peacock” 节目。NBC用AI技术模仿了传奇解说员Al Michaels的声音,为观众定制10分钟的奥运集锦。
如果不标明“由AI生成”,估计超过90%的人都不会意识到这是AI的声音,观众可以根据自己的喜好选择运动项目、运动员和内容类型。
NBC这次举动标志着AI生成的内容开始被主流媒体接受。经过几个月的法律斗争和犹豫,大型媒体公司终于加入了AI内容生成的潮流。
卷起来了,前不久阿里云推出了首个“AI程序员”。能够一站式自主完成任务分解、代码编写、测试、问题修复和代码提交等整个过程,能够在分钟级时间内完成应用开发。 近日,字节跳动推出了一款名为豆包 MarsCode 的智能开发工具,面向国内开发者免费开放。
核心功能: 1、提供智能代码补全、Bug修复、单元测试生成等AI功能。 2、支持多种编程语言和主流IDE。
云端集成开发环境(Cloud IDE):豆包MarsCode包含AI原生的云端IDE,无需配置复杂环境,直接在浏览器中进行编程和调试。 支持语言:支持C、C++、C#、Go、JavaScript、Java、Node.js、Rust、TypeScript等多种编程语言。 开发模板:提供多种开发环境和模板,减少环境配置时间。 原生AI能力:具备代码自动补全与生成、问题修复、代码优化等功能。
主要特点: 1、开箱即用,简化环境配置。 2、云端IDE,随时随地开发。 3、弹性云端资源,不受本地资源限制。
主要功能: - 编程助手和Cloud IDE:提供代码编写提议、代码补全、Lint错误修复等。 - 项目问答功能:针对需求开发、Bug修复、开源项目学习等场景提供支持。
更多介绍可以访问豆包 MarsCode官网!
昨天,在开发者们收到的警告信中,OpenAI 写道:将采取额外措施,封禁来自不支持国家和地区的API流量。7月9日起,将终止对不支持国家的API服务,中国包括在内。
昨天看到有小伙伴还在吐槽,刚续费了 ChatGPT 会员,不要慌,现在 LibreChat 横空出世,作为一个免费的开源 ChatGPT 克隆版,它不仅支持多种 AI 模型,还提供了灵活的自定义选项,解决了多 AI 模型整合和切换的问题。
LibreChat 代表了开源的精神和对技术的热爱,为用户提供了安全、灵活的聊天环境,大家不妨用着试试看!
LibreChat 官网
大家好,我想给大家介绍一个专为插画师和艺术爱好者设计的在线AI上色工具:Petalica Paint ,推荐大家试玩~
Petalica Paint 它的一大特点是内置的AI自动上色功能,你只需上传线稿图,软件就能智能识别并自动填充色彩,大大缩短了手动上色的时间,非常适合追求效率的创作者。工具提供了多样化的上色风格选项,可以根据作品的风格和自己的喜好进行选择。
Petalica Paint 还有线稿提取功能,无论是草图还是照片,都能清晰地分离出线条,为上色前的准备工作做好铺垫。在色彩调整方面,用户享有高度自由,可以任意调节颜色、透明度和饱和度,确保每个细节都符合你的创作愿景。
该软件与pixiv Sketch平台实现了良好的集成,你可以在pixiv Sketch里直接无缝使用Petalica Paint的各项功能,无需切换应用。
试玩→ Petalica Paint
近日,Anthropic 公司发布了 Claude 3.5 Sonnet,作为 OpenAI 的劲敌,这款全新的人工智能模型在智能水平上超越了所有的竞争对手。在推理、知识和编码能力方面,Claude 3.5 Sonnet 能够迅速理解复杂指令,撰写出高质量内容。与 Claude 3 Opus 相比,解码速度提升两倍,编码评估中解决的问题比例高达64%,展现出无与伦比的独立编写、编辑和执行代码能力,
Artifacts 功能更是锦上添花,允许用户在Claude.ai上动态编辑和构建Claude生成的内容,甚至能直接展示生成的代码为网页,无论是HTML、JS、CSS还是SVG都能轻松实现。
Claude 3.5 Sonnet的到来,意味着代码世界即将迎来一场革命。你,准备好迎接挑战了吗?
最近,Anthropic 发布了全新大模型 Claude 3.5 Sonnet,号称是迄今为止最智能的模型。
Claude 3.5 Sonnet 是 Anthropic 即将推出的 Claude 3.5 系列的首个版本。该模型提高了整个领域的智能水平,在绝大多数基准评估中都超越了竞品大模型和自家前代最强 Claude 3 Opus。而且,运行速度、成本与自家前代 Claude 3 Sonnet 相当。最重要的是可以免费使用!
以下是关于Claude 3.5 Sonnet的几个关键点: 1. 模型性能:Claude 3.5 Sonnet在多个基准测试中,包括研究生水平推理(GPQA)、本科生水平知识(MMLU)和编码能力(HumanEval),设定了新的行业标准,展现出对细微差别、幽默和复杂指令的出色理解能力,以及以自然、友好的方式生成高质量内容的能力。 2. 速度与成本:它的运行速度是其前代Claude 3 Opus的两倍,同时保持了与Claude 3 Sonnet相似的成本效益,这意味着对于用户来说,它能更高效地处理复杂任务,且价格合理。 3. 免费与付费访问:Claude 3.5 Sonnet在Claude.ai网站和iOS应用上免费提供给用户,而订阅了Claude Pro和Team计划的用户可以享受更快的访问速率。此外,它也通过Anthropic API和亚马逊云科技Bedrock等平台提供,定价为每百万个输入token 3美元,每百万个输出token 15美元。 4. 视觉能力:该模型在视觉识别和处理方面也表现出色,成为Anthropic至今为止最强的视觉模型,特别是在处理视觉推理任务,如解释图表、图形转录文本等方面,这对零售、物流和金融服务等行业尤为重要。 5. Artifacts功能:Anthropic引入了一项名为Artifacts的新功能,允许用户在与Claude交互时,于对话旁边专用窗口中实时查看、编辑和构建由Claude生成的内容,比如代码片段、文本文档和网站设计,进一步促进了人工智能与人类工作的无缝集成。 6. 安全性考量:Claude 3.5 Sonnet经过严格的安全测试,并被分类为AI安全等级2(ASL-2),意味着它在化学、生物、放射性、核风险、网络安全和自主能力等领域使用相对安全,不会造成灾难性损害。Anthropic还与外部专家合作,不断测试和完善模型的安全机制,以减少滥用风险。
地址:https://claude.ai/
Adobe Acrobat 迎来了重大 AI 升级,支持多文档分析和图像生成,此次升级主要包括以下两个方面:
1、多文档分析:Acrobat 的 AI 助手现在能够同时分析和查询多个文档,包括非 PDF 文件。这意味着用户可以将多个 PDF 或其他格式的文件拖拽至应用程序中,AI 助手会自动处理这些文件并提供相关信息。
2、图像生成和编辑:Adobe Acrobat 引入了全新的“Generate Image”功能,用户可以选择 PDF 文件中的某段内容,调用 AI 来生成图片,并调整图片的样式和大小。还有“Edit Image”功能,允许用户通过 Firefly AI 模型对现有图像进行编辑,例如删除背景、擦除和裁剪等。
这次升级显著增强了 Acrobat 的功能,使其在处理复杂文档和图像方面更加高效和智能。
各位设计师们,这个工具太牛了啊,只需在源图像中指定需要编辑的区域,并提供一张参考图,MimicBrush 就能智能捕捉两者间的联系,自动完成局部编辑或替换。该工具的主要功能包括局部区域编辑、纹理转移和后期处理优化等。分享给大家!!
MimicBrush 是由中国香港大学、阿里巴巴集团和蚂蚁集团联合开发的一种零样本图像编辑工具,通过参考图像进行模仿编辑,帮助用户更方便地进行创作。
MimicBrush 的主要特点包括: 参考图像模拟:分析并复制参考图像中指定的视觉特征到源图像中的标记区域,确保风格或内容的一致性。 零样本图像编辑:允许用户在没有原始目标图像的情况下进行图像编辑,通过参考仿制的方式实现编辑效果。 文本到图像对齐:利用 CLIP 编码器和 VAE 实现文本到图像的对齐功能,用户可以通过输入文本描述来指导编辑过程。 多样化的编辑结果:展示了一系列多样化的编辑结果,包括局部区域编辑、纹理转移和后期处理优化等功能。
MimicBrush 还简化了复杂的编辑流程,提高了效率和灵活性,特别适用于产品定制、角色设计和特效制作等领域。其底层框架基于 SD1.5 的扩散模型和 MimicBrush 模型结合,极大地简化了 AI 图像编辑的流程。
项目地址:https://github.com/ali-vilab/MimicBrush
大家还记得 Sora 是什么时候发布的吗?2 月份,当时 OpenAI 发布之后,一夜之间就把 AI 视频生成界搅得天翻地覆啊,但是现在一点消息都没有了,反倒是其他平台遍地开花,特别是这个月,简直太爆炸了~
昨天深夜,Runway 放出酝酿了半年的全新版本 Gen-3 Alpha,也让我们再次见证了这些巨头的底蕴。
Runway Gen-3 Alpha 特点如下: 高保真视频生成:能够生成接近真实世界质量的视频内容,具有高度的细节和清晰度。 精细动作控制:模型能够精确控制视频中对象的动作和过渡,实现复杂场景的流畅动画。 逼真人物生成:特别擅长生成具有自然动作、表情和情感的逼真人类角色。 多模态输入:支持文字转视频、图像转视频、文字转图像等多种创作方式。 先进工具:支持运动画笔、相机控制和导演模式等专业创作工具。 增强的安全措施:引入新的内部视觉审核系统和 C2PA 标准,确保内容的安全性和可靠性。 高质量训练:使用高描述性的、时间密集的字幕进行训练,使模型能够理解和生成具有丰富时间动态的视频。
现在还在内测中,后期可以体验的时候再给大家分享地址!
暑期档看什么?小编强烈安利博纳影业抖音联合出品的 AIGC 科幻短剧集《三星堆:未来启示录》
在博纳 25 周年向新而生新闻发布会上,博纳影业出品制作、抖音联合出品的 AIGC 科幻短剧集《三星堆:未来启示录》正式亮相。该剧第一季共 12 集,作为抖音推出的首部 AIGC 科幻短剧集,预计上线今年的短剧暑期档,在即梦 AI、博纳影业 AIGMS、剪映的抖音官方账号同步更新。即梦 AI 作为首席 AI 技术支持方,基于豆包大模型技术,为《三星堆:未来启示录》提供AI剧本创作、概念及分镜设计、镜头画面生成、图像到视频转换、视频编辑和媒体内容增强等十种 AI 技术。
喜欢 AI 视频的小伙伴一定不要错过啊!
斯坦福大学的研究团队与 Apparate Labs 前几天发布一款名为 Proteus 的创新 AI 视频生成模型,可以从单一图像生成笑、说唱、唱歌、眨眼、微笑、说话高度逼真和具有表现力的虚拟人物。 PROTEUS兼容多种大模型的多模态输入,可以处理语音、文本和图像等多种形式的数据。
Proteus模型亮点: - 高度逼真:利用先进的AI技术,Proteus能够从单张图片生成具有高度逼真表情和流畅动作的虚拟人物形象。 - 低延迟生成:Proteus模型具备低延迟特性,能够实时响应语音输入,生成每秒超过100帧的视频流。 - 多模态交互:模型支持语音、文本和图像等多种输入形式,实现与用户的自然直观交互。
应用领域: Proteus模型在个性化虚拟助理、虚拟宠物、情感支持、客户服务、教育和培训、游戏定制、影视娱乐、市场营销和社交媒体等领域具有广泛的应用潜力。
申请体验地址: https://apparate.ai/early-access.html
我们都知道 Stable Diffusion 3 是一款强大的文生图模型,拥有20亿参数,因其高效的推理速度和卓越的生成效果而备受瞩目。
近日,Stability AI在推特上宣布正式开源了 Stable Diffusion 3 Medium(SD3-M) 权重,为广大用户带来了免费试用的机会。而且官方还宣称 SD3-M 是他们 Stable Diffusion 3 系列中最新、最先进的文本转图像 AI 模型!
Stable Diffusion 3 Medium(SD3-M)关键要点: 1. Stable Diffusion 3 Medium,由 Stability AI 推出,代表了我们迄今为止在文本到图像领域最前沿的开放模型技术。 2. 这款模型设计紧凑,便于在常见的个人电脑、笔记本电脑,以及企业级图形处理单元(GPU)上高效运行。其优化的大小使其成为文本转图像应用的新一代标准。 3. 现在,这些精心调整的模型权重可以在非商业性的开放许可证和面向创作者的低成本许可证下供您使用。如果您有大规模商业应用的需求,欢迎联系我们以获取更详细的许可信息。 4. 想要体验 Stable Diffusion 3 模型的魅力,您可以通过 Stability AI 的平台 API 来尝试。我们还提供在 Stable Assistant 上注册即可享受的三天免费试用。此外,您还可以通过 Discord 加入 Stable Artisan,进一步探索模型的潜力。
Stability AI官方公告 地址:http://stability.ai/news/stable-diffusion-3-medium