不知道大家关注没有,最近 Stability AI 推出了一项革命性技术:Stable Fast 3D。能够从单张图像快速生成高质量的3D资产。该技术在0.5秒内即可完成从输入图像到详细3D模型的转换,并且生成的3D资产包括UV展开网格、材质参数和颜色等信息。
Stable Fast 3D的功能特性
极速3D生成:从单张图片快速生成3D模型,整个过程仅需0.5秒。 高质量输出:确保生成的3D资产在视觉和纹理上具有高质量表现。 UV展开网格:自动生成UV映射,为3D模型提供正确的表面细节 材质参数:包含必要的材质属性,使得3D模型在不同光照条件下都能保持逼真效果。 重网格选项:提供四边形或三角形重网格功能,以适应不同的渲染和建需求。 兼容性:支持在多种设备和平台上生成3D模型,包括但不限于GPU加速的本地环境和云API服务 增强现实(AR)集成:用户可以在Stable Assistant聊天机器人中通过3D查看器分享和在AR环境中预览3D创作。
在线体验地址: Stable Fast 3D
刚刚发现一个在线视频无损压缩工具:Rotato
Rotato 是一款无损视频压缩工具,它基于FFmpeg技术,能够将视频文件大小压缩至原来的80%到90%,几乎不损失效果。用户只需将视频文件拖放到网页界面即可开始压缩,无需安装任何软件或注册付费。 该工具在压缩过程中不会发送数据到服务器,确保了用户的隐私和数据安全。
Rotato 的主要特点包括: - 免费使用:用户无需注册或付费即可使用该工具。 - 操作简便:通过简单的拖放操作即可完成视频压缩。 - 高效压缩:利用先进的压缩算法,可以快速有效地减少视频文件的大小。
Rotato 官网:https://tools.rotato.app/compress
近期,Stability AI 推出的一款创新性视频生成模型 Stable Video 4D
模型下载:https://huggingface.co/stabilityai/sv4d
Stable Video 4D 的主要特点: - 高质量视频内容:Stable Video 4D 能够处理和生成高质量的视频内容,满足专业应用的需求。 - 合成数据集训练:虽然目前主要基于合成数据集进行训练,但 Stability AI 正在优化模型以适应真实世界的视频场景。 - 相关模型:除了 Stable Video 4D,Stability AI 还发布了 Stable Video Diffusion 和 SV3D 等模型,它们支持从图像或文本生成视频,并在多视图合成和高分辨率视频生成方面表现出色。
个人感觉这个模型还挺强的,大家觉得有哪些实际应用场景啊?
OpenAI 今天发布了全新的 AI 模型“GPT-4o mini”,是一款扩大聊天机器人应用范围的小型AI模型,它被标榜为功能强大且成本效益高的模型,并预留了未来整合图像、视频和音频处理能力的空间。
作为多模态技术推进的一部分,GPT-4o mini 即时起服务于ChatGPT的免费、Plus及Team用户,预计下周覆盖Enterprise用户。它是基于GPT-4o(5月发布,具备全面的多媒体处理能力和高速度)的精简版,优化了成本和响应速度,能处理长达128K tokens的上下文,特别提升了对非英文内容的支持,知识库更新至2023年10月。
在MMLU和MGSM基准测试中,GPT-4o mini表现出色,分别获得了82%和87.0%的分数,优于同类模型。目前,该模型已具备文本和图像处理功能,未来将扩展至视频和音频领域,大家觉得怎么样?
戳链接查看详情:GPT-4o mini
SVGStud.io 是一个基于AI的工具,用于搜索和生成可缩放矢量图形(SVG)。
核心功能包括:
1、免费的SVG束:浏览大量预生成的SVG。 2、语义化SVG搜索:找到尽可能接近搜索词或样本图像的SVG文件。 3、基于AI的SVG生成器:根据文本描述和(可选)示例图像生成新的SVG。迭代优化SVGs。
所有在SVGStud.io 上的 SVG 都遵循CC-BY-SA 4.0许可证。使用 SVGStud.io 需要接受并遵守使用限制。
还可以将 SVG 转换为其他格式,如 DXF 和 EPS。所有生成的文件都可以随时下载。
传送门:SVGStud.io
Magnific 又一次找到新的增长点了。这次,他们推出了一个PS插件,
这个插件的主要功能包括图像放大和细节增强,能够直接在 Photoshop 内部使用,无需额外操作。
具体来说,Magnific 的 PS 插件通过 Adobe Store 安装后,可以无缝集成到 Photoshop 中。用户只需点击放大按钮,插件便会在 Photoshop 中自动工作,将放大后的图像作为新图层插入,从而保持创作过程的流畅性。
MagnificPS插件的详细使用教程:
Magnific 的这一插件不仅简化了图像处理流程,还显著提升了工作效率,满足了专业用户的高需求。大家觉得这个插件的实用性怎么样?
近日,苹果公司与瑞士洛桑联邦理工学院(EPFL)联合开源了一款名为4M-21的多模态视觉模型。该模型具有广泛的通用性和灵活性,尽管只有30亿参数,但它可以执行数十种任务,包括图像分类、目标检测、语义分割、实例分割、深度估计和表面法线估计等。
4M-21模型在21种不同的模态下进行训练,能够处理包括图像、文本、音频等多种模态的任务。这种多模态能力使其在跨模态检索、可控生成和开箱即用性能方面表现出色。
4M-21还支持任意到任意模态的转换,进一步扩展了其应用范围。
4M-21模型的推出标志着从传统单模态优化模型向多模态综合处理能力的重大转变,展示了苹果在AI领域的强大实力和创新能力。
开源地址:https://github.com/apple/ml-4m/ 论文地址:https://arxiv.org/abs/2406.09406 在线demo:https://huggingface.co/spaces/EPFL-VILAB/4M
今天发现了一个声音克隆的好东西,我刚刚挖到的Fish Speech这个工具,不仅生成速度快到飞起,而且克隆出的声音也很真实,支持文字转语音功能,非常的好用!
Fish Speech 是一款由fishaudio开发的全新文本转语音(TTS)工具,具有强大的语音克隆能力。用户只需提供一段参考语音,系统便能迅速进行语音克隆,无需繁琐的训练过程。
该工具支持中文、英语和日语等多种语言,并且在语音处理上的能力接近人类水平。 Fish Speech采用了先进的AI技术,包括VQ-GAN、Llama和VITS等,能够将文本转换成逼真的语音。它还采用了Flash-Attn算法,以提高处理大规模数据的效率和稳定性。这些技术使得Fish Speech不仅在语音合成方面表现出色,还在语音克隆方面具有显著的优势。
Fish Speech的语音克隆功能特别适合内容创作者使用,他们可以利用这一工具快速生成各种声音效果,用于视频配音、播客制作等场景。
试玩地址:https://fish.audio/zh-CN/