好消息啊!4月27日,在2024中关村论坛-未来人工智能先锋论坛上,清华大学联合生数科技正式发布了,中国首个长时间、高一致性、高动态性视频大模型——Vidu。
大家期待已久的国产大模型,这不就来了吗?
Vidu采用了原创的Diffusion与Transformer融合架构U-ViT,能够支持文本生成长达16秒、分辨率高达1080P的高清视频内容。
Vidu不仅能够模拟真实物理世界,还具备丰富想象力,具备多镜头生成、时空一致性高等技术特点。这也是继Sora发布之后,全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平,并加速功能迭代中。
现在已经开放试用了,还不赶紧来试一试?
试用地址:https://www.shengshu-ai.com/home?ref=maginative.com
Blockade Labs 生成式 AI 平台,近日在其官方网站上隆重推出了新一代模型——Model 3。
与前代Model 2相比,Model 3在生成效果上有了显著的提升。这款新模型原生就能支持到8192x4096的超高清分辨率,这大大提高了生成图像的质量。而且其增强的文本提示器能更精确地描绘生成的虚拟世界,使得生成的图像更为生动逼真。Model 3还大幅降低了生成图像的灰度值,无论是建筑、风景还是人物,都展现出更高的清晰度和精致的细节。
现在,大家已经可以免费体验这款全新的Model 3模型。虽然目前Model 3还未开放像Model 2中的网格、混音、重组、草图等自定义功能,但Blockade Labs已经明确表示,这些功能将在不久的将来为用户逐一呈现。
Model 3的主要特点包括: 1. 高分辨率支持:原生支持8192x4096分辨率,这比Model 2有显著提升。 2. 文本提示器增强:能够更好地描述生成的世界。 3. 减少灰度值:使生成的建筑、风景、人物等看起来更加高清和细腻。
免费体验地址:https://skybox.blockadelabs.com/1a97298c8f1f88340e91418e93fbee3e API地址:https://skybox.blockadelabs.com/api-membership
Adobe Photoshop 引入了全新的 Firefly Image 3 图像 AI 模型,这一更新是在2024年4月23日宣布的。这个新模型是基于 Adobe Firefly Image 3 Foundation Model 开发的,旨在为创意专业人士和设计师提供更多的AI图像编辑功能和改进。
Firefly Image 3 模型不仅增加了生成式AI特性,还对Photoshop现有的所有功能进行了改进,使得生成的图像和输出看起来更加逼真、详细。
Firefly Image 3 模型通过提供更多的控制、改进图像生成以及使编辑过程更直观,大幅提升了图像编辑的深度与灵活性。这些新功能包括但不限于根据文本提示制作基于AI的图像,以及在Photoshop中引入的新的人工智能功能,如Reference Image等。
Adobe Firefly Image 3 模型的引入,标志着Adobe在AI图像生成领域的一个重要进步,它不仅增强了创意专业人士和设计师的工作效率和创造力,也为用户提供了更加丰富和强大的图像编辑工具。这些更新预计将在今年晚些时候通过Photoshop的beta桌面应用向公众开放。
原文地址戳这里!
最近,Adobe 发布了视频超分项目 VideoGigaGAN。从演示效果来看相当牛批,支持8倍视频放大,可以适应不同风格的视频。
详细介绍: 该模型能够生成既保持时间连贯性又具有高频细节的视频。VideoGigaGAN基于一个先进的大规模图像放大模型GigaGAN进行设计和优化。 如果简单地将GigaGAN扩展为视频处理模型,并增加处理时间信息的模块,会引起视频中的严重闪烁问题。为解决这一问题,我们识别并改进了几个关键技术点,显著提升了视频的时间稳定性。 通过在公开数据集上与其他先进的VSR模型对比,并展示8倍超分辨率的视频效果,我们验证了VideoGigaGAN的高效性。
项目地址:https://videogigagan.github.io/
Dynamic Typography这个标题动画方案,简直是神器啊!你想啊,在你设计的标题里,加个SVG小动画,立马就能抓住观众的眼球!
详细介绍: 一个名为“动态排版(Dynamic Typography)”的自动化文字动画方案,它结合了变形字母表达语义和根据用户指令添加动态效果这两项技术难题。 我们的方法采用了矢量图形表示和端到端的优化框架,使用神经位移场技术将字母转换成基本形状,并配合逐帧动态效果,确保动画与文字的意图保持一致。 通过形状保持技术和感知损失正则化,我们确保了动画在整个制作过程中的可读性和结构完整性。
用了 Dynamic Typography,你的设计肯定能让人眼前一亮,赞不绝口!
项目地址:Dynamic Typography
谷歌发布了一套完整的机器学习工程师课程,共计15门课,学习时长达300小时,而且完全免费!
这套课程全面讲解了机器学习系统的设计、搭建、投产、优化以及后续的运转和维护工作,内容既深入又实用。
具体学习内容包括: - 机器学习基础,深入剖析机器学习的核心原理和方法。 - 特征工程,教授如何高效处理和转换数据,进而提升模型的性能。 - 生产级机器学习系统的构建与部署,让你了解如何将模型应用到实际生产环境中。 - 计算机视觉与自然语言处理的专业知识,涵盖图像和语言数据的深度分析及应用。 - 推荐系统的构建技巧,探讨打造个性化推荐引擎的要点。 - MLOps的实操指南,从模型的部署、监控到维护,全方位掌握机器学习操作。 - 还将详细介绍TensorFlow、Google Cloud和Vertex AI等工具和平台,助你轻松应对机器学习项目的开发与部署。
课程地址:https://www.cloudskillsboost.google/paths/17
Stability AI 开发者平台 API 现已支持最新版本的 Stable Diffusion3(SD3)及其增强版本 Stable Diffusion3Turbo。
SD3模型的亮点在于其对字体和提示的遵循能力,这在人类偏好评估中得到了突出体现。为了实现这一目标,SD3采用了新的多模态扩散变换器(MMDiT)架构,该架构改进了对图像和语言表示的权重分离处理,从而显著增强了模型的文本理解和拼写能力。这使得SD3在理解和执行用户的文本提示时更为精准,生成的图像更加符合用户的预期。
Stability AI在不断提升服务质量,尽管SD3模型已经通过API对外提供,但公司仍在持续对模型进行优化。Stability AI计划在不久的将来开放模型权重,允许拥有Stability AI会员资格的用户自行托管,这将增强用户的自主性和灵活性。
Stability AI与Fireworks AI的合作确保了API平台的高速和可靠性,公司承诺提供99.9%的服务可用性,这对于企业用户来说尤为重要,因为他们在使用开发者平台进行关键的生成型AI工作时,需要确保服务的稳定性和可靠性。
至于能不能和 Midjourney v6 相媲美或者超越 V6 ,大家不妨多体验,试试看!
API文档:https://top.aibase.com/tool/stable-diffusion-3-api 体验地址:https://sdxlturbo.ai/stable-diffusion3
哎呀,昨晚 Meta 发布被称为最强开源的 Llama 3 系列模型了,大晚上扔了个炸弹啊!说实话,这事儿也不算太意外,毕竟 Meta 总是喜欢搞点大动作。他们这次带来的就是那个自称“有史以来最牛”的开源大模型——Llama 3系列。 咱们设计师,又可以借助这个新模型好好发挥一番了!
一起看看这个 GPT-4 级模型,它能干得过 GPT-4 么?
Llama 3模型的特点 - 规模与性能:Meta开源了两款不同规模的Llama 3模型,分别是8B和70B参数规模。Llama 3 8B在性能上与Llama 2 70B相当,而Llama 3 70B则在性能上媲美甚至超越了其他顶尖AI模型。 - 技术改进:Llama 3在预训练和后训练方面都有所改进,优化了模型的一致性和响应多样性,降低了出错率。 - 多模态与多语言:未来几个月,Meta将推出具备多模态、多语言对话和更长上下文窗口的新模型,其中包括超过400B的模型,预计将与现有的顶尖模型竞争。
Llama 3的性能测试 - 基准测试:Llama 3在多个测试中得分超越了其他同类模型,显示出其在推理、代码生成和遵循指令等方面的突破性提升。 - 人类评估数据集:Meta开发了一套新的高质量人类评估数据集,用于准确研究模型性能。
开源与闭源的辩论 - 开源优势:Meta坚定地支持开源路线,认为这有助于推动社区和公司双方的创新。 - 未来展望:尽管Llama 3为开源模型赢得了一场胜利,但关于开源与闭源的辩论仍在继续。未来,可能会有更高性能的模型出现,为这场辩论带来新的转折。
附上 Llama 3 体验地址:https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct
各位设计师小伙伴,现在用Midjourney、DALL·E 3、Stable Diffusion 这些AI模型来生成图片的时候,如果生成的图片样式并不完全符合你的设计需求,大家都是怎么处理的啊?
常规操作,你得用 PS、Adobe Lightroom这些软件来调整。不过说实话,这样挺费时的,也不太符合现在AI时代的高效率要求。
近日「AIGC开放社区」就为大家介绍一款最近公测的高效图片无限重生样式的免费试用AI平台——Freepik。这个平台现在是公测期,而且提供免费试用。
你只需要把图片上传到Freepik,选择3D、绘画、怀旧、卡通、超现实等样式,就能在几秒内快速实现。
对于我们这些设计师来说,Freepik简直就是个神器,强烈推荐给大家试试!
Freepik免费试用地址:https://www.freepik.com/pikaso/reimagine
昨天,谷歌在官网宣布从5月15日起,将向所有谷歌相册用户免费提供Magic Editor、Photo Unblur和Magic Eraser三款生成式AI编辑工具。
通过这三款强大的AI图像编辑工具,用户可以轻松将模糊的图片变高清,实现一键PS/调色/光影,删除图片多余内容等。而在此之前,这三个是谷歌Pixel手机独有功能。
功能介绍: 1. Magic Editor:这是一款强大的AI图像编辑工具,它可以帮助用户轻松实现一键PS/调色/光影,改变图片中的物体位置等。这项功能最初在2023年10月4日随Pixel 8系列手机发布。Magic Editor的优势在于它的细节调整和融合度比传统的PS工具更强,而且操作简单,无需深度的专业知识。不过,需要注意的是,所有谷歌相册用户每月只能使用10次Magic Editor,如果想要更多使用次数,用户需要购买Pixel 8手机或开通Google One计划(2TB及以上)。 2. Photo Unblur:这是一款专用于去除图片模糊的工具。用户在拍摄图片时可能会因为手抖、环境等因素导致图片模糊,Photo Unblur能够一键还原图片的清晰度,让模糊的图片变高清。 3. Magic Eraser:这是一款图片擦除工具,可以帮助用户去除照片中不希望出现的元素,如行人或物体。对于不熟悉PS技术的用户来说,Magic Eraser提供了一种简单快捷的解决方案,一键完美去除图片中的障碍物。
哪款你最期待呢?评论区说出你的想法吧~
OpenAI 发布了GPT-4-Turbo 正式版,这是一个带有视觉能力的模型,能够处理128k的上下文。
这个模型现在已经全面开放,可以通过“gpt-4-turbo”来使用,最新版本为“gpt-4-turbo-2024-04-09”。
GPT-4-Turbo模型的基础能力得到了显著提升,它不仅能够处理文本输入,还能够识别和理解图片。这一特性使得GPT-4-Turbo在多种应用场景中具有更广泛的应用潜力。例如,它可以用于自动编码、图像识别和营养分析等领域,为用户提供更加丰富和便捷的服务。
GPT-4-Turbo的价格与之前的版本保持一致,这使得用户能够以相对较低的成本使用这一先进的AI技术。同时,OpenAI还提供了详细的接口信息和使用限制,帮助开发者更好地理解和利用这一模型。
大家觉得这个新功能怎么样,实用性高吗?
4月10日凌晨,谷歌在官网正式发布了Gemini1.5Pro,现在可在180多个国家/地区使用。
Gemini 1.5 Pro 不仅能够生成创意文本和代码,还能理解、总结上传的视频和音频内容,并且支持高达100万tokens的上下文。
在Google AI Studio开发平台中,用户可以免费试用Gemini 1.5 Pro,并且它支持中文提示。这使得用户能够通过简单的操作,上传视频或音频文件,并获取内容的深度总结。例如,用户可以上传一个视频并询问影片的内容,Gemini 1.5 Pro能够快速解析并提供答案。
Gemini 1.5 Pro还提供了音频理解功能,能够快速解析音频文件并总结其内容。这对于需要处理大量视频和音频内容的用户来说,无疑是一个巨大的帮助,因为它可以节省大量的时间。
谷歌还对Gemini API进行了性能优化,包括系统指令、JSON模式以及函数调用优化,这些改进显著提升了模型的稳定性和输出能力。系统指令功能允许用户根据特定需求控制模型的行为,JSON模式可以帮助开发者从文本或图像中提取结构化数据,而函数调用优化则支持开发者实现更全面的查询响应。
详情点此查看: https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
音频理解能力: https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb