4月10日凌晨,谷歌在官网正式发布了Gemini1.5Pro,现在可在180多个国家/地区使用。
Gemini 1.5 Pro 不仅能够生成创意文本和代码,还能理解、总结上传的视频和音频内容,并且支持高达100万tokens的上下文。
在Google AI Studio开发平台中,用户可以免费试用Gemini 1.5 Pro,并且它支持中文提示。这使得用户能够通过简单的操作,上传视频或音频文件,并获取内容的深度总结。例如,用户可以上传一个视频并询问影片的内容,Gemini 1.5 Pro能够快速解析并提供答案。
Gemini 1.5 Pro还提供了音频理解功能,能够快速解析音频文件并总结其内容。这对于需要处理大量视频和音频内容的用户来说,无疑是一个巨大的帮助,因为它可以节省大量的时间。
谷歌还对Gemini API进行了性能优化,包括系统指令、JSON模式以及函数调用优化,这些改进显著提升了模型的稳定性和输出能力。系统指令功能允许用户根据特定需求控制模型的行为,JSON模式可以帮助开发者从文本或图像中提取结构化数据,而函数调用优化则支持开发者实现更全面的查询响应。
详情点此查看: https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
音频理解能力: https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb
近日,PixVerse 上线了只需要一张图片就可以生成 ID 一致的视频,但是目前只支持真实风格的文生视频。个人感觉 PixVerse 的视频清晰度目前是最好的,大家可以去试一试,ID 保持的不错,可用成都也很靠谱了!
👇下面是一些使用技巧: 1、创建角色的时候最好使用正脸的图片,同时不要有大角度的转头。 2、发型是无法保持的,只能保持面部特征。 3、生成视频的提示词最好不要有面部描述,不然会影响 ID 还原的效果。 4、生成视频的提示词最好不要有侧身、抬头等词,不然面部或者眼睛出问题的几率会增大。
PixVerse 官网: https://app.pixverse.ai/
by:微博@歸藏的AI工具箱
继上线视频生成功能后,Dreamina 又上线了一个新功能——智能画布。该功能集成了 mj、sd 和 PS 的功能,让用户能够在一个平台上完成多种操作,无需在不同的软件之间切换。Dreamina 智能画布的核心特点之一是支持多图层的 AI 可控能力,如:边缘保持,支持超清、重绘、抠图、扩图等丰富的后编辑能力。
以下是 Dreamina 功能概况: - 智能画布功能:Dreamina的智能画布支持多图层的AI可控能力,包括边缘保持、超清重绘、抠图、扩图等后编辑能力。这意味着用户可以像使用Photoshop一样操作多个图层,并通过AI生成新的图片。 - 提高工作效率:智能画布的智能化操作方式不仅提高了工作效率,还降低了操作难度,使得更多用户能够轻松上手。 - 应用场景: - 制作小程序产品宣传图 - 生成品牌的创意宣传海报 - logo创意玩法,将品牌logo嵌入图片中 - 对小企业和个人店铺的优势:对于宣传费用有限的小企业和个人店铺,Dreamina提供了一个免费制作宣传图的工具。
→ 官方使用教程文档
哇塞,W&B团队真是太牛了!他们开发的这个开源工具OpenUI,简直是我们设计师的福音啊!你只需用文字描述一下你想要的UI界面,OpenUI就能立刻帮你渲染出效果,实时呈现你的设计想法。
更神奇的是,你还可以通过聊天的方式随时修改设计,而且它能轻松将HTML转换成React、Svelte、Web Components等各种前端框架的代码。这简直就是设计界的神器啊!
我试了试,发现它现在用的是GPT模型,效果还挺不错的。虽然项目还有些小瑕疵,但已经很有潜力了,绝对值得继续深入研究。对于我们设计师来说,这绝对是个能大大提升工作效率的好帮手!
OpenUI 线上试玩戳这里!
OpenAI 周五在其官网上发表了博客文章,名为“驾驭合成声音的挑战和机遇”, 这也是 OpenAI 在官网首次展示了全新自定义音频模型“Voice Engine”。
用户只需要提供15秒左右的参考声音,通过Voice Engine就能生成几乎和原音一模一样的全新音频,在清晰度、语音连贯、音色、自然度等方面比市面上多数产品都强很多。
除了能合成音频之外,OpenAI 还展示了Voice Engine很多其他际商业用途,例如,一位失去声音表达能力的女孩,在Voice Engine帮助下能像以前一样正常发音说话。
全文内容:OpenAI 官网
Voice Engine 应用场景: 1. 阅读助手:可以通过自然且富有情感的声音为非阅读者和儿童提供阅读辅助,实时个性化响应,与学生互动。 2. 内容翻译:可以翻译视频和播客等内容,使创作者和企业能够以流利且原汁原味的声音触达全球更多受众。 3. 服务全球:改善偏远地区的必要服务。 4. 帮助言语障碍人士:为言语障碍人士提供治疗应用,以及为有学习需求的人士提供教育增强功能,使残疾人能够进行交流。 5. 帮助病人恢复声音:帮助患有突发性或退行性言语障碍的患者恢复声音。
近日,Adobe 放了个大招,推出了这个 Adobe GenStudio 的神器。说实话,这简直就是咱们营销人的福音啊!以后做跨渠道活动,啥工具都不愁了,一站式搞定!
GenStudio 是基于生成式人工智能打造的,简单说,就是它懂你,知道你想要啥。用它来规划、制作、管理、发布和评估内容,那简直就是轻松加愉快。最关键的是,还能保证内容和品牌形象严丝合缝,不掉链子。
来说说它都有哪些牛X的功能吧:
1. 创作:有了 Adobe 的 AI 技术,咱们营销人也能秒变创作达人!快速出图,品质还高。而且都是基于品牌认证的模板,AI 护航,不怕品牌形象跑偏。 2. 内容中心:这个平台界面简洁明了,找素材、编辑、重复用、分享,全都方便得不行。再也不用东翻西找,浪费时间了。 3. 活动管理:GenStudio 还有个活动概览功能,活动简介、时间表一目了然。策划活动?那是分分钟的事! 4. 发布:更牛的是,GenStudio 还能和 Adobe Experience Cloud 的其他产品(比如 Journey Optimizer、Experience Manager、Marketo 和 Target)无缝对接,想导出到其他应用也是轻而易举。 5. 数据洞察:最后,还能实时看到内容在不同渠道的表现,AI 还能帮忙生成不同版本的内容,让活动效果更好。
Adobe GenStudio 试玩地址戳这里!
阿里通义千问迎来了一次重磅升级,其1000万字的长文档处理功能现已向所有人免费开放,这一举措使得通义千问在全球范围内成为文档处理容量首屈一指的AI应用。从即日起,无论是金融、法律、科研、医疗还是教育领域的专业人士,都可以通过通义千问的网站和APP,轻松研读各类报告、分析财报、解读科研论文、研判案情、理解医疗报告、掌握法律条文,以及分析考试成绩和总结深度文章。
在金融领域,专业人士只需上传公司财报,通义千问便能自动提取和总结公司各业务的营收情况和利润增长等核心信息,帮助他们快速了解公司的整体业绩表现。而上传公司不同时期的财报后,通义千问还能生成公司在这一阶段内的业务变化、业绩趋势,并进行深入的财报分析。
在法律领域,通义千问同样展现出强大的能力。对于律师和法官而言,阅读和分析大量的法律文档是一项繁琐且耗时的工作。然而,通义千问能够迅速阅读并分析这些法律文件,帮助用户迅速掌握法律条文的要点。输入特定案件信息后,通义千问还能给出相应的判罚建议,极大地提高了工作效率。
目前,通义千问在文档处理容量和能力方面已全面超越ChatGPT等全球市场上的其他AI应用,展现出了其在智能科技领域的卓越实力。
微软推出了一项名为Mora的视频生成项目,该项目利用先进的Agents技术来尝试复原Sora的视频生成能力。目前,Mora已经能够基本还原Sora的所有功能,并可以生成分辨率为1024*576的12秒视频。
这些复原的能力包括:将文本直接转换为视频、根据特定的文本条件将图片转换成视频、扩展已有的视频内容、实现视频到视频的编辑、串联多个视频片段,以及模拟数字世界等。
项目简介:原文链接
Mora项目基于一种新型的多AI智能体框架,融合了多个尖端的视觉AI智能体,旨在复刻Sora所展示的强大的通用视频生成能力。Mora能够灵活运用这些视觉智能体,在各种任务中成功地模仿了Sora的视频生成技巧。
通过广泛的实验验证,我们发现Mora在这些任务上的表现已经与Sora相当接近。从整体性能上评估,Mora与Sora之间仍然存在一些差距。但是,我们仍对Mora项目寄予厚望,希望它能够引领未来视频生成技术的发展方向,并通过多AI智能体的协同工作实现更多的突破。
Adobe 公司为其 Substance 3D Sampler 和 Stager 应用整合了 Firefly 生成式人工智能功能,旨在帮助工业设计师、游戏开发人员和视觉特效专业人员更高效地完成 3D 相关工作。
Substance 3D Stager:这是一个基于Adobe Dimension重新构建的应用,允许用户在3D场景中轻松组建模型、材质和灯光环境,并生成高质量的虚拟照片。 Substance 3D Sampler:由Substance Alchemist进化而来,Sampler简化了材质创建过程,用户可以通过一张照片快速生成可调节参数的智能3D材质。
AI功能更新:本次更新引入了两项AI功能:
1、文本到纹理(Text to Texture):创作者可以输入文本提示词,在3D物体表面生成逼真或风格化的纹理,无需使用实物原型、图片库或手动摄影。
2、生成背景(Generative Background):基于用户输入的文本提示词,创建详细的背景图片,并能智能地将对象合成到场景中,匹配透视和光照。
给大家推荐一个 AI 知识系统学习的Datawhale,Datawhale是一个致力于人工智能教育的组织,旨在帮助学习者通过实践项目来掌握AI相关的知识和技能,也提供论坛便于大家交流学习心得!
以下是网站内容的概述:Datawhale官网
- AI学习起点:Datawhale鼓励每个人学习和探索人工智能,以共同塑造和掌握AI的未来。 - 学习路径:网站提供了多个学习路径,包括数据分析、计算机视觉、自然语言处理和推荐系统等,以帮助学习者系统地学习AI领域的知识。 - 大模型应用开发:Datawhale提供了面向小白开发者的大模型应用开发教程,结合个人知识库助手项目,教授大模型开发的重点入门知识。 - LLM入门课程:这是一个面向开发者的LLM(Large Language Models)入门教程,基于吴恩达老师的大模型系列课程内容,提供中文翻译和范例代码,指导开发者如何基于LLM开发应用程序。 - GPT - Prompt教程:Datawhale设计了GPT - Prompt教程,旨在帮助学习者更好地利用GPT等工具提高学习和工作效率。 - 南瓜书 PumpkinBook:这是一本开源协作学习笔记,作为周志华《机器学习》的伴侣书,旨在帮助初学者提升数学基础能力。 - Joyful-Pandas:这个教程涵盖了pandas库的所有核心操作与特性,分为基础知识、操作和数据三大模块。 - fantastic-matplotlib:关于Matplotlib的数据可视化教程,Matplotlib是Python中重要的数据可视化工具,本教程适合需要进行数据可视化的人员。