小伙伴们,听说过Magnific AI这款神器吗?感觉比较适合平时喜欢P图的朋友,或者摄影师,当然了需要大量后期修图的设计师也可以试试。
最厉害的是,它能够将图像分辨率提升至最高1亿像素,支持最高放大16倍,达到10000×10000的分辨率。该工具不仅能够放大图像,还能根据用户的提示和参数添加或重构细节,使图像变得更加高清和细腻。
Magnific AI还提供了像素级AI重绘功能,通过魔法般的重绘图像细节和像素块,保证清晰度。
Magnific AI具有灵活的设置调整功能,支持输入提示词、提供Creativity、HDR、均衡等调整选项,以及针对人像、插画、游戏资产、自然风光、摄影、3D渲染等多种优化场景。
最近,Magnific AI的照片风格化功能上线了,可以将你的任意照片转换成你想要的任意风格,喜欢摄影的朋友,推荐一定要试一试。Magnific AI 官网
3月17日,特斯拉首席执行官(CEO)马斯克的AI创企xAI正式发布3140亿参数的混合专家模型Grok-1。xAI官方网站称,其遵照Apache 2.0协议开放模型权重和架构。
我给大家整理一下重点:
- 开源声明:xAI宣布其大模型Grok-1开源,并遵循Apache 2.0协议,模型权重和架构已在GitHub上公开。 - 模型规模:Grok-1是一个拥有3140亿参数的混合专家模型,成为目前参数量最大的开源大语言模型,超过了OpenAI GPT-3.5的1750亿参数。 - Grok-1的特点:Grok-1被描述为一个能够回答任何问题的AI,具有机智和叛逆的特点。它将用于自然语言处理任务,包括问答、信息检索、创意写作和编码辅助。 - 性能评估:Grok-1在HumanEval编码任务和MMLU中显示出强劲的性能,超过了包括ChatGPT-3.5和Inflection-1在内的所有其它模型。 - 社区反响:开源后,Grok-1在GitHub上迅速获得了9600星标,显示出社区的高度关注和支持。
另外,我个人觉得马斯克这项壮举对行业的影响也是巨大的,以下是一些个人见解:
1. 技术创新的加速:Grok-1的开源可能会加速AI技术的创新。由于模型权重和架构的开放,研究人员和开发者可以自由地访问、修改和扩展这个模型,从而推动新的研究和应用的开发。 2. 知识共享与协作:开源模型鼓励全球范围内的开发者和研究者共同参与到模型的改进和优化中来,促进知识共享和技术交流,有助于提升整个行业的技术水平。 3. 商业竞争格局变化:Grok-1的开源可能会改变现有的商业竞争格局,尤其是对OpenAI等其他AI研究机构和企业构成挑战。这可能会促使其他公司也采取更加开放的策略,以保持竞争力。 4. 安全性和伦理问题:开源AI模型也引发了关于安全性和伦理的讨论。一方面,开源可以增加技术的透明度,有助于发现和解决潜在的安全问题;另一方面,也可能增加模型被滥用的风险。 5. 教育和培训机会:Grok-1的开源为教育和培训提供了新的资源。学生和自学者可以直接访问和学习最先进的AI模型,这对于培养下一代AI人才具有重要意义。 6. 应用开发的多样性:开源模型使得个人和小型企业也能够利用先进的AI技术,这可能会导致更多创新的应用和服务的出现,增加市场的多样性。 7. 对开源与闭源的辩论:Grok-1的开源可能会加剧关于开源与闭源哪种模式更有利于AI发展的辩论。这将影响未来AI研究和商业化的路径选择。
大家对此有些什么看法,也可以评论区讨论哦~ 更多详细内容,可以看看 xAI官网!
英伟达(NVIDIA)在2024年GTC大会上宣布的下一代人工智能超级计算机以及发布的最强AI加速卡——Blackwell GB200。
这款加速卡采用了新一代AI图形处理器架构Blackwell,由两个B200 Blackwell GPU和一个基于Arm的Grace CPU组成。黄仁勋在GTC大会上提到,尽管Hopper架构已经非常出色,但市场需要更强大的GPU。
以下是大会纪要: - 产品发布:英伟达发布了Blackwell GB200,这是一款新一代的AI加速卡,旨在大幅提升人工智能相关的计算性能。 - 性能提升:Blackwell GPU的AI性能可达20petaflops,而前代H100的性能为4petaflops。这意味着Blackwell GPU在AI性能上有显著提升。 - 技术规格:Blackwell GPU采用台积电的4纳米工艺制造,包含2080亿个晶体管,通过NVLink 5.0技术连接两个独立制造的裸晶(Die)。 - 性能对比:英伟达表示,GB200包含两个B200 Blackwell GPU和一个基于Arm的Grace CPU,其推理大语言模型性能比H100提升30倍,成本和能耗降至25分之一。 - 企业应用:英伟达提供成品服务,包括GB200NVL72服务器,该服务器配备了36个CPU和72个Blackwell GPU,以及一体化水冷散热方案,能够提供总计720petaflops的AI训练性能或1,440petaflops的推理性能。 - 市场合作:亚马逊、谷歌、微软和甲骨文等公司计划在其云服务产品中提供NVL72机架。亚马逊AWS已计划采购由2万片GB200芯片组建的服务器集群。
Devin是首个AI程序员,它能够通过借用其创造者的账号与客户公司的CTO进行交流,并根据回复调整代码方案。
事情发生在办公软件Slack,截图中的akshat是AI基础设施创业公司Modal Labs的CTO Akshat Bubna。
Devin的开发商是Cognition,而Modal Labs是它的首批客户之一。在一次交流中,Devin询问了关于密钥生命周期的问题,特别是密钥更新后传播到正在运行的应用程序所需的时间。尽管Devin已经查阅了大量文档,但仍然没有找到关于密钥传播时间的明确信息。通过与Modal Labs的CTO交流,Devin了解到更新的密钥不会使已经运行的容器失效,但新启动的容器将会读取更新后的值。
Devin能够自主把任务拆解成一系列子步骤,并一步步执行,甚至在遇到障碍时能够查阅文档并修改后续计划。
大家觉得这波修复BUG属于什么水平,优秀的程序员也不过如此了吧?感兴趣的小伙伴可以看看详细的过程→ 原文链接
谷歌发布的一个名为 VLOGGER 的项目。这个项目能够根据输入的图片和音频生成对应人物讲话的视频。但是个人感觉 VLOGGER 看起来没有阿里巴巴发布的 DreamTalk 和 EMO 自然,大家觉得呢?
VLOGGER 主要特点: 1. 3D运动的扩散模型:它可以根据一张人物图像生成由文本和音频驱动的说话人视频。 2. 创新的架构:项目包含一个创新的基于扩散的架构,通过时间和空间控制来增强文本到图像模型的能力。 3. 高质量视频生成:能够生成高质量、可变长度的视频,并通过人脸和身体的高级表示进行便捷控制。 4. 广泛的适用性:与之前的工作相比,VLOGGER不需要为每个人单独训练模型,不依赖人脸检测和裁剪,能生成完整的图像(包括脸部和身体),适用于广泛场景,如躯干可见或身份多样化,这对于正确合成具有沟通能力的虚拟人至关重要。
项目地址:https://enriccorona.github.io/vlogger/
Midjourney的新功能“角色参照”(Character Reference)终于正式上线了,它为用户提供了在生成图像时保持角色特征一致性的可能。这个功能特别适合那些需要在多个图像中维持相同角色外观的创作者,例如在制作漫画、动画或游戏角色设计时。
以下是该功能的详细介绍和使用方法:
适用型号: - Midjourney V6 - Niji6
功能状态: - Midjourney V6目前处于alpha测试阶段,这意味着功能可能还会有调整和优化。 - V6的beta版即将推出,届时可能会有更多的用户可以体验到这一功能。
使用方法: 1. 在输入提示词(prompt)后,通过添加--cref URL来指定一个参照图像链接,以此保持生成图像中的角色特征。 2. 如果需要混合多个图像的角色特征,可以使用--cref URL1 URL2的格式。 3. 通过--cw [强度值]来调整参照的强度,默认值为100。强度较高时,生成的图像会更详细地参照脸部、发型和着装;而强度较低(如0)时,主要参照脸部特征,适合用于变换服装或发型的场景。
效果提示: - 使用Midjourney创作的图像作为参照图像通常会得到更好的效果,而使用真人照片可能会导致生成的图像出现扭曲。 - 功能的参照精确度有限,生成的图像会具有类似但不完全一致的角色特征。
效果对比: - 与Midjourney V6相比,Niji6在使用“角色参照”功能时可能会有更好的效果。
注意事项: - 由于功能目前处于alpha测试阶段,可能会出现不稳定或效果不如预期的情况。
小伙伴们,Microsoft Copilot 的重大更新!定制 Copilot GPT 现已推出。这意味着你可以在微软的工具里创建自己的 GPT 并共享它们~
具体方法如下:
→ 创建Copilot GPT ①访问官网:https://copilot.microsoft.com/ ②点击右侧的“查看所有 Copilot GPT” ③然后选择“创建新的 Copilot GPT”
→设置你的Copilot ①关注 creation chat ②设置名称、任务等 ③流程与 ChatGPT Plus 相同,无需个人资料照片
→配置你的Copilot ①可以单击“配置”选项卡 ②在这里你可以直接选择名称、描述、提示... ③你还可以添加知识文件并启用/禁用互联网访问和 Dall-E 3
→发布和使用 ①在发布之前单击“预览”按钮进行尝试 ②你只能为自己或任何有链接的人发布你的Copilot ③它将自动添加到右侧的 GPT 列表中
好消息,近日字节跳动推出了一种新型工具——分辨率适配器 ResAdapter,这个工具旨在解决在使用Stable Diffusion等文本到图像模型生成超出训练分辨率的图像时出现的肢体异常和画面崩坏问题。
ResAdapter能够与现有的IPadapter和Controlnet模型兼容,并且可以直接生成动态分辨率的图像,提高了图像处理的效率。
项目简介中提到,尽管像Stable Diffusion这样的模型能够创造出高质量的图像,但在生成非训练分辨率的图像时存在限制。ResAdapter通过利用广泛的分辨率先验,即使只有0.5M的容量,也能生成高分辨率且保持原有风格的图像。
ResAdapter在提高分辨率方面与扩散模型配合得很好,并且可以与其他模块兼容,用于创建不同分辨率的图像。
项目介绍地址:res-adapter.github
昨天晚上,Anthropic 正式推出了 Claude 3 系列模型,包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。
这些模型在多个方面超越了GPT-4,包括推理、数学、编码、多语言理解和视觉处理等。
以下是Claude 3系列模型与同行在多个能力评估基准上的对比:
可以看到,其中Claude 3 Opus模型性能完全碾压GPT-4,以及Gemini 1.0 Ultra。
Claude 3 Sonnet在部分基准上,比如GSM8K、MATH等超越了GPT-4。Claude 3 Haiku可以与Gemini 1.0 Pro相抗衡。
GPT-4是否真的已经过时?Claude 3的横空出世是否意味着我们即将进入一个全新的AI时代?
Claude 3 体验地址:https://claude.ai/chats
近日,在布鲁克林举行的Hot Pod峰会上,Adobe发布了名为“Project Music GenAI Control”的全新AI音乐创作工具原型。该工具利用生成式人工智能技术,帮助用户无需专业音频制作经验即可创作和编辑音乐。
用户只需输入文本描述,例如“欢快的舞蹈”或“忧伤的爵士乐”,Project Music GenAI Control就能生成对应风格的音乐。更重要的是,用户还可以使用集成的编辑控件自定义生成的音乐,调整重复模式、速度、强度和结构。该工具可以重新混音音乐片段,并生成循环音频,非常适合内容创作者制作背景音乐和配乐。
Adobe 表示,Project Music GenAI Control还能够“基于参考旋律”调整生成的音频,并且可以延长音频片段的长度,以满足固定动画或播客片段等所需时长。目前,用于编辑生成音频的实际用户界面尚未公布。
“这些新工具最激动人心的功能之一不仅仅是生成音频” Adobe研究院高级研究科学家Nicholas Bryan在新闻稿中表示,“它们就像Photoshop一样,赋予创作者深度控制权,让他们可以塑造、调整和编辑音频,就像像素级控制图像一样。”
Project Music GenAI Control由Adobe与加州大学和卡内基梅隆大学计算机科学学院合作开发,目前该项目仍处于“早期实验”阶段,未来可能会被整合到Adobe旗下的现有编辑工具Audition和Premiere Pro中。目前该工具尚未向公众开放,也未公布发布时间。
近期,阿里巴巴智能计算研究所提出了一种新的生成式框架 EMO,是一种富有表现力的音频驱动的肖像视频生成框架,用户只需提供一张照片和一段音频文件,EMO就能生成会说话唱歌的AI视频,实现无缝对接的动态小视频,最长时间可达1分30秒左右。这项技术的应用场景非常广泛,从电视剧角色的语音合成到音乐视频中的虚拟表演者,都有可能被AI技术所取代。
EMO框架使用Audio2Video扩散模型,通过三个阶段的技术处理,包括帧编码、音频编码和去噪操作,以及参考注意力和音频注意力机制,来生成富有表现力的人像视频。
目前,EMO 框架上线到 GitHub 中,相关论文也在 arxiv 上公开。
GitHub:https://github.com/HumanAIGC/EMO
论文:https://arxiv.org/abs/2402.17485
太疯狂了,还没有从 Sora 和 Pika 的 Lip Sync 的震惊中走出来,今天又发现一个 AI 驱动的电影生成和视频剪辑平台:LTX Studio。
LTX Studio 提供的可视化专业视频控制台,可以帮助用户进一步优化视频的细节达到商业级视频,并且附带语音解读而Sora目前无法提供。
核心功能: ⚡支持通过文字直接生成复杂的剧情视频,包含语音、音效以及视频画面,支持编辑画面内容。 ⚡支持通过故事板组织和剪辑生成的视频,你可以自定义演员场景和造型。
加入等待列表:https://ltx.studio
今天,全球最大开源平台之一GitHub在官网宣布——GitHub Copilot Enterprise正式全面发布。
GitHub Copilot Enterprise核心模块之一GitHub Copilot,是一款基于OpenAI的GPT-4模型,并结合自身积累十多年真实、安全可靠的代码数据开发而成,开发人员通过文本提示就能获取、审核、扩展代码等功能。 其核心功能及亮点如下:
1. 基于OpenAI的GPT-4模型:GitHub Copilot Enterprise利用了先进的语言模型,结合了GitHub的大量代码数据,为开发人员提供智能的代码辅助。 2. 文本提示代码生成:开发人员可以通过简单的文本提示,让GitHub Copilot Enterprise帮助生成、审核和扩展代码。 3. 减少重复性工作:根据调查,大多数开发人员表示使用GitHub Copilot可以减少在重复性编码任务上的精力。 4. 节省搜索时间:GitHub Copilot Enterprise可以帮助开发人员减少在搜索信息上的时间,提高工作效率。 5. 深度了解企业代码库:GitHub Copilot Enterprise能够简化代码导航和理解,加速代码部署、问题解决和代码现代化。 6. 集成ChatGPT聊天功能:开发人员可以通过自然语言与GitHub Copilot Enterprise交流,提出关于代码的问题,并获取帮助。 7. 个性化代码建议:GitHub Copilot Enterprise可以根据企业的特定代码库和标准提供个性化的帮助和建议。 8. 快速审核拉取请求:通过分析拉取请求的差异,GitHub Copilot Enterprise可以帮助审核人员快速了解变更,节省时间并提供有价值的反馈。 9. Bing搜索引擎集成:为了帮助开发人员减少信息搜索时间,GitHub Copilot Enterprise集成了Bing搜索引擎,提供大规模的专业数据搜索。 10. 微调功能:GitHub Copilot Enterprise将推出基于用户个人代码库的微调功能,使得生成的代码更加个性化,进一步帮助开发者提高效率。 11. 价格和订阅:GitHub Copilot Enterprise的月费为39美元,提供了个人和商务版,包括无限的消息、交互、历史记录以及基于存储库的语义搜索等功能。
使用地址:https://github.com/features/copilot/plans