2025年1月份的AI重大资讯,看这篇就够了!
更多趋势:
Domo AI 推出 v2v 真实模型,可以进行反向操作,将动漫类型的视频转换成真人视频,还可以通过 Prompt 将视频里的对象转成别的真实事物,如将一个圣诞老人转成一只圣诞兔子,功能类似于 Runway 推出的 Act one 功能。
讯飞星火对其浏览器插件进行升级,增加了多项 AI 能力。集成了讯飞星火 V4.0 底层能力,兼容 Chrome、Edge 等主流浏览器。新增“继续提问”功能,随时深入讨论,获取高质量答案;实现网页全局对照翻译;新增“一键朗读”功能,实现边听边看;支持句子、段落总结。
Hume AI 推出 OCTAVE 的文本与语音引擎,该引擎能够通过简单的文本描述一段 5 秒的语音录音,生成或克隆出逼真的语音和人格特质。不仅能够生成自然的语音,还能精确地模仿说话者的性别、年龄、口音、情绪语调及职业特定的说话风格,能够在毫秒级别内完成语音生成,实现了真正的实时对话,并且还允许用户实时动态地调整生成内容。
南洋理工大学的研究团队发布图像超分辨率(SR)技术,该技术基于扩散反演(Diffusion Inversion),通过充分利用大型预训练扩散模型中的图像先验信息,提升图像的分辨率和清晰度。与现有的超分辨率方法相比,这项技术具有更加灵活高效的采样机制,可以支持从一个到五个任意数量的采样步骤。
清华大学与腾讯 ARC 实验室的研究团队推出 ColorFlow 的新型图像序列上色模型。解决了在黑白图像序列上色的同时,保持角色和物体身份一致性的问题,能够利用上下文信息,通过参考图像池为黑白图像序列准确生成颜色。与以往需要针对每个角色进行微调的技术不同,ColorFlow 通过具备泛化能力的检索增强上色管道,简化了色彩生成的过程。
OpenAI 在第十二天技术直播中正式发布了 o3 模型,在全球著名的编码竞赛平台 Codeforces 中得分是 2727,位于排列榜单第 175 名,超越了 99.99%的人类。在数学竞赛 AIEM2024 中接近满分,在评估人工智能在高级数学推理方面能力的 FrontierMath 中成功率为 25.2%,与之对比,GPT-4 和 Gemini1.5Pro 的成功率不足 2%。
AI 创意工具 Krea AI 宣布在 Krea Editor 推出自定义训练功能,可以在几秒钟内将真实产品添加到任何图像中。从官方的演示视频来看,在实际操作中只需涂抹需要替换的区域,如“涂抹模特脸上的墨镜”,然后选择商品图“VR 眼镜”,AI 就会自动处理,将 VR 眼镜戴到模特脸上。用户还可以继续扩图处理,用同样的方法继续涂抹区域,选择其它商品,AI 就会把商品融合到模特身上。
支付宝宣布推出 AI 创意平台“蚂上有创意”,这是一个面向商务机构的 AI 营销服务。“蚂上有创意”可以为客户提供 AI 快速生成创意素材、营销广告智能分析等服务,还免费开放多项营销图片素材。据介绍,过去一年支付宝将 AI 全面应用于商业开放生态,共接入近 70 个业务场景,累计为生态商家机构生成 8700 万张 AI 素材。
快手旗下 AI 视频生成工具可灵(Kling)发布 1.6 版,主要在物理规律真实感、人物表演能力和语义理解水平三个核心维度提升。①对物理世界的精准演绎:在切西红柿的测试中,可灵1.6版展现出近乎专业厨师的精准操作,无论是刀具与食材的互动,还是切片的力度都非常真实。倒茶、猫咪踩沙发、狗狗奔跑等日常场景中的物理效果也更加真实;②人物表情和动作:从细微的眉头皱起到优雅的芭蕾舞姿,再到中国古典水下舞蹈,可灵1.6版都能准确捕捉人物细微的情感变化和复杂的肢体动作;③语义理解:更强的场景理解能力,无论是“摘下眼镜拥抱小鹿”这样的连续动作,还是“后退举枪”等复杂场景,都能准确理解并生成符合预期的视频内容。
Google 发布新 AI 工具 Whisk,允许用户使用图片作为提示词生成图片。可以上传图片来指定 AI 生成图像的主题、场景和风格,并且可以为这三者分别使用多张图片。如果你手头没有合适的图片,可以点击骰子图标,让谷歌自动填充一些图片作为提示。Whisk 还为每张生成的图片提供了文字提示。如果对结果满意,可以收藏或下载图像,如果想要进一步优化,可以在文本框中添加更多文字,或直接点击图像编辑文字提示。
欢迎关注作者的微信公众号:「百度MEUX」
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。
发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
AI时代的设计师生存手册
已累计诞生 684 位幸运星
发表评论 为下方 1 条评论点赞,解锁好运彩蛋
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓