2023年计算机视觉领域突破性研究有哪些？_计算机视觉最新进展

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

SAM(Segment Anything Model)

SAM 由 Meta AI 开发，是 CV 中分割任务的基础模型，彻底改变了像素级分类，几乎可以分割图像中的任何内容。这一发展为各种数据集的复杂分割任务开辟了新的途径

SAM可根据输入提示（如点或方框）生成高质量的对象遮罩，并可用于为图像中的所有对象生成遮罩。该模型已在一个包含 1100 万张图像和 11 亿个遮罩的数据集上进行过训练， 在各种分割任务中都具有很强的零误差性能 ，放眼2023毫无疑问是top级进展

https://github.com/facebookresearch/segment-anything

Multimodal Large Language Models (LLMs)

像 GPT-4 这样的模型在文本和视觉数据之间架起了桥梁，为人工智能提供了理解和解释复杂的多模态输入的能力。它们 在增强人工智能处理文本和视觉线索并对其做出反应的能力方面发挥了至关重要的作用 ，从而带来了更复杂的人工智能应用

https://openai.com/research/gpt-4

YOLOv8

YOLO 系列的这一升级版以其更快的速度和更高的精度为物体检测设定了新标准。是一款最先进的 (SOTA) 模型，它在以往 YOLO 版本成功的基础上引入了新的功能和改进，进一步提高了性能和灵活性。YOLOv8 设计快速、准确、易用，是各种物体检测和跟踪、实例分割、图像分类和姿态估计任务的绝佳选择

https://github.com/ultralytics/ultralytics

DINOv2(Self-supervised Learning Model)

DINOv2 标志着 CV 在自监督学习方面迈出了重要一步，通过减少对大型注释数据集的依赖，DINOv2 展示了自监督方法的潜力，可以用较少的标注图像训练出高质量的模型

https://ai.meta.com/blog/dino-v2-computer-vision-self-supervised-learning/

Text-to-Image (T2I) Models

涉及这方面的模型有很多

Midjourney creations (https://aituts.com/midjourney-versions/)
DALL-E 3 (https://openai.com/dall-e-3)
Stable Diffusion XL (https://stablediffusionxl.com/)
Imagen 2 (https://deepmind.google/technologies/imagen-2/)
…

这些研究极大地提高了人工智能根据文字描述生成图像的质量和逼真度，促进了数字艺术生成等创造性应用，使人工智能成为艺术家和设计师的宝贵工具

LoRA for CV

LoRA 最初是为微调大型语言模型而开发的，后来在 CV 中找到了新的应用。提供了一种灵活高效的方法，可针对特定任务调整现有模型，大大提高了 CV 模型的通用性

https://huggingface.co/blog/lcm_lora

Ego-Exo4D Dataset

Meta 提供的 Ego-Exo4D 数据集代表了视频学习和多模态感知方面的重大进步，提供了丰富的第一人称和第三人称镜头，可以为人类活动识别和其他应用开发更复杂的模型

https://ai.meta.com/blog/ego-exo4d-video-learning-perception/

Text-to-Video (T2V) Models

T2V 模型如

Runway (https://runwayml.com/)
Pika Labs (https://pika.art/)
Emu Video (https://emu-video.metademolab.com/)

通过文本描述创建高质量视频，为人工智能生成内容带来了新的维度。这一创新为娱乐和教育等领域提供了可能性，因为在这些领域动态视觉内容至关重要

Gaussian Splatting for View Synthesis

这项技术代表了视图合成领域的一种新方法，与神经辐射场（NeRFs）等现有方法相比，它在训练时间、延迟和准确性等方面都有所改进，从而重塑了三维渲染的格局

3D Gaussian Splatting 是《3D Gaussian Splatting for Real-Time Radiance Field Rendering》一书中描述的一种光栅化技术，可实时渲染从小图像样本中学习的逼真场景

https://huggingface.co/blog/gaussian-splatting
https://huggingface.co/papers/2308.04079

StyleGAN3

在这里插入图片描述
StyleGAN3 突破了生成模型的界限，尤其是在创建超逼真图像和视频方面。这一进步拓展了生成模型在创建精细逼真的数字艺术和动画方面的能力

https://github.com/NVlabs/stylegan3

以上就是本期的全部内容， 更多文字总结可关注公粽号【啥都会一点的研究生】 ，我是啥都生，下次再见

计算机视觉 软件正在改变行业，使用户的生活变得不仅更容易，而且更有趣。作为一个有潜力的领域， 计算机视觉 已经获得了大量的投资。北美 计算机视觉 软件市场的总投资额为1.2亿美元，而中国市场则飙升至39亿美元。让我们来看看一些最有前途和更有趣的技术，因为这些技术可以让 计算机视觉 软件开发市场增长的更快。一、深度学习的进步深度学习因其在提供准确结果方面而广受欢...

stochasticity， hash；对以前的算法、模型进行修改和改进；（也就是吴军老师所说的，N+1。试想有没有那么一种可能，N-M+K，华山不是只有路一条，适当地回退，再重新出发），比如在降维算法上，从 PCA 到 KPCA 的提出只能算是一种改进， PMF （概率矩阵分解）原初的实现是基于高... 7、纹理生成（Texture Synthesis）与风格迁移（Style Transform）纹理生成用于生成包含相同纹理的较大图像。给定正常图像和包含特定风格的图像，然后通过风格迁移不仅保留图像的原始内容，而且将该图像转换为指定的风格。 7.1:特征反演（Feature Inversion）特征反演...

计算机视觉 -----图像分类综述 计算机视觉 -----图像分类综述图像分类介绍应用场景传统图像分类算法深度学习算法1、CNN2、VGG3、GoogLeNet4、ResNet 计算机视觉 -----图像分类综述图像分类介绍什么是图像分类，核心是从给定的分类集合中给图像分配一个标签的任务。实际上，这意味着我们的任务是分析一个输入图像并返回一个将图像分类的标签。标签来自预定义的可能类别集。示例：我们假定一个可能的类别集categories = {dog, cat, eagle}，之后我们提供一张图1给分类系统：

计算机视觉 是一个非常庞大的研究领域，有很多研究方向可以找到创新点。下面是几个可以考虑的研究方向：深度学习在 计算机视觉 中的应用：深度学习技术在 计算机视觉 中的应用是一个新兴的研究方向，有很多有前途的领域可以研究，例如图像分类、目标检测、语义分割等。视觉智能：将 人工智能 技术与 计算机视觉 相结合，以提高图像识别、分析和处理的能力。视觉计算：使用计算机来模拟人类的视觉系统，以实现 计算机视觉 的目标识...

摘要：关于 计算机视觉 你知道的可能有些少！ 计算机视觉 是 人工智能 （AI）中的热门研究课题，它已经存在多年。然而， 计算机视觉 仍然是 人工智能 面临的最大挑战之一。在本文中，我们将探讨使用深度神经网络来解决 计算机视觉 的一些基本挑战。特别是，我们将研究神经网络压缩，细粒度图像分类，纹理合成，图像搜索和对象跟踪等应用。 1、神经网络压缩尽管深度神...

https://blog.csdn.net/zhouzhaoxiong1227/article/details/6891966 原文：https://blog.csdn.net/lanchunhui/article/details/52763925 创新点的一般方向： ⇒ Generalized：泛化 fixed ⇒ Adaptive，自适应（自调节）...

m0_58115303: 请问，您已经成功运行了吗？为什么我在配环境的时候输入python tools/single_test.py datas/cat-dog.png models/mobilenet/mobilenet_v3_small.py --classes-map datas/imageNet1kAnnotation.txt会报错“ File "tools/single_test.py", line 42, in <module> main() File "tools/single_test.py", line 33, in main model = init_model(model, data_cfg, device=device, mode='eval') File "F:\Set up warehouse\utils\inference.py", line 27, in init_model load_checkpoint(model,data_cfg.get('test').get('ckpt'),device,False) File "F:\Set up warehouse\utils\checkpoint.py", line 216, in load_checkpoint raise FileNotFoundError(f'{filename} can not be found.') FileNotFoundError: datas/mobilenet_v3_small-8427ecf0.pth can not be found.” 保姆级使用PyTorch训练与评估自己的ResNet网络教程 m0_58115303: 您好，您使用的是python3.6的吗？和您说的那几个opencv的版本适配吗？ opencv_python==3.4.1.15 opencv_contrib_python==3.4.1.15 opencv-python-headless==4.1.1.26 保姆级使用PyTorch训练与评估自己的ResNet网络教程 m0_58115303: 请问博主，我输入pip install -r requirements.txt的时候报错： “ERROR: Could not build wheels for opencv-python, opencv-contrib-python, opencv-python-headless which use PEP 517 and cannot be installed directly”，这个几个版本应该用什么版本？我是下载的python=3.6.13的版本，下载的是opencv_python==3.4.1.15 opencv_contrib_python==3.4.1.15 opencv-python-headless==4.1.1.26