Vision Transformers vs Convolutional Neural Networks | Zero To Mastery

Autoplay
Autocomplete

Previous Lesson Complete and Continue

The Computer Vision Bootcamp

Introduction

Introduction (5:31)
What We're Building (4:32)
Exercise: Meet Your Classmates and Instructor
Course Resources
Understanding Your Video Player
Set Your Learning Streak Goal

Understanding Vision Transformers

Vision Transformers vs Convolutional Neural Networks (5:28)
Quadratic Operations (9:42)
Introduction to ViTs and Joint Training with Embeddings (10:48)
Understanding Attention Mechanisms, Brief Summary (5:18)
Understanding the Full ViT Pipeline (17:13)
Let's Have Some Fun (+ More Resources)

Understanding Meta's SAM (Segment Anything Model)

Introduction to Prompt Encoders for SAM (4:56)
SAM AutoPrompt Mode (15:36)
SAM Manual Click Mode (7:54)
ViT Embeddings inside SAM (4:54)
Calculating Attention Score for Vision Transformers in SAM (16:41)
How SAM is Trained (8:04)
Calculating Prompt Self Attention for SAM (4:07)
Prompt Image Cross Attention (7:35)
Image to Prompt Cross Attention (5:56)
(Optional) Finishing SAM Example Part 1 (8:49)
(Optional) Finishing SAM Example Part 2 (7:33)
Finishing
Unlimited Updates

Setting up Our AWS Environment

Creating our SagemakerAI Domain (0:59)
Starting Domain and Understanding Pricing (3:14)
Installing Libraries (3:50)
Stopping Instances and Servers (0:37)
Course Check-In

Setting Up Open Source Models Like Meta's SAM

Downloading the SAM Model from Meta (3:23)
Updating IAM Permissions (1:55)
Importing Libraries (5:00)
Understanding how we use Rekognition with SAM (12:28)
Defining Helper Functions (12:36)
Clarification Regarding Helper Functions (1:35)
Rekognition Detection and Filtering (12:26)
Initialise SAM Model from S3 (10:15)
Main Processing Function Part 1 (14:33)
Main Processing Function Part 2 (3:50)
Running the Main Processing Cell (4:53)
Implement a New Life System

Visualizing Our Outputs

Visualizing Rekognition Detections (7:49)
Visualize All SAM Masks (9:27)
Visualizing Match Quality IOU Scores Part 1 (10:22)
Visualizing Match Quality IOU Scores Part 2 (9:29)
Visualizing Image Segmentations with Bounding Boxes (11:03)
Visualizing Masks and Labels Without Bounding Boxes (6:30)
Visualizing Segementations in Black and White Masks (4:38)
Exercise: Imposter Syndrome (2:55)

Saving Results to S3

Saving Metadata to S3 (9:07)
Save Images to S3 (10:11)
Saving Individual Masks to S3 (8:55)

Testing & Setup

Adding a GPU Server to our Notebook and AWS Quotas (5:23)
Testing Our Full Pipeline (8:21)
Minor Corrections (13:10)
Productionizing + Cleanup (6:38)

Where To Go From Here?

Thank You! (1:17)
Review This Course!
Become An Alumni
Learning Guideline
ZTM Events Every Month
LinkedIn Endorsements

Vision Transformers vs Convolutional Neural Networks