Image processing Pyramid
Đại khái là việc lặp lại xử lí làm mờ ảnh nhiều lần, mỗi lần sẽ áp dụng smoothing kernel và giảm kích thước (thường là /2). Tác dụng là làm nổi bật một vài feature muốn xét ( giống như việc xếp chồng các Convolution Layer trong CNN models)
Mục đích là phát hiện các Scale-invariant
Tùy thuộc vào dạng kernel (phương thức smoothing) mà có nhiều loại như:
- Gaussian Pyramid:
Thường thấy nhất, tác dụng lan tỏa giá trị pixel ==> texture synthesis
- Laplacian Pyramid:
Gần giống Gaussian, nhưng mỗi tầng là 1 blur image khác nhau ==> image compression
- Steerable Pyramid:
Multi-scale, multi-orientation band-pass filter bank, có thể coi là 1 phiên bản chọn lọc của Laplacian Pyramid ==> Đa dạng chức năng
Tác dụng thường tập trung vào những cái lớn, cái rõ hơn là tập trung vào những vật nhỏ, chi tiết
Áp dụng ý tưởng của các cách tìm nguyên hàm (Antiderivative) trong bài toán tích phân (Integral), ta có nhiều hướng sau:
Đặt t = x - x1 , d= x2 - x1 (khoảng cách của điểm với đầu mút và độ dài của đoạn)
Ta thấy rằng nó rất giống với phép tích chập (convolution) vì vậy đó là lí do ta sử dụng các phép tích chập tương ứng ở đây
Dựa vào ý tưởng trên, trở lại với bài toán ảnh số ( 2D), ta thấy tương tự giữa linear interpolation và bilinear interpolation, hay phép neighbor interpolation cho cả 1D và 2D
Ta hiểu được rõ hơn về Image processing Pyramid hay sự liên quan đến các Deep Learning models
Ta có thể thấy kết quả qua các thao tác chọn các tham số delta khác nhau qua cùng 1 bức ảnh như sau:
Cải thiện (Lowe's DoG)
Ta thấy rằng nếu với mỗi tầng pyramid khác nhau, nếu ta sử dụng chênh lệch scale là k lần thì khi trừ ra sẽ thấy rõ các edge
Tóm tắt
- Scale invariant interest points đại diện cho phép biến đổi tỉ lệ (scale)
Nhận xét
Đăng nhận xét