🎯 Mục tiêu bài học
Trong bài này, bạn sẽ khám phá chi tiết các vector databases phổ biến nhất và học cách chọn database phù hợp cho dự án RAG của mình.
Sau bài này, bạn sẽ:
✅ Hiểu vector database architecture và index types ✅ Sử dụng ChromaDB cho prototyping ✅ Biết Pinecone cho production scale ✅ Biết Weaviate cho multi-modal và flexibility ✅ Biết Qdrant cho maximum performance ✅ Biết pgvector cho PostgreSQL users ✅ So sánh feature, performance, cost và chọn đúng database
🔍 Hiểu về Vector Databases
Tổng quan kiến trúc
Kiến trúc Vector Database
Khái niệm chính
ANN (Approximate Nearest Neighbor - Láng giềng gần nhất xấp xỉ):
- Tìm chính xác: O(n) - kiểm tra từng vector
- ANN: O(log n) - sử dụng indexing thông minh
- Đánh đổi độ chính xác lấy tốc độ (thường đạt 99%+ recall)
Các loại Index:
| Index | Tốc độ | Bộ nhớ | Độ chính xác |
|---|
