Векторные базы данных (БД), в отличие от классических БД, хранят векторное представление элемента (предпосчитанный эмбединг) для каждого элемента, по которому в дальнейшем можно осуществлять поиск.
GigaChain поддерживает различные векторные БД, например Chroma, Faiss или Pinecode. В этом уроке мы рассмотрим работу с современной и бесплатной
Chroma.
Векторную БД можно инициализировать как из стандартных строк, так и из «документов» — специальной сущности GigaChain, которая включает в себя контент и атрибуты.
Для удобства в GigaChain также реализованы
Document Loaders, которые инициализируют базу из файлов различных форматов: JSON, PDF, HTML и других. У каждого Document Loader есть специфичные аргументы по типу данных — об этом читайте подробнее в
документации LangChain.
Приведём пример использования
JSONLoader. Достаточно указать путь до файла и его структуру: