RAG Content Pipeline — проектный раздел про связку двух репозиториев: PFRAG и RAG. Вместе они закрывают полный путь от сырого контента до базы знаний, по которой можно задавать вопросы через чат или API.
PFRAG отвечает за подготовительный контур. Он принимает PDF, DOCX, PPTX, изображения, HTML, TXT и URL, вытаскивает текст в Markdown, запускает OCR, очищает результат через LLM, объединяет файлы и убирает дубли. Этот слой нужен до индексации: если в RAG попадает шумный, повторяющийся или плохо размеченный текст, retrieval потом начинает возвращать слабый контекст.
RAG отвечает за контур поиска и диалога. Он принимает подготовленные документы, индексирует их через LightRAG, хранит векторный слой в Qdrant, граф знаний в Neo4j, а метаданные и историю чата — в PostgreSQL. Для запросов доступны режимы naive, local, global и hybrid, а ответы можно получать через обычный REST, SSE-стриминг или WebSocket.
Как устроен pipeline
Основной сценарий выглядит так:
- Источники: документы, изображения, HTML-страницы и сайты.
- Подготовка: загрузка файлов, BFS-парсинг сайтов, скачивание найденных документов.
- Очистка и дедупликация: OCR, Markdown extraction, LLM cleanup, named prompts, векторная и построчная дедупликация.
- Ingestion: отправка очищенного Markdown в RAG-контур.
- Индекс: чанки, эмбеддинги, Qdrant, графовые сущности и связи в Neo4j.
- Чат/API: вопросы по базе знаний, multi-turn контекст, REST, SSE или WebSocket.
Такой разделение удобно практически: PFRAG можно развивать как операционный интерфейс для редакции базы знаний, а RAG — как backend для retrieval, индексации и подключения чатов, ботов или внешних сервисов.
Подробнее
- От сырых документов к базе знаний — полный путь от файлов, сайтов и изображений до индекса и чата.
- Архитектура двухконтурной RAG системы — зачем разделять preprocessing/operations и retrieval/chat backend.
- Качество данных перед индексацией — OCR, Markdown, LLM cleanup, промпты, дедупликация и chunking.
- Hybrid Retrieval на LightRAG — LightRAG, Qdrant, Neo4j, PostgreSQL, query modes и streaming-чаты.
- Roadmap production ready RAG — очереди, безопасность, миграции, мониторинг, re-ranking, фильтры и масштабирование.




