🤖 TARS RAG Pipeline — проект для интеллектуального поиска и генерации ответов на основе научных PDF-документов по фотодинамической терапии (ФДТ).
Использует RAG (Retrieval-Augmented Generation): поиск + генерация ответа из локальных источников.
- 📄 Извлекает текст из PDF-документов
- ⚙️ Создаёт FAISS-индекс для быстрого семантического поиска
- 💬 Отвечает на вопросы через Telegram-бота
- 🧩 Использует Sentence Transformers и FAISS
- 🔐 Поддерживает хранение токена в
.env
# Клонируем репозиторий
git clone https://github.com/rolloerro/tars-rag-pipeline.git
cd tars-rag-pipeline
# Активируем виртуальное окружение
python3 -m venv venv
source venv/bin/activate
# Устанавливаем зависимости
pip install -r requirements.txt
# Строим индекс PDF-документов
python rag/build_index.py
# Запускаем Telegram-бота
python fdtpromo_bot.py
💬 Telegram-бот
Бот: @fdtpromo_bot
Отвечает на вопросы по ФДТ на основе документов в индексе.
Использует Sentence Transformers для поиска и генерации контекстного ответа.
💡 Как задать вопрос боту
Просто открой Telegram и начни чат с ботом.
Он принимает обычные текстовые запросы.
Примеры:
🧠 «Какие результаты фотодинамической терапии при раке кожи?»
💬 ФДТ показала эффективность 82% при поверхностных формах рака кожи. Эффект максимален при дозе света 100 Дж/см²...
🧠 «Какие противопоказания к применению ФДТ?»
💬 Противопоказания включают фотодерматозы, беременность, тяжёлую печёночную недостаточность и непереносимость фотосенсибилизатора.
🧠 «Расскажи про фотосенсибилизатор Хлорин Е6»
💬 Хлорин Е6 — фотосенсибилизатор второго поколения, максимум поглощения 660 нм,
активно применяется в онкологии и антимикробной терапии.
🧩 Технологический стек
Компонент Описание
🐍 Python 3.13 Основной язык
🧠 Sentence Transformers Семантические эмбеддинги
🧱 FAISS Векторный поиск
💬 python-telegram-bot API для Telegram
🔒 python-dotenv Безопасное хранение токенов
📁 Структура проекта
tars-rag-pipeline/
│
├── rag/
│ ├── build_index.py # построение эмбеддингов и индекса
│ ├── rag_pipeline.py # логика RAG-поиска и ответов
│
├── fdtpromo_bot.py # Telegram-бот
├── requirements.txt # зависимости
└── README.md # описание проекта
🧠 Пример запроса
Вопрос: эффективность фотодинамической терапии при мышечно-неинвазивном раке мочевого пузыря?
Ответ:
ФДТ в сочетании с хирургическим вмешательством показывает объективный ответ 68,5%,
рецидивирование — 31,5%. Эффективность выше при дифференцировке опухоли G2–3.
🔮 Планы развития
🌐 Добавить веб-интерфейс (Streamlit / FastAPI)
📚 Автоматически обновлять индекс при добавлении новых PDF
🔎 Выводить ссылки на исходные документы в ответах
🧬 Расширить базу научных публикаций
👨🔬 Авторы
Создан при участии
Владимира Копылова и TARS 🤖
Цель — создать простую, быструю и локальную систему интеллектуального поиска по медицинским PDF-документам.
🧩 TARS помогает врачам и исследователям быстрее находить ответы. Никакой магии — только данные и интеллект.
✨ Если проект помог тебе — поставь ⭐ на GitHub