Skip to content

🤖 Retrieval-Augmented Generation pipeline для TARS — соединяем поиск и генерацию знаний.

Notifications You must be signed in to change notification settings

rolloerro/tars-rag-pipeline

Repository files navigation

🧠 TARS RAG Pipeline — интеллектуальный поиск по PDF-документам

Python FAISS Telegram Bot License Build

🤖 TARS RAG Pipeline — проект для интеллектуального поиска и генерации ответов на основе научных PDF-документов по фотодинамической терапии (ФДТ).
Использует RAG (Retrieval-Augmented Generation): поиск + генерация ответа из локальных источников.


🚀 Возможности

  • 📄 Извлекает текст из PDF-документов
  • ⚙️ Создаёт FAISS-индекс для быстрого семантического поиска
  • 💬 Отвечает на вопросы через Telegram-бота
  • 🧩 Использует Sentence Transformers и FAISS
  • 🔐 Поддерживает хранение токена в .env

⚙️ Установка и запуск

# Клонируем репозиторий
git clone https://github.com/rolloerro/tars-rag-pipeline.git
cd tars-rag-pipeline

# Активируем виртуальное окружение
python3 -m venv venv
source venv/bin/activate

# Устанавливаем зависимости
pip install -r requirements.txt

# Строим индекс PDF-документов
python rag/build_index.py

# Запускаем Telegram-бота
python fdtpromo_bot.py
💬 Telegram-бот

Бот: @fdtpromo_bot

Отвечает на вопросы по ФДТ на основе документов в индексе.
Использует Sentence Transformers для поиска и генерации контекстного ответа.

💡 Как задать вопрос боту

Просто открой Telegram и начни чат с ботом.
Он принимает обычные текстовые запросы.

Примеры:

🧠 «Какие результаты фотодинамической терапии при раке кожи?»
💬 ФДТ показала эффективность 82% при поверхностных формах рака кожи. Эффект максимален при дозе света 100 Дж/см²...

🧠 «Какие противопоказания к применению ФДТ?»
💬 Противопоказания включают фотодерматозы, беременность, тяжёлую печёночную недостаточность и непереносимость фотосенсибилизатора.

🧠 «Расскажи про фотосенсибилизатор Хлорин Е6»
💬 Хлорин Е6 — фотосенсибилизатор второго поколения, максимум поглощения 660 нм,
активно применяется в онкологии и антимикробной терапии.

🧩 Технологический стек
Компонент	Описание
🐍 Python 3.13	Основной язык
🧠 Sentence Transformers	Семантические эмбеддинги
🧱 FAISS	Векторный поиск
💬 python-telegram-bot	API для Telegram
🔒 python-dotenv	Безопасное хранение токенов
📁 Структура проекта
tars-rag-pipeline/
│
├── rag/
│   ├── build_index.py       # построение эмбеддингов и индекса
│   ├── rag_pipeline.py      # логика RAG-поиска и ответов
│
├── fdtpromo_bot.py          # Telegram-бот
├── requirements.txt         # зависимости
└── README.md                # описание проекта

🧠 Пример запроса

Вопрос: эффективность фотодинамической терапии при мышечно-неинвазивном раке мочевого пузыря?

Ответ:
ФДТ в сочетании с хирургическим вмешательством показывает объективный ответ 68,5%,
рецидивирование — 31,5%. Эффективность выше при дифференцировке опухоли G2–3.

🔮 Планы развития

🌐 Добавить веб-интерфейс (Streamlit / FastAPI)

📚 Автоматически обновлять индекс при добавлении новых PDF

🔎 Выводить ссылки на исходные документы в ответах

🧬 Расширить базу научных публикаций

👨‍🔬 Авторы

Создан при участии
Владимира Копылова и TARS 🤖

Цель — создать простую, быструю и локальную систему интеллектуального поиска по медицинским PDF-документам.
🧩 TARS помогает врачам и исследователям быстрее находить ответы. Никакой магии — только данные и интеллект.

✨ Если проект помог тебе — поставь ⭐ на GitHub

About

🤖 Retrieval-Augmented Generation pipeline для TARS — соединяем поиск и генерацию знаний.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages