Журнал изменений
0.4.0
2026-06-10Этот релиз повышает качество распознавания в испанских документах. Мексиканские идентификаторы (RFC, CURP, банковские счета CLABE) теперь распознаются и маскируются. Испанские даты словами («15 de julio de 2025») маскируются целиком, проценты оплаты больше не принимаются за даты, а улицы, названные датами («Calle 5 de Mayo»), остаются частью адреса. Названия компаний, которые модель раньше пропускала (например «GreenLeaf Organics Corp., S.A. de C.V.»), теперь маскируются одним фрагментом. Русские и английские документы не затронуты.
0.3.0
2026-06-09В этом релизе добавлен испанский (es) как опциональный язык распознавания. Установите испанскую модель при установке (или скачайте позже в разделе Настройки → Языки), перезапустите — и в испанских документах будут распознаваться имена (включая двойные фамилии), компании и адреса, вместе с уже работающим распознаванием email, телефонов, IBAN и дат. Русский и английский не меняются, а испанский полностью опционален: без установки испанской модели для вас ничего не меняется.
0.2.31
2026-06-02В этом релизе повышена точность маскирования: теперь надёжнее распознаются повторяющиеся даты, номера договоров со строчными буквами, двойные русские фамилии через дефис и номера банковских карт/IBAN с необычными пробелами или тире.
0.2.28
2026-05-28- Сканированные и гибридные PDF теперь можно обезличивать локально, если установлен Tesseract OCR с английским и русским языковыми пакетами.
- Приложение предупреждает о низкой уверенности OCR и встроенных изображениях, которые нужно проверить вручную.
- Установщик и команда doctor помогают проверить или настроить OCR.
- Детекторы усилены для юридических идентификаторов, фрагментов адресов Гонконга, названий компаний и международных телефонных разделителей.
0.2.21
2026-05-26Сравнивать документы в предпросмотре стало удобнее: исходную и обезличенную панели можно менять по ширине, сворачивать и прокручивать по горизонтали для широких таблиц. В документах KPI, суммы, цели и периодичность теперь остаются видимыми, если это не настоящие даты.
0.2.20
2026-05-26Русские отчетные документы обрабатываются точнее, когда в них есть диапазоны дат или строки с суммами, похожие на номера телефонов. Значения вроде 24-28.02.2022, 13.10.2022 и 2022 - 360 000 остаются видимыми, если это не телефонные номера, а настоящие номера телефонов по-прежнему маскируются.
0.2.19
2026-05-24Внутренние проверки качества покрытия анонимизации стали строже. Релиз сохраняет критические категории сущностей на нужном уровне приоритета и проверяет исправленные регрессии по точной ожидаемой синтетической сущности.
0.2.18
2026-05-22- Русские имена: детектор больше не захватывает префикс К(Ф)Х в персону. В документах вида «Глава К(Ф)Х Иванов И.И.» маскируется только имя, а К(Ф)Х остаётся в тексте как обозначение крестьянского (фермерского) хозяйства.
- Обработка документов: редкие нестандартные случаи теперь обрабатываются безопаснее и точнее, снижая риск лишней маскировки или нестабильного результата в документах со сложной структурой.
0.2.17
2026-05-21Исправлен Windows-only краш при анонимизации документов с именами компаний — словарь правовых форм не загружался на русской Windows (системная кодировка cp1251), падая с UnicodeDecodeError. Теперь файл явно читается как UTF-8 независимо от системной локали.
0.2.16
2026-05-21Английский детектор имён компаний теперь корректно пропускает «Google Looker Studio» в marketing/adtech контексте. Раньше форма с префиксом просачивалась и маскировалась как имя контрагента; теперь, как и краткое «Looker Studio», остаётся видимой.
0.2.15
2026-05-21Таблицы в документах (блоки подписей, реестры, графики) теперь отображаются в preview как настоящие таблицы, а не плоский список абзацев — удобнее проверять анонимизацию построчно. Серии актов гражданского состояния вида «II-МО» / «I-МК» в реестрах теперь маскируются как NUMBER; раньше они утекали в выходной DOCX, хотя номер свидетельства маскировался.
0.2.14
2026-05-20Подборка исправлений по фидбэку пилотов: покрытие, обработка PDF и UX веб-приложения:
- DOCX-таблицы теперь анонимизируются корректно. Раньше из-за бага дедупликации парсера большинство ячеек больших таблиц (блоки подписей, реестры, графики) пропадало, и персональные данные попадали в выходной файл нетронутыми.
- PDF с заранее размеченными областями редактирования обрабатываются безопасно. Закрытый контент полностью редактируется, а встроенный заменяющий текст в этих областях отбрасывается до анонимизации.
- Российские банковские счета, СНИЛС и ИНН маскируются в пилотных документах, при этом публичные регуляторы и санкционные ведомства оставлены читаемыми, чтобы санкционные оговорки сохраняли смысл.
- Прогресс загрузки честен на всех этапах. Прогресс по стадиям запускается сразу после перетаскивания файла и видимо анимируется через все стадии, включая маленькие документы, которые обрабатываются быстро. Обманчивый баннер «failed» при медленной загрузке страницы убран.
- Веб-приложение автоматически завершает работу при закрытии вкладки браузера.
- Новая офлайн-команда диагностики сообщает о состоянии установки. Носители документов и диагностические логи больше не сохраняют сырой текст сущностей после анонимизации.
0.2.9
2026-05-19Улучшено распознавание персональных данных в российских юридических документах: коды подразделения паспорта (NNN-NNN) теперь определяются корректно, числовые конструкции вида «in three (3) years» больше не классифицируются как даты, а адреса, начинающиеся с региона или района, теперь подхватываются. Добавлен опциональный флаг маскировки названий стран — выключен по умолчанию.
0.2.4
2026-05-19Внутреннее: чистка инфраструктуры agent-воркфлоу, которой пользуется команда разработки. Изменений, видимых пользователю, нет.
0.2.3
2026-05-19Исправлено
- Обработка первого русского документа больше не падает. Транзитивная зависимость могла подтягиваться слишком новой версией на пользовательских машинах, и это ломало русский NER при первом запуске. Версия теперь зафиксирована на этапе установки.
0.2.2
2026-05-19Исправлено
- Установка на чистой машине работает с первого раза. Однострочный установщик теперь оставляет рабочий инструмент без ручных шагов по уборке.
anonymize --versionработает. Печатает версию и корректно завершается.
0.2.1
2026-05-19Исправлено
- Установщик строже выбирает Python. Это предотвращает тихий отказ на машинах, где автоматически подбирался несовместимый интерпретатор.
0.2.0
2026-05-19Первый публичный релиз на PyPI как docs-anonymizer. Локальное веб-приложение по адресу 127.0.0.1 обезличивает .docx, .xlsx и .pdf с текстовым слоем — имена, организации, адреса, налоговые/банковские идентификаторы, телефоны, email-адреса, даты — полностью офлайн. Русский + английский интерфейс. Пилотное качество; переход на 1.0.0 — после обратной связи от пилотов.