add: обработка кавычек

2025-08-17 01:12:09 +03:00
parent 73fa57e47e
commit b4248db063
5 changed files with 251 additions and 6 deletions
--- a/README.md
+++ b/README.md
@@ -87,7 +87,8 @@ result = typo_mixed_mode.process(text="Этот текст будет обраб

 Настройки по умолчанию для переноса слов (в `etpgrf.defaults`):
 * Длина слова которое не подлежит переносам (`MAX_UNHYPHENATED_LEN`) — 12 символов.
-* Длина части слова, которое недопустимо переносить или оставлять на строке ("хвост", "сироты") (`MIN_TAIL_LEN`) — 7 символ
+* Длина части слова, которое недопустимо переносить или оставлять на строке ("хвост", "сироты")
+  (`MIN_TAIL_LEN`) — 5 символов

 Управление этими параметрами осуществляется через переопределение. Например:
 ```python
@@ -114,9 +115,30 @@ result = typo_hyp.process(text="Электрофоретическое иссл

 ### Кавычки

+В текстах кавычки бывают двух видов: «ёлочки» (для русского языка) и “лапки” (для английского языка). В типографе
+реализована автоматическая замена кавычек на соответствующие типографские символы в зависимости от языка текста.

-Теперь хочу обсудить модуль работы с кавычками. Большинство изсестных мне типографов разибают праные кавчки и превращают их в спец-сиволы. Мне каежтся это неверно, ведь ковычки моут быть не парными и вложенность может быть произвольной. Мне кажется нужен другой подход. Обнаруживать только конструкции `"слово` или `слово"` и преобразовывать только их. Соответсвнно в елочки или лапки в зависимоати от языка. При этом если уже в тескте есть лапки, елочки или другие типы кавычек — ничего не менять (автор текстьа сам знает, какие кавычки лучшк). Кавычки окруженные пробелами или буквать с дрвух сторон превоащать в &quot; ...
+Большинство типографов при обработке кавычек находят парные (и определяют вложенность). В etpgrf же реализован
+другой подход. Он ищет и обрабатывает кавычки, которые находятся рядом со словами. То есть какие-то буквы следуют
+слева или справа от кавычки.

-Как считаешь, это рабочий подход?? 
+Преобразование рядом с цифрами (например, когда обозначаются дюймы (`17"`) или секунды (`3' 25"`)) не производится. Также
+не обрабатываются кавычки окруженные пробелами. Все кавычки которые в исходном тексте уже были оформлены в виде
+«ёлочек» или “лапок” — тоже не обрабатываются.

-1.Надежность (Robustness): Вы правильно заметили, что символ " используется не только для кавычек. Это могут быть дюймы (17"), секунды (3' 25"), обозначения в коде (print("Hello")) и т.д. Ваш метод, который ищет кавычку рядом со словом ("слово или слово"), с гораздо меньшей вероятностью сломает такие конструкции.2.Уважение к авторскому замыслу: Правило "если уже есть ёлочки или лапки — ничего не менять" — это золотой стандарт. Типограф не должен "исправлять" то, что уже было отформатировано автором вручную. Это предотвращает двойное преобразование и сохраняет особые случаи, задуманные автором.3.Простота и производительность: Вместо сложного и медленного парсера, который отслеживает уровни вложенности (и часто ошибается), ваш подход можно реализовать с помощью нескольких быстрых регулярных выражений.4.Безопасность: Идея превращать оставшиеся "одинокие" кавычки в &quot; — это отличный механизм защиты. Он гарантирует, что на выходе не останется "сырых" кавычек, которые могут сломать HTML-разметку.
+ВАЖНО1: По правилам орфографии перед закрывающей кавычкой разрешены только определенные знаки препинания: 
+вопросительный (?), восклицательный (!) знаки и многоточие (…). Такие конструкции используются для цитат. Это учтено
+в etpgrf, и кавычки будут обработаны: `Она воскликнула: "Какая красота!"` будет преобразовано в `Она воскликнула:
+ «Какая красота!»`. В неправильны конструкциях (например, `"Какая красота."`) закрывающая кавычка не будет обработана.
+
+ВАЖНО2: Если в настройке типографа указано несколько языков (`langs='ru+en'`), то кавычки будут преобразованы по правилам
+для языка который идет первым в списке. Например, для `langs='ru+en'` кавычки будут преобразованы в «ёлочки»,
+
+Если при типорафировании преобразование не требуется, то можно обработку кавычек можно отключить с помощью
+параметра `quotes=False`:
+```python
+# Задаем конфигурацию типографа без кавычек
+typo_no_quotes = etpgrf.Typographer(langs='ru', quotes=False)
+# Обработка текста без кавычек
+result = typo_no_quotes.process(text='Этот "текст" будет обработан без кавычек.')
+```