From cc367482aa7cdda2617d5e5797d7b6f82dfcf5a3 Mon Sep 17 00:00:00 2001 From: erjemin Date: Wed, 24 Sep 2025 00:42:00 +0300 Subject: [PATCH] =?UTF-8?q?mod:=20=D0=94=D0=BE=D0=BA=D1=83=D0=BC=D0=B5?= =?UTF-8?q?=D0=BD=D1=82=D0=B0=D1=86=D0=B8=D1=8F+=20(+=D0=BF=D1=80=D0=B5?= =?UTF-8?q?=D0=B4=D0=BB=D0=BE=D0=B3=D0=B8/=D1=87=D0=B0=D1=81=D1=82=D0=B8?= =?UTF-8?q?=D1=86=D1=8B,=20+=D0=BA=D0=BE=D0=BC=D0=BF=D0=BE=D0=BD=D0=BE?= =?UTF-8?q?=D0=B2=D0=BA=D0=B0)?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 16 +++++++++------- 1 file changed, 9 insertions(+), 7 deletions(-) diff --git a/README.md b/README.md index d16e585..932e029 100644 --- a/README.md +++ b/README.md @@ -191,15 +191,15 @@ result = typo_no_quotes.process(text='Этот "текст" будет обра специальные пробелы: * Неразрывный пробел (` `) ставится между фамилией и инициалом/инициалами (`А. Пушкин` → `А. Пушкин`). - Неважно стоят ли инициалы перед фамилией или после нее. Важно наличие точки и буквы (инициала), написанного + Неважно стоят ли инициалы перед фамилией или после неё. Важно наличие точки и буквы (инициала), написанного с заглавной буквы. * Тонкая шпация ( ) ставится между самими инициалами, если они написаны слитно, для улучшения внешнего вида - (`А.С.Пушкин` → `А. С.Пушкин`). Число инициалов не ограничено (`J.R.R. Tolkien` → `J. R. R. - Tolkien`), наличие или отсутствие пробелов между инициалами в исходном тексте неважно. + (`Пушкин А. С. ` → `Пушкин А. С.`). Число инициалов не ограничено (`J.R.R. Tolkien` → + `J. R. R. Tolkien`), наличие или отсутствие пробелов между инициалами в исходном тексте неважно. * Акронимы, написанные через точку (не слитно, например, **Н.Л.О.**), разделяются так же, как инициалы, через тонкую шпацию (`Н.Л.О.` → `Н. Л. О.`). Наличие или отсутствие пробелов между буквами в исходном тексте неважно. -Это правило может давать побочные эффекты (в частности, тонкая шпация не явлеятся неразрывным пробелом, и в длинных +Это правило может давать побочные эффекты (в частности, тонкая шпация не является неразрывным пробелом, и в длинных акронимах может привести к разрыву строки). Поэтому его обработку можно отключить с помощью параметра `process_initials_and_acronyms`: ```python @@ -214,13 +214,14 @@ result = typo.process("А. С. Пушкин") # Останется без изм * **Простых единиц:** `100 км` → `100 км`, `-5 °C` → `-5 °C`' * **Составных единиц:** `120 кв. м.` → `120 кв. м.`, `50 тыс. руб.` → `50 тыс. руб.` -* **Единиц с предлогом:** `№ 5` → `№ 5` -* **Чисел, записанных и арабскими, и римскими цифрами:** `V век` → `V век` +* **Единиц с предлогом:** `№ 5` → `№ 5`, `§ 7` → `§ 7`, `$ 100` → `$ 100` +* **Чисел, записанных и арабскими, и римскими цифрами:** `V в.н.э.` → `V в. н. э.` * Если единицами изменений есть математические символы (например, умножение или деление): `10 км / ч` → `10 км/ч` - (не важно есть пробелы вокруг `/` или нет). + (неважно есть пробелы вокруг `/` или нет). Распознаются и другие символы: `·`, `*`, `×`, `÷`. Библиотека "знает" множество стандартных единиц для русского и английского языков. Но не все. Вы можете расширить этот список, передав свои кастомные единицы через параметр `process_units`: + ```python # Передаем список typo = etpgrf.Typographer(process_units=['бочек', 'вёдер']) @@ -230,6 +231,7 @@ result = typo.process("Нужно 10 бочек.") # -> "Нужно 10 б ``` Если нужно отключить распознавание обработку единиц измерения: + ```python typo = etpgrf.Typographer(process_units=False) result = typo.process("100 км/ч") # Останется без изменений