From ddeb7c6d9975ba3c2941df848f82ba60b4f9f9cd Mon Sep 17 00:00:00 2001 From: erjemin Date: Mon, 22 Sep 2025 10:27:59 +0300 Subject: [PATCH] =?UTF-8?q?add:=20LayoutProcessor=20-=20=D0=BE=D0=B1=D1=80?= =?UTF-8?q?=D0=B0=D0=B1=D0=BE=D1=82=D0=BA=D0=B0=20=D0=B5=D0=B4=D0=B5=D0=BD?= =?UTF-8?q?=D0=B8=D1=86=20=D0=B8=D0=B7=D0=BC=D0=B5=D1=80=D0=B5=D0=BD=D0=B8?= =?UTF-8?q?=D1=8F=20(=D0=BA=D0=B0=D0=B6=D0=B5=D1=82=D1=81=D1=8F=20=D0=B2?= =?UTF-8?q?=D1=81=D0=B5++=20=D0=B8=20=D1=80=D0=B5=D0=B0=D0=BB=D0=B8=D0=B7?= =?UTF-8?q?=D0=BE=D0=B2=D0=B0=D0=BD=D0=B0=20=D0=B1=D0=B5=D0=B7=D0=BE=D0=BF?= =?UTF-8?q?=D0=B0=D1=81=D0=BD=D0=BE=D1=81=D1=82=D1=8C=20=D0=BE=D1=82=20CHA?= =?UTF-8?q?R=5FUNIT=5FSEPARATOR)?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- etpgrf/layout.py | 39 +++++++++++++++++++++------------------ 1 file changed, 21 insertions(+), 18 deletions(-) diff --git a/etpgrf/layout.py b/etpgrf/layout.py index 69127c8..5f5acda 100644 --- a/etpgrf/layout.py +++ b/etpgrf/layout.py @@ -71,30 +71,33 @@ class LayoutProcessor: self._math_unit_pattern = None if self.process_units: all_post_units = list(DEFAULT_POST_UNITS) + # Добавляем кастомные единицы, если они есть if isinstance(self.process_units, str): all_post_units.extend(self.process_units.split()) elif isinstance(self.process_units, (list, tuple, set)): all_post_units.extend(self.process_units) - # Общий паттерн для всех остальных единиц - if all_post_units: - sorted_units = sorted(all_post_units, key=len, reverse=True) - # Создаем "чистый" паттерн без точек для универсальности - units_pattern_part_clean = '|'.join(map(regex.escape, [u.replace('.', '') for u in sorted_units])) - # Создаем паттерн, который включает единицы с точками, для простых замен - units_pattern_part_full = '|'.join(map(regex.escape, sorted_units)) + # Единая проверка безопасности: удаляем все единицы, содержащие временный разделитель. + safe_units = [unit for unit in all_post_units if CHAR_UNIT_SEPARATOR not in unit] + if len(safe_units) != len(all_post_units): + logger.warning(f"One or more units contained the reserved separator ('{CHAR_UNIT_SEPARATOR}') and were ignored.") - if units_pattern_part_full: - # Простые единицы: число + единица - self._post_units_pattern = regex.compile(rf'({self._NUMBER_PATTERN})\s+({units_pattern_part_full})(?!\w)') - # Паттерн для составных единиц: ищет пару "единица." + "единица", разделенную пробелами (или без них). - # Обязательное наличие точки `\.` после первой единицы делает цикл обработки безопасным. - # Используем "чистый" паттерн, чтобы правило работало независимо от того, как определена единица ('в' или 'в.') - self._complex_unit_pattern = regex.compile(r'\b(' + units_pattern_part_clean + r')\.(\s*)(' + units_pattern_part_clean + r')(?!\w)') - # Паттерн для математических операций между единицами - math_ops_pattern = '|'.join(map(regex.escape, UNIT_MATH_OPERATORS)) - self._math_unit_pattern = regex.compile( - r'\b(' + units_pattern_part_clean + r')\s*(' + math_ops_pattern + r')\s*(' + units_pattern_part_clean + r')(?!\w)') + # Создаем паттерны только из безопасных единиц + if safe_units: + sorted_units = sorted(safe_units, key=len, reverse=True) + units_pattern_part_full = '|'.join(map(regex.escape, sorted_units)) + units_pattern_part_clean = '|'.join(map(regex.escape, [u.replace('.', '') for u in sorted_units])) + + # Простые единицы: число + единица + self._post_units_pattern = regex.compile(rf'({self._NUMBER_PATTERN})\s+({units_pattern_part_full})(?!\w)') + # Составные единицы: ищет пару "единица." + "единица" + self._complex_unit_pattern = regex.compile(r'\b(' + units_pattern_part_clean + r')\.(\s*)(' + + units_pattern_part_clean + r')(?!\w)') + # Математические операции между единицами + math_ops_pattern = '|'.join(map(regex.escape, UNIT_MATH_OPERATORS)) + self._math_unit_pattern = regex.compile( + r'\b(' + units_pattern_part_clean + r')\s*(' + math_ops_pattern + r')\s*(' + + units_pattern_part_clean + r')(?!\w)') # Паттерн для пред-позиционных единиц self._pre_units_pattern = regex.compile(