mod: Санитайзер для очистки от HTML (несколько режимов)

2025-10-28 23:46:38 +03:00
parent 57fb4914d8
commit 48c90409b8
4 changed files with 193 additions and 4 deletions
@@ -11,7 +11,12 @@ etpgrf - библиотека для экранной типографики т
 __version__ = "0.1.0"
 import etpgrf.defaults
 from etpgrf.typograph import Typographer
 from etpgrf.hyphenation import Hyphenator
 from etpgrf.unbreakables import Unbreakables
 import etpgrf.logger
 from etpgrf.hyphenation import Hyphenator
 from etpgrf.layout import LayoutProcessor
 from etpgrf.quotes import QuotesProcessor
 from etpgrf.sanitizer import SanitizerProcessor
 from etpgrf.symbols import SymbolsProcessor
 from etpgrf.typograph import Typographer
 from etpgrf.unbreakables import Unbreakables
@@ -15,6 +15,12 @@ LANG_EN = 'en'  # Английский
 SUPPORTED_LANGS = frozenset([LANG_RU, LANG_RU_OLD, LANG_EN])
 DEFAULT_LANGS = (LANG_RU, LANG_EN)  # Языки по умолчанию
 # Виды санитизации (очистки) входного текста
 SANITIZE_ALL_HTML = "html"        # Полная очистка от HTML-тегов
 SANITIZE_ETPGRF = "etp"           # Очистка от "span-оберток" символов висячей пунктуации (если она была расставлена
                                  # при предыдущих проходах типографа)
 SANITIZE_NONE = None              # Без очистки (режим по умолчанию). False тоже можно использовать.
 # === ИСТОЧНИК ПРАВДЫ ===
 # --- Базовые алфавиты: Эти константы используются как для правил переноса, так и для правил кодирования ---
@@ -677,4 +683,40 @@ ABBR_COMMON_PREPOSITION = [
 ]
 # === КОНСТАНТЫ ДЛЯ HTML-ТЕГОВ, ВНУТРИ КОТОРЫХ НЕ НАДО ТИПОГРАФИРОВАТЬ ===
-PROTECTED_HTML_TAGS = ['style', 'script', 'pre', 'code', 'kbd', 'samp', 'math']
+PROTECTED_HTML_TAGS = ['style', 'script', 'pre', 'code', 'kbd', 'samp', 'math']
 # === КОНСТАНТЫ ДЛЯ ВИСЯЧЕЙ ТИПОГРАФИКИ ===
 # 1. Набор символов, которые могут "висеть" слева
 HANGING_PUNCTUATION_LEFT_CHARS = frozenset([
    CHAR_RU_QUOT1_OPEN,   # «
    CHAR_EN_QUOT1_OPEN,   # “
    '(', '[', '{',
 ])
 # 2. Набор символов, которые могут "висеть" справа
 HANGING_PUNCTUATION_RIGHT_CHARS = frozenset([
    CHAR_RU_QUOT1_CLOSE,  # »
    CHAR_EN_QUOT1_CLOSE,  # ”
    ')', ']', '}',
    '.', ',', ':',
 ])
 # 3. Словарь, сопоставляющий символ с его CSS-классом
 HANGING_PUNCTUATION_CLASSES = {
    # Левая пунктуация: все классы начинаются с 'etp-l'
    CHAR_RU_QUOT1_OPEN: 'etp-laquo',
    CHAR_EN_QUOT1_OPEN: 'etp-ldquo',
    '(': 'etp-lpar',
    '[': 'etp-lsqb',
    '{': 'etp-lcub',
    # Правая пунктуация: все классы начинаются с 'etp-r'
    CHAR_RU_QUOT1_CLOSE: 'etp-raquo',
    CHAR_EN_QUOT1_CLOSE: 'etp-rdquo',
    ')': 'etp-rpar',
    ']': 'etp-rsqb',
    '}': 'etp-rcub',
    '.': 'etp-r-dot',
    ',': 'etp-r-comma',
    ':': 'etp-r-colon',
 }
@@ -0,0 +1,62 @@
 # etpgrf/sanitizer.py
 # Модуль для очистки и нормализации HTML-кода перед типографикой.
 import logging
 from bs4 import BeautifulSoup, NavigableString
 from .config import (SANITIZE_ALL_HTML, SANITIZE_ETPGRF, SANITIZE_NONE,
                     HANGING_PUNCTUATION_CLASSES, PROTECTED_HTML_TAGS)
 logger = logging.getLogger(__name__)
 class SanitizerProcessor:
    """
    Выполняет очистку HTML-кода в соответствии с заданным режимом.
    """
    def __init__(self, mode: str | bool | None = SANITIZE_NONE):
        """
        :param mode: Режим очистки:
                     - 'etp' (SANITIZE_ETPGRF): удаляет только разметку висячей пунктуации.
                     - 'html' (SANITIZE_ALL_HTML): удаляет все HTML-теги.
                     - None или False: ничего не делает.
        """
        if mode is False:
            mode = SANITIZE_NONE
        self.mode = mode
        self._etp_classes_to_clean = frozenset(HANGING_PUNCTUATION_CLASSES.values())
        logger.debug(f"SanitizerProcessor `__init__`. Mode: {self.mode}")
    def process(self, soup: BeautifulSoup) -> BeautifulSoup | str:
        """
        Применяет правила очистки к `soup`-объекту.
        :param soup: Объект BeautifulSoup для обработки.
        :return: Обработанный объект BeautifulSoup или строка (в режиме 'html').
        """
        if self.mode == SANITIZE_ETPGRF:
            # Находим все span'ы, у которых есть <span> с хотя бы одним из наших классов висячей пунктуации
            spans_to_clean = soup.find_all(
                name='span',
                class_=lambda c: c and any(etp_class in c.split() for etp_class in self._etp_classes_to_clean)
            )
            # "Агрессивная" очистка: просто "разворачиваем" все найденные теги,
            # заменяя их своим содержимым.
            for span in spans_to_clean:
                span.unwrap()
            return soup
        elif self.mode == SANITIZE_ALL_HTML:
            # Возвращаем только текст, удаляя все теги
            # При этом уважаем защищенные теги, не извлекая текст из них.
            text_parts = [
                str(node) for node in soup.descendants
                if isinstance(node, NavigableString) and node.parent.name not in PROTECTED_HTML_TAGS
            ]
            return "".join(text_parts)
        # Если режим не задан, ничего не делаем
        return soup
@@ -0,0 +1,80 @@
 # tests/test_sanitizer.py
 # Тестирует модуль SanitizerProcessor.
 import pytest
 from bs4 import BeautifulSoup
 from etpgrf.sanitizer import SanitizerProcessor
 from etpgrf.config import SANITIZE_NONE, SANITIZE_ETPGRF, SANITIZE_ALL_HTML
 def test_sanitizer_mode_none():
    """
    Проверяет, что в режиме SANITIZE_NONE (по умолчанию) ничего не происходит.
    """
    html_input = '<p><span class="etp-laquo">«</span>Hello<span class="user-class"> world</span>.</p>'
    soup = BeautifulSoup(html_input, 'html.parser')
    # Тестируем с mode=None и mode=False
    processor_none = SanitizerProcessor(mode=SANITIZE_NONE)
    processor_false = SanitizerProcessor(mode=False)
    result_soup_none = processor_none.process(soup)
    result_soup_false = processor_false.process(soup)
    assert str(result_soup_none) == html_input
    assert str(result_soup_false) == html_input
 def test_sanitizer_mode_all_html():
    """
    Проверяет, что в режиме SANITIZE_ALL_HTML удаляются все теги.
    """
    html_input = '<p>Hello <b>world</b>! <a href="#">Click me</a>.</p>'
    soup = BeautifulSoup(html_input, 'html.parser')
    processor = SanitizerProcessor(mode=SANITIZE_ALL_HTML)
    result_text = processor.process(soup)
    assert result_text == "Hello world! Click me."
 ETPGRF_SANITIZE_TEST_CASES = [
    # ID, Описание, Входной HTML, Ожидаемый HTML
    (
        "simple_unwrap", "Простое разворачивание span'а с одним etp-классом",
        '<p><span class="etp-laquo">«</span>Hello</p>',
        '<p>«Hello</p>'
    ),
    (
        "aggressive_unwrap", "Агрессивное разворачивание span'а со смешанными классами",
        '<p>Hello<span class="user-class etp-raquo">»</span></p>',
        '<p>Hello»</p>'
    ),
    (
        "keep_user_span", "Не трогаем span'ы с пользовательскими классами",
        '<p>Hello <span class="user-class">world</span></p>',
        '<p>Hello <span class="user-class">world</span></p>'
    ),
    (
        "keep_other_tags", "Не трогаем другие теги",
        '<div><b>Bold</b> and <i>italic</i></div>',
        '<div><b>Bold</b> and <i>italic</i></div>'
    ),
    (
        "complex_case", "Сложный случай с несколькими разными span'ами",
        '<h1><span class="etp-laquo">«</span>Title<span class="etp-raquo">»</span></h1><p>And <span class="note">note</span>.</p>',
        '<h1>«Title»</h1><p>And <span class="note">note</span>.</p>'
    ),
 ]
@pytest.mark.parametrize("case_id, description, html_input, expected_html", ETPGRF_SANITIZE_TEST_CASES)
 def test_sanitizer_mode_etpgrf(case_id, description, html_input, expected_html):
    """
    Проверяет, что в режиме SANITIZE_ETPGRF удаляется только разметка висячей пунктуации.
    """
    soup = BeautifulSoup(html_input, 'html.parser')
    processor = SanitizerProcessor(mode=SANITIZE_ETPGRF)
    result_soup = processor.process(soup)
    assert str(result_soup) == expected_html