add: обработка html (теги исклчены из типографа).

This commit is contained in:
2025-07-19 23:00:41 +03:00
parent 6b72da89c4
commit 1c5fe77706
4 changed files with 108 additions and 54 deletions

View File

@@ -30,7 +30,7 @@ SHY_ENTITIES = {
SPACE_ENTITIES = {
'NBSP': ('\u00A0', ' '), # Неразрывный пробел
'THINSP': ('\u2009', ' '), # Тонкий пробел
'ENSP': ('\u2002', ' '), # Полуширокий пробел
'ENSP': ('\u2002', ' '), # Полу-широкий пробел
'EMSP': ('\u2003', ' '), # Широкий пробел
'ZWNJ': ('\u200C', '‌'), # Разрывный пробел нулевой ширины (без пробела)
'ZWJ': ('\u200D', '‍'), # Неразрывный пробел нулевой ширины
@@ -38,9 +38,10 @@ SPACE_ENTITIES = {
# Тире и дефисы
DASH_ENTITIES = {
'NDASH': ('\u2013', '–'), # Короткое тире
'MDASH': ('\u2014', '—'), # Длинное тире
# 'HYPHEN': ('\u2010', '‐'), # Обычный дефис (если нужно отличать от минуса)
'NDASH': ('\u2013', '–'), # Cреднее тире (En dash)
'MDASH': ('\u2014', '—'), # Длинное тире
'HYPHEN': ('\u2010', '‐'), # Обычный дефис (если нужно отличать от минуса)
'HORBAR': ('\u2015', '―'), # Горизонтальная линия (длинная черта)
}
# Кавычки
@@ -57,7 +58,16 @@ QUOTE_ENTITIES = {
'SBQUO': ('\u201A', '‚'), # Нижняя одинарная кавычка --
'LSAQUO': ('\u2039', '‹'), # Открывающая французская угловая кавычка --
'RSAQUO': ('\u203A', '›'), # Закрывающая французская угловая кавычка --
}
CURRENCY_ENTITIES = {
'DOLLAR': ('\u0024', '$'), # Доллар
'CENT': ('\u00A2', '¢'), # Цент
'POUND': ('\u00A3', '£'), # Фунт стерлингов
'CURREN': ('\u00A4', '¤'), # Знак валюты (обычно используется для обозначения "без конкретной валюты")
'YEN': ('\u00A5', '¥'), # Йена
'EURO': ('\u20AC', '€'), # Евро
'RUBLE': ('\u20BD', '₽'), # Российский рубль (₽)
}
# Другие символы (пример для расширения)