add: LayoutProcessor - обработка тонких пробелов в инициалах и акронимах

This commit is contained in:
2025-08-31 15:41:44 +03:00
parent 4918645496
commit a26c9107f2
3 changed files with 50 additions and 27 deletions

View File

@@ -37,6 +37,7 @@ EN_ALPHABET_FULL = EN_ALPHABET_UPPER | EN_ALPHABET_LOWER
# --- Специальные символы ---
CHAR_NBSP = '\u00a0' # Неразрывный пробел ( )
CHAR_SHY = '\u00ad' # Мягкий перенос (­)
CHAR_THIN_SP = '\u2009' # Тонкий пробел (шпация,  )
CHAR_NDASH = '\u2013' # Cреднее тире ( / –)
CHAR_MDASH = '\u2014' # Длинное тире (— / —)
CHAR_HELLIP = '\u2026' # Многоточие (… / …)
@@ -108,7 +109,7 @@ SAFE_MODE_CHARS_TO_MNEMONIC = frozenset([
'\u2003', # Широкий пробел (Em Space) --  
'\u2007', # Цифровой пробел --  
'\u2008', # Пунктуационный пробел --  
'\u2009', # Межсимвольный пробел --  '
CHAR_THIN_SP, # Межсимвольный пробел, тонкий пробел, шпация --  '
'\u200A', # Толщина волоса (Hair Space) --  
'\u200B', # Негативный пробел (Negative Space) -- ​
'\u200C', # Нулевая ширина (без объединения) (Zero Width Non-Joiner) -- ‍
@@ -546,7 +547,7 @@ CUSTOM_ENCODE_MAP = {
'\u231d': '⌝', # ⌝ / ⌝ / ⌝
'\u2016': '‖', # ‖ / ‖ / ‖
'\u2228': '∨', # / ∨ / ∨
'\u2009': ' ', # /   /  
CHAR_THIN_SP: ' ', # /   /  
'\u2240': '≀', # ≀ / ≀ / ≀ / ≀
'\u2128': 'ℨ', # / ℨ / ℨ
'\u2118': '℘', # ℘ / ℘ / ℘