Merge branch 'fully-migrate-to-gh-actions' into upcoming/v4.9

2022-03-19 16:34:59 +01:00
parent 604b107586 3cbee1b318
commit 374d9d0d81
9 changed files with 96 additions and 53 deletions
--- a/instaloader/instaloader.py
+++ b/instaloader/instaloader.py
@@ -335,15 +335,25 @@ class Instaloader:
                     filename_suffix: Optional[str] = None, _attempt: int = 1) -> bool:
        """Downloads and saves picture with given url under given directory with given timestamp.
        Returns true, if file was actually downloaded, i.e. updated."""
-        urlmatch = re.search('\\.[a-z0-9]*\\?', url)
-        file_extension = url[-3:] if urlmatch is None else urlmatch.group(0)[1:-1]
        if filename_suffix is not None:
            filename += '_' + filename_suffix
-        filename += '.' + file_extension
-        if os.path.isfile(filename):
+        urlmatch = re.search('\\.[a-z0-9]*\\?', url)
+        file_extension = url[-3:] if urlmatch is None else urlmatch.group(0)[1:-1]
+        nominal_filename = filename + '.' + file_extension
+        if os.path.isfile(nominal_filename):
+            self.context.log(nominal_filename + ' exists', end=' ', flush=True)
+            return False
+        resp = self.context.get_raw(url)
+        if 'Content-Type' in resp.headers and resp.headers['Content-Type']:
+            header_extension = '.' + resp.headers['Content-Type'].split(';')[0].split('/')[-1]
+            header_extension = header_extension.lower().replace('jpeg', 'jpg')
+            filename += header_extension
+        else:
+            filename = nominal_filename
+        if filename != nominal_filename and os.path.isfile(filename):
            self.context.log(filename + ' exists', end=' ', flush=True)
            return False
-        self.context.get_and_write_raw(url, filename)
+        self.context.write_raw(resp, filename)
        os.utime(filename, (datetime.now().timestamp(), mtime.timestamp()))
        return True

--- a/instaloader/structures.py
+++ b/instaloader/structures.py
@@ -8,6 +8,7 @@ from datetime import datetime
 from itertools import islice
 from pathlib import Path
 from typing import Any, Dict, Iterable, Iterator, List, Optional, Tuple, Union
+from unicodedata import normalize

 from . import __version__
 from .exceptions import *
@@ -365,9 +366,9 @@ class Post:
    def caption(self) -> Optional[str]:
        """Caption."""
        if "edge_media_to_caption" in self._node and self._node["edge_media_to_caption"]["edges"]:
-            return self._node["edge_media_to_caption"]["edges"][0]["node"]["text"]
+            return normalize("NFC", self._node["edge_media_to_caption"]["edges"][0]["node"]["text"])
        elif "caption" in self._node:
-            return self._node["caption"]
+            return normalize("NFC", self._node["caption"])
        return None

    @property
@@ -389,7 +390,7 @@ class Post:
        # support Unicode and a word/beginning of string delimiter at the beginning to ensure
        # that no email addresses join the list of mentions.
        # http://blog.jstassen.com/2016/03/code-regex-for-instagram-username-and-hashtags/
-        mention_regex = re.compile(r"(?:^|\W|_)(?:@)(\w(?:(?:\w|(?:\.(?!\.))){0,28}(?:\w))?)")
+        mention_regex = re.compile(r"(?:^|\W|_)(?:@)(\w(?:(?:\w|(?:\.(?!\.))){0,28}(?:\w))?)", re.ASCII)
        return re.findall(mention_regex, self.caption.lower())

    @property