compare scalars within multiple train jobs

88932364 · liangyongxiong · 9e0d7cd5 · 88932364 · 88932364 · 88932364
6 changed file
--- a/mindinsight/backend/datavisual/task_manager_api.py
+++ b/mindinsight/backend/datavisual/task_manager_api.py
@@ -25,10 +25,11 @@ from flask import request
 from flask import jsonify

 from mindinsight.conf import settings
+from mindinsight.datavisual.common.validation import Validation
+from mindinsight.datavisual.data_transform.summary_watcher import SummaryWatcher
 from mindinsight.datavisual.utils.tools import str_to_bool
 from mindinsight.datavisual.utils.tools import get_train_id
 from mindinsight.datavisual.processors.train_task_manager import TrainTaskManager
-from mindinsight.datavisual.data_transform.summary_watcher import SummaryWatcher
 from mindinsight.datavisual.data_transform.data_manager import DATA_MANAGER


@@ -65,16 +66,11 @@ def query_train_jobs():
    offset = request.args.get("offset", default=0)
    limit = request.args.get("limit", default=10)

-    summary_watcher = SummaryWatcher()
-    total, directories = summary_watcher.list_summary_directories_by_pagination(
-        settings.SUMMARY_BASE_DIR, offset, limit)
+    offset = Validation.check_offset(offset=offset)
+    limit = Validation.check_limit(limit, min_value=1, max_value=SummaryWatcher.MAX_SUMMARY_DIR_COUNT)

-    train_jobs = [{
-        'train_id': directory['relative_path'],
-        'relative_path': directory['relative_path'],
-        'create_time': directory['create_time'].strftime('%Y-%m-%d %H:%M:%S'),
-        'update_time': directory['update_time'].strftime('%Y-%m-%d %H:%M:%S'),
-    } for directory in directories]
+    processor = TrainTaskManager(DATA_MANAGER)
+    total, train_jobs = processor.query_train_jobs(offset, limit)

    return jsonify({
        'name': os.path.basename(os.path.realpath(settings.SUMMARY_BASE_DIR)),
@@ -83,6 +79,18 @@ def query_train_jobs():
    })


+@BLUEPRINT.route("/datavisual/train-job-caches", methods=["POST"])
+def cache_train_jobs():
+    """ Cache train jobs."""
+    data = request.get_json(silent=True)
+    train_ids = data.get('train_ids', [])
+
+    processor = TrainTaskManager(DATA_MANAGER)
+    cache_result = processor.cache_train_jobs(train_ids)
+
+    return jsonify({'cache_result': cache_result})
+
+
 def init_module(app):
    """
    Init module entry.

--- a/mindinsight/backend/datavisual/train_visual_api.py
+++ b/mindinsight/backend/datavisual/train_visual_api.py
@@ -162,6 +162,17 @@ def histogram():
    return jsonify(response)


+@BLUEPRINT.route("/datavisual/scalars", methods=["GET"])
+def get_scalars():
+    """Get scalar data for given train_ids and tags."""
+    train_ids = request.args.getlist('train_id')
+    tags = request.args.getlist('tag')
+
+    processor = ScalarsProcessor(DATA_MANAGER)
+    scalars = processor.get_scalars(train_ids, tags)
+    return jsonify({'scalars': scalars})
+
+
 def init_module(app):
    """
    Init module entry.

--- a/mindinsight/datavisual/data_transform/data_manager.py
+++ b/mindinsight/datavisual/data_transform/data_manager.py
@@ -45,7 +45,7 @@ from mindinsight.utils.exceptions import ParamValueError


 @enum.unique
-class _CacheStatus(enum.Enum):
+class CacheStatus(enum.Enum):
    """Train job cache status."""
    NOT_IN_CACHE = "NOT_IN_CACHE"
    CACHING = "CACHING"
@@ -63,13 +63,15 @@ class _BasicTrainJob:
        abs_summary_dir (str): The canonical path of summary directory. It should be the return value of realpath().
        create_time (DateTime): The create time of summary directory.
        update_time (DateTime): The latest modify time of summary files directly in the summary directory.
+        profiler_dir (str): The relative path of profiler directory.
    """
-    def __init__(self, train_id, abs_summary_base_dir, abs_summary_dir, create_time, update_time):
+    def __init__(self, train_id, abs_summary_base_dir, abs_summary_dir, create_time, update_time, profiler_dir):
        self._train_id = train_id
        self._abs_summary_base_dir = abs_summary_base_dir
        self._abs_summary_dir = abs_summary_dir
        self._create_time = create_time
        self._update_time = update_time
+        self._profiler_dir = profiler_dir

    @property
    def abs_summary_dir(self):
@@ -86,6 +88,16 @@ class _BasicTrainJob:
        """Get train id."""
        return self._train_id

+    @property
+    def profiler_dir(self):
+        """Get profiler directory path."""
+        return self._profiler_dir
+
+    @property
+    def create_time(self):
+        """Get create time."""
+        return self._create_time
+
    @property
    def update_time(self):
        """Get update time."""
@@ -108,7 +120,7 @@ class CachedTrainJob:
        # Other cached content is stored here.
        self._content = {}

-        self._cache_status = _CacheStatus.NOT_IN_CACHE
+        self._cache_status = CacheStatus.NOT_IN_CACHE
        self._key_locks = {}

    @property
@@ -203,7 +215,7 @@ class TrainJob:
        self._brief = brief_train_job
        self._detail = detail_train_job
        if self._detail is None:
-            self._cache_status = _CacheStatus.NOT_IN_CACHE
+            self._cache_status = CacheStatus.NOT_IN_CACHE
        else:
            self._cache_status = self._detail.cache_status

@@ -241,6 +253,20 @@ class TrainJob:
        """
        return self._brief.get(key)

+    def get_basic_info(self):
+        """
+        Get basic info.
+
+        Returns:
+            basic_info (_BasicTrainJob): Basic info about the train job.
+        """
+        return self._brief.basic_info
+
+    @property
+    def cache_status(self):
+        """Get cache status."""
+        return self._cache_status
+

 class BaseCacheItemUpdater(abc.ABC):
    """Abstract base class for other modules to update cache content."""
@@ -686,7 +712,7 @@ class _DetailCacheManager(_BaseCacheManager):
        train_job_obj.set(DATAVISUAL_CACHE_KEY, train_job)

        # Will assign real value in future.
-        train_job_obj.cache_status = _CacheStatus.CACHED
+        train_job_obj.cache_status = CacheStatus.CACHED

        return train_job_obj

@@ -863,6 +889,7 @@ class DataManager:

        basic_train_jobs = []
        for info in summaries_info:
+            profiler = info['profiler']
            basic_train_jobs.append(_BasicTrainJob(
                train_id=info['relative_path'],
                abs_summary_base_dir=self._summary_base_dir,
@@ -871,7 +898,8 @@ class DataManager:
                    info['relative_path']
                )),
                create_time=info['create_time'],
-                update_time=info['update_time']
+                update_time=info['update_time'],
+                profiler_dir=None if profiler is None else profiler['directory'],
            ))

        self._brief_cache.update_cache(basic_train_jobs)

--- a/mindinsight/datavisual/data_transform/summary_watcher.py
+++ b/mindinsight/datavisual/data_transform/summary_watcher.py
@@ -31,6 +31,7 @@ class SummaryWatcher:

    SUMMARY_FILENAME_REGEX = r'summary\.(?P<timestamp>\d+)'
    PB_FILENAME_REGEX = r'\.pb$'
+    PROFILER_DIRECTORY_REGEX = r'^profiler$'
    MAX_SUMMARY_DIR_COUNT = 999

    # scan at most 20000 files/directories (approximately 1 seconds)
@@ -52,6 +53,8 @@ class SummaryWatcher:
                                        starting with "./".
                - create_time (datetime): Creation time of summary file.
                - update_time (datetime): Modification time of summary file.
+                - profiler (dict): profiler info, including profiler subdirectory path, profiler creation time and
+                                    profiler modification time.

        Examples:
            >>> from mindinsight.datavisual.data_transform.summary_watcher import SummaryWatcher
@@ -95,7 +98,7 @@ class SummaryWatcher:
            if entry.is_symlink():
                pass
            elif entry.is_file():
-                self._update_summary_dict(summary_dict, relative_path, entry)
+                self._update_summary_dict(summary_dict, summary_base_dir, relative_path, entry)
            elif entry.is_dir():
                full_path = os.path.realpath(os.path.join(summary_base_dir, entry.name))
                try:
@@ -103,27 +106,39 @@ class SummaryWatcher:
                except PermissionError:
                    logger.warning('Path of %s under summary base directory is not accessible.', entry.name)
                    continue
-                self._scan_subdir_entries(summary_dict, subdir_entries, entry.name, counter)
-
-        directories = [{
-            'relative_path': key,
-            'create_time': value['ctime'],
-            'update_time': value['mtime'],
-        } for key, value in summary_dict.items()]
+                self._scan_subdir_entries(summary_dict, summary_base_dir, subdir_entries, entry.name, counter)
+
+        directories = []
+        for key, value in summary_dict.items():
+            directory = {
+                'relative_path': key,
+                'profiler': None,
+                'create_time': value['ctime'],
+                'update_time': value['mtime'],
+            }
+            profiler = value.get('profiler')
+            if profiler is not None:
+                directory['profiler'] = {
+                    'directory': profiler['directory'],
+                    'create_time': profiler['ctime'],
+                    'update_time': profiler['mtime'],
+                }
+            directories.append(directory)

        # sort by update time in descending order and relative path in ascending order
        directories.sort(key=lambda x: (-int(x['update_time'].timestamp()), x['relative_path']))

        return directories

-    def _scan_subdir_entries(self, summary_dict, subdir_entries, entry_name, counter):
+    def _scan_subdir_entries(self, summary_dict, summary_base_dir, subdir_entries, entry_name, counter):
        """
        Scan subdir entries.

        Args:
            summary_dict (dict): Temporary data structure to hold summary directory info.
-            subdir_entries(DirEntry): Directory entry instance.
+            summary_base_dir (str): Path of summary base directory.
            entry_name (str): Name of entry.
+            subdir_entries(DirEntry): Directory entry instance.
            counter (Counter): An instance of CountLimiter.

        """
@@ -139,8 +154,7 @@ class SummaryWatcher:
            subdir_relative_path = os.path.join('.', entry_name)
            if subdir_entry.is_symlink():
                pass
-            elif subdir_entry.is_file():
-                self._update_summary_dict(summary_dict, subdir_relative_path, subdir_entry)
+            self._update_summary_dict(summary_dict, summary_base_dir, subdir_relative_path, subdir_entry)

    def _contains_null_byte(self, **kwargs):
        """
@@ -194,40 +208,62 @@ class SummaryWatcher:

        return True

-    def _update_summary_dict(self, summary_dict, relative_path, entry):
+    def _update_summary_dict(self, summary_dict, summary_base_dir, relative_path, entry):
        """
        Update summary_dict with ctime and mtime.

        Args:
            summary_dict (dict): Temporary data structure to hold summary directory info.
+            summary_base_dir (str): Path of summary base directory.
            relative_path (str): Relative path of summary directory, referring to summary base directory,
                                starting with "./" .
            entry (DirEntry): Directory entry instance needed to check with regular expression.
        """
-        summary_pattern = re.search(self.SUMMARY_FILENAME_REGEX, entry.name)
-        pb_pattern = re.search(self.PB_FILENAME_REGEX, entry.name)
-        if summary_pattern is None and pb_pattern is None:
-            return
+        ctime = datetime.datetime.fromtimestamp(entry.stat().st_ctime).astimezone()
+        mtime = datetime.datetime.fromtimestamp(entry.stat().st_mtime).astimezone()

-        if summary_pattern is not None:
-            timestamp = int(summary_pattern.groupdict().get('timestamp'))
-            try:
-                # extract created time from filename
-                ctime = datetime.datetime.fromtimestamp(timestamp).astimezone()
-            except OverflowError:
+        if entry.is_file():
+            summary_pattern = re.search(self.SUMMARY_FILENAME_REGEX, entry.name)
+            pb_pattern = re.search(self.PB_FILENAME_REGEX, entry.name)
+            if summary_pattern is None and pb_pattern is None:
+                return
+            if summary_pattern is not None:
+                timestamp = int(summary_pattern.groupdict().get('timestamp'))
+                try:
+                    # extract created time from filename
+                    ctime = datetime.datetime.fromtimestamp(timestamp).astimezone()
+                except OverflowError:
+                    return
+            if relative_path not in summary_dict:
+                summary_dict[relative_path] = {
+                    'ctime': ctime,
+                    'mtime': mtime,
+                    'profiler': None,
+                }
+            elif summary_dict[relative_path]['ctime'] < ctime:
+                summary_dict[relative_path].update({
+                    'ctime': ctime,
+                    'mtime': mtime,
+                })
+        elif entry.is_dir():
+            profiler_pattern = re.search(self.PROFILER_DIRECTORY_REGEX, entry.name)
+            full_dir_path = os.path.join(summary_base_dir, relative_path, entry.name)
+            if profiler_pattern is None or self._is_empty_directory(full_dir_path):
                return
-        else:
-            ctime = datetime.datetime.fromtimestamp(entry.stat().st_ctime).astimezone()
-
-        # extract modified time from filesystem
-        mtime = datetime.datetime.fromtimestamp(entry.stat().st_mtime).astimezone()

-        if relative_path not in summary_dict or summary_dict[relative_path]['ctime'] < ctime:
-            summary_dict[relative_path] = {
+            profiler = {
+                'directory': os.path.join('.', entry.name),
                'ctime': ctime,
                'mtime': mtime,
            }

+            if relative_path not in summary_dict:
+                summary_dict[relative_path] = {
+                    'ctime': ctime,
+                    'mtime': mtime,
+                    'profiler': profiler,
+                }
+
    def is_summary_directory(self, summary_base_dir, relative_path):
        """
        Check if the given summary directory is valid.
@@ -259,15 +295,28 @@ class SummaryWatcher:
            raise FileSystemPermissionError('Path of summary base directory is not accessible.')

        for entry in entries:
-            if entry.is_symlink() or not entry.is_file():
+            if entry.is_symlink():
                continue
+
            summary_pattern = re.search(self.SUMMARY_FILENAME_REGEX, entry.name)
+            if summary_pattern is not None and entry.is_file():
+                return True
+
            pb_pattern = re.search(self.PB_FILENAME_REGEX, entry.name)
-            if summary_pattern or pb_pattern:
+            if pb_pattern is not None and entry.is_file():
                return True

+            profiler_pattern = re.search(self.PROFILER_DIRECTORY_REGEX, entry.name)
+            if profiler_pattern is not None and entry.is_dir():
+                full_path = os.path.realpath(os.path.join(summary_directory, entry.name))
+                if not self._is_empty_directory(full_path):
+                    return True
+
        return False

+    def _is_empty_directory(self, directory):
+        return not bool(os.listdir(directory))
+
    def list_summary_directories_by_pagination(self, summary_base_dir, offset=0, limit=10):
        """
        List summary directories within base directory.

--- a/mindinsight/datavisual/processors/scalars_processor.py
+++ b/mindinsight/datavisual/processors/scalars_processor.py
@@ -13,7 +13,10 @@
 # limitations under the License.
 # ============================================================================
 """Scalar Processor APIs."""
-from mindinsight.utils.exceptions import ParamValueError
+from urllib.parse import unquote
+
+from mindinsight.utils.exceptions import ParamValueError, UrlDecodeError
+from mindinsight.datavisual.utils.tools import if_nan_inf_to_none
 from mindinsight.datavisual.common.exceptions import ScalarNotExistError
 from mindinsight.datavisual.common.validation import Validation
 from mindinsight.datavisual.processors.base_processor import BaseProcessor
@@ -46,3 +49,47 @@ class ScalarsProcessor(BaseProcessor):
                'step': tensor.step,
                'value': tensor.value})
        return dict(metadatas=job_response)
+
+    def get_scalars(self, train_ids, tags):
+        """
+        Get scalar data for given train_ids and tags.
+
+        Args:
+            train_ids (list): Specify list of train job ID.
+            tags (list): Specify list of tags.
+
+        Returns:
+            list[dict], a list of dictionaries containing the `wall_time`, `step`, `value` for each scalar.
+        """
+        for index, train_id in enumerate(train_ids):
+            try:
+                train_id = unquote(train_id, errors='strict')
+            except UnicodeDecodeError:
+                raise UrlDecodeError('Unquote train id error with strict mode')
+            else:
+                train_ids[index] = train_id
+
+        scalars = []
+        for train_id in train_ids:
+            for tag in tags:
+                try:
+                    tensors = self._data_manager.list_tensors(train_id, tag)
+                except ParamValueError:
+                    continue
+
+                scalar = {
+                    'train_id': train_id,
+                    'tag': tag,
+                    'values': [],
+                }
+
+                for tensor in tensors:
+                    scalar['values'].append({
+                        'wall_time': tensor.wall_time,
+                        'step': tensor.step,
+                        'value': if_nan_inf_to_none('scalar_value', tensor.value),
+                    })
+
+                scalars.append(scalar)
+
+        return scalars
--- a/mindinsight/datavisual/processors/train_task_manager.py
+++ b/mindinsight/datavisual/processors/train_task_manager.py
@@ -14,11 +14,13 @@
 # ============================================================================
 """Train task manager."""

+from mindinsight.datavisual.common.log import logger
 from mindinsight.datavisual.common import exceptions
 from mindinsight.datavisual.common.enums import PluginNameEnum
 from mindinsight.datavisual.common.validation import Validation
 from mindinsight.datavisual.processors.base_processor import BaseProcessor
 from mindinsight.datavisual.data_transform.data_manager import DATAVISUAL_PLUGIN_KEY, DATAVISUAL_CACHE_KEY
+from mindinsight.datavisual.data_transform.data_manager import CacheStatus


 class TrainTaskManager(BaseProcessor):
@@ -75,3 +77,78 @@ class TrainTaskManager(BaseProcessor):
        return dict(
            plugins=plugins
        )
+
+    def query_train_jobs(self, offset=0, limit=10):
+        """
+        Query train jobs.
+
+        Args:
+            offset (int): Specify page number. Default is 0.
+            limit (int): Specify page size. Default is 10.
+
+        Returns:
+            tuple, return quantity of total train jobs and list of train jobs specified by offset and limit.
+        """
+        brief_cache = self._data_manager.get_brief_cache()
+        brief_train_jobs = list(brief_cache.get_train_jobs().values())
+        brief_train_jobs.sort(key=lambda x: x.basic_info.update_time, reverse=True)
+        total = len(brief_train_jobs)
+
+        start = offset * limit
+        end = (offset + 1) * limit
+        train_jobs = []
+
+        train_ids = [train_job.basic_info.train_id for train_job in brief_train_jobs[start:end]]
+
+        for train_id in train_ids:
+            try:
+                train_job = self._data_manager.get_train_job(train_id)
+            except exceptions.TrainJobNotExistError:
+                logger.warning('Train job %s not existed', train_id)
+                continue
+
+            basic_info = train_job.get_basic_info()
+            train_job_item = dict(
+                train_id=basic_info.train_id,
+                relative_path=basic_info.train_id,
+                create_time=basic_info.create_time.strftime('%Y-%m-%d %H:%M:%S'),
+                update_time=basic_info.update_time.strftime('%Y-%m-%d %H:%M:%S'),
+                profiler_dir=basic_info.profiler_dir,
+                cache_status=train_job.cache_status.value,
+            )
+            plugins = self.get_plugins(train_id)
+            train_job_item.update(plugins)
+            train_jobs.append(train_job_item)
+
+        return total, train_jobs
+
+    def cache_train_jobs(self, train_ids):
+        """
+        Cache train jobs.
+
+        Args:
+            train_ids (list): Specify list of train_ids to be cached.
+
+        Returns:
+            dict, indicates train job ID and its current cache status.
+        """
+        brief_cache = self._data_manager.get_brief_cache()
+        brief_train_jobs = brief_cache.get_train_jobs()
+
+        for train_id in train_ids:
+            brief_train_job = brief_train_jobs.get(train_id)
+            if brief_train_job is None:
+                raise exceptions.TrainJobNotExistError(f'Train id {train_id} not exists')
+
+        cache_result = []
+        for train_id in train_ids:
+            brief_train_job = brief_train_jobs.get(train_id)
+            if brief_train_job.cache_status.value == CacheStatus.NOT_IN_CACHE.value:
+                self._data_manager.cache_train_job(train_id)
+
+            cache_result.append({
+                'train_id': train_id,
+                'cache_status': brief_train_job.cache_status.value,
+            })
+
+        return cache_result