Reset parallel.loadmanager in EngineTestRunner after every data loading #517

ptim0626 · 2023-12-01T14:20:50Z

This PR resets parallel.loadmanager after a test running through EngineTestRunner is completed, ensuring the sub-division of data is consistent among tests.

This is necessary because when the data is divided into blocks, it uses the same instance of parallel.loadmanager and the calculation of partition depends on self.load, which has been modified in-place by the previous loading. This is fine for normal reconstruction (not strictly for stochastic-type however), but not for comparing among tests when consistency is desired.

This small script using the MoonFlowerScan scan illustrates the difference:

from ptypy import utils as u
from ptypy.core import Ptycho
from ptypy.utils import parallel


def construct(reset=False):
    p = u.Param()
    p.scans = u.Param()
    p.scans.MF = u.Param()
    p.scans.MF.name = 'BlockFull'
    p.scans.MF.propagation = 'farfield'
    p.scans.MF.data = u.Param()
    p.scans.MF.data.name = 'MoonFlowerScan'
    p.scans.MF.data.num_frames = 200

    P = Ptycho(p, level=2)

    if reset:
        parallel.loadmanager.reset()

    return P

if __name__ == '__main__':
    for _ in range(5):
        P = construct(reset=False)
        active = [p.active for _, p in P.pods.items()]
        print(f'[{parallel.rank}] {sum(active)}')
        parallel.barrier()
        if parallel.master:
            print('----------')
        parallel.barrier()

When executing with 4 MPI ranks, you would get something similar to this:

[1] 40
[2] 40
[3] 41
[0] 40
----------
[3] 40
[1] 40
[2] 41
[0] 40
----------
[2] 40
[3] 40
[1] 41
[0] 40
----------
[2] 40
[3] 40
[0] 41
[1] 40
----------
[1] 40
[3] 41
[2] 40
[0] 40
----------

Note the number 41, the number of active pods, belongs to different rank when this is executed sequentially in a for-loop. This should not happen in testing. Changing to reset=True in the above script givies

[0] 40
[3] 41
[1] 40
[2] 40
----------
[3] 41
[1] 40
[2] 40
[0] 40
----------
[2] 40
[3] 41
[0] 40
[1] 40
----------
[2] 40
[1] 40
[0] 40
[3] 41
----------
[3] 41
[1] 40
[0] 40
[2] 40
----------

… data afterwards

Reset parallel.loadmanager after a test to ensure same subdividing of…

6e9beae

… data afterwards

ptim0626 changed the title ~~Reset parallel.loadmanager in EngineTestRunner after each test completion~~ Reset parallel.loadmanager in EngineTestRunner after every data loading Dec 1, 2023

daurer merged commit b2cf5d8 into dev Dec 15, 2023
4 checks passed

daurer deleted the reset_parallel_loadmanager branch December 15, 2023 16:17

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Reset parallel.loadmanager in EngineTestRunner after every data loading #517

Reset parallel.loadmanager in EngineTestRunner after every data loading #517

ptim0626 commented Dec 1, 2023 •

edited

Loading

Reset parallel.loadmanager in EngineTestRunner after every data loading #517

Reset parallel.loadmanager in EngineTestRunner after every data loading #517

Conversation

ptim0626 commented Dec 1, 2023 • edited Loading

ptim0626 commented Dec 1, 2023 •

edited

Loading