%%time
import anndata as ad             # For reading/writing AnnData files
import matplotlib.pyplot as plt  # For plotting
import metacells as mc           # The Metacells package
import numpy as np               # For array/matrix operations
import pandas as pd              # For data frames
import os                        # For filesystem operations
import seaborn as sb             # For plotting
import scipy.sparse as sp        # For sparse matrices
import shutil                    # for filesystem operations
from math import hypot           # For plotting
from typing import *             # For type annotations

CPU times: user 6.59 s, sys: 9.98 s, total: 16.6 s
Wall time: 5.82 s


%%time

# Use SVG for scalable low-element-count diagrams.
%config InlineBackend.figure_formats = ["svg"]

# A matter of personal preference.
sb.set_style("white")

# Running operations on an inefficient layout can make code **much** slower.
# For example, summing the columns of a row-major matrix.
# By default this will just be a warning.
# We set it to be an error here to make sure the vignette does not lead you astray.
#
# Note that this only affects the Metacells package.
# Numpy will happily and silently take 100x longer for running such inefficient operations.
# At least, there's no way I can tell to create a warning or error for this;
# also, the implementation for "inefficient" operations could be *much* faster.
#
# The workaround in either case is to explicitly re-layout the 2D matrix before the operations.
# This turns out to be much faster, especially when the matrix can be reused.
# Note that numpy is also very slow when doing matrix re-layout,
# so the metacells package provides a function for doing it more efficiently.
#
# Sigh.
mc.ut.allow_inefficient_layout(False)

CPU times: user 6.09 ms, sys: 0 ns, total: 6.09 ms
Wall time: 5.99 ms

True


%%time
shutil.rmtree("../output/iterative", ignore_errors=True)
shutil.rmtree("../mcview/iterative", ignore_errors=True)
os.makedirs("../output/iterative/iteration-1/figures", exist_ok=True)
os.makedirs("../output/iterative/iteration-2", exist_ok=True)
os.makedirs("../output/iterative/iteration-3", exist_ok=True)
os.makedirs("../output/iterative/iteration-4", exist_ok=True)
os.makedirs("../output/iterative/final", exist_ok=True)

CPU times: user 3.58 ms, sys: 2.93 s, total: 2.93 s
Wall time: 11.3 s


%%time
full = ad.read_h5ad("../blobs/hca_bm.full.h5ad")
mc.ut.top_level(full)
mc.ut.set_name(full, "hca_bm.full")
print(f"Full: {full.n_obs} cells, {full.n_vars} genes")

Full: 378000 cells, 33694 genes
CPU times: user 382 ms, sys: 27.4 s, total: 27.8 s
Wall time: 48.7 s


PROPERLY_SAMPLED_MIN_CELL_TOTAL = 800
PROPERLY_SAMPLED_MAX_CELL_TOTAL = 20000


%%time
total_umis_per_cell = mc.ut.get_o_numpy(full, "__x__", sum=True)
plot = sb.displot(total_umis_per_cell, log_scale=(10, None))
plot.set(xlabel="UMIs", ylabel="Density", yticks=[])

plot.refline(x=PROPERLY_SAMPLED_MIN_CELL_TOTAL, color="darkgreen")
plot.refline(x=PROPERLY_SAMPLED_MAX_CELL_TOTAL, color="crimson")

plt.savefig("../output/iterative/iteration-1/figures/cell_total_umis.svg")

too_small_cells_count = np.sum(total_umis_per_cell < PROPERLY_SAMPLED_MIN_CELL_TOTAL)
too_large_cells_count = np.sum(total_umis_per_cell > PROPERLY_SAMPLED_MAX_CELL_TOTAL)

total_umis_per_cell = mc.ut.get_o_numpy(full, name="__x__", sum=True)
too_small_cells_percent = 100.0 * too_small_cells_count / full.n_obs
too_large_cells_percent = 100.0 * too_large_cells_count / full.n_vars

print(
    f"Will exclude {too_small_cells_count} ({too_small_cells_percent:.2f}%%) cells"
    f" with less than {PROPERLY_SAMPLED_MIN_CELL_TOTAL} UMIs"
)
print(
    f"Will exclude {too_large_cells_count} ({too_large_cells_percent:.2f}%%) cells"
    f" with more than {PROPERLY_SAMPLED_MAX_CELL_TOTAL} UMIs"
)

Will exclude 66232 (17.52%%) cells with less than 800 UMIs
Will exclude 8672 (25.74%%) cells with more than 20000 UMIs
CPU times: user 5.2 s, sys: 575 ms, total: 5.77 s
Wall time: 5.14 s


EXCLUDED_GENE_NAMES = ["XIST", "MALAT1"]  # Sex-specific genes.
EXCLUDED_GENE_PATTERNS = ["MT-.*"]        # Mitochondrial.


%%time
mc.pl.exclude_genes(
    full,
    excluded_gene_names=EXCLUDED_GENE_NAMES, 
    excluded_gene_patterns=EXCLUDED_GENE_PATTERNS,
    random_seed=123456,
)

set hca_bm.full.var[bursty_lonely_gene]: 0 true (0%) out of 33694 bools
set hca_bm.full.var[properly_sampled_gene]: 27277 true (80.96%) out of 33694 bools
set hca_bm.full.var[excluded_gene]: 6432 true (19.09%) out of 33694 bools

CPU times: user 38.6 s, sys: 19.5 s, total: 58.1 s
Wall time: 43.5 s


%%time
mc.tl.compute_excluded_gene_umis(full)

set hca_bm.full.obs[excluded_umis]: 378000 float32s

CPU times: user 5.02 s, sys: 7.27 s, total: 12.3 s
Wall time: 12.3 s


PROPERLY_SAMPLED_MAX_EXCLUDED_GENES_FRACTION = 0.25


%%time
excluded_umis_fraction_regularization = 1e-3  # Avoid 0 values in log scale plot.
excluded_umis_per_cell = mc.ut.get_o_numpy(full, "excluded_umis")
excluded_umis_fraction_per_cell = excluded_umis_per_cell / total_umis_per_cell

excluded_umis_fraction_per_cell += excluded_umis_fraction_regularization
plot = sb.displot(excluded_umis_fraction_per_cell, log_scale=(10, None))
excluded_umis_fraction_per_cell -= excluded_umis_fraction_regularization

plot.set(xlabel="Fraction of excluded gene UMIs", ylabel="Density", yticks=[])
plot.refline(x=PROPERLY_SAMPLED_MAX_EXCLUDED_GENES_FRACTION, color="crimson")

plt.savefig("../output/iterative/iteration-1/figures/cell_excluded_umis_fraction.svg")

too_excluded_cells_count = np.sum(
    excluded_umis_fraction_per_cell > PROPERLY_SAMPLED_MAX_EXCLUDED_GENES_FRACTION
)
too_excluded_cells_fraction = too_excluded_cells_count / len(total_umis_per_cell)

print(
    f"Will exclude {too_excluded_cells_count} ({100 * too_excluded_cells_fraction:.2f}%) cells"
    f" with more than {100 * PROPERLY_SAMPLED_MAX_EXCLUDED_GENES_FRACTION:.2f}% excluded gene UMIs"
)

Will exclude 36306 (9.60%) cells with more than 25.00% excluded gene UMIs
CPU times: user 1.28 s, sys: 616 ms, total: 1.9 s
Wall time: 1.45 s


%%time
mc.pl.exclude_cells(
    full,
    properly_sampled_min_cell_total=PROPERLY_SAMPLED_MIN_CELL_TOTAL,
    properly_sampled_max_cell_total=PROPERLY_SAMPLED_MAX_CELL_TOTAL,
    properly_sampled_max_excluded_genes_fraction=PROPERLY_SAMPLED_MAX_EXCLUDED_GENES_FRACTION,
)

set hca_bm.full.obs[properly_sampled_cell]: 297890 true (78.81%) out of 378000 bools
set hca_bm.full.obs[excluded_cell]: 80110 true (21.19%) out of 378000 bools

CPU times: user 4.23 ms, sys: 267 µs, total: 4.5 ms
Wall time: 3.58 ms


%%time
clean = mc.pl.extract_clean_data(full, name="hca_bm.iteration-1.clean")
mc.ut.top_level(clean)
print(f"Clean: {clean.n_obs} cells, {clean.n_vars} genes")

set hca_bm.iteration-1.clean.obs[full_cell_index]: 297890 int32s
set hca_bm.iteration-1.clean.var[full_gene_index]: 27262 int32s

Clean: 297890 cells, 27262 genes
CPU times: user 26.7 s, sys: 22.1 s, total: 48.8 s
Wall time: 48.8 s


%%time
full.write_h5ad("../output/iterative/iteration-1/hca_bm.full.h5ad")
full = None  # Alow it to be gc-ed

CPU times: user 665 ms, sys: 28.6 s, total: 29.3 s
Wall time: 1min 22s


%%time
clean.write_h5ad("../output/iterative/iteration-1/hca_bm.clean.h5ad")

CPU times: user 313 ms, sys: 21.5 s, total: 21.8 s
Wall time: 1min 4s


%%time
cells = clean
clean = None  # Allow it to be gc-ed
mc.ut.set_name(cells, "hca_bm.iteration-1.cells")
print(f"Iteration 1: {cells.n_obs} cells, {cells.n_vars} genes")

Iteration 1: 297890 cells, 27262 genes
CPU times: user 33 µs, sys: 54 µs, total: 87 µs
Wall time: 79.6 µs


BASE_LATERAL_GENE_NAMES = [
    "AURKA", "MCM3", "MCM4", "MCM7", "MKI67", "PCNA", "RRM2", "SMC4", "TPX2",  # Cell-cycle
    "FOS", "HSP90AB1", "TXN",                                                  # Stress
]
BASE_LATERAL_GENE_PATTERNS = ["RP[LS].*"]  # Ribosomal


%%time

# We'll reuse this through the iterations.
# It is just a thin wrapper for mark_lateral_genes,
# and optionally also shows the results.
def update_lateral_genes(
    *,
    names: List[str] = [],
    patterns: List[str] = [],
    op: str = "set",
    show: bool = True
) -> None:
    mc.pl.mark_lateral_genes(
        cells,
        lateral_gene_names=names,
        lateral_gene_patterns=patterns,
        op=op
    )

    if not show:
        return
    
    lateral_genes_mask = mc.ut.get_v_numpy(cells, "lateral_gene")
    lateral_gene_names = set(cells.var_names[lateral_genes_mask])
    
    print(sorted([
        name for name in lateral_gene_names
        if not name.startswith("RPL") and not name.startswith("RPS")
    ]))

    print(f"""and {len([
        name for name in lateral_gene_names if name.startswith("RPL") or name.startswith("RPS")
    ])} RP[LS].* genes""")

update_lateral_genes(names=BASE_LATERAL_GENE_NAMES, patterns=BASE_LATERAL_GENE_PATTERNS)

set hca_bm.iteration-1.cells.var[lateral_gene]: 115 true (0.4218%) out of 27262 bools

['AURKA', 'FOS', 'HSP90AB1', 'MCM3', 'MCM4', 'MCM7', 'MKI67', 'PCNA', 'RRM2', 'SMC4', 'TPX2', 'TXN']
and 103 RP[LS].* genes
CPU times: user 18.6 ms, sys: 337 µs, total: 18.9 ms
Wall time: 18.4 ms


%%time
mc.pl.relate_to_lateral_genes(cells, random_seed=123456)

set hca_bm.iteration-1.cells.var[lateral_genes_module]: 24299 outliers (89.13%) and 2963 grouped (10.87%) out of 27262 int32 elements with 76 groups with mean size 38.99
set hca_bm.iteration-1.cells.varp[lateral_genes_similarity]: csr_matrix 27262 X 27262 float32s (8779369 > 0, 1.181%)

CPU times: user 5min 21s, sys: 2.36 s, total: 5min 23s
Wall time: 16.9 s


%%time
base_lateral_genes_mask = mc.ut.get_v_numpy(cells, "lateral_gene")
base_lateral_gene_names = set(cells.var_names[base_lateral_genes_mask])

module_per_gene = mc.ut.get_v_series(cells, "lateral_genes_module")
base_lateral_gene_modules = np.unique(module_per_gene.values[base_lateral_genes_mask])
base_lateral_gene_modules = set(base_lateral_gene_modules[base_lateral_gene_modules >= 0])

genes_per_module = np.unique(module_per_gene.values, return_counts=True)[1][1:]
similarity_of_modules = mc.ut.get_vv_proper(cells, "lateral_genes_similarity")
similarity_of_modules = mc.ut.sum_groups(similarity_of_modules, module_per_gene.values, per="row")[0]
similarity_of_modules = mc.ut.to_layout(similarity_of_modules, layout="column_major")
similarity_of_modules = \
    mc.ut.sum_groups(similarity_of_modules, module_per_gene.values, per="column")[0]
similarity_of_modules /= genes_per_module[:, np.newaxis] * genes_per_module[np.newaxis, :]

module_names = [
    f"(*) {gene_module}" if gene_module in base_lateral_gene_modules else str(gene_module)
    for gene_module in range(np.max(module_per_gene.values) + 1)
]
similarity_of_modules = pd.DataFrame(similarity_of_modules, index=module_names, columns=module_names)

CPU times: user 10.1 ms, sys: 1min 57s, total: 1min 57s
Wall time: 2min 4s


%%time
size = similarity_of_modules.shape[0]
if size > 50:
    sb.set(font_scale=50 / size)
size = size * 0.15 + 1
cm = sb.clustermap(
    similarity_of_modules,
    figsize=(size, size),
    vmin=0, vmax=0.5,
    xticklabels=True, yticklabels=True,
    dendrogram_ratio=0.1,
    cmap="YlGnBu",
)
cm.fig.suptitle("Gene Modules Summary", fontsize=10)

plt.savefig("../output/iterative/iteration-1/figures/genes_modules_correlations.svg")

plt.show()
sb.set(font_scale=1.0)

CPU times: user 4.21 s, sys: 13.5 s, total: 17.7 s
Wall time: 12.7 s


%%time
SHOW_CORRELATED_MODULES = 0.2 # Show non-lateral modules if correlated to lateral modules.
MIN_SIMILARITY_TO_SHOW = 0.2 # Show modules only if there's at least this correlation

base_lateral_gene_modules = np.unique(module_per_gene.values[base_lateral_genes_mask])
base_lateral_gene_modules = base_lateral_gene_modules[base_lateral_gene_modules >= 0]
similarity_of_genes = mc.ut.get_vv_frame(cells, "lateral_genes_similarity")

for gene_module in range(np.max(module_per_gene) + 1):
    module_genes_mask = module_per_gene.values == gene_module
    similarity_of_module = similarity_of_genes.loc[module_genes_mask, module_genes_mask]
    similarity_of_module.index = similarity_of_module.columns = [
        "(*) " + name if name in base_lateral_gene_names else name
        for name in similarity_of_module.index
    ]
    
    mask = similarity_of_module.values.copy()
    np.fill_diagonal(mask, 0.0)
    max_value = np.max(mask)
    show_in_notebook = gene_module in base_lateral_gene_modules or max_value >= MIN_SIMILARITY_TO_SHOW
 
    similarity_to_laterals = similarity_of_modules.iloc[gene_module, base_lateral_gene_modules]
    similar_lateral_modules_mask = similarity_to_laterals >= SHOW_CORRELATED_MODULES
    similar_lateral_modules = base_lateral_gene_modules[np.where(similar_lateral_modules_mask)[0]]
    if gene_module not in base_lateral_gene_modules and len(similar_lateral_modules) == 0:
        show_in_notebook = False
        
    prefix = "(*) " if gene_module in base_lateral_gene_modules else ""
    suffix = ", ".join([
        str(similar_lateral_module)
        for similar_lateral_module
        in similar_lateral_modules
        if similar_lateral_module != gene_module
    ])
    if suffix != "":
        suffix = " ~ " + suffix
    title = f"{prefix}Gene Module {gene_module}{suffix}"
        
    if len(similar_lateral_modules) > 0:
        with_lateral_modules = set(similar_lateral_modules)
        with_lateral_modules.add(gene_module)
        with_lateral_modules = sorted(with_lateral_modules)
        if len(with_lateral_modules) > 1:
            similarity_with_module = \
                similarity_of_modules.iloc[with_lateral_modules, :].iloc[:, with_lateral_modules]

            size = similarity_with_module.shape[0]
            if size > 50:
                sb.set(font_scale=50 / size)
            size = size * 0.15 + 1
            cm = sb.clustermap(
                similarity_with_module,
                figsize=(size, size),
                vmin=0, vmax=0.5,
                xticklabels=True, yticklabels=True,
                dendrogram_ratio=0.1,
                cmap="YlGnBu",
            )
            cm.fig.suptitle(title, fontsize=10)
            plt.savefig(f"../output/iterative/iteration-1/figures/genes_module_{gene_module}_modules.svg")
            if show_in_notebook:
                plt.show()
            else:
                plt.clf()

    size = similarity_of_module.shape[0]
    if size > 50:
        sb.set(font_scale=50 / size)
    size = size * 0.15 + 1
    cm = sb.clustermap(
        similarity_of_module,
        figsize=(size, size),
        vmin=0, vmax=0.5,
        xticklabels=True, yticklabels=True,
        dendrogram_ratio=0.1,
        cmap="YlGnBu",
    )
    cm.fig.suptitle(title, fontsize=10)
    plt.savefig(f"../output/iterative/iteration-1/figures/genes_module_{gene_module}_genes.svg")
    if show_in_notebook:
        plt.show()
    else:
        plt.clf()

<Figure size 136.8x136.8 with 0 Axes>

<Figure size 180x180 with 0 Axes>

<Figure size 147.6x147.6 with 0 Axes>

<Figure size 277.2x277.2 with 0 Axes>

<Figure size 190.8x190.8 with 0 Axes>

<Figure size 428.4x428.4 with 0 Axes>

<Figure size 266.4x266.4 with 0 Axes>

<Figure size 676.8x676.8 with 0 Axes>

<Figure size 633.6x633.6 with 0 Axes>

<Figure size 471.6x471.6 with 0 Axes>


LATERAL_GENE_MODULES = [
    66, 71,  # Ribosomal.
    75,      # Cell-cycle, with some exceptions (erythrocytes).
]
SPECIFIC_LATERAL_GENES = ["DUSP1"]  # Stress
SPECIFIC_NON_LATERAL_GENES = [ # Excluded from 75, erythrocytes
    "AHSP", "ALAS2", "BLVRB", "CA1", "CA2", "GYPA", "GYPB", "HBA1", "HBA2", "HBB", "HBD", "HBM",
    "HMBS", "MYL4", "PRDX2", "SLC25A37", "SLC4A1", "SMIM1", "SNCA"
]


%%time
for gene_module in LATERAL_GENE_MODULES:
    module_genes_mask = module_per_gene == gene_module
    update_lateral_genes(names=cells.var_names[module_genes_mask], op="add", show=False)
update_lateral_genes(names=SPECIFIC_LATERAL_GENES, op="add", show=False)
update_lateral_genes(names=SPECIFIC_NON_LATERAL_GENES, op="remove")

set hca_bm.iteration-1.cells.var[lateral_gene]: 116 true (0.4255%) out of 27262 bools
set hca_bm.iteration-1.cells.var[lateral_gene]: 122 true (0.4475%) out of 27262 bools
set hca_bm.iteration-1.cells.var[lateral_gene]: 179 true (0.6566%) out of 27262 bools
set hca_bm.iteration-1.cells.var[lateral_gene]: 180 true (0.6603%) out of 27262 bools
set hca_bm.iteration-1.cells.var[lateral_gene]: 161 true (0.5906%) out of 27262 bools

['ANP32B', 'AURKA', 'BIRC5', 'CD63', 'CENPF', 'CENPU', 'CENPW', 'CKS1B', 'CKS2', 'DUSP1', 'DUT', 'EEF1A1', 'EEF1B2', 'EIF3E', 'FOS', 'GGH', 'GLTSCR2', 'GMNN', 'H2AFZ', 'HIST1H4C', 'HMGA1', 'HMGB1', 'HMGB2', 'HMGB3', 'HMGN2', 'HNRNPAB', 'HSP90AA1', 'HSP90AB1', 'HSPD1', 'KIAA0101', 'LTB', 'MCM3', 'MCM4', 'MCM7', 'MKI67', 'MYL6', 'NASP', 'NUSAP1', 'PCNA', 'PTTG1', 'RAN', 'RANBP1', 'RP11-620J15.3', 'RRM2', 'SMC4', 'STMN1', 'TK1', 'TOP2A', 'TPX2', 'TUBA1B', 'TUBB', 'TUBB4B', 'TXN', 'TYMS', 'UBE2C', 'UHRF1', 'YBX1', 'ZWINT']
and 103 RP[LS].* genes
CPU times: user 37.3 ms, sys: 224 µs, total: 37.6 ms
Wall time: 36.5 ms


%%time
# Either use the guesstimator:
max_parallel_piles = mc.pl.guess_max_parallel_piles(cells)
# Or, if running out of memory manually override:
# max_paralle_piles = ...
print(max_parallel_piles)
mc.pl.set_max_parallel_piles(max_parallel_piles)

497
CPU times: user 8.54 s, sys: 11.1 s, total: 19.6 s
Wall time: 19.6 s


%%time
with mc.ut.progress_bar():
    mc.pl.divide_and_conquer_pipeline(cells, random_seed=123456)

Detect rare gene modules...
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉[06:34]

CPU times: user 3min 27s, sys: 3min 6s, total: 6min 33s
Wall time: 7min 27s


%%time
metacells = mc.pl.collect_metacells(cells, name="hca_bm.iteration-1.metacells", random_seed=123456)
print(f"Iteration 1: {metacells.n_obs} metacells, {metacells.n_vars} genes")

set hca_bm.iteration-1.metacells.obs[grouped]: 3151 int64s
set hca_bm.iteration-1.metacells.obs[total_umis]: 3151 float64s
set hca_bm.iteration-1.metacells.layers[total_umis]: ndarray 3151 X 27262 float32s
set hca_bm.iteration-1.metacells.obs[__zeros_downsample_umis]: 3151 int64s
set hca_bm.iteration-1.metacells.layers[zeros]: ndarray 3151 X 27262 int32s
set hca_bm.iteration-1.cells.obs[metacell_name]: 297890 <U8s
set hca_bm.iteration-1.metacells.var[gene_ids]: 27262 objects
set hca_bm.iteration-1.metacells.var[bursty_lonely_gene]: 0 true (0%) out of 27262 bools
set hca_bm.iteration-1.metacells.var[properly_sampled_gene]: 27262 true (100%) out of 27262 bools
set hca_bm.iteration-1.metacells.var[excluded_gene]: 0 true (0%) out of 27262 bools
set hca_bm.iteration-1.metacells.var[full_gene_index]: 27262 int32s
set hca_bm.iteration-1.metacells.var[lateral_gene]: 161 true (0.5906%) out of 27262 bools
set hca_bm.iteration-1.metacells.var[lateral_genes_module]: 27262 int32s
set hca_bm.iteration-1.metacells.var[selected_gene]: 3542 true (12.99%) out of 27262 bools
set hca_bm.iteration-1.metacells.var[rare_gene]: 72 true (0.2641%) out of 27262 bools
set hca_bm.iteration-1.metacells.var[rare_gene_module]: 27262 int32s
set hca_bm.iteration-1.metacells.obs[metacells_rare_gene_module]: 3151 int32s
set hca_bm.iteration-1.metacells.obs[rare_metacell]: 16 true (0.5078%) out of 3151 bools
set hca_bm.iteration-1.metacells.uns[outliers]: 110
set hca_bm.iteration-1.metacells.uns[metacells_algorithm]: metacells.0.9.0-dev.1

Iteration 1: 3151 metacells, 27262 genes
CPU times: user 8.76 s, sys: 46.5 s, total: 55.3 s
Wall time: 1min 6s


%%time

# We'll reuse this through the iterations.
def convey_cell_annotations_to_metacells() -> None:
    
    # Assign a single value for each metacell based on the cells.
    mc.tl.convey_obs_to_group(
        adata=cells, gdata=metacells,
        property_name="donor_organism.organism_age", to_property_name="sex",
        method=mc.ut.most_frequent  # This is the default, for categorical data
    )
    mc.tl.convey_obs_to_group(
        adata=cells, gdata=metacells,
        property_name="donor_organism.organism_age", to_property_name="age",
        method=np.mean
    )

    # Compute the fraction of cells with each possible value in each metacell:
    mc.tl.convey_obs_fractions_to_group(
        adata=cells, gdata=metacells,
        property_name="donor_organism.sex", to_property_name="sex"
    )

    # Age has just a few possible values so treat it as categorical.
    mc.tl.convey_obs_fractions_to_group(
        adata=cells, gdata=metacells,
        property_name="donor_organism.organism_age", to_property_name="age"
    )
    
    mc.tl.convey_obs_fractions_to_group(adata=cells, gdata=metacells, property_name="donor")
    mc.tl.convey_obs_fractions_to_group(adata=cells, gdata=metacells, property_name="batch")
    
convey_cell_annotations_to_metacells()

set hca_bm.iteration-1.metacells.obs[sex]: 3151 float32s
set hca_bm.iteration-1.metacells.obs[age]: 3151 float32s
set hca_bm.iteration-1.metacells.obs[sex_fraction_of_female]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[sex_fraction_of_male]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[age_fraction_of_26.0]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[age_fraction_of_29.0]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[age_fraction_of_32.0]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[age_fraction_of_36.0]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[age_fraction_of_39.0]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[age_fraction_of_50.0]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[age_fraction_of_52.0]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[donor_fraction_of_MantonBM1]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[donor_fraction_of_MantonBM2]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[donor_fraction_of_MantonBM3]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[donor_fraction_of_MantonBM4]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[donor_fraction_of_MantonBM5]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[donor_fraction_of_MantonBM6]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[donor_fraction_of_MantonBM7]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[donor_fraction_of_MantonBM8]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_1]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_2]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_3]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_4]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_5]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_6]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_7]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_8]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_1]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_2]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_3]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_4]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_5]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_6]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_7]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_8]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_1]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_2]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_3]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_4]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_5]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_6]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_7]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_8]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_1]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_2]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_3]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_4]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_5]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_6]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_7]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_8]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_1]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_2]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_3]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_4]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_5]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_6]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_7]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_8]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_1]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_2]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_4]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_5]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_6]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_7]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_8]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_1]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_2]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_3]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_4]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_5]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_6]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_7]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_8]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_1]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_2]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_3]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_4]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_5]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_6]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_7]: 3151 float64s
set hca_bm.iteration-1.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_8]: 3151 float64s

CPU times: user 24.8 s, sys: 482 ms, total: 25.3 s
Wall time: 25.2 s


%%time
with mc.ut.progress_bar():
    mc.pl.compute_for_mcview(adata=cells, gdata=metacells, random_seed=123456)

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉[04:55]

CPU times: user 1h 18min 39s, sys: 4min 51s, total: 1h 23min 31s
Wall time: 4min 55s


%%time

# We'll reuse this through the iterations.
def plot_umap(*, type_annotation: Optional[str]) -> None:
    if type_annotation is not None:
        type_color_csv = pd.read_csv("../captured/type_colors.csv")
        color_of_type = pd.Series(
            list(type_color_csv["color"]) + ["magenta", "magenta"],
            index=list(type_color_csv["cell_type"]) + ["Outliers", "(Missing)"]
        )
        type_of_metacell = mc.ut.get_o_numpy(metacells, type_annotation)
        color_of_metacell = np.array(color_of_type[type_of_metacell])

    min_long_edge_size = 4
    umap_x = mc.ut.get_o_numpy(metacells, "x")
    umap_y = mc.ut.get_o_numpy(metacells, "y")
    umap_edges = sp.coo_matrix(mc.ut.get_oo_proper(metacells, "obs_outgoing_weights"))
    sb.set()
    if type_annotation is None:
        plot = sb.scatterplot(x=umap_x, y=umap_y, s=10)
    else:
        plot = sb.scatterplot(x=umap_x, y=umap_y, color=color_of_metacell, s=10)
    for (
        source_index, target_index, weight
    ) in zip(
        umap_edges.row, umap_edges.col, umap_edges.data
    ):
        source_x = umap_x[source_index]
        target_x = umap_x[target_index]
        source_y = umap_y[source_index]
        target_y = umap_y[target_index]
        if hypot(target_x - source_x, target_y - source_y) >= min_long_edge_size:
            plt.plot([source_x, target_x], [source_y, target_y],
                     linewidth=weight * 2, color='indigo')
    plt.show()
    
plot_umap(type_annotation=None)

CPU times: user 1.28 s, sys: 5.04 s, total: 6.32 s
Wall time: 267 ms


%%time
cells.write_h5ad("../output/iterative/iteration-1/hca_bm.cells.h5ad")

CPU times: user 584 ms, sys: 25 s, total: 25.5 s
Wall time: 53.7 s


%%time
metacells.write_h5ad("../output/iterative/iteration-1/hca_bm.metacells.h5ad")

CPU times: user 232 ms, sys: 689 ms, total: 921 ms
Wall time: 2.97 s


%%time
os.system("Rscript ../scripts/import_dataset.r hca_bm iterative/iteration-1 'HCABM IT|1'")

ℹ creating ../mcview/iterative/iteration-1
→ You can edit the app configuration at '../mcview/iterative/iteration-1/config/config.yaml'
ℹ Importing hca_bm-iterative-iteration-1
ℹ Reading '../output/iterative/iteration-1/hca_bm.metacells.h5ad'
ℹ Processing metacell matrix
ℹ Processing 2d projection
ℹ Calculating top genes per metacell (marker genes)
ℹ Calculating metacell correlations of default marker genes
50%...65%...82%...95%...100%
ℹ Processing inner-folds matrix
ℹ Calculating top inner-fold genes
→ Added the Inner-fold tab to the config file. To change the tab order or remove it - edit the tabs section at: '../mcview/iterative/iteration-1/config/config.yaml'
ℹ Processing inner-stdev matrix
ℹ Calculating top inner-stdev genes
→ Added the Stdev-fold tab to the config file. To change the tab order or remove it - edit the tabs section at: '../mcview/iterative/iteration-1/config/config.yaml'
ℹ Clustering in order to get initial annotation.
ℹ using 172 genes
ℹ clustering k = 64
ℹ number of features = 172
ℹ Generating cell type colors using chameleon package.
ℹ Coloring using pre-calculated 3D umap
ℹ Clustering in order to get gene modules. k = 31
ℹ Number of genes considered = 1000
ℹ Loading previously calculated 30 correlated and anti-correlated genes for each gene
✔ hca_bm-iterative-iteration-1 dataset imported succesfully to '../mcview/iterative/iteration-1' project
• You can now run the app using: run_app("../mcview/iterative/iteration-1")
• or create a bundle using: create_bundle("../mcview/iterative/iteration-1",
name = "name_of_bundle")

CPU times: user 20.6 ms, sys: 915 ms, total: 935 ms
Wall time: 1min 47s

0


%%time
mc.ut.set_name(cells, "hca_bm.iteration-2.cells")
print(f"Iteration 2: {cells.n_obs} cells, {cells.n_vars} genes")

Iteration 2: 297890 cells, 27262 genes
CPU times: user 102 µs, sys: 17 µs, total: 119 µs
Wall time: 113 µs


NOISY_GENE_NAMES = [
    "CCL3", "CCL4", "CCL5", "CXCL8", "DUSP1", "FOS", "G0S2", "HBB", "HIST1H4C", "IER2", "IGKC",
    "IGLC2", "JUN", "JUNB", "KLRB1", "MT2A", "RP11", "RPS26", "RPS4Y1", "TRBC1", "TUBA1B", "TUBB"
]


%%time
mc.pl.mark_noisy_genes(cells, noisy_gene_names=NOISY_GENE_NAMES)

set hca_bm.iteration-2.cells.var[noisy_gene]: 21 true (0.07703%) out of 27262 bools

CPU times: user 9.07 ms, sys: 12 µs, total: 9.08 ms
Wall time: 8.68 ms


ADD_LATERAL_GENE_NAMES = [
    "B2M", "BTG2", "CALM1", "COX4I1", "DNAJB1", "DONSON", "FTH1", "G0S2", "GNB2L1", "H3F3B", "HLA-A",
    "HLA-B", "HLA-C", "HLA-DMB", "HLA-DPA1", "HLA-DPB1", "HLA-DQB1", "HLA-DRA", "HLA-E", "HLA-F",
    "HSPA1A", "HSPA1B", "HSPA6", "HSPH1", "IER2", "IGHA1", "IGHA2", "IGHD", "IGHG3", "IGHM", "IGKC",
    "IGLC2", "IGLC3", "IGLC6", "IGLL1", "JUN", "JUNB", "LEPROTL1", "LGALS1", "MT2A", "MYL12A",
    "PDLIM1", "PLK3", "PPP1R15A", "PTMA", "RGCC", "SRSF7", "TMSB4X", "TUBA1A", "UBA52", "UBC",
    "YPEL5", "ZFP36"
]


%%time
update_lateral_genes(names=ADD_LATERAL_GENE_NAMES, op="add")

set hca_bm.iteration-2.cells.var[lateral_gene]: 214 true (0.785%) out of 27262 bools

['ANP32B', 'AURKA', 'B2M', 'BIRC5', 'BTG2', 'CALM1', 'CD63', 'CENPF', 'CENPU', 'CENPW', 'CKS1B', 'CKS2', 'COX4I1', 'DNAJB1', 'DONSON', 'DUSP1', 'DUT', 'EEF1A1', 'EEF1B2', 'EIF3E', 'FOS', 'FTH1', 'G0S2', 'GGH', 'GLTSCR2', 'GMNN', 'GNB2L1', 'H2AFZ', 'H3F3B', 'HIST1H4C', 'HLA-A', 'HLA-B', 'HLA-C', 'HLA-DMB', 'HLA-DPA1', 'HLA-DPB1', 'HLA-DQB1', 'HLA-DRA', 'HLA-E', 'HLA-F', 'HMGA1', 'HMGB1', 'HMGB2', 'HMGB3', 'HMGN2', 'HNRNPAB', 'HSP90AA1', 'HSP90AB1', 'HSPA1A', 'HSPA1B', 'HSPA6', 'HSPD1', 'HSPH1', 'IER2', 'IGHA1', 'IGHA2', 'IGHD', 'IGHG3', 'IGHM', 'IGKC', 'IGLC2', 'IGLC3', 'IGLC6', 'IGLL1', 'JUN', 'JUNB', 'KIAA0101', 'LEPROTL1', 'LGALS1', 'LTB', 'MCM3', 'MCM4', 'MCM7', 'MKI67', 'MT2A', 'MYL12A', 'MYL6', 'NASP', 'NUSAP1', 'PCNA', 'PDLIM1', 'PLK3', 'PPP1R15A', 'PTMA', 'PTTG1', 'RAN', 'RANBP1', 'RGCC', 'RP11-620J15.3', 'RRM2', 'SMC4', 'SRSF7', 'STMN1', 'TK1', 'TMSB4X', 'TOP2A', 'TPX2', 'TUBA1A', 'TUBA1B', 'TUBB', 'TUBB4B', 'TXN', 'TYMS', 'UBA52', 'UBC', 'UBE2C', 'UHRF1', 'YBX1', 'YPEL5', 'ZFP36', 'ZWINT']
and 103 RP[LS].* genes
CPU times: user 7.91 ms, sys: 0 ns, total: 7.91 ms
Wall time: 7.66 ms


%%time

def compute_next_iteration(next_iteration_index: int) -> None:

    print("# DIVIDE AND CONQUER...")
    global metacells
    metacells = None # So can be gc-ed
    mc.pl.divide_and_conquer_pipeline(cells, random_seed=123456)

    print("# COLLECT METACELLS...")
    metacells = mc.pl.collect_metacells(
        cells, name=f"hca_bm.iteration-{next_iteration_index}.metacells", random_seed=123456
    )
    print(f"Iteration {next_iteration_index}: {metacells.n_obs} metacells, {metacells.n_vars} genes")

    print("# CONVEY CELL ANNOTATIONS...")
    convey_cell_annotations_to_metacells()

def finalize_next_iteration(next_iteration_index: int, *, with_types: bool) -> None:
    print("# COMPUTE FOR MCVIEW...")
    mc.pl.compute_for_mcview(adata=cells, gdata=metacells, random_seed=123456)

    print("# PLOT UMAP...")
    if with_types:
        type_annotation = f"type.iteration-{next_iteration_index}.auto"
    else:
        type_annotation = None
    plot_umap(type_annotation=type_annotation)

    print("# SAVE CELLS...")
    cells.write_h5ad(f"../output/iterative/iteration-{next_iteration_index}/hca_bm.cells.h5ad")

    print("# SAVE METACELLS...")
    metacells.write_h5ad(f"../output/iterative/iteration-{next_iteration_index}/hca_bm.metacells.h5ad")

    print("# IMPORT TO MCVIEW...")
    os.system(
        f"Rscript ../scripts/import_dataset.r hca_bm iterative/iteration-{next_iteration_index} "
        f"'HCABM IT|{next_iteration_index}'"
    )

def next_iteration_without_types(next_iteration_index: int) -> None:
    compute_next_iteration(next_iteration_index)
    finalize_next_iteration(next_iteration_index, with_types=False)
    
next_iteration_without_types(2)

set hca_bm.iteration-2.cells.var[selected_gene]: * -> False

# DIVIDE AND CONQUER...

set hca_bm.iteration-2.cells.var[rare_gene]: 72 true (0.2641%) out of 27262 bools
set hca_bm.iteration-2.cells.var[rare_gene_module]: 27190 outliers (99.74%) and 72 grouped (0.2641%) out of 27262 int32 elements with 7 groups with mean size 10.29
set hca_bm.iteration-2.cells.obs[cells_rare_gene_module]: 296459 outliers (99.52%) and 1431 grouped (0.4804%) out of 297890 int32 elements with 7 groups with mean size 204.4
set hca_bm.iteration-2.cells.obs[rare_cell]: 1431 true (0.4804%) out of 297890 bools
set hca_bm.iteration-2.cells.var[selected_gene]: 3550 true (13.02%) out of 27262 bools
set hca_bm.iteration-2.cells.obs[metacell]: 297890 int32s
set hca_bm.iteration-2.cells.obs[dissolved]: 0 true (0%) out of 297890 bools
set hca_bm.iteration-2.cells.obs[metacell_level]: 297890 int32s

# COLLECT METACELLS...

set hca_bm.iteration-2.metacells.obs[grouped]: 3163 int64s
set hca_bm.iteration-2.metacells.obs[total_umis]: 3163 float64s
set hca_bm.iteration-2.metacells.layers[total_umis]: ndarray 3163 X 27262 float32s
set hca_bm.iteration-2.metacells.obs[__zeros_downsample_umis]: 3163 int64s
set hca_bm.iteration-2.metacells.layers[zeros]: ndarray 3163 X 27262 int32s
set hca_bm.iteration-2.cells.obs[metacell_name]: 297890 <U8s
set hca_bm.iteration-2.metacells.var[gene_ids]: 27262 objects
set hca_bm.iteration-2.metacells.var[bursty_lonely_gene]: 0 true (0%) out of 27262 bools
set hca_bm.iteration-2.metacells.var[properly_sampled_gene]: 27262 true (100%) out of 27262 bools
set hca_bm.iteration-2.metacells.var[excluded_gene]: 0 true (0%) out of 27262 bools
set hca_bm.iteration-2.metacells.var[full_gene_index]: 27262 int32s
set hca_bm.iteration-2.metacells.var[lateral_gene]: 214 true (0.785%) out of 27262 bools
set hca_bm.iteration-2.metacells.var[lateral_genes_module]: 27262 int32s
set hca_bm.iteration-2.metacells.var[selected_gene]: 3550 true (13.02%) out of 27262 bools
set hca_bm.iteration-2.metacells.var[rare_gene]: 72 true (0.2641%) out of 27262 bools
set hca_bm.iteration-2.metacells.var[rare_gene_module]: 27262 int32s
set hca_bm.iteration-2.metacells.var[noisy_gene]: 21 true (0.07703%) out of 27262 bools
set hca_bm.iteration-2.metacells.obs[metacells_rare_gene_module]: 3163 int32s
set hca_bm.iteration-2.metacells.obs[rare_metacell]: 16 true (0.5058%) out of 3163 bools
set hca_bm.iteration-2.metacells.uns[outliers]: 159
set hca_bm.iteration-2.metacells.uns[metacells_algorithm]: metacells.0.9.0-dev.1

Iteration 2: 3163 metacells, 27262 genes
# CONVEY CELL ANNOTATIONS...

set hca_bm.iteration-2.metacells.obs[sex]: 3163 float32s
set hca_bm.iteration-2.metacells.obs[age]: 3163 float32s
set hca_bm.iteration-2.metacells.obs[sex_fraction_of_female]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[sex_fraction_of_male]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[age_fraction_of_26.0]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[age_fraction_of_29.0]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[age_fraction_of_32.0]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[age_fraction_of_36.0]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[age_fraction_of_39.0]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[age_fraction_of_50.0]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[age_fraction_of_52.0]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[donor_fraction_of_MantonBM1]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[donor_fraction_of_MantonBM2]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[donor_fraction_of_MantonBM3]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[donor_fraction_of_MantonBM4]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[donor_fraction_of_MantonBM5]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[donor_fraction_of_MantonBM6]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[donor_fraction_of_MantonBM7]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[donor_fraction_of_MantonBM8]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_1]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_2]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_3]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_4]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_5]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_6]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_7]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_8]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_1]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_2]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_3]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_4]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_5]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_6]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_7]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_8]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_1]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_2]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_3]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_4]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_5]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_6]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_7]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_8]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_1]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_2]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_3]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_4]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_5]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_6]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_7]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_8]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_1]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_2]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_3]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_4]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_5]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_6]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_7]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_8]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_1]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_2]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_4]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_5]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_6]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_7]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_8]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_1]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_2]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_3]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_4]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_5]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_6]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_7]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_8]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_1]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_2]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_3]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_4]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_5]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_6]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_7]: 3163 float64s
set hca_bm.iteration-2.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_8]: 3163 float64s
set hca_bm.iteration-2.metacells.uns[mcview_format]: 1.0
set hca_bm.iteration-2.metacells.uns[outliers]: 159

# COMPUTE FOR MCVIEW...

set hca_bm.iteration-2.metacells.var[marker_gene]: 3377 true (12.39%) out of 27262 bools
set hca_bm.iteration-2.metacells.obsp[obs_balanced_ranks]: 38585 nonzero (0.3857%) out of 10004569 elements
set hca_bm.iteration-2.metacells.obsp[obs_pruned_ranks]: 12639 nonzero (0.1263%) out of 10004569 elements
set hca_bm.iteration-2.metacells.obsp[obs_outgoing_weights]: 12639 nonzero (0.1263%) out of 10004569 elements
set hca_bm.iteration-2.metacells.obsp[umap_distances]: csr_matrix 3163 X 3163 float32s (10001406 > 0, 99.97%)
set hca_bm.iteration-2.metacells.obs[u]: 3163 float32s
set hca_bm.iteration-2.metacells.obs[v]: 3163 float32s
set hca_bm.iteration-2.metacells.obs[w]: 3163 float32s
set hca_bm.iteration-2.metacells.obsp[obs_balanced_ranks]: 38585 nonzero (0.3857%) out of 10004569 elements
set hca_bm.iteration-2.metacells.obsp[obs_pruned_ranks]: 12639 nonzero (0.1263%) out of 10004569 elements
set hca_bm.iteration-2.metacells.obsp[obs_outgoing_weights]: 12639 nonzero (0.1263%) out of 10004569 elements
set hca_bm.iteration-2.metacells.obsp[umap_distances]: csr_matrix 3163 X 3163 float32s (10001406 > 0, 99.97%)
set hca_bm.iteration-2.metacells.obs[x]: 3163 float32s
set hca_bm.iteration-2.metacells.obs[y]: 3163 float32s
set hca_bm.iteration-2.cells.obs[most_similar]: 297890 int32s
set hca_bm.iteration-2.cells.layers[deviant_fold]: csr_matrix 297890 X 27262 float32s (176746871 > 0, 2.176%)
set hca_bm.iteration-2.metacells.layers[inner_fold]: csr_matrix 3163 X 27262 float32s (1800512 > 0, 2.088%)
set hca_bm.iteration-2.metacells.var[significant_inner_folds_count]: 27262 int64s with mean 0.8005
set hca_bm.iteration-2.metacells.layers[inner_stdev_log]: csr_matrix 3163 X 27262 float32s (1757191 > 0, 2.038%)
set hca_bm.iteration-2.metacells.varp[var_similarity]: csr_matrix 27262 X 27262 float32s (1316501 > 0, 0.1771%)

# PLOT UMAP...


%%time
os.system(
    "Rscript ../scripts/update_types.r iterative/iteration-2 "
    "../captured/iterative.iteration-2.types.csv"
)

CPU times: user 930 µs, sys: 951 ms, total: 952 ms
Wall time: 4.73 s

✔ Succesfully changed metacell cell type assignments
ℹ File has a field named 'color', updating also cell type colors.
✔ Succesfully changed cell type color assignments

0


%%time
mc.ut.set_name(cells, "hca_bm.iteration-3.cells")
print(f"Iteration 3: {cells.n_obs} cells, {cells.n_vars} genes")

Iteration 3: 297890 cells, 27262 genes
CPU times: user 237 µs, sys: 31 µs, total: 268 µs
Wall time: 243 µs


%%time

# We'll reuse this through the iterations.
def capture_type_annotations_from_iteration(previous_iteration_index: int) -> np.ndarray:
    metacell_types_csv = \
        pd.read_csv(f"../captured/iterative.iteration-{previous_iteration_index}.types.csv")
    type_of_metacell = pd.Series(
        list(metacell_types_csv["cell_type"]) + ["Outliers"],
        index=list(metacell_types_csv["metacell"]) + ["Outliers"]
    )
    
    previous_metacell_of_cell = cells.obs["metacell_name"]
    type_of_cell = np.array(type_of_metacell[previous_metacell_of_cell])
    mc.ut.set_o_data(cells, f"type.iteration-{previous_iteration_index}.manual", type_of_cell)
    return type_of_cell

type_of_cell = capture_type_annotations_from_iteration(2)

set hca_bm.iteration-3.cells.obs[type.iteration-2.manual]: 297890 objects

CPU times: user 48 ms, sys: 3 ms, total: 51 ms
Wall time: 50.6 ms


%%time
doublet_cells_mask = type_of_cell == "doublets"
print(f"{np.sum(doublet_cells_mask)} cells will be excluded as doublets")

815 cells will be excluded as doublets
CPU times: user 3.35 ms, sys: 46 µs, total: 3.4 ms
Wall time: 3.16 ms


%%time
cells = mc.ut.slice(cells, obs=~doublet_cells_mask, name="hca_bm.cells.3")
print(f"Iteration 3 (~doublets): {cells.n_obs} cells, {cells.n_vars} genes")

Iteration 3 (~doublets): 297075 cells, 27262 genes
CPU times: user 26.6 s, sys: 24.1 s, total: 50.7 s
Wall time: 50.7 s


ADD_LATERAL_GENE_NAMES = [
    "APOE", "Acsm3", "CD69", "Cdk4", "EMP3", "FOSB", "Fkbp4", "HIST1H1C", "HIST1H2AC", "HIST1H2BG",
    "HLA-DMA", "HLA-DQA1", "HLA-DRB1", "HLA_DOA", "HSPE1", "ID2", "IGHG1", "IGHG2", "IGHG4",
    "IGKV1-12", "IGKV1-39", "IGKV1-5", "IGKV3", "IGKV3-15", "IGKV4-1", "IGLC7", "IGLV2-34",
    "LINC01206", "PA2G4", "RP11-160E2.6", "RP11-53B5.1", "RP1143G9.4", "RP5-1025A1.3",
    "RP5-1171I10.5", "SRGN", "VSIR"
]


%%time
update_lateral_genes(names=ADD_LATERAL_GENE_NAMES, op="add")

set hca_bm.cells.3.var[lateral_gene]: 246 true (0.9024%) out of 27262 bools

['ACSM3', 'ANP32B', 'APOE', 'AURKA', 'B2M', 'BIRC5', 'BTG2', 'CALM1', 'CD63', 'CD69', 'CDK4', 'CENPF', 'CENPU', 'CENPW', 'CKS1B', 'CKS2', 'COX4I1', 'DNAJB1', 'DONSON', 'DUSP1', 'DUT', 'EEF1A1', 'EEF1B2', 'EIF3E', 'EMP3', 'FKBP4', 'FOS', 'FOSB', 'FTH1', 'G0S2', 'GGH', 'GLTSCR2', 'GMNN', 'GNB2L1', 'H2AFZ', 'H3F3B', 'HIST1H1C', 'HIST1H2AC', 'HIST1H2BG', 'HIST1H4C', 'HLA-A', 'HLA-B', 'HLA-C', 'HLA-DMA', 'HLA-DMB', 'HLA-DPA1', 'HLA-DPB1', 'HLA-DQA1', 'HLA-DQB1', 'HLA-DRA', 'HLA-DRB1', 'HLA-E', 'HLA-F', 'HMGA1', 'HMGB1', 'HMGB2', 'HMGB3', 'HMGN2', 'HNRNPAB', 'HSP90AA1', 'HSP90AB1', 'HSPA1A', 'HSPA1B', 'HSPA6', 'HSPD1', 'HSPE1', 'HSPH1', 'ID2', 'IER2', 'IGHA1', 'IGHA2', 'IGHD', 'IGHG1', 'IGHG2', 'IGHG3', 'IGHG4', 'IGHM', 'IGKC', 'IGKV1-12', 'IGKV1-39', 'IGKV1-5', 'IGKV3-15', 'IGKV4-1', 'IGLC2', 'IGLC3', 'IGLC6', 'IGLC7', 'IGLL1', 'IGLV2-34', 'JUN', 'JUNB', 'KIAA0101', 'LEPROTL1', 'LGALS1', 'LINC01206', 'LTB', 'MCM3', 'MCM4', 'MCM7', 'MKI67', 'MT2A', 'MYL12A', 'MYL6', 'NASP', 'NUSAP1', 'PA2G4', 'PCNA', 'PDLIM1', 'PLK3', 'PPP1R15A', 'PTMA', 'PTTG1', 'RAN', 'RANBP1', 'RGCC', 'RP11-160E2.6', 'RP11-53B5.1', 'RP11-620J15.3', 'RP5-1025A1.3', 'RP5-1171I10.5', 'RRM2', 'SMC4', 'SRGN', 'SRSF7', 'STMN1', 'TK1', 'TMSB4X', 'TOP2A', 'TPX2', 'TUBA1A', 'TUBA1B', 'TUBB', 'TUBB4B', 'TXN', 'TYMS', 'UBA52', 'UBC', 'UBE2C', 'UHRF1', 'YBX1', 'YPEL5', 'ZFP36', 'ZWINT']
and 103 RP[LS].* genes
CPU times: user 6.36 ms, sys: 4.78 ms, total: 11.1 ms
Wall time: 10.6 ms


%%time

def next_iteration_with_types(next_iteration_index: int) -> None:
    compute_next_iteration(next_iteration_index)

    print("# APPLY PREVIOUS ITERATION TYPES")  # TRICKY: Uses *NEW* metacells!
    mc.tl.convey_obs_to_group(
        adata=cells, gdata=metacells,
        property_name=f"type.iteration-{next_iteration_index - 1}.manual",
        to_property_name=f"type.iteration-{next_iteration_index}.auto",
    )

    finalize_next_iteration(next_iteration_index, with_types=True)

next_iteration_with_types(3)

set hca_bm.cells.3.var[selected_gene]: * -> False

# DIVIDE AND CONQUER...

set hca_bm.cells.3.var[rare_gene]: 72 true (0.2641%) out of 27262 bools
set hca_bm.cells.3.var[rare_gene_module]: 27190 outliers (99.74%) and 72 grouped (0.2641%) out of 27262 int32 elements with 7 groups with mean size 10.29
set hca_bm.cells.3.obs[cells_rare_gene_module]: 295644 outliers (99.52%) and 1431 grouped (0.4817%) out of 297075 int32 elements with 7 groups with mean size 204.4
set hca_bm.cells.3.obs[rare_cell]: 1431 true (0.4817%) out of 297075 bools
set hca_bm.cells.3.var[selected_gene]: 3592 true (13.18%) out of 27262 bools
set hca_bm.cells.3.obs[metacell]: 297075 int32s
set hca_bm.cells.3.obs[dissolved]: 0 true (0%) out of 297075 bools
set hca_bm.cells.3.obs[metacell_level]: 297075 int32s

# COLLECT METACELLS...

set hca_bm.iteration-3.metacells.obs[grouped]: 3157 int64s
set hca_bm.iteration-3.metacells.obs[total_umis]: 3157 float64s
set hca_bm.iteration-3.metacells.layers[total_umis]: ndarray 3157 X 27262 float32s
set hca_bm.iteration-3.metacells.obs[__zeros_downsample_umis]: 3157 int64s
set hca_bm.iteration-3.metacells.layers[zeros]: ndarray 3157 X 27262 int32s
set hca_bm.cells.3.obs[metacell_name]: 297075 <U8s
set hca_bm.iteration-3.metacells.var[gene_ids]: 27262 objects
set hca_bm.iteration-3.metacells.var[bursty_lonely_gene]: 0 true (0%) out of 27262 bools
set hca_bm.iteration-3.metacells.var[properly_sampled_gene]: 27262 true (100%) out of 27262 bools
set hca_bm.iteration-3.metacells.var[excluded_gene]: 0 true (0%) out of 27262 bools
set hca_bm.iteration-3.metacells.var[full_gene_index]: 27262 int32s
set hca_bm.iteration-3.metacells.var[lateral_gene]: 246 true (0.9024%) out of 27262 bools
set hca_bm.iteration-3.metacells.var[lateral_genes_module]: 27262 int32s
set hca_bm.iteration-3.metacells.var[selected_gene]: 3592 true (13.18%) out of 27262 bools
set hca_bm.iteration-3.metacells.var[rare_gene]: 72 true (0.2641%) out of 27262 bools
set hca_bm.iteration-3.metacells.var[rare_gene_module]: 27262 int32s
set hca_bm.iteration-3.metacells.var[noisy_gene]: 21 true (0.07703%) out of 27262 bools
set hca_bm.iteration-3.metacells.obs[metacells_rare_gene_module]: 3157 int32s
set hca_bm.iteration-3.metacells.obs[rare_metacell]: 17 true (0.5385%) out of 3157 bools
set hca_bm.iteration-3.metacells.uns[outliers]: 154
set hca_bm.iteration-3.metacells.uns[metacells_algorithm]: metacells.0.9.0-dev.1

Iteration 3: 3157 metacells, 27262 genes
# CONVEY CELL ANNOTATIONS...

set hca_bm.iteration-3.metacells.obs[sex]: 3157 float32s
set hca_bm.iteration-3.metacells.obs[age]: 3157 float32s
set hca_bm.iteration-3.metacells.obs[sex_fraction_of_female]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[sex_fraction_of_male]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[age_fraction_of_26.0]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[age_fraction_of_29.0]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[age_fraction_of_32.0]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[age_fraction_of_36.0]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[age_fraction_of_39.0]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[age_fraction_of_50.0]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[age_fraction_of_52.0]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[donor_fraction_of_MantonBM1]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[donor_fraction_of_MantonBM2]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[donor_fraction_of_MantonBM3]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[donor_fraction_of_MantonBM4]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[donor_fraction_of_MantonBM5]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[donor_fraction_of_MantonBM6]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[donor_fraction_of_MantonBM7]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[donor_fraction_of_MantonBM8]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_1]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_2]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_3]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_4]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_5]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_6]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_7]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_8]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_1]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_2]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_3]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_4]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_5]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_6]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_7]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_8]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_1]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_2]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_3]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_4]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_5]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_6]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_7]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_8]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_1]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_2]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_3]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_4]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_5]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_6]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_7]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_8]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_1]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_2]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_3]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_4]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_5]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_6]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_7]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_8]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_1]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_2]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_4]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_5]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_6]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_7]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_8]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_1]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_2]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_3]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_4]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_5]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_6]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_7]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_8]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_1]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_2]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_3]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_4]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_5]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_6]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_7]: 3157 float64s
set hca_bm.iteration-3.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_8]: 3157 float64s

# APPLY PREVIOUS ITERATION TYPES

set hca_bm.iteration-3.metacells.obs[type.iteration-3.auto]: 3157 <U9s
set hca_bm.iteration-3.metacells.uns[mcview_format]: 1.0
set hca_bm.iteration-3.metacells.uns[outliers]: 154

# COMPUTE FOR MCVIEW...


%%time
mc.ut.set_name(cells, "hca_bm.iteration-4.cells")
print(f"Iteration 4: {cells.n_obs} cells, {cells.n_vars} genes")
type_of_cell = capture_type_annotations_from_iteration(3)

set hca_bm.iteration-4.cells.obs[type.iteration-3.manual]: 297075 objects

Iteration 4: 297075 cells, 27262 genes
CPU times: user 49.1 ms, sys: 9.02 ms, total: 58.1 ms
Wall time: 76.2 ms


EXCLUDED_GENE_NAMES = [ "NEAT1" ]


%%time
excluded_genes_mask = np.array(mc.tl.find_named_genes(cells, names=EXCLUDED_GENE_NAMES))
print(f"{np.sum(excluded_genes_mask)} genes will be excluded")

1 genes will be excluded
CPU times: user 6.33 ms, sys: 927 µs, total: 7.26 ms
Wall time: 7.03 ms


%%time
doublet_cells_mask = type_of_cell == "doublets"
print(f"{np.sum(doublet_cells_mask)} cells will be excluded as doublets")

382 cells will be excluded as doublets
CPU times: user 3.45 ms, sys: 0 ns, total: 3.45 ms
Wall time: 3.19 ms


%%time
cells = mc.ut.slice(cells, obs=~doublet_cells_mask, vars=~excluded_genes_mask, name="hca_bm.cells.4")
print(f"Iteration 4 (~doubles, ~genes): {cells.n_obs} cells, {cells.n_vars} genes")

Iteration 4 (~doubles, ~genes): 296693 cells, 27261 genes
CPU times: user 28.7 s, sys: 34.1 s, total: 1min 2s
Wall time: 1min 2s


ADD_LATERAL_GENE_NAMES = [
    "CH17-373J23.1", "CXCR4", "GPR183", "HBM", "IGLL5", "NFKBIA", "TSC22D3", "RP11-1143G9.4",
    "RGS1", "RGS2", "RGS3",
]


%%time
update_lateral_genes(names=ADD_LATERAL_GENE_NAMES, op="add")

set hca_bm.cells.4.var[lateral_gene]: 257 true (0.9427%) out of 27261 bools

['ACSM3', 'ANP32B', 'APOE', 'AURKA', 'B2M', 'BIRC5', 'BTG2', 'CALM1', 'CD63', 'CD69', 'CDK4', 'CENPF', 'CENPU', 'CENPW', 'CH17-373J23.1', 'CKS1B', 'CKS2', 'COX4I1', 'CXCR4', 'DNAJB1', 'DONSON', 'DUSP1', 'DUT', 'EEF1A1', 'EEF1B2', 'EIF3E', 'EMP3', 'FKBP4', 'FOS', 'FOSB', 'FTH1', 'G0S2', 'GGH', 'GLTSCR2', 'GMNN', 'GNB2L1', 'GPR183', 'H2AFZ', 'H3F3B', 'HBM', 'HIST1H1C', 'HIST1H2AC', 'HIST1H2BG', 'HIST1H4C', 'HLA-A', 'HLA-B', 'HLA-C', 'HLA-DMA', 'HLA-DMB', 'HLA-DPA1', 'HLA-DPB1', 'HLA-DQA1', 'HLA-DQB1', 'HLA-DRA', 'HLA-DRB1', 'HLA-E', 'HLA-F', 'HMGA1', 'HMGB1', 'HMGB2', 'HMGB3', 'HMGN2', 'HNRNPAB', 'HSP90AA1', 'HSP90AB1', 'HSPA1A', 'HSPA1B', 'HSPA6', 'HSPD1', 'HSPE1', 'HSPH1', 'ID2', 'IER2', 'IGHA1', 'IGHA2', 'IGHD', 'IGHG1', 'IGHG2', 'IGHG3', 'IGHG4', 'IGHM', 'IGKC', 'IGKV1-12', 'IGKV1-39', 'IGKV1-5', 'IGKV3-15', 'IGKV4-1', 'IGLC2', 'IGLC3', 'IGLC6', 'IGLC7', 'IGLL1', 'IGLL5', 'IGLV2-34', 'JUN', 'JUNB', 'KIAA0101', 'LEPROTL1', 'LGALS1', 'LINC01206', 'LTB', 'MCM3', 'MCM4', 'MCM7', 'MKI67', 'MT2A', 'MYL12A', 'MYL6', 'NASP', 'NFKBIA', 'NUSAP1', 'PA2G4', 'PCNA', 'PDLIM1', 'PLK3', 'PPP1R15A', 'PTMA', 'PTTG1', 'RAN', 'RANBP1', 'RGCC', 'RGS1', 'RGS2', 'RGS3', 'RP11-1143G9.4', 'RP11-160E2.6', 'RP11-53B5.1', 'RP11-620J15.3', 'RP5-1025A1.3', 'RP5-1171I10.5', 'RRM2', 'SMC4', 'SRGN', 'SRSF7', 'STMN1', 'TK1', 'TMSB4X', 'TOP2A', 'TPX2', 'TSC22D3', 'TUBA1A', 'TUBA1B', 'TUBB', 'TUBB4B', 'TXN', 'TYMS', 'UBA52', 'UBC', 'UBE2C', 'UHRF1', 'YBX1', 'YPEL5', 'ZFP36', 'ZWINT']
and 103 RP[LS].* genes
CPU times: user 6.73 ms, sys: 5.09 ms, total: 11.8 ms
Wall time: 11.3 ms


%%time
next_iteration_with_types(4)

set hca_bm.cells.4.var[selected_gene]: * -> False

# DIVIDE AND CONQUER...

set hca_bm.cells.4.var[rare_gene]: 73 true (0.2678%) out of 27261 bools
set hca_bm.cells.4.var[rare_gene_module]: 27188 outliers (99.73%) and 73 grouped (0.2678%) out of 27261 int32 elements with 7 groups with mean size 10.43
set hca_bm.cells.4.obs[cells_rare_gene_module]: 295318 outliers (99.54%) and 1375 grouped (0.4634%) out of 296693 int32 elements with 7 groups with mean size 196.4
set hca_bm.cells.4.obs[rare_cell]: 1375 true (0.4634%) out of 296693 bools
set hca_bm.cells.4.var[selected_gene]: 3547 true (13.01%) out of 27261 bools
set hca_bm.cells.4.obs[metacell]: 296693 int32s
set hca_bm.cells.4.obs[dissolved]: 0 true (0%) out of 296693 bools
set hca_bm.cells.4.obs[metacell_level]: 296693 int32s

# COLLECT METACELLS...

set hca_bm.iteration-4.metacells.obs[grouped]: 3149 int64s
set hca_bm.iteration-4.metacells.obs[total_umis]: 3149 float64s
set hca_bm.iteration-4.metacells.layers[total_umis]: ndarray 3149 X 27261 float32s
set hca_bm.iteration-4.metacells.obs[__zeros_downsample_umis]: 3149 int64s
set hca_bm.iteration-4.metacells.layers[zeros]: ndarray 3149 X 27261 int32s
set hca_bm.cells.4.obs[metacell_name]: 296693 <U8s
set hca_bm.iteration-4.metacells.var[gene_ids]: 27261 objects
set hca_bm.iteration-4.metacells.var[bursty_lonely_gene]: 0 true (0%) out of 27261 bools
set hca_bm.iteration-4.metacells.var[properly_sampled_gene]: 27261 true (100%) out of 27261 bools
set hca_bm.iteration-4.metacells.var[excluded_gene]: 0 true (0%) out of 27261 bools
set hca_bm.iteration-4.metacells.var[full_gene_index]: 27261 int32s
set hca_bm.iteration-4.metacells.var[lateral_gene]: 257 true (0.9427%) out of 27261 bools
set hca_bm.iteration-4.metacells.var[lateral_genes_module]: 27261 int32s
set hca_bm.iteration-4.metacells.var[selected_gene]: 3547 true (13.01%) out of 27261 bools
set hca_bm.iteration-4.metacells.var[rare_gene]: 73 true (0.2678%) out of 27261 bools
set hca_bm.iteration-4.metacells.var[rare_gene_module]: 27261 int32s
set hca_bm.iteration-4.metacells.var[noisy_gene]: 21 true (0.07703%) out of 27261 bools
set hca_bm.iteration-4.metacells.obs[metacells_rare_gene_module]: 3149 int32s
set hca_bm.iteration-4.metacells.obs[rare_metacell]: 17 true (0.5399%) out of 3149 bools
set hca_bm.iteration-4.metacells.uns[outliers]: 140
set hca_bm.iteration-4.metacells.uns[metacells_algorithm]: metacells.0.9.0-dev.1

Iteration 4: 3149 metacells, 27261 genes
# CONVEY CELL ANNOTATIONS...

set hca_bm.iteration-4.metacells.obs[sex]: 3149 float32s
set hca_bm.iteration-4.metacells.obs[age]: 3149 float32s
set hca_bm.iteration-4.metacells.obs[sex_fraction_of_female]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[sex_fraction_of_male]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[age_fraction_of_26.0]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[age_fraction_of_29.0]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[age_fraction_of_32.0]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[age_fraction_of_36.0]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[age_fraction_of_39.0]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[age_fraction_of_50.0]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[age_fraction_of_52.0]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[donor_fraction_of_MantonBM1]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[donor_fraction_of_MantonBM2]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[donor_fraction_of_MantonBM3]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[donor_fraction_of_MantonBM4]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[donor_fraction_of_MantonBM5]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[donor_fraction_of_MantonBM6]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[donor_fraction_of_MantonBM7]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[donor_fraction_of_MantonBM8]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_1]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_2]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_3]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_4]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_5]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_6]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_7]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM1_HiSeq_8]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_1]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_2]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_3]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_4]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_5]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_6]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_7]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM2_HiSeq_8]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_1]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_2]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_3]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_4]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_5]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_6]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_7]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM3_HiSeq_8]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_1]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_2]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_3]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_4]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_5]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_6]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_7]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM4_HiSeq_8]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_1]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_2]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_3]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_4]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_5]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_6]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_7]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM5_HiSeq_8]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_1]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_2]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_4]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_5]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_6]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_7]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM6_HiSeq_8]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_1]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_2]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_3]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_4]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_5]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_6]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_7]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM7_HiSeq_8]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_1]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_2]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_3]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_4]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_5]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_6]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_7]: 3149 float64s
set hca_bm.iteration-4.metacells.obs[batch_fraction_of_MantonBM8_HiSeq_8]: 3149 float64s

# APPLY PREVIOUS ITERATION TYPES

set hca_bm.iteration-4.metacells.obs[type.iteration-4.auto]: 3149 <U9s
set hca_bm.iteration-4.metacells.uns[mcview_format]: 1.0
set hca_bm.iteration-4.metacells.uns[outliers]: 140

# COMPUTE FOR MCVIEW...


%%time
mc.ut.set_name(cells, "hca_bm.iterative-final.cells")
print(f"Final: {cells.n_obs} cells, {cells.n_vars} genes")
mc.ut.set_name(metacells, "hca_bm.iterative-final.cells")
print(f"Final: {metacells.n_obs} metacells, {metacells.n_vars} genes")

Final: 296693 cells, 27261 genes
Final: 3149 metacells, 27261 genes
CPU times: user 219 µs, sys: 24 µs, total: 243 µs
Wall time: 226 µs


%%time
metacell_types_csv = pd.read_csv("../captured/iterative.iteration-4.types.csv")
assert np.all(metacell_types_csv["metacell"] == metacells.obs_names)

type_of_metacell = np.array(metacell_types_csv["cell_type"])
mc.ut.set_o_data(metacells, "type", type_of_metacell)

type_of_metacell = pd.Series(
    list(type_of_metacell) + ["Outliers"],
    index=list(metacell_types_csv["metacell"]) + ["Outliers"]
)

metacell_of_cell = cells.obs["metacell_name"]
type_of_cell = np.array(type_of_metacell[metacell_of_cell])
mc.ut.set_o_data(cells, "type", type_of_cell)

set hca_bm.iterative-final.cells.obs[type]: 3149 objects
set hca_bm.iterative-final.cells.obs[type]: 296693 objects

CPU times: user 62.4 ms, sys: 8.85 ms, total: 71.3 ms
Wall time: 82.4 ms


#mc.ut.mark_essential_genes(
#    metacells,
#    essential_gene_names_of_types={ "CD8 T-cell" => ["CD8", ...], ...}
#)


%%time

for iteration_index in range(100):  # Complete overkill
    for name in (
        f"type.iteration-{iteration_index}.auto",
        f"type.iteration-{iteration_index}.manual"
    ):
        for adata in (cells, metacells):
            if name in adata.obs:
                print(f"Delete {name} from {mc.ut.get_name(cells)}")
                del adata.obs[name]

Delete type.iteration-2.manual from hca_bm.iterative-final.cells
Delete type.iteration-3.manual from hca_bm.iterative-final.cells
Delete type.iteration-4.auto from hca_bm.iterative-final.cells
CPU times: user 350 µs, sys: 2.04 ms, total: 2.39 ms
Wall time: 2.15 ms


%%time

print("# SAVE CELLS...")
cells.write_h5ad("../output/iterative/final/hca_bm.cells.h5ad")

print("# SAVE METACELLS...")
metacells.write_h5ad("../output/iterative/final/hca_bm.metacells.h5ad")

print("# IMPORT INTO MCVIEW...")
os.system("Rscript ../scripts/import_dataset.r hca_bm iterative/final 'HCABM IT|FIN' type")

# SAVE CELLS...
# SAVE METACELLS...
# IMPORT INTO MCVIEW...

ℹ creating ../mcview/iterative/final
→ You can edit the app configuration at '../mcview/iterative/final/config/config.yaml'
ℹ Importing hca_bm-iterative-final
ℹ Reading '../output/iterative/final/hca_bm.metacells.h5ad'
ℹ Processing metacell matrix
ℹ Processing 2d projection
ℹ Calculating top genes per metacell (marker genes)
ℹ Calculating metacell correlations of default marker genes
ℹ Processing inner-folds matrix
ℹ Calculating top inner-fold genes
→ Added the Inner-fold tab to the config file. To change the tab order or remove it - edit the tabs section at: '../mcview/iterative/final/config/config.yaml'
ℹ Processing inner-stdev matrix
ℹ Calculating top inner-stdev genes
→ Added the Stdev-fold tab to the config file. To change the tab order or remove it - edit the tabs section at: '../mcview/iterative/final/config/config.yaml'
ℹ Taking cell type annotations from type field in the anndata object
ℹ Loading cell type color annotations from '../captured/type_colors.csv'
ℹ Clustering in order to get gene modules. k = 31
ℹ Number of genes considered = 1000
ℹ Loading previously calculated 30 correlated and anti-correlated genes for each gene
✔ hca_bm-iterative-final dataset imported succesfully to '../mcview/iterative/final' project
• You can now run the app using: run_app("../mcview/iterative/final")
• or create a bundle using: create_bundle("../mcview/iterative/final", name =
"name_of_bundle")

CPU times: user 1.35 s, sys: 18.8 s, total: 20.1 s
Wall time: 2min 21s

0

Computing Metacells - Iterative Process¶

1. Setup¶

2. Reading the data¶

3. Cleaning the data¶

3.1 Decisions¶

3.1.1 Excluding cells by UMIs count¶

3.1.2 Excluding genes by name¶

3.1.3 Excluding cells by high excluded gene UMIs¶

3.2 Extract the clean data¶

3.3 Save the data¶

4. Compute the 1st iteration metacells¶

4.1 Decisions¶

4.1.2 Lateral genes¶

4.1.3 Noisy genes¶

4.1.4 Parallelization¶

4.2 Computation¶

4.2.1 Hyper-parameters¶

4.2.2 Assigning cells to metacells¶

4.2.3 Collecting the metacells¶

4.3 Computing for MCView¶

4.4 Saving the data¶

5. Importing into MCView¶

5.1 Installing MCView¶

5.2 Importing data set¶

6. Compute the 2nd iteration metacells¶

6.1 Decisions¶

6.1.2 Adding noisy genes¶

6.1.3 Adding lateral genes¶

6.1.4 Parallelization¶

6.2 Computation¶

7. Annotating types in MCView¶

7.1 Type annotation decisions¶

7.2 Updating types in MCView¶

8. Compute the 3rd iteration metacells¶

8.1 Capturing previous type annotations¶

8.2 Decisions¶

8.2.1 Removing doublets¶

8.2.2 Adding lateral genes¶

8.2.3 Adding noisy genes¶

8.3 Computation¶

9. Computing 4th iteration metacells¶

9.1 Decisions¶

9.1.1 Removing excluded genes¶

9.1.2 Removing doublets¶

9.1.3 Adding lateral genes¶

9.2 Computation¶

10. Finalizing the data¶

10.1 Conveying type annotations¶

10.2 Marking essential genes¶

10.3 Removing doublet meta/cells¶

10.4 Spit and polish in general¶

10.5 Computing for MCView¶

10.6 Saving the final results¶