Source code for sequana.compare

#
#  This file is part of Sequana software
#
#  Copyright (c) 2016-2022 - Sequana Development Team
#
#  Distributed under the terms of the 3-clause BSD license.
#  The full license is in the LICENSE file, distributed with this software.
#
#  website: https://github.com/sequana/sequana
#  documentation: http://sequana.readthedocs.io
#
##############################################################################

import os
import re
from pathlib import Path

import colorlog
from matplotlib_venn import venn2_unweighted, venn3_unweighted

from sequana.lazy import numpy as np
from sequana.lazy import pandas as pd
from sequana.lazy import pylab
from sequana.rnadiff import RNADiffTable

logger = colorlog.getLogger(__name__)


__all__ = ["RNADiffCompare"]


class Compare:
    def __init__(self):
        pass


[docs]class RNADiffCompare(Compare):
    """An object representation of results coming from a RNADiff analysis.

    ::

        from sequana.compare import RNADiffCompare
        c = RNADiffCompare("data.csv", "data2.csv")

        # change the l2fc to update venn plots
        c.plot_venn_up()
        c.r1.log2_fc = 1
        c.r2.log2_fc = 1
        c.plot_venn_up()

    """

    def __init__(self, *args, design=None):
        self.rns = []
        for rnadiff_csv in args:
            if isinstance(rnadiff_csv, RNADiffTable):
                self.rns.append(rnadiff_csv)
            elif os.path.exists(rnadiff_csv):
                self.rns.append(RNADiffTable(rnadiff_csv))
            else:
                raise NotImplementedError

        # aliases
        self.r1 = self.rns[0]
        self.r2 = self.rns[1]

        # keep only entries in common
        A = self.r1.df.index
        B = self.r2.df.index
        common = set(A).intersection(B)

        if len(A) != len(B):
            self.r1.df = self.r1.df.loc[list(common)]
            self.r2.df = self.r2.df.loc[list(common)]
            self.r1.filt_df = self.r1.filter()
            self.r2.filt_df = self.r2.filter()
            self.r1.set_gene_lists()
            self.r2.set_gene_lists()
            logger.info(f"Two sets are not equal. Kept {len(self.r1.df)} in common")

[docs]    def plot_venn_down(self, labels=None, ax=None, title="Down expressed genes", mode="all", l2fc=0):
        assert l2fc <= 0, "l2fc must be negative"
        kargs = {}
        kargs["title"] = title
        kargs["labels"] = labels
        kargs["ax"] = ax
        kargs["data1"] = set(self.r1.gene_lists["down"])
        kargs["data2"] = set(self.r2.gene_lists["down"])
        self._venn(**kargs)

[docs]    def plot_venn_up(self, labels=None, ax=None, title="Up expressed genes", mode="all", l2fc=0):
        """Venn diagram of cond1 from RNADiff result1 vs cond2 in RNADiff
        result 2

        .. plot::
            :include-source:

            from sequana import sequana_data
            from sequana.compare import RNADiffCompare

            c = RNADiffCompare(
                sequana_data("rnadiff_salmon.csv", "doc/rnadiff_compare"),
                sequana_data("rnadiff_bowtie.csv", "doc/rnadiff_compare")
            )
            c.plot_venn_up()
        """
        assert l2fc >= 0, "l2fc must be positive"
        kargs = {}
        kargs["title"] = title
        kargs["labels"] = labels
        kargs["ax"] = ax
        kargs["data1"] = set(self.r1.gene_lists["up"])
        kargs["data2"] = set(self.r2.gene_lists["up"])
        self._venn(**kargs)

    def _venn(self, data1, data2, labels=None, ax=None, title="expressed genes"):
        from sequana.viz.venn import plot_venn

        if labels is None:
            labels = ["A", "B"]

        plot_venn([data1, data2], labels=labels, ax=ax, title=title)

[docs]    def plot_venn_all(self, labels=None, ax=None, title="all expressed genes", mode="all"):
        kargs = {}
        kargs["title"] = title
        kargs["labels"] = labels
        kargs["ax"] = ax
        kargs["data1"] = set(self.r1.gene_lists["all"])
        kargs["data2"] = set(self.r2.gene_lists["all"])
        self._venn(**kargs)

[docs]    def plot_corrplot_counts_raw(self, samples=None, log2=True, lower="pie", upper="text"):
        from sequana.viz import corrplot

        if samples is None:
            samples = self.r1.counts_raw.columns
        df1 = self.r1.counts_raw[samples]
        df2 = self.r2.counts_raw[samples]
        df = pd.concat([df1, df2], keys=["r1", "r2"], axis=1)
        if log2:
            df = pylab.log2(df)
        c = corrplot.Corrplot(df).plot(upper=upper, lower=lower)
        return df.corr()

[docs]    def plot_corrplot_counts_normed(self, samples=None, log2=True, lower="pie", upper="text"):
        from sequana.viz import corrplot

        if samples is None:
            samples = self.r1.counts_raw.columns
        df1 = self.r1.counts_norm[samples]
        df2 = self.r2.counts_norm[samples]
        df = pd.concat([df1, df2], keys=["r1", "r2"], axis=1)
        if log2:
            df = pylab.log2(df)
        c = corrplot.Corrplot(df).plot(upper=upper, lower=lower)
        return df.corr()

[docs]    def plot_jaccard_distance(
        self,
        mode,
        padjs=[0.0001, 0.001, 0.01, 0.05, 0.1],
        Nfc=50,
        smooth=False,
        window=5,
    ):
        assert mode in ["down", "up", "all"]
        pylab.clf()

        if mode == "down":
            m1 = self.r1.df.log2FoldChange.min()
            m2 = self.r2.df.log2FoldChange.min()
            minimum = min(m1, m2)
            print(m1, m2)
            X = pylab.linspace(0, minimum, Nfc)
        elif mode == "up":
            m1 = self.r1.df.log2FoldChange.max()
            m2 = self.r2.df.log2FoldChange.max()
            maximum = max(m1, m2)
            X = pylab.linspace(0, maximum, Nfc)
        else:
            minmax1 = self.r1.df.log2FoldChange.abs().max()
            minmax2 = self.r2.df.log2FoldChange.abs().max()
            maximum = max(minmax1, minmax2)
            X = pylab.linspace(0, maximum, Nfc)

        common = {}
        for padj in padjs:
            I = []
            common[padj] = []
            for x in X:
                if mode == "down":
                    # less than a given fold change that is negative
                    A = set(self.r1.df.query("log2FoldChange<=@x and padj<@padj").index)
                    B = set(self.r2.df.query("log2FoldChange<=@x and padj<@padj").index)
                elif mode == "up":
                    # greater than a given fold change that is positive
                    A = set(self.r1.df.query("log2FoldChange>=@x and padj<@padj").index)
                    B = set(self.r2.df.query("log2FoldChange>=@x and padj<@padj").index)
                else:
                    A = set(self.r1.df.query("(log2FoldChange>=@x or log2FoldChange<=-@x) and padj<@padj").index)
                    B = set(self.r2.df.query("(log2FoldChange>=@x or log2FoldChange<=-@x) and padj<@padj").index)
                if len(A) == 0 or len(B) == 0:
                    # no overlap yet
                    I.append(0)
                else:
                    res = len(A.intersection(B)) / (len(A) + len(B) - len(A.intersection(B))) * 100
                    I.append(res)
                common[padj].append(len(A.intersection(B)))

            try:
                if smooth:
                    I = pd.Series(I).rolling(window).median().values
                else:
                    assert False
            except:
                pass
            pylab.plot(X, I, "o-", label=str(padj))

        ax = pylab.gca()
        ax.set_ylabel("Jaccard similarity (intersection/union)")
        ax.set_xlabel("Fold change (log2)")
        ax2 = ax.twinx()
        for padj in padjs:
            ax2.plot(X, common[padj], ls="--")
        ax2.set_ylabel("Cardinality of the union ")
        ax.legend()
        ax.set_ylim([0, 100])
        # ax2.set_ylim([0,100])
        if mode == "down":
            ax.axvline(-2, ls="--", color="r")
        else:
            ax.axvline(2, ls="--", color="r")

        return I, common[padj]

[docs]    def plot_common_major_counts(
        self,
        mode,
        labels=None,
        switch_up_down_cond2=False,
        add_venn=True,
        xmax=None,
        title="",
        fontsize=12,
        sortby="log2FoldChange",
    ):
        """

        :param mode: down, up or all


        .. plot::
            :include-source:

            from sequana import sequana_data
            from sequana.compare import RNADiffCompare

            c = RNADiffCompare(
                sequana_data("rnadiff_salmon.csv", "doc/rnadiff_compare"),
                sequana_data("rnadiff_bowtie.csv", "doc/rnadiff_compare")
            )
            c.plot_common_major_counts("down")
        """
        # cond1, cond2 = self._get_cond1_cond2()
        if labels is None:
            labels = ["r1", "r2"]

        if mode in ["down"]:
            # Negative values !
            gl1 = list(set(self.r1.gene_lists["down"]))
            gl2 = list(set(self.r2.gene_lists["down"]))
            A = self.r1.df.loc[gl1].sort_values(by=sortby)
            B = self.r2.df.loc[gl1].sort_values(by=sortby)
        else:
            gl1 = list(set(self.r1.gene_lists[mode]))
            gl2 = list(set(self.r2.gene_lists[mode]))
            A = self.r1.df.loc[gl1].sort_values(by=sortby, ascending=False)
            B = self.r2.df.loc[gl1].sort_values(by=sortby, ascending=False)
        # sometimes, up and down may be inverted as compared to the other
        # conditions

        N = []
        for i in range(1, max(len(A), len(B))):
            a = A.iloc[0:i].index
            b = B.iloc[0:i].index
            n = len(set(b).intersection(set(a)))
            N.append(n / i * 100)

        max_common = len(set(A.index).intersection(set(B.index)))
        pylab.clf()
        if len(A) > len(B):
            pylab.axhline(
                max_common / len(A) * 100,
                color="r",
                ls="--",
                label="min set intersection",
            )
            pylab.axvline(len(B), ls="--", color="k", label="rank of minor set")
        else:
            pylab.axhline(max_common / len(B) * 100, color="r", ls="--", label="min set intersect")
            pylab.axvline(len(A), ls="--", color="k", label="rank of minor set")

        pylab.plot(N)
        pylab.xlabel("rank", fontsize=fontsize)
        pylab.ylabel("% common features", fontsize=fontsize)
        pylab.grid(True)
        pylab.ylim([0, 100])
        if xmax:
            pylab.xlim([0, xmax])
        else:
            pylab.xlim([0, max(len(A), len(B))])
        pylab.title(title, fontsize=fontsize)
        ax = pylab.gca()
        ax2 = ax.twinx()
        ax2.plot(A[sortby].values, "orange", label=sortby)
        ax2.set_ylabel(sortby)
        pylab.legend(loc="lower left")
        ax.legend(loc="lower right")

        if add_venn:
            f = pylab.gcf()
            ax = f.add_axes([0.5, 0.5, 0.35, 0.35], facecolor="grey")
            if mode == "down":
                self.plot_venn_down(ax=ax, title=None, labels=labels, mode="two_only")
            elif mode == "up":
                self.plot_venn_up(ax=ax, title=None, labels=labels, mode="two_only")
            elif mode == "all":
                self.plot_venn_all(ax=ax, title=None, labels=labels, mode="two_only")

[docs]    def plot_foldchange(self):
        mode = "all"

        # it may happen that list are not identical due to salmon and bowtie not
        # using same input gff for instance.
        X = self.r1.df.index
        Y = self.r2.df.index
        common = list(set(X).intersection(set(Y)))

        A = self.r1.df.loc[self.r1.gene_lists[mode]]
        B = self.r2.df.loc[self.r2.gene_lists[mode]]
        # cast set to list to avoid future error in pandas (june 2022)
        AB = list(set(A.index).intersection(set(B.index)))
        Ao = A.loc[list(set(A.index).difference(set(B.index)))]
        Bo = B.loc[list(set(B.index).difference(set(A.index)))]
        Ac = A.loc[AB]
        Bc = B.loc[AB]

        pylab.plot(
            self.r1.df.loc[common].log2FoldChange,
            self.r2.df.loc[common].log2FoldChange,
            "ko",
            alpha=0.5,
            markersize=1,
        )
        pylab.plot(Ac.log2FoldChange, Bc.log2FoldChange, "or", alpha=0.5)
        pylab.plot(Ao.log2FoldChange, self.r2.df.loc[Ao.index].log2FoldChange, "*b", alpha=0.5)
        pylab.plot(
            Bo.log2FoldChange,
            self.r1.df.loc[Bo.index].log2FoldChange,
            color="cyan",
            marker="o",
            lw=0,
            alpha=0.5,
        )

[docs]    def plot_volcano_differences(self, mode="all"):
        cond1, cond2 = "cond1", "cond2"
        labels = [cond1, cond2]

        A = self.r1.df.loc[self.r1.gene_lists[mode]]
        B = self.r2.df.loc[self.r2.gene_lists[mode]]
        # cast set to list to avoid future error in pandas (june 2022)
        AB = list(set(A.index).intersection(set(B.index)))
        Aonly = A.loc[list(set(A.index).difference(set(B.index)))]
        Bonly = B.loc[list(set(B.index).difference(set(A.index)))]
        Acommon = A.loc[AB]
        Bcommon = B.loc[AB]

        pylab.clf()
        pylab.plot(
            Acommon.log2FoldChange,
            -np.log10(Acommon.padj),
            marker="o",
            alpha=0.5,
            color="r",
            lw=0,
            label="Common in experiment 1",
            pickradius=4,
            picker=True,
        )
        pylab.plot(
            Bcommon.log2FoldChange,
            -np.log10(Bcommon.padj),
            marker="o",
            alpha=0.5,
            color="orange",
            lw=0,
            label="Common in experiment 2",
            pickradius=4,
            picker=True,
        )

        for x in AB:
            a_l = A.loc[x].log2FoldChange
            a_p = -np.log10(A.loc[x].padj)
            b_l = B.loc[x].log2FoldChange
            b_p = -np.log10(B.loc[x].padj)
            pylab.plot([a_l, b_l], [a_p, b_p], "k", alpha=0.5)

        pylab.plot(
            Bonly.log2FoldChange,
            -np.log10(Bonly.padj),
            marker="*",
            alpha=0.5,
            color="blue",
            lw=0,
            label="In experiment 2 only",
            pickradius=4,
            picker=True,
        )
        pylab.plot(
            Aonly.log2FoldChange,
            -np.log10(Aonly.padj),
            marker="*",
            alpha=0.5,
            color="cyan",
            lw=0,
            label="In experiment 1 only",
            pickradius=4,
            picker=True,
        )

        for name, x in Bonly.iterrows():
            x1 = x.log2FoldChange
            y1 = -np.log10(x.padj)
            x2 = self.r1.df.loc[name].log2FoldChange
            y2 = -np.log10(self.r1.df.loc[name].padj)
            pylab.plot([x1, x2], [y1, y2], ls="--", color="r")
        for name, x in Aonly.iterrows():
            x1 = x.log2FoldChange
            y1 = -np.log10(x.padj)
            x2 = self.r2.df.loc[name].log2FoldChange
            y2 = -np.log10(self.r2.df.loc[name].padj)
            pylab.plot([x1, x2], [y1, y2], ls="-", color="r")

        pylab.axhline(1.33, alpha=0.5, ls="--", color="r")

        pylab.xlabel("log2 fold Change")
        pylab.ylabel("log10 adjusted p-values")
        pylab.legend()
        pylab.grid(True)

        return Aonly, Bonly, Acommon, Bcommon

[docs]    def plot_volcano(self, labels=None):
        """Volcano plot of log2 fold change versus log10 of adjusted p-value

        .. plot::
            :include-source:

            from sequana import sequana_data
            from sequana.compare import RNADiffCompare

            c = RNADiffCompare(
                sequana_data("rnadiff_salmon.csv", "doc/rnadiff_compare"),
                sequana_data("rnadiff_bowtie.csv", "doc/rnadiff_compare")
            )
            c.plot_volcano()
        """
        cond1, cond2 = "cond1", "cond2"
        if labels is None:
            labels = [cond1, cond2]

        A = self.r1.df.loc[self.r1.gene_lists["all"]]
        B = self.r2.df.loc[self.r2.gene_lists["all"]]

        if cond1 == cond2:
            cond1 += "(1)"
            cond2 += "(2)"

        pylab.clf()
        pylab.plot(
            A.log2FoldChange,
            -np.log10(A.padj),
            marker="o",
            alpha=0.5,
            color="r",
            lw=0,
            label=labels[0],
            pickradius=4,
            picker=True,
        )
        pylab.plot(
            B.log2FoldChange,
            -np.log10(B.padj),
            marker="x",
            alpha=0.5,
            color="k",
            lw=0,
            label=labels[1],
            pickradius=4,
            picker=True,
        )

        genes = list(A.index) + list(B.index)
        pylab.grid(True)
        pylab.xlabel("fold change")
        pylab.ylabel("log10 adjusted p-value")
        pylab.legend(loc="lower right")
        ax = pylab.gca()

        def onpick(event):
            thisline = event.artist
            self.event = event
            label = thisline.get_label()
            if label == cond1:
                gene_name = A.index[event.ind[0]]
                x1 = round(A.loc[gene_name].log2FoldChange, 1)
                y1 = round(-np.log10(A.loc[gene_name].padj), 1)
                try:
                    x2 = round(B.loc[gene_name].log2FoldChange, 1)
                    y2 = round(-np.log10(B.loc[gene_name].padj), 1)
                except:
                    x2, y2 = None, None
            else:
                gene_name = B.index[event.ind[0]]
                x1 = round(B.loc[gene_name].log2FoldChange, 1)
                y1 = round(-np.log10(B.loc[gene_name].padj), 1)
                try:
                    x2 = round(A.loc[gene_name].log2FoldChange, 1)
                    y2 = round(-np.log10(A.loc[gene_name].padj), 1)
                except:
                    x2, y2 = None, None

            try:
                if x2 is None:
                    ax.title.set_text("{} at pos [{},{}]".format(gene_name, x1, y1))
                else:
                    ax.title.set_text("{} at pos [{},{}] and [{},{}]".format(gene_name, x1, y1, x2, y2))
            except:
                print("exception")
                ax.title.set_text("")
            pylab.draw()

        fig = pylab.gcf()
        fig.canvas.mpl_connect("pick_event", onpick)

[docs]    def plot_geneset(
        self,
        indices,
        showlines=True,
        showdots=True,
        colors={
            "bodies": "blue",
            "cbars": "k",
            "dot": "blue",
            "cmins": "k",
            "cmaxes": "k",
        },
    ):
        """indices is a list that represents a gene sets


        cmins, cmaxes, cbars are the colors of the bars inside the body of the violin plots


        .. plot::

            from sequana import sequana_data
            from sequana.compare import RNADiffCompare

            c = RNADiffCompare(
                sequana_data("rnadiff_salmon.csv", "doc/rnadiff_compare"),
                sequana_data("rnadiff_bowtie.csv", "doc/rnadiff_compare")
            )
            c.plot_volcano()
            indices = c.r1.df.query("log2FoldChange>1 or log2FoldChange<-1").index.values
            indices  = [x for x in indices if x in c.r1.df.index and x in c.r2.df.index]
            c.plot_geneset(indices, showlines=True)

        """
        from matplotlib.pyplot import violinplot
        from pylab import axhline, clf, plot, violinplot, xticks, ylabel

        N = len(self.rns)
        data = [self.rns[i].df.loc[indices]["log2FoldChange"].values for i in range(0, N)]

        clf()
        axhline(0, color="k", ls="--", zorder=-1)
        vp = violinplot(data)
        for x in vp["bodies"]:
            x.set_color(colors["bodies"])
        vp["cbars"].set_color(colors["cbars"])
        vp["cmins"].set_color(colors["cmins"])
        vp["cmaxes"].set_color(colors["cmaxes"])

        for i in range(N - 1):
            for x, y in zip(data[i], data[i + 1]):
                if showlines:
                    plot([i + 1, i + 2], [x, y], "or-", alpha=0.5)
                else:
                    plot([i + 1, i + 2], [x, y], "or", alpha=0.5)

        xticks(range(1, N + 1), [f"C{i}" for i in range(1, N + 1)], fontsize=16)
        ylabel("log2 Fold Change", fontsize=16)

        return data