run_iris

#!/bin/bash
#
# run the iris pipeline

function parse_arguments() {
  if [[ "$#" -ne 5 ]]; then
    echo "
usage:
  ./run_iris USERNAME RMATS_MATRICES_TAR SCREENING_PARAMS MHC_BY_SAMPLE MHC_LIST

example:
  ./run_iris user matrices.tar.gz job.para hla_patient.tsv hla_types.list
"
    return 1
  fi

  USERNAME="$1"
  RMATS_MATRICES_TAR="$2"
  RAW_SCREENING_PARAMS="$3"
  MHC_BY_SAMPLE="$4"
  MHC_LIST="$5"
}

function get_line_of_file() {
  local LINE_NUM="$1"
  local FILE_NAME="$2"
  local LINE="$(head -n ${LINE_NUM} ${FILE_NAME} | tail -n 1)" || return 1
  echo "${LINE}"
}

function pre_process_inputs() {
  local RAW_DATA_SET_NAME="$(get_line_of_file 1 ${RAW_SCREENING_PARAMS})" || return 1
  local FILTER_1="$(get_line_of_file 2 ${RAW_SCREENING_PARAMS})" || return 1
  local FILTER_2="$(get_line_of_file 3 ${RAW_SCREENING_PARAMS})" || return 1
  local FILTER_3="$(get_line_of_file 4 ${RAW_SCREENING_PARAMS})" || return 1
  local TEST_MODE="$(get_line_of_file 5 ${RAW_SCREENING_PARAMS})" || return 1
  local USE_RATIO="$(get_line_of_file 6 ${RAW_SCREENING_PARAMS})" || return 1

  # The leading underscore is used to distinguish user data sets from reference data sets
  DATA_SET_NAME="_${USERNAME}_${RAW_DATA_SET_NAME}"

  RESULT_DIR="${SCRIPT_DIR}/results/${USERNAME}/${RAW_DATA_SET_NAME}"
  mkdir -p "${RESULT_DIR}" || return 1
  SCREENING_OUT_DIR="${RESULT_DIR}/screening"
  mkdir -p "${SCREENING_OUT_DIR}" || return 1
  RUN_DIR="${RESULT_DIR}/temp"
  mkdir -p "${RUN_DIR}" || return 1

  local IRIS_DATA="${SCRIPT_DIR}/IRIS_data"
  IRIS_DB="${IRIS_DATA}/db/"
  local IRIS_RESOURCES="${IRIS_DATA}/resources"
  MAPPABILITY_PATH="${IRIS_RESOURCES}/mappability/wgEncodeCrgMapabilityAlign24mer.bigWig"
  REF_GENOME="${IRIS_RESOURCES}/reference/ucsc.hg19.fasta"

  # create new param file
  SCREENING_PARAMS="${RESULT_DIR}/job.para"
  echo "${DATA_SET_NAME}" > "${SCREENING_PARAMS}" || return 1
  echo "${IRIS_DB}" >> "${SCREENING_PARAMS}" || return 1
  echo "${FILTER_1}" >> "${SCREENING_PARAMS}" || return 1
  echo "${FILTER_2}" >> "${SCREENING_PARAMS}" || return 1
  echo "${FILTER_3}" >> "${SCREENING_PARAMS}" || return 1
  echo "${TEST_MODE}" >> "${SCREENING_PARAMS}" || return 1
  echo "${USE_RATIO}" >> "${SCREENING_PARAMS}" || return 1
  local BLACKLIST_PATH=""
  echo "${BLACKLIST_PATH}" >> "${SCREENING_PARAMS}" || return 1
  echo "${MAPPABILITY_PATH}" >> "${SCREENING_PARAMS}" || return 1
  echo "${REF_GENOME}" >> "${SCREENING_PARAMS}" || return 1

  # update matrices files to use absolute paths
  cd "${RESULT_DIR}" || return 1
  tar -xf "${RMATS_MATRICES_TAR}" || return 1

  local MATRICES_PATH="${RESULT_DIR}/SJ_matrices"
  cd "${MATRICES_PATH}" || return 1

  local TEMP_F_NAME="$(mktemp)" || return 1
  local FILE_NAME
  for FILE_NAME in matrices.txt samples.txt; do
    mv "${FILE_NAME}" "${TEMP_F_NAME}" || return 1
    local LINE
    while read LINE; do
      echo "${MATRICES_PATH}/${LINE}" >> "${FILE_NAME}" || return 1
    done < "${TEMP_F_NAME}"
  done
  rm "${TEMP_F_NAME}" || return 1

  cd "${SCRIPT_DIR}" || return 1

  RMATS_MAT_PATH_MANIFEST="${MATRICES_PATH}/matrices.txt"
  RMATS_SAMPLE_ORDER="${MATRICES_PATH}/samples.txt"
}

function formatting_step() {
  echo
  echo "formatting"

  cd "${RUN_DIR}" || return 1

  local SAMPLE_NAME_FIELD='2'
  local SPLICING_EVENT_TYPE='SE'

  IRIS formatting "${RMATS_MAT_PATH_MANIFEST}" "${RMATS_SAMPLE_ORDER}" -s "${SAMPLE_NAME_FIELD}"\
       -d "${IRIS_DB}" -t "${SPLICING_EVENT_TYPE}" -n "${DATA_SET_NAME}" || return 1
}

function screening_step() {
  echo
  echo "screening"

  cd "${RUN_DIR}" || return 1

  IRIS screening "${SCREENING_PARAMS}" -t -o "${SCREENING_OUT_DIR}" || return 1
}

function find_and_execute_qsub_commands_in_file() {
  local IN_FILE="$1"

  local QSUB_CMDS=()
  local LINE
  while read LINE; do
    local GREP_RES="$(echo ${LINE} | grep '^qsub.*\.sh$')"
    if [[ -n "${GREP_RES}" ]]; then
      QSUB_CMDS+=("${LINE}")
    fi
  done < "${IN_FILE}"

  if [[ "${#QSUB_CMDS[@]}" == 0 ]]; then
    echo "could not find any qsub commands"
    return 1
  fi

  echo
  echo "executing qsub commands"

  local SUBMIT_AND_WAIT_PY="${SCRIPT_DIR}/qsub/submit_qsub_and_wait.py"
  local TEMP_F_NAME="$(mktemp)" || return 1

  for QSUB_CMD in "${QSUB_CMDS[@]}"; do
    echo "${QSUB_CMD}" >> "${TEMP_F_NAME}"
  done

  echo "execute: ${PYTHON_3_EXECUTABLE} ${SUBMIT_AND_WAIT_PY}"
  echo "with qsub commands:"
  cat "${TEMP_F_NAME}"

  "${PYTHON_3_EXECUTABLE}" "${SUBMIT_AND_WAIT_PY}" "${TEMP_F_NAME}" || return 1

  rm "${TEMP_F_NAME}" || return 1
}

function prediction_step() {
  echo
  echo "prediction"

  cd "${RUN_DIR}" || return 1

  local TEMP_F_NAME="$(mktemp)" || return 1

  local DELTA_PSI_COLUMN='5'
  local IEDB_DIR="${SCRIPT_DIR}/IEDB/mhc_i/src"

  # TODO --iedb-local should be required=True
  IRIS prediction "${SCREENING_OUT_DIR}" -c "${DELTA_PSI_COLUMN}" -m "${MHC_LIST}"\
       -p "${SCREENING_PARAMS}" --iedb-local "${IEDB_DIR}"\
       > "${TEMP_F_NAME}" || return 1

  cat "${TEMP_F_NAME}" || return 1

  find_and_execute_qsub_commands_in_file "${TEMP_F_NAME}" || return 1
  rm "${TEMP_F_NAME}" || return 1
}

function epitope_post_step() {
  echo
  echo "epitope_post"

  cd "${RUN_DIR}" || return 1

  # TODO -e is actually not required?
  IRIS epitope_post -p "${SCREENING_PARAMS}" -o "${SCREENING_OUT_DIR}"\
       -m "${MHC_BY_SAMPLE}" || return 1
}

function screening_plot_step() {
  echo
  echo "screening_plot"

  cd "${RUN_DIR}" || return 1

  local IN_PREFIX="${SCREENING_OUT_DIR}/${DATA_SET_NAME}"
  local PRIMARY_IN="${IN_PREFIX}.primary.txt"
  local PRIORITIZED_IN="${IN_PREFIX}.prioritized.txt"

  local OUT_PREFIX="${RESULT_DIR}/violin"
  local PRIMARY_OUT="${OUT_PREFIX}_primary"
  local PRIORITIZED_OUT="${OUT_PREFIX}_prioritized"

  cut -f 1 "${PRIMARY_IN}" | tail -n +2 > "${PRIMARY_OUT}" || return 1
  cut -f 1 "${PRIORITIZED_IN}" | tail -n +2 > "${PRIORITIZED_OUT}" || return 1

  IRIS screening_plot "${PRIMARY_OUT}" -p "${SCREENING_PARAMS}" || return 1
  IRIS screening_plot "${PRIORITIZED_OUT}" -p "${SCREENING_PARAMS}" || return 1
}

function set_python3_executable() {
  # Need to use Python3 for submit_qsub_and_wait.py.
  # Also need to have the Python2 conda environment to run IRIS.
  # Get the Python3 path and then go back to the Python2 environment
  conda::activate_env "${CONDA_ENV_NAME_3}" || return 1

  PYTHON_3_EXECUTABLE="$(which python)" || return 1

  conda::deactivate_env || return 1
}

function main() {
  source set_env_vars.sh || return 1
  source conda.sh || return 1

  SCRIPT_DIR="$(pwd)"
  export PATH="${PATH}:${SCRIPT_DIR}/bedtools/bedtools2/bin"

  set_python3_executable || return 1
  parse_arguments "$@" || return 1
  pre_process_inputs || return 1

  conda::activate_env "${CONDA_ENV_NAME_2}" || return 1

  formatting_step || return 1
  screening_step || return 1
  prediction_step || return 1
  epitope_post_step || return 1
  screening_plot_step || return 1

  conda::deactivate_env || return 1
}

main "$@"