Skip to content

otimização do espaço de armazenamento (output do modkit)

Atualmente o modkit parece consumir muito espaço quando gera o output, principalmente os arquivos .tsv:

  • Considerar a implementação do parâmetro [--bgzf] para comprimir o output; Referência no Modkit Docs
  • Considerar realizar o step do modkit em outro local (como o servidor de armazenamento LSA).

INFO: No RStudio (IDE para a linguagem R) geralmente usamos o pacote NanoMethViz para gerar uma análise sobre os dados de modificações. Nesse sentido, o pacote requer um input em "tabix" através da função create_tabix_file() que utiliza um arquivo .tsv comprimido através do bgzip como no exemplo abaixo retirado da documentação do NanoMethViz:

# create a temporary file to store the converted data
methy_tabix <- file.path(tempdir(), "methy_data.bgz")
samples <- c("sample1", "sample2")

# you should see messages when running this yourself
create_tabix_file(methy_calls, methy_tabix, samples)

# you don't need to do this with real data
# we have to use gzfile to tell R that we have a gzip compressed file
methy_data <- read.table(
    gzfile(methy_tabix), col.names = methy_col_names(), nrows = 6)

methy_data

Talvez aqui seria importante considerar implementar o parâmetro --region para as samples de sangue atuais dos humanos durante o modkit extract full, conforme indicado na documentação. Isso por que seria possível extrair apenas os dados para o genoma mitocondrial (chrMT) o que reduziria imensamente o tamanho dos .tsv, visto que o genoma mitocondrial tem apenas ~16,5KB enquanto o genoma humano inteiro possui ~3GB.

Edited by João Henrique Chrusciel