counting the number of residues in a file

Question

I have a file as follows. I would like to count the number of each character.

>1DMLA
MTDSPGGVAPASPVEDASDASLGQPEEGAPCQVVLQGAELNGILQAFAPLRTSLLDSLLVMGDRGILIHNTIFGEQVFLP
LEHSQFSRYRWRGPTAAFLSLVDQKRSLLSVFRANQYPDLRRVELAITGQAPFRTLVQRIWTTTSDGEAVELASETLMKR
ELTSFVVLVPQGTPDVQLRLTRPQLTKVLNATGADSATPTTFELGVNGKFSVFTTSTCVTFAAREEGVSSSTSTQVQILS
NALTKAGQAAANAKTVYGENTHRTFSVVVDDCSMRAVLRRLQVGGGTLKFFLTTPVPSLCVTATGPNAVSAVFLLKPQK
>1DMLB
DDVAARLRAAGFGAVGAGATAEETRRMLHRAFDTLA
>2BHDC
MTDSPGGVAPASPVEDASDASLGQPEEGAPCQVVLQGAELNGILQAFAPLRTSLLDSLLVMGDRGILIHNTIFGEQVFLP
LEHSQFSRYRWRGPTAAFLSLVDQKRSLLSVFRANQYPDLRRVELAITGQAPFRTLVQRIWTTTSDGEAVELASETLMKR
ELTSFVVLVPQGTPDVQLRLTRPQLTKVLNATGADSATPTTFELGVNGKFSVFTTSTCVTFAAREEGVSSSTSTQVQILS

I tried the following code.

awk '/^>/ { res=substr($0, 2); } /^[^>]/ { print res " - " length($0); }' <file

The output of the above code is

1DMLA - 80
1DMLA - 80
1DMLA - 80
1DMLA - 79
1DMLB - 36
2BHDC - 80
2BHDC - 80
2BHDC - 80

My desired output is

1DMLA - 319
1DMLB - 36
2BHDC - 240

How do I change the above code for getting my desired output?

Best to avoid `< file`. You will loose access to some built-ins like `FILENAME` for example. — Steve, Jun 18 '14 at 07:55

score 0 · Answer 1 · edited May 23 '17 at 11:57

This way:

awk -F\> '/^>/ {if (seqlen != ""){print seqlen}printf("%s - ",$2);seqlen=0;next}seqlen != ""{seqlen +=length($0)}END{print seqlen}' infile

Or formatted:

awk -F\> '/^>/ { if (seqlen != "")
                    print seqlen
                 printf("%s - ",$2)
                 seqlen=0
                next } 
          seqlen != ""{seqlen+=length($0)}
          END{
             print seqlen}' infile

see: Sequence length of FASTA file

Apart from the expected result, this will handle these unexpected file formats.

$ cat infile
MTDSPGGVAPASPVEDASDASLGQPEEGAPCQVVLQGAELNGILQAFAPLRTSLLDSLLVMGDRGILIHNTIFGEQVFLP
LEHSQFSRYRWRGPTAAFLSLVDQKRSLLSVFRANQYPDLRRVELAITGQAPFRTLVQRIWTTTSDGEAVELASETLMKR
ELTSFVVLVPQGTPDVQLRLTRPQLTKVLNATGADSATPTTFELGVNGKFSVFTTSTCVTFAAREEGVSSSTSTQVQILS
NALTKAGQAAANAKTVYGENTHRTFSVVVDDCSMRAVLRRLQVGGGTLKFFLTTPVPSLCVTATGPNAVSAVFLLKPQK
>1DMLB
>2BHDC
MTDSPGGVAPASPVEDASDASLGQPEEGAPCQVVLQGAELNGILQAFAPLRTSLLDSLLVMGDRGILIHNTIFGEQVFLP
LEHSQFSRYRWRGPTAAFLSLVDQKRSLLSVFRANQYPDLRRVELAITGQAPFRTLVQRIWTTTSDGEAVELASETLMKR
ELTSFVVLVPQGTPDVQLRLTRPQLTKVLNATGADSATPTTFELGVNGKFSVFTTSTCVTFAAREEGVSSSTSTQVQILS


$ awk -F\> '/^>/ {if (seqlen != ""){print seqlen}printf("%s - ",$2);seqlen=0;next}seqlen != ""{seqlen +=length($0)}END{print seqlen}' kk2
1DMLB - 0
2BHDC - 240

score 0 · Accepted Answer · answered Jun 18 '14 at 07:54

0

Here's one way using awk:

awk '/^>/ && r { print r, "-", s; r=s="" } /^>/ { r = substr($0, 2); next } { s += length } END { print r, "-", s }' file

Results:

1DMLA - 319
1DMLB - 36
2BHDC - 240

answered Jun 18 '14 at 07:54

Steve

51,466
13
89
103

score 0 · Answer 3 · answered Jun 18 '14 at 08:08

0

awk -vRS='>' '$1{gsub( "[\r]", "",$1 ); 
              printf "%s - %d\n", $1, length($0) - length($1) - NF + 1}' input

answered Jun 18 '14 at 08:08

perreal

94,503
21
155
181

Could you elaborate a little on what changes you made and how that works for future reference? – John Willemse Jun 18 '14 at 08:32

counting the number of residues in a file

3 Answers3