ARC104 B - DNA Sequence

備忘録

問題

atcoder.jp

回答

import sys
import os
import math
import bisect
import itertools
import collections
import heapq
import queue
import array

# 時々使う
# from scipy.sparse.csgraph import csgraph_from_dense, floyd_warshall
# from decimal import Decimal
# from collections import defaultdict, deque

# 再帰の制限設定
sys.setrecursionlimit(10000000)


def ii(): return int(sys.stdin.buffer.readline().rstrip())
def il(): return list(map(int, sys.stdin.buffer.readline().split()))
def fl(): return list(map(float, sys.stdin.buffer.readline().split()))
def iln(n): return [int(sys.stdin.buffer.readline().rstrip())
                    for _ in range(n)]


def iss(): return sys.stdin.buffer.readline().decode().rstrip()
def sl(): return list(map(str, sys.stdin.buffer.readline().decode().split()))
def isn(n): return [sys.stdin.buffer.readline().decode().rstrip()
                    for _ in range(n)]


def lcm(x, y): return (x * y) // math.gcd(x, y)


MOD = 10 ** 9 + 7
INF = float('inf')


def main():
    if os.getenv("LOCAL"):
        sys.stdin = open("input.txt", "r")

    N, S = sl()
    N = int(N)

    ret = 0
    at, cg = 0, 0
    counter = collections.defaultdict(int)
    counter[(0, 0)] = 1
    for s in S:
        if s == 'A':
            at += 1
        if s == 'T':
            at -= 1
        if s == 'C':
            cg += 1
        if s == 'G':
            cg -= 1
        ret += counter[(at, cg)]
        counter[(at, cg)] += 1
    print(ret)


if __name__ == '__main__':
    main()

考え方

連続した文字列から、条件に一致する部分文字列を探索する問題です。
文字の出現回数をカウントすることで回答を求めることが出来ます。

  • 回答概要
    • 先頭から文字の出現回数をカウントする
    • 出現する文字列の分布を取り、累積して回答を求める

まず、相補的な文字列を作ることができる文字列Tについて考えます。
相補的な文字列とは、2つの文字列の同じ位置に(A, T)または'(C, G)のペアが存在している状態です。
例:ATと相補的な文字列はTAATCGと相補的な文字列はTAGC
また、相補的な文字列は元の文字列Tを並び替えて作る必要があります。

このことから、少なくともペアとなる文字の組が必要であり、
かつ、同じ数だけ存在している必要です。
(ペアの文字列(例えばAT)の数が異なる場合、相補的な文字列を作ることができない)
そのため、条件はAの数 = Tの数かつCの数 = Gの数となっている文字列のみ相補的な文字列が存在します。

以上の条件を満たす文字列を、与えられたSから探索します。
探索には、累積和を用います。
先頭からペアとなる文字の出現回数を累積して、
各組み合わせが出現する分布を求めます。
後は同じ組み合わせの累積和から回答を得ることが出来ます。