ARC104 B - DNA Sequence
備忘録
問題
回答
import sys import os import math import bisect import itertools import collections import heapq import queue import array # 時々使う # from scipy.sparse.csgraph import csgraph_from_dense, floyd_warshall # from decimal import Decimal # from collections import defaultdict, deque # 再帰の制限設定 sys.setrecursionlimit(10000000) def ii(): return int(sys.stdin.buffer.readline().rstrip()) def il(): return list(map(int, sys.stdin.buffer.readline().split())) def fl(): return list(map(float, sys.stdin.buffer.readline().split())) def iln(n): return [int(sys.stdin.buffer.readline().rstrip()) for _ in range(n)] def iss(): return sys.stdin.buffer.readline().decode().rstrip() def sl(): return list(map(str, sys.stdin.buffer.readline().decode().split())) def isn(n): return [sys.stdin.buffer.readline().decode().rstrip() for _ in range(n)] def lcm(x, y): return (x * y) // math.gcd(x, y) MOD = 10 ** 9 + 7 INF = float('inf') def main(): if os.getenv("LOCAL"): sys.stdin = open("input.txt", "r") N, S = sl() N = int(N) ret = 0 at, cg = 0, 0 counter = collections.defaultdict(int) counter[(0, 0)] = 1 for s in S: if s == 'A': at += 1 if s == 'T': at -= 1 if s == 'C': cg += 1 if s == 'G': cg -= 1 ret += counter[(at, cg)] counter[(at, cg)] += 1 print(ret) if __name__ == '__main__': main()
考え方
連続した文字列から、条件に一致する部分文字列を探索する問題です。
文字の出現回数をカウントすることで回答を求めることが出来ます。
- 回答概要
- 先頭から文字の出現回数をカウントする
- 出現する文字列の分布を取り、累積して回答を求める
まず、相補的な文字列を作ることができる文字列T
について考えます。
相補的な文字列とは、2つの文字列の同じ位置に(A, T)
または'(C, G)
のペアが存在している状態です。
例:AT
と相補的な文字列はTA
、ATCG
と相補的な文字列はTAGC
また、相補的な文字列は元の文字列T
を並び替えて作る必要があります。
このことから、少なくともペアとなる文字の組が必要であり、
かつ、同じ数だけ存在している必要です。
(ペアの文字列(例えばA
とT
)の数が異なる場合、相補的な文字列を作ることができない)
そのため、条件はAの数 = Tの数
かつCの数 = Gの数
となっている文字列のみ相補的な文字列が存在します。
以上の条件を満たす文字列を、与えられたS
から探索します。
探索には、累積和を用います。
先頭からペアとなる文字の出現回数を累積して、
各組み合わせが出現する分布を求めます。
後は同じ組み合わせの累積和から回答を得ることが出来ます。