EPO序列表資料:1989年迄今的大批量資料現在上架

序列表資料是EPO歐洲專利局提供的大批量資料集(bulk data sets)之一,此資料集內含EPO從最新公開的歐洲、Euro- PCT及PCT申請案取得的核苷酸和氨基酸序列。所謂的「序列表」是指使用規定詞彙(即特定特徵規定使用的術語)表示的生物序列列表, 一般而言,如果專利申請案揭露核苷酸/氨基酸序列,說明書就必須記載序列表(台灣專利法施行細則第17條第6項亦有相關規定)。

大多數專利局現在都要求申請人以標準化的電子格式(目前是WIPO ST.25)提交序列表,但在過去,序列表可用多種格式提交,包括紙本。

EPO於2012年開始每周發布序列表檔案,直到最近,才以2012年為起點推出回溯資料(backfile)。不過,EPO內部資料庫內的text格式序列表,時間最早可以追溯至1989年。

EPO現在已從內部資料庫中提取出所有的序列。回溯資料的格式僅限獨立成頁的可機讀文件,不含專利說明書文本中的資料字串,EPO將這些資料重新格式化與標記,因此資料已非申請人最初提交的原始版本。

目前上架的序列表資料最新截至2018年底,全以.txt格式提供。如需更多資訊,請見epo.org/searching-for-patents/ data/bulk-data-sets/sequence-listing

本文編譯自EPO Patent Information News 2019年第1期