機械翻訳を「真の翻訳」に近づける研究の世界
機械翻訳(MT)の技術は、翻訳を「起点言語のテキストを目標言語のテキストに変換する問題」とみなして研究されてきた。しかし実際には、テキストが表す内容が等価であるだけでは翻訳とはなりえない。例えば、製品のマニュアルや特許の出願書類、企業のプレスリリースなどを翻訳する場合、対象分野の慣習、既存の用語の訳出方法、掲載媒体に応じて定められた句読法の仕様など、テキストの外側にある情報を適切に参照する必要がある。
MT技術の(テキスト変換の意味での)品質の向上に伴い、産業としての翻訳の現場においても、MTの出力を人間が修正して納品する、という作業工程が用いられるようになってきた。この修正の過程では、(1)MTによるテキスト変換の誤訳の修正と(2)テキストの外側の情報に照らした修正という2種類の修正がなされる。
私は、ニュース記事の英日翻訳を題材としてMTの修正事例を収集し、正しい訳出のために参照すべきテキストの外側の情報の種類を分析した。これらは表に示す4種類に大別される。
(a)は文字の使い分けの必要性を示す例だが、他にも語句、句読法、記号の用法など、細かい仕様に従う必要がある。(b)のMT訳は正しそうに見えるが、ローマ教皇に関する記事であったため、既訳に修正された。(c)は米大リーグの投手の戦績についての言及であったため、点数ではなく勝敗が正しい。(d)は起点文書中の表現の曖昧性(兄か弟か)を解消できなかった例である。修正担当者は、言及されている人物に関する(信頼できる)文書を入手することで初めてこの曖昧性を解消できた。
MTを真の翻訳に近づけるべく、私たちは現在、このような情報を適切に参照する技術について研究を進めている。
日刊工業新聞2021年11月9日