-
科学ニュース+
-
【AI/画像処理/古文書】AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発[07/12]
-
UPLIFTで広告なしで体験しましょう!快適な閲覧ライフをお約束します!
AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発(記事全文は、ソースをご覧ください。)
https://pc.watch.imp...cs/news/1195499.html
2019年7月11日 12:12
PC Watch,Impress,インプレス,笠原 一輝
【科学(学問)ニュース+】
https://pc.watch.imp...s/1195/499/001_l.jpg
(画像)くずし字で書かれた古文書を手に持つ情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏
Googleは都内のオフィスにおいて、「Solve....with AI」というアジア太平洋地域の記者などを集めたイベントを開催し、Google Cloud Platform(GCP、Googleのパブリッククラウドサービス事業)などを通じて提供している各種のAIサービスやTensorFlowなどの機械学習(マシンラーニング)ベースのAIを開発するツールなどのソリューションや、その具体的な利用事例などを紹介した。
このなかで、情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター特任研究員および国立情報学研究所のタリン・カラーヌワット氏は、日本語の古文書で一般的に使われている「くずし字」を自動で読み取って現代語に翻訳(正確には翻刻)するOCR「KuroNet」を開発し、Webブラウザ上で実行可能な機械学習ライブラリとなるTensorFlow.jsとしてくずし字の文字認識が可能になるようにしたと説明した。
【お詫びと訂正】本AIの開発にはGoogleの技術も用いられていますが、AI自体をGoogleが開発したと誤解を招く表現がありましたので、お詫びして訂正させていただきます。また、このプロジェクトの作業内容は正確には翻訳ではなく翻刻と呼ぶのが正しいので、その旨付記をいたしました。
・百数十年前までは皆が読めていた「くずし字」。今は人口の0.01%以下しか読めないという現実
https://pc.watch.imp...s/1195/499/002_l.jpg
(画像)くずし字と現代語、確かに現代人からすると日本語なのに読めない
7月10日にGoogleの東京オフィスで行なわれたイベントに登壇した情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏は、「日本では1千年にわたりくずし字という筆記体の文字を使ってきた。しかし、現代の印刷システムではそれを使うことは難しく、20世紀に入って現代語へと変換が進められてきた。その結果、くずし字で書かれた数百万の古文書や古書が現存するが、それらは人口の0.01%以下の人しか読むことができない」という問題を指摘した。
https://pc.watch.imp...s/1195/499/003_l.jpg
明治時代に印刷システムの要求から筆記体のくずし字から現代語への転換が図られた
たとえば江戸時代の古典籍はくずし字と呼ばれる筆記体の日本語で書かれている。文法などは現代語と大きな違いはない(厳密に言うと主語が省略されることが多いなど微妙な違いはある)のだが、そもそも文字が識別できないので読めないという問題がある。
https://pc.watch.imp...s/1195/499/004_l.jpg
(画像)数百万のくずし字で書かれた古文書があるのに人口の0.01%以下の人しか読めないという現実
大学などで専門に歴史を研究している研究者であれば、まずはそのくずし字に関して勉強をして読めるようになる(つまり0.01%以下の1人になる)だろうが、民間の研究者が歴史について学び、研究したいと考えて、1次資料である古文書を読もうとしても、まずはこの「くずし字」が読めないというハードルがある。
■■以下、略 - コメントを投稿する
-
読めないようにしてきたんじゃないかね
-
タリン・カラーヌワット女史
タイ生まれ、若い時によんだあさきゆめみしを見て源氏物語にぞっこん
日本語学科を通して日本に留学、くずし字を勉強するも挫折するが
自分で書いてみれば習得できるのではと思いつき、実際に書くことで
くずし字を習得する -
くずし字の変体仮名は似た字が多いけどちゃんと区別できてるならすごいな
-
>>3
ネトウヨホルホル? -
何処で翻訳してくれるんだよ
-
>>5
パヨクって日本語しか話せないから日本から出て行けと言われたら自殺するしかないんだね -
まあ 読めるようになるのはいいけど 一般人が閲覧できるように
しっかりなるかが課題だな 日本はそこが弱いし 隠す傾向が強いwwww
しっかりオープンソースでそうして欲しいねw
わたしからは以上だな ミカエル(悟ったもの)より。 -
直接英訳した方が早そうだな
-
>>2
権威主義の専門家が自己の読み間違えを理屈こねて正当化定着とかさせちゃったりしてきたからね。 -
俺んちもそんな巻物があるんだけど解読できなくてなあ
とにかく在野の歴史マニア歓喜だろ -
くずし字って英語の筆記体みたいなもんだろ
-
>>1
一般公開されれば、いずれ神田の古書街が大にぎわいになるな -
一回だけ、この研究員の得意技である松葉くずしをやってみたい。
-
棋士vs将棋ソフトみたいに磯田vs翻訳ソフトを
-
英語も筆記体見なくなったよな
-
>>3
素晴らしい。 -
変態少女
-
狂喜乱舞って久々に聞いた
-
すごいなAI。翻訳ツールが何を開発したのか気になる
-
昔の人はよく読めてたなってほんと思う
-
すごいけど日本語で外国人に先越されるなんて日本人なにやってんだよほんと
-
これは素晴らしい
文化勲章を差し上げたい -
これは素晴らしい、でもこれは文字を解析しただけで翻訳と言えるのだろうか
次は本当の意味での翻訳だな -
地味だけどこれは素晴らしい技術ですね
過去の資産を十分に生かせるようになる
焚書したり文字を捨てたりする国は滅ぶ -
古文書片っ端から解読して青空文庫に上げてほしい。
で口語訳もAIでやってできるようにして。
で、それらの成果物の著作権とかはどうなるんかな。 -
日本人研究者は日本語をAIで解読することを邪道と思ってたとか?
あるいは文系研究者はAIで何ができるかわかっていなかったとか
ありがちな話だけどどーなの -
ネットの認証セキュリティで日本語のくずし字を記入するサイトがあるけれども
あれもやっぱり近い将来にAIに判読されそうだな -
明治大正時代の外交文書なんか見てても
官僚が墨で自筆で書いたものは判読が結構厳しい
活字印刷は隔世の感があるね -
>>32
どっちかいうと後者じゃないかなぁ -
欲しい!
今欲しい! -
これが正しいAIの使い方だな。
ただ、10年位英翻訳があのままなの見ると絶望だが -
現代日本人が読めなくなったくずし字をタイ人が解決するって面白いなぁ
読めないから書くところから始めるとか
めっちゃ地味だけどほんとに好きなんだろうな
感謝 -
>>25
おまえは部屋から出ろ。 -
韓国は漢字を廃止したから過去の文献を読めないなんてのはウソだから
韓国人だって専門家は読める
また日本人だって専門家しか過去の文献は読めない -
磯田道史がダメ出しの嵐
-
AIといっても、
大量の古文書の画像データを集めて、マッチングしたものを現代語に変換する、
そんな総当たり的なやり方なんでしょ? -
ぶっちゃけ、本能寺で信ちゃんやったの、俺なんだよねwww
竜馬、すまん。暗殺の首謀者な、実は俺、的な大発見来るか?? -
そういえば、英語の筆記体も、知ってるのは日本人くらいらしいな。
ネイティブは筆記体でなんか書かないし、読めない。 -
解読する必要性を教えてくれ
-
これで戦国の世にタイムスリップしても一安心だ
-
アホには翻訳後の翻訳が必要なんだが
-
>>43
だから? -
くずし字読む入門書買ったことあるけどすぐ挫折した
崩し方の幅がありすぎ -
日本ファンのタイ人研究者さん、ありがとう。
-
マイルドな暗号通信に使えるかな
-
>>32
日本語は 漢字 ひらがな カタカナ English 0123...9 などから成る
英語は 0123...9 abc...z ABC...Z と少ない
そして現在の書かれた文字の認識は統計アルゴリズム、つまり数学によって実装されている
数学的には、分類する種類の数が大きいほど指数関数的にサンプルデータ必要です
つまり数が必要だったから現実的じゃなかった -
文字を判読できるのと意味がわかるのはまた別だからな
今では使わない単語や別の意味で使っている単語があるから
現代語に翻訳する機能も必要 -
ど素人の大量参入により
日本史学会壊滅w -
アラビア語翻訳システム作ってくれよ
-
狂喜乱舞ってバカじゃねえか
日本の学界はなーーーんにもやってこなかったんだろ
なんでガイジンに先越されてんだ
ほんとうにバカの集まりだから学会なんて解体しろよ -
グーグルドキュメントのOCR精度はここ数年で眼を見張るほど上がって行ってるからな
どんどん便利になるなあ -
>>7 J( 'ー`)し「出ていけ。」
-
古文書って古民家に結構眠ってるけど状態悪いと引き取り手は無いし
修復するのに金も掛かるんで結局ゴミとして捨てられることが多い -
しかし、考えてみると人間の分析能力ってすごいよな。
個人ごとに癖があって異なっている崩し字を昔の日本人は何の苦労もすることなく
スラスラ読めていたんだから。 -
これで古文書の研究者が失業するのか?
だとしたら大きな改善になるな -
昔は読み書きできた人はごく一部の気がする
-
>百数十年前までは皆が読めていた「くずし字」。
識字率凄いな
>今は人口の0.01%以下しか読めないという現実
人数として十分じゃね? -
破顔
-
>>70
江戸時代は89%超えだよ -
春画で試してみたい
-
マジすげぇ
読める人かなり希少だから今読める人の仕事奪わないし、解読する時間を研究に回せるし、マジすげぇ -
>>18
「紅葉合わせ」って「貝合わせ」のこと?? -
素人目に圧倒的に凄い。だって読めないもん。
むしろ素人向きな気がする。
プロにとっては稀にある読み取りミスが鬱陶しいだろなぁ。
ちょっとでも誤りがあると全部チェックするしかないしかなりしんどい。
変に文脈・単語から修正とかすると意味が正反対になったりしそう。 -
すげえな
ありがたい -
唯一座学分野でこれだけは母親に負けてるわ。
あの糞ババア草書書けるからな。 -
女手のひらがな自体草書で崩した書体の表音文字化に過ぎんからな。
-
崩し字と只単に字が汚い場合の区別もつきそうだなw
-
古文書解読習得アプリって、これまでも出ていたよね。
-
タリン・カラーヌワット女史じゃねえよ!
-
手書きハングルも読みにくい。
-
磯田先生も愛用
-
なんでも鑑定団ご推薦だといいが
-
>>3
タイ語って読み書きするのがかなり難しいんだよね
文字の発音に法則はあるけど、「結局スペルを丸ごと覚えた方が早い」
とまで言われる
タイ人って特に女性は物凄く勉強するからなあ
そしてハイテクの使いこなしもかなり強い -
昔の知識層は達筆すぎてなぁ
全く歯が立たん -
ちょいちょい間違えてるな
https://www.nihu.jp/...on/nihu_magazine/037
https://pc.watch.imp...s/1195/499/002_l.jpg
1行目 給は → 給ける
6行目 更し → 更衣
7行目 みやづか人 → みやづかへ
7〜8行目 うちみを → うらみを
9行目 いよく →いよいよ -
この一人の名前見て
ぬわーーっっ!!
を思い出した人は結構いるはず -
更科日記みたいな…でもないか
↑今すぐ読める無料コミック大量配信中!↑