次世代Webアーカイブを作成しました

次世代WebアーカイブはWebページのクロール結果にデジタル署名を施すことで、サービス外にデータを移したとしても有効な証拠であり続ける新しいWebアーカイブサービスです。

従来のWebアーカイブサービスは収集結果をWebサービス上で提供することで証拠としての機能を提供してきました。

しかし、Webサービスが終了してしまえば、それらの証拠は失われることになります。

仮にユーザーがアーカイブを手元で保管しようとしても、ユーザーの手元に渡った時点で改ざんの疑いが生じるため証拠の効力が失われてしまいます。

このサービスではリクエストされたURLの記録と同時にデジタル署名を付加することで、サーバーで作成された時点から改ざんが行われていないことを保証し、ユーザーの手元でも証拠の効力を維持できるようにしました。

アーカイブ手法はInternet Archive (archive.org)で実際に使用されているWARCファイルフォーマット(ISO 28500:2009)に準拠しています。

デジタル署名はOpenPGP(RFC 4880)の実装の一つ、GnuPGを用いて作成しています。

署名鍵は Info Labs Archive (2017 4096 bits) (keyid=728AA3B54479F3F4) になります。

デジタル署名用の検証ツールも用意しました。

アーカイブはhttps://github.com/ikreymer/pywbなどを用いて閲覧することが出来ます。

GUIのアーカイブビューアについては現在鋭意製作中です。

参照

more ...

SEPSpeechTools v0.0.1を公開しました

SEPSpeechToolsは文章の母音数を算出するソフトウェアです。

mainwindow.png

従来のソフトウェアでは、文章を読み上げる際の長さを文字数から概算することしかできませんでした。

読み上げる長さに直接影響を与える要素としてはよみがなの長さが考えられます。

よみがなを母音数とみなし、文字数とともに算出するのがこのツールです。

辞書について

mecab-ipadic-NEologdと呼ばれる、最新の単語等を網羅した辞書を用いることで高精度なよみがな取得を実現しています。

しかし、あくまで統計的手法で処理が行われるため、完全に正しいよみがなを返すわけではありません。 登録されていない新しい単語や専門用語などでは誤った読みを取得することがあります。

これについては付属する辞書登録ツールを用いて単語登録を行うことで正しいよみがなを割り当てることができます。

また、同表記異音語では異質な読み方で読みを取得することがあります。 これについては辞書登録では改善することができないため、算出誤差として目をつぶっていただけると助かります。 (辞書登録で優先しても、別の読みをするところで登録されたものが優先されてしまい、あちらを立てればこちらが立たず、といった感じになります。。)

利用について

このツールはテキストエディタとして用いることを推奨しません。 テキストの変更ごとにテキストの解析処理が行われるため、重要な文章を計測にかける際は文章のバックアップをとった上で使用してください。

このツールを使用したことで生じた損害等は作者及びディベート情報研究所は一切関知しません。 全て自己責任でご使用ください。

ライセンスはGPLv3の下で開発されていますので、どなたでも自由にお使いいただけます。 ただし、付属する辞書や音声合成機能につきましては、ライセンスの取り扱いに注意する必要があります。

詳しくは付属のhelp.htmlをお読みください。

参照

more ...