===== 整文 ===== 整文とは、話し言葉を書き言葉に修正する作業のこと。自然言語処理では、「話し言葉の書き言葉への変換」などと表現される場合もある。 本ページでは、関連するケバ取りについても触れる。 === 整文の内容 === 下記参考文献[1]を参考にしてまとめました。 * 追加 * 省略や脱落表現 * 削除 * 無機能語(フィラー等)、言いさし、ひとり言 * 口癖(なかなか、など) * 重複した表現 * 変換 * 方言を共通語に * 助詞誤り * 修正 * 主語と述語の不一致を修正 * 倒置の修正 === ケバ取り === ケバ取りとは、「あのー」「えーと」などのケバ(フィラーとも呼ばれる)を削除する作業。 === 参考文献 === * [1] [[http://www.takamaruzemi.com/wp-content/uploads/64378953653f46e9615533f773f09db1.pdf|規模の異なる自治体における地方議会会議録の整文の比較]] * [2] [[https://www.jstage.jst.go.jp/article/jajls/9/2/9_KJ00008440177/_pdf/-char/ja|国会会議録はどれほど発言に忠実か? : 整文化の実態を探る]] * [3] [[https://www.jstage.jst.go.jp/article/jnlp/28/4/28_1034/_pdf/-char/ja|日本語話し言葉書き言葉変換による大学講義の日英翻訳の精度向上]]