研究室‎ > ‎

Python勉強会


Pythonコード

  • coming soon.


各自のPython関係メモ



Python勉強会


勉強会の趣旨

  • Pythonの布教活動.
  • 作ったPythonコードを研究室内で共有できる環境の整備.
  • 研究室内でPythonを使っている人同士で情報を共有する.
    • 有用なアルゴリズム/有用なライブラリ/その他

勉強会の方針

  • 不定期.
  • 参加/発表自由,むしろ歓迎.
    • 話せることがあれば勉強会を開催していく方針で.
    • 逆にこの人にこの話をしてほしい!…というリクエストなんかも歓迎(要交渉).
    • 研究室の人にとって有益そうな話であればどんどんアウトプットして下さい.

開催希望の勉強内容

  • Eclipseでのデバッグなどの使い方(久保木、アン)
  • Google App Engine (久保木、アン)
  • 並列処理の仕方 (久保木 って要望ばっかだな←、アンも)
  • NLTK(アン)
  • reモジュールの使い方(すなわち、正規化のこと)(アン)
    • 正規表現っすね。ちょっと検討しとくー(久保木)

第**回(※予定)

  • テスト駆動開発について
  • unittestの書き方

第**回(※予定)

  • クラスの使い方
  • モジュールや関数単位の管理
  • パッケージ管理

※この間で発表したい人とかいれば歓迎!!

第次回

  • 日経新聞 UTF-8化 → 岡田
  • BCCWJ UTF-8化 → 岩瀬
  • Jaccard係数の計算 → 山形
  • Simpson係数の計算 → 落合
  • Cosine距離の計算 → 林
  • 任意の2語の共起した文を返す → 梶原


第三回(しばらく毎週金曜日4限)


第二回(ページメモ)

  • テーマ
    • 言語処理でなんでSQLを使うか、Pythonでの使い方
  • 目次(予定)
    • 何故言語処理でSQL
      • 言語処理で使うデータの量(MBオーダーはざら、GBとかもありあり)
      • どうやってそのデータを処理するのか
        • そのまま使う? -メモリ問題
        • 毎回読み込む? -初動が遅い
        • そこでDBですよ
      • 言語処理で使うデータの種類
        • 言語の単位-文, 形態素, n-gram
        • 統計量-tf, tfidf
        • 語関係-上位下位関係, カテゴリ, など
      • それらをどのように管理してるか
        • 転置index(とメリット)
        • 単語辞書(とメリット)
      • その他細かい技術
        • データがでかくなりすぎるのでどうにかして小さくしたい-idの符号化など
    • Pythonで使うSQLite3
      • コードの例-読み出し、書き込み、保存、検索
      • 実際に作ってみた-大量の入力文を高速に検索できる状態にする-まあ本当はsuffix arrayとかもあるんだけど……
      • 実際に作ってみた-EDRシソーラスをDBへ
      • 実際に検索してみた-EDRシソーラスから上位語を探す
    • 最後にDBを使う時のお約束
      • テーブル名、カラム名、データ形式(txtなのかintなのか等)の構造と、実際のデータ例は必須
        • 逆にそれさえあれば使えない事もない
      • できればどのように使う事を想定しているか、検索例を提示しよう
      • ここでコード読み会もやってみる予定(サンプルコード持ってきます)
  • アンケート
    • ひとまず目次を作ってみました。他にもこういうことを書いて欲しいというコメントをぜひぜひここに書き込んでくださいー 久保木 2012/02/20
    • という事で説明用ページ作りました 久保木 2012/02/26
  • コメント
    • (注:以下は蛇足です) 真嘉比 2012/02/26
    • 久保木 2012/02/28
      • 次回に任せた!>DB
      • うっかりwindowsでの開発環境説明したらexcelとの連携の説明をする事になってしまった・・・(関係無し)
      • ソースコード追加しました

第一回(PythonStudy_01@makabi)

  • Pythonの概要
    • 開発環境
  • PythonのVersion
    • 研究室のPython環境
  • PythonとNLP
    • 文字コードについて
  • 主な組み込みデータ型等
  • 重宝しているライブラリ等
  • コメント
    • 2012/02/19 久保木
      • ?:疑問 !:気づき
      • ?:開発環境ってどう便利なんだろう
      • ?:研究室だとどれを使った方がいいの
      • !:ページがふってくれると指摘しやすいなっ(笑)
      • !:Python3.*系 print文に()がいる
      • !:文字コード周りのごたごたが少しわかりにくい
        • 2.*系は encode, decodeを繰り返して文字コードのエラーが大量に出る
        • 3.*系だと……?
      • ?:データのコピーに特色がなかったっけ
      • !:内包表記の仕様変更の所、違うところだけ色を変えてくれるとたすかるー
      • !:個々のライブラリが何するものなのか数文字で書いてくれるとスライドだけ見てもわかると思う
      • !:一番最初に、言語処理でどんな時に(どんな風に)使ってるのか、二つ三つ例があると具体的にどう使うかをイメージしながら聞けて飲み込みやすいと思う