Rubyの会社をPerlの会社に変えてしまおう計画。 Golangのフリをして忍び込ませれば行けるのではという話になったので、 GoでもPerlでも実行できるコードを書いてみた。
出来上がったのがこちら。
package main; import ("fmt"); var (s=0/*==); sub import {} sub var { print "Hello macotasu"; } __END__ */) func main() { fmt.Println("Hello macotasu") } 一番のポイントはvar (s=0/*==);の行ですね。 Perlで解釈すると正規表現置換s///として解釈され、/*が無視されます。 Goで解釈すると変数sへの代入として解釈され、/*がコメントとして扱われます。
あとはGoのキーワードをPerlが解釈できないので、ちょっと書き方を工夫します。
package main はGoでもPerlでも似たような意味で解釈されるのでそのまま Goの import, var はPerlで解釈できないので、()を省略せずに書いてPerlの関数呼び出しっぽくする 省略可能なセミコロンをちゃんと書く GoとPerlのコードは分かれているのでどんな処理でも自由に書くことができますが、 import だけGoでもPerlでも解釈されてしまうというという制限があります。 import するパッケージが一個だけなら問題ないんですが、 複数書く場合は以下のように2個め以降をすべてドットインポートする必要があって男気あふれる感じです。 (Perlでは文字列結合として解釈される。Goではvarのあとにimportかけないっぽいので、ここに押し込むしかない。)
package main; import ( "fmt" . "math" ); var (s=0/*==); sub import {} sub var { print "Hello macotasu"; } __END__ */) func main() { fmt.
読者の持っている至って普通のコンピューターは、実は電波時計の時刻合わせを行うために必要な標準電波の発信装置が備わっている。
コードは以下から入手できる。
shogo82148/web-jjy JJYシミュレータWeb版 動かし方 パソコンのイヤホンジャックにアンテナ(普通のイヤホンで十分です)を接続し、電波時計の近くに置きます。 音量を最大にし、「Start」ボタンを押すと信号が送信されます。 電波時計を強制受信モードにし、時刻が設定されるのを待ちましょう。
パソコンの時間を基準にするので、あらかじめntpとかで時刻設定をしておくといいと思います。
原理 標準電波JJYは日本標準時のタイムコードを送信する電波で、 東日本では40kHz、西日本では60kHzの周波数で発信されています。 電波時計はこの信号を使って時刻合わせをしています。
この信号をオーディオデバイスから出力する電波時計用JJYシミュレータというものがあるのを知り、 「今のWebブラウザならjavascriptだけで実装できるのでは?」と思いやってみました。 一般的なオーディオデバイスは、20kHz以上の周波数の再生には適していないため、そのままでは40kHz/60kHzの信号は出せません。 そこで、電波時計用JJYシミュレータは、歪んだ波形に含まれる高調波を利用しています。 ボリュームを大きくして音が割れた状態になると、音声信号は矩形波に近いかたちになります。 矩形波には3倍、5倍、7倍…の奇数倍の周波数成分が含まれているため、 (世はまさに大フーリエ時代とか見ると楽しい) 13.333kHzの矩形波を出力することで、39.999kHzの信号を出せるというわけです。
元のソフトウェアはWindowsのバイナリ形式でしたが、 WebAudioの登場によりWebブラウザからも同様のことが行えるようになりました。
最後に 少し前にCPUから出るノイズを使ってAMラジオの電波を発信するという記事が話題になりましたね。
普通のコンピューターからAMラジオを鳴らそう CPUやオーディオデバイスも電気で動いている以上、電波が出ているのは当たり前のことなのですが、 こうやって改めて確認できると面白いですね。
パソコンから出る程度の電波強度では、電波法に抵触することはないと思いますが、 うっかり強力な電波を発信しないよう気をつけてください。
Goは数値と文字列を厳格に区別しますが、他の言語もそうとは限りません。 例えばPerlは数値と文字列を自動変換してくれるので、気をつけていないといつの間にか数値が文字列になっていたりします。 その言語の中に閉じていいれば問題ないのですが、Goとやり取りしようとすると困ります。 そんなときに使えるライブラリを書いてみました。
shogo82148/go-weaktyping 背景 map[string][]*stringを返してくるライブラリがあって、 そのままだと扱いにくいのでなんとか構造体にできないかと頭を悩ませていました。 JSONに一旦変換すれば楽かなーとも思ったのですが、一部フィールドを数値に変換する必要がありました。 JSONの数値と文字列を区別するため、JSONの文字列をGoの数値型に変換するのは厄介です。 タグにjson:",string"と指定すると変換可能になりますが、逆にJSONの数値を受け付けなくなりますし、 JSONに変換すると文字列になってしまいます。 変換先の構造体は普通のJSONの操作にも使いたかったので、これでは困ります。 「数値も文字列もUnmarshalできて、Marshalするときには数値になる」ようなJSONライブラリが必要でした。
"encoding/json"に代わる新しいJSONライブラリを・・・とも考えたのですが、 よく考えるとUnmarshal時の挙動は"encoding/json".Unmarshalerインターフェースを実装することでカスタマイズ可能です。 こうして作ったのが go-weaktyping です。
使い方 builtinの型の先頭を大文字にしたものを用意しているので、 適当にUnmarshalして欲しいところでbuiltinの型の代わりに指定するだけです。 以下は整数型をUnmarshalする例です。
package main import ( "encoding/json" "fmt" "log" "github.com/shogo82148/go-weaktyping" ) func main() { ptr := &struct { Foo weaktyping.Int `json:"foo"` }{} if err := json.Unmarshal([]byte(`{"foo":123}`), ptr); err != nil { log.Fatal(err) } fmt.Println("Foo:", ptr.Foo) if err := json.Unmarshal([]byte(`{"foo":"456"}`), ptr); err != nil { log.Fatal(err) } fmt.Println("Foo:", ptr.Foo) } {"foo":123}が正常にUnmarshalできるのはもちろん、 通常はエラーになってしまう{"foo":"456"}のUnmarshalも問題なく行えます。 Marshal時は通常のint型と同様に振る舞います。
以前Redisでスコアを複数設定できるランキングを作ってみたけど、 Githubの肥やしになっていてもあれなので、CPANizeしました。 あわせて、この実装のために作ったユーティリティモジュールも別モジュールとして公開しました。
Redis::LeaderBoardMulti Redis::Script Redis::Transaction Redis::LeaderBoardMulti 最初の基準で順位を決められなかった場合の第二基準が欲しいというときに使うモジュールです。 インターフェースがRedis::LeaderBoard互換になるように調整したので、 前回とインターフェースがちょっと変わっています。
se Redis; use Redis::LeaderBoard; my $redis = Redis->new; my $lb = Redis::LeaderBoardMulti->new( redis => $redis, key => 'leader_board:1', order => ['asc', 'desc'], # asc/desc, desc as default ); # Redis::LeaderBoardに合わせて複数指定できるようになりました $lb->set_score( 'one' => [100, time], 'two' => [ 50, time], ); my ($rank, $score, $time) = $lb->get_rank_with_score('one'); Redis::LeaderBoard互換なのでそのまま入れ替えられるはずですが、以下のような実装上の制限があります。
スコアはすべて64bit符号付き整数 Redis::LeaderBoardのスコアは倍精度浮動小数点型なので小数も扱えるが、Redis::LeaderBoardMultiは整数だけ Redis 2.8.9以降のみで動きます 同順の場合の出現順 Redis::LeaderBoard は ZRANK, ZREVRANK を使い分けているので、orderパラメータによって昇順/降順が変わります Redis::LaederBoardMulti は ZRANK しか使わないので、必ず昇順になります 一応 Lua Script を使わないオプションもそのまま残してありますが、特に理由がない限りデフォルト(Lua Script を使う)で使うといいと思います。 どうしてもロックの範囲が広くなってしまう場合があり、楽観的ロックでは効率が悪いケースがあるためです。
開発中のWebアプリをみんなに試してほしいけど、 サーバなんてなくて開発環境がローカルにしか無くて公開できないということは、 開発初期段階だとよくあることだと思います。 もちろん本格的にやるならテスト用にサーバを建てるべきですが、 小さなものならngrokを使うと簡単です。 ngrokの公開サーバへのHTTPリクエストをローカルにリレーして、 ローカルのサーバをお手がるに公開できるサービスです。
びっくりするほど簡単に公開できて便利ですが、 一応oAuthで制限とかかけたいなーとかカスタマイズしてみたくなってきたので、 似たようなものを自作できないかといろいろ遊んでみました。
その結果、HTTP2 over Websocketみたいな謎なものが出来上がってしまったというお話です。
HTTP2 over Websocketというアイデア ngrokっぽいものを実現するためには、 サーバが受け取ったHTTPリクエストをローカルの環境に転送する必要があります。 ご存知のとおり通常のHTTPではサーバ側からのプッシュ配信が難しいので、Websocketを使うのが良さそうです。 しかし、複数のコネクションで並列にやってくるHTTPリクエストを、一本のWebsocketに束ねる必要があり、 上手く制御するのは大変そうです。
さて、HTTP2は一つのTCPコネクションで複数のリクエストを並行処理する仕様があります。 「複数のリクエストを一本に束ねる」という点ではなんか似ているので、なんだか流用できそうな気がしてきました。 Golangならきっと上手いことinterfaceを実装すれば、なんとかできるのではとやってみました。
実装 HTTP2は暗号化や複雑なフロー制御を行っていますが、 外から見ればnet.Connインターフェースに読み書きしている何かに過ぎません。 そして、websocket.Connもnet.Connを実装しているので、そのままHTTP2のライブラリに渡せるはずです。
そうしてできたのが以下のサーバです。
package main import ( "errors" "log" "net/http" "net/http/httputil" "sync" "golang.org/x/net/http2" "golang.org/x/net/websocket" ) type transport struct { m sync.Mutex t http.RoundTripper closed chan struct{} } var t *transport func main() { t = &transport{} s := websocket.Server{Handler: websocket.Handler(Handler)} http.Handle("/", s) go http.ListenAndServe(":3000", nil) http.
「nginx で omniauth を利用してアクセス制御を行う」という記事で、 ngx_http_auth_request_moduleの存在を知ったので、 Golangでnginx_omniauth_adapterと似たようなものを作ってみました。
shogo82148/go-nginx-oauth2-adapter 背景 typester/gateは単体でも動くようになっていますが、 例えばIP制限などちょっと高度なことをしたい場合には結局nginxを前段に置く必要があります。 nginxとgateの設定を同時にいじる必要があって煩雑だと感じていました。
そんな中「nginx で omniauth を利用してアクセス制御を行う」という記事で、 ngx_http_auth_request_moduleの存在を知りました。 gateが認証+Proxyをやってしまうのに対して、認証だけRubyのomniauthモジュールで行いProxyはnginxに任せるという方法です。
以前から記事の存在は知っていたのですが、Rubyの実行環境をそろえるのが億劫で手を出せずにいました。 小さなアプリなので自分の慣れた言語で実装しても大したことないのではと思い、Goで実装してみることにしました。
使い方 go getで落として来れます。 最低限client_idとclient_secretの指定が必要です。 nginx_omniauth_adapterと同じ環境変数名で設定できるほか、YAML形式の設定ファイルを読みこませることができます。 YAMLの形式はREADMEを参照してください。
$ go get github.com/shogo82148/go-nginx-oauth2-adapter/cli/go-nginx-oauth2-adapter $ export NGX_OMNIAUTH_GOOGLE_KEY=YOUR_CLIENT_ID $ export NGX_OMNIAUTH_GOOGLE_SECRET=YOUR_CLIENT_SECRET $ go-nginx-oauth2-adapter $ go-nginx-oauth2-adapter -c conf.yaml # 設定ファイルでの指定も可能 PerlでHTTPサーバ書いているひとにはおなじみのServer::Starterにも対応しているので、 それ経由で立ち上げておくと設定の更新・プログラム自身の更新等が楽になると思います。
start_server --port 18081 -- go-nginx-oauth2-adapter -c conf.yaml nginx側の設定はexamplesディレクトリを参照してください。 ヘッダ名・パス名等を合わせてあるので、nginx_omniauth_adapterと同じ設定で動くはずです。
また、h2oの設定はプログラマブルだからh2oでもちゃんと設定ファイルを書けば動くのではと考え、 h2oの設定も書いてみました。 mrubyからproxyに渡るリクエストを書き換える方法がない(?)っぽいので、アプリ側で認証情報をとることはできないですが、一応制限はできます。 basic認証の実装を見る限りremote-userヘッダだけは渡せるようなので、これを使えばなんとかなるかもしれないですが、未確認です。 (Ruby慣れてないからってGoで実装したけど、結局Rubyを書いていて面白い)
nginx_omniauth_adapterとの違い 厳密に同じ挙動を実装するのが面倒だったため、挙動に若干の違いがあります。 一番大きなものは認証後のリダイレクト先です。
nginx_omniauth_adapterは認証後、一度adapterのURLにリダイレクトしてから、アプリサーバの/_auth/callbackにリダイレクトします。 それに対してgo-nginx-oauth2-adapterは認証後、アプリサーバの/_auth/callbackに直接リダイレクトします。 この違いのため、Google Developers Consoleの「承認済みのリダイレクト URI」に設定するべきURIが異なることに注意してください。 nginx_omniauth_adapterはadapter自身のURI、go-nginx-oauth2-adapterはアプリサーバの/_auth/callbakを指定します。
この挙動のため、go-nginx-oauth2-adapterはアプリの追加のたびにnginxの設定に加え「承認済みのリダイレクト URI」に正しいURIを追加する必要があります。 もちろん設定箇所がGoogle Developers Consoleではないだけで、nginx_omniauth_adapterもリダイレクト先の設定は必要です。 GoogleでもFacebookでも認証できるようにしたいという場合、nginx_omniauth_adapterは設定を一箇所変えればOKですが、go-nginx-oauth2-adapterは各サービスに登録し直す必要があります。 現状、認証に使うサービスをユーザが選ぶ仕組みがないので、そのまま放置してあります。
転職して1週間がたち,新しい生活サイクルにも慣れてきましたので近況報告をします. 面白法人を卒業し、3月1日から Fuller 株式会社で働き始めました! アプリの視聴率調査のApp Ape Analyticsの提供を中心に、スマフォアプリの開発・分析をやってる会社です。
Pythonの会社なのか? 私も入るまでみんなPythonを使っている会社だと思っていたのですが、 実際はPythonとjavascript半々くらいで使われています。(若干javascript勢の方が多いかも?) 最近は一部Goが導入されつつあるようでが、残念ながらPerlは影も形もありません。 折角Perlな会社にいたので、Perlの布教活動に勤しみたいと思っています。
業務の感じ チームみんなで改善点を話し合って、みんなで解決していくような感じです。 慣れないツールばっかりで苦労してますが、頑張ります。
会社の雰囲気 ひとことで言うと大学の研究室みたいな感じです。(こう言えば多くの人に伝わるんじゃないかなと) 社員の高専卒の割合が非常に高く僕自身も高専の出身なので、懐かしい感じです。
最後に一言 TLを追ってなかったので全然気が付かなかったけど、退職と転職のタイミングがamacbee氏と完全に一致していてびっくりした。 僕も26日退社、1日入社だったのです。
転職して一週間がたちました 退職します 折角なので、記事の中身もamacbee氏に合わせてみました。
やることがたくさんあるときに限ってどうでもいいことが捗ってこまっているいっちーです。 先日、挑戦状を受け取ったので、グロンギ語翻訳の品質改善に挑戦しました。
《緊急告知》2月26日(金)、何かが起こる!!「仮面ライダークウガ」にまつわる新商品のようですが・・・。ページに書かれているのは、グロンギ語?お客様の中で、リントの言葉に翻訳できる方はいらっしゃいますか~? https://t.co/hMDQCST6Tz
— プレミアムバンダイ (@p_bandai) 2016年2月17日 仮面ライダークウガより衝撃の新アイテム登場 ボンジ・ジュグギゾ・ガギバギ・グスと判明!(投げやり) お手軽に試せるページも作ったので、こちらでお試し下さい。
グロンギ語翻訳 変換の仕組み 変換の仕組みの詳細は以前書いた記事をどうぞ。 概略だけ書いておくと、 日本語からグロンギ語への変換はMeCabを使った読み・品詞推定の結果もとに、 変換ルールを適用して翻訳しています。 グロンギ語から日本語への翻訳は、この翻訳問題が実は仮名漢字変換と同じ問題だということを利用して、 IMEの辞書をグロンギ語対応したものを使っています。
変換ロジックの修正 旧版の問題点 ボンジジュグギゾガギバギグス: 紺地重視を再開する ゲゲルンギバブゾロヅボパザセザ: ゲームのしなくっ持つのはだれだ ゲゲルゾザジレスゾ: ゲームを始めるぞ 「この日」は「ボンジ」が正しいのですが、「ボボジ」と変換していたため正しく認識できていませんでした。 「の」は通常「ガ」になるのですが、助詞として現れたときは「ン」になります。 さらに連体詞の一部として出てきたときも「ン」になるのですが、こちらのルールが抜けていました。
さらなる改良 旧版はmecab-skkdicを元にした辞書を使っていましたが、 mozcベースに変更しました。 mozcの辞書はクラスタリングや語彙化のような粒度調整が行われており、変換精度の向上が期待できます。 どのようが調整が行われたかはMozcソースコード徹底解説 や 言語処理学会でのMozcの資料を見るとよいと思います。
mozcの変換エンジンをそのまま使えると良かったのですが、すごく面倒なことがわかったのでギブアップしました。 (依存モジュールの関係で32bit版しかビルドできず64bitのプログラムからは直接呼び出せないとか、C++とかC++とかC++とか) mozcとMeCabの辞書構造は非常に似ているので、MeCabの辞書形式に変換して利用しています。 mozcには共起辞書を使った補正機能(例えば同じ「かいたい」という読みでも、「猫を飼いたい」「マグロを解体」を出し分ける機能)など、 MeCabにはない機能も入っているので、そのうち挑戦してみたいですね。 ただし、mozcには機能だけ組み込まれていて辞書が入っていないので、mozcを使っただけだと大差ないかもしれません。
改良の結果 ボンジジュグギゾガギバギグス: この日重視を再開する ゲゲルンギバブゾロヅボパザセザ: ゲームの資格を持つ子は誰だ ゲゲルゾザジレスゾ: ゲームを始めるぞ だいぶ近くなりました。 「重視」と「遊戯」はグロンギ語で同じ音なので、難しいですね。
変換サーバの実装 ライブラリはPythonで書いてあるので、 PythonのWebフレームワークであるPyramidを使ってAPI化してみました。
デプロイ時のファイル置き換えをアトミックにする sakuraのVPS上でdrootを使って起動しています。 kazuhoさんの「server-starter が SIGHUP 受け取ると pull 型のデプロイツールが起動して、そいつが新しいディレクトリにイメージを展開して、そこに chroot してアプリケーションが動き出すスタイル」を実践してみたくなったので、以下のようなスクリプトを書いてみました。
CONTAINER_DIR=/var/containers/hogehoge-$$ tar zfx hogehoge.tar.gz -C $CONTAINER_DIR droot run --root $CONTAINER_DIR exec gunicorn server:application & CHILD=$!
GolangからMeCabを呼び出すライブラリ探せばあるにはあるのですが、 なんだかどれもメモリ管理がちょっと怪しいんですよね・・・。
GolangでMeCabを使う。 yukihir0/mecab-go Go言語から mecab を使う - Qiita rerofumi/mecab Go で Mecab を使ってみた メモリ管理はbluele/mecab-golangが一番しっかりしているっぽいですが、 libmecabの一番高機能だけど面倒な使い方しか対応していなくて、ちょっとカジュアルに遊ぶにはつらい。
というわけで、カジュアルな用途から高度な使い方まで対応したWrapperを書いてみました。
shogo82148/go-mecab 使い方 READMEとgodocのexamplesからのコピペになってしまいますが、 簡単に使い方の紹介です。
インストール go getで取ってくることはできますが、事前にlibmecabとリンクするための設定が必要です。
$ export CGO_LDFLAGS="-L/path/to/lib -lmecab -lstdc++" $ export CGO_CFLAGS="-I/path/to/include" $ go get github.com/shogo82148/go-mecab mecabコマンドと一緒にmecab-configがインストールされているはずなので、 それを使うのが楽でしょう。
$ export CGO_LDFLAGS="`mecab-config --libs`" $ export CGO_FLAGS="`mecab-config --inc-dir`" $ go get github.com/shogo82148/go-mecab MeCabはデフォルトで/usr/local/以下に入るので、他の実装では決め打ちしている例が多いですが、 100%とは言い切れないので面倒ですが都度指定にしてあります。 cgoはpkg-configに対応しているで、MeCab側が対応してくれると環境変数の設定が不要になってもっと楽なんですけどね。
カジュアルに使う Parseを使うとmecabコマンドと同等の結果を文字列として受け取れます。
tagger, err := mecab.New(map[string]string{}) if err != nil { panic(err) } defer tagger.Destroy() result, err := tagger.
MeCabのPythonバインディングをいじってた関係で、MeCabについてインターネットをさまよっていたら、 AWS Lambda で MeCab を動かすという記事を見つけました。 Lambdaの計算リソースで形態素解析できるのは楽しいですねー。 ただ実装にまだまだ改善できそうな部分があったので修正してみました。
2017/12/06追記 Norio Kimuraさんのコメントを受けて、MeCabをAWS Lambdaで動かす(2017年版)を書きました。 以下の手順でも動きますが、少し簡単に出来るようになっています。
問題点 第一に**「外部プロセスを起動しているので遅い」**という点です。 外部プロセスの起動は非常に重くて数百msかかります。 MeCabは非常に高速で数msもあれば解析が終わるのに、もったいないですよね。
第二に**「OSコマンドインジェクションの危険性がある」**という点です。 解析対象の文字列をコマンドライン引数として渡しており、この際シェルを経由しています。 そのため、{"sentence": "$(ls)"}のような文字列を渡すと、シェルがコマンドとして実行してしまいます。 API Gatewayなどで外部に公開した場合、第三者が何でもし放題な状態になってしまいます。
頑張ってMeCabをライブラリとして呼ぶ 全ての元凶は外部プロセス起動にあるので、頑張ってMeCabをライブラリとして呼んでみましょう。 そもそもなんで外部プロセス起動をしていたかというと、 LD_LIBRARY_PATHが正しく設定されていないためimport MeCab時にlibmecab.soを発見できないからです。 なんとかならないものかと探したところ、Stack Overflowにそれっぽい記事がありました。
Setting LD_LIBRARY_PATH from inside Python 「環境変数を設定してから自分自身をexecし直す方法」と「ctypesを使って絶対パス指定で読み込む方法」が紹介されています。 前者の方がvoteは多いですがLambdaでこれをやるのは大変そうなので、後者で試してみます。
# preload libmecab import os import ctypes libdir = os.path.join(os.getcwd(), 'local', 'lib') libmecab = ctypes.cdll.LoadLibrary(os.path.join(libdir, 'libmecab.so')) 一度読み込んでしまったライブラリは再利用されるため、 import MeCabはここで読み込んだライブラリにリンクされます(importの順番が重要なの闇な感じがする)。 LD_LIBRARY_PATHが正しく設定されている必要はありません。
さて、これでlambda_function.pyとtokenizer.pyが分かれている必要がなくなったので、二つを合体してみましょう。
# coding=utf-8 import os import settings import logging logger = logging.getLogger(__name__) logger.setLevel(settings.LOG_LEVEL) # preload libmecab import ctypes libdir = os.