LLVM 3.0

1

3

30.11.2011 в свет вышла очередная версия фреймворка для построения компиляторов и виртуальных машин.

Википедия
Low Level Virtual Machine (LLVM) — универсальная система анализа, трансформации и оптимизации программ, реализующая виртуальную машину с RISC-подобными инструкциями. Может использоваться как оптимизирующий компилятор этого байткода в машинный код для различных архитектур либо для его интерпретации и JIT-компиляции (для некоторых платформ).

Проект LLVM официально включает в себя следующие основные проекты:

LLVMCore - библиотеки для обеспечения платформонезависимой оптимизации и кодогенерации под различные виды процессоров и платформ;
CLang - компилятор языков C/C++/Objective-C для LLVM;
dragonegg - объединяет в себе парсер GCC-4.5 и оптимизацию и кодогенерацию на основе библиотек LLVM;
LLDB - дебаггер, использует Clang и LLVM;
libc++ - реализация стандартной библиотеки C++ (включает неполную поддержку стандарта C++11);
vmkit - реализация языков Java и .Net для LLVM;
SAFECode - память-безопасный компилятор С/С++.

Помимо упомянутых официальных проектов существует большое количество проектов, которые используют LLVM для компиляции программ для таких языков как Ruby, Python, Haskell, Java, D, PHP, Lua и т.д.

Основные изменения:

llvm-gcc больше не поддерживается, рекомендуется использовать clang или dragonegg;
LLVM IR (intermediate representation - платформонезависимый ассемблер для LLVM) включает в себя полную поддержку атомарных операций с памятью (load, store, compare, exchange, read/modify/write, etc.);
полностью переделан механизм обработки исключений в LLVM IR;
полностью переделана система типов LLVM IR;
MIPS backend доведён до production quality;
...

Полный и подробный перечень изменений можно посмотреть в подробностях.

В настоящее время для скачивания доступен только исходный код (через svn). В ближайшее время на сайте в списке закачек ожидается появление бинарных сборок и тарболла.

>>> Подробности (англ.)

Ссылка

← GNUnet 0.9.0

Реализован порт LinuxTV под Windows →

← 1 2 3 4 5 6 7 →

Ответ на: комментарий от stack_protector 01.12.11 14:27:15 MSK

А здесь ему то зачем? В том же С++ при использовании битовых полей мало что гарантируется, кроме как того, что ты сможешь обращаться к нему. А уж порядок бит там это личные сексуальные проблемы компилятора.

namezys ★★★★
(01.12.11 14:29:35 MSK)

Ответ на: комментарий от namezys 01.12.11 14:26:02 MSK

Ты не развернул вот эту часть:

если align в struct, union происходит в порядке увеличения адреса в байтах.

И напиши, что такое «арифметическое понимание»

А так же, ты начал с ассемблера и IR и Endiannes. Ты с ними разобрался?

Rzhepish ★
(01.12.11 14:31:01 MSK)

Ответ на: комментарий от namezys 01.12.11 14:29:35 MSK

А уж порядок бит там это личные сексуальные проблемы компилятора.

Порядок бит? Можно подробнее?

Rzhepish ★
(01.12.11 14:31:43 MSK)

Ответ на: комментарий от Rzhepish 01.12.11 14:31:01 MSK

арифмитический - это порядок их в логическом представлеи числа 987654321. А вот как они будут лежать в памяти - зависит от платформы

И да, я писал код, который учитывал это, ибо работал он и на ppc и на x86, но этот код писал я, а не компилятор.

namezys ★★★★
(01.12.11 14:33:30 MSK)

Ссылка

Ответ на: комментарий от Rzhepish 01.12.11 14:31:43 MSK

Блин.

Арифметическое: fedcba9876543210

В памяти: 76543210fedcba98

Но когда ты обращаешься к нему, как к единому типу, ты не задумываешься об этом.

namezys ★★★★
(01.12.11 14:35:04 MSK)

Ответ на: комментарий от namezys 01.12.11 14:35:04 MSK

Если бы ты биты доставал из массива, я тогда понимаю, компилятору надо было бы считать это. Но ты биты достаешь битовой маской.

namezys ★★★★
(01.12.11 14:36:38 MSK)

Ссылка

Ответ на: комментарий от anonymous 01.12.11 14:29:03 MSK

Да, да. У меня сразу этот топик хабра всплыл в голове.

Sparn
(01.12.11 14:41:03 MSK)

Ссылка

Ответ на: комментарий от namezys 01.12.11 14:27:44 MSK

Я до сих пор не понимаю, зачем КОМПИЛЯТОРУ

Да понял я, что ты этого не понимаешь. Но вопрос не об ограниченности твоих (или моих, раз я не могу привести четкий use-case), а в дизайне LLVM.

tailgunner ★★★★★
(01.12.11 14:43:52 MSK)

Ответ на: комментарий от tailgunner 01.12.11 14:43:52 MSK

Не. Ну может быть какому-то компилятору это и надо, но точно не С/С++. Вообще, если компилятор генерирует код (именно автогененрируемый код, а не код, написанный программистом), и он может быть зависим от этого, то компилятор должен это учитывать. Но use-case этого я не представляю.

namezys ★★★★
(01.12.11 14:46:27 MSK)

Ответ на: комментарий от Rzhepish 01.12.11 14:31:01 MSK

Если вы пользуетесь высокоуровневыми средствами Си++, Паскаля, Питона и т.д. то он транслируются в высокоуровневые инструкции IR (т.е. в IR структуры будут представлены как структуры) которые будут корректно транслированы в машинный код, если же вы к структуре обращаетесь как к массиву байтов (т.е. буз корректного преобразования типа пытаетесь работать на низком уровне) то уж извольте вас никакой компилятор не спасет by design. Вы должны осознавать что делаете.

Sparn
(01.12.11 14:46:59 MSK)

Ответ на: комментарий от Sparn 01.12.11 14:46:59 MSK

буз = без. Я не поверю что какой-то мифический компилятор прочитает ваши мысли и переставит для вас байты в нужном порядке в вашем use-case.

Sparn
(01.12.11 14:48:54 MSK)

Ссылка

Ответ на: комментарий от namezys 01.12.11 14:35:04 MSK

Компилятору тоже нужно об этом знать, хотя бы в случаях приведения типов (из лонга сделать инт и наоборот) и сравнения разных типов (корректно сравнить тот же лонг с чаром).

anonymous
(01.12.11 14:50:36 MSK)

Ответ на: комментарий от anonymous 01.12.11 14:50:36 MSK

Повторюсь: IR достаточно высокоуровневый. У него есть всевозможные инструкции приведения типов. И даже куда более высокоуровневые. Взять пример из новости:

LLVM IR (intermediate representation - платформонезависимый ассемблер для LLVM) включает в себя полную поддержку атомарных операций с памятью (load, store, compare, exchange, read/modify/write, etc.);

Эти инструкции в случае если не поддерживаются платформой могут быть реализованы конечным транслятором с помощью десятков машинных инструкций и даже вызовом специфического API конкретной ОС.

Sparn
(01.12.11 14:55:32 MSK)

Ссылка

Ответ на: комментарий от namezys 01.12.11 14:46:27 MSK

Хотя в принципе думаю проблемы такой (сильной привязки к особенностям железа) нет в принципе - на уровне виртуальной машины вводятся стандарты (например: все числа хранятся как индианлесс). Далее при трансляции из исходников в байт-код попадают уже правильно расположенные байты, а при трансляции из байт-кода в нативный код уже конвертируются под особенности конкретной архитектуры ЦПУ. И введением таких стандартизованных ограничений на язык байт-кода можно видимо обойти любые ограничения на несовместимость железа - думаю, именно так и работают остальные компиляторы

anonymous
(01.12.11 14:56:18 MSK)

Ответ на: комментарий от mono 01.12.11 14:07:31 MSK

эх ты... знаток Mono и ник такой же ))) мы про нативные говорим вообщето и то как они подцепляются, ясен красен что .net-овские dll совершенно иного рода

I-Love-Microsoft ★★★★★
(01.12.11 14:56:26 MSK)

Главная фича новых плюсов «Concurrency» вообще не поддерживается. Кому нужен такой компилятор?

anonymous
(01.12.11 14:58:00 MSK)

Ссылка

Ответ на: комментарий от mono 01.12.11 14:07:31 MSK

из доков на Mono

The Common Language Infrastructure (CLI) is designed to make it «easy» to interoperate with existing code. In principal, all you need to do is create a DllImport function declaration for the existing code to invoke, and the runtime will handle the rest. For example:
 [DllImport ("libc.so")]
 private static extern int getpid ();

вот такая интеграция мне нра

I-Love-Microsoft ★★★★★
(01.12.11 14:59:12 MSK)

Ссылка

Ответ на: комментарий от Rzhepish 01.12.11 14:31:01 MSK

Не много языков позволят вам такое наплевательское отношение к типам чтобы обращаться к структуре как к массиву байт, но даже если взять самый популярный (и ненавистный) из таких Си/Си++ то ваш код не будет работать на платформах с разным размером int, порядком байт в слове, значением align и т.д. Разве что вы будете совершать соответствующие проверки например с помощью sizeof, но стоп! тогда эти же проверки будут и в IR и оно будет работать так же ) Алилуйя.

Sparn
(01.12.11 15:03:50 MSK)

Ответ на: комментарий от I-Love-Microsoft 01.12.11 14:56:26 MSK

тогда я не понимаю, в чем проблема, в питоне же есть поддержка FFI. или что-то другое имеется в виду?

для простоты можно какой-нибудь SWIG юзать.

mono ★★★★★
(01.12.11 15:11:47 MSK)

А могёт кто полноценно сделать обзор и сравнить производительность программ, максимально оптимизированных с помощью LLVM, старого доброго gcc и интеловского icc? Например, как распараллеливаются циклы по ядрам и пр. и пр. С цифрами-то и примерами интереснее было бы аргументировать.

glibych ★★
(01.12.11 15:13:29 MSK)

Ответ на: комментарий от Rzhepish 01.12.11 14:31:43 MSK

Язык Си разрабатывался как платформонезависемый, и если пишется переносимый код, то биты вытягиваются так i&MASK=MASK

Если вы к структурам обращаетесь как к массиву байт, то не LLVM компилятор вас не спасет, в разных компиляторах есть разные опции, которые могут изменить физическую адресацию структур, например для оптимизация памяти/скорости, могут сделать адресацию/смещение кратным, например 64 битам и т.п... .

Сразу вспомнился термин БЫДЛОКОД из луркморе :)

anonymous
(01.12.11 15:13:47 MSK)

Ответ на: комментарий от glibych 01.12.11 15:13:29 MSK

Сорри за возможно глупый вопрос =) Но разве сейчас кто-то в продакшене полагается на автоматическое распараллеливание? =)

Sparn
(01.12.11 15:16:32 MSK)

Ответ на: комментарий от mono 01.12.11 15:11:47 MSK

import ctypes
libc = ctypes.CDLL( '/lib/libc.so.6' )
t = libc.time(None)
print t

да, точно, не знал - нашел, я как раз этим интересовался

I-Love-Microsoft ★★★★★
(01.12.11 15:16:44 MSK)

Ответ на: комментарий от anonymous 01.12.11 14:50:36 MSK

Компилятору тоже нужно об этом знать, хотя бы в случаях приведения типов

Тут я соглашусь, но для этого вроде есть команды в само llvm, так что такие операции просто транслируются без изменений.

namezys ★★★★
(01.12.11 15:22:56 MSK)

Ссылка

Ответ на: комментарий от anonymous 01.12.11 14:56:18 MSK

И введением таких стандартизованных ограничений на язык байт-кода можно видимо обойти любые ограничения на несовместимость железа

Оно то да. Но язык должен стать очень умный, ибо пришлось бы анализировать, что вот этот void* это long, а вот этот char. А от этого пытались уйти.

namezys ★★★★
(01.12.11 15:24:52 MSK)

Ссылка

Ответ на: комментарий от anonymous 01.12.11 15:13:47 MSK

А теперь расскажи, как современные компиляторы оптимизируют код, платформенно-независимо

Rzhepish ★
(01.12.11 15:25:12 MSK)

Ответ на: комментарий от Sparn 01.12.11 15:03:50 MSK

Вообще ограничения, связанные с разными размерами типов, а, следовательно, разнными вариатами allign присущи всем компиляторам. Так что это проблема программиста ИМХО.

namezys ★★★★
(01.12.11 15:28:00 MSK)

Ответ на: комментарий от glibych 01.12.11 15:13:29 MSK

А могёт кто полноценно сделать обзор и сравнить производительность

Делали. Скоро будет еще. Сравнимо, но llvm проигрывал

namezys ★★★★
(01.12.11 15:28:43 MSK)

Ответ на: комментарий от anonymous 01.12.11 15:13:47 MSK

Сразу вспомнился термин БЫДЛОКОД из луркморе :)

Именно. Должны быть веские основания для того, чтоб так делать. Как мы уже тут обсудили, use case, кроме как ошибки программиста и быдлокода, мы не увидели.

namezys ★★★★
(01.12.11 15:29:55 MSK)

Ссылка

Ответ на: комментарий от Rzhepish 01.12.11 15:25:12 MSK

Пафосно-интеллигентным тоном: Как, разве Вы не читали код современного компилятора? :)

anonymous
(01.12.11 15:30:52 MSK)

Ответ на: комментарий от anonymous 01.12.11 15:30:52 MSK

Молодец, соображаешь. Не то, что тупые регистранты :D

Rzhepish ★
(01.12.11 15:35:18 MSK)

Ссылка

Ответ на: комментарий от cvs-255 01.12.11 12:51:29 MSK

LLVM реализует виртуальную RISC-машину (так говорит википедия).

Советую тебе пореже заходить на ru.wikipedia.org. Ассемблер LLVM имеет под собой некую теоретическую базу (http://en.wikipedia.org/wiki/SSA_(compilers) ) и весьма эффективно транслируется в машинный код x86, которые, как известно, являются представителями CISC архитектуры.

red_eyed_peguin ★
(01.12.11 15:36:25 MSK)

Ответ на: комментарий от Rzhepish 01.12.11 15:25:12 MSK

А теперь расскажи, как современные компиляторы оптимизируют код, платформенно-независимо

Ты сомневаешься в существовании платформно-независимых оптимизаций, или что? %)

tailgunner ★★★★★
(01.12.11 15:36:59 MSK)

Ответ на: комментарий от namezys 01.12.11 15:28:00 MSK

Вообще ограничения, связанные с разными размерами типов, а, следовательно, разнными вариатами allign присущи всем компиляторам. Так что это проблема программиста ИМХО.

Вот именно ) раз уж он решил что он в низкоуровневом программировании разбирается лучше )

А теперь расскажи, как современные компиляторы оптимизируют код, платформенно-независимо

Можно я? =) Способов много, лучше почитать статьи на эту тему хотя бы на сайте того же LLVM, первое что приходит на ум это инлайнинг функций, упрощение некоторых мат вычислений (да, да, может быть и такое, если программисту совсем уж было лень замарачиваться и он пропустил очевидные оптимизации), удаление хвостовых рекурсий, отбрасывание не используемого кода и т.д. Кроме того такое представление отлично подходит для статического анализа кода(т.е. программисту могут выдаваться варнинги от «Ты забыл инициализировать переменную» до «Вах! У тебя здесь может быть утечка памяти/других ресурсов», «Вайвайвай может быть dead lock» и т.д.) и всё это не зависимо от языка на котором пишется программа.

Sparn
(01.12.11 15:37:15 MSK)

Ответ на: комментарий от Sparn 01.12.11 15:16:32 MSK

Если серьозно, то сабж собственно не имеет отношения к распаралеливанию. Класический вариант, получение данных в цикле и дальше обработка данных в так и останется, соответственно на последних этапах компиляции в машинный код, такая ситуация может быть распознана и обход/анализ могут быть запараллелены.

anonymous
(01.12.11 15:39:24 MSK)

Ссылка

Ответ на: комментарий от tailgunner 01.12.11 15:36:59 MSK

Это был намёк на то, что современные компиляторы делают очень много оптизаций на разных проходах/стадиях, часть из которых сильно платформенно-зависима и эту часть нельзя в принципе сделать платформенно-независимой. Соответственно нельзя дропать такие вещи, как уже замусоленный endianness, так как это дропнет эти оптизации.

Rzhepish ★
(01.12.11 15:40:05 MSK)

Ответ на: комментарий от Sparn 01.12.11 15:37:15 MSK

Можно я? =) Способов много, лучше почитать статьи на эту тему хотя бы на сайте того же LLVM,

Молодец, после такого твоего объяснения наконец-то смогу спокойно спать. Благодарсвтую.

Rzhepish ★
(01.12.11 15:42:58 MSK)

Ссылка

Ответ на: комментарий от Rzhepish 01.12.11 15:40:05 MSK

Ваш намек принят к сведению и отправлен разрабам через машину времени в прошлое, поэтому платформозависимые оптимизации в LLVM стеке есть ;)

Sparn
(01.12.11 15:43:19 MSK)

Ответ на: комментарий от Sparn 01.12.11 15:37:15 MSK

Ну вообще, из машинспецифичных вещей, которые скорей всего не может сделать llvm (я не знаю его так хорошо), это inline, решение о включении которого нужно принимать на основе знаний о количествах регистров, длине кода и размере кэша. Это мне щас подумалось, но может это и сделано нормально в llvm, что уже кодогенератор решает.

namezys ★★★★
(01.12.11 15:43:46 MSK)

Ответ на: комментарий от Rzhepish 01.12.11 15:40:05 MSK

Соответственно нельзя дропать такие вещи, как уже замусоленный endianness, так как это дропнет эти оптизации.

Как только начинаешь думать об endianness, оптимизация летит в Ж

namezys ★★★★
(01.12.11 15:45:30 MSK)

Ответ на: комментарий от namezys 01.12.11 15:45:30 MSK

Ты толст.

Rzhepish ★
(01.12.11 15:46:19 MSK)

Ответ на: комментарий от Sparn 01.12.11 15:43:19 MSK

Все таки вы меня заинтересовали вопросами платформозависимых оптимизаций. Как нить почитаю детали. Интересно

namezys ★★★★
(01.12.11 15:46:19 MSK)

Ссылка

Ответ на: комментарий от buddhist 01.12.11 12:38:28 MSK

Байткод нужен в качестве кроссплатформенного ассемблера, чтобы разработчики фронтендов не беспокоились о поддержке кучи архитектур.

до версии 3 байткод не был кроссплатформенным. Это изменили?

yyk ★★★★★
(01.12.11 15:46:30 MSK)

Ответ на: комментарий от Rzhepish 01.12.11 15:46:19 MSK

Ты толст.

Сам толст. Если ты runtime начинаешь менять порядок байт или выбирать с помощью адресной арифметики байта вместо применения маски или сдвигов, то ты ССЗБ

namezys ★★★★
(01.12.11 15:47:11 MSK)

Ответ на: комментарий от red_eyed_peguin 01.12.11 15:36:25 MSK

Ассемблер LLVM имеет под собой некую теоретическую базу (http://en.wikipedia.org/wiki/SSA_(compilers) ) и весьма эффективно транслируется в машинный код x86, которые, как известно, являются представителями CISC архитектуры.

это забота программиста как сгенерировать промежуточное преставление, и, собственно, SSA или CPS там решается до построения IR

shty ★★★★★
(01.12.11 15:47:36 MSK) автор топика

Ответ на: комментарий от namezys 01.12.11 15:43:46 MSK

Я уверен что есть платформонезависимый инлайнинг ) ибо сегодня очень модно писать например геттеры и сеттеры в одну строчку, типа: public int value { get { return _value; } set { _value = value; } }

так что есть смысл от такого оптимизатора )

Sparn
(01.12.11 15:49:40 MSK)

Ответ на: комментарий от namezys 01.12.11 15:47:11 MSK

Я атлетично сложен, не наговаривай на меня.

Rzhepish ★
(01.12.11 15:49:44 MSK)

Ответ на: комментарий от Gorthauer 01.12.11 13:29:22 MSK

Там вообще-то байткод платформозависимый по умолчанию.

ещё раз - до 3-й версии он не был таким. Что-то изменилось?

yyk ★★★★★
(01.12.11 15:51:09 MSK)

Ссылка

Ответ на: комментарий от Sparn 01.12.11 15:49:40 MSK

У меня ненароком действительно в 1 строчку получилось =) сорри )

Sparn
(01.12.11 15:51:18 MSK)

Ссылка

Ответ на: комментарий от Sparn 01.12.11 15:49:40 MSK

так что есть смысл от такого оптимизатора )

Это да. Надо бы покурить, интересная это вещь.

namezys ★★★★
(01.12.11 15:54:49 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 4 5 6 7 →

← GNUnet 0.9.0

Open Source

Реализован порт LinuxTV под Windows →

Похожие темы